¿Qué es la inferencia de la inteligencia artificial?
La inferencia de la inteligencia artificial ocurre cuando un modelo de inteligencia artificial proporciona una respuesta a partir de datos. En general, lo que algunos denominan "inteligencia artificial" se refiere en realidad al éxito de la inferencia de la inteligencia artificial, es decir, la fase final, o el punto de inflexión, de un proceso largo y complejo de tecnología de machine learning (aprendizaje automático).
El entrenamiento de este tipo de modelos con datos suficientes mejora la precisión y la velocidad de la inferencia.
Por ejemplo, si se entrena un modelo de inteligencia artificial con información sobre los animales (sus similitudes y diferencias, el estado de salud y el comportamiento típico), es necesario disponer de un gran conjunto de datos para establecer conexiones e identificar patrones.
Una vez que el modelo se entrena con éxito, puede realizar inferencias, como identificar una raza de perro, reconocer el maullido de un gato o incluso advertir si un caballo está asustado. A pesar de que nunca haya observado a estos animales más que en un conjunto de datos abstractos, la gran cantidad de información empleada en el entrenamiento permite al modelo hacer inferencias en un entorno nuevo en tiempo real.
Nuestro propio cerebro también realiza conexiones de este tipo. Podemos leer sobre los diferentes animales en libros, películas y en Internet; podemos mirar fotos, ver videos y escuchar el sonido que emiten. Incluso, cuando vamos al zoológico, podemos hacer una inferencia ("¡Eso es un búfalo!"). Aunque nunca hayamos estado allí antes, somos capaces de identificar al animal a partir de la investigación que llevamos a cabo. Este mismo proceso ocurre con los modelos de inteligencia artificial durante la inferencia.
Descubre las novedades de Red Hat AI en nuestro próximo evento en vivo. Accede a la sesión en vivo.
La importancia de la inferencia de la inteligencia artificial
La inferencia de la inteligencia artificial es la fase operativa de esta tecnología, en la que el modelo puede aplicar los conocimientos adquiridos en el entrenamiento a situaciones del mundo real. La posibilidad para identificar patrones y llegar a conclusiones son algunas de las características que la distingue de otras tecnologías. Además, su capacidad de inferencia puede facilitar la realización de tareas prácticas cotidianas o de programación informática de gran complejidad.
Sin embargo, el crecimiento constante de los modelos afecta el rendimiento de la inferencia. A medida que los modelos se vuelven más complejos, este proceso se torna más lento.
Para que la inferencia sea exitosa, los modelos de inteligencia artificial deben realizar muchas operaciones matemáticas en poco tiempo. Por lo tanto, factores como el tamaño del modelo, el gran volumen de usuarios y la latencia pueden limitar el rendimiento. Cuando los modelos requieren más datos y más memoria, el hardware y los aceleradores tienen dificultades para satisfacer tal demanda.
Es por eso que el hardware y el software que te permiten realizar inferencias pueden facilitar o entorpecer tu estrategia de inteligencia artificial.
Red Hat AI
Casos prácticos de inferencia de la inteligencia artificial
En la actualidad, las empresas usan la inferencia de la inteligencia artificial en diversos casos prácticos cotidianos. Estos son algunos ejemplos:
Salud: La inferencia de la inteligencia artificial permite que los especialistas de la salud comparen la historia clínica del paciente con los datos actuales y detecten patrones y anomalías más rápido que si lo hiciera una persona. Puede tratarse de un valor atípico en un escáner cerebral o de una irregularidad en los latidos del corazón. De este modo, es posible advertir signos de riesgo para la salud del paciente en una fase más temprana y en mucho menos tiempo.
Finanzas: Una vez que la inferencia de la inteligencia artificial se entrena con grandes conjuntos de datos relativos a información bancaria y crediticia, puede identificar errores o anomalías en tiempo real y detectar posibles fraudes de manera rápida y anticipada. Gracias a ello, se optimizan los recursos del servicio de atención al cliente, se protege su privacidad y se mejora la reputación de la marca.
Sector automotor: A medida que este sector incorpora la inteligencia artificial, los vehículos autónomos cambian nuestra forma de conducir. Gracias a su capacidad de inferencia, los vehículos pueden seguir la ruta más eficiente del punto A al punto B o frenar cuando se aproximan a una señal de "pare", con el fin de mejorar la comodidad y la seguridad de sus ocupantes.
Muchos otros sectores también aplican la inferencia de la inteligencia artificial de manera creativa; por ejemplo, puede emplearse en un servicio de comida rápida, en una clínica veterinaria o en la conserjería de un hotel. Las empresas buscan distintas formas de aprovechar esta tecnología para mejorar su precisión, ahorrar tiempo y dinero y mantener su ventaja frente a la competencia.
El entrenamiento de la inteligencia artificial
Se trata del proceso mediante el cual se utiliza una serie de datos para enseñar al modelo a establecer conexiones e identificar patrones. En cambio, la inferencia es el modelo de inteligencia artificial en acción.
La mayor parte del entrenamiento tiene lugar en las fases iniciales del desarrollo del modelo. Después de este proceso, puede establecer conexiones con información que no conocía. Si se entrena un modelo de inteligencia artificial con un conjunto de datos más amplio, puede realizar más conexiones y hacer inferencias más precisas. En caso de que no lo logre tras el entrenamiento, es posible perfeccionarlo con información más detallada y mejorar la precisión.
El entrenamiento y la inferencia de la inteligencia artificial permiten que esta imite ciertas competencias de las personas, como sacar conclusiones basadas en pruebas y hacer el análisis respectivo.
Ciertos factores, como el tamaño del modelo, pueden cambiar la cantidad de recursos que se necesitan para manipularlo.
Distintos tipos de inferencia de la inteligencia artificial
Los distintos tipos de inferencia de la inteligencia artificial pueden adaptarse a diferentes casos prácticos.
- Inferencia por lotes: El nombre deriva del modo en que se reciben y procesan los datos, es decir, en grandes grupos. En lugar de realizar la inferencia en tiempo real, este método trata los datos por tandas (en ocasiones, cada hora o, incluso, cada día), en función de su volumen y de la eficacia del modelo de inteligencia artificial. Estas inferencias también se pueden denominar "inferencias sin conexión" o "inferencias estáticas".
Inferencia en línea: Este tipo, también conocido como "inferencia dinámica", ofrece una respuesta en tiempo real. Para ello, se necesitan hardware y software que reduzcan los obstáculos relacionados con la latencia y permitan realizar predicciones a alta velocidad. Es de gran utilidad en el extremo de la red, ya que la inteligencia artificial opera en el lugar en el que residen los datos; por ejemplo, en un teléfono, en un automóvil o en una oficina remota con conectividad limitada.
La herramienta ChatGPT de OpenAI es un buen ejemplo de inferencia en línea porque requiere mucho soporte operativo inicial para ofrecer una respuesta rápida y precisa.
- Inferencia constante: Es un sistema basado en la inteligencia artificial que no se utiliza necesariamente para comunicarse con las personas. En lugar de indicaciones y solicitudes, el modelo recibe un flujo constante de información para hacer predicciones y actualizar su base de datos interna. Este tipo de inferencia puede hacer un seguimiento de los cambios, mantener la regularidad o predecir un problema antes de que surja.
Servidor de inferencia de la inteligencia artificial
Se trata de un software que contribuye a que un modelo de inteligencia artificial pase de la fase de entrenamiento a la operativa. Utiliza el machine learning para que el modelo ponga en práctica todo lo que aprendió y genere inferencias.
Para obtener resultados eficaces, es necesario que el servidor y el modelo sean compatibles. A continuación, se presentan algunos ejemplos de los servidores de inferencia y los modelos que mejor se adaptan a ellos:
- Servidor de inferencia multimodal: Este tipo de servidor de inferencia admite diversos modelos a la vez. Esto significa que puede recibir datos en forma de código, imágenes o texto y procesar todas estas inferencias diferentes en un mismo servidor. Además, utiliza la memoria de la GPU y la CPU de manera más eficiente para admitir más de un modelo, lo cual permite optimizar el hardware, facilitar su capacidad de ajuste y optimizar los costos.
- Servidor de inferencia de modelo único: Este tipo de servidor de inferencia solo admite un modelo, en lugar de varios. El proceso de inferencia de la inteligencia artificial tiene la particularidad de comunicarse con un modelo entrenado para un caso práctico concreto. Es posible que únicamente pueda procesar los datos en forma de texto o de código. Gracias a su carácter más especializado, puede ser muy eficiente, lo cual resulta útil a la hora de tomar decisiones en tiempo real o cuando los recursos son limitados.
Desafíos de la inferencia de la inteligencia artificial
Los principales desafíos a la hora de realizar inferencias de la inteligencia artificial están relacionados con la capacidad de ajuste, los recursos y los costos.
- Complejidad: Es más sencillo enseñarle a un modelo a ejecutar tareas sencillas, como generar una imagen o informar a un cliente sobre una política de devoluciones. Sin embargo, a medida que utilizamos modelos para aprender datos más complejos (como detectar fraudes financieros o identificar anomalías médicas), requieren una mayor cantidad de información durante el entrenamiento y más recursos para respaldarla.
- Recursos: Para que los modelos sean más complejos, es necesario disponer de hardware y software especializados que permitan gestionar la gran cantidad de datos que se procesan cuando un modelo genera inferencias. Uno de los elementos clave de estos recursos es la memoria de la unidad central de procesamiento (CPU), a la que se suele denominar centro de control de una computadora. Cuando un modelo se dispone a aplicar la información recibida (datos de entrenamiento) para generar una respuesta, debe consultar los datos almacenados en la memoria de la CPU.
- Costo: El conjunto de todos los elementos que posibilitan la aplicación de la inferencia de la inteligencia artificial es costoso. Independientemente de que tu objetivo sea ajustar la capacidad o cambiar al sistema de hardware más moderno y compatible con esta tecnología, los recursos que necesitas para obtener los resultados deseados pueden ser considerables. El aumento de la complejidad de los modelos y el desarrollo permanente del hardware pueden acarrear un fuerte incremento de los costos y provocar que las empresas tengan dificultades para mantenerse a la vanguardia de la innovación en este campo.
Un motor de inferencia específico conocido como vLLM permite superar estos desafíos. Se trata de una biblioteca de código open source mantenida por la comunidad de vLLM que agiliza el resultado de las aplicaciones de inteligencia artificial generativa al aprovechar mejor la memoria de la GPU. Permite que los modelos de lenguaje de gran tamaño (LLM) realicen cálculos a gran escala de manera más eficiente. Utiliza herramientas como LLM Compressor para que puedas realizar inferencias más rápido y aligerar la carga de trabajo del equipo y los recursos.
Los vLLM agilizan las inferencias de los LLM
La inferencia de la inteligencia artificial se utiliza en casos prácticos de gran volumen y con muchas variables. Sin embargo, implementar LLM de manera uniforme y a gran escala requiere mucha potencia informática, recursos y habilidades operativas especializadas. El vLLM permite superar estos desafíos, ya que hace un uso más eficiente del hardware que se necesita para respaldar la inferencia de inteligencia artificial en las empresas. Por eso, vLLM es especialmente atractivo para los sectores que necesitan flexibilidad y control, además de velocidad.
Al ser una solución open source, vLLM permite a las empresas:
- poseer y gestionar sus GPU;
- Controlar sus datos
- Experimentar con modelos de última generación tan pronto como se lancen al mercado
El vLLM se puede implementar en varios sistemas de hardware, como las GPU de NVIDIA y AMD, las TPU de Google, Intel Gaudi y AWS Neuron. Además, el vLLM no se limita a un hardware específico, lo que significa que funciona en toda la nube, en el centro de datos o en el extremo de la red.
Descubre la forma en que las empresas conocidas utilizan vLLM para ajustar su capacidad de manera efectiva en estos tres casos prácticos reales.
¿Qué es la inferencia distribuida?
La inferencia distribuida permite que los modelos de inteligencia artificial procesen las cargas de trabajo de manera más eficiente al dividir la tarea de inferencia entre un grupo de dispositivos interconectados. Se puede interpretar como el equivalente en software del dicho "dos cabezas piensan más que una".
La inferencia distribuida implica un sistema que divide las solicitudes en una flota de hardware, que puede incluir servidores físicos y de nube. Luego, cada servidor de inferencia procesa su parte asignada simultáneamente para generar un resultado: un sistema observable y con capacidad de recuperación que permite prestar servicios basados en la inteligencia artificial, uniformes y adaptables.
La inferencia distribuida es compatible con vLLM y utiliza técnicas como el paralelismo de tensores y las arquitecturas de mezcla de expertos (MOE).
Red Hat puede ayudarte
Red Hat AI es una plataforma de productos y servicios que ayudan a tu empresa en cualquier etapa del proceso de adopción de la inteligencia artificial, independientemente de si estás comenzando o ya puedes expandirla. Respalda las iniciativas de inteligencia artificial generativa y predictiva para los casos prácticos exclusivos de tu empresa.
Con esta herramienta, tienes acceso a Red Hat® AI Inference Server para optimizar la inferencia de los modelos en toda la nube híbrida y lograr que las implementaciones sean más rápidas y rentables. El servidor de inferencia está impulsado por los vLLM y aprovecha al máximo la GPU, además de permitir los tiempos de respuesta más rápidos.
Obtén más información sobre Red Hat AI Inference Server
Red Hat AI Inference Server incluye el repositorio de Red Hat AI, un conjunto de modelos optimizados y validados por terceros que fomentan la flexibilidad y la uniformidad entre los equipos. Con el acceso a este repositorio, las empresas pueden agilizar el tiempo de comercialización y reducir los obstáculos financieros que dificultan la adopción de la inteligencia artificial.
Obtén más información sobre los modelos validados por Red Hat AI
¿Cuál es el nivel de soberanía de tu estrategia? Presentamos la herramienta Red Hat Sovereignty Readiness Assessment
La herramienta Red Hat Sovereignty Readiness Assessment es una evaluación de autoservicio basada en la web que proporciona una referencia clara y objetiva del control digital de tu organización en siete áreas fundamentales.