Diferencias entre SLM y LLM
modelos de lenguaje de gran tamaño (LLM) son dos tipos de sistemas de inteligencia artificial que se entrenan para interpretar el lenguaje humano, incluidos los lenguajes de programación. Las diferencias fundamentales entre ellos suelen radicar en el tamaño de los conjuntos de datos con los que se entrenan, los distintos procesos que se emplean para hacerlo y la relación costo-beneficio de su puesta en marcha para casos prácticos concretos.
Como sus nombres lo indican, ambos modelos se entrenan con conjuntos de datos basados en el lenguaje (por ejemplo, el texto de páginas web, el código de desarrolladores, los correos electrónicos y los manuales), lo cual los distingue de aquellos entrenados con imágenes (como DALL-E) o videos (como Sora).
Una de las aplicaciones más populares de estos modelos es la inteligencia artificial generativa, que puede generar (por eso su nombre) respuestas de contenido sin guion para muchas consultas diferentes e impredecibles. En particular, los LLM adquirieron notoriedad entre los usuarios gracias al modelo base GPT-4 y a ChatGPT, un chatbot conversacional que se entrena con conjuntos de datos masivos con billones de parámetros para responder a una gran variedad de consultas de los usuarios. Si bien la inteligencia artificial generativa es más conocida, también existen aplicaciones no generativas de estos tipos de modelos, como la inteligencia artificial predictiva.
SLM y LLM suelen entrenarse con diferentes conjuntos de datos
El alcance de GPT-4 y ChatGPT ilustra a la perfección una diferencia común entre los LLM y los SLM: los conjuntos de datos con los que se entrenan.
Por lo general, los LLM están pensados para imitar la inteligencia humana en un sentido muy amplio, por lo que se entrenan con una gran variedad de conjuntos de datos. En el caso de GPT-4 y ChatGPT, esto incluye todo el Internet público hasta una fecha determinada. Esto explica que ChatGPT haya adquirido una gran notoriedad por interpretar y responder a una amplia gama de consultas de distintos usuarios. Sin embargo, también llamó la atención por sus posibles respuestas incorrectas (denominadas "alucinaciones" en el lenguaje coloquial), ya que carece del entrenamiento y el perfeccionamiento adecuados para responder con precisión a cualquier consulta específica de un sector o ámbito concreto.
Por otro lado, los SLM suelen entrenarse con conjuntos de datos más pequeños y adaptados a ámbitos específicos del sector (es decir, áreas de especialización). Por ejemplo, un proveedor de servicios de atención médica podría utilizar un chatbot basado en un SLM que se haya entrenado con conjuntos de datos médicos para introducir conocimientos específicos del área en la consulta de un usuario no experto sobre su salud, lo cual mejoraría la calidad de la pregunta y la respuesta. En este supuesto, no es necesario entrenar al chatbot con todo el contenido de Internet (cada publicación de blog, novela de ficción o poema que exista) porque es irrelevante para el caso práctico en cuestión.
Para resumir, en comparación con los LLM, los SLM suelen tener buenos resultados en áreas específicas, pero presentan más dificultades en lo que respecta a los conocimientos generales y la comprensión del contexto global.
Recursos de Red Hat
Los SLM y los LLM tienen procesos de entrenamiento diferentes
El tamaño y el alcance de los conjuntos de datos no son el único factor que diferencia a los SLM de los LLM y, lo que es más importante, un modelo puede considerarse un SLM aunque se haya entrenado con los mismos conjuntos de datos que un LLM. El motivo es que los parámetros de entrenamiento y el proceso global (no solo la cantidad de datos) forman parte del concepto de cada modelo. En otras palabras, no se trata únicamente de la cantidad de datos con los que se entrena un modelo, sino también de lo que se espera que aprenda a partir de ellos.
Parámetros
En el ámbito del machine learning, los parámetros son variables internas que determinan las predicciones que hará un modelo, es decir, a través de ellos los modelos deciden las medidas que deben tomar con el conjunto de datos. Durante el entrenamiento, un modelo de inteligencia artificial ajusta permanentemente sus parámetros para mejorar las predicciones, como cuando se gira la perilla de una radio para encontrar el canal adecuado. Además de la cantidad total, otros factores de este proceso tan complejo son su disposición en un modelo, la ponderación entre ellos y su optimización para reconocer patrones en lugar de simplemente memorizar los que recibe.
No existe una respuesta clara del sector acerca de la cantidad de parámetros que distingue a un SLM de un LLM. En cambio, lo más relevante es que los primeros suelen contener muchos menos que los segundos porque sus casos prácticos se centran más en campos de conocimiento específicos. En el caso de la herramienta GPT-4 o ChatGPT con LLM, se supone que se entrenó con billones de parámetros para que pudiera responder a casi cualquier entrada del usuario. No obstante, hay que señalar que GPT-4 es un ejemplo muy excepcional de LLM. Hay muchos ejemplos de LLM más pequeños (que no llegan a ser SLM), como los modelos open source Granite de IBM, cuyo tamaño oscila entre los 3000 y los 35 000 millones de parámetros. Por lo general, los SLM cuentan con menos parámetros (a veces incluso miles de millones) porque las aplicaciones previstas son mucho más limitadas.
Perfeccionamiento
El perfeccionamiento constituye otro aspecto del entrenamiento de los modelos que puede distinguir a los SLM de los LLM. Se trata del proceso de adaptación y actualización de un modelo entrenado previamente con datos nuevos. Por lo general, el objetivo de este proceso consiste en personalizar uno ya entrenado para un caso práctico concreto, lo cual implica incorporar conjuntos de datos nuevos para comprobar si los parámetros actuales pueden seguir arrojando resultados aceptables en un contexto diferente. En general, el perfeccionamiento del modelo es una tarea más compleja, lleva más tiempo y requiere una mayor cantidad de recursos cuantos más parámetros contenga. Por lo tanto, los LLM requieren un esfuerzo mayor que los SLM.
Además de los parámetros y el perfeccionamiento, el tipo y la complejidad del proceso de entrenamiento también suelen diferir entre ambos modelos. Para conocer los distintos tipos de entrenamiento, como los "mecanismos de autoatención" o los "esquemas de modelos codificador-decodificador", es necesario contar con un alto nivel de conocimientos en el campo del análisis de datos. Las diferencias fundamentales entre el entrenamiento de SLM y LLM radican en que para los SLM se suele optar por enfoques más eficientes en cuanto a recursos y centrados en casos prácticos específicos.
Sesgo
Aunque todos los modelos de inteligencia artificial se someten a un cierto grado de perfeccionamiento, el alcance de la mayoría de los LLM no permite ajustarlos a todas las inferencias posibles. Además, los LLM suelen entrenarse con conjuntos de datos de libre acceso, como Internet, mientras que los SLM suelen hacerlo con datos específicos de un sector o una empresa. Por ello, es posible que se produzcan sesgos, como la escasa representación o la representación falsa de determinados grupos e ideas, o bien ciertas imprecisiones en los hechos. Dado que se trata de modelos de lenguaje, también pueden heredar sesgos lingüísticos relacionados con el dialecto, la ubicación geográfica y la gramática.
En resumen, todos los modelos de lenguaje son susceptibles de heredar sesgos, pero los LLM en concreto presentan más posibilidades debido a su alcance. Con los SLM, que se entrenan con conjuntos de datos más pequeños, resulta más fácil reducir los sesgos que inevitablemente se producirán.
Los LLM y los SLM requieren recursos diferentes
El entrenamiento de un modelo para un caso práctico, ya sea LLM o SLM, es un proceso que utiliza una gran cantidad de recursos, en especial en el caso de los LLM. En el caso de GPT-4, se ejecutaron un total de 25 000 GPU NVIDIA A100 de manera simultánea y sin interrupciones durante un período de 90 a 100 días. GPT-4 representa el extremo más amplio de los LLM; otros, como Granite, necesitaron menos recursos. Aunque es probable que el entrenamiento de un SLM también consuma muchos recursos informáticos, esta cifra es muy inferior a la de un LLM.
Recursos necesarios para el entrenamiento y la inferencia
También es importante tener en cuenta la diferencia entre el entrenamiento y la inferencia de un modelo. Como ya se mencionó, el entrenamiento es el primer paso en el desarrollo de un modelo de inteligencia artificial, mientras que la inferencia es el proceso mediante el cual ese modelo entrenado realiza predicciones a partir de los datos nuevos. Por ejemplo, cuando un usuario formula una pregunta a ChatGPT, se invoca al programa para que le devuelva una predicción. A ese proceso se lo denomina "inferencia".
Algunos LLM entrenados previamente, como la gama de Granite, pueden realizar inferencias con los recursos de una única estación de trabajo de alta potencia (p. ej., los modelos de Granite se adaptan a una GPU V100-32GB2), aunque muchos requieren varias unidades de procesamiento en paralelo para generar datos. Además, cuanto mayor es la cantidad de usuarios simultáneos que acceden a un LLM, más lentas son las inferencias que este ejecuta. Por otro lado, los SLM suelen diseñarse para que puedan realizar inferencias con los recursos de un teléfono inteligente u otro dispositivo móvil.
Relación costo-beneficio de obtener un LLM o un SLM
No existe un modelo que sea mejor que el otro, pero sí uno que se adapta mejor a los planes, los recursos, la experiencia, el tiempo y otros factores específicos de la empresa. Además, es importante decidir si tu caso práctico requiere entrenar un modelo desde cero o perfeccionar uno ya entrenado. Algunos aspectos que se deben tener en cuenta al elegir entre los LLM y los SLM incluyen:
Costo
En general, los recursos que necesitan los LLM para el entrenamiento, el perfeccionamiento y la ejecución de inferencias son muchos más. Sin embargo, es importante destacar también que el entrenamiento no es una inversión tan frecuente, ya que los recursos informáticos solo se utilizan mientras se entrena el modelo, lo cual es una tarea esporádica, nunca permanente. Sin embargo, la ejecución de inferencias genera un costo corriente, cuya demanda puede aumentar a medida que se amplía el uso del modelo a más usuarios. En la mayoría de los casos, esto requiere el empleo de recursos informáticos en la nube según sea necesario, una inversión significativa en recursos en las instalaciones, o ambas opciones.
Los SLM se evalúan con frecuencia para casos prácticos de baja latencia, como el edge computing. Esto se debe a que suelen ejecutarse con los recursos disponibles en un único dispositivo móvil sin necesidad de disponer de una conexión sólida y estable a recursos más importantes.
Experiencia
Muchos de los principales LLM entrenados previamente (como Granite, Llama y GPT-4) ofrecen una opción más sencilla para dar los primeros pasos con la inteligencia artificial. A menudo, son las alternativas que se recomiendan para aquellas empresas que desean iniciarse en el uso de esta tecnología, ya que no es necesario que los analistas de datos las diseñen y entrenen desde cero. En cambio, los SLM suelen requerir conocimientos especializados en el ámbito del análisis de datos y del sector para realizar ajustes precisos en conjuntos de datos específicos.
Seguridad
Unos de los posibles riesgos de los LLM es la divulgación de información confidencial a través de las interfaces de programación de aplicaciones (API). Por lo tanto, el perfeccionamiento de un LLM respecto de los datos de tu empresa exige el cumplimiento estricto de la normativa y la política empresarial. Por su parte, los SLM pueden presentar un menor riesgo de filtración de datos porque ofrecen un mayor grado de control.
Red Hat puede ayudarte
Red Hat AI ofrece funciones de inteligencia artificial generativa y predictiva, junto con el soporte de MLOps, para diseñar soluciones flexibles y confiables según sea necesario en los entornos de nube híbrida. Además, agiliza la adopción de la tecnología, reduce las complejidades de la distribución de este tipo de soluciones y aporta flexibilidad para el desarrollo y la implementación dondequiera que residan los datos.
Red Hat AI puede utilizarse en combinación con la infraestructura de nube híbrida abierta de Red Hat. Esto permite que las empresas diseñen soluciones de inteligencia artificial personalizadas, gestionen los ciclos de vida de los modelos y las aplicaciones, se adapten a los requisitos de aceleración del hardware e implementen, ejecuten y operen las cargas de trabajo fundamentales, todo en una única plataforma.
Machine learning e inteligencia artificial para principiantes
Si eres nuevo en el ámbito del análisis de modelos de machine learning e inteligencia artificial, puedes probar InstructLab, una solución impulsada por la comunidad para el entrenamiento de modelos de lenguaje de gran tamaño. Allí podrás probar modelos y contribuir directamente a su desarrollo sin costo alguno.
Accede fácilmente a la gama de modelos Granite de IBM
Si deseas avanzar al siguiente nivel, utiliza Red Hat® Enterprise Linux® AI, una plataforma de modelo base para desarrollar, probar y ejecutar modelos de lenguaje de gran tamaño de Granite para aplicaciones empresariales. Granite es una gama de modelos de inteligencia artificial con licencia open source que cuenta con el pleno respaldo y la garantía de Red Hat. Su enfoque open source fomenta la innovación en inteligencia artificial generativa y, al mismo tiempo, mantiene la confianza y la seguridad.
Capacidad de ajuste para la empresa
Red Hat® OpenShift® AI es una plataforma que puede brindar soporte a los modelos en entornos de nube híbrida según sea necesario. Puedes entrenar los modelos de inteligencia artificial con tus propios datos, distribuirlos y aplicar en ellos las técnicas de ajuste de instrucciones y perfeccionamiento para tus casos prácticos específicos.
Estos productos en conjunto ofrecen una solución unificada que permite que los analistas de datos y los desarrolladores colaboren entre sí para que los equipos puedan pasar de la fase de experimentación a la de producción con mayor rapidez.
Amplía tus posibilidades con los partners
Además, las integraciones de los partners de Red Hat abren paso a un ecosistema de herramientas confiables de inteligencia artificial diseñadas para funcionar en las plataformas open source.
Blogs de Red Hat
Aquí encuentras la información más reciente sobre nuestros clientes, partners y comunidades open source.