Comparación entre los LLM y los SLM

Publicado 1 de octubre de 2024•9 minutos de lectura

Los modelos de lenguaje de gran tamaño (LLM) y los modelos de lenguaje pequeños (SLM) son dos tipos de sistemas de inteligencia artificial que se entrenan para interpretar el lenguaje humano, incluidos los lenguajes de programación. Las principales diferencias entre ellos radican en el tamaño de los conjuntos de datos que se utilizan para entrenarlos, los diferentes procesos que se usan para dicha tarea y la relación de costo-beneficio de implementarlos para distintos casos prácticos.

Como sus nombres lo indican, tanto los LLM como los SLM se entrenan a partir de conjuntos de datos de lenguaje, lo cual los distingue de los modelos entrenados con imágenes (p. ej., DALL·E) o videos (p. ej., Sora). Algunos ejemplos de conjuntos de datos basados en el lenguaje son textos de páginas web, códigos de desarrolladores, correos electrónicos y manuales.

Una de las aplicaciones más populares de los SLM y los LLM es la inteligencia artificial generativa, que puede generar (de ahí su nombre) respuestas de contenido sin seguir un guíon a muchas consultas diferentes e impredecibles. En particular, los LLM adquirieron notoriedad entre el público general gracias al modelo base GPT-4 y ChatGPT, un chatbot de conversación entrenado con enormes conjuntos de datos que utiliza billones de parámetros para responder a una gran variedad de consultas de personas. Si bien la inteligencia artificial generativa es conocida, también hay aplicaciones no generativas de los LLM y los SLM, como la inteligencia artificial predictiva.

Los aspectos principales en el diseño de un entorno de AI/ML listo para la producción

El alcance de GPT-4 y ChatGPT ilustra a la perfección una diferencia común entre los LLM y los SLM: los conjuntos de datos con los que se entrenan.

Por lo general, los LLM están diseñados para imitar la inteligencia humana en un sentido muy amplio, por lo que se entrenan con una amplia variedad de conjuntos de datos de gran tamaño. En el caso de GPT-4 y ChatGPT, esto incluye todo el Internet público hasta una fecha determinada. Así es como ChatGPT adquirió una gran notoriedad por interpretar y responder una gran variedad de consultas de usuarios generales. Sin embargo, también llamó la atención por sus posibles respuestas incorrectas (denominadas "alucinaciones" en el lenguaje coloquial), ya que carece del entrenamiento y el perfeccionamiento adecuados para responder con precisión a cualquier consulta específica de un sector o ámbito concreto.

Por otro lado, los SLM suelen entrenarse con conjuntos de datos más pequeños adaptados a dominios específicos de un sector (es decir, áreas de especialización). Por ejemplo, un proveedor de servicios de atención médica podría usar un chatbot basado en un SLM que se haya entrenado con conjuntos de datos médicos para incorporar conocimientos específicos del área en la consulta de un usuario no experto sobre su salud, lo cual mejoraría la calidad de la pregunta y la respuesta. En este caso, no es necesario entrenar al chatbot con todo el contenido de Internet (cada publicación de blog, novela de ficción o poema que exista) porque es irrelevante para el caso práctico en cuestión.

En resumen, en comparación con los LLM, los SLM suelen tener buenos resultados en áreas específicas, pero presentan más dificultades en lo que respecta a los conocimientos generales y la comprensión del contexto global.

Explicación sobre LoRA y QLoRA

El tamaño y el alcance de los conjuntos de datos no es el único factor que diferencia a los SLM de los LLM, y es importante destacar que un modelo puede considerarse un SLM aunque se haya entrenado con los mismos conjuntos de datos que un LLM. Esto se debe a que los parámetros de entrenamiento y el proceso general (no solo la cantidad de datos) forman parte de la definición de cada modelo. En otras palabras, no se trata únicamente de la cantidad de datos con los que se entrena un modelo, sino también de lo que se espera que aprenda a partir de ellos.

Parámetros

En el ámbito del machine learning (aprendizaje automático), los parámetros son variables internas que determinan las predicciones que hará un modelo, es decir, a través de ellos los modelos deciden las medidas que deben tomar con el conjunto de datos. Durante el entrenamiento, un modelo de inteligencia artificial ajusta permanentemente sus parámetros para mejorar las predicciones, como cuando se gira la perilla de una radio para encontrar el canal adecuado. Además de la cantidad total de parámetros, otros factores de este proceso tan complejo son su disposición en un modelo, la ponderación entre ellos y su optimización para reconocer patrones en lugar de simplemente memorizar los que recibe.

No existe una respuesta clara del sector acerca de la cantidad de parámetros que distingue a un SLM de un LLM. En cambio, lo más relevante es que los primeros suelen contener muchos menos que los segundos, porque sus casos prácticos se centran más en campos de conocimiento específicos. En el caso de la herramienta GPT-4 o ChatGPT con LLM, se supone que se entrenó con billones de parámetros para que pudiera responder a casi cualquier entrada del usuario. No obstante, hay que señalar que GPT-4 es un ejemplo particularmente grande de LLM. Hay muchos ejemplos de LLM más pequeños (que no llegan a ser SLM), como los modelos open source Granite de IBM, cuyo tamaño oscila entre los 3000 y los 35 000 millones de parámetros. Por lo general, los SLM cuentan con menos parámetros (a veces incluso miles de millones) porque las aplicaciones previstas son mucho más limitadas.

Perfeccionamiento

El perfeccionamiento constituye otro aspecto del entrenamiento de los modelos que puede distinguir a los SLM de los LLM. Se trata del proceso de adaptación y actualización de un modelo entrenado previamente con datos nuevos. Por lo general, el objetivo de este proceso consiste en personalizar un modelo ya entrenado para un caso práctico específico, lo cual implica incorporar conjuntos de datos nuevos para comprobar si los parámetros actuales pueden seguir generando resultados aceptables en un contexto diferente. En términos generales, perfeccionar el modelo es una tarea más compleja que lleva más tiempo y requiere más recursos cuantos más parámetros tenga. Por lo tanto, los LLM requieren un esfuerzo mayor que los SLM.

Además de los parámetros y el perfeccionamiento, el tipo y la complejidad del proceso de entrenamiento también suelen diferir entre ambos modelos. Para conocer los distintos tipos de entrenamiento, como los "mecanismos de autoatención" o los "esquemas de modelos codificador-decodificador", es necesario contar con un alto nivel de conocimientos en el campo del análisis de datos. Las diferencias fundamentales entre el entrenamiento de SLM y LLM radican en que, para los SLM, se suele optar por enfoques más eficientes en cuanto a recursos y centrados en casos prácticos específicos.

Sesgo

Aunque todos los modelos de inteligencia artificial se someten a un cierto grado de perfeccionamiento, el alcance de la mayoría de los LLM no permite ajustarlos a todas las inferencias posibles. Además, los LLM suelen entrenarse con conjuntos de datos de acceso abierto, como Internet, mientras que los SLM suelen hacerlo con datos específicos de un sector o una empresa. Entonces, es posible que se produzcan sesgos, como la falta de representación o la representación errónea de determinados grupos e ideas, o bien ciertas imprecisiones en los hechos. Dado que se trata de modelos de lenguaje, también pueden heredar sesgos lingüísticos relacionados con el dialecto, la ubicación geográfica y la gramática.

En resumen, todos los modelos de lenguaje pueden heredar sesgos, pero los LLM en concreto presentan más posibilidades debido a su alcance. Con los SLM, que se entrenan con conjuntos de datos más pequeños, resulta más fácil reducir los sesgos que inevitablemente se producirán.

El entrenamiento de un modelo para un caso práctico, ya sea LLM o SLM, es un proceso que utiliza una gran cantidad de recursos, en especial en el caso de los LLM. Para el modelo GPT-4, se ejecutaron un total de 25 000 GPU NVIDIA A100 de manera simultánea y sin interrupciones durante un período de 90 a 100 días. GPT-4 representa el extremo más amplio de los LLM; otros, como Granite, necesitaron menos recursos. Aunque es probable que el entrenamiento de un SLM también consuma muchos recursos informáticos, esta cifra es muy inferior a la de un LLM.

Recursos necesarios para el entrenamiento y la inferencia

También es importante tener en cuenta la diferencia entre el entrenamiento y la inferencia de los modelos. Como ya se mencionó, el entrenamiento es el primer paso en el desarrollo de un modelo de inteligencia artificial, mientras que la inferencia es el proceso mediante el cual ese modelo entrenado realiza predicciones a partir de los datos nuevos. Por ejemplo, cuando un usuario formula una pregunta a ChatGPT, se invoca al programa para que le devuelva una predicción. A ese proceso se lo denomina "inferencia".

Algunos LLM entrenados previamente, como los modelos Granite, pueden realizar inferencias con los recursos de una única estación de trabajo de alta potencia (p. ej., los modelos Granite se adaptan a una GPU 2 V100 de 32 GB), aunque muchos requieren varias unidades de procesamiento paralelo para generar datos. Además, cuanto mayor es la cantidad de usuarios simultáneos que acceden a un LLM, más lentas son las inferencias que este ejecuta. Por otro lado, los SLM suelen diseñarse para que puedan realizar inferencias con los recursos de un smartphone u otro dispositivo móvil.

No existe un modelo que sea mejor que el otro, pero sí uno que se adapta mejor a los planes, los recursos, la experiencia, el tiempo y otros factores específicos de la empresa. Además, es importante decidir si tu caso práctico requiere entrenar un modelo desde cero o perfeccionar uno ya entrenado. Estos son algunos aspectos que se deben tener en cuenta al elegir entre los LLM y los SLM:

Costo

En general, los recursos que necesitan los LLM para el entrenamiento, el perfeccionamiento y la ejecución de inferencias son muchos más. Sin embargo, es importante destacar también que el entrenamiento no es una inversión tan frecuente, ya que los recursos informáticos solo se utilizan mientras se entrena el modelo, lo cual es una tarea esporádica, nunca permanente. Sin embargo, la ejecución de inferencias genera un costo corriente, cuya demanda puede aumentar a medida que se amplía el uso del modelo a más usuarios. En la mayoría de los casos, esto requiere el empleo de recursos de cloud computing según sea necesario, una inversión significativa en recursos en las instalaciones, o ambas opciones.

Los SLM se evalúan con frecuencia para casos prácticos de baja latencia, como el edge computing. Esto se debe a que suelen ejecutarse con los recursos disponibles en un único dispositivo móvil sin necesidad de disponer de una conexión sólida y estable a recursos más importantes.

Blog de Red Hat: Recomendaciones para reducir el costo de los LLM

Experiencia

Muchos de los principales LLM entrenados previamente (como Granite, Llama y GPT-4) ofrecen una opción más sencilla para dar los primeros pasos con la inteligencia artificial. A menudo, son las alternativas que se recomiendan para aquellas empresas que desean iniciarse en el uso de esta tecnología, ya que no es necesario que los analistas de datos las diseñen y entrenen desde cero. En cambio, los SLM suelen requerir conocimientos especializados en el ámbito del análisis de datos y del sector para realizar ajustes precisos en conjuntos de datos específicos.

Seguridad

Unos de los posibles riesgos de los LLM es la divulgación de información confidencial a través de las interfaces de programación de aplicaciones (API). Por lo tanto, el perfeccionamiento de un LLM respecto de los datos de tu empresa exige el cumplimiento estricto de la normativa y la política empresarial. Por su parte, los SLM pueden presentar un menor riesgo de filtración de datos porque ofrecen un mayor grado de control.

Red Hat AI ofrece funciones de inteligencia artificial generativa y predictiva, junto con el soporte de MLOps, para diseñar soluciones flexibles y confiables según sea necesario en los entornos de nube híbrida. Además, agiliza la adopción de la tecnología, reduce las dificultades de la distribución de este tipo de soluciones y aporta flexibilidad para el desarrollo y la implementación dondequiera que se encuentren los datos.

Red Hat AI puede utilizarse en combinación con la infraestructura de nube híbrida abierta de Red Hat. Esto permite que las empresas diseñen soluciones de inteligencia artificial personalizadas; gestionen los ciclos de vida de los modelos y las aplicaciones; se adapten a los requisitos de aceleración del hardware; e implementen, ejecuten y operen las cargas de trabajo fundamentales, todo en una única plataforma.

Descubre la cartera de productos de Red Hat AI

Machine learning e inteligencia artificial para principiantes

Si eres nuevo en el ámbito del análisis de los modelos de machine learning e inteligencia artificial, puedes probar InstructLab, una solución impulsada por la comunidad para entrenar modelos de lenguaje de gran tamaño. Allí podrás probar modelos y contribuir directamente a su desarrollo sin costo alguno.

Descubre InstructLab

Accede fácilmente a los modelos Granite de IBM

Si deseas avanzar al siguiente nivel, utiliza Red Hat® Enterprise Linux® AI, una plataforma de modelos base que te permite desarrollar, probar y ejecutar LLM Granite para aplicaciones empresariales. Granite es un grupo de modelos de inteligencia artificial con licencia open source que cuenta con soporte completo y la garantía de Red Hat. Su enfoque open source fomenta la innovación en inteligencia artificial generativa y, al mismo tiempo, mantiene la confianza y la seguridad.

Obtén más información sobre Red Hat Enterprise Linux AI

Capacidad de ajuste para la empresa

Red Hat® OpenShift® AI es una plataforma que puede brindar soporte a los modelos en entornos de nube híbrida según sea necesario. Puedes entrenar los modelos de inteligencia artificial con tus propios datos, distribuirlos y aplicarles las técnicas de ajuste de instrucciones y perfeccionamiento para tus casos prácticos específicos.

Estos productos en conjunto ofrecen una solución unificada que permite que los analistas de datos y los desarrolladores colaboren entre sí para que los modelos puedan pasar de la fase de experimentación a la de producción con mayor rapidez.

Obtén más información sobre Red Hat OpenShift AI

Amplía tus posibilidades con los partners

Las integraciones de los partners de Red Hat abren paso a un ecosistema cada vez más grande de herramientas confiables de inteligencia artificial que están diseñadas para funcionar en las plataformas open source.

Consulta nuestros partners de inteligencia artificial

Más información

¿Qué es el ajuste fino eficiente de parámetros (PEFT)?

El PEFT es un conjunto de técnicas que ajustan solo una parte de los parámetros que están dentro de un LLM para utilizar menos recursos.

Diferencias entre LoRA y QLoRA

La adaptación de bajo rango (LoRA) y la adaptación de bajo rango cuantificada (QLoRA) son técnicas para entrenar modelos de inteligencia artificial.

Los vLLM

Los vLLM son conjuntos de código open source que permiten que los modelos de lenguaje realicen cálculos de manera más eficiente.

IA/ML: lecturas recomendadas

Contenido relacionado

E-book

Impulse la innovación con una estrategia de software que se adapte a sus necesidades
Visión general

Agilice la innovación de la IA en la nube con Google Cloud y Red Hat
Publicación en blog

Perfeccionamiento adaptable y rentable para los LLM
Publicación en blog

Red Hat pasa a integrar la lista anual de Fast Company de las empresas más innovadoras del mundo de 2025

Seleccionar idioma

Comparación entre los LLM y los SLM

Recursos de Red Hat

Parámetros

Perfeccionamiento

Sesgo

Recursos necesarios para el entrenamiento y la inferencia

Costo

Experiencia

Seguridad

Machine learning e inteligencia artificial para principiantes

Accede fácilmente a los modelos Granite de IBM

Capacidad de ajuste para la empresa

Amplía tus posibilidades con los partners

El blog oficial de Red Hat

Todas las versiones de prueba de los productos de Red Hat

Más información

¿Qué es el ajuste fino eficiente de parámetros (PEFT)?

Diferencias entre LoRA y QLoRA

Los vLLM

IA/ML: lecturas recomendadas

Productos

Herramientas

Realice pruebas, compras y ventas

Comunicarse

Acerca de Red Hat

Seleccionar idioma

Red Hat legal and privacy links

Red Hat legal and privacy links