Jump to section

Modelo de lenguaje de gran tamaño open source

Copiar URL

Un modelo de lenguaje de gran tamaño (LLM) open source cuenta con un código y una arquitectura de acceso público, es decir que cualquier persona puede acceder a él, modificarlo y distribuirlo. Debido a las complejidades que suponen el diseño y la distribución de estos modelos, decidir si uno de ellos es realmente open source puede ser difícil.

Por lo general, el concepto de open source está relacionado con tener acceso completo al diseño de un producto. En el caso del software open source, se refiere al lanzamiento de un programa informático a través de un tipo específico de licencia, la cual permite que el público general acceda al código fuente para utilizarlo o modificarlo. Normalmente, un sistema de software se puede considerar open source si cumple lo siguiente:

  • Está disponible en forma de código fuente sin costo adicional.
  • El código fuente puede reutilizarse en otros sistemas de software nuevos.

Cuando se trata de modelos de lenguajes de gran tamaño (LLM), los valores del open source desempeñan un papel fundamental a la hora de reducir los obstáculos que impiden comprender la innovación tecnológica y contribuir a ella. 

Los especialistas en el campo no coinciden en los requisitos para que un LLM se considere legítimamente open source. Esto se debe a que la definición tradicional del código open source no se puede aplicar a las tecnologías de inteligencia artificial con facilidad.

A diferencia del código open source convencional, el cual consiste principalmente en instrucciones de programación, los LLM se crean usando:

  • Una enorme cantidad de datos de entrenamiento: pueden contener obras protegidas por derechos de autor o datos privados, lo cual implica un problema legal a la hora de compartirlos.
  • Parámetros numéricos conocidos como pesos: determinan el modo en que los datos de entrada se procesan para generar resultados significativos, y son clave para formar la comprensión del lenguaje por parte de un modelo. Piense en los pesos como los elementos esenciales que crean el "cerebro" del modelo y determinan el modo en que este prioriza los temas a medida que procesa la información.

En otras palabras, ya no solo se trata de código. Los LLM son mucho más complejos, ya que se requieren modelos matemáticos y conjuntos de datos para poder crearlos. Si bien los LLM "abiertos" pueden divulgar los pesos y el código inicial, es posible que no compartan necesariamente cada fuente de datos que se utilizó para crearlos en primer lugar. Por otro lado, un LLM open source compartiría cada paso y fuente de datos junto con una licencia flexible para que las personas puedan usar ese modelo, desarrollar otros a partir de él y distribuirlos. 

Cuando las fórmulas para los LLM se distribuyen para su uso sin cargo, las personas y las empresas pueden aprovechar el trabajo de otros para desarrollar sus propios modelos. Esto genera muchas ventajas:

Mejoras en la colaboración. Puede decirse que la mayor ventaja de los LLM open source es que fomentan la colaboración por parte de diversas fuentes. Gracias a que hay un mayor acceso a las tecnologías de la inteligencia artificial generativa, aumenta el nivel de experimentación y aprendizaje, lo cual a su vez reduce los sesgos, incrementa la precisión y mejora el rendimiento.

Transparencia. Si no conocemos la forma en que se entrenó un modelo, ¿cómo podemos confiar en sus resultados? Los LLM open source brindan transparencia total en cuanto al modo en que se los entrenó. Esto permite que los usuarios comprendan la forma en que trabajan las funciones de los modelos y les brinda la información necesaria para decidir si usarán esa tecnología y, si es así, de qué modo lo harán.

Menor impacto ambiental. Cuando los modelos son transparentes, se pueden identificar las tareas que ya se realizaron. Esto elimina las redundancias en los sistemas de entrenamiento y evaluación, lo cual, de otro modo, generaría operaciones informáticas y emisiones adicionales.

Accesibilidad financiera. Por lo general, el entrenamiento desde cero de los LLM es costoso; además, estos modelos suelen requerir muchos recursos. Si accede a un LLM propietario, es probable que deba pagar costos de licencia. La posibilidad de aprovechar el trabajo terminado de otras personas para diseñar modelos propios sin ningún costo permite que las empresas den sus primeros pasos en el proceso de desarrollo de un LLM, ya que de otro modo no podrían afrontar los gastos relacionados.

Webinar: Get the most out of AI with open source

Los principios del open source son responsables de muchos de los aspectos básicos de Internet como lo conocemos. El modelo de desarrollo open source dio lugar a algunas de las aplicaciones y plataformas de nube más importantes que se utilizan en la actualidad.

En el caso de los modelos de lenguaje de gran tamaño, esta idea de libertad se manifiesta a lo largo de un espectro, según lo accesibles o restringidos que sean estos modelos para la gente. Analicemos algunos de los LLM más conocidos:

Modelos cerrados
ChatGPT de OpenAI y Claude de Anthropic son modelos cerrados. Están estrictamente controlados y se ponen a disposición de los usuarios con algunas restricciones, a través de servicios de API que deben pagarse.

Modelos abiertos
De forma coloquial, el término "open source" se utiliza para hacer referencia a cualquier LLM que se pueda descargar en las plataformas sin ningún costo, como Hugging Face. Este es el caso del modelo Llama 2 de Meta. Sin embargo, las condiciones de Llama 2 no se ajustan a la definición común de software open source. Esto se debe a que existen pautas y restricciones que el usuario debe aceptar dentro del contrato de licencia, ya que Meta estableció ciertas limitaciones legales y morales para constituir un "uso aceptable". Además, el contrato de licencia exige que cualquier empresa con una cantidad específica de usuarios por mes solicite una licencia adicional de Meta.

Modelos con licencia open source
La familia de modelos Granite de IBM Research y los modelos Mistral AI son ejemplos de los LLM que se encuentran disponibles bajo una licencia Apache 2.0. Esto significa que los modelos pueden utilizarse para fines comerciales sin restricciones. Sin embargo, ni siquiera estos modelos ponen todos sus datos de entrenamiento a disposición para su inspección, en algunos casos debido a limitaciones de la licencia.

Red Hat imagina un futuro en el que cualquier persona pueda aportar sus conocimientos al código, revisarlo o crear uno propio a partir de una base abierta y confiable. Creemos que usar un modelo de desarrollo abierto permite crear tecnologías más estables, seguras e innovadoras. A medida que la inteligencia artificial sigue creciendo, nuestras plataformas open source pueden brindarle ayuda con el desarrollo, la implementación y la supervisión de modelos y aplicaciones para satisfacer sus necesidades usando sus propios datos.

Red Hat® Enterprise Linux® AI es una plataforma de modelos base que permite desarrollar, probar y ejecutar sin problemas los modelos de lenguaje de gran tamaño Granite para las aplicaciones empresariales. La estrategia de nube híbrida abierta de Red Hat se basa en la tecnología de Linux, los contenedores y la automatización, y le brinda flexibilidad para ejecutar sus aplicaciones de inteligencia artificial donde sea que las necesite.

InstructLab es un proyecto y una comunidad open source que crearon IBM y Red Hat, cuyo objetivo es mejorar los LLM siguiendo los principios del open source. InstructLab recopila un conjunto de datos de entrenamiento seleccionados por personas, genera datos sintéticos en función de los datos de entrenamiento originales, y luego usa los datos sintéticos para volver a entrenar el modelo base. Con las contribuciones de la comunidad, se generan compilaciones constantes de LLM mejorados. InstructLab es una solución rentable para optimizar el ajuste de los LLM; además, permite que las personas que cuentan con poca experiencia en machine learning (aprendizaje automático) puedan realizar contribuciones.

Red Hat OpenShift® AI es una plataforma de aplicaciones de inteligencia artificial para empresas que se diseñó con tecnología de open source y ayuda a los equipos a desarrollar, implementar y adaptar aplicaciones con confianza. OpenShift AI permite la recopilación y la preparación de los datos; el entrenamiento, el perfeccionamiento, la distribución y la supervisión de los modelos; y la aceleración del hardware.