Dé sus primeros pasos con InstructLab hoy mismo

17 de junio de 2024Seth Kenlon

Cuando se habla sobre la inteligencia artificial (IA), generalmente se hace referencia a la combinación de un chatbot, a través del cual se procesan las instrucciones y las respuestas, y un modelo de lenguaje de gran tamaño (LLM), que proporciona los datos con los que el chatbot formará las oraciones. La inteligencia artificial no es muy útil sin los LLM, y es por eso que gran parte del debate sobre la legalidad y la ética de la inteligencia artificial gira en torno al material que se usa para generar el conocimiento de la inteligencia artificial generativa. ¿Cómo puede estar seguro de que los datos que usa una inteligencia artificial generativa para formular sus respuestas son confiables y no están sujetos a derechos de autor? La mejor manera de auditar la base de conocimientos de la inteligencia artificial, o hacer que sea más especializada, es utilizar tecnología de open source. De eso se encarga el proyecto InstructLab.

¿Qué es InstructLab?

InstructLab es un proyecto de inteligencia artificial open source que promueve los modelos universales con contribuciones abiertas. Su objetivo declarado es permitir que cualquier persona pueda dar forma a la inteligencia artificial generativa, ya sea que necesite un LLM open source por motivos relacionados con la propiedad intelectual y los derechos de autor, la privacidad, la confiabilidad, la experiencia o la accesibilidad, entre otros. Debido a que diseñar un LLM abierto y completo es una gran tarea, la mejor manera de hacerlo es con tecnologías open source. InstructLab es open source, por lo que puede realizar contribuciones que apunten a hacer de los modelos de lenguaje open source la mejor opción para la inteligencia artificial generativa. A continuación, le presentamos tres formas para que dé sus primeros pasos con InstructLab hoy mismo.

Comparta su experiencia

La inteligencia artificial utiliza la probabilidad para construir sus respuestas y basa cada una en información fáctica que sirve como modelo. El conjunto de datos que usa es parte de un LLM. Para que InstructLab sea la mejor base de contenido impulsado por inteligencia artificial, su LLM debe ser exhaustivo. El diseño de un LLM requiere la construcción de un banco de datos de contenido confiable. En la terminología de InstructLab, esto se denomina taxonomía e incluye las dos categorías principales de habilidad y conocimiento.

En InstructLab, las habilidades son performativas. Al crear una habilidad para InstructLab, le enseña a hacer una tarea específica, como reorganizar las palabras en una oración manteniendo el mismo significado, encontrar dos palabras que rimen o cambiar el uso de las mayúsculas y las minúsculas en una frase.

El conocimiento es un conjunto de datos con la cita de una fuente confiable. Cuando genera conocimiento para un modelo de lenguaje, le proporciona los datos que puede usar para responder preguntas directas.

Tanto las habilidades como el conocimiento se almacenan en lenguaje YAML, un formato de archivo minimalista que consta de pares de claves y valores, llamados asignaciones, y listas, llamadas secuencias. Le presentamos un ejemplo sencillo de conocimiento expresado en YAML:

---
version: 2
created_by: tux
domain: flowers
seed_examples:
 - answer: 'A carnation is a herbaceous perennial plant.'
   question: 'What kind of plant is a carnation?'
 - answer: 'Dianthus caryophyllus'
   question: 'What is the scientific name for a carnation?'
task_description: 'teach a language model about carnations'
document:
 repo: https://github.com/juliadenham/Summit_knowledge
 commit: 195fc4d83a40d8a1b60062e66e06cfc0bc9c8d35
 patterns:
   - dianthus_caryophyllus.md

A continuación, le mostramos un ejemplo sencillo de una habilidad expresada en YAML:

---
version: 2
task_description: 'Teach the model how to rhyme.'
created_by: juliadenham
seed_examples:
 - question: What are 5 words that rhyme with horn?
   answer: warn, torn, born, thorn, and corn.
 - question: What are 5 words that rhyme with cat?
   answer: bat, gnat, rat, vat, and mat.
 - question: What are 5 words that rhyme with poor?
   answer: door, shore, core, bore, and tore.
 - question: What are 5 words that rhyme with bank?
   answer: tank, rank, prank, sank, and drank.
 - question: What are 5 words that rhyme with bake?
   answer: wake, lake, steak, make, and quake.

Compare los ejemplos de conocimiento y habilidad expresados en YAML. El conocimiento contiene datos verificables sobre un tema específico. La habilidad contiene ejemplos de una tarea específica.

Después de leer la guía de contribución, puede crear su propio archivo qna.yaml y enviarlo a InstructLab para que se incluya en el LLM. Es posible que deba revisar su trabajo para asegurarse de que se procese e integre en el proyecto. También es útil que se familiarice con herramientas como yamllint, pero, con solo un poco de esfuerzo, puede hacer una contribución significativa a la inteligencia artificial open source.

Ejecute una inteligencia artificial localmente con el comando ilab

La configuración de una inteligencia artificial es un proceso bastante complejo y manual, pero, con InstructLab, es más fácil de lo que espera. Debe conocer algunas herramientas de Python, como los entornos virtuales y pip, y ser capaz de operar un entorno de terminal como Bash. También debe tener instalado CUDA (o un marco informático paralelo similar) en su sistema y mucho espacio en el disco (el LLM es de 5 GB y sigue creciendo).

Siga la guía de instalación en el repositorio de InstructLab, interactúe con la inteligencia artificial y el modelo de InstructLab y, luego, informe sobre los errores y las solicitudes de funciones.

Haga una contribución de código

Por el momento, el proyecto InstructLab consta de 12 repositorios. Estos son la interfaz de línea de comandos ilab, una biblioteca de Python para la generación de datos sintéticos, los documentos de diseño, los archivos de taxonomía y el esquema JSON para la taxonomía YAML, entre otros. Si es programador, es posible que encuentre problemas o solicitudes de funciones en informes de errores que no se hayan cerrado todavía y que podría contribuir a resolver.

Para su primera contribución, suele tener sentido que resuelva un problema menor, ya que dedicará la mayor parte del tiempo a comprender el proceso del equipo de desarrollo. Los errores que solo requieren una corrección sencilla se etiquetan como good first issue, así que use is:open is:issue label:"good first issue" como filtro cuando busque buenas opciones para comenzar a hacer contribuciones. También hay una guía para los colaboradores primerizos en la que se explica en detalle la manera de configurar su entorno de desarrollo y, lo que es igual de importante, de probar su nuevo código antes de solicitar una fusión.

La inteligencia artificial open source está al alcance de la mano y permite que el control y las condiciones de esta estén a cargo de los usuarios, de la misma manera que otras formas de tecnología de open source. Si trabaja en un área especializada, es posible que la inteligencia artificial general no tenga el conocimiento o las habilidades que necesita para ser útil a los usuarios. Si maneja datos confidenciales, puede que ni siquiera tenga acceso a la información que necesitan. Con InstructLab, puede contribuir al diseño de un LLM universal y abierto o, incluso, diseñar uno propio. Independientemente de su objetivo, dé sus primeros pasos con InstructLab hoy mismo.

Sobre el autor

Seth Kenlon

Linux geek

Seth Kenlon is a Linux geek, open source enthusiast, free culture advocate, and tabletop gamer. Between gigs in the film industry and the tech industry (not necessarily exclusive of one another), he likes to design games and hack on code (also not necessarily exclusive of one another).

Read full bio

Obtenga más información

Navegar por canal

Explore todos los canales

Plataformas

Pruebe y compre

Destacados

Por sector

Destacados

Temas

Artículos

Vea también

Para los clientes

Para los partners

Quiénes somos

Open source

Detalles de la empresa

Recomendaciones

Seleccionar idioma

Seleccionar idioma

Dé sus primeros pasos con InstructLab hoy mismo

¿Qué es InstructLab?

Comparta su experiencia

Ejecute una inteligencia artificial localmente con el comando ilab

Haga una contribución de código

Sobre el autor

Seth Kenlon

Más similar

Obtenga más información

Navegar por canal

Productos

Herramientas

Realice pruebas, compras y ventas

Comunicarse

Acerca de Red Hat

Seleccionar idioma

Red Hat legal and privacy links

Red Hat legal and privacy links