Le LLMOps, qu'est-ce que c'est ?
Les grands modèles de langage (LLM) sont des modèles d'apprentissage automatique (AA) qui peuvent comprendre et générer du langage humain. Les LLM, tels que GPT-3, LLaMA et Falcon, sont des outils qui apprennent à partir de données pour produire des mots et des phrases. Mais parce que ces outils ne cessent de se développer, les entreprises ont besoin de meilleures pratiques pour les exploiter. C'est là que le LLMOps intervient.
Le LLMOps (Large Language Model Operations) regroupe les méthodes utilisées pour gérer de grands modèles de langage. Cette approche permet de gérer et d'automatiser le cycle de vie des LLM, du réglage fin à la maintenance, pour aider les équipes à les déployer, à les surveiller et à en assurer le bon fonctionnement.
LLMOps et MLOps
Puisque les LLM sont un sous-ensemble des modèles d'AA, on peut considérer que le LLMOps est un équivalent du MLOps (Machine Learning Operations) pour les grands modèles de langage. Le MLOps désigne un ensemble de pratiques de gestion des workflows qui vise à rationaliser le déploiement et la maintenance des modèles d'AA. Cette approche a pour but d'établir une évolution continue pour l'intégration des modèles d'AA au développement logiciel. Pareillement, dans le cadre du LLMOps, le cycle de développement et de déploiement des LLM fait continuellement l'objet d'essais, d'itérations, de redéploiements et d'améliorations.
Même s'ils sont assez similaires, le LLMOps et le MLOps présentent des différences, notamment au niveau des points suivants :
Apprentissage. Les modèles d'AA traditionnels sont souvent créés ou entraînés à partir de rien, tandis que les LLM s'appuient sur un modèle de fondation et sont soumis à un réglage fin avec de nouvelles données pour améliorer les performances des tâches.
Réglage. Le réglage fin des LLM permet d'améliorer les performances et d'augmenter la précision, en approfondissant les connaissances du modèle sur un sujet en particulier. Le processus de réglage des instructions génératives améliore les performances des LLM sur des tâches spécifiques. Le réglage des hyperparamètres est également différent. Le réglage des modèles d'AA vise à renforcer leur précision, tandis que le réglage des LLM doit également permettre de réduire les coûts et la puissance de calcul requise pour leur entraînement. Les deux types de modèles bénéficient du processus de réglage, mais les priorités diffèrent. Il existe une autre technique qui s'appuie sur des connaissances externes pour garantir la précision et la spécificité des faits collectés par les LLM et ainsi améliorer la pertinence des réponses : il s'agit de la génération augmentée de récupération (RAG).
Commentaires. L'apprentissage par renforcement basé sur les commentaires humains est une technique avancée d'entraînement des LLM. Les performances des LLM dépendent directement des commentaires humains. Ces modèles les utilisent pour évaluer la précision, à la différence des modèles d'AA traditionnels qui déterminent la précision à partir d'indicateurs de mesure spécifiques.
Indicateurs de mesure de performances. Les modèles d'AA sont associés à des indicateurs de mesure de performances précis. Les LLM utilisent d'autres indicateurs et systèmes d'évaluation, notamment les algorithmes BLEU (Bilingual Evaluation Understudy) et ROUGE (Recall-Oriented Understudy for Gisting Evaluation) qui requièrent une évaluation plus complexe.
Ressources Red Hat
Avantages du LLMOps
Le LLMOps s'impose comme un moyen particulièrement efficace de surveiller et d'améliorer les performances des LLM. Cette approche offre trois avantages :
Efficacité. Le LLMOps permet de développer des modèles plus rapidement, d'améliorer leur qualité et d'accélérer leur déploiement. Grâce à cette approche qui rationalise la gestion, les équipes peuvent collaborer plus facilement sur une plateforme axée sur la communication, le développement et le déploiement. Des outils tels que vLLM, un serveur d'inférence Open Source qui accélère l'IA générative, permettent d'utiliser les GPU plus efficacement.
Évolutivité. Le LLMOps améliore l'évolutivité et la gestion dans un contexte d'intégration et de distribution/déploiement continus (CI/CD) dans lequel plusieurs modèles peuvent être gérés et surveillés. Il offre également aux utilisateurs une expérience plus réactive en améliorant la communication des données et les réponses.
Réduction des risques. Le LLMOps favorise la transparence et améliore la conformité avec les politiques du secteur et de l'entreprise. Il permet de renforcer la sécurité et la confidentialité en protégeant les informations sensibles et en évitant l'exposition aux risques.
Trois grandes entreprises ont exploité vLLM pour accélérer la mise à l'échelle.
Cas d'utilisation du LLMOps
Le LLMOps peut s'appliquer à différents cas d'utilisation.
Intégration et distribution continues (CI/CD). L'approche CI/CD a pour but de rationaliser, d'accélérer et d'automatiser le cycle de vie de développement des modèles. Elle permet de générer du code sans intervention humaine et ainsi de réduire les temps d'arrêt et le délai de lancement des nouvelles versions. Des outils tels que Tekton, sur lequel repose Red Hat OpenShift Pipelines, améliorent les workflows de développement en automatisant les déploiements sur plusieurs plateformes.
Collecte, étiquetage et stockage de données. La collecte de données s'effectue à partir de différentes sources pour recueillir des informations précises. L'étiquetage classe les données par catégories et le stockage des données permet de collecter et de conserver les informations numériques associées à un réseau.
Réglage fin, inférence et surveillance des modèles. Le réglage fin optimise les modèles pour qu'ils effectuent des tâches spécifiques d'un domaine. L'inférence d'IA est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. L'inférence permet de gérer la production en fonction des connaissances existantes et de déclencher des actions à partir des informations déduites. Le processus de surveillance des modèles (commentaires humains compris) collecte et stocke des données sur le comportement des modèles afin de comprendre leur réaction en présence de vraies données de production.
Étapes du LLMOps
Le LLMOps comprend plusieurs étapes, chacune ayant ses propres meilleures pratiques :
Analyse des données d'exploitation : évaluation des données pour préparer le cycle de vie de l'apprentissage automatique en créant des ensembles de données
- Collecte des données : première étape d'entraînement des LLM collectés à partir de différentes sources, notamment les archives de code et les réseaux sociaux
- Nettoyage des données : étape d'inspection indispensable après la collecte pour préparer les données en vue de l'entraînement, notamment en éliminant les erreurs, en corrigeant les incohérences et en supprimant les doublons
- Exploration des données : étape qui permet de mieux comprendre les caractéristiques des données, notamment en identifiant leurs singularités et leurs schémas
Préparation des données et ingénierie d'instruction générative : étape de partage des données accessibles entre les équipes et de développement d'instructions génératives pour les LLM
- Préparation des données : préparation spécifique des données utilisées pour l'entraînement d'un LLM, notamment les données de synthèse et finales
- ingénierie d'instruction générative : création d'instructions utilisées pour générer du texte qui doit orienter les LLM vers le résultat souhaité
Réglage fin des modèles : utilisation de bibliothèques Open Source courantes telles que Hugging Face Transformers pour régler et améliorer les performances des modèles
- Entraînement des modèles : entraînement ou réglage fin des LLM après la préparation des données, à l'aide d'un algorithme d'apprentissage automatique qui permet aux LLM d'apprendre les schémas présents dans les données
- Évaluation des modèles : évaluation des performances des LLM avec un ensemble de données différent de ceux utilisés pour l'entraînement
- Réglage fin des modèles : modification des paramètres en cas de mauvaises performances des LLM, dans le but d'obtenir de meilleurs résultats
Examen et gouvernance des modèles : découverte, partage et collaboration autour des modèles d'AA via des plateformes MLOps Open Source comme Kubeflow
- Examen des modèles : examen post-réglage fin des LLM pour vérifier leur sécurité ainsi que leur fiabilité, c'est-à-dire notamment l'absence de biais et de risques pour la sécurité
- Gouvernance des modèles : gestion des LLM tout au long de leur cycle de vie, y compris le suivi des performances, les modifications et le retrait lorsqu'ils ne sont plus utiles
Inférence et mise à disposition des modèles : gestion des paramètres de production tels que la fréquence d'actualisation ou le délai des requêtes
- Mise à disposition des modèles. Une fois le LLM examiné et validé, il peut être déployé en production, c'est-à-dire mis à disposition via une API. Lorsque les LLM sont volumineux (des centaines de milliards de paramètres), il est souvent nécessaire de recourir à la technique d'inférence distribuée, qui consiste à diviser le modèle entre plusieurs GPU. Les projets Open Source tels que llm-d offrent une solution gérée et native pour Kubernetes qui permet d'orchestrer efficacement cette configuration distribuée.
- Inférence des modèles. Une application peut demander à l'API de générer du texte ou de répondre à une question. Il existe différentes méthodes, comme l'utilisation d'une API REST ou d'une application web.
Surveillance des modèles avec commentaires humains : création de modèles et surveillance des données avec alertes en cas de dérive du comportement ou de malveillance d'un utilisateur
- Surveillance des modèles : contrôle des performances après le déploiement des LLM, impliquant de suivre les performances, d'identifier les problèmes éventuels et d'apporter les modifications nécessaires
Commentaires humains : amélioration des performances des LLM en commentant le texte généré ou en identifiant les problèmes éventuels liés aux performances
Définition d'une plateforme LLMOps
Une plateforme LLMOps offre aux différentes équipes un environnement qui facilite la collaboration à l'aide de fonctions d'analyse de données, de suivi des expérimentations, d'ingénierie de prompt et de gestion des LLM. Ce type de plateforme permet aussi de gérer la transition des modèles, le déploiement et la surveillance des LLM. Parce qu'elles améliorent la gestion des bibliothèques, les plateformes LLMOps permettent de diminuer les coûts d'exploitation et d'effectuer des tâches telles que le prétraitement des données, la surveillance des modèles et le déploiement sans solliciter d'équipes techniques hautement qualifiées.
Nos solutions
Red Hat AI est une plateforme de produits et de services qui permettent aux entreprises d'avancer dans le déploiement de l'IA, qu'elles soient tout au début du processus ou déjà prêtes à évoluer. Cette offre répond aux besoins en matière d'IA prédictive et générative et convient aux cas d'utilisation propres à chaque entreprise.
Red Hat AI donne accès à la solution Red Hat® AI Inference Server pour optimiser l'inférence des modèles dans le cloud hybride et effectuer des déploiements plus rapides et plus rentables. Basé sur vLLM, ce serveur d'inférence optimise l'utilisation de GPU et diminue les délais de réponse.
Red Hat AI Inference Server comprend le référentiel Red Hat AI, une collection de modèles tiers validés et optimisés, qui favorise la flexibilité des modèles et la cohérence entre les équipes. Grâce à ce référentiel de modèles tiers, les entreprises peuvent réduire le délai de mise sur le marché et éliminer les obstacles financiers qui freinent l'adoption de l'IA.
Le blog officiel de Red Hat
Découvrez les dernières informations concernant notre écosystème de clients, partenaires et communautés.