Les petits modèles de langage, qu'est-ce que c'est ?

Copier l'URL

Version réduite d'un grand modèle de langage (LLM), le petit modèle de langage (SLM) repose sur des connaissances plus spécialisées et offre aux équipes une personnalisation plus rapide ainsi qu'une meilleure efficacité d'exécution.

Contrairement aux LLM qui contiennent des connaissances générales, les SLM sont entraînés pour développer des connaissances spécifiques d'un domaine. Plus petits, les SLM mobilisent moins de ressources de calcul pour leur entraînement et leur déploiement, ce qui réduit les coûts de l'infrastructure et accélère le réglage fin. De plus, leur légèreté les rend particulièrement adaptés aux appareils d'edge computing et aux applications mobiles.

Petits et grands modèles de langage

Les SLM et les LLM sont deux types de systèmes d'intelligence artificielle (IA) entraînés dans le but d'interpréter le langage humain, y compris les langages de programmation. Leurs principales différences sont généralement liées à la taille des ensembles de données et aux processus d'entraînement utilisés, ainsi qu'au coût et aux bénéfices associés à la mise en œuvre des divers cas d'utilisation.

Comme leur nom l'indique, les LLM et SLM sont entraînés à partir d'ensembles de données de langage, ce qui les distingue des modèles entraînés à l'aide d'images, tels que DALL·E, ou de vidéos, tels que Sora. Ces données peuvent être issues du contenu textuel de pages web, de code de développement, d'e-mails ou encore de manuels d'utilisation.

L'une des principales applications des LLM et des SLM est l'IA générative, qui vise à générer du contenu non prédéfini pour répondre à des requêtes multiples et imprévisibles. Les LLM doivent notamment leur popularité au modèle de fondation GPT-4 et à ChatGPT, un dialogueur entraîné à partir d'immenses ensembles de données et à l'aide de milliards de paramètres afin de répondre à une multitude de questions posées par des humains. Ces modèles s'utilisent pour d'autres applications non génératives, comme l'IA prédictive.

Découvrir les éléments importants pour la création d'un environnement d'IA/AA prêt pour la production

Le champ d'application de GPT-4/ChatGPT illustre bien l'une des principales différences entre les LLM et les SLM : les ensembles de données d'entraînement.

Les LLM visent souvent à imiter les facultés intellectuelles humaines de manière générale, et sont donc entraînés à partir d'une multitude d'ensembles de données très vastes. Dans le cas de GPT-4/ChatGPT, l'entraînement se base sur la totalité des données publiées sur Internet jusqu'à une date donnée. Si c'est en interprétant et en répondant à de multiples requêtes du grand public qu'il a acquis sa notoriété, ChatGPT a également attiré l'attention avec ce que l'on appelle communément des « hallucinations ». Ces réponses incorrectes s'expliquent par un manque de réglage fin et d'entraînement dans un domaine précis pour répondre avec exactitude aux requêtes propres à un secteur ou à un domaine de niche.

Les SLM sont quant à eux entraînés avec de plus petits ensembles de données adaptés à des domaines spécifiques. Par exemple, un prestataire de soins de santé peut utiliser un dialogueur alimenté par un SLM et entraîné à partir d'ensembles de données médicales pour intégrer des connaissances spécifiques d'un domaine dans la requête que formule un utilisateur inexpérimenté sur sa santé, en vue de préciser la question et de fournir une réponse de meilleure qualité. Dans cette situation, il n'est pas nécessaire d'entraîner le dialogueur avec toutes les données publiées sur Internet (articles de blog, romans de fiction, poèmes, etc.), car elles ne sont pas pertinentes pour ce cas d'utilisation.

En bref, les SLM sont généralement très performants dans des domaines spécifiques et, à l'inverse des LLM, leurs capacités sont inférieures lorsque les requêtes demandent des connaissances générales et une compréhension globale du contexte.

En savoir plus sur LoRA et QLoRA

Ressources Red Hat

Dans le cas d'un LLM comme d'un SLM, l'entraînement d'un modèle pour un cas d'utilisation métier est un processus qui nécessite de nombreuses ressources. Ce sont cependant les LLM qui en demandent le plus. Dans le cas de GPT-4, il a fallu utiliser 25 000 GPU NVIDIA A100 simultanément pendant 90 à 100 jours. Gardons à l'esprit toutefois que ce modèle est actuellement le plus grand des LLM. D'autres LLM, comme les modèles Granite, n'ont pas eu besoin d'autant de ressources. L'entraînement d'un SLM mobilise une quantité non négligeable de ressources de calcul, mais à une échelle bien inférieure à celle des LLM.

 

Ressources mobilisées pour l'entraînement et l'inférence

Il convient également de différencier l'entraînement et l'inférence des modèles. Comme expliqué ci-dessus, l'entraînement est la première étape de développement d'un modèle d'IA. L'inférence correspond au processus qu'un modèle d'IA déjà entraîné suit pour formuler des prédictions à partir de nouvelles données. Par exemple, lorsqu'un utilisateur pose une question à ChatGPT, le modèle génère une prédiction et c'est ce que l'on appelle l'inférence.

Certains modèles préentraînés, comme ceux de la famille Granite, peuvent réaliser des inférences en mobilisant les ressources d'une seule station de travail hautes performances (par exemple, un seul GPU2 V100 de 32 Go), bien qu'ils soient nombreux à avoir besoin de plusieurs unités de traitement en parallèle pour générer des données. En outre, plus le nombre d'utilisateurs qui accèdent au LLM simultanément est élevé, plus le processus d'inférence est ralenti. Avec un SLM, les opérations d'inférence ne nécessitent généralement pas plus que les ressources d'un smartphone ou d'un autre type d'appareil mobile.

Différents facteurs peuvent influer sur la réussite de l'inférence à grande échelle, en particulier l'efficacité de la coordination des différentes variables. 

Plus précisément, pour mettre à l'échelle des charges de travail, les entreprises ont besoin de serveurs d'inférence capables de prendre en charge des modèles d'IA plus grands (tels que des LLM) et des fonctionnalités d'inférence plus complexes.

Comprendre l'importance de l'inférence

Les outils d'IA ci-dessous utilisent les ressources plus efficacement pour accélérer l'inférence à grande échelle : 

  • llm-d : les instructions génératives des grands modèles de langage (LLM) peuvent s'avérer complexes et hétérogènes. En général, elles nécessitent des ressources de calcul et de stockage considérables pour traiter de gros volumes de données. Un framework d'IA Open Source comme llm-d permet aux équipes de développement d'utiliser des techniques telles que l'inférence distribuée pour répondre aux exigences croissantes des modèles à raisonnement plus grands et sophistiqués (comme les LLM).
  • Inférence distribuée : cette approche permet aux modèles d'IA de traiter les charges de travail plus efficacement en répartissant les tâches liées à l'inférence entre plusieurs équipements interconnectés. Les tâches d'inférence sont ainsi allégées.
  • vLLM : sigle anglais de virtual Large Language Model, ou grand modèle de langage virtuel, vLLM est une bibliothèque de code Open Source gérée par la communauté vLLM. Il améliore l'efficacité des calculs des grands modèles de langage à grande échelle. Il permet à des entreprises telles que LinkedIn, Roblox et Amazon d'accélérer leurs capacités d'inférence.  

Aucun modèle n'est intrinsèquement meilleur que les autres. Tout dépend des objectifs, des ressources et des compétences de l'entreprise, ainsi que de son calendrier et d'autres facteurs. Il est également essentiel de décider si le cas d'utilisation requiert d'entraîner un modèle vierge ou de simplement procéder au réglage fin d'un modèle préentraîné. Voici quelques points à prendre en compte pour choisir entre un LLM et un SLM :

Coût

La plupart du temps, les LLM nécessitent bien plus de ressources pour l'entraînement, le réglage fin et les inférences. L'entraînement reste cependant un processus peu fréquent. Les ressources de calcul sont seulement nécessaires pendant ce processus, qui n'est pas une tâche régulière et continue. En revanche, l'exécution des inférences implique un coût continu, qui peut augmenter parallèlement à la hausse du nombre d'utilisateurs du modèle. Dans la plupart des cas, des ressources de cloud computing à grande échelle ou des investissements importants sur site seront nécessaires, voire les deux.

L'utilisation des SLM est souvent envisagée pour des cas d'utilisation à faible latence, comme l'edge computing, parce que ces modèles peuvent généralement s'exécuter avec les ressources disponibles sur un appareil mobile, sans avoir besoin d'une connexion stable et performante à d'importantes ressources.

Lire l'article de blog sur la réduction des coûts associés aux LLM  

Expertise

De nombreux LLM préentraînés, comme Granite, Llama et GPT-4, suivent une approche de type « prêt à l'emploi » pour simplifier l'adoption de l'IA. Les entreprises qui souhaitent commencer par faire quelques tests avec cette technologie doivent les privilégier, car aucune intervention de data scientists n'est nécessaire pour leur conception ou leur entraînement. De leur côté, les SLM nécessitent des compétences spécialisées, à la fois en science des données et dans le secteur d'activité en question, pour effectuer un réglage fin à l'aide d'ensembles de données spécifiques.

Sécurité

L'un des risques associés aux LLM est l'exposition de données sensibles au travers des API. Le réglage fin d'un LLM à l'aide des données d'une entreprise doit se faire dans le respect de la conformité et des politiques applicables. En matière de fuite de données, les SLM présentent un moindre risque, car ils offrent un meilleur niveau de contrôle.

Parce qu'elles intègrent de plus en plus les SLM à leurs workflows, les entreprises doivent s'assurer de connaître les limites associées à ce type de modèle.

Biais

Les SLM sont entraînés à l'aide d'ensembles de données plus restreints, ils sont donc moins touchés par les biais que les LLM, même s'il est impossible de les éliminer complètement des modèles d'IA. En effet, l'entraînement des données de modèles de toutes tailles induit un risque de biais : certains groupes ou certaines idées peuvent être sous-représentés ou mal représentés, et des erreurs factuelles peuvent même survenir. Les modèles de langage peuvent également reproduire des biais en fonction des dialectes, de la zone géographique et de la grammaire utilisée.

Les équipes doivent donc porter une attention particulière à la qualité des données d'entraînement afin de limiter la présence de biais dans les résultats. 

Champ de connaissances restreint

Les SLM se basent sur un plus petit pool d'informations pour générer des réponses. Ils sont de ce fait très efficaces pour effectuer des tâches spécifiques, mais beaucoup moins adaptés lorsqu'il s'agit de tâches qui nécessitent de vastes connaissances générales. 

Dès lors, les équipes peuvent envisager de créer une collection de SLM spécifiques afin de l'utiliser en parallèle à un ou plusieurs LLM. Cette solution est particulièrement intéressante lorsque les équipes sont en mesure d'associer des modèles à leurs applications existantes, car elles bénéficient ainsi d'un workflow interconnecté constitué d'une multitude de modèles de langage fonctionnant conjointement.

Parce qu'ils sont adaptables, les SLM sont intéressants pour de nombreux cas d'utilisation. 

Dialogueurs 

Les entreprises peuvent utiliser un SLM pour entraîner un dialogueur à partir de contenus spécialisés. Dans le cas d'un service clientèle, le dialogueur peut être entraîné sur la base de connaissances propres à une entreprise de manière à répondre à des questions et à guider les utilisateurs vers les informations pertinentes. 

IA agentique 

Lorsqu'ils sont intégrés à un workflow d'IA agentique, les SLM peuvent effectuer des tâches à la place d'un utilisateur. 

IA générative 

Les SLM peuvent exécuter des tâches telles que la génération de texte, la traduction et la synthèse de contenus écrits. 

Découvrir d'autres cas d'utilisation de l'IA générative

Red Hat AI est une plateforme de produits et de services qui permettent aux entreprises d'avancer dans le déploiement de l'IA, qu'elles soient tout au début du processus ou déjà prêtes à évoluer. Cette offre répond aux besoins en matière d'IA prédictive et générative et convient aux cas d'utilisation propres à chaque entreprise.

Red Hat AI donne accès à la solution Red Hat® AI Inference Server pour optimiser l'inférence des modèles dans le cloud hybride et effectuer des déploiements plus rapides et plus rentables. Basé sur vLLM, ce serveur d'inférence optimise l'utilisation du GPU et diminue les délais de réponse.

En savoir plus sur Red Hat AI Inference Server

Red Hat AI Inference Server comprend le référentiel Red Hat AI, une collection de modèles tiers validés et optimisés, qui favorise la flexibilité des modèles et la cohérence entre les équipes. Grâce à ce référentiel de modèles tiers, les entreprises peuvent réduire le délai de mise sur le marché et éliminer les obstacles financiers qui freinent l'adoption de l'IA. 

En savoir plus sur les modèles validés par Red Hat AI

Le blog officiel de Red Hat

Découvrez les dernières informations concernant notre écosystème de clients, partenaires et communautés.

Tous les essais de produits Red Hat

Profitez de nos essais gratuits de produits pour renforcer votre expérience pratique, préparer une certification ou évaluer l'adéquation d'un produit avec les besoins de votre entreprise.

En savoir plus

L'inférence d'IA, qu'est-ce que c'est ?

L'inférence d'intelligence artificielle est l'opération par laquelle un modèle d'IA fournit une réponse à partir de données. Il s'agit de l'étape finale d'un processus complexe d'apprentissage automatique.

Le framework llm-d, qu'est-ce que c'est ?

llm-d est un framework Open Source natif pour Kubernetes qui accélère l'inférence distribuée des LLM à grande échelle.

Tout ce qu'il faut savoir sur les infrastructures d'IA

Les infrastructures d'IA associent les technologies d'intelligence artificielle et d'apprentissage automatique (IA/AA) afin de développer et déployer des solutions évolutives pour les données.

IA/ML : ressources recommandées

Articles associés