Les inférences d'IA, qu'est-ce que c'est ?

Publié 7 janvier 2025•7 minutes (temps de lecture)

L'inférence d'IA est l'opération dans le cadre de laquelle un modèle d'IA fournit une réponse à partir de données. Ce que l'on qualifie couramment d'IA correspond en réalité à cette étape finale d'un processus long et complexe d'apprentissage automatique.

L'entraînement de modèles d'IA avec un volume de données suffisant peut aider à améliorer la précision et la rapidité des inférences d'IA.

Découvrir Red Hat AI

Par exemple, lorsqu'un modèle d'IA est entraîné avec des données sur les animaux (différences et similitudes, caractéristiques de santé, comportement typique), il a besoin d'un vaste ensemble de données pour établir des connexions et identifier des schémas.

Une fois l'entraînement réussi, le modèle peut réaliser des inférences, comme identifier une race de chien, reconnaître le miaulement d'un chat, ou encore formuler un avertissement concernant un cheval effrayé. Même s'il n'a jamais observé ces animaux en dehors d'un ensemble de données abstrait, le modèle est capable de réaliser des inférences dans un nouvel environnement et en temps réel grâce aux nombreuses données avec lesquelles il a été entraîné.

Notre propre cerveau réalise également ce type de connexions. Nous enregistrons des informations sur différents animaux issues de livres, de films et de ressources en ligne. Nous pouvons observer des images, regarder des vidéos et écouter les sons ou les bruits qu'ils produisent. Lorsque nous allons au zoo, nous sommes capables de faire des inférences, c'est-à-dire de reconnaître des animaux d'après nos connaissances. Et même sans jamais aller au zoo, nous pouvons identifier des animaux grâce aux recherches effectuées. Les modèles d'IA suivent le même cheminement lors de l'étape d'inférence.

Découvrir les modèles de fondation

L'inférence d'IA est la phase d'exploitation de l'IA, dans le cadre de laquelle le modèle est capable d'appliquer ce qu'il a appris au cours de son entraînement à des situations réelles. La capacité de l'IA à identifier des schémas et à aboutir à des conclusions la distingue des autres technologies. Parce qu'elle peut réaliser ces inférences, elle facilite la réalisation de tâches pratiques au quotidien ou la programmation informatique complexe.

En savoir plus sur l'IA prédictive et l'IA générative

Aujourd'hui, les entreprises peuvent utiliser les inférences d'IA dans de multiples situations courantes. En voici quelques exemples.

Santé : les inférences d'IA peuvent aider les professionnels de santé à comparer l'historique de patients à des données actuelles, ainsi qu'identifier des schémas et des anomalies plus rapidement que des humains. Par exemple, il peut s'agir de détecter une anomalie lors d'un scanner cérébral ou une fréquence cardiaque trop élevée. Cette approche peut permettre de déceler les signes de menaces pour la santé des patients de manière beaucoup plus précoce et rapide.

Finance : après un entraînement basé sur de vastes ensembles de données bancaires et de crédit, les inférences d'IA peuvent identifier les erreurs ou les données inhabituelles en temps réel afin de détecter la fraude de manière rapide et préventive. Cette approche permet d'optimiser les ressources du service clientèle, de protéger la confidentialité des données sur les clients et d'améliorer la réputation de la marque.

Automobile : avec l'entrée de l'IA dans le monde de l'automobile, les véhicules autonomes transforment notre manière de conduire. Les inférences d'IA peuvent aider les véhicules à se rendre d'un point A à un point B via l'itinéraire le plus efficace ou à freiner à l'approche d'un panneau stop, dans le but d'améliorer le confort et la sécurité des passagers.

De nombreux autres secteurs utilisent les inférences d'IA de manière créative, par exemple dans le cadre d'un drive de restauration rapide, d'une clinique vétérinaire ou du service de réception d'un hôtel. Les entreprises trouvent différentes manières de tirer parti de cette technologie pour améliorer leur précision, gagner du temps, réduire les coûts et préserver leur avantage concurrentiel.

Découvrir d'autres cas d'utilisation de l'IA/AA

L'entraînement de l'IA est le processus qui consiste à utiliser des données pour permettre à un modèle d'apprendre à réaliser des connexions et à identifier des schémas. Lors de l'entraînement, le modèle d'IA apprend, tandis que dans le cadre de l'inférence, il exploite ce qu'il a appris.

La majeure partie de l'entraînement s'effectue lors des premières étapes de la création du modèle. Une fois entraîné, le modèle peut réaliser des connexions avec des données qui ne lui ont jamais été présentées auparavant. L'utilisation d'un ensemble de données plus vaste pour entraîner un modèle lui permet d'apprendre davantage de connexions et de réaliser des inférences plus précises. Si le modèle ne parvient pas à réaliser des inférences précises après l'entraînement, il est possible de procéder à un réglage fin pour l'aider à intégrer des connaissances et améliorer sa précision.

L'entraînement et l'inférence permettent à l'IA d'imiter les capacités humaines, par exemple pour tirer des conclusions sur la base d'un raisonnement et de preuves.

Les inférences d'IA peuvent prendre différentes formes selon les cas d'utilisation.

Inférences par lots : ce type d'inférences tient son nom de la manière dont les données sont reçues et traitées, à savoir sous forme de vastes groupes. Au lieu de traiter les inférences en temps réel, cette méthode traite les données par vagues, parfois toutes les heures, voire une fois par jour en fonction du volume de données et de l'efficacité du modèle d'IA. Ces inférences sont également appelées « inférences hors ligne » ou « inférences statiques ».
Inférences en ligne : aussi appelées « inférences dynamiques », ces inférences sont capables de formuler une réponse en temps réel. Elles nécessitent du matériel et des logiciels pouvant réduire la latence et accélérer les prédictions. En périphérie du réseau, les inférences en ligne permettent à l'IA de travailler où sont situées les données : sur un téléphone, dans une voiture ou dans un bureau distant à la connectivité limitée.
Développé par OpenAI, l'outil ChatGPT est un bon exemple d'inférence en ligne : il nécessite de nombreuses ressources d'exploitation en amont pour formuler des réponses rapides et précises.
Inférences en diffusion en continu : ce type d'inférences correspond à un système d'IA qui n'est pas nécessairement utilisé pour communiquer avec des humains. Au lieu de recevoir des instructions génératives et des requêtes, le modèle reçoit un flux de données constant pour réaliser des prédictions et mettre à jour sa base de données interne. Les inférences en diffusion en continu permettent de suivre des modifications, de préserver la régularité ou de prédire un problème avant qu'il survienne.

Un serveur d'inférences d'IA est le logiciel qui permet à un modèle d'IA de passer de l'entraînement à la production. Il utilise l'apprentissage automatique pour aider le modèle à appliquer ce qu'il a appris et à le mettre en pratique pour générer des inférences.

Pour une efficacité optimale, le serveur d'inférences et le modèle d'IA doivent être compatibles. Voici quelques exemples de serveurs d'inférences et les modèles avec lesquels ils fonctionnent le mieux.

Serveur d'inférences multimodal : ce type de serveur est capable de prendre en charge plusieurs modèles simultanément. Il peut donc recevoir des données sous forme de code, d'images ou de texte, puis traiter tous ces types d'inférences au même endroit. Un serveur d'inférences multimodal utilise plus efficacement la mémoire du GPU et du processeur pour prendre en charge plusieurs modèles. Son déploiement permet de rationaliser le matériel, de simplifier la mise à l'échelle et d'optimiser les coûts.
Serveur d'inférences à modèle unique : ce type de serveur ne prend en charge qu'un seul modèle. Le processus d'inférence d'IA est préparé spécialement pour communiquer avec un modèle entraîné pour un cas d'utilisation précis. Ce serveur peut être capable de traiter les données uniquement sous forme de texte ou de code. Cette spécificité lui permet d'offrir de bonnes performances, ce qui peut faciliter la prise de décisions en temps réel ou la gestion des contraintes en matière de ressources.

Les principaux défis liés à la génération d'inférences concernent la mise à l'échelle, les ressources et les coûts.

Complexité : il est plus facile d'apprendre à un modèle à exécuter des tâches simples telles que générer une image ou présenter une politique de retour. Parce que nous demandons aux modèles d'ingérer des données toujours plus complexes, par exemple pour détecter une fraude financière ou identifier des anomalies médicales, il leur faut davantage de données lors de l'entraînement et davantage de ressources pour prendre en charge ces données.
Ressources : les modèles plus complexes nécessitent du matériel et des logiciels spécialisés pour prendre en charge le traitement de la vaste quantité de données qui intervient lorsqu'un modèle génère des inférences. L'un des composants clés de ces ressources est la mémoire du processeur. Le processeur est souvent qualifié de centre de contrôle d'un ordinateur. Lorsqu'un modèle se prépare à utiliser ce qu'il a appris (les données d'entraînement) pour générer une réponse, il doit exploiter les données contenues dans la mémoire du processeur.
Coûts : tous ces composants qui rendent les inférences d'IA possibles ont un coût. Que ce soit pour mettre à l'échelle l'environnement ou migrer vers du matériel récent prenant en charge l'IA, les ressources nécessaires pour obtenir un système complet peuvent être considérables. À mesure que la complexité des modèles augmente et que le matériel évolue, les coûts peuvent croître fortement et empêcher les entreprises de suivre le rythme de l'innovation dans le domaine de l'IA.

Pour relever ces défis, l'une des solutions est d'utiliser le vLLM, un serveur d'inférences qui accélère la production de résultats des applications d'IA générative.

Le vLLM, qu'est-ce que c'est ?

Red Hat AI est une gamme de produits et de services qui permettent aux entreprises d'avancer dans le déploiement de l'IA, qu'elles soient au tout début du processus ou déjà prêtes à évoluer dans le cloud hybride. Cette offre répond aux besoins en matière d'IA prédictive et générative et convient aux cas d'utilisation propres à chaque entreprise.

Découvrir Red Hat AI

La solution Red Hat AI peut réduire le délai de mise sur le marché et limiter les problèmes de ressources ainsi que les obstacles financiers qui freinent l'accès aux plateformes d'IA. Cette solution permet de régler efficacement les petits modèles spécifiques et de les déployer avec flexibilité, quel que soit l'emplacement des données.

Red Hat AI s'appuie sur des technologies Open Source et un écosystème de partenaires axé sur les performances, la stabilité et la prise en charge des GPU au sein d'infrastructures diverses.

Lire le communiqué de presse sur l'acquisition de Neural Magic

En savoir plus

L'AIOps, qu'est-ce que c'est ?

L'AIOps correspond à l'intelligence artificielle appliquée à l'exploitation informatique. Découvrez sa définition et ses exemples d'usage.

La génération augmentée de récupération, qu'est-ce que c'est ?

La génération augmentée de récupération ou RAG (Retrieval-Augmented Generation) associe des ressources externes à un LLM pour améliorer la précision des sorties d'un modèle d'IA générative.

Mise en œuvre des pratiques MLOps avec Red Hat OpenShift

Red Hat OpenShift accélère les workflows d'IA/ML et la distribution des applications intelligentes basées sur l'IA.

Collaborer et apprendre

Solutions par secteur

Produits de plateforme

À la une

Essayer et acheter

Services

Formations et certifications

À la une

Thèmes

Articles

À découvrir également

Pour nos clients

Pour nos partenaires

À propos de Red Hat

Open Source

Pour en savoir plus

Sélectionner une langue

Les inférences d'IA, qu'est-ce que c'est ?

Définition des inférences d'IA

Importance des inférences d'IA

Cas d'utilisation des inférences d'IA

Définition de l'entraînement de l'IA

Les différents types d'inférences d'IA

Définition d'un serveur d'inférences d'IA

Défis liés aux inférences d'IA

Nos solutions

En savoir plus

L'AIOps, qu'est-ce que c'est ?

La génération augmentée de récupération, qu'est-ce que c'est ?

Mise en œuvre des pratiques MLOps avec Red Hat OpenShift

IA/ML : ressources recommandées

Produits

Outils

Essayer, acheter et vendre

Communication

À propos de Red Hat

Sélectionner une langue

Red Hat legal and privacy links

Red Hat legal and privacy links