Red Hat AI Inference Server

Red Hat® AI Inference Server optimise l'inférence dans le cloud hybride pour accélérer le déploiement des modèles et réduire les coûts. 

Illustration hero de Red Hat AI Inference Server

Définition d'un serveur d'inférence

Un serveur d'inférence est un logiciel qui permet aux applications d'intelligence artificielle (IA) de communiquer avec de grands modèles de langage (LLM) pour générer une réponse fondée sur des données. Ce processus s'appelle l'inférence et correspond au moment où le résultat final est fourni. C'est là que l'entreprise enregistre de la valeur métier.

Pour fonctionner efficacement, les LLM ont cependant besoin d'importantes ressources de stockage, de mémoire et d'infrastructure afin d'effectuer les opérations d'inférence à grande échelle, ce qui explique leur coût potentiellement élevé. 

Nous savons que la réussite des stratégies d'IA dépendent du matériel et des logiciels sur lesquels reposent les fonctionnalités d'inférence. La solution Red Hat AI Inference Server optimise l'inférence pour permettre à vos équipes d'évoluer tout en préservant la rentabilité.

Des opérations d'inférence d'IA rapides et économiques avec Red Hat AI Inference Server (durée de la vidéo : 2 min 28 s)

Présentation de Red Hat AI Inference Server

Fonctionnement de Red Hat AI Inference Server

La solution Red Hat AI Inference Server assure des opérations d'inférence rapides et rentables à grande échelle. Parce qu'elle est Open Source, elle prend en charge tous les modèles d'IA générative, tous les accélérateurs d'IA et tous les environnements cloud. 

Basé sur vLLM, ce serveur d'inférence optimise l'utilisation du GPU et raccourcit les délais de réponse. Associé à l'outil LLM Compressor, il augmente l'efficacité de l'inférence sans diminuer les performances. Grâce à son adaptabilité multiplateforme et à une communauté de contributeurs en pleine expansion, le vLLM s'impose comme le Linux® de l'inférence d'IA générative. 

50 %

Certains utilisateurs de l'outil LLM Compressor ont réalisé 50 % d'économies sans diminution des performances*. 

*Zelenović, Saša, « Exploiter tout le potentiel des LLM : des performances optimisées avec le vLLM », blog Red Hat, 27 février 2025. 

Les modèles de votre choix

Red Hat AI Inference Server prend en charge tous les principaux modèles Open Source avec une portabilité flexible des GPU. Vous pouvez même exécuter des modèles qui ne se limitent pas au texte et au code, tels que les modèles de données géospatiales capables d'interpréter votre environnement physique. 

Utilisez tout type de modèle d'IA générative ou faites votre choix parmi notre collection de modèles Open Source tiers, optimisés et validés pour une exécution efficace sur la plateforme Red Hat AI. 

La validation des modèles Red Hat AI est réalisée à l'aide d'outils Open Source tels que les frameworks GuideLLM, Language Model Evaluation Harness et vLLM pour garantir la reproductibilité.

vLLM

Exploitez vLLM pour améliorer l'efficacité de la mémoire et l'utilisation du GPU afin de fournir une inférence de modèle performante. Avec vLLM, optimisez le déploiement de tous les modèles d'IA générative, quel que soit l'accélérateur d'IA utilisé.

LLM Compressor

Compressez des modèles de toute taille pour réduire l'utilisation des ressources de calcul et les coûts associés, tout en conservant un haut niveau de précision dans les réponses. 

Architectures Sparse MoE (Mixture of Experts)

Exécutez des architectures de type Sparse MoE pour réduire les coûts d'inférence sans dégrader les performances avec des agents à faible latence et des modèles de raisonnement sophistiqués.  

Référentiel Red Hat AI

Accédez à des modèles tiers validés et optimisés, prêts pour le déploiement de l'inférence, afin de réduire le délai de rentabilisation et de maîtriser les coûts.

Flexibilité du cloud hybride

Assurez la portabilité entre différents GPU et exécutez des modèles sur site, dans le cloud ou à la périphérie du réseau.

Certification pour les produits Red Hat

La solution Red Hat AI Inference Server est certifiée compatible avec tous les produits Red Hat. Vous pouvez également la déployer sur d'autres plateformes Linux et Kubernetes qui bénéficient d'une assistance conformément à la politique d'assistance de Red Hat pour les composants tiers

Assistance pour l'offre Red Hat AI

Chez Red Hat, nous contribuons largement au projet vLLM et maîtrisons sa technologie. Nos consultants en IA possèdent l'expertise nécessaire pour vous aider à atteindre vos objectifs en matière d'IA d'entreprise. 

Options d'achat

Red Hat AI Inference Server est disponible en tant que produit autonome, mais il fait aussi partie de l'offre Red Hat AI. Il est inclus dans Red Hat Enterprise Linux® AI et Red Hat OpenShift® AI. 

Déployez votre solution avec l'aide de nos partenaires

Nos clients bénéficient à la fois des connaissances de spécialistes et de technologies pour en faire plus avec l'IA. Découvrez tous les partenaires qui s'efforcent d'obtenir une certification de compatibilité avec nos solutions. 

Logo Dell Technologies
Logo Lenovo
Logo Intel
Logo NVIDIA
Logo AMD

Témoignages client du Red Hat Summit et d'AnsibleFest 2025 en lien avec l'IA

Turkish Airlines

Avec un accès aux données à l'échelle de l'entreprise, Turkish Airlines a pu déployer des systèmes deux fois plus vite.

Logo JCCM

La JCCM a amélioré les processus d'évaluation environnementale de la région grâce à l'IA.

DenizBank

DenizBank a fait passer le délai de mise sur le marché de plusieurs jours à quelques minutes seulement.

Logo Hitachi

Hitachi a mis en œuvre l'IA dans toutes ses activités avec Red Hat OpenShift AI.

Foire aux questions

Faut-il acheter Red Hat Enterprise Linux AI ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference Server ?

Non. Vous pouvez acheter Red Hat AI Inference Server en tant que produit Red Hat autonome. 

Faut-il acheter Red Hat AI Inference Server pour utiliser Red Hat Enterprise Linux AI ?

Non. Red Hat AI Inference Server est inclus dans les solutions Red Hat Enterprise Linux AI et Red Hat OpenShift AI. 

Est-il possible d'exécuter Red Hat AI Inference Server sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Oui. Il est également possible de l'exécuter dans d'autres environnements Linux dans le cadre d'un contrat avec un tiers.

Combien coûte la solution Red Hat AI Inference Server ?

Le tarif est calculé selon le nombre d'accélérateurs.

L'IA à votre service, selon vos conditions

IA générative

IA générative

Produisez des contenus, comme du texte et du code logiciel. 

La gamme Red Hat AI vous permet d'exécuter plus rapidement les modèles d'IA générative de votre choix, en utilisant moins de ressources et en réduisant les coûts d'inférence. 

IA prédictive

IA prédictive

Mettez en relation des schémas et prévoyez des résultats futurs. 

Grâce à la gamme Red Hat AI, les entreprises peuvent développer, entraîner, surveiller et mettre à disposition des modèles prédictifs, tout en assurant la cohérence dans le cloud hybride.

Mise en œuvre de l'IA

Mise en œuvre de l'IA

Créez des systèmes qui prennent en charge la maintenance et le déploiement de l'IA à grande échelle. 

Grâce à la gamme Red Hat AI, gérez et surveillez le cycle de vie des applications basées sur l'IA, tout en économisant des ressources et en garantissant la conformité avec les réglementations en matière de confidentialité. 

IA agentique

IA agentique

Créez des workflows capables de réaliser des tâches complexes avec une supervision limitée. 

La gamme Red Hat AI propose une approche flexible et une base solide pour concevoir, gérer et déployer des workflows d'IA agentique dans vos applications existantes.

Autres ressources sur l'IA

Se lancer avec l'IA en entreprise

Se lancer avec l'inférence d'IA

Des modèles Open Source pour innover efficacement avec l'IA

Webinar sur l'amélioration des performances et la maîtrise des coûts

Contactez notre équipe commerciale

Parlez de Red Hat AI avec un représentant Red Hat