Red Hat AI Inference Server

Red Hat® AI Inference Server optimise l'inférence dans le cloud hybride pour accélérer le déploiement des modèles et réduire les coûts.

Essayer

Parler à un représentant Red Hat

Illustration hero de Red Hat AI Inference Server

Définition d'un serveur d'inférence

Un serveur d'inférence est un logiciel qui permet aux applications d'intelligence artificielle (IA) de communiquer avec de grands modèles de langage (LLM) pour générer une réponse fondée sur des données. Ce processus s'appelle l'inférence et correspond au moment où le résultat final est fourni. C'est là que l'entreprise enregistre de la valeur métier.

Pour fonctionner efficacement, les LLM ont cependant besoin d'importantes ressources de stockage, de mémoire et d'infrastructure afin d'effectuer les opérations d'inférence à grande échelle, ce qui explique leur coût potentiellement élevé.

Nous savons que la réussite des stratégies d'IA dépendent du matériel et des logiciels sur lesquels reposent les fonctionnalités d'inférence. La solution Red Hat AI Inference Server optimise l'inférence pour permettre à vos équipes d'évoluer tout en préservant la rentabilité.

Comprendre l'importance de l'inférence d'IA

Des opérations d'inférence d'IA rapides et économiques avec Red Hat AI Inference Server (durée de la vidéo : 2 min 28 s)

Capture d'écran d'une démonstration interactive montrant une interface en ligne de commande et l'instruction générative : « These models are optimized to run on Red Hat AI Inference Server. You can deploy them wherever you need them with a standardized API, whether on Red Hat Products or non-Red Hat Kubernetes and Linux environments. »

Présentation de Red Hat AI Inference Server

Fonctionnement de Red Hat AI Inference Server

La solution Red Hat AI Inference Server assure des opérations d'inférence rapides et rentables à grande échelle. Parce qu'elle est Open Source, elle prend en charge tous les modèles d'IA générative, tous les accélérateurs d'IA et tous les environnements cloud.

Basé sur vLLM, ce serveur d'inférence optimise l'utilisation du GPU et raccourcit les délais de réponse. Associé à l'outil LLM Compressor, il augmente l'efficacité de l'inférence sans diminuer les performances. Grâce à son adaptabilité multiplateforme et à une communauté de contributeurs en pleine expansion, le vLLM s'impose comme le Linux® de l'inférence d'IA générative.

Découvrir trois cas d'utilisation concrets de vLLM

50 %

Certains utilisateurs de l'outil LLM Compressor ont réalisé 50 % d'économies sans diminution des performances*.

*Zelenović, Saša, « Exploiter tout le potentiel des LLM : des performances optimisées avec le vLLM », blog Red Hat, 27 février 2025.

Les modèles de votre choix

Red Hat AI Inference Server prend en charge tous les principaux modèles Open Source avec une portabilité flexible des GPU. Vous pouvez même exécuter des modèles qui ne se limitent pas au texte et au code, tels que les modèles de données géospatiales capables d'interpréter votre environnement physique.

Utilisez tout type de modèle d'IA générative ou faites votre choix parmi notre collection de modèles Open Source tiers, optimisés et validés pour une exécution efficace sur la plateforme Red Hat AI.

La validation des modèles Red Hat AI est réalisée à l'aide d'outils Open Source tels que les frameworks GuideLLM, Language Model Evaluation Harness et vLLM pour garantir la reproductibilité.

Découvrir le référentiel de modèles sur Hugging Face

Fonctions et avantages

Accéder à la documentation du produit | Télécharger la fiche technique

vLLM

Exploitez vLLM pour améliorer l'efficacité de la mémoire et l'utilisation du GPU afin de fournir une inférence de modèle performante. Avec vLLM, optimisez le déploiement de tous les modèles d'IA générative, quel que soit l'accélérateur d'IA utilisé.

LLM Compressor

Compressez des modèles de toute taille pour réduire l'utilisation des ressources de calcul et les coûts associés, tout en conservant un haut niveau de précision dans les réponses.

Architectures Sparse MoE (Mixture of Experts)

Exécutez des architectures de type Sparse MoE pour réduire les coûts d'inférence sans dégrader les performances avec des agents à faible latence et des modèles de raisonnement sophistiqués.

Référentiel Red Hat AI

Accédez à des modèles tiers validés et optimisés, prêts pour le déploiement de l'inférence, afin de réduire le délai de rentabilisation et de maîtriser les coûts.

Référentiel Red Hat AI sur Hugging Face

Flexibilité du cloud hybride

Assurez la portabilité entre différents GPU et exécutez des modèles sur site, dans le cloud ou à la périphérie du réseau.

Certification pour les produits Red Hat

La solution Red Hat AI Inference Server est certifiée compatible avec tous les produits Red Hat. Vous pouvez également la déployer sur d'autres plateformes Linux et Kubernetes qui bénéficient d'une assistance conformément à la politique d'assistance de Red Hat pour les composants tiers.

Assistance pour l'offre Red Hat AI

Chez Red Hat, nous contribuons largement au projet vLLM et maîtrisons sa technologie. Nos consultants en IA possèdent l'expertise nécessaire pour vous aider à atteindre vos objectifs en matière d'IA d'entreprise.

En savoir plus sur les services de consulting Red Hat pour l'IA

Options d'achat

Red Hat AI Inference Server est disponible en tant que produit autonome, mais il fait aussi partie de l'offre Red Hat AI. Il est inclus dans Red Hat Enterprise Linux® AI et Red Hat OpenShift® AI.

Parler à un représentant Red Hat

Déployez votre solution avec l'aide de nos partenaires

Nos clients bénéficient à la fois des connaissances de spécialistes et de technologies pour en faire plus avec l'IA. Découvrez tous les partenaires qui s'efforcent d'obtenir une certification de compatibilité avec nos solutions.

Découvrir les partenaires Red Hat pour l'IA

Témoignages client du Red Hat Summit et d'AnsibleFest 2025 en lien avec l'IA

Découvrir les temps forts du Summit 2025

Avec un accès aux données à l'échelle de l'entreprise, Turkish Airlines a pu déployer des systèmes deux fois plus vite.

La JCCM a amélioré les processus d'évaluation environnementale de la région grâce à l'IA.

DenizBank a fait passer le délai de mise sur le marché de plusieurs jours à quelques minutes seulement.

Hitachi a mis en œuvre l'IA dans toutes ses activités avec Red Hat OpenShift AI.

Foire aux questions

Faut-il acheter Red Hat Enterprise Linux AI ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference Server ?

Non. Vous pouvez acheter Red Hat AI Inference Server en tant que produit Red Hat autonome.

Faut-il acheter Red Hat AI Inference Server pour utiliser Red Hat Enterprise Linux AI ?

Non. Red Hat AI Inference Server est inclus dans les solutions Red Hat Enterprise Linux AI et Red Hat OpenShift AI.

Acheter la solution Red Hat Enterprise Linux AI

Est-il possible d'exécuter Red Hat AI Inference Server sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Oui. Il est également possible de l'exécuter dans d'autres environnements Linux dans le cadre d'un contrat avec un tiers.

Combien coûte la solution Red Hat AI Inference Server ?

Le tarif est calculé selon le nombre d'accélérateurs.

L'IA à votre service, selon vos conditions

IA générative

Produisez des contenus, comme du texte et du code logiciel.

La gamme Red Hat AI vous permet d'exécuter plus rapidement les modèles d'IA générative de votre choix, en utilisant moins de ressources et en réduisant les coûts d'inférence.

En savoir plus sur l'IA générative avec Red Hat AI

IA prédictive

Mettez en relation des schémas et prévoyez des résultats futurs.

Grâce à la gamme Red Hat AI, les entreprises peuvent développer, entraîner, surveiller et mettre à disposition des modèles prédictifs, tout en assurant la cohérence dans le cloud hybride.

En savoir plus sur l'IA prédictive avec Red Hat AI

Mise en œuvre de l'IA

Créez des systèmes qui prennent en charge la maintenance et le déploiement de l'IA à grande échelle.

Grâce à la gamme Red Hat AI, gérez et surveillez le cycle de vie des applications basées sur l'IA, tout en économisant des ressources et en garantissant la conformité avec les réglementations en matière de confidentialité.

En savoir plus sur la mise en œuvre l'IA avec Red Hat AI

IA agentique

Créez des workflows capables de réaliser des tâches complexes avec une supervision limitée.

La gamme Red Hat AI propose une approche flexible et une base solide pour concevoir, gérer et déployer des workflows d'IA agentique dans vos applications existantes.

En savoir plus sur l'IA agentique avec Red Hat AI

Red Hat AI Inference Server

Définition d'un serveur d'inférence

Présentation de Red Hat AI Inference Server

Fonctionnement de Red Hat AI Inference Server

Les modèles de votre choix

Fonctions et avantages

vLLM

LLM Compressor

Architectures Sparse MoE (Mixture of Experts)

Référentiel Red Hat AI

Flexibilité du cloud hybride

Certification pour les produits Red Hat

Assistance pour l'offre Red Hat AI

Options d'achat

Déployez votre solution avec l'aide de nos partenaires

Témoignages client du Red Hat Summit et d'AnsibleFest 2025 en lien avec l'IA

Faut-il acheter Red Hat Enterprise Linux AI ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference Server ?

Faut-il acheter Red Hat AI Inference Server pour utiliser Red Hat Enterprise Linux AI ?

Est-il possible d'exécuter Red Hat AI Inference Server sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Combien coûte la solution Red Hat AI Inference Server ?

L'IA à votre service, selon vos conditions

IA générative

IA prédictive

Mise en œuvre de l'IA

IA agentique

Autres ressources sur l'IA

Se lancer avec l'IA en entreprise

Se lancer avec l'inférence d'IA

Des modèles Open Source pour innover efficacement avec l'IA

Webinar sur l'amélioration des performances et la maîtrise des coûts

Contactez notre équipe commerciale

Parlez de Red Hat AI avec un représentant Red Hat

Plateformes

Outils

Essayer, acheter et vendre

Communication

About Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links