Was ist KI-Inferenz?
KI-Inferenz bezieht sich auf den Vorgang, bei dem ein KI-Modell eine auf Daten basierende Antwort gibt. Was einige allgemein „KI“ nennen, ist in Wirklichkeit der KI-Inferenz zu verdanken: der letzte Schritt – sozusagen der Aha-Moment – in einem langen und komplexen Prozesses der ML-Technologie (Machine Learning).
Die Genauigkeit und Geschwindigkeit von KI-Inferenz (Künstliche Intelligenz) lässt sich verbessern, wenn KI-Modelle mit ausreichend Daten trainiert werden.
Wenn ein KI-Modell beispielsweise mit Daten über Tiere trainiert wird – von ihren Unterschieden und Ähnlichkeiten bis hin zu typischen Gesundheitsmerkmalen und Verhaltensweisen – ist ein riesiger Datensatz erforderlich, damit das Modell Verbindungen herstellen und Muster identifizieren kann.
Nachdem es erfolgreich trainiert wurde, kann das Modell Inferenzen generieren. So kann es etwa die Rasse eines Hundes feststellen, das Miauen einer Katze erkennen oder sogar vor einem frei laufenden Pferd warnen. Obwohl es diese Tiere außerhalb eines abstrakten Datensatzes noch nie gesehen hat, kann es aufgrund der umfassenden Trainingsdaten in Echtzeit Inferenzen in einer neuen Umgebung generieren.
Unser menschliches Gehirn stellt Verbindungen auf die gleiche Weise her. Wir können uns in Büchern, Filmen oder Onlineressourcen über verschiedene Tiere informieren. Wir können uns Bilder oder Videos ansehen und uns anhören, wie diese Tiere klingen. Wenn wir dann einen Zoo besuchen, können wir Inferenzen generieren und beispielsweise einen Büffel erkennen. Selbst wenn wir noch nie im Zoo gewesen sind, können wir das Tier identifizieren, weil wir vorher dazu recherchiert haben. Das Gleiche gilt auch für KI-Modelle während der KI-Inferenz.
Erfahren Sie bei unserem nächsten Live Event mehr über die neuesten Entwicklungen und zukünftigen Pläne von Red Hat AI. Besuchen Sie die nächste Live Session.
Warum ist KI-Inferenz wichtig?
Unter KI-Inferenz versteht man die operative Phase von KI, in der das Modell in der Lage ist, das im Training Erlernte auf reale Situationen anzuwenden. Die Fähigkeit von KI, Muster zu erkennen und Rückschlüsse zu ziehen, unterscheidet sie von anderen Technologien. Dadurch kann sie bei täglichen Aufgaben in der Praxis oder bei einer besonders komplizierten Computerprogrammierung von großer Hilfe sein.
Allerdings wird die Inferenz durch die immer größer werdenden Modelle stark belastet. Je komplexer die Modelle werden, desto langsamer wird die Inferenz.
Für erfolgreiche Inferenz müssen KI-Modelle viele Berechnungen in kurzer Zeit durchführen. Daher können Faktoren wie Modellgröße, hohes Nutzervolumen und Latenz die Performance einschränken. Wenn Modelle mehr Daten und Speicher benötigen, können Hardware und Beschleuniger nur schwer mithalten.
Deshalb kann die Hardware und Software, die Ihre Inferenzfunktionen unterstützen, über Erfolg oder Misserfolg Ihrer KI-Strategie entscheiden.
Red Hat AI
Use Cases für KI-Inferenz
Unternehmen können KI-Inferenz heute in verschiedenen alltäglichen Use Cases nutzen. Hier einige Beispiele:
Gesundheitswesen: KI-Inferenz kann Fachleuten im Gesundheitswesen helfen, die Patientenanamnese mit aktuellen Daten zu vergleichen und Muster und Anomalien schneller festzustellen als Menschen das könnten. Beispiele sind Ausreißerwerte in einem Gehirnscan oder ein zusätzlicher Herzschlag. So können Anzeichen für eine gesundheitliche Gefährdung von Patientinnen und Patienten viel früher und viel schneller erkannt werden.
Finanzwesen: Wenn KI-Inferenz mit großen Datensätzen von Bank- und Kreditinformationen trainiert wurde, kann sie Fehler oder ungewöhnliche Daten in Echtzeit identifizieren, um Betrug früh und schnell zu erfassen. So lassen sich Ressourcen für den Kundenservice optimieren, Kundendaten besser schützen und der Ruf der Marke verbessern.
Automobilbranche: Mit dem Einzug von KI in die Welt der Automobile verändern autonome Fahrzeuge die Art und Weise, wie wir Fahrzeuge bewegen. KI-Inferenz kann Fahrzeuge etwa dabei unterstützen, die effizienteste Route von A nach B zu finden oder zu bremsen, wenn wir uns einem Stoppschild nähern. Dies vereinfacht das Fahren und erhöht die Sicherheit der Fahrzeuginsassen.
Viele weitere Branchen wenden KI-Inferenz auch kreativ an. Sie lässt sich für Drive-ins von Fast-Food-Restaurants, Veterinärkliniken oder Hotelconcierges nutzen. Viele Unternehmen sind gerade dabei, die Technologie ganz unterschiedlich zu ihrem Vorteil einzusetzen, um etwa die Genauigkeit zu verbessern, Zeit und Geld zu sparen und im Wettbewerb einen Schritt voraus zu bleiben.
Was ist KI-Training?
KI-Training bezieht sich auf den Prozess, das Modell mithilfe von Daten zu trainieren, damit es lernt, Verbindungen herzustellen und Muster zu identifizieren. Training ist also der Lehrprozess eines Modells, während Inferenz das KI-Modell in Aktion beschreibt.
Der Großteil von KI-Training findet in den Anfangsphasen der Modellentwicklung statt. Nach Abschluss des Trainings kann das Modell Verbindungen herstellen, und zwar mit Daten, die ihm völlig neu sind. Wird ein KI-Modell mit einem größeren Datensatz trainiert, kann es mehr Verbindungen erlernen und dadurch genauere Inferenzen generieren. Wenn das Modell nach dem Training Probleme hat, akkurate Inferenzen zu generieren, kann Fine Tuning sein Wissen ergänzen und so die Genauigkeit verbessern.
Training und KI-Inferenz ermöglichen es der KI, menschliche Fähigkeiten nachzuahmen, etwa das Ziehen von Rückschlüssen, die auf Evidenz und Logik basieren.
Faktoren wie die Modellgröße können dabei den Ressourcenbedarf für die Bearbeitung Ihres Modells beeinflussen.
Welche Arten von KI-Inferenz gibt es?
Durch verschiedene Arten von KI-Inferenz lassen sich unterschiedliche Use Cases unterstützen.
- Batch-Inferenz: Batch-Inferenz wird so genannt, weil sie Daten in sehr großem Umfang erhält und verarbeitet. Statt Inferenz in Echtzeit zu verarbeiten, werden Daten bei dieser Methode in Wellen verarbeitet. Dies kann stündlich oder sogar täglich erfolgen, je nach Datenumfang und Effizienz des KI-Modells. Diese Inferenzen werden auch „Offline-Inferenzen“ oder „statische Inferenzen“ genannt.
Online-Inferenz: Online-Inferenz oder „dynamische“ Inferenz kann Antworten in Echtzeit bereitstellen. Bei diesen Inferenzen sind Hardware und Software erforderlich, die Latenzbarrieren reduzieren und Highspeed-Vorhersagen unterstützen. Online-Inferenz ist etwa am Edge nützlich, da die KI ihre Arbeit dabei dort erledigt, wo sich die Daten befinden. Das kann auf einem Smartphone, im Auto oder in einem entlegenen Büro mit eingeschränkter Konnektivität sein.
ChatGPT von OpenAI ist ein gutes Beispiel für Online-Inferenz. Vorab wird sehr viel operative Unterstützung benötigt, um schnelle und akkurate Antworten liefern zu können.
- Streaming-Inferenz: Streaming-Inferenz beschreibt KI-Systeme, die nicht unbedingt zur Kommunikation mit Menschen verwendet werden. Anstelle von Prompts und Anfragen erhalten solche Modelle einen konstanten Datenfluss, um Vorhersagen zu treffen und ihre interne Datenbank zu aktualisieren. Streaming-Inferenz kann Änderungen überwachen, die Regelmäßigkeit aufrechterhalten und Probleme vorhersagen, bevor sie entstehen.
Was ist ein KI-Inferenzserver?
Ein KI-Inferenzserver ist die Software, dank der ein KI-Modell den Sprung vom Training in den Betrieb schafft. Ein solcher Server unterstützt das Modell mithilfe von maschinellem Lernen dabei, das Gelernte in der Praxis anzuwenden und Inferenzen zu generieren.
Der KI-Inferenzserver und das KI-Modell müssen kompatibel sein, damit sie effiziente Ergebnisse liefern können. Hier sind einige Beispiele von Inferenzservern und Modellen, die optimal zusammenarbeiten:
- Multimodal-Inferenzserver: Diese Art von Inferenzserver kann verschiedene Modelle gleichzeitig unterstützen. Das bedeutet, dass ein solcher Server Daten in Form von Code, Bildern oder Text erhalten und all diese unterschiedlichen Inferenzen auf einem einzigen Server verarbeiten kann. Ein Multimodal-Inferenzserver nutzt GPU- und CPU-Arbeitsspeicher auf effizientere Weise, damit er mehr als ein Modell unterstützen kann. Dies kann Hardware und Kosten optimieren und erleichtert die Skalierung.
- Einzelmodell-Inferenzserver: Dieser Inferenzserver unterstützt nur ein Modell statt mehrerer Modelle. Der KI-Inferenzprozess dieses Servers ist auf die Kommunikation mit einem Modell spezialisiert, das anhand eines spezifischen Use Cases trainiert wurde. Es kann möglicherweise Daten nur in Textform oder nur in Codeform verarbeiten. Dank dieser Spezialisierung ist es unglaublich effizient, was für die Entscheidungsfindung in Echtzeit oder bei Ressourcenbeschränkungen nützlich sein kann.
Herausforderungen der KI-Inferenz
Die größten Herausforderungen beim Ausführen von KI-Inferenz sind Skalierung, Ressourcen und Kosten.
- Komplexität: Es ist einfacher, einem Modell beizubringen, simple Aufgaben auszuführen, wie Bilder zu generieren oder Kunden über Rückgaberichtlinien zu informieren. Wenn wir Modelle mit komplexeren Daten trainieren, damit diese etwa Finanzbetrug stoppen oder medizinische Anomalien identifizieren, sind dazu mehr Daten erforderlich. Außerdem bedarf es mehr Ressourcen, die diese Daten unterstützen.
- Ressourcen: Komplexere Modelle erfordern spezielle Hardware und Software, um das enorme Ausmaß an Datenverarbeitung zu ermöglichen, das erfolgt, wenn ein Modell Inferenzen generiert. Eine wichtige Komponente dieser Ressourcen ist der CPU-Speicher (Central Processing Unit). Eine CPU wird oft auch als Hub oder Kontrollzentrum des Computers bezeichnet. Wenn ein Modell auf der Basis seines „Wissens“ – der Trainingsdaten – eine Antwort generiert, muss es auf die Daten zurückgreifen, die sich im CPU-Speicher befinden.
- Kosten: Diese einzelnen Puzzleteile, die KI-Inferenz erst ermöglichen, sind nicht gerade kostengünstig. Unabhängig davon, ob Sie skalieren oder auf die neueste KI-gestützte Hardware umsteigen wollen – die erforderlichen Ressourcen können zusammen ziemlich umfangreich sein. Mit der zunehmenden Komplexität der Modelle und der Weiterentwicklung der Hardware können die Kosten drastisch ansteigen. Dies kann es Unternehmen erschweren, mit KI-Innovationen Schritt zu halten.
Die spezielle Inferenz-Engine namens vLLM hilft beim Bewältigen dieser Herausforderungen. vLLM beschleunigt die Ausgabe generativer KI-Anwendungen durch eine bessere Nutzung des GPU-Speichers. vLLM ist eine Library von Open Source-Codes, die von der vLLM-Community verwaltet wird. Das Modell unterstützt Large Language Models (LLMs) dabei, Berechnungen effizienter und in großem Umfang durchzuführen. Mit Tools wie LLM Compressor können Sie Inferenzen beschleunigen und Ihr Team und Ihre Ressourcen entlasten.
Wie LLMs mit vLLM schnellere Inferenzen ermöglichen
KI-Inferenz wird in Use Cases mit hohem Volumen und vielen Variablen verwendet. Aber ein konsistentes Deployment von LLMs in großem Umfang erfordert eine erhebliche Rechenleistung, umfangreiche Ressourcen und spezielle operative Kompetenzen. Mit vLLM können Unternehmen diese Herausforderungen überwinden, da es die Hardware, die zur Unterstützung der KI-Inferenz erforderlich ist, effizienter nutzt. Daher ist vLLM besonders attraktiv für Branchen, die neben Geschwindigkeit auch Flexibilität und Kontrolle benötigen.
Als Open Source-Lösung bietet vLLM Unternehmen folgende Vorteile:
- Besitz und Verwaltung ihrer GPUs
- Daten kontrollieren
- Sofort nach der Veröffentlichung mit hochmodernen Modellen experimentieren
vLLM kann auf einer Vielzahl von Hardware bereitgestellt werden, darunter NVIDIA- und AMD-GPUs, Google-TPUs, Intel Gaudi und AWS Neuron. vLLM ist auch nicht auf bestimmte Hardware beschränkt, sondern funktioniert gleichermaßen in der Cloud, im Rechenzentrum oder am Netzwerkrand.
In diesen 3 Use Cases aus der Praxis erfahren Sie, wie bekannte Unternehmen mit vLLM effektiv skalieren.
Was ist verteilte Inferenz?
Verteilte Inferenz sorgt dafür, dass KI-Modelle Workloads effizienter verarbeiten können, indem die Inferenzarbeit innerhalb einer Gruppe miteinander verbundener Geräte verteilt wird. Stellen Sie sich dies als Äquivalent zum Sprichwort „Viele Hände machen ein schnelles Ende“ für den Softwarebereich vor.
Die verteilte Inferenz unterstützt ein System, das Anfragen über eine ganze Flotte von Hardware-Komponenten verteilt, darunter physische und Cloud-Server. Von dort aus verarbeiten die einzelnen Inferenzserver ihren zugewiesenen Teil parallel, um eine Ausgabe zu erstellen. Das Ergebnis ist ein resilientes und beobachtbares System zum Bereitstellen konsistenter und skalierbarer, KI-gestützter Services.
Verteilte Inferenz wird auf vLLM mit Techniken wie Tensorparallelität und MoE-Architekturen (Mixture of Experts) unterstützt.
Wie Red Hat helfen kann
Red Hat AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen bei den einzelnen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.
Mit Red Hat AI erhalten Sie Zugriff auf Red Hat® AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.
Mehr über Red Hat AI Inference Server erfahren
Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Kollektion validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz bieten kann. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeit verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.
Wie souverän ist Ihre Strategie? Einführung in das Red Hat Digital Sovereignty Readiness Assessment Tool
Das Red Hat Sovereignty Readiness Assessment Tool ist eine webbasierte Self Service-Bewertung, die eine klare, objektive Grundlage für die digitale Kontrolle Ihres Unternehmens in 7 kritischen Bereichen bietet.