Was sind LLMOps?

Veröffentlicht 11. Februar 2026•6 Minuten (Lesedauer)

Large Language Models (LLMs) sind ML-Modelle (Machine Learning), die menschliche Sprache verstehen und erzeugen können. LLMs wie GPT-3, LLaMA und Falcon sind Tools, die aus Daten lernen, um Wörter und Sätze zu produzieren. Da sich diese Tools ständig weiterentwickeln, benötigen Unternehmen Best Practices für die Nutzung dieser Modelle. Hier kommen LLMOps ins Spiel.

Large Language Model Operations (LLMOps) sind operative Methoden zum Verwalten großer Sprachmodelle. Mit LLMOps wird der Lifecycle von LLMs verwaltet und automatisiert, vom Fine Tuning bis zur Wartung, und Entwicklungs- und andere Teams werden beim Bereitstellen, Überwachen und Verwalten von LLMs unterstützt.

Red Hat AI kennenlernen

Wenn LLMs ein Teilbereich von ML-Modellen sind, dann ist LLMOps ein großes Sprachmodell, das Machine Learning Operations (MLOps) entspricht. MLOps besteht aus mehreren Workflow-Praktiken mit dem Ziel, Bereitstellung und Wartung von ML-Modellen zu optimieren. Mit MLOps soll die Integration von ML-Modellen in die Softwareentwicklung kontinuierlich weiterentwickelt werden. In ähnlicher Weise zielt LLMOps darauf ab, den Lifecycle der LLM-Entwicklung und -Bereitstellung kontinuierlich zu erproben, zu iterieren, einzusetzen und zu verbessern.

Was ist Models as a Service?

Auch wenn LLMOps und MLOps Ähnlichkeiten aufweisen, gibt es dennoch Unterschiede. Dazu gehören:

Lerninhalte: Traditionelle ML-Modelle werden in der Regel von Grund auf erstellt oder trainiert, während LLMs auf einem Basismodell aufsetzen und anhand von Daten optimiert werden, um die Aufgaben-Performance zu verbessern.

Tuning: Bei LLMs verbessert Fine Tuning die Performance und erhöht die Genauigkeit, sodass das Modell über mehr Wissen zu einem bestimmten Thema verfügt. Durch Prompt Tuning können LLMs eine bessere Performance bei bestimmten Aufgaben erzielen. Ein weiterer Unterschied ist das Hyperparameter Tuning. Bei traditionellem ML konzentriert sich das Tuning auf die Verbesserung der Genauigkeit. Bei LLMs ist das Tuning sowohl für die Genauigkeit als auch für das Senken der Kosten und der für das Training benötigten Energiemenge wichtig. Beide Modelle profitieren vom Tuning-Prozess, allerdings mit unterschiedlichen Schwerpunkten. Abschließend muss noch der RAG-Prozess (Retrieval-Augmented Generation) erwähnt werden, bei dem externes Wissen genutzt wird, um sicherzustellen, dass das LLM genaue und spezifische Fakten erfasst, um bessere Antworten zu produzieren.

Feedback: Reinforcement Learning from Human Feedback (RLHF) ist eine Verbesserungstechnik beim Training von LLMs. Das menschliche Feedback ist entscheidend für die Performance eines LLM. LLMs verwenden Feedback, um die Genauigkeit zu bewerten, während traditionelle ML-Modelle spezifische Metriken für die Genauigkeit verwenden.

Performance-Metriken: ML-Modelle verfügen über präzise Performance-Metriken, aber LLMs verfügen über andere Metriken, wie etwa BLEU (Bilingual Evaluation Understudy) und ROUGE (Recall-Oriented Understudy for Gisting Evaluation), die eine komplexere Auswertung erfordern.

Mehr über MLOps erfahren

LLMOps bietet als optimale Methode zum Überwachen und Verbessern der Performance 3 wichtige Vorteile:

Effizienz: Mit LLMOps können Teams Modelle schneller entwickeln, die Modellqualität verbessern und schnell bereitstellen. Mit einem optimierten Managementansatz können Teams besser auf einer Plattform zusammenarbeiten, die Kommunikation, Entwicklung und Deployment fördert. Tools wie vLLM, ein Open Source-Inferenzserver, der gen KI beschleunigt, können zu einer effizienteren Nutzung von GPUs beitragen.

Skalierbarkeit: LLMOps ermöglicht besseres Skalieren und Verwalten, da mehrere Modelle für CI/CD (Continuous Integration und Continuous Delivery/Deployment) gemanagt und überwacht werden können. LLMOps bietet auch ein schnelleres Benutzererlebnis durch verbesserte Datenkommunikation und Reaktion.

Risikominderung: LLMOps fördert mehr Transparenz und sorgt für bessere Compliance mit Unternehmens- und Branchenrichtlinien. LLMOps können die Sicherheit und den Datenschutz verbessern, indem sie sensible Informationen schützen und Risiken vorbeugen.

Erfahren Sie, wie 3 bekannte Unternehmen mit vLLM schneller skalieren konnten.

3 Use Cases aus der Praxis

Es gibt mehrere Use Cases für LLMOps.

CI/CD (Continuous Integration/Continuous Delivery): CI/CD zielt darauf ab, den Entwicklungs-Lifecycle von Modellen zu optimieren, zu beschleunigen und zu automatisieren. Damit entfällt die Notwendigkeit für menschliche Eingriffe, um neuen Code zu erhalten, was zu kürzeren Ausfallzeiten und schnelleren Code-Releases führt. Tools wie Tekton, auf dem Red Hat OpenShift Pipelines basiert, unterstützen die Workflows von Entwicklungsteams durch Automatisieren von Deployments auf mehreren Plattformen.

Mehr über die Operationalisierung von KI erfahren

Datenerfassung, Kennzeichnung, Storage: Bei der Datenerfassung werden verschiedene Quellen genutzt, um genaue Informationen zu erhalten. Bei der Datenkennzeichnung werden Daten kategorisiert. Bei der Datenspeicherung werden digitale Informationen, die mit einem Netzwerk verbunden sind, erfasst und gespeichert.

Fine Tuning, Inferenz und Überwachung von Modellen: Das Fine Tuning von Modellen optimiert die Modelle, um domainspezifische Aufgaben zu erfüllen. KI-Inferenz bezieht sich auf den Vorgang, bei dem ein KI-Modell eine auf Daten basierende Antwort gibt. Die Modellinferenz kann die Produktion auf der Basis des vorhandenen Wissens steuern und die Maßnahmen auf der Grundlage der abgeleiteten Informationen durchführen. Die Modellüberwachung, einschließlich des menschlichen Feedbacks, erfasst und speichert Daten über das Modellverhalten, um mehr über das Modellverhalten bei realen Produktionsdaten zu erfahren.

Warum Sie sich mit KI-Inferenz befassen sollten

Es gibt mehrere Phasen oder Komponenten von LLMOps und jeweils entsprechende Best Practices:

Explorative Datenanalyse (EDA): Der Prüfungsprozess von Daten zur Vorbereitung des ML-Lifecycles durch das Erstellen von Datensätzen.

Datenerfassung: Im ersten Schritt wurden Daten aus verschiedenen Quellen wie Code-Archiven und sozialen Netzwerken trainiert.
Datenbereinigung: Nach der Erfassung müssen die Daten überprüft und für das Training vorbereitet werden. Dazu gehören das Entfernen von Fehlern, das Korrigieren von Inkonsistenzen und das Entfernen von Datenduplikaten.
Datenexploration: Der nächste Schritt ist die Untersuchung der Daten, um ihre Eigenschaften besser zu verstehen, einschließlich der Identifizierung von Abweichungen und der Erkennung von Mustern.

Datenvorbereitung und Prompt Engineering: Dies ist der Prozess der gemeinsamen Nutzung zugänglicher Daten durch die Teams und die Entwicklung von Prompts für LLMs.

Datenaufbereitung: Die Daten zum Trainieren eines LLM werden auf verschiedene Weise aufbereitet, einschließlich der Zusammenfassung und Auswertung der erfassten Daten.
Prompt Engineering: Die Erstellung von Prompts, die für Texte verwendet werden, damit LLMs den gewünschten Output erzeugen

Fine Tuning des Modells: Die Verwendung gängiger Open Source Libraries wie Hugging Face Transformers dient dem Fine Tuning und der Verbesserung der Modell-Performance.

Modelltraining: Nach der Aufbereitung der Daten wird das LLM mithilfe eines ML-Algorithmus trainiert oder feinabgestimmt, um die Datenmuster zu erkennen.
Modelltest: Nach dem Training muss das LLM getestet werden, um seine Performance zu überprüfen. Dazu wird ein Datensatz verwendet, der nicht zum Training des LLM verwendet wurde.
Fine Tuning des Modells: Wenn das LLM nicht gut funktioniert, kann Fine Tuning vorgenommen werden. Dabei werden die Parameter des LLM verändert, um seine Performance zu verbessern.

Modellüberprüfung und -Governance: Der Prozess des Ermittelns, Teilens und der Zusammenarbeit bei ML-Modellen mithilfe einer Open Source MLOps-Plattform wie Kubeflow.

Modellüberprüfung: Nach dem Fine Tuning muss die Sicherheit und Zuverlässigkeit des LLM überprüft werden, d. h. es muss auf Verzerrungen und Sicherheitsrisiken geprüft werden.
Modell-Governance: Modell-Governance ist der Verwaltungsprozess des LLM während seines gesamten Lifecycles. Dazu gehören das Verfolgen seiner Performance, das Vornehmen von Änderungen bei Bedarf und das Stilllegen des Modells, wenn es nicht mehr benötigt wird.

Modellinferenz und -bereitstellung: Die Verwaltung von Produktionsdetails wie etwa die Häufigkeit der Aktualisierung eines Modells oder die Anfragezeiten.

Modellbereitstellung: Sobald das LLM geprüft und genehmigt wurde, kann es in der Produktion eingesetzt werden, indem es über eine API (Application Programming Interface) zur Verfügung gestellt wird. Bei großen LLMs (denken Sie an hunderte von Milliarden von Parametern) ist häufig eine verteilte Inferenzerforderlich, also eine Technik, bei der das Modell auf mehrere GPUs aufgeteilt wird. Open Source-Projekte wie llm-d bieten eine gemanagte, Kubernetes-native Lösung zur effizienten Orchestrierung dieser verteilten Umgebung.
Modellinferenz: Die API kann von einer Anwendung abgefragt werden, um Text zu generieren oder Fragen zu beantworten. Dies kann auf verschiedene Weise geschehen, etwa über eine REST-API oder eine Webanwendung.

Modellüberwachung mit menschlichem Feedback: Die Erstellung von Modellen und Daten zur Überwachung von auffälligem oder negativem Nutzerverhalten.

Modellüberwachung: Nach dem Deployment muss das LLM überwacht werden, um sicherzustellen, dass es wie erwartet funktioniert. Dazu gehören das Verfolgen seiner Performance, Identifizieren etwaiger Probleme und gegebenenfalls das Vornehmen von Änderungen.
Menschliches Feedback: Hierdurch wird die Performance des LLM verbessert. Dies kann durch Feedback zum vom LLM generierten Text oder durch das Erkennen von Problemen bei der Performance des LLM erfolgen.
Wie sieht KI im Unternehmen aus?

Eine LLMOps-Plattform bietet Entwicklungs- und anderen Teams eine Umgebung, mit der sich die Zusammenarbeit durch Datenanalyse, Experimentverfolgung, Prompt Engineering und LLM-Verwaltung fördern lässt. Außerdem bietet sie gemanagte Modellübergänge, -bereitstellung und -überwachung für LLMs. Durch besseres Library Management unterstützt die Plattform die Senkung der Betriebskosten und reduziert den Bedarf an hochqualifizierten technischen Teammitgliedern, die Aufgaben wie Datenvorverarbeitung, Modellüberwachung und Deployment ausführen.

Mehr über die Auswahl einer Plattform für KI und LLMOps erfahren

Red Hat AI ist eine Plattform mit Produkten und Services, die Ihr Unternehmen bei den einzelnen Phasen der KI-Einführung unterstützen kann – unabhängig davon, ob Sie gerade erst beginnen oder schon skalierungsbereit sind. Die Lösungen können sowohl generative als auch prädiktive KI-Initiativen für die spezifischen Use Cases Ihres Unternehmens unterstützen.

Mit Red Hat AI erhalten Sie Zugriff auf Red Hat® AI Inference Server, mit dem Sie die Modellinferenz in der gesamten Hybrid Cloud optimieren und so schnellere und kosteneffiziente Deployments erzielen können. Der auf vLLM basierende Inferenzserver maximiert die GPU-Nutzung und ermöglicht schnellere Reaktionszeiten.

Mehr über Red Hat AI Inference Server erfahren

Red Hat AI Inference Server umfasst das Repository von Red Hat AI, eine Kollektion validierter und optimierter Drittanbietermodelle, die mehr Modellflexibilität und teamübergreifende Konsistenz ermöglicht. Durch den Zugriff auf das Repository von Drittanbietermodellen können Unternehmen die Markteinführungszeit verkürzen und finanzielle Hindernisse für eine erfolgreiche KI-Implementierung abbauen.

Mehr über validierte Modelle von Red Hat AI erfahren

Weiterlesen

Künstliche Intelligenz (KI) im Gesundheitswesen

Wie wird KI im Gesundheitswesen eingesetzt? Chancen, Vorteile und Herausforderungen künstlicher Intelligenz in der Gesundheitswirtschaft | Red Hat DE

Was ist Machine Learning?

Beim Machine Learning wird ein Computer darauf trainiert, Muster zu finden, Vorhersagen zu treffen und aus Erfahrungen zu lernen, ohne explizit programmiert zu werden.

KI im Unternehmen nutzen | KI Anwendungen in der Praxis

Erfahren Sie, wie Unternehmen KI und Machine Learning effektiv nutzen. Entdecken Sie Anwendungsfälle für Automatisierung, Datenanalyse, Kundenservice und mehr.

Was sind LLMOps?

Red Hat Ressourcen

Der offizielle Red Hat Blog

Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft

Weiterlesen

Künstliche Intelligenz (KI) im Gesundheitswesen

Was ist Machine Learning?

KI im Unternehmen nutzen | KI Anwendungen in der Praxis

Ressourcen zu KI/ML

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links