Zu Abschnitt

RAG im Vergleich zu Fine Tuning

URL kopieren

Sowohl RAG als auch Fine Tuning dienen der Verbesserung von Large Language Models (LLMs). RAG kommt dabei ohne Modifizierung des zugrunde liegenden LLM aus, während Fine Tuning eine Anpassung der Gewichte und Parameter eines LLM erfordert. Oft lässt sich ein Modell sowohl durch Fine Tuning als auch durch RAG-Architektur anpassen.

Mehr über KI-Lösungen von Red Hat erfahren

Ein LLM ist eine Art künstliche Intelligenz (KI), die Techniken des maschinellen Lernens (ML) verwendet, um menschliche Sprache zu verstehen und zu erzeugen. Diese ML-Modelle können Texte generieren, zusammenfassen, übersetzen, umschreiben, klassifizieren, kategorisieren, analysieren und vieles mehr. Die häufigste Verwendung dieser Modelle auf Unternehmensebene ist die Entwicklung eines Frage-Antwort-Systems, wie etwa eines Chatbots.

Die LLM-Basismodelle (Foundation Models) verfügen über eine allgemeine Wissensbasis, mit der eine Vielzahl von Use Cases unterstützt werden kann. Allerdings verfügen sie wahrscheinlich nicht über die domainspezifischen Kenntnisse, die speziell für Ihre Organisation relevant sind. RAG und Fine Tuning sind 2 Möglichkeiten, um das LLM mit den gewünschten Daten zu versorgen und es so anzupassen, dass es die gewünschten Ausgaben liefert.

Als Beispiel: Nehmen wir an, Sie entwickeln einen Chatbot für die Interaktion mit Kunden. In diesem Szenario ist der Chatbot sozusagen die Vertretung Ihres Unternehmens und sollte sich daher wie ein leistungsfähiger Beschäftigter verhalten. Der Chatbot sollte die wichtigsten Aspekte Ihres Unternehmens kennen, beispielsweise welche Produkte Sie verkaufen und welche Richtlinien Sie befolgen. Genauso wie Sie Mitarbeitende schulen, indem Sie ihnen Dokumente mit Arbeitsanweisungen und Skripten zum Nachlesen geben, schulen Sie einen Chatbot, indem Sie RAG verwenden und Fine Tuning vornehmen, um auf den vorhandenen Kenntnissen aufzubauen. 

RAG ergänzt die Daten in einem LLM, indem es Informationen aus Quellen Ihrer Wahl abruft, wie etwa Daten-Repositories, Textsammlungen und bereits vorhandene Dokumentation. Nach dem Abrufen der Daten verarbeiten RAG-Architekturen sie im Kontext eines LLM und generieren eine Antwort auf der Basis der verschiedenen Quellen.

RAG ist sehr nützlich, um Ihr Modell mit Informationen zu ergänzen, die regelmäßig aktualisiert werden. Wenn Sie einem LLM eine Kommunikation zu den von Ihnen ausgewählten externen Quellen zur Verfügung stellen, erhalten Sie genauere Ausgaben. Zudem lässt sich die Quelle von RAG nachverfolgen, da Sie RAG so programmieren können, dass die Quelle angegeben wird. Daher lässt sich leicht nachvollziehen, wie eine Ausgabe formuliert wird, was für mehr Transparenz sorgt und Vertrauen schafft.

Zurück zu unserem Beispiel: Wenn Sie einen Chatbot entwickeln, der Fragen wie „Wie lauten Ihre Rückgabebedingungen?“ beantwortet, könnten Sie eine RAG-Architektur verwenden. Sie könnten Ihr LLM mit einem Dokument verknüpfen, in dem die Rückgabebedingungen Ihres Unternehmens detailliert aufgeführt sind, und den Chatbot anweisen, Informationen daraus abzurufen. Sie können den Chatbot sogar anweisen, seine Quelle anzugeben und einen Link für weitere Informationen bereitzustellen. Bei einer Änderung Ihrer Rückgabebedingungen würde das RAG-Modell die aktuellen Informationen abrufen und sie den jeweiligen Nutzenden zur Verfügung stellen.

Mehr über RAG erfahren

 

Use Cases für RAG

RAG kann Informationen beschaffen und organisieren, sodass Menschen einfach mit Daten interagieren können. Mit einer RAG-Architektur können Modelle Insights erlangen und einem LLM Kontext aus lokalen und cloudbasierten Datenquellen bereitstellen. Das bedeutet, dass externe Daten, interne Dokumente und sogar Social Media Feeds genutzt werden können, um Fragen zu beantworten, Zusammenhänge zu erläutern sowie Informationen für die Entscheidungsfindung bereitzustellen.

Beispielsweise können Sie eine RAG-Architektur erstellen, die bei Abfragen spezifische Antworten zu Richtlinien, Verfahren und Dokumenten des Unternehmens bereitstellt. Das spart Zeit, die sonst für die manuelle Suche und die Interpretation eines Dokuments aufgewendet werden müsste.

Nutzung von RAG im Software Engineering

Stellen Sie sich Fine Tuning als eine Möglichkeit vor, dem LLM eine Absicht zu kommunizieren, damit das Modell seine Ausgabe an Ihre Anforderungen anpassen kann. Beim Fine Tuning handelt es sich um den Prozess des Trainings eines vortrainierten Modells mit einem kleineren, gezielten Datensatz, damit es domainspezifische Aufgaben effektiver ausführen kann. Diese zusätzlichen Trainingsdaten sind in die Architektur des Modells eingebettet.

Kehren wir zu unserem Beispiel mit dem Chatbot zurück. Angenommen, Sie möchten, dass Ihr Chatbot mit Patientinnen und Patienten in einem medizinischen Kontext interagiert. Hierbei ist es wichtig, dass das Modell die medizinische Terminologie versteht, die mit Ihrer Arbeit zusammenhängt. Durch den Einsatz von Fine Tuning-Techniken können Sie sicherstellen, dass der Chatbot, wenn eine Patientin oder ein Patient ihn nach „Physio“ fragt, dies als „Physiotherapie“ versteht und ihn an die richtigen Ressourcen weiterleitet.

Use Cases für Fine Tuning

Fine Tuning ist am nützlichsten für das Training Ihres Modells, um die Informationen, auf die es Zugriff hat, zu interpretieren. Sie können beispielsweise ein Modell so trainieren, dass es die Nuancen und Terminologien Ihrer spezifischen Branche versteht, wie etwa Akronyme und organisatorische Werte.

Fine Tuning ist auch für Aufgaben der Bildklassifizierung nützlich. Wenn Sie beispielsweise mit Magnetresonanztomografie (MRT) arbeiten, können Sie Ihr Modell durch Fine Tuning trainieren, um Anomalien zu erkennen.

Fine Tuning kann Ihrem Unternehmen dabei helfen, in der Kommunikation mit anderen den richtigen Ton zu treffen – insbesondere im Zusammenhang mit Kunden-Support. Mit dieser Funktion können Sie einen Chatbot darauf trainieren, die Stimmung oder Emotionen der Person zu erkennen, mit der er interagiert. Darüber hinaus können Sie das Modell so trainieren, dass es entsprechend den Werten Ihrer Organisation auf eine Weise reagiert, die den Nutzenden zugutekommt.

Wenn Sie die Unterschiede zwischen RAG und Fine Tuning verstehen, können Sie strategische Entscheidungen über die am besten geeignete KI-Ressource für Ihre Anforderungen treffen. Nachfolgend finden Sie einige grundlegende Fragen, die Sie sich stellen sollten:

Über welche Kompetenzen verfügt Ihr Team?

Die Anpassung eines Modells mit RAG erfordert Kenntnisse in der Programmierung und Architektur. Verglichen mit traditionellen Fine Tuning-Methoden bietet RAG eine verständlichere und unkompliziertere Möglichkeit, Feedback zu erhalten, Troubleshooting durchzuführen und Probleme bei Anwendungen zu beheben. Das Fine Tuning eines Modells erfordert Erfahrung mit Natural Language Processing (NLP), Deep Learning, Modellkonfiguration, Datenaufbereitung und Evaluierung. Insgesamt kann es jedoch technischer und zeitaufwendiger sein.

Sind Ihre Daten statisch oder dynamisch?

Durch Fine Tuning kann das Modell gängige Muster erlernen, die sich nicht mit der Zeit verändern. Da das Modell auf statischen Snapshots von Trainingsdatensätzen basiert, können die Informationen des Modells veraltet sein und erneutes Training erfordern. Umgekehrt weist RAG das LLM an, bestimmte Informationen aus den von Ihnen ausgewählten Quellen in Echtzeit abzurufen. Das bedeutet, dass Ihr Modell die aktuellsten Daten abruft, um Ihre Anwendung zu informieren, sodass genaue und relevante Ausgaben gefördert werden.

Wie hoch ist Ihr Budget?

Traditionell ist Fine Tuning ein Deep Learning-Verfahren, das eine große Menge an Daten und Rechenressourcen erfordert. In der Vergangenheit mussten Daten gekennzeichnet und Trainingsläufe auf kostspieliger, hochwertiger Hardware durchgeführt werden, um ein Modell durch Fine Tuning zu verbessern. Außerdem hängt die Performance des durch Fine Tuning optimierten Modells von der Qualität Ihrer Daten ab, deren Beschaffung teuer sein kann.

Im Vergleich dazu ist RAG in der Regel kosteneffizienter als Fine Tuning. Zum Einrichten von RAG erstellen Sie Pipeline-Systeme, um Ihre Daten mit Ihrem LLM zu verbinden. Diese direkte Verbindung senkt die Ressourcenkosten, indem vorhandene Daten zur Information Ihres LLM verwendet werden, anstatt Zeit, Energie und Ressourcen für das Generieren neuer Daten aufzuwenden. 

Die Open Source-Lösungen von Red Hat und das KI-Partnernetzwerk können Sie beim Implementieren von RAG und Fine Tuning in Ihren LLMOps-Prozess (Large Language Model Operations) unterstützen.

Mithilfe von InstructLab mit Fine Tuning experimentieren

 InstructLab wurde von Red Hat und IBM entwickelt und ist ein Open Source Community-Projekt, das Beiträge zu LLMs leistet, die in Anwendungen  generativer KI (gen KI) verwendet werden. Es bietet ein  Framework, das synthetische Daten verwendet, um das Fine Tuning von LLM zugänglicher zu machen.

Wie die synthetischen Daten von InstructLab LLMs verbessern

Eigenes Basismodell mit Red Hat Enterprise Linux AI erstellen

Wenn Ihr Unternehmen für das Entwickeln von Anwendungen mit generativer KI bereit ist, bietet Red Hat® Enterprise Linux® AI die notwendige Basismodell-Plattform, um Ihre Use Cases mit Ihren Daten schneller zu bearbeiten.

Red Hat Enterprise Linux AI vereint die für Open Source lizenzierten LLMs der Granite-Familie und die InstructLab-Tools für die Modellanpassung in einer einzigen Serverumgebung. Dies bedeutet, dass Domain-Fachleute ohne Hintergrund in Data Science leichter ein KI-Modell anpassen und zu diesem beitragen können, das in der gesamten Hybrid Cloud skalierbar ist.

Red Hat Enterprise Linux AI bietet außerdem die Vorteile einer Red Hat Subskription, die eine zuverlässige Distribution von Unternehmensprodukten, Produktionssupport rund um die Uhr, erweiterten Support für den Modell-Lifecycle und rechtliche Absicherung durch Open Source Assurance umfasst.

Anwendungen mit Red Hat OpenShift AI skalieren

Sobald Sie Ihr Modell mit Red Hat Enterprise Linux AI trainiert haben, können Sie es über Red Hat OpenShift® AI für die Produktion skalieren.

Red Hat OpenShift AI ist eine flexible, skalierbare MLOps-Plattform (Machine Learning Operations), mit deren Tools Sie KI-gestützte Anwendungen entwickeln, bereitstellen und verwalten können. Das System stellt die zugrunde liegende Workload-Infrastruktur bereit, wie beispielsweise ein LLM zum Erstellen von Einbettungen, die Abrufmechanismen, die für das Erstellen von Ausgaben erforderlich sind, sowie den Zugriff auf eine Vektordatenbank. 

Lösungs-Pattern

KI-Anwendungen mit Red Hat und NVIDIA AI Enterprise

Entwickeln einer RAG-Anwendung

Red Hat OpenShift AI ist eine Plattform für das Entwickeln von Data Science-Projekten und Bereitstellen von KI-gestützten Anwendungen. Sie können sämtliche für die Unterstützung   von Retrieval-Augmented Generation (RAG), einer Methode zum Abrufen von KI-Antworten aus Ihren eigenen Referenzdokumenten, erforderlichen Tools integrieren. Wenn Sie OpenShift AI mit NVIDIA AI Enterprise kombinieren, können Sie mit   Large Language Models (LLMs) experimentieren und so das optimale Modell für Ihre Anwendung finden.

Erstellen einer Pipeline für Dokumente

Damit Sie RAG nutzen können, müssen Sie Ihre Dokumente zunächst in eine Vektordatenbank aufnehmen. In unserer Beispielanwendung integrieren wir eine Anzahl von Produktdokumenten in eine Redis-Datenbank. Da sich diese Dokumente häufig ändern, können wir für diesen Prozess eine Pipeline erstellen, die wir regelmäßig ausführen, damit wir immer die aktuellsten Versionen der Dokumente zur Verfügung haben

Durchsuchen des LLM-Katalogs

Mit NVIDIA AI Enterprise können Sie auf einen Katalog verschiedener LLMs zugreifen. So können Sie verschiedene Möglichkeiten ausprobieren und das Modell auswählen, das die optimalen Ergebnisse erzielt. Die Modelle werden im NVIDIA API-Katalog gehostet. Sobald Sie ein API-Token eingerichtet haben, können Sie ein Modell mit der NVIDIA NIM Model Serving-Plattform direkt über OpenShift AI bereitstellen.

Auswählen des richtigen Modells

Beim Testen verschiedener LLMs können Ihre Nutzerinnen und Nutzer die einzelnen generierten Antworten bewerten. Sie können ein Grafana Monitoring Dashboard einrichten, um die Bewertungen sowie die Latenz- und Antwortzeiten der einzelnen Modelle zu vergleichen. Anhand dieser Daten können Sie dann das optimale LLM für den Produktionseinsatz auswählen.

Symbol PDF herunterladen

Ein Architekturdiagramm zeigt eine Anwendung, die mit Red Hat OpenShift AI und NVIDIA AI Enterprise entwickelt wurde. Zu den Komponenten gehören OpenShift GitOps für die Verbindung zu GitHub und die Handhabung von DevOps-Interaktionen, Grafana für das Monitoring, OpenShift AI für Data Science, Redis als Vektordatenbank und Quay als Image Registry. Diese Komponenten bilden die Basis für das Frontend und Backend der Anwendung. Sie basieren auf Red Hat OpenShift AI, mit einer Integration mit ai.nvidia.com.
Neu

InstructLab

InstructLab ist ein Open Source-Projekt zur Verbesserung von großen Sprachmodellen (LLM).

Weiterlesen

Artikel

Was ist generative KI?

Generative KI stützt sich auf Deep Learning-Modelle, welche auf großen Datensätzen trainiert wurden, um neue Inhalte zu erstellen.

Artikel

Was ist Machine Learning?

Beim Machine Learning (ML) oder maschinellem Lernen wird ein Computer darauf trainiert, Muster zu finden, Vorhersagen zu treffen und aus Erfahrungen zu lernen, ohne explizit programmiert zu werden.

Artikel

Was sind Basismodelle?

Ein Basismodell ist ein Modell des maschinellen Lernens (ML), das für das Ausführen verschiedener Aufgaben trainiert ist. 

Mehr über KI/ML

Produkte

Jetzt verfügbar

Eine Plattform für Basismodelle, mit der Sie Unternehmensanwendungen mithilfe von Large Language Models (LLMs) der Granite-Familie nahtlos entwickeln, testen und bereitstellen können.

Ein auf KI fokussiertes Portfolio, das Tools zum Trainieren, Tuning, Bereitstellen, Überwachen und Managen von KI/ML-Experimenten und -Modellen auf Red Hat OpenShift bietet.

Eine Plattform, die es Ihnen ermöglicht, Unternehmensanwendungen schnell und effizient über die von Ihnen gewünschte Infrastruktur bereitzustellen. 

Red Hat Ansible Lightspeed mit IBM watsonx Code Assistant ist ein generativer KI-Service, der von und für Teams aus dem Bereich Automatisierung, Operations und Entwicklung für Ansible konzipiert wurde. 

Ressourcen

E-Book

Wichtige Überlegungen beim Aufbau einer produktionsbereiten KI/ML-Umgebung

Analystenreport

Total Economic Impact™ der Red Hat Hybrid Cloud-Plattform für MLOps

Webinar

Getting the most out of AI with Open Source and Kubernetes