Cosa si intende per LLMOps?

Pubblicato 8 febbraio 2024•7 minuti (tempo di lettura)

I modelli linguistici di grandi dimensioni (LLM, Large Language Model) sono modelli di machine learning (ML) capaci di comprendere e generare linguaggio umano. I modelli LLM, come GPT-3, LLaMA e Falcon, vengono addestrati su set di dati da cui imparano a combinare parole e frasi. Essendo strumenti in continua evoluzione, occorre che le aziende definiscano delle procedure consigliate per utilizzare e gestire tali modelli. La metodologia LLMOps si inserisce in questo contesto allo scopo di supportarne l'adozione.

Con Large Language Model Operations (LLMOps) si intende un insieme di metodologie operative utilizzate per gestire i modelli linguistici di grandi dimensioni. Questo approccio permette di gestire e automatizzare il ciclo di vita degli LLM in tutte le sue fasi, dal fine tuning alla manutenzione, e costituisce un valido aiuto per team aziendali e sviluppatori.

Scopri Red Hat AI

Gli LLM sono un sottoinsieme dei modelli di ML e la metodologia LLMOps è l'equivalente della metodologia MLOps (Machine Learning Operations) ma per i modelli linguistici di grandi dimensioni. Con MLOps si intende un insieme di metodologie per i flussi di lavoro progettato per semplificare il processo di distribuzione e gestione dei modelli di ML. MLOps punta a creare un processo continuo e in costante evoluzione per l'integrazione dei modelli di ML nei processi di sviluppo software. Allo stesso modo, LLMOps ha l'obiettivo di creare un processo continuo di sperimentazione, iterazione, distribuzione e miglioramento per il ciclo di vita dello sviluppo e del deployment degli LLM.

Cos'è Models-as-a-Service?

LLMOps e MLOps presentano molti punti in comune, ma anche delle differenze. Le principali sono:

Apprendimento: in genere, i modelli di ML tradizionali vengono creati o addestrati da zero, ma gli LLM partono da un modello fondativo e vengono ottimizzati con i dati per migliorare le prestazioni delle attività.

Ottimizzazione: nel caso degli LLM, il fine tuning migliora le prestazioni e la precisione, rendendo il modello più informato su un argomento specifico. Il fine tuning dei prompt consente agli LLM di migliorare le prestazioni di attività specifiche. Un'altra differenza è l'ottimizzazione degli iperparametri. Nel ML tradizionale, l'ottimizzazione si concentra sul miglioramento della precisione. Con gli LLM, l'ottimizzazione è importante per la precisione e per ridurre i costi e la quantità di energia necessaria per la formazione. Entrambi i tipi di modello traggono vantaggio dal processo di ottimizzazione, ma con aspetti diversi. Infine, è importante ricordare la retrieval-augmented generation (RAG) o generazione potenziata dal recupero, un processo supplementare utilizzabile in combinazione al fine tuning per incrementare la precisione delle risposte degli LLM.

Feedback: l'apprendimento per rinforzo da feedback umano (RLHF) è una tecnica utilizzata per l'addestramento degli LLM. Il feedback degli utenti è fondamentale per le prestazioni di un LLM. Nel caso degli LLM si valuta l'accuratezza in base ai feedback, mentre nei modelli di ML tradizionali si utilizzano metriche specifiche.

Metriche prestazionali: nei modelli di ML si utilizzano precise metriche prestazionali, mentre negli LLM si utilizzano metriche differenti, come il Bilingual Evaluation Understudy(BLEU) e il Recall-Oriented Understudy for Gisting Evaluation(ROUGE), che richiedono una valutazione più complessa.

Scopri di più su MLOps

LLMOps sta diventando la scelta ottimale per monitorare e migliorare le prestazioni degli LLM nel tempo. I vantaggi principali di questo approccio sono tre:

Efficienza: LLMOps permette ai team di accelerare lo sviluppo e il deployment dei modelli e migliorare la qualità dei modelli. Con un approccio più snello alla gestione, i team possono collaborare agevolmente su una piattaforma che promuove la comunicazione, lo sviluppo e l'implementazione. Strumenti come vLLM, un server di inferenza open source che velocizza l'IA gen, possono aiutare a sfruttare le GPU in modo più efficiente.

Scalabilità: LLMOps migliora la scalabilità e la gestione perché permette di controllare, gestire e monitorare più modelli e assicura l'integrazione e distribuzione/deployment continui (CI/CD). LLMOps garantisce anche un'esperienza dell'utente più reattiva grazie all'ottimizzazione di comunicazioni e risposte.

Riduzione dei rischi: LLMOps promuove la trasparenza e aiuta a garantire la conformità alle policy aziendali e di settore. LLMOps migliora la sicurezza e la privacy perché protegge i dati sensibili e previene le esposizioni ai rischi.

Scopri in che modo vLLM ha consentito a tre aziende note di crescere più rapidamente.

Scopri tre scenari di utilizzo reali

Di seguito sono riportati alcuni scenari di utilizzo della metodologia LLMOps.

Integrazione e distribuzione continue (CI/CD): l'approccio CI/CD permette di semplificare, accelerare e automatizzare il ciclo di vita dello sviluppo dei modelli. Elimina la necessità di intervenire manualmente per la stesura di nuovo codice, con conseguente riduzione del downtime e rilasci del codice più rapidi. Strumenti come Tekton, su cui si basa Red Hat OpenShift Pipelines, supportano i flussi di lavoro degli sviluppatori automatizzando i deployment su più piattaforme.

Scopri come rendere operativa l'IA

Raccolta, etichettatura e storage dei dati: per ottenere informazioni accurate, la raccolta dei dati attinge da diverse sorgenti. L'etichettatura dei dati serve a classificare i dati, mentre lo storage dei dati ha lo scopo di riunire e conservare le informazioni digitali relative a una rete.

Fine tuning, inferenza e monitoraggio del modello: Il fine tuning del modello serve a ottimizzarne le prestazioni su specifiche attività del dominio. L'inferenza IA è il momento in cui un modello di IA fornisce una risposta basata sui dati. L'inferenza del modello può gestire la produzione in base alla conoscenza esistente ed eseguire le azioni in base alle informazioni dedotte. Il monitoraggio del modello, incluso il feedback umano, raccoglie e archivia i dati relativi al comportamento del modello per apprendere come si comportano i modelli con i dati di produzione reali.

I vantaggi dell'inferenza IA

LLMOps si compone di diverse fasi e per ciascuna esistono delle procedure consigliate:

Analisi esplorativa dei dati (EDA): il processo di valutazione dei dati per prepararsi al ciclo di vita del machine learning tramite la creazione di set di dati.

Raccolta dei dati: il primo passo per l'addestramento di un LLM consiste nell'acquisire dati da un'ampia gamma di sorgenti, come archivi di codice e social media.
Pulizia dei dati: una volta terminata l'acquisizione, occorre esaminare e preparare i dati per l'addestramento, ovvero eliminare gli errori, correggere le incoerenze e rimuovere i doppioni.
Esplorazione dei dati: il passaggio successivo prevede di esaminare i dati al fine di comprenderne le peculiarità, come la presenza di dati estranei o di schemi.

Preparazione dei dati e ingegneria dei prompt: il processo che consente di condividere i dati accessibili fra i team e di sviluppare prompt per gli LLM.

Preparazione dei dati: i dati utilizzati nell'addestramento di un LLM subiscono processi di preparazione specifici.
Ingegneria dei prompt: la creazione di prompt che verranno utilizzati per generare testo aiuta a garantire che gli LLM producano l'output desiderato.

Fine tuning del modello: l'utilizzo di librerie open source molto diffuse, come Hugging Face Transformers, per ottimizzare le prestazioni di un modello.

Addestramento del modello: una volta conclusa la preparazione dei dati, si passa all'addestramento del modello LLM, o al fine tuning, che consiste nell'utilizzare un algoritmo di machine learning per individuare gli schemi nei dati.
Valutazione del modello: concluso l'addestramento, si testano le prestazioni del modello utilizzando un set di dati apposito che non è stato utilizzato in fase di addestramento.
Fine tuning del modello: se le prestazioni non sono soddisfacenti, si ottimizza il modello modificando i parametri.

Verifica e governance del modello: il processo volto a favorire il rilevamento, la condivisione e la collaborazione tra i modelli di ML con il supporto di piattaforme MLOps open source come Kubeflow.

Verifica del modello: terminato il fine tuning, è necessario sottoporre il modello LLM a un processo di verifica, che comprende l'individuazione di bias e rischi per la sicurezza, allo scopo di garantire la sicurezza e l'affidabilità del modello.
Governance del modello: il processo di gestione dell'intero ciclo di vita di un LLM. Include il monitoraggio delle prestazioni, l'applicazione di modifiche e il ritiro del modello quando non è più necessario.

Inferenza e serving del modello: l'analisi della frequenza di aggiornamento del modello, dei tempi di richiesta delle inferenze e lo svolgimento di altri test di produzione.

Model serving: una volta esaminato e approvato, il modello LLM può essere distribuito in produzione e reso disponibile tramite un'interfaccia di programmazione delle applicazioni (API). Quando gli LLM sono di grandi dimensioni (si pensi a centinaia di miliardi di parametri), spesso è necessaria l'inferenza distribuita, ovvero quella tecnica che consente di suddividere il modello su più GPU. I progetti open source come llm-d forniscono una soluzione Kubernetes native gestita per orchestrare questa configurazione distribuita in maniera efficiente.
Inferenza del modello: le applicazioni possono interrogare l'API tramite query per ottenere testo o la risposta a una domanda. Il processo può avvenire in diversi modi, ad esempio attraverso un'API REST o un'applicazione web.

Monitoraggio del modello e feedback umano: la creazione di pipeline per il monitoraggio dei dati e del modello che generano avvisi in caso di alterazioni del modello e comportamenti dannosi da parte degli utenti.

Monitoraggio del modello: una volta distribuito, il modello LLM deve essere sottoposto a controllo costante per garantirne il corretto funzionamento attraverso il monitoraggio delle prestazioni, l'identificazione di eventuali problemi e l'applicazione delle modifiche necessarie.
Feedback umano: una tecnica che ha l'obiettivo di migliorare le prestazioni del modello LLM. Consiste nel fornire un feedback sul testo generato dal modello o nell'identificare eventuali problemi relativi alle prestazioni.
Come funziona l'IA in ambito aziendale?

Una piattaforma LLMOps fornisce agli sviluppatori e ai team un ambiente che promuove la collaborazione attraverso l'analisi dei dati, il monitoraggio degli esperimenti, l'ingegneria dei prompt e la gestione degli LLM. Fornisce inoltre funzionalità per la transizione, il deployment e il monitoraggio degli LLM. Razionalizzando la gestione della libreria, la piattaforma contribuisce a ridurre i costi operativi e il bisogno di disporre di professionisti specializzati per completare attività come la preelaborazione dei dati, il monitoraggio dei modelli e il deployment.

Scopri come scegliere le piattaforme per IA e LLMOps

Red Hat AI è una piattaforma di prodotti e servizi che facilitano ogni fase del percorso con l'IA, che tu sia alle fasi iniziali o già in ottica di scalabilità. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi della tua azienda.

Con Red Hat AI, hai accesso a Red Hat® AI Inference Server, così potrai ottimizzare l'inferenza dei modelli nel cloud ibrido per deployment più rapidi ed economici. Basato su vLLM, il server di inferenza massimizza l'utilizzo della GPU e accelera i tempi di risposta.

Scopri di più su Red Hat AI Inference Server

Red Hat AI Inference Server include il repository Red Hat AI, una raccolta di modelli di terze parti convalidati e ottimizzati che garantisce la flessibilità dei modelli e promuove la coerenza tra i team. Con l'accesso al repository dei modelli di terze parti, le aziende possono accelerare i tempi di rilascio e ridurre gli ostacoli finanziari al successo dell'IA.

Scopri di più sui modelli convalidati da Red Hat AI

Continua a leggere

AI/ML: Quali sono le differenze tra SLM e LLM?

Un modello linguistico di piccole dimensioni (SLM) è la versione ridotta di un modello linguistico di grandi dimensioni (LLM) ed è caratterizzato da conoscenze più specializzate, tempi di personalizzazione più brevi e un'efficienza operativa superiore.

Cosa sono gli agenti di IA (o agentic AI)?

L'Agentic AI è un software progettato per interagire con dati e strumenti in modo tale da richiedere il minimo intervento da parte dell'utente.

LoRA e QLoRA a confronto

LoRA (Low-Rank Adaptation) e QLoRA (Quantized Low-Rank Adaptation) sono due tecniche di addestramento dei modelli di IA.

AI/ML: risorse consigliate

Prodotti in evidenza

Red Hat OpenShift

Una piattaforma per lo sviluppo di applicazioni unificata che ti consente di creare, modernizzare e distribuire applicazioni in modo scalabile, in base all'infrastruttura hybrid cloud di tua scelta.
Red Hat OpenShift AI

Una piattaforma di intelligenza artificiale (IA) che fornisce strumenti per sviluppare, addestrare, servire e monitorare rapidamente modelli e applicazioni abilitate all'intelligenza artificiale.

Cosa si intende per LLMOps?

Risorse da Red Hat

Il blog ufficiale di Red Hat

L'adattabilità enterprise: predisporsi all'IA per essere pronti a un'innovazione radicale

Continua a leggere

AI/ML: Quali sono le differenze tra SLM e LLM?

Cosa sono gli agenti di IA (o agentic AI)?

LoRA e QLoRA a confronto

AI/ML: risorse consigliate

Red Hat OpenShift

Red Hat OpenShift AI

Piattaforme

Strumenti

Prova, acquista, vendi

Comunica

Informazioni su Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links