Cosa sono i modelli linguistici di piccole dimensioni (SLM)?
Un modello linguistico di piccole dimensioni (SLM) è una versione ridotta di unmodello linguistico di grandi dimensioni (LLM) che dispone di conoscenze più specializzate, è più veloce da personalizzare e più efficiente da eseguire.
Gli SLM sono addestrati per avere conoscenze specifiche del dominio, a differenza degli LLM che hanno un'ampia conoscenza generale. Considerate le loro dimensioni ridotte, gli SLM richiedono meno risorse di elaborazione per l'addestramento e il deployment, riducendo i costi dell'infrastruttura e accelerando il fine tuning. La natura leggera degli SLM li rende ideali per i dispositivi edge e le applicazioni mobili.
SLM e LLM a confronto
Sia gli SLM che gli LLM sono tipi di sistemi di intelligenza artificiale (IA) addestrati a interpretare il linguaggio umano, compresi i linguaggi di programmazione. In genere, le differenze principali tra LLM e SLM sono la dimensione dei set di dati su cui sono addestrati, i diversi processi utilizzati per addestrarli e i costi e benefici di inizio per diversi scenari di utilizzo.
Come suggeriscono i loro nomi, sia gli LLM che gli SLM sono addestrati su set di dati composti da linguaggio, il che li distingue dai modelli addestrati su immagini (come DALL·E) o video (come Sora). Alcuni esempi di set di dati basati sul linguaggio includono testi di pagine web, codice per sviluppatori, email e manuali.
Una delle applicazioni più note degli SLM e LLM è l'IA generativa (IA gen), che può generare, come suggerisce il nome, risposte di contenuto spontanee a molte query diverse e imprevedibili. Gli LLM, in particolare, sono divenuti ben noti tra il grande pubblico grazie al modello fondativo GPT-4 e a ChatGPT, un chatbot di conversione addestrato su massicci set di dati che utilizza bilioni di parametri per rispondere a una vasta gamma di query umane. Sebbene l'IA gen sia ampiamente diffusa, esistono anche applicazioni non generative degli LLM e SLM, come l'IA predittiva.
Gli LLM e gli SLM sono solitamente addestrati su set di dati diversi
L'ambito di applicazione di GPT-4/ChatGPT è un valido esempio che dimostra una differenza comune tra LLM e SLM: i set di dati su cui sono addestrati.
Di solito, gli LLM sono destinati a emulare l'intelligenza umana a un livello molto ampio e sono quindi addestrati su un'ampia gamma di set di dati di grandi dimensioni. Nel caso di GPT-4/ChatGPT, questi dati includono l'intero Internet pubblico fino a una certa data. È in questo modo che ChatGPT si è diffuso per il suo modo di interpretare e rispondere a una così vasta gamma di query da parte degli utenti generici. Tuttavia, questo è anche il motivo per cui a volte è stato oggetto di attenzione per le risposte potenzialmente errate, chiamate colloquialmente "allucinazioni": non dispone del fine tuning e dell'addestramento in ambiti specifici per poter rispondere con precisione a ogni query specifica di un settore o di un particolare dominio.
Gli SLM, invece, sono solitamente addestrati su set di dati più piccoli, su misura per specifici settori o aree di competenza. Ad esempio, un fornitore di servizi sanitari potrebbe utilizzare un chatbot basato su un SLM addestrato su set di dati medici per infondere conoscenze specifiche settoriali alla query di un utente senza esperienza sulla propria salute, arricchendo la qualità della domanda e della risposta. In questo caso, il chatbot basato su SLM non ha bisogno di essere addestrato su tutti i contenuti di Internet, inclusi ogni articolo di blog, romanzo o poesia esistenti, perché sarebbero irrilevanti per lo scenario di utilizzo del settore sanitario.
In breve, gli SLM generalmente sono di grande efficacia in ambiti specifici, ma rispetto agli LLM sono meno adatti nei campi della conoscenza generale e della comprensione globale del contesto.
Risorse da Red Hat
LLM e SLM richiedono risorse differenti
Qualunque sia lo scenario di utilizzo in azienda, il processo di addestramento dei modelli è caratterizzato dall'utilizzo elevato di risorse, soprattutto nel caso degli LLM. Per GPT-4, 25.000 GPU NVIDIA A100 sono state eseguite in modo simultaneo e continuativo per 90-100 giorni. Ricordiamo che nella gamma degli LLM, GPT-4 si colloca tra i più grandi. Altri LLM, come Granite, non esigono così tante risorse. Anche l'addestramento di un SLM richiede risorse di elaborazione significative, benché in misura nettamente inferiore a quelle richieste da un LLM.
Requisiti in termini di risorse per l'addestramento e per l'inferenza
È importante anche notare la differenza tra addestramento e inferenza dei modelli. L'addestramento, come descritto in precedenza, è la prima fase per lo sviluppo di un modello di IA. L'inferenza è il processo che esegue un modello di IA addestrato per elaborare previsioni a partire da nuovi dati. Quando un utente pone una domanda a ChatGPT, ad esempio, ChatGPT restituisce all'utente una previsione. Il processo che genera tale previsione è un'inferenza.
Alcuni LLM preaddestrati, come quelli della famiglia Granite, possono generare inferenze utilizzando le risorse di una singola workstation con capacità elevate (i modelli Granite possono occupare una GPU2 V100-32GB), sebbene molti richiedano più unità di elaborazione in parallelo per generare i dati. Più alto è il numero di utenti che accedono simultaneamente a un LLM e più lenta sarà l'esecuzione delle inferenze da parte del modello. Gli SLM invece sono in genere progettati per generare inferenze utilizzando le risorse di uno smartphone o di altri dispositivi mobili.
Inferenza IA in modo scalabile
I fattori che possono incidere sul successo dell'inferenza in modo scalabile sono molteplici. Dipende principalmente dall'efficienza e dall'efficacia con cui i componenti in movimento lavorano insieme.
Nello specifico, la scalabilità dei carichi di lavoro IA in ambito aziendale dipende dai server di inferenza: questi devono essere in grado di supportare sia i modelli più vasti, come gli LLM, sia le loro articolate logiche di elaborazione.
Questi strumenti di IA utilizzano le risorse in modo più efficiente per accelerare l'inferenza in modo scalabile:
- llm-d: i prompt degli LLM possono essere complessi e non uniformi. Questi richiedono solitamente ingenti risorse di calcolo e di storage per la gestione di grandi quantità di dati. Il framework di IA open source llm-d offre percorsi guidati (i cosiddetti well-lit paths) per supportare gli sviluppatori nell'utilizzo di tecniche come l'inferenza distribuita, necessaria per soddisfare le crescenti esigenze di modelli complessi e di ampie dimensioni come gli LLM.
- Inferenza distribuita: con l'inferenza distribuita i modelli di IA elaborano i carichi di lavoro in modo più efficiente, suddividendo le attività di inferenza su un gruppo di dispositivi interconnessi. È l'equivalente in ambito software del proverbio: "L'unione fa la forza".
- vLLM: acronimo di "virtual large language model", modello di linguaggio virtuale di grandi dimensioni, è una libreria di codice open source gestita dalla community vLLM. Consente ai modelli linguistici di grandi dimensioni (LLM) di eseguire calcoli in modo scalabile e più efficiente. Supporta aziende quali LinkedIn, Roblox e Amazon nel processo di accelerazione delle capacità di inferenza.
Vantaggi degli SLM
Non esiste un modello migliore di un altro, ma esiste il modello più appropriato ai piani, alle risorse, all'esperienza, alle tempistiche e ad altri fattori specifici di un'azienda. È importante anche stabilire se il proprio scenario di utilizzo richiede l'addestramento di un modello da zero o il fine tuning di un modello preaddestrato. Alcune considerazioni utili su LLM e SLM includono:
Costi
In generale, le risorse richieste dagli LLM per l'addestramento, il fine tuning e le inferenze sono più elevate, ma va ricordato che l'addestramento non è un investimento così frequente. Le risorse di elaborazione sono necessarie solo durante l'addestramento del modello, un'attività intermittente e non continua. L'esecuzione delle inferenze è invece un costo continuo che può aumentare in funzione del numero di utenti che lo utilizzano. Nella maggior parte dei casi, serviranno risorse di cloud computing su vasta scala, significativi investimenti in risorse on premise, o entrambi.
Gli SLM sono spesso ritenuti più adatti agli scenari a bassa latenza, come l'edge computing, perché possono funzionare con le sole risorse disponibili in un singolo dispositivo mobile, senza richiedere una connessione stabile e continua a risorse più significative.
Competenza
Alcuni tra i più diffusi LLM preaddestrati, come Granite, Llama e GPT-4, offrono un'opzione di tipo "plug-and-play" che consente alle organizzazioni di introdurre l'IA. Sono adatti a chi intende iniziare a fare pratica con l'IA perché non devono essere progettati e addestrati da zero dai data scientist. Per il fine tuning ottimale dei set di dati di ambiti molto specifici degli SLM è invece necessaria un'esperienza specializzata sia in data science che nei domini delle competenze settoriali.
Sicurezza
Uno dei potenziali rischi degli LLM è l'esposizione di dati sensibili tramite le interfacce di programmazione delle applicazioni (API). Il fine tuning di un LLM con i dati di un'organizzazione richiede molta attenzione alle policy aziendali e di conformità. Offrendo un livello di controllo più alto, negli SLM il rischio di perdita di dati è inferiore.
Limiti degli SLM
Man mano che integrano gli SLM nei propri flussi di lavoro, le aziende devono essere consapevoli dei limiti che gli SLM presentano.
Pregiudizi
Gli SLM sono addestrati con set di dati più piccoli, di conseguenza è più semplice (rispetto a quanto accade con gli LLM) mitigare i pregiudizi che inevitabilmente li riguardano. Tuttavia, come per i modelli linguistici di qualsiasi dimensione, l'addestramento dei dati può comunque essere fonte di pregiudizi, tra cui rappresentazioni parziali o non accurate di alcuni gruppi o concetti o inesattezze relative ai fatti. I modelli linguistici possono anche ereditare pregiudizi legati al dialetto, alla posizione geografica e alla grammatica.
I team dovrebbero prestare particolare attenzione alla qualità dei dati di addestramento per limitare gli output distorti.
Ambito di conoscenze ridotto
Nel generare le risposte, gli SLM hanno un set di informazioni più piccolo da cui attingere. Questo li rende ideali per attività specifiche, ma meno adatti per attività che richiedono un ampio ambito di conoscenze generali.
I team potrebbero prendere in considerazione la creazione di una raccolta di SLM appositamente progettati da utilizzare insieme a uno o più LLM. Questa soluzione diventa particolarmente interessante se i team sono in grado di associare i modelli alle applicazioni esistenti, creando un flusso di lavoro interconnesso di più modelli linguistici che lavorano in tandem.
Scenari di utilizzo degli SLM
L'adattabilità degli SLM li rende utili in una vasta gamma di scenari di utilizzo.
Chatbot
Si può utilizzare un SLM per addestrare un chatbot su materiali specifici. Ad esempio, un chatbot dell'assistenza clienti potrebbe essere addestrato con conoscenze specifiche dell'azienda in modo da poter rispondere alle domande e indirizzare gli utenti alle informazioni.
Agentic AI
Si possono integrare gli SLM in un flusso di lavoro di Agentic AI in modo che possano completare le attività per conto dell'utente.
IA generativa
Gli SLM possono eseguire attività come la generazione di nuovo testo, la traduzione di testo esistente e la sintesi di testi.
Il ruolo di Red Hat
Red Hat AI è una piattaforma di prodotti e servizi che facilitano ogni fase del percorso con l'IA, che tu sia alle fasi iniziali o già in ottica di scalabilità. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi della tua azienda.
Con Red Hat AI, hai accesso a Red Hat® AI Inference Server, così potrai ottimizzare l'inferenza dei modelli nel cloud ibrido per deployment più rapidi ed economici. Basato su vLLM, il server di inferenza massimizza l'utilizzo della GPU e accelera i tempi di risposta.
Red Hat AI Inference Server include il repository Red Hat AI, una raccolta di modelli di terze parti convalidati e ottimizzati che garantisce la flessibilità dei modelli e promuove la coerenza tra i team. Con l'accesso al repository dei modelli di terze parti, le aziende possono accelerare i tempi di rilascio e ridurre gli ostacoli finanziari al successo dell'IA.
Il blog ufficiale di Red Hat
Leggi gli articoli del blog di Red Hat per scoprire novità e consigli utili sulle nostre tecnologie, e avere aggiornamenti sul nostro ecosistema di clienti, partner e community.