Cosa sono i modelli fondativi per l'IA?

Copia URL

Un modello fondativo è una particolare tipologia di modello di machine learning (ML) che viene addestrato per eseguire una specifica gamma di attività. 

Fino a poco tempo fa, i sistemi di intelligenza artificiale (IA) erano strumenti specializzati. Ciò significa che un modello di ML veniva addestrato solo per un'applicazione specifica o un determinato scenario di utilizzo. Il termine modello fondativo è entrato a far parte del lessico comune quando alcuni esperti hanno notato le due tendenze nell'ambito del machine learning indicate di seguito.

  1. Per eseguire una vasta gamma di attività venivano utilizzate solo poche architetture di deep learning.
  2. Un modello di IA è in grado di fornire concetti che non erano previsti all'inizio del suo addestramento. 

I modelli di base, come i modelli Granite di IBM, sono stati programmati per funzionare con una comprensione contestuale generale di modelli, strutture e rappresentazioni. Questa conoscenza di base della comunicazione e dei diversi schemi e andamenti può essere ulteriormente affinata per eseguire attività specifiche per un dominio in qualsiasi settore.

Scopri Red Hat AI

Le caratteristiche che definiscono i modelli fondativi e che ne consentono il funzionamento sono due: la capacità di trasferire le informazioni apprese e la scalabilità. L'apprendimento per trasferimento si riferisce alla capacità di un modello di applicare le informazioni su una situazione a un'altra e di sfruttare la sua "conoscenza" interna. 

 La scala si riferisce alle unità di elaborazione grafica (GPU) specifiche dell'hardware che consentono al modello di eseguire più calcoli contemporaneamente, noto anche come elaborazione parallela. Le GPU sono un elemento chiave dell'addestramento e della distribuzione dei modelli di deep learning, compresi quelli di base, perché consentono di elaborare dati ed eseguire calcoli statistici complessi rapidamente.

Sia la scalabilità che la formazione aiutano a eseguire AI inference. L'inferenza IA è la fase operativa dell'intelligenza artificiale, ovvero il momento in cui il modello è in grado di applicare alle situazioni concrete ciò che ha appreso dall'addestramento.

Deep learning e modelli fondativi
Molti modelli fondativi, specialmente quelli impiegati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e nell'elaborazione audio, vengono addestrati utilizzando il deep learning. La tecnologia deep learning sostiene molti (ma non tutti) modelli fondativi ed è stato l'elemento principale che ha contribuito a molti progressi in questo ambito. Il deep learning è anche noto come apprendimento neurale profondo o reti neurali profonde e insegna ai computer a imparare tramite l'osservazione, simulando le modalità di acquisizione delle conoscenze tipiche degli esseri umani. 

Transformers e modelli di base
Sebbene non tutti i modelli di base utilizzino trasformatori, un'architettura con trasformatore si è rivelata un modo diffuso per creare modelli di base che coinvolgono testo come ChatGPT, BERT e DALL-E 2. I trasformatori migliorano le capacità dei modelli di ML consentendo di acquisire le relazioni e le dipendenze contestuali tra gli elementi in una sequenza di dati. Inoltre, essendo tipi di reti neurali artificiali (ANN) impiegati nei modelli NLP, non vengono in genere utilizzati per modelli di ML dedicati alla visione artificiale o all'elaborazione vocale.

Risorse da Red Hat

Dopo l'addestramento, il modello fondativo utilizza la conoscenza acquisita dall'enorme pool di dati da cui è stato costituito per supportare la risoluzione dei problemi, capacità che offre vantaggi notevoli alle organizzazioni sotto diversi aspetti. Di seguito un elenco di alcune delle attività generiche svolte da un modello fondativo.

Elaborazione del linguaggio naturale (NLP)
Grazie alla sua capacità di riconoscere contesti, regole grammaticali e strutture linguistiche, un modello fondativo addestrato in ambito NLP è in grado di generare informazioni precise dai dati con cui è stato alimentato. Un ulteriore affinamento di queste capacità consente di associare ai testi analizzati un preciso sentiment (che sia positivo, negativo o neutro) in modo che si possano analizzare in modo costruttivo e produttivo messaggi scritti, come feedback dei clienti, recensioni online o post sui social. La NLP è un settore più ampio che comprende lo sviluppo e l'applicazione di modelli di linguaggio di grandi dimensioni (LLM).

Visione artificiale
Quando il modello è in grado di riconoscere forme e caratteristiche di base, può iniziare a identificare anche schemi e motivi precisi. I modelli sviluppati per questo particolare utilizzo, quando affinati, sono in grado di moderare automaticamente i contenuti ed eseguire attività legate al riconoscimento facciale e alla classificazione delle immagini. Partendo dagli schemi e dagli andamenti appresi in precedenza, sono inoltre in grado di generare nuove immagini. 

Elaborazione audio/Riconoscimento vocale
Un modello addestrato al riconoscimento fonetico è in grado di estrapolare il significato delle parole pronunciate, per offrire una comunicazione più inclusiva. Assistenti virtuali, supporto multilingue, comandi vocali e funzionalità come quelle che consentono la trascrizione del parlato promuovono sia l'accessibilità che la produttività. 

Un'ulteriore ottimizzazione consente di progettare sistemi di machine learning maggiormente specializzati, capaci di soddisfare le esigenze specifiche del settore di riferimento, ad esempio il riconoscimento delle frodi per le istituzioni finanziarie, il sequenziamento del DNA per il settore medico, chatbot per l'assistenza clienti e molto altro.

I modelli fondativi offrono alle organizzazioni accessibilità e un livello di sofisticazione che sarebbero altrimenti irraggiungibili. Adottando e basandosi sui modelli fondativi le aziende possono superare problemi comuni come quelli indicati di seguito.

Accesso limitato a dati di qualità: i dati su cui si basano sono migliori e più numerosi di quelli a cui si ha solitamente accesso.

Precisione/Performance del modello: offrono un'accuratezza di base che in autonomia si raggiungerebbe in mesi, se non in anni. 

Time to value: l'addestramento di un modello di ML richiede tempo e risorse, mentre i modelli fondativi offrono una serie di funzionalità generali, personalizzabili in base alle esigenze specifiche. 

Mancanza di talenti: si può approfittare di AI/ML senza dover investire sensibilmente in risorse di data science. 

Gestione delle spese: l'utilizzo di un modello base riduce la necessità di hardware costoso necessario per la formazione iniziale. Seppure sia necessario investire nell'ottimizzazione e nella distribuzione del modello finale, questo costituisce solo una minima parte del costo che sarebbe servito per addestrare il modello fondativo da zero.

Spiegazione di LoRA e QLoRA

I modelli fondativi possono certamente essere utilizzati in molti modi utili e innovativi, ma presentano anche una serie di sfide che è bene tenere presenti.

Costi
Sono necessarie molte risorse per sviluppare, addestrare e distribuire sistemi di questo tipo. L'addestramento iniziale richiede un'enorme quantità di dati generici, consuma centinaia di migliaia di GPU e spesso richiede un gruppo dedicato di ingegneri e data scientist esperti in machine learning. 

Interpretabilità
In questo ambito, si parla di "scatola nera" quando un programma di IA esegue un'attività all'interno della propria rete neurale, senza renderne chiaro il processo di elaborazione. Ciò porta a uno scenario in cui nessuno, nemmeno i data scientist e gli ingegneri che hanno creato l'algoritmo, è in grado di spiegare esattamente in che modo il modello è arrivato a uno specifico risultato. L'incapacità di interpretare queste scatole nere può causare conseguenze dannose quando vengono impiegate per processi decisionali che comportano rischi elevati, soprattutto in settori quali quello dell'assistenza sanitaria, della giustizia penale e finanziario. Questo effetto si rileva in qualsiasi modello basato su una rete neurale, non solo sui modelli fondativi. 

Privacy e sicurezza 
I modelli Foundation richiedono l'accesso a molte informazioni, che a volte includono informazioni sui clienti o dati aziendali proprietari. Si tratta di un aspetto di cui tenere particolarmente conto se il modello che si intende utilizzare è accessibile a un provider di terze parti.

Precisione e bias 
Se un modello di deep learning viene addestrato su dati statisticamente distorti o che non forniscono una rappresentazione accurata della popolazione, l'output può essere errato. I bias umani esistenti purtroppo vengono spesso trasferiti all'intelligenza artificiale, con il conseguente rischio di algoritmi discriminatori e risultati pregiudiziosi. Per le aziende che usufruiscono dell'IA per migliorare produttività e prestazioni, è quindi essenziale che siano attuate strategie che riducano i bias. Per farlo, sono necessari innanzitutto processi di progettazione inclusivi e una maggiore attenzione alla diversità di rappresentazione all'interno dei dati raccolti. 

Considerazioni per AI/ML

Red Hat® AI offre un portafoglio di prodotti di IA sviluppati a partire dalle soluzioni che i nostri clienti già conoscono. 

Grazie alle soluzioni per l'IA di Red Hat, le organizzazioni possono:

  • Adottare l'IA rapidamente per promuovere l'innovazione.
  • Semplificare l'erogazione di soluzioni di IA.
  • a tutti gli ambienti.

Scopri le soluzioni per l'IA di Red Hat 

Facile accesso ai modelli della famiglia Granite di IBM

Se sei pronto a sperimentare i modelli di base, ma non sei ancora sicuro di quali siano gli scenari di utilizzo aziendali, inizia con Red Hat® Enterprise Linux® AI. Questa piattaforma modello di base aiuta a sviluppare, testare ed eseguire LLM della famiglia Granite per applicazioni enterprise.

Gli sviluppatori possono accedere rapidamente a un unico server e hanno a disposizione un set completo di LLM e strumenti di IA, ovvero tutto il necessario per ottimizzare i modelli e creare applicazioni di IA gen.

Red Hat AI offre anche meccanismi di allineamento dei modelli aggiuntivi per migliorare il tuo LLM con una soluzione chiamata InstructLab. Red Hat e IBM hanno creato InstructLab per introdurre un approccio open source guidato dalla community per migliorare le funzionalità LLM.

Esplora Red Hat Enterprise Linux AI 

Hub

Il blog ufficiale di Red Hat

Leggi gli articoli del blog di Red Hat per scoprire novità e consigli utili sulle nostre tecnologie, e avere aggiornamenti sul nostro ecosistema di clienti, partner e community.

Tutte le versioni di prova dei prodotti Red Hat

Grazie alle versioni di prova gratuite dei prodotti Red Hat potrai acquisire esperienza pratica, prepararti per le certificazioni o capire se il prodotto che hai scelto è giusto per le esigenze della tua organizzazione.

Continua a leggere

Cos'è il fine tuning efficiente dei parametri (PEFT)?

Il PEFT consiste in un insieme di tecniche grazie alle quali è possibile ottimizzare solo una parte dei parametri di un LLM e quindi risparmiare risorse.

Che cos'è vLLM?

vLLM è una raccolta di codice open source che rende più efficienti i calcoli eseguiti dai modelli di linguaggio.

Cos'è l'inferenza IA?

Nell'ambito dei complessi processi della tecnologia di machine learning, l'inferenza IA è il passaggio finale che permette a un modello di IA di fornire una risposta basata sui dati.

AI/ML: risorse consigliate