Cos'è l'inferenza IA?

Pubblicato 7 gennaio 2025•6 minuti (tempo di lettura)

L'inferenza IA è il momento in cui un modello di IA fornisce una risposta basata sui dati. Quella che genericamente chiamiamo IA è in realtà la riuscita dell'inferenza, il momento risolutivo con il quale si conclude un processo più lungo e complesso di machine learning.

L'addestramento dei modelli di IA con dati sufficienti aiuta a migliorare la velocità e la precisione dell'inferenza IA.

Scopri Red Hat AI

Affinché ad esempio un modello di IA, addestrato con dati relativi agli animali, come le differenze e le somiglianze, i comportamenti o le condizioni di salute, riesca a creare connessioni e a identificare schemi, è necessario un set di dati di grandi dimensioni.

Se l'addestramento è efficace, il modello può generare le inferenze, ad esempio identificare una razza canina, riconoscere il miagolio di un gatto o perfino segnalare la possibilità che un cavallo imbizzarrisca. Benché non abbia mai interagito con questi animali se non all'interno di un set di dati astratti, la quantità dei dati utilizzati per addestrare il modello consente di generare inferenze in un nuovo ambiente e in tempo reale.

Funzionano così anche le connessioni elaborate dal cervello umano. Libri, film e risorse online possono fornirci informazioni sui diversi animali. Possiamo guardare immagini e video e ascoltare i suoni emessi dagli animali. Quando poi visitiamo uno zoo, siamo capaci di inferire e di riconoscere un tipo di animale specifico. Anche se non siamo mai stati prima in un giardino zoologico, riusciremo a identificare l'animale grazie alle ricerche che abbiamo svolto. È lo stesso processo che mettono in atto i modelli di IA durante un'inferenza.

Cosa sono i modelli fondativi?

L'inferenza IA è la fase operativa dell'intelligenza artificiale, ovvero il momento in cui il modello è in grado di applicare alle situazioni concrete ciò che ha appreso dall'addestramento. È questa abilità nell'identificare schemi e giungere a conclusioni che differenzia l'intelligenza artificiale dalle altre tecnologie. Questa capacità di dedurre può rivelarsi utile tanto nelle attività pratiche quotidiane quando nella programmazione informatica più complessa.

IA predittiva e IA generativa a confronto

A livello aziendale, l'inferenza IA può rivelarsi utile in numerose situazioni. Di seguito alcuni esempi.

Settore sanitario: L'inferenza IA può aiutare le professioni sanitarie a confrontare l'anamnesi dei pazienti e i dati attuali, per individuare tempestivamente schemi e anomalie, come ad esempio un valore anomalo in un esame cerebrale o un battito cardiaco lievemente aritmico. L'inferenza IA può riconoscere i segnali che minacciano la salute del paziente con largo anticipo e in tempi più brevi.

Settore finanziario: se addestrata con set di dati di grandi dimensioni in ambito bancario e creditizio, l'inferenza IA sarà in grado di identificare errori o dati insoliti in tempo reale, identificando in anticipo le frodi. Ciò permette di ottimizzare le risorse destinate al servizio clienti, di proteggere la privacy dei clienti e di migliorare la reputazione degli operatori del settore.

Settore automotive: l'avvento dell'IA con i veicoli a guida autonoma sta cambiando il modo di guidare. L'inferenza IA è in grado di individuare i percorsi più efficienti per arrivare a una destinazione da un punto di partenza specifico, o di frenare all'approssimarsi di un segnale di stop, migliorando tanto il comfort quanto la sicurezza dei passeggeri del veicolo.

Molti altri settori utilizzano l'inferenza IA in modi anche creativi. Può essere applicata in un fast food dove ordinare cibo senza scendere dall'auto, in una clinica veterinaria o all'accoglienza in un albergo. Molte aziende trovano nuove modalità per sfruttare questa tecnologia a proprio favore, per migliorare la precisione, risparmiare tempo e denaro e mantenere il proprio vantaggio rispetto ai competitor.

Gli scenari di utilizzo dell'AI e ML

Il processo con il quale i dati vengono utilizzati per insegnare al modello come creare connessioni e identificare schemi è l'addestramento dell'IA. Se l'addestramento è il processo di insegnamento, l'inferenza è il modello IA in azione.

La maggior parte dell'addestramento dell'IA avviene nelle fasi iniziali della creazione del modello. Completato l'addestramento il modello potrà creare connessioni anche con dati mai utilizzati prima. Se il set di dati impiegato per l'addestramento è di grandi dimensioni, il modello potrà generare un numero di connessioni maggiore e quindi inferenze più accurate. Qualora il modello incontrasse difficoltà a produrre inferenze accurate dopo l'addestramento, il fine tuning potrà migliorarne la precisione e aggiungere ulteriori conoscenze.

L'addestramento e l'inferenza IA sono le modalità con le quali l'intelligenza artificiale emula le capacità del cervello umano, come quella di dedurre in base a prove e ragionamenti.

La dimensione dei modelli è uno degli aspetti da cui dipende la quantità di risorse necessarie per la manipolazione.

Scopri in che modo i modelli più piccoli possono semplificare l'inferenza della GPU.

Le diverse tipologie di inferenza IA offrono vantaggi in svariati contesti.

Inferenza in batch: questo tipo di inferenza deriva il proprio nome dalla modalità con cui riceve ed elabora i dati, ovvero in grandi gruppi, o batch. Questo approccio non produce inferenze in tempo reale, ma elabora i dati in base a una data frequenza, a volte ogni ora o anche giornalmente, secondo la loro quantità e l'efficienza del modello di IA. Possiamo definire queste inferenze anche "inferenze offline" o "inferenze statiche".
Inferenza online: l'inferenza online, o dinamica, è in grado di produrre risposte in tempo reale, ma richiede hardware e software capaci di ridurre i limiti della latenza e di supportare previsioni ad alta velocità. L'utilità dell'inferenza online è tangibile soprattutto all'edge, perché l'intelligenza artificiale lavora in prossimità dei dati, come nel caso di uno smartphone, di un'automobile o di un ufficio remoto con connessione limitata.
ChatGPT di OpenAI è un valido esempio di inferenza online che richiede un notevole supporto operativo iniziale per poter poi fornire risposte rapide e accurate.
Inferenza streaming: il termine descrive un sistema di IA non necessariamente utilizzato per comunicare con gli esseri umani. Invece di prompt e richieste, il modello riceve un flusso costante di dati con i quali può fare previsioni e aggiornare il proprio database interno. Questo tipo di inferenza è in grado di monitorare le modifiche, mantenere la regolarità o anticipare eventuali problemi prima che si verifichino.

Scopri in che modo l'inferenza distribuita con vLLM può aiutare a superare gli ostacoli

Un server di inferenza IA è il software che permette a un modello di IA di passare dalla fase di addestramento a quella operativa. Si avvale del machine learning per aiutare il modello ad applicare ciò che ha appreso e a utilizzarlo per generare inferenze.

Per ottenere risultati efficienti, è necessario che il server di inferenza IA e il modello di IA siano compatibili. Di seguito alcuni esempi di server di inferenza e i modelli con cui si integrano meglio:

Server di inferenza multimodale: questo tipo di server di inferenza è in grado di supportare più modelli alla volta, e quindi di ricevere dati in forma di codice, immagini o testo e di elaborare le diverse inferenze su un unico server. Utilizzando la GPU e la memoria CPU in modo più efficiente, un server di inferenza multimodale può supportare più di un modello, riuscendo così a rendere più scalabile l'hardware e a ottimizzare i costi.
Server di inferenza per un singolo modello: un server in grado di supportare un solo modello. Il processo di inferenza IA è specializzato nella comunicazione con un modello addestrato per uno scenario di utilizzo esclusivo. Può essere in grado di elaborare i dati in forma di testo o solo in forma di codice. La sua specificità lo rende particolarmente efficiente e in grado di facilitare le decisioni o l'elaborazione di vincoli delle risorse in tempo reale.

Scalabilità, risorse e costi sono i principali ostacoli all'esecuzione dell'inferenza IA.

Complessità: è più facile addestrare un modello all'esecuzione di attività semplici, come la creazione di un'immagine o l'invio a un cliente di una policy sui resi. Per permettere ai modelli di apprendere dati più complessi, per poi individuare frodi finanziarie o identificare anomalie mediche, durante l'addestramento è necessario fornire più dati e successivamente più risorse che li supportino.
Risorse: più il modello è complesso e più specializzati devono essere l'hardware e il software a supporto dell'imponente lavoro di elaborazione compiuto dal modello durante le inferenze. Un componente essenziale di queste risorse è la memoria della CPU, che viene spesso considerata come il centro di controllo del computer. Quando un modello si prepara a utilizzare i dati di addestramento di cui dispone per produrre una risposta, deve poter fare riferimento a questi dati, che si trovano nello spazio di memoria della CPU.
Costi: i tanti elementi che rendono possibile l'inferenza IA possono avere un costo elevato. Se l'obiettivo è la scalabilità o il passaggio al più recente hardware in grado di supportare l'IA, le risorse necessarie a realizzarlo possono rivelarsi consistenti. Restare al passo con l'innovazione dell'IA può quindi risultare difficile per le aziende, perché i costi aumentano in proporzione alla maggiore complessità dei modelli e all'evoluzione dell'hardware.

Un compressore di LLM può aiutare ad affrontare queste sfide e velocizzare l'inferenza dell'IA.

Che cos'è vLLM?

Red Hat AI è un ampio portafoglio di prodotti e servizi che facilitano ogni fase del percorso con l'IA, tanto nelle fasi iniziali quanto al momento di passare al cloud ibrido. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi di ciascuna azienda.

Scopri Red Hat AI

Red Hat AI accelera i tempi di rilascio e riduce le risorse e gli ostacoli economici delle piattaforme di IA. Inoltre, è in grado di ottimizzare in modo efficiente modelli di piccole dimensioni e destinati a scopi specifici, garantendo flessibilità di distribuzione ovunque risiedano i dati.

Red Hat AI si basa su tecnologie open source e su un ecosistema di partner caratterizzato da prestazioni, stabilità e capacità di supportare GPU su più infrastrutture.

Leggi il comunicato stampa sull'acquisizione di Neural Magic da parte di Red Hat

Continua a leggere

Cos'è il fine tuning efficiente dal punto di vista dei parametri (PEFT)?

Il PEFT consiste in un insieme di tecniche grazie alle quali è possibile ottimizzare solo una parte dei parametri di un LLM e quindi risparmiare risorse.

LoRA e QLoRA a confronto

LoRA (Low-Rank Adaptation) e QLoRA (Quantized Low-Rank Adaptation) sono due tecniche di addestramento dei modelli di IA.

Che cos'è vLLM?

vLLM è una raccolta di codice open source che rende più efficienti i calcoli eseguiti dai modelli di linguaggio.

Partecipazione e formazione

Soluzioni per settore

Piattaforme

In primo piano

Prova e acquista

Servizi

Formazione & certificazione

In primo piano

Argomenti

Articoli

Scopri di più

Per i clienti

Per i partner

Chi siamo

Open source

Per saperne di più

Seleziona la tua lingua

Cos'è l'inferenza IA?