Introduzione ad AIOps

Copia URL

AIOps è un'intelligenza artificiale (IA) per le operazioni IT con un approccio specifico all'automazione delle operazioni IT che si avvale del machine learning e di altre tecniche di IA avanzate. Si basa su sistemi intelligenti in grado di analizzare, apprendere e intraprendere azioni in tempo reale. Questo approccio aiuta i team IT a gestire la complessità, a ridurre il lavoro manuale e ad accelerare la risposta agli incidenti, velocizzando così il processo decisionale. 

Il volume di dati operativi disponibili negli ambienti IT complessi può complicare l'identificazione e la risoluzione rapida dei problemi. Non è umanamente possibile elaborare e organizzare questi dati a un ritmo che permetta di stare al passo con l'evoluzione delle moderne operazioni IT. Inoltre, spesso gli strumenti di monitoraggio convenzionali generano un eccesso di avvisi ridondanti se non inutili, con una conseguente desensibilizzazione agli avvisi che può far trascurare quelli più importanti. 

I ritardi nella risposta agli incidenti che ne risultano, insieme alla lungaggine intrinseca della risoluzione manuale dei problemi, contribuiscono a un tempo medio di ripristino (MTTR) più elevato e a un incremento del rischio di indisponibilità. 

AIOps può risolvere questi problemi e aiutare i team IT a reagire più rapidamente agli incidenti. Le tecniche e gli algoritmi di machine learning integrati di questo approccio aiutano i sistemi ad apprendere da grandi quantità di dati operativi. AIOps si avvale dell'automazione dell'IT per rispondere agli eventi in tempo reale, ottenendo migliore visibilità, una gestione dell'IT più proattiva e costi operativi ridotti.

Leggi l'ebook

Una piattaforma o un approccio AIOps acquisisce grandi quantità di dati operativi, applica algoritmi di machine learning per identificare modelli e problemi, automatizza la correzione e apprende dagli incidenti passati. In sostanza, AIOps trasforma le operazioni IT dalla risoluzione reattiva dei problemi nella gestione proattiva e intelligente. 

Raccolta, elaborazione e pulizia dei dati

Una piattaforma AIOps acquisisce, organizza e contestualizza grandi quantità di dati che provengono da reti, applicazioni, database e altre sorgenti. Tali dati possono includere:

  • Dati cronologici e in tempo reale sugli eventi.
  • Metriche e monitoraggio delle prestazioni.
  • Log di sistema e delle applicazioni.
  • Dati relativi a configurazione e infrastruttura.
  • Dati sulla sicurezza e sugli incidenti.
  • Dati non strutturati o in streaming.

Una volta raccolti i dati, la piattaforma li aggrega in un'unica posizione dove possono essere organizzati, indicizzati e puliti. Nella maggior parte degli ambienti moderni, tuttavia, i dati non sono centralizzati ma distribuiti su più piattaforme di osservabilità coesistenti, il che rende l'aggregazione il primo fondamentale passaggio. La "pulizia" dei dati implica l'identificazione e la correzione degli errori nei dati acquisiti, in modo da garantire l'affidabilità del set di dati e dei risultati dell'analisi. L'operazione consiste nella rimozione dei dati duplicati, nella correzione dei dati con etichette errate o nel colmare le lacune se i dati sono incompleti.

Applicazione di algoritmi di AI/ML

AIOps utilizza il machine learning per individuare modelli, l'elaborazione del linguaggio naturale per interpretare il testo nelle sorgenti di dati e l'IA generativa per sintetizzare e riassumere le informazioni. L'interpretazione di testo non strutturato proveniente da più sorgenti, come registri e ticket, fornisce il contesto per individuare le anomalie nei dati passati ed eseguire l'analisi delle cause root (RCA). Durante questo processo, l'IA generativa può accelerare la correzione creando riepiloghi chiari degli incidenti e suggerendo correzioni specifiche. AIOps può anche utilizzare l'analisi predittiva basata su dati cronologici, modelli statistici, tecniche di data mining e machine learning, per anticipare i problemi prima che si verifichino. 

Risposta e correzione automatizzate

Dopo che una piattaforma AIOps ha identificato incidenti e modelli, i team IT possono incorporare l'automazione e l'orchestrazione per risolvere con rapidità i problemi. AIOps può applicare criteri predefiniti per attivare flussi di lavoro automatizzati e a riparazione automatica, come il riavvio dei servizi o la generazione dei ticket degli incidenti. Questa automazione rende scalabile e ripetibile la risposta ai problemi comuni, riducendo al contempo i tempi di fermo e gli interventi manuali. Inoltre, permette il passaggio al livello superiore di problemi complessi per la revisione umana mentre i sistemi continuano con i processi di apprendimento e perfezionamento delle risposte future. 

Il successo delle iniziative AIOps dipende dalla scelta di una piattaforma in grado di trasformarsi nell'unica fonte di attendibilità dell'intero ambiente IT. In molti casi, i singoli strumenti di osservabilità potrebbero non avere accesso all'infrastruttura da cui ha origine il problema. Risulta quindi fondamentale scegliere una piattaforma in grado di assemblare, normalizzare e correlare i dati provenienti da diverse sorgenti, aiutando i team a ottenere informazioni utili e supportando flussi di lavoro di correzione più efficienti.

I sistemi di Agentic AI possono essere utili nel processo AIOps monitorando i sistemi in modo autonomo e applicando le patch in tempo reale. Affinché ciò avvenga, l'agente deve essere in grado di accedere a grandi quantità di informazioni dai registri del server e dagli strumenti di monitoraggio tramite le API. Il Model Context Protocol (MCP) è uno strumento che aiuta l'agente a determinare il modo in cui i dati esterni vengono elaborati e utilizzati per creare un'azione o un output. 

Risorse da Red Hat

AIOps offre vantaggi significativi per le operazioni IT, ma presenta anche una serie di sfide. Gli ostacoli legati alla gestione dei dati, alle competenze e all'integrazione possono ad esempio influire sul tempo necessario per ottenere i risultati e sulla riuscita complessiva di un'iniziativa AIOps.

Sfide

  • Gestione dei dati. La raccolta, l'organizzazione e la pulizia dei dati per garantirne qualità e coerenza sono attività complesse. Poiché i risultati di AIOps sono direttamente legati alla qualità delle sorgenti di dati, separare i dati significativi da quelli non importanti può rivelarsi difficile.
  • Competenze e requisiti dell'infrastruttura. Le organizzazioni che intendono sviluppare la propria soluzione AIOps hanno bisogno di data scientist interni e con competenze specifiche, il che può rappresentare un ostacolo notevole. Trovare personale con l’esperienza e le conoscenze necessarie per la progettazione e la gestione di AIOps richiede tempo, e la formazione del personale esistente può essere altrettanto costosa. Senza piattaforme e capacità standardizzate, è difficile addestrare AIOps affinché sia funzionale a un'infrastruttura in evoluzione, poiché anche la progettazione, la creazione e la gestione di questi sistemi possono essere complesse e dispendiose in termini di tempo.
  • Risultati ritardati. I sistemi AIOps sono talvolta difficili da progettare, integrare, distribuire e gestire, quindi potrebbe essere necessario attendere del tempo prima di ottenere una qualsiasi forma di ROI.
  • Integrazione con i sistemi esistenti. Affinché una soluzione AIOps sia efficace a tutti gli effetti, deve funzionare con l'infrastruttura e gli strumenti esistenti. Tuttavia, questa integrazione può essere complessa, soprattutto negli ambienti ibridi o multicloud.
  • Fiducia e allineamento con le parti coinvolte. Le organizzazioni devono garantire un utilizzo etico dell'IA, con metodi trasparenti e conclusioni che possano essere convalidate. La definizione di obiettivi operativi chiari richiede inoltre un accordo collettivo con le parti interessate, consenso che può essere difficile da ottenere.

Queste sfide, dalla gestione dei dati all'integrazione, sono all'apparenza complicate, ma sono il tipo di problema che può essere risolto da una piattaforma AIOps assodata. Con una soluzione unificata, le organizzazioni possono superare gli ostacoli comuni all'adozione e ottenere vantaggi chiave. 

In particolare, una soluzione sempre più diffusa tra le aziende che puntano a una scalabilità più rapida è vLLM, un server di inferenza che consente agli LLM di utilizzare le GPU in modo più efficiente. vLLM utilizza tecniche come il batching continuo, la tecnologia PagedAttention e la quantizzazione per sfruttare al meglio lo storage di memoria LLM.

Scopri in che modo tre note organizzazioni stanno utilizzando vLLM per ottenere una scalabilità più efficiente.

Vantaggi

  • Velocità di risoluzione più rapida e tempi di fermo ridotti. AIOps riduce il downtime rilevato e, reagendo ai problemi nel momento in cui si presentano, riduce il tempo medio necessario per la risoluzione. L'obiettivo viene raggiunto identificando rapidamente le cause root e automatizzando le soluzioni. Questa capacità proattiva crea sistemi a riparazione automatica che risolvono i problemi prima che si ripercuotano sugli utenti finali o causino costose interruzioni.
  • Produttività aumentata. Automatizzando le attività manuali e ripetitive, AIOps riduce l'errore umano e aumenta l'efficienza del personale IT. I team possono dedicarsi allo sviluppo e alla distribuzione di progetti più strategici e rilevanti, utilizzando in modo più efficiente l'infrastruttura e le risorse umane.
  • Osservabilità e informazioni ottimizzate. AIOps acquisisce e mette in correlazione grandi volumi di dati da diverse sorgenti, fornendo una visione unificata dell'ambiente IT. Utilizza il machine learning per rilevare le anomalie, identificare i modelli e offrire analisi prevedibili, trasformando i dati grezzi (o non strutturati) in informazioni fruibili.
  • Costi ridotti. Prevenendo le interruzioni, ottimizzando l'allocazione delle risorse e promuovendo l'efficienza del personale IT, AIOps può ridurre i costi operativi e il costo totale di proprietà dell'infrastruttura IT.
  • Esperienza migliore per clienti e dipendenti. Mantenendo l'operatività delle applicazioni e dei servizi critici, AIOps aiuta a offrire ai clienti un'esperienza migliore. Inoltre, riduce l'eccesso di avvisi ricevuti dai team IT segnalando solo quelli più importanti, migliorando così il processo decisionale. 

Ottieni una base solida per l'IA con l'automazione dell'IT

 

AIOps permette di superare un'ampia gamma di sfide operative dell'IT. L'integrazione di IA e automazione consente di sostituire la risoluzione reattiva dei problemi con una gestione dell'IT proattiva e intelligente.

Gestione dell'infrastruttura e del cloud

AIOps è essenziale per la gestione di ambienti IT complessi, come macchine virtuali (VM), cloud ibridi e operazioni all'edge della rete. L'automazione guidata dagli eventi permette di rispondere automaticamente agli avvisi comuni, come i picchi della CPU o i guasti dei servizi di rete. Inoltre, AIOps aiuta i team IT a sfruttare meglio le risorse, riducendo i costi e rimuovendo la necessità di gestire manualmente l'infrastruttura. 

AIOps può essere utilizzato per gestire varie tecniche di risparmio sui costi, come l'inferenza distribuita. Con l'inferenza distribuita i modelli di IA elaborano i carichi di lavoro in modo più efficiente, suddividendo le attività di inferenza su un gruppo di dispositivi interconnessi. Framework come llm-d supportano l'inferenza distribuita in modo scalabile per velocizzare le applicazioni di IA generativa in tutta l'azienda.

Ottimizzazione della rete e dell'edge

AIOps svolge un ruolo importante nel migliorare le prestazioni della rete e nel velocizzare la risposta ai problemi. Fornisce informazioni sull'automazione e sull'IA in tutti gli ambiti della rete, incluse reti cablate, wireless, software defined WAN (SD-WAN), edge WAN, datacenter e domini di sicurezza. Permette inoltre di automatizzare le attività di base per la risoluzione dei problemi di rete e la correzione dei problemi di configurazione. L'automazione guidata dagli eventi può essere utilizzata per avviare la ridistribuzione delle applicazioni, anche all'edge della rete.

Valutazione dell'impatto aziendale e monitoraggio dell'integrità dei servizi

AIOps ti aiuta ad analizzare in maniera approfondita e capire l'impatto dei problemi IT sui servizi aziendali. Grazie alla raccolta e all'analisi di grandi volumi di dati, AIOps è in grado di aiutare i site reliability engineer (SRE) a monitorare le prestazioni di applicazioni, hardware e infrastruttura di rete. L'aumentata visibilità sui problemi prestazionali e sul loro impatto sull'operatività dei servizi permette di stabilire le priorità delle attività di correzione in base alla loro gravità e pertinenza.

Sicurezza e conformità 

Tramite il rilevamento delle anomalie e la correlazione degli eventi, AIOps può aumentare la sicurezza utilizzando l'IA per identificare in modo proattivo potenziali minacce, come le violazioni dei dati. Rilevando le modifiche e fornendo anche un contesto per i rischi e l'impatto che aiuta a dare priorità alle correzioni automatizzate, può anche risolvere le deviazioni della configurazione. Per gestire la governance, puoi convalidare l'automazione avviata dall'IA a fronte di criteri di sicurezza definiti prima dell'esecuzione. In questo modo l'IA rispetta la conformità, aumentando la fiducia nei risultati. 

Applicazioni specifiche di settore

Le soluzioni AIOps possono essere personalizzate per soddisfare le esigenze specifiche di diversi settori, tra cui quello dei servizi finanziari, sanitario, delle telecomunicazioni e manifatturiero. Mentre alcuni strumenti offrono una visione completa delle operazioni IT, le applicazioni incentrate sul dominio forniscono informazioni più specifiche. Queste applicazioni utilizzano modelli di IA addestrati su set di dati pertinenti al settore per affrontare sfide e scenari di utilizzo specifici.

5 scenari di utilizzo di AIOps per Red Hat Ansible Automation Platform

L'approccio DevOps si basa su piccoli miglioramenti incrementali durante l'intero ciclo di vita dell'applicazione causando potenzialmente tempi di fermo. È questo il contesto in cui si inserisce AIOps per svolgere un ruolo cruciale. in quanto supporta la cultura DevOps aggiungendo la data science ai processi di sviluppo e operativi.

Sebbene la distinzione tra questi due approcci non sia sempre così netta, AIOps si integra perfettamente nelle diverse fasi delle procedure DevOps:

  • Da un lato, AIOps consuma enormi quantità di dati sull'infrastruttura e avvisa gli ingegneri DevOps di problemi dell'ambiente di sviluppo integrato (IDE) alla base (o semplicemente li risolve).
  • Dall'altro, AIOps risolve automaticamente i problemi IT ridondanti in produzione, apprendendo al contempo come risolvere nuovi bug introdotti con ogni nuova release. 

Come nel caso di DevOps, anche AIOps si affida a un set diversificato di strumenti e a un approccio altamente collaborativo per supportare operazioni IT più rapide ed efficienti. Sebbene una piattaforma AIOps unificata sia in grado di integrare, analizzare e operare in ambienti di sviluppo e produzione specifici, gli strumenti utilizzati variano a seconda della configurazione IT.

Scopri di più su DevOps

È importante comprendere che AIOps non sostituisce l'inferenza, ma semplicemente la spinge nella giusta direzione.

L'inferenza è ancora al centro dell'IA generativa ed è per questo che può creare o distruggere le tue strategie di IA. Avere l'infrastruttura giusta (hardware e software) per supportare un'inferenza intelligente e di successo è comunque importante.

Una strategia AIOps efficace può supportare l'inferenza con:

  • Monitoraggio delle prestazioni
  • Pianificazione delle capacità
  • Ottimizzazione dei costi
  • Pianificazione intelligente dell'inferenza

Nel complesso, una strategia AIOps solida può aiutarti a proteggere capacità di inferenza dell'IA ancora più efficienti.

I vantaggi dell'inferenza IA

Red Hat® AI è una piattaforma di prodotti e servizi che facilitano ogni fase del percorso con l'IA, che tu sia alle fasi iniziali o già in ottica di scalabilità. Inoltre, è in grado di sostenere le iniziative di IA generativa e predittiva negli scenari di utilizzo esclusivi della tua azienda.

Con Red Hat AI, hai accesso a Red Hat AI Inference Server, in modo da ottimizzare l'inferenza dei modelli nel cloud ibrido per deployment più rapidi ed economici. Basato su vLLM, il server di inferenza massimizza l'utilizzo della GPU e accelera i tempi di risposta.

Scopri di più su Red Hat AI Inference Server

Red Hat AI Inference Server include il repository Red Hat AI, una raccolta di modelli di terze parti convalidati e ottimizzati che garantisce la flessibilità dei modelli e promuove la coerenza tra i team. Con l'accesso al repository dei modelli di terze parti, le aziende possono accelerare i tempi di rilascio e ridurre gli ostacoli finanziari al successo dell'IA.


Scopri di più sui modelli convalidati da Red Hat AI

Blog post

A che punto è la tua strategia di sovranità digitale? Introduzione al Red Hat Sovereignty Readiness Assessment Tool

Il Red Hat Sovereignty Readiness Assessment Tool è uno strumento per l’autovalutazione accessibile dal web, che fornisce una base di riferimento chiara e obiettiva del controllo digitale della tua organizzazione in sette ambiti fondamentali.

Automazione delle tecnologie: perché scegliere Red Hat Ansible Automation Platform

Red Hat® Ansible® Automation Platform semplifica il deployment, la gestione, la configurazione e il ciclo di vita dei componenti dell'infrastruttura e dei modelli di intelligenza artificiale.

Continua a leggere

SLM e LLM a confronto: cosa sono i modelli linguistici di piccole dimensioni?

Un modello linguistico di piccole dimensioni (SLM) è una versione ridotta di un modello linguistico di grandi dimensioni (LLM) che dispone di conoscenze più specializzate, è più veloce da personalizzare e più efficiente da eseguire.

Cosa sono gli agenti di IA (o agentic AI)?

L'Agentic AI è un software progettato per interagire con dati e strumenti in modo tale da richiedere il minimo intervento da parte dell'utente.

LoRA e QLoRA a confronto

LoRA (Low-Rank Adaptation) e QLoRA (Quantized Low-Rank Adaptation) sono due tecniche di addestramento dei modelli di IA.

AI/ML: risorse consigliate

Articoli correlati