Cosa sono i servizi di dati?
Con l'espressione "servizi di dati" (anche detti Data-as-a-Service o data services) si indicano in genere piccole funzioni indipendenti e a basso accoppiamento utilizzate per l'ottimizzazione, l'organizzazione, la condivisione e l'elaborazione di informazioni acquisite e salvate su volumi di storage dei dati. Consentono di potenziare i dati tradizionali migliorandone resilienza, disponibilità e validità e aggiungendo caratteristiche che non sono originarie dei dati stessi, come i metadati.Le architetture di servizi di dati comprendono diverse tipologie di servizi di dati e applicazioni che lavorano in sinergia per il raggiungimento di un obiettivo comune, come nelle architetture Intelligent Data-as-a-Service (iDaaS).
Come funzionano i servizi di dati?
Si tratta di unità complete di funzioni software che offrono ai dati caratteristiche di cui sono sprovvisti, rendendoli più disponibili, resilienti, completi e di conseguenza più utili a utenti e programmi.
Le funzioni dei servizi di dati trasformano gli input in output. I primi sono set diversificati di dati grezzi — cioè dati non elaborati per un fine specifico — configurati nel loro formato nativo e salvati su volumi di storage fisici, virtuali o cloud. Gli output invece possono riguardare:
- L'organizzazione: consolidamento, gestione, raggruppamento e strutturazione dei dati, ottenuti in genere da sorgenti strutturate (database), semistrutturate (data warehouse) o non strutturate (data lake).
- Il trasferimento: lo spostamento dei dati in una rete dal luogo di origine a un punto di arrivo, ad esempio un'applicazione o una piattaforma.
- Le procedure: l'elaborazione dei dati, in genere nell'ambito di software di modellazione e analisi dei dati o di intelligenza artificiale/machine learning (AI/ML).
A cosa servono i servizi di dati?
Gestione dei dati archiviati
I servizi di dati agevolano la gestione dei dati inattivi, cioè quei dati salvati sui volumi di storage. Estraggono i dati grezzi dalle loro sorgenti — ad esempio i record dei clienti dai database OLTP (Online Transactional Processing), le informazioni sui danni alle proprietà dai data warehouse, o le immagini e i video dai data lake — e poi applicano principi di governance, organizzativi e di gestione in modo da rendere i dati utili per le applicazioni e accessibili agli utenti. Sono un elemento fondamentale nelle strategie basate sui big data in quanto rendono fruibili grandi raccolte di dati strutturati, semistrutturati o non strutturati anche se archiviati in posizioni diverse.
Dati in transito
I servizi di dati si applicano anche ai dati in transito, cioè a quei dati che si spostano dal loro volume di storage per confluire in un'applicazione o una piattaforma, in genere in tempo reale. I servizi di dati sono in grado di creare pipeline che agevolano lo spostamento continuo dei dati tra più endpoint. Possono, ad esempio, aiutare le organizzazioni nel passaggio dall'elaborazione dei dati in batch all'elaborazione basata sugli eventi agendo sui dati stessi non appena questi vengono generati. Garantiscono inoltre che i dati non siano mai rimossi dal loro luogo di origine, in modo che più endpoint possano usare lo stesso datapoint simultaneamente. Questo approccio è utile per creare architetture scalabili e basate sugli eventi.
Dati attivi
I servizi di dati permettono ai software di data science, analisi dei dati, modellazione dei dati di sfruttare al meglio i dati attivi. Migliorano l'accesso dei dati alle piattaforme di elaborazione dati intelligenti e ad alte prestazioni, come quelle degli strumenti di AI/ML e deep learning. A seconda del servizio di dati, i dati attivi possono includere raccolte di microservizi indipendenti e a basso accoppiamento, generalmente raggruppati in container e orchestrati tramite una piattaforma Kubernetes.
Storage tradizionale e servizi di dati
Storage tradizionale
È la raccolta e la conservazione di informazioni digitali grezze, ovvero bit e byte che costituiscono applicazioni, protocolli di rete, documenti, supporti, rubriche dei contatti, preferenze degli utenti e molto altro. Quando si salva un documento e si sceglie una posizione, si avvia un processo di storage dei dati. In genere, l'utente visualizza lo storage dei dati a livello di infrastruttura, e raramente può individuare le connessioni tra i volumi di storage. Ad esempio, di solito non è presente una funzione nativa che consenta di visualizzare ogni file, blocco o oggetto salvato in una workstation, in una piattaforma di storage su cloud e in un'unità disco esterna. Questo rende l'analisi dello storage dei dati un'attività manuale e monolitica.
Servizi di dati
Il software impiega i dati salvati su volumi di storage tradizionali come input per creare output specifici oppure software che potenzia i dati tradizionali migliorandone resilienza, disponibilità e validità. Di norma gli utenti interagiscono con i servizi di dati in un'applicazione, il che rende il processo flessibile e personalizzabile. Il servizio di dati fornito da Red Hat® OpenShift® Data Foundation, ad esempio, astrae l'infrastruttura di storage in modo che i dati possano essere archiviati in posizioni diverse, ma funge da singolo repository permanente.
Perché scegliere le soluzioni Red Hat
Le soluzioni Red Hat supportano ogni aspetto dello sviluppo applicativo cloud native, compresi i servizi di dati, e aiutano le aziende a garantire la distribuzione continua di nuove funzionalità ai loro clienti.
Red Hat Cloud Services include piattaforme come Red Hat OpenShift Data Science, che fornisce un ambiente completamente supportato per sviluppare, addestrare e testare i modelli di machine learning (ML) in modo rapido nel cloud pubblico prima di distribuirli in produzione.