Big Data Analytics: una visione di insieme dell’analisi dati

Cosa si intende per Big Data Analytics?


Efficienza è la parola chiave che caratterizza i desiderata delle imprese italiane, quando si parla di analisi dei dati. Tenere sotto controllo i costi, monitorando le prestazioni operative, ma nello stesso tempo introdurre innovazione nei prodotti e nei servizi sono le principali motivazioni che hanno fatto avvicinare negli ultimi anni gli imprenditori verso il mondo dei cosiddetti Big Data Analytics. L’IoT ha dato l’opportunità di raccogliere grandi quantità di dati che possono essere trasformati in informazioni attraverso tecniche di analisi dei dati, dando origine a quella scienza che oggi si chiama Analitica Predittiva [1]. Ma i dati non sono solo quelli raccolti dai sensori: la catena si arricchisce anche di altri dati non strutturati che possono essere incrociati con quelli dei sensori per ottenere informazioni utili: IoT, Big Data e Analytics sono di fatto un ecosistema completo che permette di estrarre informazioni utili alla propria strategia di Business.

E l’Industria 4.0 fonda su questa scienza buona parte delle sue potenzialità [2], in quanto i Big Data Analytics sono in grado di offrire alle aziende numerosi benefici. In modo particolare permettono all’impresa di aumentare l’efficienza di produzione e progettare nuovi servizi.

Con il termine Big Data Analytics ci si riferisce al processo di esame di insiemi di dati di grandi dimensioni e varietà volto a scoprire modelli nascosti, correlazioni sconosciute, tendenze del mercato, preferenze del cliente e altre informazioni utili che possono aiutare le organizzazioni a prendere decisioni sempre più efficaci. Alla base di queste tecnologie ci sono software, capacità di calcolo e tecniche di modellazione che possono aiutare gli esperti di dati ad analizzare le grandi quantità di informazioni che oggi possono essere raccolte da un qualsiasi processo fisico. Il punto chiave è che questi dati, proprio perché raccolti da sistemi eterogenei, non possono essere processati con le tecniche tradizionali di gestione dei database di tipo relazionale usati per la gestione di dati strutturati. I dati sono sempre più destrutturati, variano molto velocemente, sia in quantità ma anche in tipologia, per cui è necessario pensare a database non strutturati.

Figura 1 – Architettura funzionale per analytics (fonte http://www.cignex.com)

Questi principi rendono il mondo dei Big Data Analytics diverso rispetto al panorama della Business Intelligence, proprio per la differente struttura dei dati che vengono usati come riferimento.

La Business Intelligence (BI) tradizionale fa affidamento su insiemi di dati limitati e strutturati, nonché modelli semplici, mentre le analisi sui Big Data utilizzano grandi quantità di dati variegati, eterogenei e molto spesso non correlati tra di loro. Tuttavia, tali due tipologie di analisi non sono mutuamente escludenti: la prima aiuta a velocizzare le analisi, laddove le relazioni sono evidenti, la seconda invece aiuta a scovare legami che molto spesso non sono facilmente in relazione.

Come rappresentato in figura 1, l’architettura di riferimento parte da moduli di integrazione dei dati, in grado di raccogliere dati da fonti e formati diversi, per renderli in qualche modo omogenei ed essere cosi conservati in quello che oggi viene riconosciuto come Data Lake. Quest’ultimo è un bacino di raccolta dei dati che sfrutta tecnologie diverse di Data Management, finalizzate a effettuare operazioni di pre-analisi. Le analisi dei dati vere e proprie vengono effettuate sul livello superiore della struttura. Ma in cosa consistono queste analisi?

Un primo livello è quello di ricercare fra i dati dei cluster, cioè raggruppamenti di dati con caratteristiche comuni. In alternativa si ricercano dei pattern, ovverosia degli schemi ricorrenti, che si ripetono nei dati. Queste due analisi possono già dare per esempio delle informazioni utili per formulare delle previsioni. Per esempio, in campo industriale, se una certa vibrazione si ripete periodicamente nel tempo ed ad un certo momento smette di farlo, allora si è probabilmente in condizione di associare a questa condizione una situazione di anomalia. Il Clustering (figura 2) è invece utile per ridurre la complessità delle informazioni.

Supponiamo di avere dati di 4 tipologie diverse, il Clustering in questo caso consente di suddividere per tipologia i dati e poi estrarre l’informazione relativa al singolo cluster, riducendo così la complessità delle analisi. Questa operazione viene molto spesso effettuata sfruttando le potenzialità dell’Edge computing, che permette di pre-processare i dati al di fuori del database.

Figura 2 – Descrizione di tecnica di Clustering (fonte autore)

Le caratteristiche di un sistema di analisi dati, chiamato Data Mining nella sua accezione più diffusa, possono essere quindi classificate in due categorie: metodi descrittivi e metodi previsionali. I primi si occupano di identificare proprietà e caratteristiche nei dati, mentre i secondi sono in grado di effettuare delle previsioni.

Approcci più evoluti afferenti all’area dei Big Data Analytics si spingono più avanti del semplice Data Mining e si basano sul confronto dei dati raccolti con modelli matematici del prodotto o del processo che li ha generati. Questi modelli possono essere modelli statici, o modelli che si migliorano in funzione dei dati raccolti e prendono il nome di gemelli digitali o Digital Twins.

Il Digital Twins è definibile come modello informatico (figura 3) di un “oggetto” (che può essere un prodotto per l’utenza finale, una macchina per produrre, o un impianto) che, grazie ai dati raccolti, può migliorarne l’operatività, aggiungerne valore, oppure offrirne strumenti diagnostici. I Digital Twins sono una combinazione di metadati (classificazione, composizione e struttura), condizioni operative (come località e temperatura), dati di un evento (a partire dal tempo di accadimento), algoritmi e regole. I Digital Twins sono alla base della manutenzione predittiva, della pianificazione di servizi di manutenzione e di processi intelligenti.

Figura 3 – Descrizione di tecnica di Clustering (fonte autore)

Le analisi di cui abbiamo parlato possono essere sia di tipo automatico, che di tipo manuale. Certamente la prima ipotesi è quella più idonea in relazione alla grande quantità di dati che è necessario elaborare. Ma molto spesso è necessario anche un approccio più manuale, volto a comprendere cosa i dati ci stanno comunicando e come sta evolvendo la popolazione da cui essi provengono. In questo caso gli analytics fanno ricorso alle tecniche che si chiamano di visualizzazione dei dati.

La visualizzazione dei dati è un aspetto fondamentale del modo tradizionale di lavorare. A livello basilare, le visualizzazioni dati ci permettono di comparare rapidamente numeri o insiemi di numeri (misure per esempio). Le visualizzazioni sono collegate alla innata abilità di riconoscere rapidamente pattern e di convertirli in informazioni utilizzabili. Ancora oggi questa fase svolge un ruolo importante: senza di essa non è possibile descrivere algoritmi o funzioni matematiche per poi poter fare le analisi in modo automatico.

La visualizzazione dei dati rappresenta il cuore della Business Analytics: è il modo in cui si trasforma una grande mole di dati complessi in comunicazioni comprensibili, ricche di informazioni ed accattivanti.

Dal punto di vista delle imprese, la Data Visualization si può definire come quella tecnologia che permette agli utenti aziendali di vedere i dati (sotto forma di grafici o altre metodologie di visualizzazione), al fine di supportarli in una migliore comprensione delle informazioni e utilizzarle in funzione degli obiettivi di business.

In questo capitolo si sono espressi alcuni concetti relativi alla tematica dell’analisi dei dati. Emerge chiaramente che i Data Analytics e le tecniche di visualizzazione sono oggi gli strumenti che permettono di trarre un proficuo valore dai dati, facendoli diventare delle informazioni strutturate e utili a coloro che li devono utilizzare. Queste definizioni rappresentano delle classi di tecnologie, che raggruppano tecniche e metodi molto diversi tra di loro, che servono a estrarre informazioni: si parla di Machine Learning, Deep Learning e Intelligenza Artificiale per caratterizzare tutte queste metodologie e oggetto di ulteriori approfondimenti

 

Note e riferimenti

[1] G. Gruosso, come progettare un sistema di raccolta dei dati

[2] Fabbrica 4.0: i processi innovativi nel multiverso digitale, IRPET 2017


con il termine Big Data Analytics ci si riferisce al processo di esame di insiemi di dati di grandi dimensioni e varietà volto a scoprire modelli nascosti, correlazioni sconosciute, tendenze del mercato, preferenze del cliente e altre informazioni utili che possono aiutare le organizzazioni a prendere decisioni sempre più efficaci. Alla base di queste tecnologie ci sono software, capacità di calcolo e tecniche di modellazione che possono aiutare gli esperti di dati ad analizzare le grandi quantità di informazioni che oggi possono essere raccolte da un qualsiasi processo fisico. Il punto chiave è che questi dati, proprio perché raccolti da sistemi eterogenei, non possono essere processati con le tecniche tradizionali di gestione dei database di tipo relazionale usati per la gestione di dati strutturati. I dati sono sempre più destrutturati, variano molto velocemente, sia in quantità ma anche in tipologia, per cui è necessario pensare a database non strutturati.

Comments are closed.