AO_447

Tutorial GIUGNO-LUGLIO 2023 AUTOMAZIONE OGGI 447 | 91 tured Query Language) sono definiti ‘dati strutturati’; sono quelli che provengono, per esempio, dai sistemi finanziari o dalle statisti- che demografiche, ma anche quelli generati automaticamente da siti e blog, come anche le informazioni contenute nei codici a barre e QR. I dati creati da fonti eterogenee e che non possono essere analizzati fino a quando non vengono trasformati sono detti ‘dati non strut- turati’ (o dati qualitativi); si tratta di file di testo, ma anche immagini, video, post e UGC (User Generated Content), oppure di dati provenienti da sensori, ticker, applicazioni IoT e immagini satellitari. Archiviati in formato nativo, possono essere utilizzati per molteplici scopi, secondo le necessità dell’azienda, ma questa fase è pro- babilmente la più complicata, perché da essa dipende la maggior parte degli errori e dei pro- blemi legati alla trasformazione dei Big Data in informazioni di valore. Un terzo tipo di dati, che si colloca esattamente tra gli altri due, è quello dei ‘dati semi-struttu- rati’: non così disordinati e incontrollati come quelli non strutturati, ma neppure così rigidi e quantificabili come quelli strutturati. Sono in- formazioni che non risiedono in un database relazionale o in qualsiasi altra tabella di dati, ma presentano alcune proprietà organizzative che ne semplificano l’analisi, come i tag se- mantici. Consistono principalmente in email, codici html, grafici, tabelle e documenti XML. Trattandosi di centinaia di miliardi di elementi, che variano da file da pochi byte a diversi te- rabyte, per archiviarli sono necessari data-lake, data warehouse e database NoSQL, nonché ovviamente competenze specifiche di data science e strategie di business intelligence per analizzarli. Dunque, solitamente, per elaborarli ed esaminarli si sfruttano strumenti e tecnolo- gie sia proprietarie sia di terzi, e ci si appoggia a piattaforme cloud come Google Cloud Platform (GCP), Amazon Web Services (AWS), Microsoft Azure, Cloudera, per la creazione e la distribu- zione di modelli basati sui dati. Come identificarli I Big Data sono analizzati anche da un punto di vista più decisionale e di governance, secondo il quale devono essere considerati diversi para- metri, noti come le ‘7 V’: Volume, Velocity, Va- riety, Variability Veracity, Visualization e Value. – Il Volume corrisponde alla quantità di dati processati durante uno specifico intervallo di tempo e riguarda la capacità computa- zionale necessaria per elaborarli. – La Velocità indica il tempo necessario per elaborare, trasformare e analizzare i dati: un aspetto cruciale, perché un dato tardivo è inefficace e ostacola l’attuazione di strategie e azioni che potrebbero essere essenziali per risolvere un problema. – Con Varietà si fa riferimento all’eteroge- neità dei dati e alla loro origine; implica la necessità di identificare e normalizzare i dati per trasformarli in informazioni di valore. – La Variabilità , invece, si riferisce a dati il cui significato cambia e la cui mutevolezza deve essere considerata nel momento in cui ven- gono interpretati. – Il parametro della Veridicità riguarda l’accu- ratezza, determina cioè se si lavora con dati significativi oppure con disinformazione. – Va poi considerata la semplicità di accesso agli insight una volta elaborati: i dati devono essere facilmente accessibili e leggibili ( Vi- sualizzazione ). Se non vengono presentati in modo efficace, infatti, è difficile che acqui- stino valore concreto per l’azienda. – Infine, si determina il Valore del dato per accertare la rilevanza che ha per gli scopi aziendali. Si tratta di analizzare il rapporto co- sto-vantaggi che i dati rappresentano per l’or- ganizzazione e se, in ultima istanza, portano a un ritorno sugli investimenti significativo. Come implementarli I dati in sé non generano valore, lo creano solo se raccolti, preparati, analizzati e utilizzati cor- rettamente. In sintesi, è necessario attivare un’a- deguata ‘Data Literacy’, ovvero bisogna creare internamente all’azienda o con il supporto di partner, quella capacità di generare informa- zioni a partire dai dati e di supportare le decisioni aziendali comunicando attraverso le evidenze empiriche emerse con l’analisi dei Big Data. Non basta però decidere di volerli utilizzare: la vera sfida consiste nel valutare rischi e opportunità. Si parte dal selezionare le fonti per l’acquisi- zione dei dati e dal valutarne la qualità; poi occorre considerare tutti quegli aspetti che riguardano la loro cura, archiviazione, ricerca, condivisione e trasferimento. Vanno scelti i metodi per integrare e archiviare i dati all’in- terno dell’azienda garantendone la qualità e attivando la giusta governance, in modo che siano pronti per l’analisi: è la cosiddetta ‘data preparation’. Particolare attenzione va prestata anche all’aspetto della sicurezza: grandi quan- tità di dati non protetti da sistemi di storage e crittografia possono diventare il bersaglio per- fetto degli attacchi informatici. I Big Data sono considerati in base a 7 parametri, le cosiddette ‘7 V’: Volume, Velocity, Variety, Variability Veracity, Visualization e Value Fonte: foto Shutterstock

RkJQdWJsaXNoZXIy Mzg4NjYz