SSI 458

80 AUTOMAZIONE OGGI 458 SOLUZIONI SOFTWARE PER L’INDUSTRIA S SI tutorial: industria 4.0 La modalità di archiviazione delle informazioni raccolte è un aspetto di primaria importanza proprio per le dimensioni del problema: i database relazionali diventano difficili da gestire in maniera effi- ciente quando la mole di dati cresce oltre un certo limite; soluzioni palliative come lo sharding del database su più macchine possono aiutare fino a un certo punto, ma il mondo del Big Data richiede approcci più radicali. Oggi le informazioni sono sempre più spesso organizzate in database no-SQL o in tabelle in formato CSV (Comma Separated Values) per questioni di efficienza, scalabilità e facilità di condivisione. Nella successiva fase di data management i dati sono trasformati, ripuliti, corretti e formattati in maniera coerente e con- sistente per renderli facilmente fruibili. Una volta integrati, i dati provenienti dalle molteplici fonti possono essere condivisi all’in- terno dell’azienda e venire messi a disposizione per la fase di analisi. È qui che, grazie a specifici linguaggi di programmazione, algoritmi, applicazioni o piattaforme integrate pensate per gestire l’elabora- zione dei dati su larga scala, diverse figure professionali in seno all’azienda estraggono le informazioni utili al processo decisionale. Una strategia dati non può essere considerata completa senza un’opportuna data governance, ovverosia un insieme di policy di sicurezza che copra l’intero ciclo di vita dei dati, dalla raccolta dai singoli dispositivi IoT alla trasmissione ai dispositivi di storage (locali o remoti) fino all’accesso da parte dell’applicazione finale. Questo richiede protocolli di sicurezza aggiornati che gestiscano le proce- dure di autorizzazione e autenticazione per l’accesso ai dati, imple- mentino algoritmi di crittografia e prevengano attacchi informatici. Data pipeline Nel contesto dell’analisi di Big Data il percorso del dato dal produt- tore al consumatore può essere rappresentato da una data pipeline che rispecchia la struttura lineare della data strategy e mette in evi- denza una moltitudine di tecnologie differenti nelle diverse fasi di vita del dato. Il punto di partenza sono le fonti dei dati sotto forma di flussi dati eterogenei provenienti da sensori, log, API, e database; in pratica con formati spesso incompatibili tra loro: si spazia dai database SQL dal reparto gestione clienti, ai datasheet dal reparto contabile, a file XML, fino a semplici stringhe di testo o valori numerici generati dagli innumerevoli dispositivi IoT sul campo. Nella fase di data ingestion i dati sono assimilati per mezzo di servizi di data streaming come AWS Kinesis o Apache Kafka. L’immagazzinamento richiede archi- tetture dati che vanno dal database localizzato o distribuito ai data warehouse e ai data lake, con relativi tool specialistici come Amazon S3, Google BigQuery e Hadoop HDFS. Nella fase di data processing, i dati sono trasformati, ripuliti e ricondotti a una forma adeguata per la successiva fase di analisi. Esistono due filosofie di trattamento dei dati a questo riguardo: la metodologia ETL (Extract, Transform, Load) trasforma il dato prima di caricarlo nella pipeline, mentre il più moderno approccio ELT (Extract, Load, Transform) carica il dato prima di trasformarlo, delegando quest’ultima operazione al desti- natario del flusso dati. Il dato opportunamente trasformato passa poi alla fase di analisi vera e propria dove il significato utile viene estratto grazie a una pletora di strumenti che spaziano da linguaggi generici come Python ad ambienti di calcolo statistico (come R o SAS) e motori analitici (come Apache Spark), fino ai più avanzati sistemi di machine learning. Le informazioni così distillate sono successivamente riassunte in un formato visuale (rapporti, grafici, dashboard) di facile comprensione per agevolare il processo de- cisionale. L’ultima fase della pipeline è rappresentata dalla distri- buzione dei risultati ai destinatari ultimi, attraverso API dedicate, esportazioni di file o integrazione diretta in altri sistemi. Data fabric e piattaforme per Big Data I problemi di scalabilità, sicurezza e integrazione di tecnologie mul- tiple come l’Edge Computing, l’Internet delle cose, il cloud ibrido e La data pipeline rappresenta il percorso dei dati dalle fonti al consumatore e illustra i vari stadi di elaborazione dei dati L’implementazione di un sistema di analisi Big Data richiede una molteplicità di tecnologie, strumenti e piattaforme hardware e software Fonte: Sadish Chandra Gupta