Dall’hype alla realtà: perché l’AI ha bisogno di dati (reali e sintetici)ERT

ilariadepoli

1 anno ago

Nel mondo tecnologico e aziendale una parola d’ordine viene spesso soppiantata da un’altra, anche troppo frettolosamente. E questo, vale anche per il passaggio dai Big Data all’AI.

L’entusiasmo che sta accompagnando la diffusione di quest’ultima e la risonanza che sta raccogliendo in tutti gli ambiti, rischia di mettere in secondo piano il fondamento cardine di questa innovazione: la gestione profonda dei dati. ‘Conditio sine qua non’ di qualsiasi progetto aziendale efficace che coinvolga l’intelligenza artificiale.

Dai Big Data alla AI

Il legame tra Big Data e AI è infatti imprescindibile dal momento che il primo fornisce il volume di dati che il secondo elabora e interpreta, consentendo così alle aziende di prendere decisioni più mirate e aggiornate, anche in maniera automatica e in tempo reale, come di personalizzare le esperienze dei clienti o le raccomandazioni sul sito oppure di ottimizzare alcune operazioni.

In altre parole, i Big Data forniscono il carburante all’intelligenza artificiale, consentendo alle organizzazioni di analizzare modelli, riconoscere tendenze e prendere decisioni basate sui dati. L’enorme volume di informazioni oggi disponibili, dalle interazioni sui social media ai dati dei sensori dei macchinari, dalle ricerche di mercato ai dati di acquisto delle carte fedeltà, consente ai sistemi di intelligenza artificiale di migliorare continuamente precisione e prestazioni. Inoltre, le soluzioni di apprendimento automatico o predittive necessitano di grandi set di dati per addestrare e perfezionare le loro capacità; ulteriore conferma che i Big Data sono indispensabili nello sviluppo e nell’implementazione delle tecnologie di intelligenza artificiale.

Nello stesso tempo l’AI permette di portare l’organizzazione, l’elaborazione e l’analisi dei dati a un livello inimmaginabile senza queste soluzioni avanzate, rendendo disponibili nuove opportunità sia per estrarre informazioni e guidare decisioni data-driven sia per alimentare altri sistemi di intelligenza artificiale.

Una questione di quantità e qualità

Se da un lato la sinergia tra Big Data e AI offre grandi opportunità alle aziende, dall’altro presenta anche importanti sfide. La gestione di enormi set di dati tramite l’AI pone alle imprese questioni in termini di cybersecurity, di rispetto della privacy e di compliance alle normative vigenti, oltre a richiede un’infrastruttura e software solidi di gestione dei dati.

Ma soprattutto, se si vuole dare vita a un progetto aziendale d’impiego dell’AI efficace, non bisogna dimenticare il requisito fondamentale di quantità, qualità e affidabilità dei dati, anche se spesso si è portati a credere erroneamente che queste caratteristiche siano “magicamente” garantite dal solo impiego delle tecnologie di intelligenza artificiale.

Al contrario, è bene riaffermarlo, la qualità e la quantità dei dati fornite all’AI sono fondamentali per il valore del output, si può solo eventualmente discutere su quale dei due attributi sia maggiormente rilevante. Un’indagine di Gartner per VentureBeat ha stimato che ben l’85% di tutti i modelli/progetti di intelligenza artificiale implementati nel 2022 non avrebbe avuto successo e una percentuale ancora maggiore non avrebbe generato un ROI positivo a causa della bassa qualità dei dati o della scarsità o assenza di dati rilevanti.

Sintetizzare i dati

Disporre di dati di qualità e nelle giuste quantità è pertanto un requisito fondamentale per sviluppare soluzioni e strumenti di intelligenza artificiale accurati e quindi efficaci. Una sfida, tra l’altro, in crescita dal momento che da una parte aumenta sempre più velocemente la sofisticatezza dei modelli di AI; dall’altra è sempre più complesso disporre di set di dati reali consistenti a causa dei nuovi problemi legati alla privacy, delle restrizioni legali e dei costi elevati per l’acquisizione e la catalogazione dei dati.

Cosa fare quindi quando questi requisiti non sono presenti? Come garantire che i dati per addestrare i modelli di intelligenza artificiale siano accurati, completi e aggiornati? In aiuto arrivano i dati sintetici ovvero dati fittizi in quanto generati artificialmente, in modo algoritmico per esempio dall’AI generativa, con l’obiettivo però di risultare il più possibile realistici ed essere dunque utilizzati come sostituti di dataset reali e, non da ultimo, personalizzati secondo specifiche esigenze.

La sete crescente di dati di qualità delle soluzioni AI e machine learning sta non solo alimentando lo sviluppo delle soluzioni per la generazione di dati sintetici, ma soprattutto sta cambiando la valutazione di “qualità inferiore” a cui fino a poco tempo fa erano associati. Al contrario i sintetici possono essere un’efficace integrazione o alternativa ai dati reali insufficienti o troppo costosi, per realizzare modelli di intelligenza artificiale accurati, soprattutto se combinati con quelli disponibili.

Tra le tecniche principali per generare dati sintetici vanno citate:

Simulazioni computazionali basate su modelli matematici e fisici per generare dati;
Data Augmentation, tecnica molto usata nei sistemi NLP per modificare leggermente i dati reali;
Modelli generativi come GANs (Generative Adversarial Networkse) e VAEs (Variational Autoencoders);
Large Language Model, utilizzati per generare testi sintetici realistici, dataset di dialoghi, codice, domande-risposte, ecc;
Synthetic Tabular Data Generator, consiste in strumenti specifici per dati strutturati;
Rule-based Generator, generatori che creano dati secondo regole o logiche definite.

Queste tecniche di elaborazione di dati sintetici assicurano ottimi risultati ma non va sottovalutato che la qualità dei dati sintetici dipende spesso dalla qualità del modello che li ha creati e del set di dati sviluppato. Un passaggio fondamentale nella generazione di dati sintetici è pertanto il data profiling, ovvero l’analisi sistematica dei dati originali per comprenderne struttura, distribuzioni, relazioni e anomalie.

La profilazione del dato

Questa fase è essenziale per assicurare che i dati sintetici riflettano fedelmente le caratteristiche statistiche e semantiche dei dati reali. Attraverso il data profiling è possibile individuare le variabili chiave, i range di valori, la frequenza delle categorie e la presenza di dati mancanti o incoerenti. Solo conoscendo a fondo il dataset reale si possono generare dati sintetici realistici, utili e privi di distorsioni, garantendo qualità, coerenza e aderenza agli obiettivi specifici del modello di intelligenza artificiale.

In uno scenario sempre più competitivo e instabile, la qualità e la disponibilità dei dati diventano elementi imprescindibili per generare efficienza e sostenere innovazione e sviluppo. I dati non sono solo il carburante dell’AI, ma anche il fondamento per disporre di insight affidabili e potenti e implementare azioni tempestive. Per questo Axiante affianca le aziende nel percorso di adozione dell’AI, aiutandole a strutturare, integrare e valorizzare i propri dati e supportandole nello sviluppo e nella messa a terra di progetti di intelligenza artificiale, affinché diventino un reale vantaggio per il business.