Il futuro dell’intelligenza artificiale? Sono i dati sintetici

Pubblicato il 29 novembre 2022

A cura di Shalini Kurapati, Co-Founder e CEO di Clearbox AI e Piergiorgio Stano, Director, Head of Data & Analytics Italy presso BearingPoint

L’adozione dell’AI continua a essere in costante aumento: il 56% delle persone intervistate nella Global Survey 2021 di McKinsey sull’intelligenza artificiale riferisce che la propria azienda usa l’intelligenza artificiale in almeno una funzione, rispetto al 50% del 2020. Tuttavia, numerose analisi di mercato concordano che ancora nel 2022 la maggior parte delle iniziative di intelligenza artificiale (nell’ordine del 60%-80%) non entra in produzione per problemi legati ai dati: in particolare, perché non si ha accesso alle informazioni decisive. Infatti, per alimentare ed addestrare un sistema di AI servono tantissimi dati, di buona qualità e non viziati da pregiudizi.

È chiaro anche solo da queste poche informazioni che, in un mondo in cui l’intelligenza artificiale diventa sempre più pervasiva, trovare dati di qualità diventa una priorità. È un problema, quello dei dati, che porta con sé già la sua soluzione: se i dati veri sono difficili da reperire, scarsi, viziati da errori, non utilizzabili per motivi di privacy, parziali o alterati dai bias di chi li ha sviluppati… allora possiamo usare la stessa intelligenza artificiale per simularli.

È qui che entrano in gioco i dati sintetici: trattasi di informazioni artificiali che riproducono in maniera fedele sotto il profilo matematico e statistico i dataset del mondo reale. Utili in caso di carenza, costi eccessivi, tempi stretti, limiti normativi o cattiva qualità di quelli disponibili. È solo da alcuni anni che se ne parla, ma ancora in pochi sanno come e in che occasioni vengano utilizzati.

Oggi i data scientist perdono l’80% del loro tempo a selezionare, ordinare e pulire i dati (Osservatorio Big Data del Politecnico di Milano). Con quelli sintetici potrebbero invertire la rotta e dedicare la maggior parte del loro tempo all’analisi vera e propria, che sta alla base della creazione degli algoritmi.

Oltre a semplificare il lavoro dei data scientist, i dati sintetici portano una lunga serie di vantaggi.

Un primo beneficio è quello di evitare di incorrere in problematiche legate alla lesione della privacy delle persone. Come? Pensiamo a un ospedale o a una clinica privata che deve fornire a una società informatica dati medici per addestrare un sistema di diagnosi del cancro basato sull’intelligenza artificiale. Con i dati sintetici, gli sviluppatori dispongono di set di informazioni di qualità da utilizzare durante la progettazione e la compilazione del sistema, senza che vengano scambiate le informazioni sensibili delle persone reali: così la rete ospedaliera non corre il rischio di mettere in pericolo la privacy dei pazienti.

Un secondo vantaggio è quello di poter accelerare e rafforzare lo sviluppo dei modelli di intelligenza artificiale: la raccolta dei dati dal mondo reale può richiedere molto tempo perché le informazioni devono essere abbondanti, devono anche essere selezionate, classificate, elaborate e sottoposte a controlli di conformità. Con i dati sintetici, l’intero processo si accorcia perché si possono creare sin da subito dei dati puliti, ordinati e conformi. È quello che stiamo facendo con la collaborazione tra BearingPoint e Clearbox AI al fine di creare un sistema di intelligenza artificiale più efficiente ed affidabile di quelli esistenti per identificare le frodi finanziarie.

I dati sintetici permettono inoltre di simulare scenari futuri: uno dei problemi dei dati reali è che sono storici, permettono di valutare solo eventi già accaduti e possono quindi diventare obsoleti. Per esempio, il Covid ha impattato in maniera rilevante le abitudini delle persone: pensiamo agli spostamenti in auto per andare a lavoro, con il relativo formarsi di code in città o ai caselli. L’utilizzo estensivo del remote working ha cambiato pesantemente i flussi di veicoli sulle strade, così tutti i dati storici relativi agli spostamenti delle persone hanno perso una parte significativa del loro valore predittivo.

I dati sintetici possono essere utili anche per testare se le intelligenze artificiali hanno dei pregiudizi (o bias): se può sembrare strano che una “macchina” possa avere un pregiudizio, bisogna ricordare che i sistemi di AI imparano immagazzinando grandi quantità di informazioni. Ma i dati storici possono essere viziati da pregiudizi sociali del tempo a cui si riferiscono. Testare le intelligenze artificiali con i dati sintetici può invece aiutare ad identificare e neutralizzare tali pregiudizi nascosti e potenzialmente fuorvianti.

Questa tecnologia può essere applicata a tutti quei campi che necessitano di molti dati per migliorare i propri processi, dal mondo finanziario a quello delle assicurazioni, dall’energia alle telecomunicazioni, dalla mobilità urbana al retail.

Sono già parecchie le grandi aziende che utilizzano i dati sintetici. John Deere, per esempio, impiega foto sintetiche per addestrare le proprie AI a riconoscere le piante infestanti in condizioni atmosferiche non ottimali. Amazon ricorre ai dati sintetici per il training di sistema di riconoscimento del linguaggio di Alexa. American Express, invece, impiega tali dati ai fini del riconoscimento delle transazioni fraudolente. Molte società del settore automotive stanno iniziando a utilizzarli per addestrare i sistemi di guida autonoma. È infine notizia recente un progetto che ha vinto un finanziamento della Commissione Europea nell’ambito del programma Horizon Europe e punta a sviluppare nuovi sistemi di analisi dati nell’ambito delle malattie ematologiche. Per farlo Synthema, questo il nome del progetto, usa tecniche innovative basate sull’intelligenza artificiale per rendere anonime le informazioni cliniche e biologiche dei pazienti e generare dati sintetici, nel rispetto delle norme sulla privacy, per superare la scarsità e la frammentazione delle informazioni disponibili oggi per la ricerca, in modo conforme al GDPR (General Data Protection Regulation). I dati sintetici arrivano fino nel Metaverso che richiede simulazioni virtuali in 3D di ambienti di gioco, sociali e aziendali. I dati sintetici possono colmare alcune lacune per creare impostazioni e oggetti realistici.

Un’analisi di Gartner prevede che il mercato dei dati sintetici crescerà fino a che, nel 2024, il 60% dei dati utilizzati in progetti AI sarà generato sinteticamente. Attualmente, i dati sintetici rappresentano solo l’1% di tutti i dati digitali. Questo aumento amplierà i casi d’uso per le applicazioni di intelligenza artificiale e, a sua volta, aumenterà i posti di lavoro nel settore dell’intelligenza artificiale. Entro il 2027 si prevede che il segmento di mercato dei dati sintetici crescerà fino a un valore complessivo di 1,15 miliardi di dollari.

Non è un caso che sempre Gartner abbia incluso i dati sintetici tra le tecnologie più promettenti per il futuro. Ed è singolare che oggi se ne senta parlare ancora così poco. Ma chi li conosce lo sa: i dati sintetici saranno una delle monete del domani.

AI generativa per le presse Mecolpress per lo stampaggio a caldo
Mecolpress, punto di riferimento nel settore della produzione di presse per lo stampaggio a caldo di leghe metalliche, ha scelto Userbot.AI, l’agente di intelligenza artificiale generativa made in Italy, per agevolare il Service nelle attività di manutenzione...
Le previsioni di Unit 42: Il 2025 sarà l’anno della disruption
Sam Rubin di Unit 42 di Palo Alto Networks analizza e condivide le tendenze di cybersecurity del 2025: “Anno delle interruzioni delle attività”, è questo il termine che contraddistinguerà il 2025, che si presenta come un periodo...
SAS Hackathon 2024, un’italiana tra i vincitori
SAS ha annunciato la conclusione del SAS Hackathon 2024, l’evento globale dove data scientist, developer, data analyst, data lovers, tech expert, professionisti e professioniste di ogni settore si sfidano per creare soluzioni innovative a problemi umanitari e...
Soluzioni innovative per la supply chain con le soluzioni AI di Panasonic Connect
La nuova divisione europea di ricerca e sviluppo di Panasonic Connect collabora con clienti e partner per creare soluzioni innovative per la supply chain. Lavorando a stretto contatto con la controllata di Panasonic, Blue Yonder, la divisione...
L’importanza della AI in Transizione 5.0 per il manifatturiero con ally Consulting
Il Piano Transizione 5.0 rappresenta una svolta cruciale per il sistema industriale italiano. A sostenerlo è Paolo Aversa, managing director di ally Consulting. Ancora in fase di definizione, questo piano potrebbe sostituire il precedente 4.0, con l’intento...
Infrastruttura cloud e AI generativa con SAP per Prysmian
In soli quattro mesi, Prysmian, azienda di punta a livello mondiale nella produzione, fornitura e progettazione di sistemi in cavo e accessori per le telecomunicazioni e l’energia, ha aggiornato e migrato l’intera infrastruttura IT del Gruppo sul...
Scopri tutto il potenziale di pylon vTools di Basler
In campo della visione artificiale, pylon vTools di Basler offre funzioni avanzate di elaborazione e analisi delle immagini, basate su algoritmi classici e di intelligenza artificiale. Grazie a un’interfaccia intuitiva, è possibile creare pipeline robuste per applicazioni...
Mitsubishi Electric presenta l’integrazione delle piattaforme Iconics ed EcoAdviser
Mitsubishi Electric ha presentato l’integrazione delle piattaforme Iconics ed EcoAdviser, soluzioni all’avanguardia progettate per rivoluzionare la gestione dell’energia grazie alle potenzialità dell’intelligenza artificiale. Questa combinazione ha lo scopo di aumentare l’efficienza operativa, promuovere la sostenibilità e permettere...
Accordo Altair – Agenzia Spaziale Europea per mettere il software a disposizione dei partner ESA
Altair ha siglato un accordo di collaborazione con l’Agenzia Spaziale Europea (ESA), attraverso la ESA Partnership Initiative for Commercialisation (EPIC). Con una lettera di intenti, Altair mette la tecnologia aerospaziale di Altair HyperWorks e Altair RapidMiner a...
CNH migliora la gestione delle risorse umane con SAP
CNH è un’azienda che opera a livello globale nel settore delle macchine e dei servizi per far progredire in modo sostenibile il prezioso lavoro dei professionisti dell’agricoltura e dell’edilizia. Per aumentare agilità e produttività, l’azienda ha intrapreso...

Scopri le novità scelte per te x

AI generativa per le presse Mecolpress per lo stampaggio a caldo
Mecolpress, punto di riferimento nel settore della produzione di presse per lo stampaggio a caldo di leghe...
Le previsioni di Unit 42: Il 2025 sarà l’anno della disruption
Sam Rubin di Unit 42 di Palo Alto Networks analizza e condivide le tendenze di cybersecurity del...

Notizie Tutti ▶

Clusit, Anna Vaccarelli eletta presidente
È Anna Vaccarelli la nuova presidente di Clusit, Associazione Italiana per la Sicurezza Informatica. I...
Inclusione e parità: il percorso di RS Italia verso un futuro più equo
Per RS Italia, il 2024 è stato un anno molto importante per rafforzare la...
AI generativa per le presse Mecolpress per lo stampaggio a caldo
Mecolpress, punto di riferimento nel settore della produzione di presse per lo stampaggio a...