Dall’hype alla realtà: perché l’AI ha bisogno di dati (reali e sintetici)

Pubblicato il 9 maggio 2025

Nel mondo tecnologico e aziendale una parola d’ordine viene spesso soppiantata da un’altra, anche troppo frettolosamente. E questo, vale anche per il passaggio dai Big Data all’AI.

L’entusiasmo che sta accompagnando la diffusione di quest’ultima e la risonanza che sta raccogliendo in tutti gli ambiti, rischia di mettere in secondo piano il fondamento cardine di questa innovazione: la gestione profonda dei dati. ‘Conditio sine qua non’ di qualsiasi progetto aziendale efficace che coinvolga l’intelligenza artificiale.

Dai Big Data alla AI

Il legame tra Big Data e AI è infatti imprescindibile dal momento che il primo fornisce il volume di dati che il secondo elabora e interpreta, consentendo così alle aziende di prendere decisioni più mirate e aggiornate, anche in maniera automatica e in tempo reale, come di personalizzare le esperienze dei clienti o le raccomandazioni sul sito oppure di ottimizzare alcune operazioni.

In altre parole, i Big Data forniscono il carburante all’intelligenza artificiale, consentendo alle organizzazioni di analizzare modelli, riconoscere tendenze e prendere decisioni basate sui dati. L’enorme volume di informazioni oggi disponibili, dalle interazioni sui social media ai dati dei sensori dei macchinari, dalle ricerche di mercato ai dati di acquisto delle carte fedeltà, consente ai sistemi di intelligenza artificiale di migliorare continuamente precisione e prestazioni. Inoltre, le soluzioni di apprendimento automatico o predittive necessitano di grandi set di dati per addestrare e perfezionare le loro capacità; ulteriore conferma che i Big Data sono indispensabili nello sviluppo e nell’implementazione delle tecnologie di intelligenza artificiale.

Nello stesso tempo l’AI permette di portare l’organizzazione, l’elaborazione e l’analisi dei dati a un livello inimmaginabile senza queste soluzioni avanzate, rendendo disponibili nuove opportunità sia per estrarre informazioni e guidare decisioni data-driven sia per alimentare altri sistemi di intelligenza artificiale.

Una questione di quantità e qualità

Se da un lato la sinergia tra Big Data e AI offre grandi opportunità alle aziende, dall’altro presenta anche importanti sfide. La gestione di enormi set di dati tramite l’AI pone alle imprese questioni in termini di cybersecurity, di rispetto della privacy e di compliance alle normative vigenti, oltre a richiede un’infrastruttura e software solidi di gestione dei dati.

Ma soprattutto, se si vuole dare vita a un progetto aziendale d’impiego dell’AI efficace, non bisogna dimenticare il requisito fondamentale di quantità, qualità e affidabilità dei dati, anche se spesso si è portati a credere erroneamente che queste caratteristiche siano “magicamente” garantite dal solo impiego delle tecnologie di intelligenza artificiale.

Al contrario, è bene riaffermarlo, la qualità e la quantità dei dati fornite all’AI sono fondamentali per il valore del output, si può solo eventualmente discutere su quale dei due attributi sia maggiormente rilevante. Un’indagine di Gartner per VentureBeat ha stimato che ben l’85% di tutti i modelli/progetti di intelligenza artificiale implementati nel 2022 non avrebbe avuto successo e una percentuale ancora maggiore non avrebbe generato un ROI positivo a causa della bassa qualità dei dati o della scarsità o assenza di dati rilevanti.

Sintetizzare i dati

Disporre di dati di qualità e nelle giuste quantità è pertanto un requisito fondamentale per sviluppare soluzioni e strumenti di intelligenza artificiale accurati e quindi efficaci. Una sfida, tra l’altro, in crescita dal momento che da una parte aumenta sempre più velocemente la sofisticatezza dei modelli di AI; dall’altra è sempre più complesso disporre di set di dati reali consistenti a causa dei nuovi problemi legati alla privacy, delle restrizioni legali e dei costi elevati per l’acquisizione e la catalogazione dei dati.

Cosa fare quindi quando questi requisiti non sono presenti? Come garantire che i dati per addestrare i modelli di intelligenza artificiale siano accurati, completi e aggiornati? In aiuto arrivano i dati sintetici ovvero dati fittizi in quanto generati artificialmente, in modo algoritmico per esempio dall’AI generativa, con l’obiettivo però di risultare il più possibile realistici ed essere dunque utilizzati come sostituti di dataset reali e, non da ultimo, personalizzati secondo specifiche esigenze.

La sete crescente di dati di qualità delle soluzioni AI e machine learning sta non solo alimentando lo sviluppo delle soluzioni per la generazione di dati sintetici, ma soprattutto sta cambiando la valutazione di “qualità inferiore” a cui fino a poco tempo fa erano associati. Al contrario i sintetici possono essere un’efficace integrazione o alternativa ai dati reali insufficienti o troppo costosi, per realizzare modelli di intelligenza artificiale accurati, soprattutto se combinati con quelli disponibili.

Tra le tecniche principali per generare dati sintetici vanno citate:

Simulazioni computazionali basate su modelli matematici e fisici per generare dati;
Data Augmentation, tecnica molto usata nei sistemi NLP per modificare leggermente i dati reali;
Modelli generativi come GANs (Generative Adversarial Networkse) e VAEs (Variational Autoencoders);
Large Language Model, utilizzati per generare testi sintetici realistici, dataset di dialoghi, codice, domande-risposte, ecc;
Synthetic Tabular Data Generator, consiste in strumenti specifici per dati strutturati;
Rule-based Generator, generatori che creano dati secondo regole o logiche definite.

Queste tecniche di elaborazione di dati sintetici assicurano ottimi risultati ma non va sottovalutato che la qualità dei dati sintetici dipende spesso dalla qualità del modello che li ha creati e del set di dati sviluppato. Un passaggio fondamentale nella generazione di dati sintetici è pertanto il data profiling, ovvero l’analisi sistematica dei dati originali per comprenderne struttura, distribuzioni, relazioni e anomalie.

La profilazione del dato

Questa fase è essenziale per assicurare che i dati sintetici riflettano fedelmente le caratteristiche statistiche e semantiche dei dati reali. Attraverso il data profiling è possibile individuare le variabili chiave, i range di valori, la frequenza delle categorie e la presenza di dati mancanti o incoerenti. Solo conoscendo a fondo il dataset reale si possono generare dati sintetici realistici, utili e privi di distorsioni, garantendo qualità, coerenza e aderenza agli obiettivi specifici del modello di intelligenza artificiale.

In uno scenario sempre più competitivo e instabile, la qualità e la disponibilità dei dati diventano elementi imprescindibili per generare efficienza e sostenere innovazione e sviluppo. I dati non sono solo il carburante dell’AI, ma anche il fondamento per disporre di insight affidabili e potenti e implementare azioni tempestive. Per questo Axiante affianca le aziende nel percorso di adozione dell’AI, aiutandole a strutturare, integrare e valorizzare i propri dati e supportandole nello sviluppo e nella messa a terra di progetti di intelligenza artificiale, affinché diventino un reale vantaggio per il business.

di Mirko Gubian, Global Demand Senior Manager & Partner di Axiante - www.axiante.com

Innodisk presenta a Computex 2026 con un ecosistema integrato per l’intelligenza artificiale edge a 5 livelli
Innodisk presenterà il suo ecosistema completo per l’AI edge alla fiera Computex 2026, dimostrando come le aziende e i clienti industriali possano accelerare l’adozione dell’AI con applicazioni pronte ad entrare in produzione. Costruito su cinque livelli essenziali –...
Advantech presenta le sue nuove soluzioni basate su Qualcomm Dragonwing IQ-9 per l’intelligenza visiva di livello industriale
Advantech è orgogliosa di presentare le ultime soluzioni di edge AI basate sul processore Qualcomm Dragonwing IQ-9075, tra cui il modulo SMARC AOM-6741, i controller robotici ASR-A503 e AFE-A503 e il sistema edge AI AIR-055. Progettate per...
Reply inaugura Reply House: nel cuore di Torino nasce un campus aperto alla ricerca e all’innovazione
Reply inaugura Reply House, il nuovo headquarter del Gruppo a Torino. Un campus dove laboratori per l’AI applicata, uffici, ambienti immersivi, spazi di condivisione e aree verdi compongono un sistema flessibile, capace di connettere competenze diverse e trasformare...
Logistica, è carenza di capitale umano: mancano 60.000 figure professionali
Il settore italiano della logistica conto terzi, con un fatturato di 111 miliardi di euro, sale al 43,3% del mercato rispetto al 36,4% del 2009, trainato da piattaforme digitali e sistemi avanzati per ottimizzare la produttività, nonostante...
Ignition e AI insieme per una gestione più intelligente delle risorse idriche
Ignition, la piattaforma software di Inductive Automation, distribuita in Italia da EFA Automazione/Relatech, conferma ancora una volta la propria capacità di evolvere insieme alle esigenze degli utenti e di integrarsi con le tecnologie più innovative. Lo dimostra...
Equilibrare l’utilizzo dell’intelligenza artificiale e della simulazione nella progettazione del prodotto
La progettazione di qualsiasi prodotto, nel mondo odierno, è un processo complesso e articolato in più fasi, basato in larga misura sull’utilizzo della tecnologia di simulazione. Le simulazioni ad elevata fedeltà permettono ad ingegneri e progettisti di...
Un futuro con la Physical AI: Ferrari e Pirelli protagonisti ai Tech Talks 2026 di Siemens
Si è recentemente svolta la terza edizione dei Tech Talks, l’appuntamento annuale di Siemens che riunisce imprese e partner per confrontarsi sulle principali sfide e opportunità della trasformazione digitale e sostenibile. Con il titolo “Where Real meets Digital”, l’edizione 2026 ha...
Eplan Copilot: l’AI diventa un partner affidabile per la progettazione
Eplan Copilot, presentato in anteprima durante Eplan Next26, affianca gli utenti nel lavoro quotidiano come un partner affidabile. Costituisce una fonte di informazioni sicura e sempre disponibile. Combina competenze di progettazione, funzionalità della piattaforma e compiti specifici...
Robotica e AI: caccia agli unicorni
Nel 2026 l’intelligenza artificiale non è più soltanto una questione di software e modelli digitali: il vero salto in avanti riguarda la capacità di tradurre l’AI in azione concreta nel mondo reale… Leggi l’articolo
Chi risponde degli errori dell’intelligenza artificiale?
L’espansione dell’AI generativa pone sfide di responsabilità algoritmica. L’AI compliance manager emerge come figura chiave per garantire conformità normativa, gestire rischi sistemici e trasformare la compliance da obbligo a leva strategica per la crescita delle imprese Leggi...