I dati sintetici sono oggi tra le principali risorse a disposizione delle aziende per migliorare i processi legati all’intelligenza artificiale e alla gestione del dato. Secondo un’analisi di Gartner, nel 2024 il 60% dei dati utilizzati in progetti AI sarà generato sinteticamente. Inoltre, l’European Data Protection Supervisor ha dedicato una task force proprio al tema dei dati sintetici e, infine, la rivista americana MIT Technology Review ha incluso questa tecnologia tra le 10 Top Technologies del 2022.
È in questo contesto che si inserisce la partnership tra Clearbox AI, start-up italiana nata all’Incubatore del Politecnico di Torino che ha ricevuto diversi riconoscimenti a livello nazionale ed europeo e che si occupa proprio di dati sintetici, e BearingPoint, società multinazionale indipendente di consulenza gestionale e tecnologica. Dalla sinergia tra le due società è nato un primo prodotto rivolto a banche e istituzioni finanziarie, con il fine di fornire loro modelli di fraud detection più robusti e performanti – ovvero i sistemi di intelligenza artificiale (AI) utilizzati per identificare le frodi finanziarie – attraverso l’utilizzo di dati sintetici.
I modelli di fraud detection si basano sulla raccolta e analisi delle informazioni riguardanti le frodi: l’AI impara a riconoscere potenziali attività fraudolente a partire dallo “studio” delle caratteristiche dei casi registrati in passato. Tuttavia, gli esempi di frode da cui i modelli dovrebbero imparare sono (fortunatamente) rari e sono caratterizzati da una grande variabilità nel tempo. Questo porta a una minore affidabilità della componente predittiva nell’identificazione delle truffe. Un problema che può essere arginato grazie ai dati sintetici: si tratta di dati informatici che vengono generati artificialmente a immagine di quelli “reali”, e che quindi permettono all’intelligenza artificiale di essere addestrata a partire da una raccolta di informazioni più completa e robusta.
La partnership tra BearingPoint e Clearbox AI prevede inoltre l’estensione dell’applicazione dei dati sintetici sia ad altri casi d’uso in ambito finanziario, sia ad ulteriori settori: questa tecnologia può infatti essere applicata a tutti quei campi che necessitano di molti dati per migliorare i propri processi, dalle assicurazioni, all’energia, alle telecomunicazioni, alla mobilità urbana, al retail, alla sanità.
Per perfezionare le proprie strategie, tutte le aziende hanno bisogno di informazioni, per la maggior parte derivate da dati informatici. Tuttavia, raccogliere e analizzare questi dati non è sempre semplice: le sfide maggiori per le imprese in qualsiasi settore sono legate alla condivisione (in particolare in relazione alla privacy e al GDPR), la qualità e la quantità dei dati. I dati sintetici possono risolvere questi problemi proprio perché sono generati artificialmente da algoritmi di intelligenza artificiale sulla base dei dati originali, dei quali mantengono le proprietà statistiche e il potere predittivo, risultando quindi realistici. Essendo simili ma non uguali ai dati reali, non contengono informazioni personali e possono essere condivisi rispettando i regolamenti di privacy, come il GDPR.
“La sinergia con Clearbox ci permette di rafforzare ulteriormente la nostra offerta in ambito fraud detection, grazie all’utilizzo di una tecnologia particolarmente innovativa – afferma Piergiorgio Stano, Head of Data & Analytics di BearingPoint. – Combinando i dati sintetici con i nostri modelli di machine learning possiamo infatti offrire alle imprese performance altissime che permetteranno loro di risolvere numerosi problemi legati alla raccolta e all’analisi dei dati.”
“Questa partnership rappresenta per Clearbox un’importante evoluzione perché ci permette di applicare la nostra tecnologia proprietaria per la generazione di dati sintetici a un ambito particolare come quello della fraud detection, grazie all’esperienza e alle competenze avanzate di BearingPoint – spiega Shalini Kurapati, CEO di Clearbox AI. – Crediamo fortemente nella potenzialità dei dati sintetici a supporto delle imprese, potenzialità che viene sempre più confermata dal mercato. Inoltre, è bene ricordare che i dati sintetici non risolvono solo problemi tecnologici e di privacy, ma anche etici: permettono di ottenere campioni di dati di maggiore qualità, mitigando quindi il rischio di discriminazione (bias) insito nei modelli di intelligenza artificiale.”