Parole e immagini, l’intelligenza artificiale si avvicina all’uomo

Pubblicato il 15 gennaio 2021

A cura di Matteo Muffo, AI Researcher di Indigo.ai

L’intelligenza artificiale continua a crescere e migliorarsi, ma la capacità delle macchine di ragionare e pensare in maniera autonoma è ancora lontana. Lo dimostrano gli enormi limiti di Gpt-3, l’ultimo algoritmo di OpenAi e Microsoft, che è un modello senza precedenti capace di immagazzinare centinaia di miliardi di parole: può interpretare e scrivere in maniera chiara qualunque cosa, ma crolla alla prova dei fatti quando si esce dal campo della parola scritta. Per metterlo in difficoltà basta chiedergli di che colore siano le pecore: il sistema risponderà nere con la stesse frequenza con cui dirà bianche. Il motivo è semplice: ha imparato a dire “pecora nera”, perché questo colore ricorre sul web altrettante volte di “bianco” in relazione alla parola “pecora”. Ma non ha capito il senso dell’espressione. Un errore banale che dimostra da un lato che le potenzialità sono enormi e quanto rapidamente evolva la tecnologia, ma dall’altro anche quanto sia importante lo sforzo da fare in fase di addestramento per sviluppare la capacità dell’intelligenza artificiale di ragionare in modo razionale.

La soluzione al problema l’hanno suggerita i ricercatori dell’Università del North Carolina, progettando una nuova tecnica d’addestramento per dare a Gpt-3 – ovvero una AI che si basa esclusivamente sulle parole – anche la capacità di “vedere” le cose, rafforzando così le sue possibilità di imparare. La sfida è quindi quella di combinare due diversi set di dati (testo e immagini) in un sistema unico per poter addestrare un nuovo modello da zero.

Didascalie descrittive

L’approccio scelto è quello di compilare una raccolta di immagini con didascalie molto più descrittive di quelle cui siamo abituati. Per esempio, prendiamo la foto di un gatto in cucina che mangia: solitamente, con tutta probabilità, verrebbe intitolata solo “gatto”; invece, un set che combina parole e immagini la chiamerebbe “un gatto in cucina che mangia croccantini da una ciotola rossa”. In questo modo, grazie alla combinazione puntuale di linguaggio testuale e visivo, possiamo insegnare a un modello di intelligenza artificiale non solo come riconoscere gli oggetti, ma anche come si relazionano e agiscono l’uno sull’altro, attraverso l’uso di verbi e preposizioni.
Un processo quasi banale sulla carta e per l’intelligenza umana, ma che però nella realtà richiederebbe un’eternità (se fatto dalle persone): basti pensare che se la versione inglese di Wikipedia comprende quasi 3 miliardi di parole, un set di dati visivi come, per esempio, potrebbe essere quello di Microsoft Common Objects in Context – meglio conosciuto come MS Coco – ne contiene appena 7 milioni. Combinare le due classi di dati diventa chiaramente molto difficile e impegnativo in termini di tempo.
I ricercatori americani, però, sono riusciti ad aggirare il problema con un metodo di apprendimento supervisionato capace di adattare i dati in MS Coco alle dimensioni di Wikipedia. Con il risultato di aver creato un modello di linguaggio che supera quelli più all’avanguardia in alcuni dei test più difficili utilizzati per valutare la comprensione del linguaggio AI. Dimostrando che se il modello oltre a imparare la parola gatto, la vede anche, sarà in grado di ragionare in maniera sempre più razionale ed efficace.

Bert contro Gpt-3

I ricercatori hanno quindi utilizzato l’accoppiamento tra parole e immagini che hanno creato con MS Coco per addestrare il loro algoritmo e hanno riqualificato un modello di linguaggio open source sviluppato da Google, noto come Bert, che precede Gpt-3. Terminato il processo di aggiornamento, hanno sfidato il “nuovo Bert” su sei diversi test di comprensione linguistica, tra cui SQuAD, Stanford Question Answering Dataset, che chiede ai modelli di rispondere a domande di comprensione della lettura su una serie di articoli, e Swag, che costringe gli algoritmi a dimostrare di aver compreso il significato delle parole e di non averle “semplicemente” imparate a memoria.

Un approccio così innovativo apre scenari tutti da esplorare. Certo, il vecchio Bert non potrà mai battere Gpt-3, ma la consapevolezza di poter addestrare un sistema così potente con parole e immagini ci fa capire quanto la tecnologia corra veloce e come le innovazioni siano conquiste quotidiane. Facendo un altro passo verso l’artificial general intelligence.



Contenuti correlati

  • Progetto M.A.R.E.: AI e data analysis al servizio del mare

    Gruppo Sigla, società di Relatech, è partner nel progetto M.A.R.E. (machine learning applicata alla ricerca sugli ecosistemi marini tramite AUV), che ha l’obiettivo di sviluppare, integrare, convalidare, testare e dimostrare un nuovo sistema integrato per l’osservazione avanzata dell’ambiente...

  • Protolabs collabora con la Nasa: consegna del pezzo in 36 ore

    Alcuni ingegneri della Nasa, in collaborazione con Protolabs, noto protagonista del settore della fabbricazione digitale, hanno recentemente mostrato la potenza del loro strumento di progettazione basato sull’intelligenza artificiale al PowerSource Global Summit, una conferenza annuale che riunisce...

  • Proofpoint AI generativa
    AI generativa, il 45% dei CISO italiani teme per la sicurezza

    Negli ultimi mesi l’AI generativa si è imposta tra i temi di riferimento a livello aziendale, per i benefici che promette di portare a coloro che la adotteranno in modo adeguato, come sottolinea Emiliano Massa, Area Vice...

  • AI e Big Data in supporto alla data strategy delle aziende vitivinicole

    In ogni fase della produzione del vino, le aziende vitivinicole generano una vasta quantità di dati, che vanno dalla produzione e gestione della cantina fino alla distribuzione e vendita dei prodotti. Tuttavia, spesso il potenziale di questi...

  • Accelerare il 5G con la cybersicurezza alimentata dall’AI

    Non è un segreto che stiamo vivendo un momento storico di grande evoluzione, caratterizzato dalla convergenza dei paradigmi di intelligenza artificiale (AI), machine learning (ML) e cloud-native, uniti all’emergere del 5G. Questa era di trasformazione presenta un’opportunità...

  • Vrai Lab Si Riparte
    Agritech e digitalizzazione, l’IA di Vrai Lab per gli agricoltori non nativi digitali

    Favorire la digitalizzazione per migliorare la sostenibilità economica e ambientale dei prodotti agricoli e assicurare le esigenze del consumatore in termini di sicurezza, tracciabilità e affidabilità. È questo l’obiettivo della partnership tra Vrai – Vision Robotics and...

  • Altair soluzioni AI HPC simulazione aerospace Farnborough Airshow
    AI in simulazione e HPC con Altair al Farnborough Airshow 2024

    Altair porta in mostra le ultime innovazioni nel campo della simulazione ingegneristica, dell’intelligenza artificiale (AI) e del calcolo ad alte prestazioni (HPC) al Farnborough International Airshow 2024, in programma dal 22 al 26 luglio presso il Farnborough...

  • Un podcast innovazione e AI nell’industria manifatturiera

    A fine 2023 Google ha presentato GNoMe, un’intelligenza artificiale specializzata nello scoprire nuovi materiali: ne ha trovati 2.2 milioni, di cui 380.000 considerati stabili, un bel passo in avanti se si considera che fino a quella data...

  • Automazione continua dai dati al modello di AI

    Beckhoff ha sviluppato uno strumento software che permette la creazione automatizzata di modelli di intelligenza artificiale, integrandoli nel flusso di lavoro della sua piattaforma d’automazione. Così si semplifica lo sviluppo e l’allenamento di modelli AI per specifici...

  • Le innovazioni dei controllori industriali

    I controllori industriali continuano a occupare una posizione strategica nell’era della trasformazione digitale. In particolare, le tecnologie basate su IoT, Edge computing, AI, robotica e virtualizzazione ne stanno elevando le potenzialità a un nuovo livello. Leggi l’articolo

Scopri le novità scelte per te x