Parole e immagini, l’intelligenza artificiale si avvicina all’uomo

Pubblicato il 15 gennaio 2021

A cura di Matteo Muffo, AI Researcher di Indigo.ai

L’intelligenza artificiale continua a crescere e migliorarsi, ma la capacità delle macchine di ragionare e pensare in maniera autonoma è ancora lontana. Lo dimostrano gli enormi limiti di Gpt-3, l’ultimo algoritmo di OpenAi e Microsoft, che è un modello senza precedenti capace di immagazzinare centinaia di miliardi di parole: può interpretare e scrivere in maniera chiara qualunque cosa, ma crolla alla prova dei fatti quando si esce dal campo della parola scritta. Per metterlo in difficoltà basta chiedergli di che colore siano le pecore: il sistema risponderà nere con la stesse frequenza con cui dirà bianche. Il motivo è semplice: ha imparato a dire “pecora nera”, perché questo colore ricorre sul web altrettante volte di “bianco” in relazione alla parola “pecora”. Ma non ha capito il senso dell’espressione. Un errore banale che dimostra da un lato che le potenzialità sono enormi e quanto rapidamente evolva la tecnologia, ma dall’altro anche quanto sia importante lo sforzo da fare in fase di addestramento per sviluppare la capacità dell’intelligenza artificiale di ragionare in modo razionale.

La soluzione al problema l’hanno suggerita i ricercatori dell’Università del North Carolina, progettando una nuova tecnica d’addestramento per dare a Gpt-3 – ovvero una AI che si basa esclusivamente sulle parole – anche la capacità di “vedere” le cose, rafforzando così le sue possibilità di imparare. La sfida è quindi quella di combinare due diversi set di dati (testo e immagini) in un sistema unico per poter addestrare un nuovo modello da zero.

Didascalie descrittive

L’approccio scelto è quello di compilare una raccolta di immagini con didascalie molto più descrittive di quelle cui siamo abituati. Per esempio, prendiamo la foto di un gatto in cucina che mangia: solitamente, con tutta probabilità, verrebbe intitolata solo “gatto”; invece, un set che combina parole e immagini la chiamerebbe “un gatto in cucina che mangia croccantini da una ciotola rossa”. In questo modo, grazie alla combinazione puntuale di linguaggio testuale e visivo, possiamo insegnare a un modello di intelligenza artificiale non solo come riconoscere gli oggetti, ma anche come si relazionano e agiscono l’uno sull’altro, attraverso l’uso di verbi e preposizioni.
Un processo quasi banale sulla carta e per l’intelligenza umana, ma che però nella realtà richiederebbe un’eternità (se fatto dalle persone): basti pensare che se la versione inglese di Wikipedia comprende quasi 3 miliardi di parole, un set di dati visivi come, per esempio, potrebbe essere quello di Microsoft Common Objects in Context – meglio conosciuto come MS Coco – ne contiene appena 7 milioni. Combinare le due classi di dati diventa chiaramente molto difficile e impegnativo in termini di tempo.
I ricercatori americani, però, sono riusciti ad aggirare il problema con un metodo di apprendimento supervisionato capace di adattare i dati in MS Coco alle dimensioni di Wikipedia. Con il risultato di aver creato un modello di linguaggio che supera quelli più all’avanguardia in alcuni dei test più difficili utilizzati per valutare la comprensione del linguaggio AI. Dimostrando che se il modello oltre a imparare la parola gatto, la vede anche, sarà in grado di ragionare in maniera sempre più razionale ed efficace.

Bert contro Gpt-3

I ricercatori hanno quindi utilizzato l’accoppiamento tra parole e immagini che hanno creato con MS Coco per addestrare il loro algoritmo e hanno riqualificato un modello di linguaggio open source sviluppato da Google, noto come Bert, che precede Gpt-3. Terminato il processo di aggiornamento, hanno sfidato il “nuovo Bert” su sei diversi test di comprensione linguistica, tra cui SQuAD, Stanford Question Answering Dataset, che chiede ai modelli di rispondere a domande di comprensione della lettura su una serie di articoli, e Swag, che costringe gli algoritmi a dimostrare di aver compreso il significato delle parole e di non averle “semplicemente” imparate a memoria.

Un approccio così innovativo apre scenari tutti da esplorare. Certo, il vecchio Bert non potrà mai battere Gpt-3, ma la consapevolezza di poter addestrare un sistema così potente con parole e immagini ci fa capire quanto la tecnologia corra veloce e come le innovazioni siano conquiste quotidiane. Facendo un altro passo verso l’artificial general intelligence.



Contenuti correlati

  • Centro Software A&T Automation testing Nordest ERP
    Centro Software alla A&T Automation & testing Nordest di Vicenza

    Centro Software, azienda di riferimento nel mercato italiano nello sviluppo di soluzioni ERP, partecipa alla Fiera A&T Automation&Testing Nordest di Vicenza, dal 6 all’8 novembre 2024 (Padiglione 6 | Stand C05-C07). La crescita di Centro Software nel...

  • Omron filigrane digitali tracciabilità automazione regolamento imballaggi
    Automazione e compliance alla normativa UE sugli imballaggi con Omron

    L’Europa si sta preparando per apportare cambiamenti radicali alla legislazione sugli imballaggi. Patricia Torres, esperta di sostenibilità di Omron Industrial Automation Europe, spiega in che modo l’automazione della tracciabilità digitalizzata può aiutare i produttori di beni di...

  • Minsait rapporto adozione AI aziende industriali
    Rapporto Minsait, AI in produzione già nel 67% delle aziende industriali

    L’intelligenza artificiale è diventata un potente strumento di trasformazione del settore industriale. In un contesto in cui l’obiettivo è quello di aumentare la produttività e la competitività, il 67% delle aziende industriali sta già utilizzando l’AI e...

  • Ottimizzare la logistica con i robot mobili

    Logistica e intralogistica si evolvono attraverso un processo di automatizzazione spinta dove robot mobili e cobot ricoprono un ruolo di rilievo. Questo percorso presenta però problematiche quindi i benefici dell’automazione sono tangibili solo se si analizzano fattori...

  • A&T Vicenza 2023
    A&T Nordest, dal 6 all’8 novembre a Vicenza idee innovative per il manifatturiero

    Oltre 3.000 soluzioni e tecnologie per il mondo industriale. Ma anche i Dimostratori di Intelligenza Artificiale, con uno smart helmet per applicazioni salvavita sui luoghi di lavoro, una piattaforma che si muove autonomamente tra i filari di...

  • Tecnologie medicali innovative e telemedicina

    Il processo di digitalizzazione spinge e incrementa l’innovazione tecnologica in campo biomedicale. Si fa strada un modello di “ospedale senza muri”, favorito dallo sviluppo di tecnologie abilitanti e dal diffondersi di strumenti e apparecchiature in grado di...

  • Evoluzione Digitale in Italia

    Un mercato in crescita, sospinto dalle aziende che iniziano a cogliere i benefici della digitalizzazione. Quattro ambiti possono generare grandi opportunità di sviluppo digitale per il nostro Paese: PNRR e Transizione 5.0; Twin Transition sostenibile; Intelligenza Artificiale;...

  • Omron ispezione a raggi X automatizzata produzione semiconduttori
    Ispezione a raggi X automatizzata Omron nella produzione di semiconduttori

    Omron annuncia il lancio del VT-X950, il più recente modello della linea di sistemi di ispezione a raggi X automatici di tipo CT. Il VT-X950 si unisce ai modelli VT-X750-XL e VT-X850, andando ad ampliare la gamma...

  • La soluzione next-gen di Seco per applicazioni IoT e AI di livello industriale

    Seco è orgogliosa di annunciare che i campioni del modulo SOM-Smarc-ASL, la soluzione di nuova generazione per applicazioni IoT e AI industriali, sono ora disponibili su richiesta per coloro che desiderano esplorarne le potenzialità prima della disponibilità...

  • Lo stabilimento Siemens di Erlangen nominato Digital Lighthouse Factory dal World Economic Forum

    Il World Economic Forum (WEF) ha annunciato che lo stabilimento Siemens di Erlangen, in Germania, diventerà una Digital Lighthouse Factory, entrando a far parte del Global Lighthouse Network. Questo riconoscimento premia le aziende tecnologiche all’avanguardia nell’applicazione delle...

Scopri le novità scelte per te x