Parole e immagini, l’intelligenza artificiale si avvicina all’uomo

Pubblicato il 15 gennaio 2021

A cura di Matteo Muffo, AI Researcher di Indigo.ai

L’intelligenza artificiale continua a crescere e migliorarsi, ma la capacità delle macchine di ragionare e pensare in maniera autonoma è ancora lontana. Lo dimostrano gli enormi limiti di Gpt-3, l’ultimo algoritmo di OpenAi e Microsoft, che è un modello senza precedenti capace di immagazzinare centinaia di miliardi di parole: può interpretare e scrivere in maniera chiara qualunque cosa, ma crolla alla prova dei fatti quando si esce dal campo della parola scritta. Per metterlo in difficoltà basta chiedergli di che colore siano le pecore: il sistema risponderà nere con la stesse frequenza con cui dirà bianche. Il motivo è semplice: ha imparato a dire “pecora nera”, perché questo colore ricorre sul web altrettante volte di “bianco” in relazione alla parola “pecora”. Ma non ha capito il senso dell’espressione. Un errore banale che dimostra da un lato che le potenzialità sono enormi e quanto rapidamente evolva la tecnologia, ma dall’altro anche quanto sia importante lo sforzo da fare in fase di addestramento per sviluppare la capacità dell’intelligenza artificiale di ragionare in modo razionale.

La soluzione al problema l’hanno suggerita i ricercatori dell’Università del North Carolina, progettando una nuova tecnica d’addestramento per dare a Gpt-3 – ovvero una AI che si basa esclusivamente sulle parole – anche la capacità di “vedere” le cose, rafforzando così le sue possibilità di imparare. La sfida è quindi quella di combinare due diversi set di dati (testo e immagini) in un sistema unico per poter addestrare un nuovo modello da zero.

Didascalie descrittive

L’approccio scelto è quello di compilare una raccolta di immagini con didascalie molto più descrittive di quelle cui siamo abituati. Per esempio, prendiamo la foto di un gatto in cucina che mangia: solitamente, con tutta probabilità, verrebbe intitolata solo “gatto”; invece, un set che combina parole e immagini la chiamerebbe “un gatto in cucina che mangia croccantini da una ciotola rossa”. In questo modo, grazie alla combinazione puntuale di linguaggio testuale e visivo, possiamo insegnare a un modello di intelligenza artificiale non solo come riconoscere gli oggetti, ma anche come si relazionano e agiscono l’uno sull’altro, attraverso l’uso di verbi e preposizioni.
Un processo quasi banale sulla carta e per l’intelligenza umana, ma che però nella realtà richiederebbe un’eternità (se fatto dalle persone): basti pensare che se la versione inglese di Wikipedia comprende quasi 3 miliardi di parole, un set di dati visivi come, per esempio, potrebbe essere quello di Microsoft Common Objects in Context – meglio conosciuto come MS Coco – ne contiene appena 7 milioni. Combinare le due classi di dati diventa chiaramente molto difficile e impegnativo in termini di tempo.
I ricercatori americani, però, sono riusciti ad aggirare il problema con un metodo di apprendimento supervisionato capace di adattare i dati in MS Coco alle dimensioni di Wikipedia. Con il risultato di aver creato un modello di linguaggio che supera quelli più all’avanguardia in alcuni dei test più difficili utilizzati per valutare la comprensione del linguaggio AI. Dimostrando che se il modello oltre a imparare la parola gatto, la vede anche, sarà in grado di ragionare in maniera sempre più razionale ed efficace.

Bert contro Gpt-3

I ricercatori hanno quindi utilizzato l’accoppiamento tra parole e immagini che hanno creato con MS Coco per addestrare il loro algoritmo e hanno riqualificato un modello di linguaggio open source sviluppato da Google, noto come Bert, che precede Gpt-3. Terminato il processo di aggiornamento, hanno sfidato il “nuovo Bert” su sei diversi test di comprensione linguistica, tra cui SQuAD, Stanford Question Answering Dataset, che chiede ai modelli di rispondere a domande di comprensione della lettura su una serie di articoli, e Swag, che costringe gli algoritmi a dimostrare di aver compreso il significato delle parole e di non averle “semplicemente” imparate a memoria.

Un approccio così innovativo apre scenari tutti da esplorare. Certo, il vecchio Bert non potrà mai battere Gpt-3, ma la consapevolezza di poter addestrare un sistema così potente con parole e immagini ci fa capire quanto la tecnologia corra veloce e come le innovazioni siano conquiste quotidiane. Facendo un altro passo verso l’artificial general intelligence.



Contenuti correlati

  • Rivulis trasforma l’agricoltura con l’AI

    Un’azienda che propone soluzioni innovative per la microirrigazione lancia la propria soluzione in grado di offrire ad agricoltori e professionisti del settore consigli personalizzati per migliorare la produttività, l’efficienza e la sostenibilità delle colture Rivulis, azienda che...

  • B&R AI generativa collaborazione in cloud progettazione Automation Studio Code
    Ingegneria in cloud e assistenti AI nella suite di progettazione B&R

    Alla fiera SPS di quest’anno a Norimberga, in Germania, B&R ha annunciato un importante aggiornamento della sua suite completa di software di progettazione e runtime. Con Automation Studio Code, B&R introduce un’esperienza di progettazione completamente nuova. La...

  • Remira Italia trend gestione supply chain Matteo Sgatti
    I quattro trend nel futuro della supply chain secondo Remira Italia

    Investire nella connettività digitale, spingere verso tracciabilità e trasparenza, trovare nuove strategie per rendere le supply chain più resilienti, garantire l’integrità e la coerenza dei dati: queste le quattro tendenze identificate da Remira Italia, azienda specializzata nell’offerta...

  • Rockwell Automation dà vita alle operazioni autonome utilizzando Nvidia Omniverse

    Rockwell Automation ha annunciato l’integrazione delle interfacce di programmazione delle applicazioni (API) di Nvidia Omniverse nel proprio software Digital Twin Emulate3D  per ottimizzare le operazioni di fabbrica tramite l’intelligenza artificiale e la tecnologia di simulazione fisica. I digital twin ottimizzano...

  • Controllo di visione? Ci pensa l’AI

    Il software Melsoft Vixio di Mitsubishi Electric, basato sull’intelligenza artificiale, è stato integrato da IDM Automation in un sistema che utilizza un robot collaborativo dotato di telecamera al polso per permettere di identificare difetti superficiali di polveri...

  • Vectra AI SOC
    Mancano 5 milioni di esperti di cybersecurity – e adesso?

    ISC2, la principale organizzazione non-profit al mondo per i professionisti della sicurezza informatica, ha stimato che quest’anno la carenza di professionisti della cybersecurity raggiungerà quota 4,8 milioni, segnando una crescita del 19% su base annua. Il gap...

  • PTC accordo Amazon Web Services cloud native CAD e PDM
    Accordo tra PTC e Amazon Web Services nel CAD e PDM cloud-native

    PTC ha annunciato un accordo di collaborazione strategica con Amazon Web Services (AWS) per accelerare la crescita di Onshape, la sua soluzione cloud-native CAD (Computer Aided Design) e PDM (Product Data Management). Gli obiettivi della partnership includono...

  • Intelligenza Artificiale, al via il bando ‘Io sono futuro’ rivolto alle start-up

    Valorizzare il talento dei giovani startupper italiani, mettendolo al servizio di progetti innovativi che sfruttino l’intelligenza artificiale come strumento chiave per affrontare le emergenze globali. Questo l’obiettivo del nuovo bando della Fondazione Della Frera, promosso nell’ambito dell’edizione...

  • Nell’ultimo numero di KEYnote, la rivista di Wibu-Systems: proteggere i modelli di AI e ML

    L’ultimo numero della rivista KEYnote, la pubblicazione semestrale presentata dagli specialisti di protezione e licensing di Wibu-Systems, è appena stata rilasciata ed è disponibile in vari formati digitali di facile lettura. L’edizione Autunno/Inverno copre una vasta gamma...

  • Analisi dei dati nell’industria: contesto nazionale

    Oggigiorno le organizzazioni che sono in grado di raccogliere le informazioni e utilizzarle in modo efficace possiedono un forte vantaggio competitivo sul mercato Il dato è l’elemento più prezioso al mondo, infatti è il risultato di un...

Scopri le novità scelte per te x