Parole e immagini, l’intelligenza artificiale si avvicina all’uomo

Pubblicato il 15 gennaio 2021

A cura di Matteo Muffo, AI Researcher di Indigo.ai

L’intelligenza artificiale continua a crescere e migliorarsi, ma la capacità delle macchine di ragionare e pensare in maniera autonoma è ancora lontana. Lo dimostrano gli enormi limiti di Gpt-3, l’ultimo algoritmo di OpenAi e Microsoft, che è un modello senza precedenti capace di immagazzinare centinaia di miliardi di parole: può interpretare e scrivere in maniera chiara qualunque cosa, ma crolla alla prova dei fatti quando si esce dal campo della parola scritta. Per metterlo in difficoltà basta chiedergli di che colore siano le pecore: il sistema risponderà nere con la stesse frequenza con cui dirà bianche. Il motivo è semplice: ha imparato a dire “pecora nera”, perché questo colore ricorre sul web altrettante volte di “bianco” in relazione alla parola “pecora”. Ma non ha capito il senso dell’espressione. Un errore banale che dimostra da un lato che le potenzialità sono enormi e quanto rapidamente evolva la tecnologia, ma dall’altro anche quanto sia importante lo sforzo da fare in fase di addestramento per sviluppare la capacità dell’intelligenza artificiale di ragionare in modo razionale.

La soluzione al problema l’hanno suggerita i ricercatori dell’Università del North Carolina, progettando una nuova tecnica d’addestramento per dare a Gpt-3 – ovvero una AI che si basa esclusivamente sulle parole – anche la capacità di “vedere” le cose, rafforzando così le sue possibilità di imparare. La sfida è quindi quella di combinare due diversi set di dati (testo e immagini) in un sistema unico per poter addestrare un nuovo modello da zero.

Didascalie descrittive

L’approccio scelto è quello di compilare una raccolta di immagini con didascalie molto più descrittive di quelle cui siamo abituati. Per esempio, prendiamo la foto di un gatto in cucina che mangia: solitamente, con tutta probabilità, verrebbe intitolata solo “gatto”; invece, un set che combina parole e immagini la chiamerebbe “un gatto in cucina che mangia croccantini da una ciotola rossa”. In questo modo, grazie alla combinazione puntuale di linguaggio testuale e visivo, possiamo insegnare a un modello di intelligenza artificiale non solo come riconoscere gli oggetti, ma anche come si relazionano e agiscono l’uno sull’altro, attraverso l’uso di verbi e preposizioni.
Un processo quasi banale sulla carta e per l’intelligenza umana, ma che però nella realtà richiederebbe un’eternità (se fatto dalle persone): basti pensare che se la versione inglese di Wikipedia comprende quasi 3 miliardi di parole, un set di dati visivi come, per esempio, potrebbe essere quello di Microsoft Common Objects in Context – meglio conosciuto come MS Coco – ne contiene appena 7 milioni. Combinare le due classi di dati diventa chiaramente molto difficile e impegnativo in termini di tempo.
I ricercatori americani, però, sono riusciti ad aggirare il problema con un metodo di apprendimento supervisionato capace di adattare i dati in MS Coco alle dimensioni di Wikipedia. Con il risultato di aver creato un modello di linguaggio che supera quelli più all’avanguardia in alcuni dei test più difficili utilizzati per valutare la comprensione del linguaggio AI. Dimostrando che se il modello oltre a imparare la parola gatto, la vede anche, sarà in grado di ragionare in maniera sempre più razionale ed efficace.

Bert contro Gpt-3

I ricercatori hanno quindi utilizzato l’accoppiamento tra parole e immagini che hanno creato con MS Coco per addestrare il loro algoritmo e hanno riqualificato un modello di linguaggio open source sviluppato da Google, noto come Bert, che precede Gpt-3. Terminato il processo di aggiornamento, hanno sfidato il “nuovo Bert” su sei diversi test di comprensione linguistica, tra cui SQuAD, Stanford Question Answering Dataset, che chiede ai modelli di rispondere a domande di comprensione della lettura su una serie di articoli, e Swag, che costringe gli algoritmi a dimostrare di aver compreso il significato delle parole e di non averle “semplicemente” imparate a memoria.

Un approccio così innovativo apre scenari tutti da esplorare. Certo, il vecchio Bert non potrà mai battere Gpt-3, ma la consapevolezza di poter addestrare un sistema così potente con parole e immagini ci fa capire quanto la tecnologia corra veloce e come le innovazioni siano conquiste quotidiane. Facendo un altro passo verso l’artificial general intelligence.

Innovazione nell’industria ancora una volta al centro: il sunto di SPS Italia 2026
Si è chiusa a Parma la quattordicesima edizione di SPS Italia, appuntamento di riferimento per l’innovazione nel mondo produttivo. Con 720 espositori e 37.528 presenze, in crescita rispetto al 2025, la manifestazione è stata vetrina delle tecnologie...
XIA, il copilota di TEX per la programmazione di PLC e CNC
XIA è l’avanguardia tecnologica nata dalla visione di TEX. Non è un semplice assistente virtuale, ma un vero e proprio “copilota” per il programmatore PLC e CNC, progettato per massimizzare la produttività e azzerare gli errori di sviluppo tramite un’integrazione profonda con...
Ricerca di Rockwell Automation: i produttori italiani sono sempre più orientati all’esecuzione e alla crescita
Rockwell Automation ha annunciato i risultati relativi all’Italia dell’11ª edizione del suo State of Smart Manufacturing Report. La ricerca evidenzia un cambiamento nell’approccio dei produttori italiani alla trasformazione digitale: oggi, infatti, crescita ed espansione della capacità produttiva...
L’AI fa sempre parte dell’equazione
Notizie e opinioni relative all’AI intasano continuamente la barra laterale di potenziali post del mio blog. Dai, provateci! Provate a vedete se riuscite a passare un’ora senza imbattervi in qualche clamoroso commento o terribile avvertimento sull’AI. Leggi...
AI al servizio delle infrastrutture critiche
TXT e-Solutions (www.txtgroup.com), gruppo italiano quotato sul segmento Star di Borsa Italiana e attivo nello sviluppo di soluzioni software ad alto contenuto tecnologico, rafforza la propria strategia nell’ambito delle infrastrutture critiche con la nascita di TXT InfraWise,...
Aveva World 2026: AI al centro dell’industria. Ecco le novità annunciate a Milano
Aveva ha annunciato ad Aveva World 2026 un ampio pacchetto di innovazioni che coinvolgono l’intero portafoglio software dell’azienda. L’obiettivo è consentire alle imprese industriali di valorizzare più rapidamente i propri dati operativi, prendere decisioni più efficaci e adottare l’AI...
Un’architettura open per l’automotive
L’azienda torinese IDT, in collaborazione con SDProget Industrial Software, ha realizzato una linea di assemblaggio e test per celle batteria destinata a un primario Tier 1 dell’automotive, riducendo del 50% i tempi di sviluppo grazie a una...
IFS Connect Milano: le aziende italiane sono pronte all’era AI driven?
L’Industrial AI entra in una nuova fase: meno sperimentazione, più applicazioni concrete e scalabili nei processi industriali. È questo il messaggio emerso dalla prima edizione italiana di IFS Connect 2026, che ha incluso Milano nel roadshow internazionale...
L’AI rivoluziona il picking
Samsung SDS digitalizza il picking con la realtà aumentata di TeamViewer Frontline: più efficienza, meno errori e operazioni hands-free. Nel magazzino di Breda la produttività cresce fino al 30%, migliorando anche ergonomia e qualità del lavoro Leggi...
L’AI enterprise si scontra con nuovi limiti: ricerca NTT Data sulle barriere legate a privacy e sovranità dei dati
NTT Data ha pubblicato la ricerca A Playbook for Private and Sovereign AI (Guida pratica per l’AI privata e sovrana) che sintetizza il “Report globale 2026 sull’intelligenza artificiale”, evidenziando come l’intelligenza artificiale aziendale stia superando i limiti dell’architettura e...

Scopri le novità scelte per te x

Innovazione nell’industria ancora una volta al centro: il sunto di SPS Italia 2026
Si è chiusa a Parma la quattordicesima edizione di SPS Italia, appuntamento di riferimento per l’innovazione nel...
XIA, il copilota di TEX per la programmazione di PLC e CNC
XIA è l’avanguardia tecnologica nata dalla visione di TEX. Non è un semplice assistente virtuale, ma un vero e...