AS 8

Automazione e Strumentazione n Novembre - Dicembre 2024 Primo piano 17 SCENARI un algoritmo noto come backpropagation. Qui, l’obiettivo è minimizzare la deviazione quadra- tica media, D, tra l’output dalla rete e i dati di addestramento, tramite discesa del gradiente; ciò richiede il calcolo delle derivate parziali di D rispetto a tutti i pesi nella rete: a tal fine Hinton, Rumelhart e Williams hanno reinven- tato uno schema che era stato precedentemente applicato ad altri problemi correlati. Inoltre, cosa più importante, hanno dimostrato che le reti con uno strato nascosto potevano essere addestrate da questo metodo per eseguire atti- vità prima ritenute irrisolvibili senza tale strato. Verso il Deep Learning Le innovazioni metodologiche degli anni 80 furono presto seguite da applicazioni di suc- cesso, tra cui il riconoscimento di pattern in immagini, lingue e dati clinici. Un metodo importante era quello delle reti neurali convo- luzionali multistrato (CNN) addestrate tramite backpropagation. L’architettura CNN aveva le sue radici nel metodo neocognitron, creato da Kunihiko Fukushima che a sua volta si ispirò al lavoro di David Hubel e Torsten Wiesel, premi Nobel per la fisiologia o la medicina nel 1981. L’approccio CNN sviluppato da LeCun e col- leghi venne utilizzato da diverse banche ameri- cane per classificare le cifre scritte a mano sugli assegni dalla metà degli anni 90. Un altro esem- pio di successo di questo periodo è il metodo della memoria a lungo e breve termine creato da Sepp Hochreiter e Jürgen Schmidhuber : si tratta di una rete ricorrente per l’elaborazione di dati sequenziali, come nel parlato e nel lin- guaggio, e può essere mappata in una rete mul- tistrato dispiegandosi nel tempo. Mentre alcune architetture multistrato hanno portato ad applicazioni di successo negli anni 90, è rimasta una sfida addestrare reti multi- strato profonde con molte connessioni tra strati consecutivi; anche a ricercatori esperti nel campo, addestrare reti multistrato dense sem- brava un traguardo fuori portata. La situazione è cambiata negli anni 2000 e un punto di svolta è stata la macchina di Boltzmann ristretta (RBM) di Hinton: una rete RBM ha pesi solo tra nodi visibili e nascosti e nessun peso collega due nodi dello stesso tipo. Per le RBM, Hinton ha creato un efficiente algoritmo di apprendimento approssimativo, detto diver- genza contrastiva, che era molto più veloce di quello per la macchina di Boltzmann com- pleta. Con Simon Osindero e Yee-Whye Teh , ha poi sviluppato una procedura di pre-adde- stramento per reti multistrato, in cui gli strati vengono addestrati uno per uno utilizzando una RBM. Una delle prime applicazioni di questo approccio è stata una rete autoencoder per la riduzione dimensionale. Eseguendo un pre- addestramento con RBM si possono rilevare strutture nei dati, come angoli nelle immagini, Il buco nero supermassiccio al centro di Messier 87 (fonte: The Event Horizon Telescope)