AO_432

SETTEMBRE 2021 AUTOMAZIONE OGGI 432 93 in quando istruisce l’agente su quali azioni intraprendere basandosi sullo stato attuale. La fase di apprendimento si riduce a un problema di ottimiz- zazione della policy da parte dell’algoritmo RL, per esempio utilizzando tecniche di policy gradient come DPG (Deterministic Policy Gradient) o basate sul metodo Montecarlo. Durante il training, il meccanismo delle ricompense permette di aggiornare i valori associati alle combinazioni stato-azione in base all’esito dell’esperienza fatta. Negli algoritmi basati sul valore lo scopo dell’agente è tipicamente quello di massimizzare la somma delle ricompense accumulate dopo un certo numero di azioni a partire da un certo stato. La parte dell’agente deno- minata ‘critic’ effettua una stima del valore cumulativo delle ricompense per le azioni che possono essere intraprese a partire dallo stato attuale. Questo valore viene utilizzato per aggiornare la policy in maniera ricor- siva e scegliere a ogni iterazione l’azione che promette il maggior vantag- gio. Iterando ripetutamente la procedura, centinaia, migliaia, fino anche a milioni di volte, la tabella viene aggiornata fino a convergere nella sua forma finale, in cui il valore di ciascuna coppia stato-azione è noto con sufficiente accuratezza da permettere all’agente di scegliere l’azione che eventualmente lo porterà a riscuotere la massima ricompensa. Il ruolo del ‘critico’ è appunto quello di esprimere un giudizio sull’azione proposta dall’agente, con la policy che evolve a ogni iterazione verso la soluzione ottimizzata. Uno svantaggio dell’approccio basato sul valore è che lo spa- zio delle azioni deve essere discreto e di dimensionalità ridotta affinché il problema sia computazionalmente gestibile. Il modello di apprendimento actor-critic combina i vantaggi dei metodi basati sulla policy e sul valore, andando a parametrizzare tanto la fun- zione policy, quanto la funzione valore, in modo da poterle affinare en- trambe e rendere più efficiente il training e più stabile la convergenza. Il ricorso alle reti neurali permette di ovviare ai limiti imposti da tabelle (che richiedono stati discreti di dimensionalità computazionalmente ge- stibili) e funzioni (che richiedono la conoscenza a priori della struttura della funzione) ed è diventato normale vedere reti neurali, tipicamente profonde (DNN, Deep Neural Network), implementare degli approssima- tori di funzione universale, in grado di accettare come input le sequenze di dati prodotti da sensori complessi come le videocamere. Nel RL di tipo actor-critic, l’attore è una rete neurale che cerca di intraprendere l’azione migliore a partire dallo stato corrente, come succede nel metodo basato sulla funzione policy, mentre il critico è una rete neurale che cerca di sti- mare il valore associato allo stato partendo dalle osservazioni di stato e dall’azione intrapresa dall’attore. In questa configurazione il critico deve considerare solo l’azione scelta dall’actor e non tutte le possibili azioni a partire dallo stato attuale. Que- sto rende il problema computazionalmente gestibile a prescindere dalla dimensionalità dello spazio delle azioni. La convergenza è accelerata dal fatto che la policy evolve lungo la direzione suggerita dal critico, sulla base della funzione cumulativa del valore, invece che nella direzione sug- gerita dalla gratificazione istantanea della funzione reward. Addestramento e deployment Il sistema RL deve essere progettato con cognizione di causa anche quando l’implementazione non richiede un modello dell’ambiente. In fase di progetto, la conoscenza del sistema da controllare o del mondo fisico in cui ci si muove è comunque necessaria. È infatti da questa cono- scenza che scaturiscono le regole con cui il sistema intelligente si dovrà evolvere durante la fase di training e, possibilmente, anche dopo che è stato messo in opera sul campo. Una volta appurato che il problema si presta a essere trattato con tec- niche di reinforcement learning, è necessario stilare una policy che sia sufficientemente complessa, ossia dotata di parametri bastanti a garan- tirne una ragionevole generalità, nonché tale da poter essere alterata e affinata con successo in un tempo limitato. Il passo successivo è la formu- lazione della funzione ricompensa, dalla quale dipende la ‘abilità’ dell’a- gente di comprendere quando e quanto le azioni proposte risultino in un feedback favorevole da parte dell’ambiente. Si tratta forse del compito più arduo nella sintesi di un sistema RL ed è seguito dalla programma- zione dell’algoritmo di reinforcement learning, il ‘cervello’ dell’agente, che, partendo dallo stato osservato dell’ambiente e dal feedback ricevuto in termini di ricompensa, deve essere in grado di modificare i parametri della policy affinché la sua rappresentazione converga in tempi ragio- nevolmente rapidi verso una soluzione ottimale. È spesso necessario modificare più volte la definizione della funzione reward e l’algoritmo di apprendimento per avere una convergenza in tempi accettabili. La fase di addestramento è tipicamente, ma non necessariamente, effettuata in un ambiente simulato, così che sia possibile vagliare tutti gli scenari possibili, anche se improbabili, inmaniera sistematica senza rischio di danneggiare il sistema fisico o far correre rischi a beni e persone. Si pensi infatti a un si- stema di guida autonoma su strada: non è immaginabile un deployment prima che l’agente abbia raggiunto un livello certificabile di successo. Una volta che la policy è stata sufficientemente ottimizzata, la fase di ap- prendimento si può considerare conclusa e la policy viene trasferita al target nel mondo reale. Una marcia in più Un vantaggio dei sistemi RL è che è possibile trasferire nell’hardware sul campo anche l’algoritmo di apprendimento, così che il sistema possa continuare ad affinarsi nel mondo reale. Questa possibilità rappresenta una marcia in più, perché permette ai sistemi basati su reinforcement learning di adattarsi alle variazioni dell’ambiente e continuare a evolversi là dove i sistemi tradizionali non saprebbero come reagire. Nei sistemi RL di tipo actor-critic si combinano i vantaggi delle metodologie policy-based e value-based per una più rapida convergenza versa la policy ottimale