AO_432

SETTEMBRE 2021 AUTOMAZIONE OGGI 432 91 Il modello, una volta ottimizzato, viene utilizzato sul campo per fare pre- dizioni su dati che non fanno parte del training set. Questa metodologia di ML è simile al modo con cui un essere umano apprende sotto la super- visione di un insegnante: il discente elabora un modello predittivo sulla base degli esempi risolti proposti dal docente. Classificazione e regres- sione sono le due principali applicazioni del supervised learning. Imparare dagli errori Il reinforcement learning (RL) è il paradigma di ML che più si avvicina alla promessa di realizzare una Intelligenza Artificiale Generale (AGI). Si tratta di un processo di apprendimento in cui la conoscenza viene acquisita per tentativi successivi, valutando il successo o il fallimento di ogni azione e modificando il comportamento per ottimizzare i risultati. La retroazione, costituita da una ricompensa (reward) quantificabile. rappresenta l’in- centivo, o ‘rinforzo’, a perseguire comportamenti che offrono maggiori probabilità di successo. Nel reinforcement learning un agente software interagisce dinamicamente con un ambiente, in genere non noto a priori, decidendo autonomamente quali azioni intraprendere per massimizzare una forma di ricompensa cumulativa. Il processo decisionale segue un modellomatematico sotto forma di policy, che viene aggiornato tenendo conto degli effetti delle azioni con cui l’agente ‘esplora’ l’ambiente in cui è immerso. Le principali tecniche di reinforcement learning includono Pro- cessi Decisionali Markoviani (MDP), Q-learning e metodi di Montecarlo. L’esplorazione autonoma dello spazio delle possibili soluzioni e la ca- pacità di scegliere i comportamenti che massimizzano un obiettivo sul lungo termine, invece che la probabilità di ricevere una gratificazione immediata, fanno del reinforcement learning una tecnica potente, ap- plicabile a tipologie di problemi intrattabili con gli altri paradigmi di ML. A differenza del supervised learning, l’apprendimento per rinforzo non necessita di un’estesa raccolta di dati curati durante la fase di training. I dati necessari all’affinamento del comportamento dell’agente sono il risultato dell’interazione dello stesso con l’ambiente. Inoltre, non è ne- cessario scomporre un problema complesso in una molteplicità di sotto- problemi, specifici più facilmente gestibili da algoritmi specializzati. L’algoritmo punta a massimizzare l’obiettivo globale concentrandosi sul problema nella sua generalità. L’apprendimento è inoltre inerentemente adattivo e un agente di RL opportunamente programmato è in grado di evolvere per rispondere ai cambiamenti dell’ambiente. Elementi di un sistema RL Il reinforcement learning divide il mondo in due parti: l’agente e l’am- biente. L’ambiente è il mondo fisico in cui l’agente opera ed è letteral- mente tutto quello che non è agente: il piano di fabbrica, gli arti del robot da controllare, gli attuatori, i sensori, i segnali che rappresentano i comandi esterni ecc. L’agente è in sostanza il software adattivo che gesti- sce l’apprendimento: osserva lo stato (attuale ed eventualmente passato) dell’ambiente e interagisce con esso per mezzo di azioni decise in base a una policy, che viene affinata nel tempo tenendo conto del feedback immediato sotto forma di ricompense (reward), e del valore della somma cumulativa delle ricompense che si stima possano essere raggiunte nel lungo termine a partire dallo stato attuale. Le due componenti essenziali dell’agente sono la policy e l’algoritmo di reinforcement learning. La policy è la rappresentazione matematica della mappatura dello stato rilevato dall’agente in azioni. Può essere imple- mentata per mezzo di una tabella o di una rete neurale, i cui valori o pesi vengono aggiornati costantemente sulla base della retroazione ricevuta dall’ambiente. Il compito dell’algoritmo di reinforcement learning è pro- prio quello di aggiornare la policy, in modo da farla convergere verso una forma adeguatamente ottimizzata durante l’addestramento e di adattarla ai cambiamenti dell’ambiente in seguito al deployment. Al centro del meccanismo di apprendimento troviamo il concetto di ri- compensa (reward), che viene formalizzato in termini di una funzione delle variabili che esprimono lo stato dell’ambiente. Di per sé, la ricom- pensa rappresenta la gratificazione immediata del trovarsi in un deter- minato stato, ma può essere generalizzata al concetto di valore (value), che rappresenta una stima delle potenzialità che lo stato attuale preluda a ulteriori, più lucrative, ricompense future. Tra esplorazione e sfruttamento Durante il training l’agente cerca di apprendere quale sia il comporta- mento ottimale nel tempo e aggiorna le policy costantemente, tentativo dopo tentativo, tenendo conto anche di eventuali modifiche apportate all’ambiente. A seconda del problema, motivare un agente RL può richie- dere ricompense che vengano elargite a ogni passo, oppure siano distri- buite sparsamente nello spazio dei possibili stati, o ancora che siano il risultato di una successione di eventi complessi. Formulare una buona funzione di ricompensa è cosa tutt’altro che facile, in quanto non esiste un metodo sistematico che garantisca la convergenza (possibilmente ra- pida) della policy alla soluzione ottimale. Il reinforcement learning può essere visto come un processo di ottimizzazione per approssimazioni successive, in cui l’obiettivo è determinare, a partire da un determinato stato, quale azione porterà a riscuotere la più alta somma cumulativa di ricompense su un periodo di tempo esteso. Non sempre, però, puntare ad accumulare la ricompensa cumulativa più alta sul lungo termine costituisce la scelta migliore. Non è infatti detto che la proiezione di ricompensa futura sia corretta. Se infatti è sufficiente- mente lontana nel tempo, la ricompensa potrebbe essere stata reclamata Nella sua forma essenziale il reinforcement learning vede un agente interagire con l’ambiente per mezzo di azioni e il feedback rappresentato dall’osservazione dello stato e dalla ricompensa (o rinforzo) ricevuta