AO_432

SETTEMBRE 2021 AUTOMAZIONE OGGI 432 92 AO TUTORIAL da altri agenti concorrenti, oppure persa, o trasformata in penalità per avvenute modifiche dell’ambiente. Per evitare di rincorrere eccessivamente le ricompense note in spazi di stato già attraversati e stimolare l’esplorazione di stati ancora ignoti, le ricompense distanti sono solita- mente ‘scontate’ per renderle meno ap- petibili. In questo senso, l’apprendimento per rinforzo diventa un compromesso tra lo sfruttamento (exploitation) dell’am- biente e l’esplorazione (exploration) di nuove soluzioni che potrebbero portare a una convergenza più rapida verso la policy ottimale. Tassonomia RL Gli algoritmi di reinforcement learning possono richiedere o meno un modello dell’ambiente in cui sono immersi. Gli algoritmi RL con modello (model-ba- sed RL) costruiscono un modello esplicito dell’ambiente durante la fase di esplora- zione. Quando gli spazi degli stati e delle azioni sono discreti è possibile associare a ogni abbinamento stato-azione una stima della ricompensa attesa e la previsione di quello che sarà lo stato successivo. Una volta acquisito un modello sufficientemente fedele dell’ambiente (autonoma- mente o fornito dallo sviluppatore durante la fase di progetto), l’agente è in grado di determinale le azioni ottimali a partire da un dato stato senza necessità di interazioni esterne. L’implementazione di un processo di stima della policy permette al sistema di ade- guarsi a eventuali cambiamenti successivi. Gli algoritmi di RL senza modello (model-free RL) non hanno bisogno di un modello espli- cito e procedono a derivare una policy otti- male procedendo per tentativi ed errori. È un approccio sicuramente più generale e potente in quanto allo sviluppatore è sì richiesto di for- mulare un’adeguata funzione di ricompensa e il corrispondente algoritmo di ottimizzazione della policy, ma non sono necessarie altre in- formazioni su come procedere per conseguire l’obiettivo fissato. In teoria il sistema, sempli- cemente esplorando a caso le possibili azioni, determina passo dopo passo le scelte che ga- rantiscono le maggiori possibilità di successo. La fase di apprendimento può richiedere mi- gliaia o centinaia di migliaia di iterazioni prima di produrre una policy decente e per questo viene tipicamente effettuata in ambiente si- mulato. Attori e critici Gli algoritmi RL senza modello possono essere incentrati sulla policy, sul valore, o essere un ibrido di queste due tipologie. Negli algoritmi basati sulla policy, i parametri della policy vengono modi- ficati direttamente dall’algoritmo di RL durante la fase di addestramento. La policy è tipicamente rappresentata per mezzo di una tabella (Q-fun- ction) o di una rete neurale che associa allo stato del sistema le azioni ottimali, Questa parte dell’agente viene solitamente denominata ‘actor’ Il reinforcement learning può essere model-based o model-free. Le tecniche di affinamento della policy in quest’ultimo caso possono essere policy-based, value-based o actor-critic Nel reinforcement learning policy-based, un ‘attore’ determina le azioni in base allo stato attuale, mentre l’algoritmo di RL ottimizza direttamente i parametri della policy Nel reinforcement learning value-based, la rete con funzione di critico stima il valore associato alle azioni possibili a partire dallo stato attuale e l’algoritmo di RL provvede ad aggiornare la policy ricorsivamente per scegliere quella con le maggiori prospettive di guadagno