Reinforcement Learning (RL) is a Machine Learning paradigm that focuses on how agents can learn optimal behaviors through interactions with the environment. The fundamental objective of an RL agent is to determine a sequence of actions that maximizes the cumulative expected reward, which is a numerical signal received as feedback from the environment. Central to this process is the concept of policy, a function that maps observed states of the environment to actions taken by the agent. The policy represents the agent’s strategy, which he seeks to optimize over time. In RL, the optimal policy is searched inside an infinite set of potential policies, called policy space. Within the framework of Policy Gradient methods, the policy is typically parameterized by a set of unknown parameters, which the agent aims to learn by employing stochastic gradient ascent techniques. These methods have proven to be effective, however, the problem of choosing an appropriate policy space remains a challenging issue, often dealt with experience accumulated over the years on well known RL tasks. Indeed, the common practice has been to determine the policy space a priori, by incorporating the knowledge about the environment. In this thesis, instead, we introduce and investigate a novel adaptive approach to deal with the problem of shaping the policy space effectively, by doing it autonomously during the learning process, rather than fixing it beforehand. Starting from a simple policy space, we develop a procedure that will progressively increase its complexity, adapting to the task's difficulty and optimizing the policy parameters, without any prior knowledge of the task at hand. We delve into the theoretical foundations of this adaptive approach, which we refer to as the Policy Expansion Algorithm, showing that after expanding the policy parameterization an improvement in performance is guaranteed. We then perform a series of experiments comparing the performances of our adaptive algorithm with standard Policy Gradient methods. These comparisons are conducted across five learning tasks, each presenting an increasing level of difficulty. The results of this research demonstrate the potential benefits of the policy expansion approach in enhancing the flexibility and adaptability of policy gradient methods, particularly in complex environments. We conclude by discussing the implications of these findings for future research and applications in Reinforcement Learning.

Reinforcement Learning (RL) è un sotto-campo del Machine Learning che si concentra su come gli agenti possano apprendere comportamenti ottimali interagendo con l'ambiente circostante. L'obiettivo fondamentale di un agente RL è determinare una sequenza di azioni che massimizzi la ricompensa cumulativa attesa, ricevuta come segnale dall'ambiente. Centrale in questo processo è il concetto di politica (policy), una funzione che mappa gli stati osservati dell'ambiente alle azioni. La politica rappresenta la strategia dell'agente, il quale cerca di ottimizzarla nel tempo. La politica ottimale viene cercata dentro un insieme illimitato di possibili politiche, chiamato spazio di politica. Nel quadro dei metodi Policy Gradient, la politica è solitamente parametrizzata da un insieme di variabili sconosciute, che l'agente impara utilizzando tecniche di ascesa stocastica del gradiente. Questi metodi si sono rivelati efficaci in molti casi, ma il problema della scelta dello spazio di politica rimane attualmente una sfida, spesso affrontata sfruttando l'esperienza acquisita in passato su problemi RL conosciuti. In questa tesi, introduciamo e analizziamo un nuovo approccio adattivo agli algoritmi di policy gradient per affrontare il problema di determinare in modo efficace lo spazio di politica, facendolo in maniera autonoma durante il processo di apprendimento, piuttosto che fissarlo a priori. Partendo da uno spazio semplice, sviluppiamo un procedimento in grado di aumentare progressivamente la complessità dello spazio, adattandosi alla difficoltà del problema e ottimizzando i parametri della politica, senza affidarci alle conoscenze pregresse dell'ambiente. Approfondiamo le basi teoriche di questo approccio adattivo, che chiamiamo Policy Space Expansion, mostrando che espandendo la parametrizzazione un miglioramento delle prestazioni dell'algoritmo è teoricamente garantito. I risultati di questa ricerca mostrano i potenziali benefici dell'approccio adattivo nel migliorare la flessibilità e l'adattabilità dei metodi policy gradient, in particolare su problemi complessi. Concludiamo discutendo le implicazioni di questi risultati per la ricerca futura e le applicazioni di Reinforcement Learning.

Policy gradient methods in adaptive policy spaces

Ferrara, Stefano
2023/2024

Abstract

Reinforcement Learning (RL) is a Machine Learning paradigm that focuses on how agents can learn optimal behaviors through interactions with the environment. The fundamental objective of an RL agent is to determine a sequence of actions that maximizes the cumulative expected reward, which is a numerical signal received as feedback from the environment. Central to this process is the concept of policy, a function that maps observed states of the environment to actions taken by the agent. The policy represents the agent’s strategy, which he seeks to optimize over time. In RL, the optimal policy is searched inside an infinite set of potential policies, called policy space. Within the framework of Policy Gradient methods, the policy is typically parameterized by a set of unknown parameters, which the agent aims to learn by employing stochastic gradient ascent techniques. These methods have proven to be effective, however, the problem of choosing an appropriate policy space remains a challenging issue, often dealt with experience accumulated over the years on well known RL tasks. Indeed, the common practice has been to determine the policy space a priori, by incorporating the knowledge about the environment. In this thesis, instead, we introduce and investigate a novel adaptive approach to deal with the problem of shaping the policy space effectively, by doing it autonomously during the learning process, rather than fixing it beforehand. Starting from a simple policy space, we develop a procedure that will progressively increase its complexity, adapting to the task's difficulty and optimizing the policy parameters, without any prior knowledge of the task at hand. We delve into the theoretical foundations of this adaptive approach, which we refer to as the Policy Expansion Algorithm, showing that after expanding the policy parameterization an improvement in performance is guaranteed. We then perform a series of experiments comparing the performances of our adaptive algorithm with standard Policy Gradient methods. These comparisons are conducted across five learning tasks, each presenting an increasing level of difficulty. The results of this research demonstrate the potential benefits of the policy expansion approach in enhancing the flexibility and adaptability of policy gradient methods, particularly in complex environments. We conclude by discussing the implications of these findings for future research and applications in Reinforcement Learning.
PAPINI, MATTEO
TEDESCHI, GIANMARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
Reinforcement Learning (RL) è un sotto-campo del Machine Learning che si concentra su come gli agenti possano apprendere comportamenti ottimali interagendo con l'ambiente circostante. L'obiettivo fondamentale di un agente RL è determinare una sequenza di azioni che massimizzi la ricompensa cumulativa attesa, ricevuta come segnale dall'ambiente. Centrale in questo processo è il concetto di politica (policy), una funzione che mappa gli stati osservati dell'ambiente alle azioni. La politica rappresenta la strategia dell'agente, il quale cerca di ottimizzarla nel tempo. La politica ottimale viene cercata dentro un insieme illimitato di possibili politiche, chiamato spazio di politica. Nel quadro dei metodi Policy Gradient, la politica è solitamente parametrizzata da un insieme di variabili sconosciute, che l'agente impara utilizzando tecniche di ascesa stocastica del gradiente. Questi metodi si sono rivelati efficaci in molti casi, ma il problema della scelta dello spazio di politica rimane attualmente una sfida, spesso affrontata sfruttando l'esperienza acquisita in passato su problemi RL conosciuti. In questa tesi, introduciamo e analizziamo un nuovo approccio adattivo agli algoritmi di policy gradient per affrontare il problema di determinare in modo efficace lo spazio di politica, facendolo in maniera autonoma durante il processo di apprendimento, piuttosto che fissarlo a priori. Partendo da uno spazio semplice, sviluppiamo un procedimento in grado di aumentare progressivamente la complessità dello spazio, adattandosi alla difficoltà del problema e ottimizzando i parametri della politica, senza affidarci alle conoscenze pregresse dell'ambiente. Approfondiamo le basi teoriche di questo approccio adattivo, che chiamiamo Policy Space Expansion, mostrando che espandendo la parametrizzazione un miglioramento delle prestazioni dell'algoritmo è teoricamente garantito. I risultati di questa ricerca mostrano i potenziali benefici dell'approccio adattivo nel migliorare la flessibilità e l'adattabilità dei metodi policy gradient, in particolare su problemi complessi. Concludiamo discutendo le implicazioni di questi risultati per la ricerca futura e le applicazioni di Reinforcement Learning.
File allegati
File Dimensione Formato  
2024_09_Tesi_Ferrara.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 4.68 MB
Formato Adobe PDF
4.68 MB Adobe PDF Visualizza/Apri
2024_09_Executive_Summary_Ferrara_.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1 MB
Formato Adobe PDF
1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227144