Meta learning the step size in policy gradient methods

Over the last years, Reinforcement Learning (RL) research has achieved astonishing results in many areas, ranging from robotics and autonomous driving to complex games such as Go and Poker. In an RL task, an agent interacts with an environment by observing a representation of its state, performing an action, and receiving a numeric reward in return. The goal is to identify a strategy, also known as policy, that maximizes the cumulative reward obtained over a certain time horizon. Among the various RL algorithms, this thesis focuses on Policy Gradient methods, which optimize the policy by means of iterative Gradient Ascent (GA) updates. These approaches, while praised for their convergence properties and strong theoretical groundings, require precise and problem-specific hyperparameter tuning to achieve good performance. As a consequence, they tend to struggle when asked to accomplish a series of heterogeneous tasks. To solve these issues, this thesis adopts a Meta Reinforcement Learning (Meta-RL) approach. Meta-RL aims to create models that can learn quickly and adapt to unseen RL settings. In our work, we introduce a formulation to solve Meta-RL tasks, known as meta-MDP, and we propose an algorithm to solve meta-MDPs with PG learners. In these cases, the "meta" action reduces to the choice of the step size of each GA iteration. The idea of the approach is to apply a batch mode, value-based algorithm, known as Fitted Q Iteration (FQI), to derive an estimate of the expected model improvements and to dynamically recommend the most adequate step size in the current scenario. We conclude our work by evaluating the approach in different settings and reflecting on open questions and future improvements.

Nel corso degli ultimi anni, la ricerca nel campo dell'Apprendimento per Rinforzo, Reinforcement Learning (RL) in inglese, ha raggiunto risultati straordinari in diversi campi, spaziando dai progressi nella Robotica e nella Guida Autonoma fino alla risoluzione di giochi complessi come il Go e il Poker. In uno scenario RL, un agente interagisce con un ambiente esterno osservandone una rappresentazione dello stato, compiendo un'azione e ricevendo in cambio un premio numerico. L'obiettivo è quello di identificare una strategia, detta policy in inglese, che massimizzi il valore cumulato dei premi ottenuti lungo un certo orizzonte temporale. Tra i vari algoritmi RL, questa tesi dedica particolare attenzione agli approcci Policy Gradient (PG), che ottimizzano la policy attraverso una serie di step di Ascesa del Gradiente, Gradient Ascent (GA) in inglese. Questi approcci, pur essendo elogiati per le loro proprietà di convergenza e solide basi teoriche, raggiungono dei risultati adeguati solo attraverso una precisa configurazione degli iperparametri che varia in base al problema. Come conseguenza, le performance raggiunte da questi metodi tendono a deteriorare se gli stessi sono utilizzati per compiere una sequenza eterogenea di attività. Per risolvere i limiti appena menzionati, questa tesi adotta un approccio di Meta Apprendimento per Rinforzo, Meta Reinforcement Learning (Meta-RL) in inglese. Un algoritmo Meta-RL ha come obiettivo la creazione di modelli che possano imparare nuove abilità velocemente e adattarsi a scenari RL mai visti. Nel nostro lavoro, introduciamo una formulazione per risolvere problemi di tipo Meta-RL, e proponiamo un algoritmo per risolvere i casi di meta-MDP in cui l'algoritmo di apprendimento è di tipo PG. In questi casi, la "meta" azione si riduce al solo passo di apprendimento, step size in inglese, di un'iterazione di GA. L'idea dell'approccio è quella di applicare un algoritmo di tipo batch e value-based, chiamato FQI, per ricavare una approssimazione dei miglioramenti attesi del modello. La stima è in seguito utilizzata per raccomandare dinamicamente la step size che più si adatta allo scenario corrente. Il nostro lavoro si conclude con delle valutazioni dell'algoritmo in diversi ambienti simulati, per poi riflettere su alcune domande rimaste aperte e alcuni possibili miglioramenti all'approccio.