Reinforcement Learning aims to train autonomous agents in their interaction with the environment by means of maximizing a given reward signal; in the last decade there has been an explosion of new algorithms, which make extensive use of hyper-parameters to control their behaviour, accuracy, speed. Often those hyper-parameters are fine-tuned by hand, and the selected values may change drastically the learning performance of the algorithm; furthermore, it happens to train multiple agents on very similar problems, starting from scratch each time and needing to fine-tune the same hyper-parameters over and over again. Our goal is to design a Meta-Reinforcement Learning algorithm to optimize the hyper-parameter of a well-known RL algorithm, named Trust Region Policy Optimization. We use knowledge from previous learning sessions and another RL algorithm, Fitted-Q Iteration, to build a Meta-Model that then predicts the optimal hyper-parameter for TRPO at each of its steps, on new unseen problems, improving its performances above what is reachable by means of simple fine-tuning. We first introduce all the background knowledge required to comprehend the details and aspects of the contributions brought by our work; afterwards, we state the problem we want to solve, its context and the related works we want to consider, coming from hyper-parameter Optimization, Meta-Learning and Meta-Reinforcement Learning. Then, we detail our goals and requirements, and finally our solution to the problem. After presenting the experiments we carried out in order to design and test our solution, we discuss the results obtained and give a glimpse of possible future developments.

L'Apprendimento tramite Rinforzo ha come scopo l’addestramento di agenti autonomi nelle loro interazioni con l’ambiente, tramite la massimizzazione di un segnale di ricompensa o punizione. Nell’ultimo decennio sono stati pubblicati svariati nuovi algoritmi che fanno largo uso d'iperparametri per controllarne il comportamento, l’accuratezza e la velocità. Spesso questi iperparametri vengono calibrati manualmente e i valori selezionati hanno implicazioni rilevanti sulle prestazioni dell’algoritmo; inoltre, capita spesso di dover apprendere molteplici agenti in problemi simili, riniziando ogni volta da zero, con la necessità di affinare lo stesso iperparametro più volte. Il nostro obiettivo è quello di progettare un approccio di Meta-Apprendimento in grado di ottimizzare l’iperparametro di un noto algoritmo, chiamato TRPO, che utilizza un metodo di ottimizzazione vincolata per apprendere il comportamento dell'agente. Sfruttando i metadati derivati da precedenti sessioni di apprendimento e un altro algoritmo, chiamato FQI, possiamo apprendere un meta-modello del processo di apprendimento di TRPO, che è poi in grado di stimare quale sia l’iperparametro ottimale a ognuna delle iterazioni di TRPO, migliorandone le prestazioni più di quanto sia possibile fare tramite un semplice affinamento manuale. In questo lavoro abbiamo iniziato con l’introdurre le conoscenze di base necessarie per comprendere il contesto, i dettagli e i contributi di questa tesi; dopo di che, abbiamo definito precisamente quale sia il problema che vogliamo risolvere, presentandone poi il contesto e i lavori ad esso connessi, a partire dall’ambito dell'Ottimizzazione d'Iperparametri, del Meta-Apprendimento nell'ambito dell'Apprendimento tramite Rinforzo. In seguito abbiamo dettagliato i nostri obiettivi, per poi giungere a proporre la nostra soluzione al problema. Successivamente alla presentazione degli esperimenti, che abbiamo eseguito al fine di progettare e testare il Meta-Algoritmo, abbiamo discusso dei risultati ottenuti e dato un’idea di quali possano essere gli sviluppi futuri.

Meta-optimizing the trust region constraint in reinforcement learning : a parametric-agnostic approach

Occorso, Manuel
2020/2021

Abstract

Reinforcement Learning aims to train autonomous agents in their interaction with the environment by means of maximizing a given reward signal; in the last decade there has been an explosion of new algorithms, which make extensive use of hyper-parameters to control their behaviour, accuracy, speed. Often those hyper-parameters are fine-tuned by hand, and the selected values may change drastically the learning performance of the algorithm; furthermore, it happens to train multiple agents on very similar problems, starting from scratch each time and needing to fine-tune the same hyper-parameters over and over again. Our goal is to design a Meta-Reinforcement Learning algorithm to optimize the hyper-parameter of a well-known RL algorithm, named Trust Region Policy Optimization. We use knowledge from previous learning sessions and another RL algorithm, Fitted-Q Iteration, to build a Meta-Model that then predicts the optimal hyper-parameter for TRPO at each of its steps, on new unseen problems, improving its performances above what is reachable by means of simple fine-tuning. We first introduce all the background knowledge required to comprehend the details and aspects of the contributions brought by our work; afterwards, we state the problem we want to solve, its context and the related works we want to consider, coming from hyper-parameter Optimization, Meta-Learning and Meta-Reinforcement Learning. Then, we detail our goals and requirements, and finally our solution to the problem. After presenting the experiments we carried out in order to design and test our solution, we discuss the results obtained and give a glimpse of possible future developments.
METELLI, ALBERTO MARIA
SABBIONI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
L'Apprendimento tramite Rinforzo ha come scopo l’addestramento di agenti autonomi nelle loro interazioni con l’ambiente, tramite la massimizzazione di un segnale di ricompensa o punizione. Nell’ultimo decennio sono stati pubblicati svariati nuovi algoritmi che fanno largo uso d'iperparametri per controllarne il comportamento, l’accuratezza e la velocità. Spesso questi iperparametri vengono calibrati manualmente e i valori selezionati hanno implicazioni rilevanti sulle prestazioni dell’algoritmo; inoltre, capita spesso di dover apprendere molteplici agenti in problemi simili, riniziando ogni volta da zero, con la necessità di affinare lo stesso iperparametro più volte. Il nostro obiettivo è quello di progettare un approccio di Meta-Apprendimento in grado di ottimizzare l’iperparametro di un noto algoritmo, chiamato TRPO, che utilizza un metodo di ottimizzazione vincolata per apprendere il comportamento dell'agente. Sfruttando i metadati derivati da precedenti sessioni di apprendimento e un altro algoritmo, chiamato FQI, possiamo apprendere un meta-modello del processo di apprendimento di TRPO, che è poi in grado di stimare quale sia l’iperparametro ottimale a ognuna delle iterazioni di TRPO, migliorandone le prestazioni più di quanto sia possibile fare tramite un semplice affinamento manuale. In questo lavoro abbiamo iniziato con l’introdurre le conoscenze di base necessarie per comprendere il contesto, i dettagli e i contributi di questa tesi; dopo di che, abbiamo definito precisamente quale sia il problema che vogliamo risolvere, presentandone poi il contesto e i lavori ad esso connessi, a partire dall’ambito dell'Ottimizzazione d'Iperparametri, del Meta-Apprendimento nell'ambito dell'Apprendimento tramite Rinforzo. In seguito abbiamo dettagliato i nostri obiettivi, per poi giungere a proporre la nostra soluzione al problema. Successivamente alla presentazione degli esperimenti, che abbiamo eseguito al fine di progettare e testare il Meta-Algoritmo, abbiamo discusso dei risultati ottenuti e dato un’idea di quali possano essere gli sviluppi futuri.
File allegati
File Dimensione Formato  
2022_04_Occorso.PDF

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi comprensiva di Executive Summary.
Dimensione 3.32 MB
Formato Adobe PDF
3.32 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187085