The general goal of Reinforcement Learning (RL) is to design agents able to learn a behaviour from interactions with an environment. Most of the problems tackled by Reinforcement Learning are typically modeled as Markov Decision Processes in which the environment is considered a fixed entity and cannot be controlled. Nevertheless, there exist several real-world examples in which a partial control on the environment can be exercised by the agent itself or by an external supervisor. For instance, in a car race the driver can set up his/her vehicle to better suit his/her needs. With the phrase environment configuration we refer to the activity of altering some environmental parameters to improve the performance of the agent's policy. This scenario has been recently formalized as a Configurable Markov Decision Process (CMDP). The aim of this thesis is to further investigate the framework of Configurable Markov Decision Processes. We propose a new information theoretic algorithm, namely Relative Entropy Model Policy Search (REMPS), able to manage CMDPs with continuous action and state spaces. We propose a theoretical analysis of REMPS deriving the performance gap between the ideal case of the algorithm and the approximated case. Moreover, we empirically evaluate the performance of our approach in three scenarios, showing that it outperforms a naïve gradient method in several situations.

L'obiettivo dell'Apprendimento per Rinforzo è quello di sviluppare agenti in grado di imparare un comportamento tramite interazione con un ambiente. Molti dei problemi considerati dalla disciplina di Apprendimento per Rinforzo sono modellati come Processi Decisionali di Markov (MDP), nei quali l'ambiente è visto come un'entità fissa, che non può essere controllata. Nonostante questo, esistono molti esempi reali nei quali un controllo parziale sull'ambiente può essere esercitato dall'agente stesso o da un supervisore esterno. Per esempio, in una gara automobilistica il pilota può configurare il suo veicolo in modo che soddisfi i suoi bisogni. Con la frase configurazione dell'ambiente intendiamo l'attività di alterare i parametri ambientali per migliorare le prestazioni della politica dell'agente. Questo scenario è stato recentemente formalizzato come Processo Decisionale di Markov Configurable (CMDP). Lo scopo di questa tesi è di investigare ulteriormente i Processi Decisionali Configurabili di Markov. Proponiamo un nuovo algoritmo basato sulla teoria dell'informazione, Relative Entropy Model Policy Search (REMPS), in grado di lavorare con CMDP a spazi di stati e azioni continui. Proponiamo un'analisi teorica di REMPS derivando la differenza di prestazioni tra il caso ideale e approssimato dell'algoritmo. Valutiamo empiricamente le prestazioni del nostro approccio in tre scenari, mostrando che supera un metodo a gradiente in diverse situazioni.

Reinforcement learning in configurable environments : an information theoretic approach

GHELFI, EMANUELE
2017/2018

Abstract

The general goal of Reinforcement Learning (RL) is to design agents able to learn a behaviour from interactions with an environment. Most of the problems tackled by Reinforcement Learning are typically modeled as Markov Decision Processes in which the environment is considered a fixed entity and cannot be controlled. Nevertheless, there exist several real-world examples in which a partial control on the environment can be exercised by the agent itself or by an external supervisor. For instance, in a car race the driver can set up his/her vehicle to better suit his/her needs. With the phrase environment configuration we refer to the activity of altering some environmental parameters to improve the performance of the agent's policy. This scenario has been recently formalized as a Configurable Markov Decision Process (CMDP). The aim of this thesis is to further investigate the framework of Configurable Markov Decision Processes. We propose a new information theoretic algorithm, namely Relative Entropy Model Policy Search (REMPS), able to manage CMDPs with continuous action and state spaces. We propose a theoretical analysis of REMPS deriving the performance gap between the ideal case of the algorithm and the approximated case. Moreover, we empirically evaluate the performance of our approach in three scenarios, showing that it outperforms a naïve gradient method in several situations.
METELLI, ALBERTO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
L'obiettivo dell'Apprendimento per Rinforzo è quello di sviluppare agenti in grado di imparare un comportamento tramite interazione con un ambiente. Molti dei problemi considerati dalla disciplina di Apprendimento per Rinforzo sono modellati come Processi Decisionali di Markov (MDP), nei quali l'ambiente è visto come un'entità fissa, che non può essere controllata. Nonostante questo, esistono molti esempi reali nei quali un controllo parziale sull'ambiente può essere esercitato dall'agente stesso o da un supervisore esterno. Per esempio, in una gara automobilistica il pilota può configurare il suo veicolo in modo che soddisfi i suoi bisogni. Con la frase configurazione dell'ambiente intendiamo l'attività di alterare i parametri ambientali per migliorare le prestazioni della politica dell'agente. Questo scenario è stato recentemente formalizzato come Processo Decisionale di Markov Configurable (CMDP). Lo scopo di questa tesi è di investigare ulteriormente i Processi Decisionali Configurabili di Markov. Proponiamo un nuovo algoritmo basato sulla teoria dell'informazione, Relative Entropy Model Policy Search (REMPS), in grado di lavorare con CMDP a spazi di stati e azioni continui. Proponiamo un'analisi teorica di REMPS derivando la differenza di prestazioni tra il caso ideale e approssimato dell'algoritmo. Valutiamo empiricamente le prestazioni del nostro approccio in tre scenari, mostrando che supera un metodo a gradiente in diverse situazioni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_GHELFI.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.07 MB
Formato Adobe PDF
1.07 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144736