Reinforcement learning in configurable environments : an information theoretic approach

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The general goal of Reinforcement Learning (RL) is to design agents able to learn a behaviour from interactions with an environment. Most of the problems tackled by Reinforcement Learning are typically modeled as Markov Decision Processes in which the environment is considered a fixed entity and cannot be controlled. Nevertheless, there exist several real-world examples in which a partial control on the environment can be exercised by the agent itself or by an external supervisor. For instance, in a car race the driver can set up his/her vehicle to better suit his/her needs. With the phrase environment configuration we refer to the activity of altering some environmental parameters to improve the performance of the agent's policy. This scenario has been recently formalized as a Configurable Markov Decision Process (CMDP). The aim of this thesis is to further investigate the framework of Configurable Markov Decision Processes. We propose a new information theoretic algorithm, namely Relative Entropy Model Policy Search (REMPS), able to manage CMDPs with continuous action and state spaces. We propose a theoretical analysis of REMPS deriving the performance gap between the ideal case of the algorithm and the approximated case. Moreover, we empirically evaluate the performance of our approach in three scenarios, showing that it outperforms a naïve gradient method in several situations.

L'obiettivo dell'Apprendimento per Rinforzo è quello di sviluppare agenti in grado di imparare un comportamento tramite interazione con un ambiente. Molti dei problemi considerati dalla disciplina di Apprendimento per Rinforzo sono modellati come Processi Decisionali di Markov (MDP), nei quali l'ambiente è visto come un'entità fissa, che non può essere controllata. Nonostante questo, esistono molti esempi reali nei quali un controllo parziale sull'ambiente può essere esercitato dall'agente stesso o da un supervisore esterno. Per esempio, in una gara automobilistica il pilota può configurare il suo veicolo in modo che soddisfi i suoi bisogni. Con la frase configurazione dell'ambiente intendiamo l'attività di alterare i parametri ambientali per migliorare le prestazioni della politica dell'agente. Questo scenario è stato recentemente formalizzato come Processo Decisionale di Markov Configurable (CMDP). Lo scopo di questa tesi è di investigare ulteriormente i Processi Decisionali Configurabili di Markov. Proponiamo un nuovo algoritmo basato sulla teoria dell'informazione, Relative Entropy Model Policy Search (REMPS), in grado di lavorare con CMDP a spazi di stati e azioni continui. Proponiamo un'analisi teorica di REMPS derivando la differenza di prestazioni tra il caso ideale e approssimato dell'algoritmo. Valutiamo empiricamente le prestazioni del nostro approccio in tre scenari, mostrando che supera un metodo a gradiente in diverse situazioni.

Reinforcement learning in configurable environments : an information theoretic approach

GHELFI, EMANUELE

2017/2018

Abstract

The general goal of Reinforcement Learning (RL) is to design agents able to learn a behaviour from interactions with an environment. Most of the problems tackled by Reinforcement Learning are typically modeled as Markov Decision Processes in which the environment is considered a fixed entity and cannot be controlled. Nevertheless, there exist several real-world examples in which a partial control on the environment can be exercised by the agent itself or by an external supervisor. For instance, in a car race the driver can set up his/her vehicle to better suit his/her needs. With the phrase environment configuration we refer to the activity of altering some environmental parameters to improve the performance of the agent's policy. This scenario has been recently formalized as a Configurable Markov Decision Process (CMDP). The aim of this thesis is to further investigate the framework of Configurable Markov Decision Processes. We propose a new information theoretic algorithm, namely Relative Entropy Model Policy Search (REMPS), able to manage CMDPs with continuous action and state spaces. We propose a theoretical analysis of REMPS deriving the performance gap between the ideal case of the algorithm and the approximated case. Moreover, we empirically evaluate the performance of our approach in three scenarios, showing that it outperforms a naïve gradient method in several situations.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				METELLI, ALBERTO MARIA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				20-dic-2018
			
	Anno accademico
	
				2017/2018
			
	Abstract in italiano
	
				L'obiettivo dell'Apprendimento per Rinforzo è quello di sviluppare agenti in grado di imparare un comportamento tramite interazione con un ambiente. Molti dei problemi considerati dalla disciplina di Apprendimento per Rinforzo sono modellati come Processi Decisionali di Markov (MDP), nei quali l'ambiente è visto come un'entità fissa, che non può essere controllata. Nonostante questo, esistono molti esempi  reali nei quali un controllo parziale sull'ambiente può essere esercitato dall'agente stesso o da un supervisore esterno. Per esempio, in una gara automobilistica il pilota può configurare il suo veicolo in modo che soddisfi i suoi bisogni. Con la frase configurazione dell'ambiente intendiamo l'attività di alterare i parametri ambientali per migliorare le prestazioni della politica dell'agente. Questo scenario è stato recentemente formalizzato come Processo Decisionale di Markov Configurable (CMDP).
Lo scopo di questa tesi è di investigare ulteriormente i Processi Decisionali Configurabili di Markov. Proponiamo un nuovo algoritmo basato sulla teoria dell'informazione, Relative Entropy Model Policy Search (REMPS), in grado di lavorare con CMDP a spazi di stati e azioni continui.
Proponiamo un'analisi teorica di REMPS derivando la differenza di prestazioni tra il caso ideale e approssimato dell'algoritmo.
Valutiamo empiricamente le prestazioni del nostro approccio in tre scenari, mostrando che supera un metodo a gradiente in diverse situazioni.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2018_12_GHELFI.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 1.07 MB Formato Adobe PDF Visualizza/Apri	1.07 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144736