Cutting back on MDP's features. A theoretically grounded approach to feature selection in reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The Reinforcement Learning (RL) framework has been under the spotlight in recent years, as it allows to design of controllers for previously intractable problems. Traditionally, RL has been applicable only to problems with low-dimensional state space. Although the use of Deep Neural Networks as function approximators with RL (DRL) has shown impressive results for the control of high-dimensional systems, DRL methods require a large amount of training samples to learn good policies even on simple environments, making them poor choice in real-world situations where sample collection is expensive. The purpose of this thesis is the definition of a feature selection technique that enables to train RL agents on fewer dimensions. Moreover, the procedure should be able to discard not only useless features, but also low relevance features by using a theoretical bound to the error of the feature selection. The results are almost ideal in environments with limited dimensionality, but the bound relies on the Conditional Mutual Information of features, and the estimation of such information-theoretic quantity is still unreliable in high dimensional problems. Nonetheless, we provide novel theoretical insights into the control error in RL.

Il framework di Reinforcement Learning (RL) è stato sotto i riflettori negli ultimi anni, in quanto consente di progettare controllori per problemi precedentemente intrattabili. Tradizionalmente, RL è stato applicabile solo a problemi con ridotte dimensioni dello spazio degli stati. Anche se l'uso di Deep Neural Networks come approssimatori di funzioni in RL (DRL) ha dato impressionanti risultati per il controllo di sistemi ad alta dimensionalità, i metodi DRL richiedono una grande quantità di campioni nell'allenamento per apprendere buone politiche anche su ambienti semplici, rendendoli una pessima scelta in situazioni del mondo reale in cui la raccolta di campioni è costosa. Lo scopo di questa tesi è la definizione di una tecnica di selezione delle caratteristiche che consenta di allenare gli agenti RL in meno dimensioni. Inoltre, la procedura dovrebbe essere in grado di scartare non solo caratteristiche inutili, ma anche quelle di scarsa rilevanza utilizzando un limite teorico sull'errore introdotto dalla selezione delle caratteristiche. I risultati sono quasi ideali in ambienti di piccole dimensioni, ma il limite superiore si basa sull'informazione mutua condizionate delle caratteristiche e la stima di tali quantità della teoria dell'informazione è ancora inaffidabile in alte dimensionalità. Ciò nonostante forniamo nuove intuizioni teoriche sull'errore di controllo in RL.

Cutting back on MDP's features. A theoretically grounded approach to feature selection in reinforcement learning

BALLABIO, GUIDO DINO

2018/2019

Abstract

The Reinforcement Learning (RL) framework has been under the spotlight in recent years, as it allows to design of controllers for previously intractable problems. Traditionally, RL has been applicable only to problems with low-dimensional state space. Although the use of Deep Neural Networks as function approximators with RL (DRL) has shown impressive results for the control of high-dimensional systems, DRL methods require a large amount of training samples to learn good policies even on simple environments, making them poor choice in real-world situations where sample collection is expensive. The purpose of this thesis is the definition of a feature selection technique that enables to train RL agents on fewer dimensions. Moreover, the procedure should be able to discard not only useless features, but also low relevance features by using a theoretical bound to the error of the feature selection. The results are almost ideal in environments with limited dimensionality, but the bound relies on the Conditional Mutual Information of features, and the estimation of such information-theoretic quantity is still unreliable in high dimensional problems. Nonetheless, we provide novel theoretical insights into the control error in RL.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				METELLI, A.M.
PAPINI, M.
TIRINZONI, A.
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				18-dic-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				Il framework di Reinforcement Learning (RL) è stato sotto i riflettori negli ultimi anni, in quanto consente di progettare controllori per problemi precedentemente intrattabili. Tradizionalmente, RL è stato applicabile solo a problemi con ridotte dimensioni dello spazio degli stati. Anche se l'uso di Deep Neural Networks come approssimatori di funzioni in RL (DRL) ha dato impressionanti risultati per il controllo di sistemi ad alta dimensionalità, i metodi DRL richiedono una grande quantità di campioni nell'allenamento per apprendere buone politiche anche su ambienti semplici, rendendoli una pessima scelta in situazioni del mondo reale in cui la raccolta di campioni è costosa.
Lo scopo di questa tesi è la definizione di una tecnica di selezione delle caratteristiche che consenta di allenare gli agenti RL in meno dimensioni. Inoltre, la procedura dovrebbe essere in grado di scartare non solo caratteristiche inutili, ma anche quelle di scarsa rilevanza utilizzando un limite teorico sull'errore introdotto dalla selezione delle caratteristiche.
I risultati sono quasi ideali in ambienti di piccole dimensioni, ma il limite superiore si basa sull'informazione mutua condizionate delle caratteristiche e la stima di tali quantità della teoria dell'informazione è ancora inaffidabile in alte dimensionalità. Ciò nonostante forniamo nuove intuizioni teoriche sull'errore di controllo in RL.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
thesis.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Thesis Dimensione 1.01 MB Formato Adobe PDF Visualizza/Apri	1.01 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152252