The Reinforcement Learning (RL) framework has been under the spotlight in recent years, as it allows to design of controllers for previously intractable problems. Traditionally, RL has been applicable only to problems with low-dimensional state space. Although the use of Deep Neural Networks as function approximators with RL (DRL) has shown impressive results for the control of high-dimensional systems, DRL methods require a large amount of training samples to learn good policies even on simple environments, making them poor choice in real-world situations where sample collection is expensive. The purpose of this thesis is the definition of a feature selection technique that enables to train RL agents on fewer dimensions. Moreover, the procedure should be able to discard not only useless features, but also low relevance features by using a theoretical bound to the error of the feature selection. The results are almost ideal in environments with limited dimensionality, but the bound relies on the Conditional Mutual Information of features, and the estimation of such information-theoretic quantity is still unreliable in high dimensional problems. Nonetheless, we provide novel theoretical insights into the control error in RL.
Il framework di Reinforcement Learning (RL) è stato sotto i riflettori negli ultimi anni, in quanto consente di progettare controllori per problemi precedentemente intrattabili. Tradizionalmente, RL è stato applicabile solo a problemi con ridotte dimensioni dello spazio degli stati. Anche se l'uso di Deep Neural Networks come approssimatori di funzioni in RL (DRL) ha dato impressionanti risultati per il controllo di sistemi ad alta dimensionalità, i metodi DRL richiedono una grande quantità di campioni nell'allenamento per apprendere buone politiche anche su ambienti semplici, rendendoli una pessima scelta in situazioni del mondo reale in cui la raccolta di campioni è costosa. Lo scopo di questa tesi è la definizione di una tecnica di selezione delle caratteristiche che consenta di allenare gli agenti RL in meno dimensioni. Inoltre, la procedura dovrebbe essere in grado di scartare non solo caratteristiche inutili, ma anche quelle di scarsa rilevanza utilizzando un limite teorico sull'errore introdotto dalla selezione delle caratteristiche. I risultati sono quasi ideali in ambienti di piccole dimensioni, ma il limite superiore si basa sull'informazione mutua condizionate delle caratteristiche e la stima di tali quantità della teoria dell'informazione è ancora inaffidabile in alte dimensionalità. Ciò nonostante forniamo nuove intuizioni teoriche sull'errore di controllo in RL.
Cutting back on MDP's features. A theoretically grounded approach to feature selection in reinforcement learning
BALLABIO, GUIDO DINO
2018/2019
Abstract
The Reinforcement Learning (RL) framework has been under the spotlight in recent years, as it allows to design of controllers for previously intractable problems. Traditionally, RL has been applicable only to problems with low-dimensional state space. Although the use of Deep Neural Networks as function approximators with RL (DRL) has shown impressive results for the control of high-dimensional systems, DRL methods require a large amount of training samples to learn good policies even on simple environments, making them poor choice in real-world situations where sample collection is expensive. The purpose of this thesis is the definition of a feature selection technique that enables to train RL agents on fewer dimensions. Moreover, the procedure should be able to discard not only useless features, but also low relevance features by using a theoretical bound to the error of the feature selection. The results are almost ideal in environments with limited dimensionality, but the bound relies on the Conditional Mutual Information of features, and the estimation of such information-theoretic quantity is still unreliable in high dimensional problems. Nonetheless, we provide novel theoretical insights into the control error in RL.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
1.01 MB
Formato
Adobe PDF
|
1.01 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/152252