The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.
La tesi riguarda il tema dell'Apprendimento per Rinforzo. Il nostro scopo è quello di analizzare come la frequenza di controllo influenza l'apprendimento in questo contesto. Per farlo, introduciamo il concetto di persistenza delle azioni, che consiste nella ripetizione di una stessa azione per un numero fissato di passi decisionali, ottenendo l'effetto di modificare la frequenza di controllo. Iniziamo analizzando come la persistenza delle azioni influsca sulle prestazioni della politica ottima, fornendo disuguaglianze matematiche che motivano la ricerca di una frequenza di controllo ideale. Poi presentiamo un metodo per addestrare agenti a diverse frequenze di controllo, proponendo un nuovo algoritmo, Persistent Fitted-Q Iteration (PFQI), che estende FQI, con l'obiettivo di imparare la value function ottima, dato un certo valore di persistenza. Proponiamo inoltre un approcio euristico per identificare la persistenza migliore fra quelle appartenenti ad un insieme valori utilizzati in PFQI. Presentiamo infine una sezione sperimentale per mostrare i vantaggi dell'utilizzo di valori di persistenza maggiori di uno, mostrando inoltre l'efficacia del nostro criterio di selezione della persistenza migliore.
Action persistence, a way to deal with control frequency in batch reinforcement learning
MAZZOLINI, FLAVIO
2018/2019
Abstract
The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Flavio_Mazzolini.pdf
accessibile in internet per tutti
Descrizione: Thesis text
Dimensione
1.1 MB
Formato
Adobe PDF
|
1.1 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/165299