The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.

La tesi riguarda il tema dell'Apprendimento per Rinforzo. Il nostro scopo è quello di analizzare come la frequenza di controllo influenza l'apprendimento in questo contesto. Per farlo, introduciamo il concetto di persistenza delle azioni, che consiste nella ripetizione di una stessa azione per un numero fissato di passi decisionali, ottenendo l'effetto di modificare la frequenza di controllo. Iniziamo analizzando come la persistenza delle azioni influsca sulle prestazioni della politica ottima, fornendo disuguaglianze matematiche che motivano la ricerca di una frequenza di controllo ideale. Poi presentiamo un metodo per addestrare agenti a diverse frequenze di controllo, proponendo un nuovo algoritmo, Persistent Fitted-Q Iteration (PFQI), che estende FQI, con l'obiettivo di imparare la value function ottima, dato un certo valore di persistenza. Proponiamo inoltre un approcio euristico per identificare la persistenza migliore fra quelle appartenenti ad un insieme valori utilizzati in PFQI. Presentiamo infine una sezione sperimentale per mostrare i vantaggi dell'utilizzo di valori di persistenza maggiori di uno, mostrando inoltre l'efficacia del nostro criterio di selezione della persistenza migliore.

Action persistence, a way to deal with control frequency in batch reinforcement learning

MAZZOLINI, FLAVIO
2018/2019

Abstract

The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.
BISI, LORENZO
METELLI, ALBERTO MARIA
SABBIONI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
La tesi riguarda il tema dell'Apprendimento per Rinforzo. Il nostro scopo è quello di analizzare come la frequenza di controllo influenza l'apprendimento in questo contesto. Per farlo, introduciamo il concetto di persistenza delle azioni, che consiste nella ripetizione di una stessa azione per un numero fissato di passi decisionali, ottenendo l'effetto di modificare la frequenza di controllo. Iniziamo analizzando come la persistenza delle azioni influsca sulle prestazioni della politica ottima, fornendo disuguaglianze matematiche che motivano la ricerca di una frequenza di controllo ideale. Poi presentiamo un metodo per addestrare agenti a diverse frequenze di controllo, proponendo un nuovo algoritmo, Persistent Fitted-Q Iteration (PFQI), che estende FQI, con l'obiettivo di imparare la value function ottima, dato un certo valore di persistenza. Proponiamo inoltre un approcio euristico per identificare la persistenza migliore fra quelle appartenenti ad un insieme valori utilizzati in PFQI. Presentiamo infine una sezione sperimentale per mostrare i vantaggi dell'utilizzo di valori di persistenza maggiori di uno, mostrando inoltre l'efficacia del nostro criterio di selezione della persistenza migliore.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Flavio_Mazzolini.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.1 MB
Formato Adobe PDF
1.1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165299