Action persistence, a way to deal with control frequency in batch reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.

La tesi riguarda il tema dell'Apprendimento per Rinforzo. Il nostro scopo è quello di analizzare come la frequenza di controllo influenza l'apprendimento in questo contesto. Per farlo, introduciamo il concetto di persistenza delle azioni, che consiste nella ripetizione di una stessa azione per un numero fissato di passi decisionali, ottenendo l'effetto di modificare la frequenza di controllo. Iniziamo analizzando come la persistenza delle azioni influsca sulle prestazioni della politica ottima, fornendo disuguaglianze matematiche che motivano la ricerca di una frequenza di controllo ideale. Poi presentiamo un metodo per addestrare agenti a diverse frequenze di controllo, proponendo un nuovo algoritmo, Persistent Fitted-Q Iteration (PFQI), che estende FQI, con l'obiettivo di imparare la value function ottima, dato un certo valore di persistenza. Proponiamo inoltre un approcio euristico per identificare la persistenza migliore fra quelle appartenenti ad un insieme valori utilizzati in PFQI. Presentiamo infine una sezione sperimentale per mostrare i vantaggi dell'utilizzo di valori di persistenza maggiori di uno, mostrando inoltre l'efficacia del nostro criterio di selezione della persistenza migliore.

Action persistence, a way to deal with control frequency in batch reinforcement learning

MAZZOLINI, FLAVIO

2018/2019

Abstract

The thesis is related to Batch Reinforcement Learning. Our purpose is to analyze how control frequency influences learning in this setting. In order to do so, we introduce the notion of action persistence, that consists in the repetition of an action for a fixed number of decision steps, having the effect of modifying the control frequency. We start analyzing how action persistence affects the performance of the optimal policy, providing mathematical bounds that motivate the research of an ideal control frequency. Then we present a way to train agents with different control frequencies, proposing a novel algorithm, Persistent Fitted Q-Iteration (PFQI), that extends FQI, with the goal of learning the optimal value function at a given persistence. Finally, we proposed a heuristic approach to identify the optimal persistence from a set used in PFQI and present an experimental campaign on benchmark domains to show the advantages of action persistence and proving the effectiveness of our persistence selection method.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				BISI, LORENZO
METELLI, ALBERTO MARIA
SABBIONI, LUCA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				29-apr-2020
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				La tesi riguarda il tema dell'Apprendimento per Rinforzo. Il nostro scopo è quello di analizzare come la frequenza di controllo influenza l'apprendimento in questo contesto. Per farlo, introduciamo il concetto di persistenza delle azioni, che consiste nella ripetizione di una stessa azione per un numero fissato di passi decisionali, ottenendo l'effetto di modificare la frequenza di controllo. Iniziamo analizzando come la persistenza delle azioni influsca sulle prestazioni della politica ottima, fornendo disuguaglianze matematiche che motivano la ricerca di una frequenza di controllo ideale. Poi presentiamo un metodo per addestrare agenti a diverse frequenze di controllo, proponendo un nuovo algoritmo, Persistent Fitted-Q Iteration (PFQI), che estende FQI, con l'obiettivo di imparare la value function ottima, dato un certo valore di persistenza. Proponiamo inoltre un approcio euristico per identificare la persistenza migliore fra quelle appartenenti ad un insieme valori utilizzati in PFQI. Presentiamo infine una sezione sperimentale per mostrare i vantaggi dell'utilizzo di valori di persistenza maggiori di uno, mostrando inoltre l'efficacia del nostro criterio di selezione della persistenza migliore.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Tesi_Flavio_Mazzolini.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 1.1 MB Formato Adobe PDF Visualizza/Apri	1.1 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165299