Adaptive batch size for safe policy gradient methods

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Policy gradient methods are among the best Reinforcement Learning techniques to solve complex control problems. The application of these methods to real systems call for safe algorithms, i.e., algorithms capable of guaranteeing a constant improvement of the policies that are tried during the learning process. The research on safe policy gradient methods has so far focused on the selection of the step size of policy updates. Another important parameter, which has not received the same attention so far, is the batch size, that is the number of samples used to estimate the gradient direction for each update. In this thesis, we propose a method to jointly optimize the step size and the batch size to achieve (with high probability) monotonic improvement. Theoretical guarantees are accompanied by numerical simulations to analyze the behavior of the proposed algorithms.

I metodi 'policy gradient' ('gradiente della politica') rappresentano una delle tecniche più efficaci per risolvere problemi di controllo complessi. L'applicazione di questi metodi a sistemi reali rende necessario lo sviluppo di algoritmi, cosiddetti 'safe' (traducibile con 'prudenti'), capaci di garantire un miglioramento costante delle politiche che vengono provate nel corso dell'apprendimento. La ricerca su metodi policy gradient safe si è concentrata, finora, sulla scelta della 'step size', che regola l'entità degli aggiornamenti della politica. Un altro parametro importante è la 'batch size', il numero di campioni usati per stimare la direzione del gradiente per ciascun aggiornamento, la quale non ha ricevuto pari attenzioni fino ad ora. In questa tesi viene proposto un metodo per ottimizzare congiuntamente entrambi i parametri per ottenere (con probabilità elevata) un miglioramento costante della politica. I risultati teorici sono accompagnati da simulazioni numeriche volte ad analizzare il comportamento degli algoritmi proposti.

Adaptive batch size for safe policy gradient methods

PAPINI, MATTEO

2016/2017

Abstract

Policy gradient methods are among the best Reinforcement Learning techniques to solve complex control problems. The application of these methods to real systems call for safe algorithms, i.e., algorithms capable of guaranteeing a constant improvement of the policies that are tried during the learning process. The research on safe policy gradient methods has so far focused on the selection of the step size of policy updates. Another important parameter, which has not received the same attention so far, is the batch size, that is the number of samples used to estimate the gradient direction for each update. In this thesis, we propose a method to jointly optimize the step size and the batch size to achieve (with high probability) monotonic improvement. Theoretical guarantees are accompanied by numerical simulations to analyze the behavior of the proposed algorithms.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				PIROTTA, MATTEO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				27-lug-2017
			
	Anno accademico
	
				2016/2017
			
	Abstract in italiano
	
				I metodi 'policy gradient' ('gradiente della politica') rappresentano una delle tecniche più efficaci per risolvere problemi di controllo complessi. L'applicazione di questi metodi a sistemi reali rende necessario lo sviluppo di algoritmi, cosiddetti 'safe' (traducibile con 'prudenti'), capaci di garantire un miglioramento costante delle politiche che vengono provate nel corso dell'apprendimento. La ricerca su metodi policy gradient safe si è concentrata, finora, sulla scelta della 'step size', che regola l'entità degli aggiornamenti della politica. Un altro parametro importante è la 'batch size', il numero di campioni usati per stimare la direzione del gradiente per ciascun aggiornamento, la quale non ha ricevuto pari attenzioni fino ad ora. In questa tesi viene proposto un metodo per ottimizzare congiuntamente entrambi i parametri per ottenere (con probabilità elevata) un miglioramento costante della politica. I risultati teorici sono accompagnati da simulazioni numeriche volte ad analizzare il comportamento degli algoritmi proposti.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2017_7_Papini.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 1.48 MB Formato Adobe PDF Visualizza/Apri	1.48 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135142