A study of importance sampling techniques for policy optimization

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Policy optimization is an effective reinforcement learning approach to solve continuous control tasks. Recent achievements have shown that alternating online and offline optimization is a successful choice for efficient trajectory reuse. However, deciding when to stop optimizing and collect new trajectories is non-trivial, as it requires to account for the variance of the objective function estimate. In this work, we propose a novel, model-free, policy search algorithm, POIS, applicable in both action-based and parameter-based settings. We first derive a high-confidence bound for importance sampling estimation; then we define a surrogate objective function, which is optimized offline whenever a new batch of trajectories is collected. Finally, the algorithm is tested on a selection of continuous control tasks, with both linear and deep policies, and compared with state-of-the-art policy optimization methods.

I metodi di ottimizzazione della politica si sono rivelati essere degli approcci molto effettivi per la soluzioni di problemi di controllo continuo nell'apprendimento per rinforzo. Alcuni recenti risultati hanno mostrato che alternare l'ottimizzazione online e offline è una scelta di successo per riutilizzare l'informazione proveniente da una traiettoria. Tuttavia, decidere quando fermare il processo di ottimizzazione ed iniziare a raccogliere nuove traiettorie non è banale, in quanto deve tenere conto della varianza della funzione obiettivo stimata. In questo lavoro, proponiamo un nuovo algoritmo di ricerca della politica, POIS, che può essere applicato sia nel setting delle azioni che in quello di parametri. Per prima cosa, deriviamo un limite inferiore per la stima da campionamento di importanza; poi definiamo una funzione obiettivo surrogata, che viene ottimizzata offline quando un nuovo gruppo di traiettorie viene raccolto. Infine, l'algoritmo è testato su una selezione di problemi di controllo continuo, sia usano politiche lineari, che usando Reti Neurali profonde, e confrontato con lo stato dell'arte dei metodi di ottimizzazione della politica.

A study of importance sampling techniques for policy optimization

FACCIO, FRANCESCO

2017/2018

Abstract

Policy optimization is an effective reinforcement learning approach to solve continuous control tasks. Recent achievements have shown that alternating online and offline optimization is a successful choice for efficient trajectory reuse. However, deciding when to stop optimizing and collect new trajectories is non-trivial, as it requires to account for the variance of the objective function estimate. In this work, we propose a novel, model-free, policy search algorithm, POIS, applicable in both action-based and parameter-based settings. We first derive a high-confidence bound for importance sampling estimation; then we define a surrogate objective function, which is optimized offline whenever a new batch of trajectories is collected. Finally, the algorithm is tested on a selection of continuous control tasks, with both linear and deep policies, and compared with state-of-the-art policy optimization methods.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				METELLI, ALBERTO MARIA
PAPINI, MATTEO
SCHMIDHUBER, JÜRGEN
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				20-dic-2018
			
	Anno accademico
	
				2017/2018
			
	Abstract in italiano
	
				I metodi di ottimizzazione della politica si sono rivelati essere degli approcci molto effettivi per la soluzioni di problemi di controllo continuo nell'apprendimento per rinforzo. Alcuni recenti risultati hanno mostrato che alternare l'ottimizzazione online e offline è una scelta di successo per riutilizzare l'informazione proveniente da una traiettoria. Tuttavia, decidere quando fermare il processo di ottimizzazione ed iniziare a raccogliere nuove traiettorie non è banale, in quanto deve tenere conto della varianza della funzione obiettivo stimata. In questo lavoro, proponiamo un nuovo algoritmo di ricerca della politica, POIS, che può essere applicato sia nel setting delle azioni che in quello di parametri.
Per prima cosa, deriviamo un limite inferiore per la stima da campionamento di importanza; poi definiamo una funzione obiettivo surrogata, che viene ottimizzata offline quando un nuovo gruppo di traiettorie viene raccolto. Infine, l'algoritmo è testato su una selezione di problemi di controllo continuo, sia usano politiche lineari, che usando Reti Neurali profonde, e confrontato con lo stato dell'arte dei metodi di ottimizzazione della politica.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Thesis_POIS.pdf accessibile in internet per tutti Dimensione 1.21 MB Formato Adobe PDF Visualizza/Apri	1.21 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144389