Policy optimization is an effective reinforcement learning approach to solve continuous control tasks. Recent achievements have shown that alternating online and offline optimization is a successful choice for efficient trajectory reuse. However, deciding when to stop optimizing and collect new trajectories is non-trivial, as it requires to account for the variance of the objective function estimate. In this work, we propose a novel, model-free, policy search algorithm, POIS, applicable in both action-based and parameter-based settings. We first derive a high-confidence bound for importance sampling estimation; then we define a surrogate objective function, which is optimized offline whenever a new batch of trajectories is collected. Finally, the algorithm is tested on a selection of continuous control tasks, with both linear and deep policies, and compared with state-of-the-art policy optimization methods.

I metodi di ottimizzazione della politica si sono rivelati essere degli approcci molto effettivi per la soluzioni di problemi di controllo continuo nell'apprendimento per rinforzo. Alcuni recenti risultati hanno mostrato che alternare l'ottimizzazione online e offline è una scelta di successo per riutilizzare l'informazione proveniente da una traiettoria. Tuttavia, decidere quando fermare il processo di ottimizzazione ed iniziare a raccogliere nuove traiettorie non è banale, in quanto deve tenere conto della varianza della funzione obiettivo stimata. In questo lavoro, proponiamo un nuovo algoritmo di ricerca della politica, POIS, che può essere applicato sia nel setting delle azioni che in quello di parametri. Per prima cosa, deriviamo un limite inferiore per la stima da campionamento di importanza; poi definiamo una funzione obiettivo surrogata, che viene ottimizzata offline quando un nuovo gruppo di traiettorie viene raccolto. Infine, l'algoritmo è testato su una selezione di problemi di controllo continuo, sia usano politiche lineari, che usando Reti Neurali profonde, e confrontato con lo stato dell'arte dei metodi di ottimizzazione della politica.

A study of importance sampling techniques for policy optimization

FACCIO, FRANCESCO
2017/2018

Abstract

Policy optimization is an effective reinforcement learning approach to solve continuous control tasks. Recent achievements have shown that alternating online and offline optimization is a successful choice for efficient trajectory reuse. However, deciding when to stop optimizing and collect new trajectories is non-trivial, as it requires to account for the variance of the objective function estimate. In this work, we propose a novel, model-free, policy search algorithm, POIS, applicable in both action-based and parameter-based settings. We first derive a high-confidence bound for importance sampling estimation; then we define a surrogate objective function, which is optimized offline whenever a new batch of trajectories is collected. Finally, the algorithm is tested on a selection of continuous control tasks, with both linear and deep policies, and compared with state-of-the-art policy optimization methods.
METELLI, ALBERTO MARIA
PAPINI, MATTEO
SCHMIDHUBER, JÜRGEN
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
I metodi di ottimizzazione della politica si sono rivelati essere degli approcci molto effettivi per la soluzioni di problemi di controllo continuo nell'apprendimento per rinforzo. Alcuni recenti risultati hanno mostrato che alternare l'ottimizzazione online e offline è una scelta di successo per riutilizzare l'informazione proveniente da una traiettoria. Tuttavia, decidere quando fermare il processo di ottimizzazione ed iniziare a raccogliere nuove traiettorie non è banale, in quanto deve tenere conto della varianza della funzione obiettivo stimata. In questo lavoro, proponiamo un nuovo algoritmo di ricerca della politica, POIS, che può essere applicato sia nel setting delle azioni che in quello di parametri. Per prima cosa, deriviamo un limite inferiore per la stima da campionamento di importanza; poi definiamo una funzione obiettivo surrogata, che viene ottimizzata offline quando un nuovo gruppo di traiettorie viene raccolto. Infine, l'algoritmo è testato su una selezione di problemi di controllo continuo, sia usano politiche lineari, che usando Reti Neurali profonde, e confrontato con lo stato dell'arte dei metodi di ottimizzazione della politica.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Thesis_POIS.pdf

accessibile in internet per tutti

Dimensione 1.21 MB
Formato Adobe PDF
1.21 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144389