Policy gradient methods are among the best Reinforcement Learning techniques to solve complex control problems. The application of these methods to real systems call for safe algorithms, i.e., algorithms capable of guaranteeing a constant improvement of the policies that are tried during the learning process. The research on safe policy gradient methods has so far focused on the selection of the step size of policy updates. Another important parameter, which has not received the same attention so far, is the batch size, that is the number of samples used to estimate the gradient direction for each update. In this thesis, we propose a method to jointly optimize the step size and the batch size to achieve (with high probability) monotonic improvement. Theoretical guarantees are accompanied by numerical simulations to analyze the behavior of the proposed algorithms.

I metodi 'policy gradient' ('gradiente della politica') rappresentano una delle tecniche più efficaci per risolvere problemi di controllo complessi. L'applicazione di questi metodi a sistemi reali rende necessario lo sviluppo di algoritmi, cosiddetti 'safe' (traducibile con 'prudenti'), capaci di garantire un miglioramento costante delle politiche che vengono provate nel corso dell'apprendimento. La ricerca su metodi policy gradient safe si è concentrata, finora, sulla scelta della 'step size', che regola l'entità degli aggiornamenti della politica. Un altro parametro importante è la 'batch size', il numero di campioni usati per stimare la direzione del gradiente per ciascun aggiornamento, la quale non ha ricevuto pari attenzioni fino ad ora. In questa tesi viene proposto un metodo per ottimizzare congiuntamente entrambi i parametri per ottenere (con probabilità elevata) un miglioramento costante della politica. I risultati teorici sono accompagnati da simulazioni numeriche volte ad analizzare il comportamento degli algoritmi proposti.

Adaptive batch size for safe policy gradient methods

PAPINI, MATTEO
2016/2017

Abstract

Policy gradient methods are among the best Reinforcement Learning techniques to solve complex control problems. The application of these methods to real systems call for safe algorithms, i.e., algorithms capable of guaranteeing a constant improvement of the policies that are tried during the learning process. The research on safe policy gradient methods has so far focused on the selection of the step size of policy updates. Another important parameter, which has not received the same attention so far, is the batch size, that is the number of samples used to estimate the gradient direction for each update. In this thesis, we propose a method to jointly optimize the step size and the batch size to achieve (with high probability) monotonic improvement. Theoretical guarantees are accompanied by numerical simulations to analyze the behavior of the proposed algorithms.
PIROTTA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-lug-2017
2016/2017
I metodi 'policy gradient' ('gradiente della politica') rappresentano una delle tecniche più efficaci per risolvere problemi di controllo complessi. L'applicazione di questi metodi a sistemi reali rende necessario lo sviluppo di algoritmi, cosiddetti 'safe' (traducibile con 'prudenti'), capaci di garantire un miglioramento costante delle politiche che vengono provate nel corso dell'apprendimento. La ricerca su metodi policy gradient safe si è concentrata, finora, sulla scelta della 'step size', che regola l'entità degli aggiornamenti della politica. Un altro parametro importante è la 'batch size', il numero di campioni usati per stimare la direzione del gradiente per ciascun aggiornamento, la quale non ha ricevuto pari attenzioni fino ad ora. In questa tesi viene proposto un metodo per ottimizzare congiuntamente entrambi i parametri per ottenere (con probabilità elevata) un miglioramento costante della politica. I risultati teorici sono accompagnati da simulazioni numeriche volte ad analizzare il comportamento degli algoritmi proposti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_7_Papini.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 1.48 MB
Formato Adobe PDF
1.48 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135142