Off-policy methods are the basis of a large number of effective Policy Optimization algorithms. In this setting, Importance Sampling is typically employed as a what-if analysis tool, with the goal of estimating the performance of a target policy, given samples collected with a different behavioral policy. However, in Monte Carlo simulation, Importance Sampling represents a variance minimization approach. In this field, a suitable behavioral distribution is employed for sampling, allowing diminishing the variance of the estimator below the one achievable when sampling from the target distribution. In this thesis, Importance Sampling is analyzed in these two guises, showing the connections between the two objectives. It is shown that variance minimization can be used as a performance improvement tool, with the advantage, compared with direct off-policy learning, of implicitly enforcing a trust region. These theoretical findings are used to build a novel Policy Optimization algorithm, Policy Optimization via Optimal Policy Evaluation (PO2PE), that employs variance minimization as an inner loop. Finally, empirical evaluations on continuous Reinforcement Learning benchmarks are presented, with a particular focus on the robustness to small batch sizes.

Un considerevole numero di algoritmi di Ottimizzazione della Politica si affida, con successo, a metodi off-policy. In tale contesto, la tecnica dell'Importance Sampling è generalmente sfruttata come uno strumento passivo di analisi. Infatti, partendo dall'esperienza generata eseguendo una politica comportamentale, essa consente di stimare la performance di una diversa politica target. Tuttavia, nelle simulazioni Monte Carlo, l'Importance Sampling rappresenta una tecnica di riduzione della varianza. In questo ambito, il campionamento avviene da un'idonea distribuzione comportamentale, permettendo così di diminuire la varianza dello stimatore rispetto ad un campionamento dalla distribuzione target. In questo lavoro di tesi, la duplice natura dell'Importance Sampling viene approfondita, mostrando le relazioni che sussistono tra i due obiettivi. Viene infatti dimostrato che la minimizzazione della varianza può essere utilizzata come strumento di miglioramento della performance. Inoltre, rispetto ad approcci off-policy tradizionali, tale intuizione fornisce il vantaggio aggiuntivo di indurre una regione di confidenza implicita. Tali proprietà teoriche sono tradotte in un nuovo algoritmo di ottimizzazione della politica, detto Policy Optimization via Optimal Policy Evaluation (PO2PE), che impiega la minimizzazione della varianza in un ciclo interno. Infine, sono presentate evidenze sperimentali sui classici benchmark dell'Apprendimento per Rinforzo, con particolare attenzione alla stabilità del motodo, anche a fronte di uno scarso numero di campioni.

Optimal policy evaluation for policy optimization

Meta, Samuele
2020/2021

Abstract

Off-policy methods are the basis of a large number of effective Policy Optimization algorithms. In this setting, Importance Sampling is typically employed as a what-if analysis tool, with the goal of estimating the performance of a target policy, given samples collected with a different behavioral policy. However, in Monte Carlo simulation, Importance Sampling represents a variance minimization approach. In this field, a suitable behavioral distribution is employed for sampling, allowing diminishing the variance of the estimator below the one achievable when sampling from the target distribution. In this thesis, Importance Sampling is analyzed in these two guises, showing the connections between the two objectives. It is shown that variance minimization can be used as a performance improvement tool, with the advantage, compared with direct off-policy learning, of implicitly enforcing a trust region. These theoretical findings are used to build a novel Policy Optimization algorithm, Policy Optimization via Optimal Policy Evaluation (PO2PE), that employs variance minimization as an inner loop. Finally, empirical evaluations on continuous Reinforcement Learning benchmarks are presented, with a particular focus on the robustness to small batch sizes.
METELLI, ALBERTO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
Un considerevole numero di algoritmi di Ottimizzazione della Politica si affida, con successo, a metodi off-policy. In tale contesto, la tecnica dell'Importance Sampling è generalmente sfruttata come uno strumento passivo di analisi. Infatti, partendo dall'esperienza generata eseguendo una politica comportamentale, essa consente di stimare la performance di una diversa politica target. Tuttavia, nelle simulazioni Monte Carlo, l'Importance Sampling rappresenta una tecnica di riduzione della varianza. In questo ambito, il campionamento avviene da un'idonea distribuzione comportamentale, permettendo così di diminuire la varianza dello stimatore rispetto ad un campionamento dalla distribuzione target. In questo lavoro di tesi, la duplice natura dell'Importance Sampling viene approfondita, mostrando le relazioni che sussistono tra i due obiettivi. Viene infatti dimostrato che la minimizzazione della varianza può essere utilizzata come strumento di miglioramento della performance. Inoltre, rispetto ad approcci off-policy tradizionali, tale intuizione fornisce il vantaggio aggiuntivo di indurre una regione di confidenza implicita. Tali proprietà teoriche sono tradotte in un nuovo algoritmo di ottimizzazione della politica, detto Policy Optimization via Optimal Policy Evaluation (PO2PE), che impiega la minimizzazione della varianza in un ciclo interno. Infine, sono presentate evidenze sperimentali sui classici benchmark dell'Apprendimento per Rinforzo, con particolare attenzione alla stabilità del motodo, anche a fronte di uno scarso numero di campioni.
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet per tutti

Dimensione 1.46 MB
Formato Adobe PDF
1.46 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177324