Within the domain of Reinforcement Learning, the task of online planning in continuous stochastic environments has proven to be challenging. Over the years, many sparse-lookahead-tree-based methods have been designed to solve this problem, followed by the more optimization-oriented policy-search-based planners. The goal of this thesis is to develop a policy-search-based online planning algorithm which employs a randomized exploration strategy combined with multiple importance sampling estimation. We develop a continuous bandit algorithm (a sample-based optimizer of stochastic functions defined over compact sets), providing a theoretical analysis of its properties. We employ our algorithm as the core policy optimizer in a policy-search-based planner, testing its performance on two benchmark environments taken from the literature. We compare the performance of our algorithm with that of two the state-of-the-art solutions, showing that it can achieve good, yet not optimal, results for large budget values and showing that it can outperform a deterministic approach when limited budget is available.

Nell'ambito del Reinforcement Learning, un problema che negli anni si è dimostrato essere particolarmente complesso è quello del planning sequenziale in ambienti continui con transizioni stocastiche. Negli anni sono stati sviluppati diversi algoritmi pianificatori basati su sparse-lookahead-trees, seguiti dai metodi basati sulla policy search, un approccio più vicino alla più generica ottimizzazione di funzioni stocastiche. Lo scopo di questa tesi è quello di sviluppare un algoritmo pianificatore basato su policy search che adotti una strategia di esplorazione probabilistica combinata con l'impiego di stimatori basati su multiple importance sampling. Abbiamo sviluppato un algoritmo bandit continuo (un ottimizzatore di funzioni stocastiche definite su spazi compatti basato su campionamento), fornendo un'analisi teorica delle sue proprietà. Abbiamo sviluppato un algoritmo pianificatore il cui funzionamento interno si basa sul nostro algoritmo bandit, testandone le performance su due ambienti di benchmark presi dalla letteratura inerente. Abbiamo infine comparato la performance del nostro pianificatore con quella di due algoritmi rappresentanti l'attuale stato dell'arte, mostrando che il nostro algoritmo può ottenere buoni risultati, seppure non ottimi, quando ha a disposizione un budget elevato e che può ottenere risultati migliori rispetto a un approccio deterministico quando ha a disposizione un budget limitato.

Planning in stochastic environments through policy optimization with mediator feedback

GERMANO, JACOPO
2020/2021

Abstract

Within the domain of Reinforcement Learning, the task of online planning in continuous stochastic environments has proven to be challenging. Over the years, many sparse-lookahead-tree-based methods have been designed to solve this problem, followed by the more optimization-oriented policy-search-based planners. The goal of this thesis is to develop a policy-search-based online planning algorithm which employs a randomized exploration strategy combined with multiple importance sampling estimation. We develop a continuous bandit algorithm (a sample-based optimizer of stochastic functions defined over compact sets), providing a theoretical analysis of its properties. We employ our algorithm as the core policy optimizer in a policy-search-based planner, testing its performance on two benchmark environments taken from the literature. We compare the performance of our algorithm with that of two the state-of-the-art solutions, showing that it can achieve good, yet not optimal, results for large budget values and showing that it can outperform a deterministic approach when limited budget is available.
LIKMETA, AMARILDO
METELLI, ALBERTO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-ott-2021
2020/2021
Nell'ambito del Reinforcement Learning, un problema che negli anni si è dimostrato essere particolarmente complesso è quello del planning sequenziale in ambienti continui con transizioni stocastiche. Negli anni sono stati sviluppati diversi algoritmi pianificatori basati su sparse-lookahead-trees, seguiti dai metodi basati sulla policy search, un approccio più vicino alla più generica ottimizzazione di funzioni stocastiche. Lo scopo di questa tesi è quello di sviluppare un algoritmo pianificatore basato su policy search che adotti una strategia di esplorazione probabilistica combinata con l'impiego di stimatori basati su multiple importance sampling. Abbiamo sviluppato un algoritmo bandit continuo (un ottimizzatore di funzioni stocastiche definite su spazi compatti basato su campionamento), fornendo un'analisi teorica delle sue proprietà. Abbiamo sviluppato un algoritmo pianificatore il cui funzionamento interno si basa sul nostro algoritmo bandit, testandone le performance su due ambienti di benchmark presi dalla letteratura inerente. Abbiamo infine comparato la performance del nostro pianificatore con quella di due algoritmi rappresentanti l'attuale stato dell'arte, mostrando che il nostro algoritmo può ottenere buoni risultati, seppure non ottimi, quando ha a disposizione un budget elevato e che può ottenere risultati migliori rispetto a un approccio deterministico quando ha a disposizione un budget limitato.
File allegati
File Dimensione Formato  
2021_09_Germano.PDF

Open Access dal 17/09/2022

Descrizione: Tesi
Dimensione 1.55 MB
Formato Adobe PDF
1.55 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179755