Planning in stochastic environments through policy optimization with mediator feedback

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Within the domain of Reinforcement Learning, the task of online planning in continuous stochastic environments has proven to be challenging. Over the years, many sparse-lookahead-tree-based methods have been designed to solve this problem, followed by the more optimization-oriented policy-search-based planners. The goal of this thesis is to develop a policy-search-based online planning algorithm which employs a randomized exploration strategy combined with multiple importance sampling estimation. We develop a continuous bandit algorithm (a sample-based optimizer of stochastic functions defined over compact sets), providing a theoretical analysis of its properties. We employ our algorithm as the core policy optimizer in a policy-search-based planner, testing its performance on two benchmark environments taken from the literature. We compare the performance of our algorithm with that of two the state-of-the-art solutions, showing that it can achieve good, yet not optimal, results for large budget values and showing that it can outperform a deterministic approach when limited budget is available.

Nell'ambito del Reinforcement Learning, un problema che negli anni si è dimostrato essere particolarmente complesso è quello del planning sequenziale in ambienti continui con transizioni stocastiche. Negli anni sono stati sviluppati diversi algoritmi pianificatori basati su sparse-lookahead-trees, seguiti dai metodi basati sulla policy search, un approccio più vicino alla più generica ottimizzazione di funzioni stocastiche. Lo scopo di questa tesi è quello di sviluppare un algoritmo pianificatore basato su policy search che adotti una strategia di esplorazione probabilistica combinata con l'impiego di stimatori basati su multiple importance sampling. Abbiamo sviluppato un algoritmo bandit continuo (un ottimizzatore di funzioni stocastiche definite su spazi compatti basato su campionamento), fornendo un'analisi teorica delle sue proprietà. Abbiamo sviluppato un algoritmo pianificatore il cui funzionamento interno si basa sul nostro algoritmo bandit, testandone le performance su due ambienti di benchmark presi dalla letteratura inerente. Abbiamo infine comparato la performance del nostro pianificatore con quella di due algoritmi rappresentanti l'attuale stato dell'arte, mostrando che il nostro algoritmo può ottenere buoni risultati, seppure non ottimi, quando ha a disposizione un budget elevato e che può ottenere risultati migliori rispetto a un approccio deterministico quando ha a disposizione un budget limitato.

Planning in stochastic environments through policy optimization with mediator feedback

GERMANO, JACOPO

2020/2021

Abstract

Within the domain of Reinforcement Learning, the task of online planning in continuous stochastic environments has proven to be challenging. Over the years, many sparse-lookahead-tree-based methods have been designed to solve this problem, followed by the more optimization-oriented policy-search-based planners. The goal of this thesis is to develop a policy-search-based online planning algorithm which employs a randomized exploration strategy combined with multiple importance sampling estimation. We develop a continuous bandit algorithm (a sample-based optimizer of stochastic functions defined over compact sets), providing a theoretical analysis of its properties. We employ our algorithm as the core policy optimizer in a policy-search-based planner, testing its performance on two benchmark environments taken from the literature. We compare the performance of our algorithm with that of two the state-of-the-art solutions, showing that it can achieve good, yet not optimal, results for large budget values and showing that it can outperform a deterministic approach when limited budget is available.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				LIKMETA, AMARILDO
METELLI, ALBERTO MARIA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				7-ott-2021
			
	Anno accademico
	
				2020/2021
			
	Abstract in italiano
	
				Nell'ambito del Reinforcement Learning, un problema che negli anni si è dimostrato essere particolarmente complesso è quello del planning sequenziale in ambienti continui con transizioni stocastiche. Negli anni sono stati sviluppati diversi algoritmi pianificatori basati su sparse-lookahead-trees, seguiti dai metodi basati sulla policy search, un approccio più vicino alla più generica ottimizzazione di funzioni stocastiche. Lo scopo di questa tesi è quello di sviluppare un algoritmo pianificatore basato su policy search che adotti una strategia di esplorazione probabilistica combinata con l'impiego di stimatori basati su multiple importance sampling. Abbiamo sviluppato un algoritmo bandit continuo (un ottimizzatore di funzioni stocastiche definite su spazi compatti basato su campionamento), fornendo un'analisi teorica delle sue proprietà. Abbiamo sviluppato un algoritmo pianificatore il cui funzionamento interno si basa sul nostro algoritmo bandit, testandone le performance su due ambienti di benchmark presi dalla letteratura inerente. Abbiamo infine comparato la performance del nostro pianificatore con quella di due algoritmi rappresentanti l'attuale stato dell'arte, mostrando che il nostro algoritmo può ottenere buoni risultati, seppure non ottimi, quando ha a disposizione un budget elevato e che può ottenere risultati migliori rispetto a un approccio deterministico quando ha a disposizione un budget limitato.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2021_09_Germano.PDF Open Access dal 17/09/2022 Descrizione: Tesi Dimensione 1.55 MB Formato Adobe PDF Visualizza/Apri	1.55 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179755