State entropy maximization in POMDPs

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.

Nel campo del reinforcement learning, molti lavori hanno recentemente provato ad affrontare il problema della massimizzazione dell'entropia degli stati come obiettivo alternativo nei Markov Decision Processes, impiegato per l'esplorazione di ambienti sconosciuti in assenza di un reward esplicito. Questi lavori di solito presuppongono una totale osservabilità degli stati del sistema in questione. Ma cosa accade se l'agente ha accesso solamente a osservazioni parziali sul vero stato del sistema? La parziale osservabilità è un fattore impegnativo, e al contempo importante, nel reinforcement learning applicato a scenari nel modo reale, es. robot autonomi, sanità. La difficoltà intrinseca degli MDP Parzialmente Osservabili (POMDP) aumenta notevolmente la difficoltà dell'obiettivo di massimizzare l'entropia sugli stati veri di un sistema, in quanto si ha accesso solamente a parziale (se presente) informazione a riguardo. L'obiettivo di questa tesi è di definire quali sono i "giusti" obiettivi da massimizzare nello scenario POMDP, dando una panoramica degli vari approcci e dei casi in cui possono essere applicati. Diamo risultati teorici a supporto della correttezza delle nostre affermazioni in termini di differenza tra entropia sugli stati vera e quello che l'agente crede di a proposito, e una caratterizazzione del panorama di ottimizzazione. In ultimo proponiamo un approccio policy gradient per ottimizzare gli obiettivi proposti.

State entropy maximization in POMDPs

CIRINO, DUILIO

2022/2023

Abstract

In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				MUTTI, MIRCO
ZAMBONI, RICCARDO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				9-apr-2024
			
	Anno accademico
	
				2022/2023
			
	Abstract in italiano
	
				Nel campo del reinforcement learning, molti lavori hanno recentemente provato ad affrontare il problema della massimizzazione dell'entropia degli stati come obiettivo alternativo nei Markov Decision Processes, impiegato per l'esplorazione di ambienti sconosciuti in assenza di un reward esplicito. Questi lavori di solito presuppongono una totale osservabilità degli stati del sistema in questione. Ma cosa accade se l'agente ha accesso solamente a osservazioni parziali sul vero stato del sistema? La parziale osservabilità è un fattore impegnativo, e al contempo importante, nel reinforcement learning applicato a scenari nel modo reale, es. robot autonomi, sanità. La difficoltà intrinseca degli MDP Parzialmente Osservabili (POMDP) aumenta notevolmente la difficoltà dell'obiettivo di massimizzare l'entropia sugli stati veri di un sistema, in quanto si ha accesso solamente a parziale (se presente) informazione a riguardo. L'obiettivo di questa tesi è di definire quali sono  i "giusti" obiettivi da massimizzare nello scenario POMDP, dando una panoramica  degli vari approcci e dei casi in cui possono essere applicati. Diamo risultati teorici a supporto della correttezza delle nostre affermazioni in termini di differenza tra entropia sugli stati vera e quello che l'agente crede di a proposito, e una caratterizazzione del panorama di ottimizzazione. In ultimo proponiamo un approccio policy gradient per ottimizzare gli obiettivi proposti.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2024_04_Cirino_Tesi_01.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 2.4 MB Formato Adobe PDF Visualizza/Apri	2.4 MB	Adobe PDF	Visualizza/Apri
2024_04_Cirino_Executive Summary_02.pdf accessibile in internet per tutti Descrizione: Executive Summary Dimensione 865.96 kB Formato Adobe PDF Visualizza/Apri	865.96 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219731