In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.

Nel campo del reinforcement learning, molti lavori hanno recentemente provato ad affrontare il problema della massimizzazione dell'entropia degli stati come obiettivo alternativo nei Markov Decision Processes, impiegato per l'esplorazione di ambienti sconosciuti in assenza di un reward esplicito. Questi lavori di solito presuppongono una totale osservabilità degli stati del sistema in questione. Ma cosa accade se l'agente ha accesso solamente a osservazioni parziali sul vero stato del sistema? La parziale osservabilità è un fattore impegnativo, e al contempo importante, nel reinforcement learning applicato a scenari nel modo reale, es. robot autonomi, sanità. La difficoltà intrinseca degli MDP Parzialmente Osservabili (POMDP) aumenta notevolmente la difficoltà dell'obiettivo di massimizzare l'entropia sugli stati veri di un sistema, in quanto si ha accesso solamente a parziale (se presente) informazione a riguardo. L'obiettivo di questa tesi è di definire quali sono i "giusti" obiettivi da massimizzare nello scenario POMDP, dando una panoramica degli vari approcci e dei casi in cui possono essere applicati. Diamo risultati teorici a supporto della correttezza delle nostre affermazioni in termini di differenza tra entropia sugli stati vera e quello che l'agente crede di a proposito, e una caratterizazzione del panorama di ottimizzazione. In ultimo proponiamo un approccio policy gradient per ottimizzare gli obiettivi proposti.

State entropy maximization in POMDPs

CIRINO, DUILIO
2022/2023

Abstract

In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.
MUTTI, MIRCO
ZAMBONI, RICCARDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Nel campo del reinforcement learning, molti lavori hanno recentemente provato ad affrontare il problema della massimizzazione dell'entropia degli stati come obiettivo alternativo nei Markov Decision Processes, impiegato per l'esplorazione di ambienti sconosciuti in assenza di un reward esplicito. Questi lavori di solito presuppongono una totale osservabilità degli stati del sistema in questione. Ma cosa accade se l'agente ha accesso solamente a osservazioni parziali sul vero stato del sistema? La parziale osservabilità è un fattore impegnativo, e al contempo importante, nel reinforcement learning applicato a scenari nel modo reale, es. robot autonomi, sanità. La difficoltà intrinseca degli MDP Parzialmente Osservabili (POMDP) aumenta notevolmente la difficoltà dell'obiettivo di massimizzare l'entropia sugli stati veri di un sistema, in quanto si ha accesso solamente a parziale (se presente) informazione a riguardo. L'obiettivo di questa tesi è di definire quali sono i "giusti" obiettivi da massimizzare nello scenario POMDP, dando una panoramica degli vari approcci e dei casi in cui possono essere applicati. Diamo risultati teorici a supporto della correttezza delle nostre affermazioni in termini di differenza tra entropia sugli stati vera e quello che l'agente crede di a proposito, e una caratterizazzione del panorama di ottimizzazione. In ultimo proponiamo un approccio policy gradient per ottimizzare gli obiettivi proposti.
File allegati
File Dimensione Formato  
2024_04_Cirino_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.4 MB
Formato Adobe PDF
2.4 MB Adobe PDF Visualizza/Apri
2024_04_Cirino_Executive Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 865.96 kB
Formato Adobe PDF
865.96 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219731