In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.
Nel campo del reinforcement learning, molti lavori hanno recentemente provato ad affrontare il problema della massimizzazione dell'entropia degli stati come obiettivo alternativo nei Markov Decision Processes, impiegato per l'esplorazione di ambienti sconosciuti in assenza di un reward esplicito. Questi lavori di solito presuppongono una totale osservabilità degli stati del sistema in questione. Ma cosa accade se l'agente ha accesso solamente a osservazioni parziali sul vero stato del sistema? La parziale osservabilità è un fattore impegnativo, e al contempo importante, nel reinforcement learning applicato a scenari nel modo reale, es. robot autonomi, sanità. La difficoltà intrinseca degli MDP Parzialmente Osservabili (POMDP) aumenta notevolmente la difficoltà dell'obiettivo di massimizzare l'entropia sugli stati veri di un sistema, in quanto si ha accesso solamente a parziale (se presente) informazione a riguardo. L'obiettivo di questa tesi è di definire quali sono i "giusti" obiettivi da massimizzare nello scenario POMDP, dando una panoramica degli vari approcci e dei casi in cui possono essere applicati. Diamo risultati teorici a supporto della correttezza delle nostre affermazioni in termini di differenza tra entropia sugli stati vera e quello che l'agente crede di a proposito, e una caratterizazzione del panorama di ottimizzazione. In ultimo proponiamo un approccio policy gradient per ottimizzare gli obiettivi proposti.
State entropy maximization in POMDPs
CIRINO, DUILIO
2022/2023
Abstract
In the area of reinforcement learning, several recent works addressed the problem of state entropy maximization as a learning objective in Markov Decision Processes (MDPs), to perform pure exploration of an unknown environment in the absence of external rewards. These works usually assume full observability over the state of the MDP. But what happens if the agent has access only to partial observations over the true state of the MDP? Partial observability is a challenging, yet very important, factor when it comes to reinforcement learning applied to real-world scenarios, e.g., autonomous robots and healthcare. The intrinsic hardness of Partially Observable MDPs (POMDPs) substantially increases the complexity of maximizing the entropy over the true states, since we have access only to partial (if any) information about them. The goal of this thesis is to address which are the "right'' objectives to maximize in this POMDP scenario, giving a general overview of the alternative approaches and the cases in which they can be applied. We provide theoretical results to support the soundness of our statements in terms of the gap between the entropy on the true states and what the agent believes about them, and characterization of the optimization landscape. Finally, we propose a policy gradient approach in order to optimize the described approaches.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Cirino_Tesi_01.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
2.4 MB
Formato
Adobe PDF
|
2.4 MB | Adobe PDF | Visualizza/Apri |
2024_04_Cirino_Executive Summary_02.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
865.96 kB
Formato
Adobe PDF
|
865.96 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/219731