In the context of Markov Decision Processes (MDPs) with linear Bellman completeness, a generalization of linear MDPs, the learning capabilities of a \emph{greedy} algorithm are reconsidered. The motivation is that, when exploration is costly or dangerous, an exploration-free approach may be preferable to optimistic or randomized solutions. In this thesis is shown that, under a condition of sufficient diversity in the feature distribution, Least-Squares Value Iteration (LSVI) can achieve sublinear regret. Specifically, the expected cumulative regret is at most \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), where \( K \) is the number of episodes, $H$ is the task horizon, $d$ is the dimension of the feature map and $\lambda_0$ is a measure of feature diversity. The theoretical findings are empirically validated on synthetic linear MDPs. This analysis is a first step towards exploration-free reinforcement learning in MDPs with large state spaces.
Nel contesto dei Markov Decision Processes (MDPs) con linear Bellman completeness, una generalizzazione dei linear MDPs, le capacità di apprendimento di un algoritmo \emph{greedy} vengono riconsiderate. La motivazione è che, quando l’esplorazione è costosa o rischiosa, un approccio privo di esplorazione può essere preferibile rispetto a soluzioni ottimistiche o casuali. In questa tesi si dimostra che, sotto una condizione di sufficiente diversità nella distribuzione delle features, Least-Squares Value Iteration (LSVI) può raggiungere un regret sublineare. In particolare, il regret cumulativo atteso è al massimo \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), dove \( K \) è il numero di episodi, \( H \) è l'orizzonte, \( d \) è la dimensione delle features e \( \lambda_0 \) è una misura della diversità delle features. I risultati teorici sono validati empiricamente su linear MDPs sintetici. Questa analisi rappresenta un primo passo verso il reinforcement learning senza esplorazione in MDPs con spazi degli stati ampi.
Exploration-free reinforcement learning with linear function approximation
CIVITAVECCHIA, LUCA
2023/2024
Abstract
In the context of Markov Decision Processes (MDPs) with linear Bellman completeness, a generalization of linear MDPs, the learning capabilities of a \emph{greedy} algorithm are reconsidered. The motivation is that, when exploration is costly or dangerous, an exploration-free approach may be preferable to optimistic or randomized solutions. In this thesis is shown that, under a condition of sufficient diversity in the feature distribution, Least-Squares Value Iteration (LSVI) can achieve sublinear regret. Specifically, the expected cumulative regret is at most \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), where \( K \) is the number of episodes, $H$ is the task horizon, $d$ is the dimension of the feature map and $\lambda_0$ is a measure of feature diversity. The theoretical findings are empirically validated on synthetic linear MDPs. This analysis is a first step towards exploration-free reinforcement learning in MDPs with large state spaces.File | Dimensione | Formato | |
---|---|---|---|
2024_12_Civitavecchia_Tesi.pdf
accessibile in internet per tutti
Descrizione: Tesi
Dimensione
1.37 MB
Formato
Adobe PDF
|
1.37 MB | Adobe PDF | Visualizza/Apri |
2024_12_Civitavecchia_Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
709.84 kB
Formato
Adobe PDF
|
709.84 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/229923