Exploration-free reinforcement learning with linear function approximation

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In the context of Markov Decision Processes (MDPs) with linear Bellman completeness, a generalization of linear MDPs, the learning capabilities of a \emph{greedy} algorithm are reconsidered. The motivation is that, when exploration is costly or dangerous, an exploration-free approach may be preferable to optimistic or randomized solutions. In this thesis is shown that, under a condition of sufficient diversity in the feature distribution, Least-Squares Value Iteration (LSVI) can achieve sublinear regret. Specifically, the expected cumulative regret is at most \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), where \( K \) is the number of episodes, $H$ is the task horizon, $d$ is the dimension of the feature map and $\lambda_0$ is a measure of feature diversity. The theoretical findings are empirically validated on synthetic linear MDPs. This analysis is a first step towards exploration-free reinforcement learning in MDPs with large state spaces.

Nel contesto dei Markov Decision Processes (MDPs) con linear Bellman completeness, una generalizzazione dei linear MDPs, le capacità di apprendimento di un algoritmo \emph{greedy} vengono riconsiderate. La motivazione è che, quando l’esplorazione è costosa o rischiosa, un approccio privo di esplorazione può essere preferibile rispetto a soluzioni ottimistiche o casuali. In questa tesi si dimostra che, sotto una condizione di sufficiente diversità nella distribuzione delle features, Least-Squares Value Iteration (LSVI) può raggiungere un regret sublineare. In particolare, il regret cumulativo atteso è al massimo \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), dove \( K \) è il numero di episodi, \( H \) è l'orizzonte, \( d \) è la dimensione delle features e \( \lambda_0 \) è una misura della diversità delle features. I risultati teorici sono validati empiricamente su linear MDPs sintetici. Questa analisi rappresenta un primo passo verso il reinforcement learning senza esplorazione in MDPs con spazi degli stati ampi.

Exploration-free reinforcement learning with linear function approximation

CIVITAVECCHIA, LUCA

2023/2024

Abstract

In the context of Markov Decision Processes (MDPs) with linear Bellman completeness, a generalization of linear MDPs, the learning capabilities of a \emph{greedy} algorithm are reconsidered. The motivation is that, when exploration is costly or dangerous, an exploration-free approach may be preferable to optimistic or randomized solutions. In this thesis is shown that, under a condition of sufficient diversity in the feature distribution, Least-Squares Value Iteration (LSVI) can achieve sublinear regret. Specifically, the expected cumulative regret is at most \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), where \( K \) is the number of episodes, $H$ is the task horizon, $d$ is the dimension of the feature map and $\lambda_0$ is a measure of feature diversity. The theoretical findings are empirically validated on synthetic linear MDPs. This analysis is a first step towards exploration-free reinforcement learning in MDPs with large state spaces.

Scheda breve

Scheda completa

	Relatore
	
				Papini, Matteo
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				11-dic-2024
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				Nel contesto dei Markov Decision Processes (MDPs) con linear Bellman completeness, una generalizzazione dei linear MDPs, le capacità di apprendimento di un algoritmo \emph{greedy} vengono riconsiderate.
La motivazione è che, quando l’esplorazione è costosa o rischiosa, un approccio privo di esplorazione può essere preferibile rispetto a soluzioni ottimistiche o casuali. In questa tesi si dimostra che, sotto una condizione di sufficiente diversità nella distribuzione delle features, Least-Squares Value Iteration (LSVI) può raggiungere un regret sublineare.
In particolare, il regret cumulativo atteso è al massimo \( \mathcal{\tilde{O}}(H^3\sqrt{dK/\lambda_0}) \), dove \( K \) è il numero di episodi, \( H \) è l'orizzonte, \( d \) è la dimensione delle features e \( \lambda_0 \) è una misura della diversità delle features. I risultati teorici sono validati empiricamente su linear MDPs sintetici. Questa analisi rappresenta un primo passo verso il reinforcement learning senza esplorazione in MDPs con spazi degli stati ampi.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2024_12_Civitavecchia_Tesi.pdf accessibile in internet per tutti Descrizione: Tesi Dimensione 1.37 MB Formato Adobe PDF Visualizza/Apri	1.37 MB	Adobe PDF	Visualizza/Apri
2024_12_Civitavecchia_Executive_Summary.pdf accessibile in internet per tutti Descrizione: Executive Summary Dimensione 709.84 kB Formato Adobe PDF Visualizza/Apri	709.84 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/229923