Generalized gradient Q iteration

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.

Il nostro lavoro si colloca nell'ambito del Machine Learning e nella sottoarea del Reinforcement Learning. Il Reinforcement Learning è l'attività svolta da un agente che cerca di massimizzare un segnale di reward, mentre interagisce con l'ambiente esterno, per raggiungere un obiettivo. Lo scopo di questa tesi è proporre un nuovo metodo, chiamato Generalized Gradient Q Iteration, che appartiene alla classe di algoritmi chiamata approximate action-value iteration e che può essere visto come una generalizzazione di alcuni aspetti di altri algoritmi della stessa classe, come ad esempio Fitted Q Iteration. L'innovazione principale del nostro metodo è che propone di imparare direttamente l'operatore ottimo di Bellman, permettendo quindi di muoversi più rapidamente verso la soluzione ottima, nello spazio delle action-value function. Abbiamo confrontato il nostro metodo con Fitted Q Iteration e mostrato come riesca ad ottenere risultati comparabili o migliori di quest'ultimo, sotto determinate configurazioni dei suoi hyper-parametri. Questo ci porta a essere ottimisti riguardo la direzione di ricerca intrapresa con questo lavoro e ci motiva a continuare a studiare e migliorare il nostro metodo.

Generalized gradient Q iteration

GABBIANELLI, GERMANO

2016/2017

Abstract

Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.

Scheda breve

Scheda completa

	Relatore
	
			RESTELLI, MARCELLO
		
	Correlatore/i
	
			D'ERAMO, CARLO
PIROTTA, MATTEO
		
	Scuola / Dip.
	
			ING  - Scuola di Ingegneria Industriale e dell'Informazione
		
	Data
	
			19-apr-2018
		
	Anno accademico
	
			2016/2017
		
	Abstract in italiano
	
			Il nostro lavoro si colloca nell'ambito del Machine Learning e nella sottoarea del Reinforcement Learning. Il Reinforcement Learning è l'attività svolta da un agente che cerca di massimizzare un segnale di reward, mentre interagisce con l'ambiente esterno, per raggiungere un obiettivo. Lo scopo di questa tesi è proporre un nuovo metodo, chiamato Generalized Gradient Q Iteration, che appartiene alla classe di algoritmi chiamata approximate action-value iteration e che può essere visto come una generalizzazione di alcuni aspetti di altri algoritmi della stessa classe, come ad esempio Fitted Q Iteration. L'innovazione principale del nostro metodo è che propone di imparare direttamente l'operatore ottimo di Bellman, permettendo quindi di muoversi più rapidamente verso la soluzione ottima, nello spazio delle action-value function. Abbiamo confrontato il nostro metodo con Fitted Q Iteration e mostrato come riesca ad ottenere risultati comparabili o migliori di quest'ultimo, sotto determinate configurazioni dei suoi hyper-parametri. Questo ci porta a essere ottimisti riguardo la direzione di ricerca intrapresa con questo lavoro e ci motiva a continuare a studiare e migliorare il nostro metodo.
		
	Tipo di documento
	
			Tesi di laurea Magistrale
		
	Appare nelle tipologie:
	
			Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
thesis.pdf accessibile in internet per tutti Descrizione: thesis text v3 Dimensione 906.5 kB Formato Adobe PDF Visualizza/Apri	906.5 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/141141