Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.

Il nostro lavoro si colloca nell'ambito del Machine Learning e nella sottoarea del Reinforcement Learning. Il Reinforcement Learning è l'attività svolta da un agente che cerca di massimizzare un segnale di reward, mentre interagisce con l'ambiente esterno, per raggiungere un obiettivo. Lo scopo di questa tesi è proporre un nuovo metodo, chiamato Generalized Gradient Q Iteration, che appartiene alla classe di algoritmi chiamata approximate action-value iteration e che può essere visto come una generalizzazione di alcuni aspetti di altri algoritmi della stessa classe, come ad esempio Fitted Q Iteration. L'innovazione principale del nostro metodo è che propone di imparare direttamente l'operatore ottimo di Bellman, permettendo quindi di muoversi più rapidamente verso la soluzione ottima, nello spazio delle action-value function. Abbiamo confrontato il nostro metodo con Fitted Q Iteration e mostrato come riesca ad ottenere risultati comparabili o migliori di quest'ultimo, sotto determinate configurazioni dei suoi hyper-parametri. Questo ci porta a essere ottimisti riguardo la direzione di ricerca intrapresa con questo lavoro e ci motiva a continuare a studiare e migliorare il nostro metodo.

Generalized gradient Q iteration

GABBIANELLI, GERMANO
2016/2017

Abstract

Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.
D'ERAMO, CARLO
PIROTTA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
Il nostro lavoro si colloca nell'ambito del Machine Learning e nella sottoarea del Reinforcement Learning. Il Reinforcement Learning è l'attività svolta da un agente che cerca di massimizzare un segnale di reward, mentre interagisce con l'ambiente esterno, per raggiungere un obiettivo. Lo scopo di questa tesi è proporre un nuovo metodo, chiamato Generalized Gradient Q Iteration, che appartiene alla classe di algoritmi chiamata approximate action-value iteration e che può essere visto come una generalizzazione di alcuni aspetti di altri algoritmi della stessa classe, come ad esempio Fitted Q Iteration. L'innovazione principale del nostro metodo è che propone di imparare direttamente l'operatore ottimo di Bellman, permettendo quindi di muoversi più rapidamente verso la soluzione ottima, nello spazio delle action-value function. Abbiamo confrontato il nostro metodo con Fitted Q Iteration e mostrato come riesca ad ottenere risultati comparabili o migliori di quest'ultimo, sotto determinate configurazioni dei suoi hyper-parametri. Questo ci porta a essere ottimisti riguardo la direzione di ricerca intrapresa con questo lavoro e ci motiva a continuare a studiare e migliorare il nostro metodo.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: thesis text v3
Dimensione 906.5 kB
Formato Adobe PDF
906.5 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/141141