Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.
Il nostro lavoro si colloca nell'ambito del Machine Learning e nella sottoarea del Reinforcement Learning. Il Reinforcement Learning è l'attività svolta da un agente che cerca di massimizzare un segnale di reward, mentre interagisce con l'ambiente esterno, per raggiungere un obiettivo. Lo scopo di questa tesi è proporre un nuovo metodo, chiamato Generalized Gradient Q Iteration, che appartiene alla classe di algoritmi chiamata approximate action-value iteration e che può essere visto come una generalizzazione di alcuni aspetti di altri algoritmi della stessa classe, come ad esempio Fitted Q Iteration. L'innovazione principale del nostro metodo è che propone di imparare direttamente l'operatore ottimo di Bellman, permettendo quindi di muoversi più rapidamente verso la soluzione ottima, nello spazio delle action-value function. Abbiamo confrontato il nostro metodo con Fitted Q Iteration e mostrato come riesca ad ottenere risultati comparabili o migliori di quest'ultimo, sotto determinate configurazioni dei suoi hyper-parametri. Questo ci porta a essere ottimisti riguardo la direzione di ricerca intrapresa con questo lavoro e ci motiva a continuare a studiare e migliorare il nostro metodo.
Generalized gradient Q iteration
GABBIANELLI, GERMANO
2016/2017
Abstract
Our work belongs to the Machine Learning field, and more specifically in the research area of Reinforcement Learning. Reinforcement Learning is the activity performed by an agent that tries to maximize a reward signal, while interacting with the environment, to achieve a goal. The objective of this thesis is to propose a new Reinforcement Learning method, called Generalized Gradient Q Iteration, that belongs to the class of approximate action-value iteration and that can be seen as generalizing some aspects of algorithms of the same class, such as Fitted Q Iteration. The main innovation of our method is that it proposes to learn directly the Bellman Optimality Operator therefore allowing us to move faster towards the optimum, in the space of action-value functions. We compare our method to Fitted Q Iteration and show how it obtains comparable or better performances under some settings of its hyper-parameters. This leads us to be optimistic about the research direction pursued in this work and motivates us to further study and improve our method.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
accessibile in internet per tutti
Descrizione: thesis text v3
Dimensione
906.5 kB
Formato
Adobe PDF
|
906.5 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/141141