Reinforcement Learning (RL) has shown promise to be a good framework for a sequential decision-making agent to learn by interaction; though, it could require a lot of time and experience samples to learn each individual task. Transfer in RL is of main importance to achieve efficient intelligent decision-making agents as it strives to exploit, as much as possible, previously learned tasks. We consider the transfer of knowledge, encoded by the optimal value functions, in the scenario in which a target task must be solved only knowing the optimal value functions of a set of related source tasks. We propose a general algorithm, called Variational Transfer, based on Variational Inference that works with parameterized value functions. This choice makes the algorithm applicable to the function regressors popular nowadays, such as neural networks, and by just constraining the distributions families to be parameterized, as well, it provides great flexibility to model the, possibly complex, distributions of the optimal value functions. In a more grounded perspective, we put forward two practical implementations: the first one based on the Multivariate Gaussian distribution family and, the second, to allow for more powerful representations, based on Mixtures of Gaussians. We evaluate both of these with numerical simulations to tackle different environments with increasing complexity, both to gain insight of the empirical behavior of our approaches and to measure their performance when compared to state-of-the-art RL algorithms.

L’apprendimento per rinforzo, Reinforcement Learning (RL) in in- glese, ha dimostrato di essere un buon metodo per permettere ad un agente che prende decisioni sequenzialmente di imparare tramite l’interazione con l’ambiente, anche se di solito necessita molto tempo ed esperienza per apprendere ogni compito. L’uso di tecniche di trasferimento in RL è di centrale importanza per realizzare sistemi decisionali intelligenti che siano anche efficienti, dato che queste tecniche cercano di sfruttare, nella miglior maniera possibile, i compiti già appresi. In questa tesi consideriamo il trasferimento di conoscenza, rappresentata dalle funzioni di valore ottime, nello scenario in cui l’agente deve apprendere un compito obbiettivo quando conosce le funzioni di valore ottime di altri compiti simili. Proponiamo un algoritmo generale, chiamato Variational Transfer, basato su tecniche d’inferenza con metodi variazionali che opera con funzioni di valore parametrizzate. Questa scelta rende questo algoritmo applicabile a modelli di regressione molto utilizzati attualmente, come le reti neurali, richiedendo soltanto che le famiglie di distribuzione siano anch’esse parametrizzate, offre una buona flessibilità per modellare le, potenzialmente complesse, distribuzioni delle funzioni di valore ottime. Inoltre, introduciamo due implementazioni pratiche: la prima basata su distribuzioni gaussiane multivariate e, la seconda, permettendo rappresentazioni più potenti, basata su misture di distribuzioni gaussiane. Valutiamo gli entrambi algoritmi usando simulazioni numeriche con ambienti di diverse difficoltà per capire empiricamente il comportamento dei metodi e la loro performance in confronto con algoritmi dello stato dell’arte in RL.

A variational approach to transfer value functions in reinforcement learning

RODRÍGUEZ SÁNCHEZ, RAFAEL ALBERTO
2017/2018

Abstract

Reinforcement Learning (RL) has shown promise to be a good framework for a sequential decision-making agent to learn by interaction; though, it could require a lot of time and experience samples to learn each individual task. Transfer in RL is of main importance to achieve efficient intelligent decision-making agents as it strives to exploit, as much as possible, previously learned tasks. We consider the transfer of knowledge, encoded by the optimal value functions, in the scenario in which a target task must be solved only knowing the optimal value functions of a set of related source tasks. We propose a general algorithm, called Variational Transfer, based on Variational Inference that works with parameterized value functions. This choice makes the algorithm applicable to the function regressors popular nowadays, such as neural networks, and by just constraining the distributions families to be parameterized, as well, it provides great flexibility to model the, possibly complex, distributions of the optimal value functions. In a more grounded perspective, we put forward two practical implementations: the first one based on the Multivariate Gaussian distribution family and, the second, to allow for more powerful representations, based on Mixtures of Gaussians. We evaluate both of these with numerical simulations to tackle different environments with increasing complexity, both to gain insight of the empirical behavior of our approaches and to measure their performance when compared to state-of-the-art RL algorithms.
TIRINZONI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
L’apprendimento per rinforzo, Reinforcement Learning (RL) in in- glese, ha dimostrato di essere un buon metodo per permettere ad un agente che prende decisioni sequenzialmente di imparare tramite l’interazione con l’ambiente, anche se di solito necessita molto tempo ed esperienza per apprendere ogni compito. L’uso di tecniche di trasferimento in RL è di centrale importanza per realizzare sistemi decisionali intelligenti che siano anche efficienti, dato che queste tecniche cercano di sfruttare, nella miglior maniera possibile, i compiti già appresi. In questa tesi consideriamo il trasferimento di conoscenza, rappresentata dalle funzioni di valore ottime, nello scenario in cui l’agente deve apprendere un compito obbiettivo quando conosce le funzioni di valore ottime di altri compiti simili. Proponiamo un algoritmo generale, chiamato Variational Transfer, basato su tecniche d’inferenza con metodi variazionali che opera con funzioni di valore parametrizzate. Questa scelta rende questo algoritmo applicabile a modelli di regressione molto utilizzati attualmente, come le reti neurali, richiedendo soltanto che le famiglie di distribuzione siano anch’esse parametrizzate, offre una buona flessibilità per modellare le, potenzialmente complesse, distribuzioni delle funzioni di valore ottime. Inoltre, introduciamo due implementazioni pratiche: la prima basata su distribuzioni gaussiane multivariate e, la seconda, permettendo rappresentazioni più potenti, basata su misture di distribuzioni gaussiane. Valutiamo gli entrambi algoritmi usando simulazioni numeriche con ambienti di diverse difficoltà per capire empiricamente il comportamento dei metodi e la loro performance in confronto con algoritmi dello stato dell’arte in RL.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Thesis_Rafael_Rodriguez.pdf

accessibile in internet per tutti

Descrizione: Thesis final revision
Dimensione 1.29 MB
Formato Adobe PDF
1.29 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142926