Reinforcement Learning (RL) is one of the most prominent frameworks for designing artificial agents when the only source of knowledge is the interaction with an environment. Special difficulties arise when the state and action spaces are continuous since the classical RL algorithms are no longer feasible or ensured to converge. Actor-critic approaches emerge as a solution for these issues by combining the proven convergence of policy-gradient methods with the representation power of function approximators, all in a low variance estimation. Transfer Learning (TL) is the paradigm that addresses the problem of transferring past experience from different tasks when the agent is facing a new, unknown one. Its purpose is to develop algorithms that speed-up the new learning process by leveraging the past knowledge. Various advances concerning TL in RL have been developed in the recent years, but most of the proposals focus on transfer higher level information like value functions, policies or feature maps. The Lipschitz continuity property, a stronger notion of continuity that concerns the elements of the task, can provide enough information to create sample-level transfer mechanisms to extend the Actor-Critic methods. This thesis introduces two such mechanisms based on weighted estimators: one performs an optimistic selection of the weights and the other goes for a pessimistic perspective. Both techniques are compared with a transfer mechanism based on Importance Sampling (IS) estimators. The optimistic approach produces good results in most of the experimental cases, showing that it is a promising alternative over the IS-based one and the no transfer scenario. The pessimistic approach, instead, tends to be too conservative on the selection of the weights, and offers no special improvements with respect to the no transfer scenario.

L’Apprendimento per rinforzo (reinforcement learning) è uno dei più noti paradigmi per la progettazione di agenti intelligenti in contesti dove l‘unica fonte di informazione è l’interazione con l’ambiente. Particolari difficoltà emergono quando gli spazi di stato e azione sono continui, dato che gli algoritmi classici di RL non sono più applicabili o non hanno nessuna garanzia di convergenza. Gli approcci Actor-Critic nascono come una soluzione a questi problema, combinando la convergenza dei metodi policy-gradient con le abilità rappresentative dei function approximators, avendo come risultato uno stimatore a bassa varianza. L’Apprendimento per trasferimento d'informazione (transfer learning) è il paradigma che studia il problema della trasmissione dell'esperienza ottenuta dall'interazione con diversi ambienti nell'apprendimento di un nuovo compito. Il principale obiettivo è lo sviluppo di algoritmi che velocizzino il nuovo processo d’apprendimento utilizzando le conoscenze passate. Varie proposte nell’ambito di TL in RL sono state presentate negli anni recenti, ma quasi tutte si concentrano sul trasferimento d'informazioni di alto livello come value functions, policies o feature maps. La proprietà di continuità Lipschitziana, una nozione più forte di continuità che riguarda gli elementi dell’ambiente, può dare sufficiente informazione per creare meccanismi di trasferimento a livello di singoli campioni per i metodi Actor-Critic. Questa tesi propone due di tali meccanismi basati su stimatori pesati: uno fa una selezione ottimistica dei pesi mentre l’altro sceglie una prospettiva pessimistica. I due metodi sono confrontati con un meccanismo di trasferimento basato su stima tramite Importance Sampling. L’approccio ottimistico produce buoni risultati in quasi tutti gli scenari sperimentali, rivelandosi un’alternativa promettente ad IS e all’apprendimento senza trasferimento. L’approccio pessimistico risulta invece essere troppo conservativo nella scelta dei pesi, e non offre speciali vantaggi rispetto all’apprendimento classico.

Transfer learning for actor-critic methods in Lipschitz Markov decision processes

VACCA MANRIQUE, DANIEL FELIPE
2016/2017

Abstract

Reinforcement Learning (RL) is one of the most prominent frameworks for designing artificial agents when the only source of knowledge is the interaction with an environment. Special difficulties arise when the state and action spaces are continuous since the classical RL algorithms are no longer feasible or ensured to converge. Actor-critic approaches emerge as a solution for these issues by combining the proven convergence of policy-gradient methods with the representation power of function approximators, all in a low variance estimation. Transfer Learning (TL) is the paradigm that addresses the problem of transferring past experience from different tasks when the agent is facing a new, unknown one. Its purpose is to develop algorithms that speed-up the new learning process by leveraging the past knowledge. Various advances concerning TL in RL have been developed in the recent years, but most of the proposals focus on transfer higher level information like value functions, policies or feature maps. The Lipschitz continuity property, a stronger notion of continuity that concerns the elements of the task, can provide enough information to create sample-level transfer mechanisms to extend the Actor-Critic methods. This thesis introduces two such mechanisms based on weighted estimators: one performs an optimistic selection of the weights and the other goes for a pessimistic perspective. Both techniques are compared with a transfer mechanism based on Importance Sampling (IS) estimators. The optimistic approach produces good results in most of the experimental cases, showing that it is a promising alternative over the IS-based one and the no transfer scenario. The pessimistic approach, instead, tends to be too conservative on the selection of the weights, and offers no special improvements with respect to the no transfer scenario.
PIROTTA, MATTEO
TIRINZONI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2017
2016/2017
L’Apprendimento per rinforzo (reinforcement learning) è uno dei più noti paradigmi per la progettazione di agenti intelligenti in contesti dove l‘unica fonte di informazione è l’interazione con l’ambiente. Particolari difficoltà emergono quando gli spazi di stato e azione sono continui, dato che gli algoritmi classici di RL non sono più applicabili o non hanno nessuna garanzia di convergenza. Gli approcci Actor-Critic nascono come una soluzione a questi problema, combinando la convergenza dei metodi policy-gradient con le abilità rappresentative dei function approximators, avendo come risultato uno stimatore a bassa varianza. L’Apprendimento per trasferimento d'informazione (transfer learning) è il paradigma che studia il problema della trasmissione dell'esperienza ottenuta dall'interazione con diversi ambienti nell'apprendimento di un nuovo compito. Il principale obiettivo è lo sviluppo di algoritmi che velocizzino il nuovo processo d’apprendimento utilizzando le conoscenze passate. Varie proposte nell’ambito di TL in RL sono state presentate negli anni recenti, ma quasi tutte si concentrano sul trasferimento d'informazioni di alto livello come value functions, policies o feature maps. La proprietà di continuità Lipschitziana, una nozione più forte di continuità che riguarda gli elementi dell’ambiente, può dare sufficiente informazione per creare meccanismi di trasferimento a livello di singoli campioni per i metodi Actor-Critic. Questa tesi propone due di tali meccanismi basati su stimatori pesati: uno fa una selezione ottimistica dei pesi mentre l’altro sceglie una prospettiva pessimistica. I due metodi sono confrontati con un meccanismo di trasferimento basato su stima tramite Importance Sampling. L’approccio ottimistico produce buoni risultati in quasi tutti gli scenari sperimentali, rivelandosi un’alternativa promettente ad IS e all’apprendimento senza trasferimento. L’approccio pessimistico risulta invece essere troppo conservativo nella scelta dei pesi, e non offre speciali vantaggi rispetto all’apprendimento classico.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Daniel Vacca - Thesis.pdf

accessibile in internet per tutti

Dimensione 1.73 MB
Formato Adobe PDF
1.73 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/137712