In the recent years we have seen a general advance in the field of Artificial Intelligence. In particular Reinforcement learning (RL) has demonstrated itself as one of the most promising branch of machine learning especially in the last 20 years. RL success is mostly due to its applicability in large and complex control problem (robotics, economics, AI and so on) where the high complexity of the models involved makes impossible, for the human designer, to design a complete and efficient model. In all these different scenarios RL techniques are able to provide a sufficiently accurate estimation of the model dynamics. A major problem in Reinforcement Learning is represented by the amount of knowledge required to accurately train the agent in a specific environment. A possible approach to this problem is Transfer Learning. The idea is that if the agent has already solved a set of source tasks, then we can use this knowledge to speed-up the learning performance of the agent over the target task. Depending on the specific scenario the transferred knowledge can have different shapes and may require different hypothesis over the set of tasks involved. We propose a sample-based approach for transfer learning in Batch RL based on the idea of Importance Sampling. For each experience sample collected from the set of the source tasks, we calculate a pair of importance weights wp and wr. These weights can be interpreted as correction factors of the sample for reward (wr) and transition (wp) models. A low weight means a transition or reward generated in a source task has a very low probability to be observed in the target task and therefore very likely to negatively bias the learning performance (also referred as negative learning). On the other hand, a high weight value means that the sample reward or transition has a high likelihood to be generated in the target and therefore positively speed-up the learning performance. We apply this idea to a specific batch RL algorithm, namely Fitted Q-Iteration (FQI), using the weights inside the regression algorithm obtaining Weighted Fitted Q-Iteration (WFQI). We provide a procedure to produce an accurate estimation of the weights for each sample. Moreover we also theoretically analyze the properties of our approach and we prove results bounding the amount of bias introduced by the use of source samples. Finally, we empirically validate WFQI over three different reinforcement learning classic benchmarks observing a significants improvements in terms of learning speeds and rejection of the negative transfer effect.

Negli ultimi anni abbiamo visto un avanzamento generale nel campo dell' Intelligenza Artificiale. In particolare il campo dell'Apprendimento per Rinforzo (RL) ha dimostrato di essere uno dei più promettenti rami in Machine Learning degli ultimi 20 anni. Il successo di RL è dovuto in larga parte alla sua applicabilità in grandi e complessi problemi di controllo (robotica, economia, AI etc.) dove l'alta complessità dei modelli coinvolti rende impossibile, per un designer umano, una progettazione completa ed efficiente. In tutte queste situazioni le tecniche di apprendimento per rinforzo sono in grado di fornire una stima sufficientemente precisa di tutte le dinamiche del modello. Uno dei principali problemi in RL è rappresentato dalla grande quantita di esperienza necessaria per un addestramento accurato dell'agente in uno specifico ambiente. Un possibile approccio è rappresentato dall'utilizzo di tecniche di Transfer Learning; l'idea è che se l'agente, in passato, ha già acquisito la conoscenza necessaria a risolvere un insieme di task sorgenti, questa conoscenza può essere riutilizzata per accelerare l'apprendimento su un dato task obiettivo. A seconda dello specifico scenario la conoscenza transferita può assume forme differenti e potrebbe richiedere differenti ipotesi sull'insieme di task coinvolti. In questa tesi proponiamo un approccio per il transferimento di sample basato sull'idea dell'Importance Sampling. Per ogni campione proveniente dai task sorgenti calcoliamo un a coppia di pesi wr e wp. Questi pesi possono essere interpretati come fattori di correzione dello specifico sample per rinforzo (wr) e dinamica (wp). Un peso di basso valore indica una transizione o rinforzo, generati in un task sorgente, con una bassa probabiltà di essere osservati nel task obiettivo e perciò estremamente incline a peggiorare la performance di apprendimento nel task medesimo (altrimenti noto come negative transfer). Dall'altro lato un peso di valore elevato (>1) indica che il rinforzo o la dinamica del campione saranno verosimilmente osservabili all'interno del task obiettivo o perciò possa positivamente polarizzarne la performance di apprendimento. In questo lavoro applichiamo questa ideal ad uno specifico algoritmo di batch reinforcement learning, precisamente Fitted Q-Iteration (FQI), usando i pesi all'interno dell'agoritmo di regressione ottenendo quello che chiamiamo Weighted Fitted Q-Iteration (WFQI). In questa tesi proponiamo un procedura per ottenere una stima accurata dei pesi. In aggiunta analizziamo il nostro approccio da un punto di vista teorico provando un risultato dove limitiamo il bias introdotto dall'uso di campioni sorgenti. Infine, validiamo empiricamente il nostro algoritmo su una serie di tre differenti benchmark osservando dei miglioramenti significativi in termini di velocità di appredimento e di reiezione dell'effetto del negative transfer.

Importance sampling based transfer in reinforcement learning

SESSA, ANDREA
2016/2017

Abstract

In the recent years we have seen a general advance in the field of Artificial Intelligence. In particular Reinforcement learning (RL) has demonstrated itself as one of the most promising branch of machine learning especially in the last 20 years. RL success is mostly due to its applicability in large and complex control problem (robotics, economics, AI and so on) where the high complexity of the models involved makes impossible, for the human designer, to design a complete and efficient model. In all these different scenarios RL techniques are able to provide a sufficiently accurate estimation of the model dynamics. A major problem in Reinforcement Learning is represented by the amount of knowledge required to accurately train the agent in a specific environment. A possible approach to this problem is Transfer Learning. The idea is that if the agent has already solved a set of source tasks, then we can use this knowledge to speed-up the learning performance of the agent over the target task. Depending on the specific scenario the transferred knowledge can have different shapes and may require different hypothesis over the set of tasks involved. We propose a sample-based approach for transfer learning in Batch RL based on the idea of Importance Sampling. For each experience sample collected from the set of the source tasks, we calculate a pair of importance weights wp and wr. These weights can be interpreted as correction factors of the sample for reward (wr) and transition (wp) models. A low weight means a transition or reward generated in a source task has a very low probability to be observed in the target task and therefore very likely to negatively bias the learning performance (also referred as negative learning). On the other hand, a high weight value means that the sample reward or transition has a high likelihood to be generated in the target and therefore positively speed-up the learning performance. We apply this idea to a specific batch RL algorithm, namely Fitted Q-Iteration (FQI), using the weights inside the regression algorithm obtaining Weighted Fitted Q-Iteration (WFQI). We provide a procedure to produce an accurate estimation of the weights for each sample. Moreover we also theoretically analyze the properties of our approach and we prove results bounding the amount of bias introduced by the use of source samples. Finally, we empirically validate WFQI over three different reinforcement learning classic benchmarks observing a significants improvements in terms of learning speeds and rejection of the negative transfer effect.
PIROTTA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2017
2016/2017
Negli ultimi anni abbiamo visto un avanzamento generale nel campo dell' Intelligenza Artificiale. In particolare il campo dell'Apprendimento per Rinforzo (RL) ha dimostrato di essere uno dei più promettenti rami in Machine Learning degli ultimi 20 anni. Il successo di RL è dovuto in larga parte alla sua applicabilità in grandi e complessi problemi di controllo (robotica, economia, AI etc.) dove l'alta complessità dei modelli coinvolti rende impossibile, per un designer umano, una progettazione completa ed efficiente. In tutte queste situazioni le tecniche di apprendimento per rinforzo sono in grado di fornire una stima sufficientemente precisa di tutte le dinamiche del modello. Uno dei principali problemi in RL è rappresentato dalla grande quantita di esperienza necessaria per un addestramento accurato dell'agente in uno specifico ambiente. Un possibile approccio è rappresentato dall'utilizzo di tecniche di Transfer Learning; l'idea è che se l'agente, in passato, ha già acquisito la conoscenza necessaria a risolvere un insieme di task sorgenti, questa conoscenza può essere riutilizzata per accelerare l'apprendimento su un dato task obiettivo. A seconda dello specifico scenario la conoscenza transferita può assume forme differenti e potrebbe richiedere differenti ipotesi sull'insieme di task coinvolti. In questa tesi proponiamo un approccio per il transferimento di sample basato sull'idea dell'Importance Sampling. Per ogni campione proveniente dai task sorgenti calcoliamo un a coppia di pesi wr e wp. Questi pesi possono essere interpretati come fattori di correzione dello specifico sample per rinforzo (wr) e dinamica (wp). Un peso di basso valore indica una transizione o rinforzo, generati in un task sorgente, con una bassa probabiltà di essere osservati nel task obiettivo e perciò estremamente incline a peggiorare la performance di apprendimento nel task medesimo (altrimenti noto come negative transfer). Dall'altro lato un peso di valore elevato (>1) indica che il rinforzo o la dinamica del campione saranno verosimilmente osservabili all'interno del task obiettivo o perciò possa positivamente polarizzarne la performance di apprendimento. In questo lavoro applichiamo questa ideal ad uno specifico algoritmo di batch reinforcement learning, precisamente Fitted Q-Iteration (FQI), usando i pesi all'interno dell'agoritmo di regressione ottenendo quello che chiamiamo Weighted Fitted Q-Iteration (WFQI). In questa tesi proponiamo un procedura per ottenere una stima accurata dei pesi. In aggiunta analizziamo il nostro approccio da un punto di vista teorico provando un risultato dove limitiamo il bias introdotto dall'uso di campioni sorgenti. Infine, validiamo empiricamente il nostro algoritmo su una serie di tre differenti benchmark osservando dei miglioramenti significativi in termini di velocità di appredimento e di reiezione dell'effetto del negative transfer.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_12_sessa.pdf

Open Access dal 04/12/2018

Descrizione: Thesis main file
Dimensione 5.4 MB
Formato Adobe PDF
5.4 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/137585