Transfer in policy gradients via multiple importance sampling

Reinforcement Learning succeeded in providing a set of algorithms to learn from experience the optimal way in which an entity (the Agent) can interact with another entity (the Environment). One of the main drawbacks is that it requires a lot of experience, which sometimes is not available. Transfer Learning is a research area that studies how to reuse past knowledge to improve the learning process of a new problem. We use as already available information a set of trajectories referred to some problems (source tasks) that differ just from their dynamics; the new problem we want to learn (target task) belongs to the same domain as the source tasks (Inter-domain transfer). This thesis proposes an algorithm to perform Transfer in Reinforcement Learning using Policy gradient methods via Multiple Importance Sampling (MIS). The algorithm is based on the typical likelihood ratio policy gradient algorithm; with the introduction of Importance Sampling schemes, we try to exploit the available information. We provide a low variance estimator of the gradient, using some well-known variance reduction techniques: Per-decision (PD) formulations and Control Variates (CV). Assuming complete knowledge of the source and the target problems, we are able to provide some theoretical guarantees about the variance of the estimator. In the case of unknown target dynamics, we assume that it is representable with a function of the environment's parameters and belongs to a certain class of functions (a discrete set of known functions or to a Reproducing Kernel Hilbert Space) and we propose a Mean Square Error (MSE) aware method to select the optimal function. Finally, we propose an adaptive algorithm able to estimate the number of samples to be collected in each iteration of the learning procedure, using an Effective Sample Size (ESS) aware method. We evaluate the algorithms using three different domains of increasing complexity: the LQR domain, the pole balancing domain, and the minigolf domain. We show how the transfer of information in some cases outperforms the algorithms that do not use any transfer or transfer only trajectories from past interactions with the target task.

L'area dell'Apprendimento con Rinforzo (Reinforcement Learning), fornisce un metodo che consente ad un agente che interagisce sequenzialmente con un ambiente, di apprendere tramite l'esperienza la strategia ottima di interazione. Uno dei problemi principali di quest'area, è la necessità di imparare da zero; questo richiede molte volte una quantità di esperienza elevata, che in alcuni casi non è disponibile. Un'area di ricerca che si pone l'obbiettivo di utilizzare informazioni già disponibili di un insieme di problemi (problemi sorgenti) per migliorare l'apprendimento di un potenziale nuovo problema (problema target), e l'area dell'Apprendimento per Transferimento. In questa tesi si considera l'Apprendimento per Trasferimento in un dominio specifico dell' Apprendimento per Rinforzo: Ricerca della Politica (Policy Search) con algoritmi basati sul gradiente. L'obbiettivo principale di questo lavoro è di riutilizzare informazioni riguardo traiettorie disponibili, attraverso tecniche di Campionamento per Importanza (Importance Sampling); si utilizza in particolare la tecnica del Campionamento per Importanza Multiplo (Multiple Importance Sampling) ed alcune metodologie per la riduzione della varianza, come la riformulazione dello stimatore nella sua versione considerando istanti temporali cumulati (Per-decision), e l'utilizzo di Controllo Variato (Control Variates) per ridurre la varianza della stima. Un ulteriore contributo di questo lavoro è la presentazione di un algoritmo adattivo, in cui ad ogni iterazione dell'apprendimento viene calcolato il numero di campioni da collezionare dall'agente. La stima del numero di campioni avviene considerando la Dimensione Effettiva dei Campioni (Effective Sample Size). In questo lavoro vengono assunti tre diversi livelli di conoscenza dei modelli di transizione: la conoscenza completa dei modelli di transizione sia nei problemi sorgenti che in quello target, la completa conoscenza dei modelli di transizione di problemi sorgenti e mancanza di conoscenza dei modelli di transizione del problema target, ed in fine la mancata conoscenza dei modelli di transizione dei problemi sorgenti e di quelli target. Nel caso in cui il modello di transizione del problema target sia sconosciuto ma quello dei problemi sorgenti no, viene proposto un metodo per la stima del modello di transizione basato sull'Errore Quadratico Medio (Mean Squared Error). In questo metodo viene assunto che la funzione di transizione appartenga ad una determinata famiglia di funzioni (un insieme finito di possibili funzioni o uno Spazio di Hilbert Riproducibile (Reproducible Kernel Hilbert Spaces)). Vengono in fine presentati i risultati sperimentali effettuati su tre diversi domini di difficoltà crescente: il Discriminatore Quadratico Lineare (Linear Quadratic Discriminator) mono dimensionale, il dominio del bilanciamento dell'asta (Cartpole) ed il dominio del minigolf. Attraverso gli esperimenti effettuati, viene fornita evidenza empirica riguardo al beneficio di trasferire informazioni rispetto agli algoritmi presi a confronto, sia per quanto riguarda algoritmi senza trasferimento, che algoritmi che trasferiscono solo dalle traiettorie collezionate durante le precedenti interazioni dell'agente con l'ambiente.