Reinforcement Learning allows an agent to learn behaviors for solving sequential decision making problems. When learning such control policies, an algorithm can take advantage of a learned model of the dynamics of the environment. This is the rationale behind Model-Based Reinforcement Learning (MBRL), in which the agent learns, and then employs, estimated models. MBRL approaches present several advantages, for instance in terms of sample efficiency, compared to the ones, known as model-free, that learn a control policy without explicitly representing the dynamics. However, the dynamics of the environment can be extremely complex and very hard to model using few data, endangering the promise of data efficiency that underlies MBRL. Fortunately, in many interesting application domains, perfectly modeling the dynamics of the whole environment is not necessary for a model to be effectively used by a learning agent. Instead, it is possible to use simpler model classes, whose estimation requires few interactions with the environment, and focus their limited expression capability where it is more needed for control purposes. Nonetheless, most MBRL methods learn the model by maximum likelihood estimation, judging the relative importance of environment dynamics just upon visitation, and completely ignoring the underlying decision problem. This thesis proposes Gradient-Aware Model-based Policy Search (GAMPS), a novel model-based algorithm for policy improvement that, by leveraging a weighting scheme on the loss function, learns a model focused on the aspects of the dynamics that are most relevant for estimating the policy gradient. GAMPS uses the Model-Value-based Gradient, a newly formalized approximation for the policy gradient that employs collected trajectories together with an estimated value function. The empirical evaluation for the method, carried out on simple yet illustrative tasks, both in discrete and continuous domains, shows that it is able to outperform standard model-free policy gradient methods and model-based methods based on maximum likelihood model estimation.

L'Apprendimento per Rinforzo consente a un agente di imparare i comportamenti necessari per risolvere problemi che richiedono sequenze di decisioni. Durante l'apprendimento di una politica di controllo, un algoritmo può far uso di un modello stimato delle dinamiche dell'ambiente. Questa caratteristica contraddistingue gli approcci di Apprendimento per Rinforzo basato su modelli, che apprendono ed impiegano modelli stimati a beneficio dell'agente. Questi approcci presentano diversi vantaggi, per esempio in termini di efficienza, in confronto ai metodi non basati su modelli, che apprendono una politica di controllo senza rappresentare esplicitamente le dinamiche. Ciononostante, le dinamiche dell'ambiente possono essere estremamente complesse e molto difficili da apprendere, minando la promessa di efficienza degli approcci basati su modelli. Fortunatamente, in molti domini applicativi di generale interesse, apprendere perfettamente la dinamica nell'intero ambiente non è necessario affinché un modello possa essere usato in maniera proficua da un agente che apprende. Invece, è possibile usare classi di modelli più semplici, che possono dunque essere stimati con meno campioni, e concentrare la loro limitata capacità di rappresentazione dove più è necessaria in termini di controllo. Pur tuttavia, la maggior parte degli approcci esistenti impara la dinamica dell'ambiente per massima verosimiglianza, implicitamente giudicando importante la sola frequenza di visita a determinati stati, ed ignorando completamente il problema decisionale che si desidera risolvere. Questa tesi propone Gradient-Aware Model-based Policy Search (GAMPS), un algoritmo innovativo basato su modelli per migliorare una politica di controllo che, sfruttando una pesatura sulla funzione di costo, apprende un modello accurato sugli aspetti delle dinamiche ambientali che più sono rilevanti per stimare il gradiente della politica. GAMPS fa uso del Model-Value-based Gradient, una nuova formalizzazione per un'approssimazione del gradiente della politica, che usa traiettorie collezionate nell'ambiente insieme ad una funzione di valore stimata. La valutazione empirica del metodo, eseguita su problemi semplici ma illustrativi, sia in domini discreti che continui, mostra come sia capace di sorpassare le prestazioni di algoritmi standard che usano il gradiente della politica senza alcun modello ma anche quelle di algoritmi basati su modelli addestrati per massima verosimiglianza.

Beyond maximum likelihood model estimation in model-based policy search

D'ORO, PIERLUCA
2018/2019

Abstract

Reinforcement Learning allows an agent to learn behaviors for solving sequential decision making problems. When learning such control policies, an algorithm can take advantage of a learned model of the dynamics of the environment. This is the rationale behind Model-Based Reinforcement Learning (MBRL), in which the agent learns, and then employs, estimated models. MBRL approaches present several advantages, for instance in terms of sample efficiency, compared to the ones, known as model-free, that learn a control policy without explicitly representing the dynamics. However, the dynamics of the environment can be extremely complex and very hard to model using few data, endangering the promise of data efficiency that underlies MBRL. Fortunately, in many interesting application domains, perfectly modeling the dynamics of the whole environment is not necessary for a model to be effectively used by a learning agent. Instead, it is possible to use simpler model classes, whose estimation requires few interactions with the environment, and focus their limited expression capability where it is more needed for control purposes. Nonetheless, most MBRL methods learn the model by maximum likelihood estimation, judging the relative importance of environment dynamics just upon visitation, and completely ignoring the underlying decision problem. This thesis proposes Gradient-Aware Model-based Policy Search (GAMPS), a novel model-based algorithm for policy improvement that, by leveraging a weighting scheme on the loss function, learns a model focused on the aspects of the dynamics that are most relevant for estimating the policy gradient. GAMPS uses the Model-Value-based Gradient, a newly formalized approximation for the policy gradient that employs collected trajectories together with an estimated value function. The empirical evaluation for the method, carried out on simple yet illustrative tasks, both in discrete and continuous domains, shows that it is able to outperform standard model-free policy gradient methods and model-based methods based on maximum likelihood model estimation.
METELLI, ALBERTO MARIA
PAPINI, MATTEO
TIRINZONI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
L'Apprendimento per Rinforzo consente a un agente di imparare i comportamenti necessari per risolvere problemi che richiedono sequenze di decisioni. Durante l'apprendimento di una politica di controllo, un algoritmo può far uso di un modello stimato delle dinamiche dell'ambiente. Questa caratteristica contraddistingue gli approcci di Apprendimento per Rinforzo basato su modelli, che apprendono ed impiegano modelli stimati a beneficio dell'agente. Questi approcci presentano diversi vantaggi, per esempio in termini di efficienza, in confronto ai metodi non basati su modelli, che apprendono una politica di controllo senza rappresentare esplicitamente le dinamiche. Ciononostante, le dinamiche dell'ambiente possono essere estremamente complesse e molto difficili da apprendere, minando la promessa di efficienza degli approcci basati su modelli. Fortunatamente, in molti domini applicativi di generale interesse, apprendere perfettamente la dinamica nell'intero ambiente non è necessario affinché un modello possa essere usato in maniera proficua da un agente che apprende. Invece, è possibile usare classi di modelli più semplici, che possono dunque essere stimati con meno campioni, e concentrare la loro limitata capacità di rappresentazione dove più è necessaria in termini di controllo. Pur tuttavia, la maggior parte degli approcci esistenti impara la dinamica dell'ambiente per massima verosimiglianza, implicitamente giudicando importante la sola frequenza di visita a determinati stati, ed ignorando completamente il problema decisionale che si desidera risolvere. Questa tesi propone Gradient-Aware Model-based Policy Search (GAMPS), un algoritmo innovativo basato su modelli per migliorare una politica di controllo che, sfruttando una pesatura sulla funzione di costo, apprende un modello accurato sugli aspetti delle dinamiche ambientali che più sono rilevanti per stimare il gradiente della politica. GAMPS fa uso del Model-Value-based Gradient, una nuova formalizzazione per un'approssimazione del gradiente della politica, che usa traiettorie collezionate nell'ambiente insieme ad una funzione di valore stimata. La valutazione empirica del metodo, eseguita su problemi semplici ma illustrativi, sia in domini discreti che continui, mostra come sia capace di sorpassare le prestazioni di algoritmi standard che usano il gradiente della politica senza alcun modello ma anche quelle di algoritmi basati su modelli addestrati per massima verosimiglianza.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
doro_10_2019.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 866.61 kB
Formato Adobe PDF
866.61 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149884