Imitation learning, the problem of estimating a policy that reproduces demonstrated behavior, has become an essential methodology for training intelligent agents to solve complex tasks. A powerful approach to solving imitation problems is inverse reinforcement learning, which attempts to rationalize given trajectories by recovering the unknown reward function being optimized by the expert. Most of the research in this field has focused on estimating a policy capable of imitating the demonstrator under the unknown state distribution of the latter, given samples distributed in the same way. In this work, we analyze the case where there is a shift between these two distributions. We propose an adversarial formulation, based on inverse reinforcement learning, that is able to produce a single deterministic policy minimizing a general loss function with respect to the unknown expert’s policy. We prove that covariate shift leads to an NP-hard optimization subproblem, the computation of a deterministic policy maximizing the total expected reward from two different Markov decision processes. We propose a tractable approximation by reducing the latter to the optimal control of partially observable Markov decision processes. We evaluate the performance of our approach on two common reinforcement learning benchmarks and show its advantages over other state-of-the-art algorithms.

L’apprendimento per imitazione, il problema di stimare una politica che riproduce un comportamento dimostrato, è diventato un metodo essenziale per addestrare agenti intelligenti a risolvere compiti complessi. Un potente approccio a problemi di imitazione è l’apprendimento per rinforzo inverso, il quale cerca di razionalizzare delle date traiettorie recuperando la funzione di rinforzo sconosciuta ottimizzata dall’esperto. La maggior parte della ricerca in questo campo si è concentrata sulla stima di una politica capace di imitare il dimostratore sulla distribuzione degli stati sconosciuta di quest’ultimo, dati campioni distribuiti nello stesso modo. In questo lavoro, analizziamo il caso in cui è presente una differenza tra queste due distribuzioni. Proponiamo una formulazione, basata sull’apprendimento per rinforzo inverso, in grado di produrre una singola politica deterministica che minimizza una funzione di perdita generale rispetto alla politica sconosciuta dell’esperto. Dimostriamo che la differenza nelle distribuzioni genera un problema di ottimizzazione NP-difficile, ovvero il calcolo di una politica deterministica che massimizza la ricompensa totale da due processi di decisione diversi. Proponiamo un’approssimazione trattabile riducendo quest’ultimo al controllo ottimale di processi di decisione parzialmente osservabili. Valutiamo il rendimento del nostro approccio in due comuni problemi nell’apprendimento per rinforzo e mostriamo i suoi vantaggi su altri algoritmi allo stato dell’arte.

Adversarial imitation learning under covariate shift

TIRINZONI, ANDREA
2016/2017

Abstract

Imitation learning, the problem of estimating a policy that reproduces demonstrated behavior, has become an essential methodology for training intelligent agents to solve complex tasks. A powerful approach to solving imitation problems is inverse reinforcement learning, which attempts to rationalize given trajectories by recovering the unknown reward function being optimized by the expert. Most of the research in this field has focused on estimating a policy capable of imitating the demonstrator under the unknown state distribution of the latter, given samples distributed in the same way. In this work, we analyze the case where there is a shift between these two distributions. We propose an adversarial formulation, based on inverse reinforcement learning, that is able to produce a single deterministic policy minimizing a general loss function with respect to the unknown expert’s policy. We prove that covariate shift leads to an NP-hard optimization subproblem, the computation of a deterministic policy maximizing the total expected reward from two different Markov decision processes. We propose a tractable approximation by reducing the latter to the optimal control of partially observable Markov decision processes. We evaluate the performance of our approach on two common reinforcement learning benchmarks and show its advantages over other state-of-the-art algorithms.
ZIEBART, BRIAN D.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2017
2016/2017
L’apprendimento per imitazione, il problema di stimare una politica che riproduce un comportamento dimostrato, è diventato un metodo essenziale per addestrare agenti intelligenti a risolvere compiti complessi. Un potente approccio a problemi di imitazione è l’apprendimento per rinforzo inverso, il quale cerca di razionalizzare delle date traiettorie recuperando la funzione di rinforzo sconosciuta ottimizzata dall’esperto. La maggior parte della ricerca in questo campo si è concentrata sulla stima di una politica capace di imitare il dimostratore sulla distribuzione degli stati sconosciuta di quest’ultimo, dati campioni distribuiti nello stesso modo. In questo lavoro, analizziamo il caso in cui è presente una differenza tra queste due distribuzioni. Proponiamo una formulazione, basata sull’apprendimento per rinforzo inverso, in grado di produrre una singola politica deterministica che minimizza una funzione di perdita generale rispetto alla politica sconosciuta dell’esperto. Dimostriamo che la differenza nelle distribuzioni genera un problema di ottimizzazione NP-difficile, ovvero il calcolo di una politica deterministica che massimizza la ricompensa totale da due processi di decisione diversi. Proponiamo un’approssimazione trattabile riducendo quest’ultimo al controllo ottimale di processi di decisione parzialmente osservabili. Valutiamo il rendimento del nostro approccio in due comuni problemi nell’apprendimento per rinforzo e mostriamo i suoi vantaggi su altri algoritmi allo stato dell’arte.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Andrea_Tirinzoni_Thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 458.3 kB
Formato Adobe PDF
458.3 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/136073