Sequential decision making problems arise in a variety of areas in Artificial Intelligence. Reinforcement Learning proposes a number of algorithms able to learn an optimal behavior by interacting with the environment. The major assumption is that the learning agent receives a reward as soon as an action is performed. However, there are several application domains in which a reward function is not available and difficult to estimate, but samples of expert agents playing an optimal policy are simple to generate. Inverse Reinforcement Learning (IRL) is an effective approach to recover a reward function that explains the behavior of an expert by observing a set of demonstrations. Most of the classic IRL methods, in addition to expert's demonstrations, require sampling the environment in order to compute the optimal policy for each candidate reward function. Furthermore, in most of the cases, it is necessary to specify a priori a set of engineered features that the algorithms combine to single out the reward function. This thesis is about a novel model-free IRL approach that, differently from most of the existing IRL algorithms, does not require to specify a function space where to search for the expert's reward function. Leveraging on the fact that the policy gradient needs to be zero for any optimal policy, the algorithm generates a set of basis functions that span the subspace of reward functions that make the policy gradient vanish. Within this subspace, using a second-order criterion, we search for the reward function that penalizes the most a deviation from the expert's policy. After introducing our approach for finite domains, we extend it to continuous ones. The proposed approach is compared to state-of-the-art IRL methods both in the (finite) Taxi domain and in the (continuous) Linear Quadratic Gaussian Regulator and Car on the Hill environments. The empirical results show that the reward function recovered by our algorithm allows learning policies that outperform both behavioral cloning and those obtained with the true reward function, in terms of learning speed.

Nell'ambito dell'Intelligenza Artificiale numerosi problemi richiedono che un agente operi decisioni in sequenza. L'Apprendimento per Rinforzo propone numerosi algoritmi finalizzati ad apprendere un comportamento ottimo mediante l'interazione con l'ambiente. Il principale presupposto è che l'agente riceva un segnale di rinforzo non appena compie un'azione. Esistono diversi domini d'interesse in cui una funzione di rinforzo non è definita e difficile da stimare, tuttavia è possibile generare dimostrazioni di agenti esperti. L'Apprendimento per Rinforzo Inverso permette di ricostruire una funzione di rinforzo che spieghi il comportamento di un esperto a partire da un insieme di dimostrazioni. La maggior parte degli algoritmi, tuttavia, richiede di avere accesso all'ambiente dovendo apprendere la politica ottima per ogni funzione di rinforzo considerata. Inoltre, è spesso necessario definire a priori un insieme di feature che gli algoritmi combinano allo scopo di identificare una singola funzione di rinforzo. Questa tesi propone un nuovo approccio all'apprendimento per rinforzo inverso che, al contrario di molti algoritmi esistenti, non richiede di specificare uno spazio funzionale in cui ricercare la funzione di rinforzo. Sfruttando il fatto che il policy gradient deve annullarsi per ogni politica ottima, l'algoritmo genera uno spazio di funzioni che contiene il rinforzo ottimizzato dall'esperto. All'interno di questo spazio, mediante un criterio del secondo ordine, è selezionata la funzione di rinforzo che penalizza massimamente deviazioni dalla politica dell'esperto. Dopo aver introdotto l’approccio per domini finiti ne proponiamo un'estensione a domini continui. L'algoritmo viene confrontato con lo stato dell'arte sia su domini finiti, con il problema del Taxi, che su domini infiniti, con il Regolatore Lineare-Quadratico Gaussiano e il problema Car on the Hill. I risultati sperimentali evidenziano che la funzione di rinforzo ricostruita permette di apprendere politiche che mostrano performance superiori sia a tecniche di imitazione dell'esperto sia a politiche apprese mediante la funzione di rinforzo originale del problema, in termini di velocità di apprendimento.

Compatible reward inverse reinforcement learning

METELLI, ALBERTO MARIA
2016/2017

Abstract

Sequential decision making problems arise in a variety of areas in Artificial Intelligence. Reinforcement Learning proposes a number of algorithms able to learn an optimal behavior by interacting with the environment. The major assumption is that the learning agent receives a reward as soon as an action is performed. However, there are several application domains in which a reward function is not available and difficult to estimate, but samples of expert agents playing an optimal policy are simple to generate. Inverse Reinforcement Learning (IRL) is an effective approach to recover a reward function that explains the behavior of an expert by observing a set of demonstrations. Most of the classic IRL methods, in addition to expert's demonstrations, require sampling the environment in order to compute the optimal policy for each candidate reward function. Furthermore, in most of the cases, it is necessary to specify a priori a set of engineered features that the algorithms combine to single out the reward function. This thesis is about a novel model-free IRL approach that, differently from most of the existing IRL algorithms, does not require to specify a function space where to search for the expert's reward function. Leveraging on the fact that the policy gradient needs to be zero for any optimal policy, the algorithm generates a set of basis functions that span the subspace of reward functions that make the policy gradient vanish. Within this subspace, using a second-order criterion, we search for the reward function that penalizes the most a deviation from the expert's policy. After introducing our approach for finite domains, we extend it to continuous ones. The proposed approach is compared to state-of-the-art IRL methods both in the (finite) Taxi domain and in the (continuous) Linear Quadratic Gaussian Regulator and Car on the Hill environments. The empirical results show that the reward function recovered by our algorithm allows learning policies that outperform both behavioral cloning and those obtained with the true reward function, in terms of learning speed.
PIROTTA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-lug-2017
2016/2017
Nell'ambito dell'Intelligenza Artificiale numerosi problemi richiedono che un agente operi decisioni in sequenza. L'Apprendimento per Rinforzo propone numerosi algoritmi finalizzati ad apprendere un comportamento ottimo mediante l'interazione con l'ambiente. Il principale presupposto è che l'agente riceva un segnale di rinforzo non appena compie un'azione. Esistono diversi domini d'interesse in cui una funzione di rinforzo non è definita e difficile da stimare, tuttavia è possibile generare dimostrazioni di agenti esperti. L'Apprendimento per Rinforzo Inverso permette di ricostruire una funzione di rinforzo che spieghi il comportamento di un esperto a partire da un insieme di dimostrazioni. La maggior parte degli algoritmi, tuttavia, richiede di avere accesso all'ambiente dovendo apprendere la politica ottima per ogni funzione di rinforzo considerata. Inoltre, è spesso necessario definire a priori un insieme di feature che gli algoritmi combinano allo scopo di identificare una singola funzione di rinforzo. Questa tesi propone un nuovo approccio all'apprendimento per rinforzo inverso che, al contrario di molti algoritmi esistenti, non richiede di specificare uno spazio funzionale in cui ricercare la funzione di rinforzo. Sfruttando il fatto che il policy gradient deve annullarsi per ogni politica ottima, l'algoritmo genera uno spazio di funzioni che contiene il rinforzo ottimizzato dall'esperto. All'interno di questo spazio, mediante un criterio del secondo ordine, è selezionata la funzione di rinforzo che penalizza massimamente deviazioni dalla politica dell'esperto. Dopo aver introdotto l’approccio per domini finiti ne proponiamo un'estensione a domini continui. L'algoritmo viene confrontato con lo stato dell'arte sia su domini finiti, con il problema del Taxi, che su domini infiniti, con il Regolatore Lineare-Quadratico Gaussiano e il problema Car on the Hill. I risultati sperimentali evidenziano che la funzione di rinforzo ricostruita permette di apprendere politiche che mostrano performance superiori sia a tecniche di imitazione dell'esperto sia a politiche apprese mediante la funzione di rinforzo originale del problema, in termini di velocità di apprendimento.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_07_Metelli.pdf

accessibile in internet per tutti

Descrizione: Master's thesis
Dimensione 2.19 MB
Formato Adobe PDF
2.19 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135141