Modeling uncertainty in gradient inverse reinforcement learning with application to autonomous driving

The problem of sequential decision making is extensively studied in Artificial Intelligence. Reinforcement Learning provides a framework in which an agent can learn the optimal behavior through interaction with the environment. For a given task, the main element inducing the agent towards its goal is encoded in the reward signal associated with each decision taken. However, in several domains, where devising a reward function is challenging, demonstrations of a skilled agent showing an optimal policy can be exploited if available. Inverse Reinforcement Learning (IRL) aims at recovering the reward function implicitly optimized by an expert agent, leveraging on a set of demonstrations of its behavior. In addition to expert's demonstrations, some of the classic IRL algorithms require either to know the transition model or to estimate it by accessing the environment. Others need to derive an optimal policy for each candidate reward function. These requirements are either unrealistic or make the learning algorithms too computationally demanding for real-world applications. In this thesis, we propose an extension to a model-free IRL algorithm based on the policy gradient. We exploit the idea that, when the expert's policy is optimal for its reward function, its policy gradient vanishes. Differently from its original version, our formulation explicitly accounts for the uncertainty of the policy gradient estimates while ensuring that the policy gradient is zero. We compare our algorithm against its original version both in illustrative experiments and in the Linear Quadratic Gaussian Regulator environment. In recovering the reward function, we show that our algorithm outperforms its original version in terms of sample efficiency. Furthermore, we address the problem of retrieving the reward function in the challenging context of Autonomous Driving for high-level decision making. We demonstrate that in the Lane Change scenario the actual reward function is non-linear and provide insights on the objectives a human is implicitly optimizing when driving in such context. In order to assess the effectiveness of our IRL approach, we find an imitation policy induced by a compatible linear reward function and compare its performance against a policy derived from behavioral cloning.

Il problema del processo decisionale sequenziale è ampiamente studiato nell'Intelligenza Artificiale. Reinforcement Learning fornisce un framework nel quale un agente può apprendere il comportamento ottimo attraverso l'interazione con l'ambiente. Per un determinato compito, l'elemento principale che induce l'agente verso il suo obiettivo è codificato nel segnale di ricompensa associato a ciascuna decisione presa. Tuttavia, in alcuni domini, dove è difficile mettere a punto una funzione ricompensa, le dimostrazioni di un agente esperto, che manifesta un comportamento ottimo, possono essere sfruttate se disponibili. L'Inverse Reinforcement Learning (IRL) mira a recuperare la funzione ricompensa implicitamente ottimizzata da un agente esperto, sfruttando un insieme di dimostrazioni del suo comportamento. Oltre alle dimostrazioni dell'esperto, alcuni dei classici algoritmi di IRL hanno come requisito quello di conoscere il modello di transizione o di stimarlo accedendo all'ambiente. Altri hanno bisogno di ricavare una politica ottima per ogni funzione ricompensa candidata. Per le applicazioni del mondo reale questi requisiti sono irrealistici o rendono gli algoritmi di apprendimento troppo computazionalmente esigenti. In questa tesi, proponiamo un'estensione di un algoritmo IRL model-free basato sul gradiente della politica. Sfruttiamo l'idea che, quando la politica dell'esperto è ottima per la sua funzione ricompensa, il gradiente della politica si annulla. A differenza della versione originale, la nostra formulazione tiene esplicitamente conto dell'incertezza sulla stima del gradiente della politica, garantendo al tempo stesso che il gradiente della politica si annulli. Confrontiamo il nostro algoritmo con la sua versione originale sia in esperimenti illustrativi che nell'ambiente del Regolatore Lineare Quadratico Gaussiano. Nel recuperare la funzione ricompensa, mostriamo che il nostro algoritmo supera la sua versione originale in termini di efficienza del campionamento. Inoltre, affrontiamo il problema del recupero della funzione ricompensa nello complesso contesto della Guida Autonoma nel caso di processo decisionale di alto livello. Dimostriamo che nello scenario di cambio corsia, la reale funzione ricompensa non è lineare e forniamo interpretazioni sugli obiettivi che un umano implicitamente ottimizza mentre guida. Al fine di valutare l'efficacia del nostro approccio IRL, deriviamo una politica di imitazione indotta da una funzione ricompensa lineare compatibile e confrontiamo le sue prestazioni con una politica ottenuta tramite behavioral cloning.