Reward estimation of risk sensitive agents via gradient based inverse reinforcement learning

In a standard Reinforcement Learning problem, an agent learns how to successfully behave in an environment through exploration by maximizing the expected return over trajectories. While this might be the optimal approach in some cases, there are scenarios in which it is convenient to include some notion of risk in the agent's optimization problem. For example, a car learning how to drive itself should not head full speed towards a wall just because it hasn't tried that yet. This concern has brought to the formulation of functions of the return (objective functions) that, when optimized, induce a more conservative approach in the exploration phase. In this work we focus on the Inverse RL problem for risk-averse agents. The goal is to infer the parameters of the reward when the objective function is a known risk measure, by observing the behaviour of an agent (expert). We follow a gradient based approach that takes advantage of the fact that an expert's policy gradients are zeroed out at convergence. The intuition is that, since the real parameters of the reward induce the zero equality, we can search for them by minimizing some norm of the policy gradients w.r.t. such parameters. We present an empirical evaluation of this approach with several risk measures (Mean-Variance, Mean-Vola, ERM) and different environments (Portfolio Management, Trading, Grid World).

In un classico problema di Reinforcement Learning, un agente impara a comportarsi in modo proficuo all'interno di un ambiente tramite l'esplorazione con l'obbiettivo di massimizzare il valore medio di ritorno sulle proprie traiettorie. Questo approccio pu`o risultare ottimo per certi ambianti, ma spesso conviene includere il concetto di rischio nell'ottimizzazione dell'agente. Per esempio, un veicolo autonomo che sta imparando a muoversi sulla strada non dovrebbe dirigersi a piena velocit`a verso un muro, solo perch'e non ne ha ancora esplorato le conseguenze. Questo aspetto ha portato alla formulazioni di funzioni del ritorno ( extit{objective functions}) che, quando massimizzate dall'agente, inducano in esso un comportamento avverso al rischio e quindi anche una maggior cautela nella fase di esplorazione dello spazio. In questo lavoro ci concentriamo sul problema inverso di trarre informazioni da agenti esperti (agenti che hanno imparato un comportamento proficuo) tramite l'osservazione delle loro traiettorie. Cio`o che vogliamo dedurre da queste osservazioni sono i pesi che caratterizzano la funzione di reward quando l'obbiettivo dell'agente e' una extit{risk-averse objective function}. Utilizzeremo un approccio gradient-based che si basa sul fatto che i gradienti extit{log-policy} di un agente esperto siano identicamente uguali a zero. Cerchiamo quindi nello spazio delle reward, i pesi che minimizzano la norma dei gradienti calcolati su un batch di traiettorie dell'esperto. Presentiamo una valutazione empirica dell'approccio utilizzando diverse misure di rischio (Mean-Variance, ERM, Mean-Vola) su diversi ambienti (Portfolio Management, Trading, Grid World).