Exploiting environment configuration for policy space identification

The Markov Decision Process is a framework to model Sequential Decision Making problems. In these situations, a learning agent interacts with the environment by sensing perceptions and performing actions, in order to solve a specific task. A reward signal given after every action indicates how good the agent is behaving, and implicitly encodes the task to be solved. The behavior of the agent is specified by a policy, i.e., a prescription of actions, which can be associated to a performance measure indicating its quality in terms of expected rewards. The goal of the agent is to find an optimal policy, i.e., one with the highest possible performance measure. There are different strategies to search for an optimal policy, in this work we focus on policy gradient methods. In this type of algorithms, policies are expressed by parametrized functions, i.e., functions that depend on a vector of parameters. The space of parameters determines the set of policies, which is called the policy space. In this thesis, we study the problem of identifying the policy space of a learning agent, having access only to a set of demonstrations generated by its optimal policy. We introduce an approach based on statistical testing to identify the set of policy parameters the agent can control, within a larger parametric policy space. After presenting two identification rules (combinatorial and simplified), applicable under different assumptions on the policy space, we provide a probabilistic analysis of the simplified one in the case of linear policies belonging to the exponential family. To improve the performance of our identification rules, we frame the problem in the recently introduced framework of the Configurable Markov Decision Processes, exploiting the opportunity of configuring the environment to induce the agent revealing which parameters it can control. Finally, we provide an empirical evaluation, on both discrete and continuous domains, to prove the effectiveness of our identification rules.

I Processi Decisionali di Markov sono un framework usato per modellizzare i Problemi di Decisione Sequenziali. In queste situazioni, un agente autonomo interagisce con l'ambiente percependone lo stato e compiendo delle azioni al fine di risolvere uno specifico compito. Un segnale di rinforzo, che fornisce una ricompensa dopo ogni azione, indica quanto l'agente si sta comportando bene, codificando implicitamente il compito da svolgere. Il comportamento dell'agente è specificato da una politica, cioè una prescrizione delle azioni da compiere, che può essere associata a una misura di performance che ne indica la qualità in termini di ricompense ricevute. Lo scopo dell'agente è quello di trovare una politica ottima, cioè, una politica che massimizzi tale misura di performance. Esistono varie strategie per cercare una politica ottima: in questo lavoro ci concentriamo sui metodi a gradiente. In questo tipo di algoritmi, le politiche sono espresse da funzioni parametriche, cioè funzioni che dipendono da un vettore di parametri. Lo spazio dei parametri determina la classe di tutte le politiche rappresentabili, che chiamiamo spazio delle politiche. In questa tesi, studiamo il problema di identificare lo spazio delle politiche di un agente autonomo, avendo solo accesso a delle dimostrazioni del suo comportamento tratte da una sua politica ottima. Introduciamo un approccio basato sui test statistici per identificare l'insieme dei parametri che l'agente può controllare, all'interno di uno spazio più grande di parametri. Dopo aver presentato due regole di identificazione (combinatoria e semplificata), applicabili con differenti assunzioni sullo spazio delle politiche, forniamo un'analisi statistica di quella semplificata nel caso di politiche lineari che appartengono alla famiglia di funzioni esponenziali. Per migliorare la performance delle regole di identificazione, collochiamo il problema nel framework recentemente introdotto dei Processi Decisionali di Markov Configurabili, sfruttandone la possibilità di configurazione dell'environment per indurre l'agente a rivelare quali parametri può controllare. Infine, effettuiamo una valutazione empirica, sia sul dominio discreto sia su quello continuo, per provare l'efficacia delle nostre regole di identificazione.