In the last decades, Reinforcement Learning (RL) has emerged as an effective approach to address complex control tasks. The formalism typically employed to model the sequential interaction between the artificial agent and the environment is the Markov Decision Process (MDP). In an MDP, the agent perceives the state of the environment and performs actions. As a consequence, the environment transitions to a new state and generates a reward signal. The goal of the agent consists of learning a policy, i.e., a prescription of actions, that maximizes the long-term reward. In the traditional setting, the environment is assumed to be a fixed entity that cannot be altered externally. However, there exist several real-world scenarios in which the environment can be modified to a limited extent and, therefore, it might be beneficial to act on some of its features. We call this activity environment configuration, that can be carried out by the agent itself or by an external entity, such as a configurator. Although environment configuration arises quite often in real applications, this topic is very little explored in the literature. In this dissertation, we aim at formalizing and studying the diverse aspects of environment configuration. The contributions are theoretical, algorithmic, and experimental and can be broadly subdivided into three parts. The first part of the dissertation introduces the novel formalism of Configurable Markov Decision Processes (Conf-MDPs) to model the configuration opportunities offered by the environment. At an intuitive level, there exists a tight connection between environment, policy, and learning process. We explore the different nuances of environment configuration, based on whether the configuration is fully auxiliary to the agent’s learning process (cooperative setting) or guided by a configurator having an objective that possibly conflicts with the agent’s one (non-cooperative setting). In the second part, we focus on the cooperative Conf-MDP setting and we investigate the learning problem consisting of finding an agent policy and an environment configuration that jointly optimize the long-term reward. We provide algorithms for solving finite and continuous Conf-MDPs and experimental evaluations are conducted on both synthetic and realistic domains. The third part addresses two specific applications of the Conf-MDP framework: policy space identification and control frequency adaptation. In the former, we employ environment configurability to improve the identification of the agent’s perception and actuation capabilities. In the latter, instead, we analyze how a specific configurable environmental parameter, the control frequency, can affect the performance of the batch RL algorithms.

Negli ultimi decenni, l’Apprendimento per Rinforzo (Reinforcement Learning, RL) è emerso come un approccio efficace per affrontare complessi problemi di controllo. Il formalismo che viene solitamente impiegato per modellare l’interazione sequenziale tra l’agente artificiale e l’ambiente è il Processo Decisionale di Markov (Markov Decision Process, MDP). In un MDP, l’agente percepisce lo stato dell’ambiente e compie delle azioni. Come conseguenza, l’ambiente evolve in un nuovo stato e genera un segnale di ricompensa. L’obiettivo dell’agente consiste nell’apprendere una politica, cioè una prescrizione di azioni, che massimizza la ricompensa di lungo periodo. Tradizionalmente, l’ambiente è considerato un’entità fissa che non può essere alterata dall’esterno. Tuttavia, esistono numerosi scenari reali in cui l’ambiente può essere modificato in modo limitato e, pertanto, può risultare conveniente agire su alcune delle sue proprietà. Chiamiamo questa attività configurazione dell’ambiente, che può essere effettuata dall’agente stesso o da un’entità esterna, come un configuratore. Nonostante la configurazione dell’ambiente emerga piuttosto frequentemente nelle applicazioni reali, questo argomento è esplorato molto poco nella letteratura. In questa dissertazione, intendiamo formalizzare e studiare i vari aspetti della configurazione dell’ambiente. I contributi sono teorici, algoritmici e sperimentali e possono essere suddivisi, a grandi linee, in tre parti. La prima parte della dissertazione introduce il nuovo formalismo dei Processi Decisionali di Markov Configurabili (Configurable Markov Decision Processes, Conf-MDPs) per modellare le opportunità di configurazione offerte dall’ambiente. A livello intuitivo, esiste una stretta connessione tra ambiente, politica e processo di apprendimento. Esploriamo le diverse sfumature della configurazione dell’ambiente, a seconda che la configurazione sia esclusivamente ausiliaria al processo di apprendimento dell’agente (contesto cooperativo) o sia guidata da un configuratore con un obiettivo eventualmente conflittuale con quello dell’agente (contesto non cooperativo). Nella seconda parte, ci concentriamo sui Conf-MDP cooperativi e investighiamo il problema di apprendimento che consiste nel trovare una politica dell’agente e una configurazione dell’ambiente che congiuntamente ottimizzano la ricompensa di lungo periodo. Forniamo algoritmi per risolvere Conf-MDP finiti e continui e valutazioni sperimentali condotte sia in domini sintetici che realistici. La terza parte affronta due specifiche applicazioni dei Conf-MDP: l’identificazione dello spazio delle politiche e l’adattamento della frequenza di controllo. Nel primo caso, facciamo uso della configurabilità dell’ambiente per migliorare l’identificazione delle capacità di percezione e attuazione dell’agente. Nel secondo caso, invece, analizziamo come uno specifico parametro configurabile dell’ambiente, la frequenza di controllo, possa impattare sulla performance degli algoritmi di RL batch.

Exploiting environment configurability in reinforcement learning

Metelli, Alberto Maria
2020/2021

Abstract

In the last decades, Reinforcement Learning (RL) has emerged as an effective approach to address complex control tasks. The formalism typically employed to model the sequential interaction between the artificial agent and the environment is the Markov Decision Process (MDP). In an MDP, the agent perceives the state of the environment and performs actions. As a consequence, the environment transitions to a new state and generates a reward signal. The goal of the agent consists of learning a policy, i.e., a prescription of actions, that maximizes the long-term reward. In the traditional setting, the environment is assumed to be a fixed entity that cannot be altered externally. However, there exist several real-world scenarios in which the environment can be modified to a limited extent and, therefore, it might be beneficial to act on some of its features. We call this activity environment configuration, that can be carried out by the agent itself or by an external entity, such as a configurator. Although environment configuration arises quite often in real applications, this topic is very little explored in the literature. In this dissertation, we aim at formalizing and studying the diverse aspects of environment configuration. The contributions are theoretical, algorithmic, and experimental and can be broadly subdivided into three parts. The first part of the dissertation introduces the novel formalism of Configurable Markov Decision Processes (Conf-MDPs) to model the configuration opportunities offered by the environment. At an intuitive level, there exists a tight connection between environment, policy, and learning process. We explore the different nuances of environment configuration, based on whether the configuration is fully auxiliary to the agent’s learning process (cooperative setting) or guided by a configurator having an objective that possibly conflicts with the agent’s one (non-cooperative setting). In the second part, we focus on the cooperative Conf-MDP setting and we investigate the learning problem consisting of finding an agent policy and an environment configuration that jointly optimize the long-term reward. We provide algorithms for solving finite and continuous Conf-MDPs and experimental evaluations are conducted on both synthetic and realistic domains. The third part addresses two specific applications of the Conf-MDP framework: policy space identification and control frequency adaptation. In the former, we employ environment configurability to improve the identification of the agent’s perception and actuation capabilities. In the latter, instead, we analyze how a specific configurable environmental parameter, the control frequency, can affect the performance of the batch RL algorithms.
PERNICI, BARBARA
GATTI, NICOLA
11-mar-2021
Negli ultimi decenni, l’Apprendimento per Rinforzo (Reinforcement Learning, RL) è emerso come un approccio efficace per affrontare complessi problemi di controllo. Il formalismo che viene solitamente impiegato per modellare l’interazione sequenziale tra l’agente artificiale e l’ambiente è il Processo Decisionale di Markov (Markov Decision Process, MDP). In un MDP, l’agente percepisce lo stato dell’ambiente e compie delle azioni. Come conseguenza, l’ambiente evolve in un nuovo stato e genera un segnale di ricompensa. L’obiettivo dell’agente consiste nell’apprendere una politica, cioè una prescrizione di azioni, che massimizza la ricompensa di lungo periodo. Tradizionalmente, l’ambiente è considerato un’entità fissa che non può essere alterata dall’esterno. Tuttavia, esistono numerosi scenari reali in cui l’ambiente può essere modificato in modo limitato e, pertanto, può risultare conveniente agire su alcune delle sue proprietà. Chiamiamo questa attività configurazione dell’ambiente, che può essere effettuata dall’agente stesso o da un’entità esterna, come un configuratore. Nonostante la configurazione dell’ambiente emerga piuttosto frequentemente nelle applicazioni reali, questo argomento è esplorato molto poco nella letteratura. In questa dissertazione, intendiamo formalizzare e studiare i vari aspetti della configurazione dell’ambiente. I contributi sono teorici, algoritmici e sperimentali e possono essere suddivisi, a grandi linee, in tre parti. La prima parte della dissertazione introduce il nuovo formalismo dei Processi Decisionali di Markov Configurabili (Configurable Markov Decision Processes, Conf-MDPs) per modellare le opportunità di configurazione offerte dall’ambiente. A livello intuitivo, esiste una stretta connessione tra ambiente, politica e processo di apprendimento. Esploriamo le diverse sfumature della configurazione dell’ambiente, a seconda che la configurazione sia esclusivamente ausiliaria al processo di apprendimento dell’agente (contesto cooperativo) o sia guidata da un configuratore con un obiettivo eventualmente conflittuale con quello dell’agente (contesto non cooperativo). Nella seconda parte, ci concentriamo sui Conf-MDP cooperativi e investighiamo il problema di apprendimento che consiste nel trovare una politica dell’agente e una configurazione dell’ambiente che congiuntamente ottimizzano la ricompensa di lungo periodo. Forniamo algoritmi per risolvere Conf-MDP finiti e continui e valutazioni sperimentali condotte sia in domini sintetici che realistici. La terza parte affronta due specifiche applicazioni dei Conf-MDP: l’identificazione dello spazio delle politiche e l’adattamento della frequenza di controllo. Nel primo caso, facciamo uso della configurabilità dell’ambiente per migliorare l’identificazione delle capacità di percezione e attuazione dell’agente. Nel secondo caso, invece, analizziamo come uno specifico parametro configurabile dell’ambiente, la frequenza di controllo, possa impattare sulla performance degli algoritmi di RL batch.
File allegati
File Dimensione Formato  
2021_03_Metelli.pdf

accessibile in internet per tutti

Descrizione: PhD Dissertation
Dimensione 5.34 MB
Formato Adobe PDF
5.34 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/170616