Delayed reinforcement learning : a belief representation approach

This research thesis is focused on sequential decision-making problems where the interactions between agent and environment are affected by delays. Delays exist as a property of nature itself, they inherently stem either from the Agent implementation or from the real world Environment and they can greatly affect agents' capabilities and performances. In particular, delays are present in environment's state observation, agent's actions execution and reward signal perception. We work in the delayed Markov Decision Process (DMDP) framework and we consider both deterministic delays and stochastic delays in the case of both deterministic and stochastic environments. We adopt the Model-Based approach to design a new structured network, combining recent results from POMDP and Deep Learning literatures, Predictive State Representation and Self-Attention respectively, with a modular property that makes it deployable alongside existing Reinforcement Learning algorithms. The proposed network follows a heuristic approach, providing to the RL algorithm information about the position of the Agent in the form of a representation of the belief distribution of the current unobserved state of the environment. We deploy our module alongside a state-of-the-art RL algorithm in order to establish its capabilities, defining a new RL algorithm that is able to cope with deterministic delays and it is natively compatible with stochastic delays. At the end, we evaluate the effectiveness of the proposed approach against a set of chosen baselines, providing results for both deterministic and stochastic delays in both deterministic and stochastic environments, drawing our conclusions on the discovered strength and weaknesses, proposing possible future research works to mitigate the latter.

Questa Tesi di Ricerca si concentra su problemi di decisione sequenziale dove le interazioni tra l'agente e l'ambiente sono affette da ritardi e latenze. I ritardi esistono come proprietà della natura stessa, derivano dall'implementazione dell'agente o da ambienti reali e possono ridurre sostanzialmente le prestazioni e le capacità degli agenti. In particolare, i ritardi possono presentarsi nell'osservazione dello stato dell'ambiente, nell'esecuzione delle azioni da parte dell'agente e nella percezione del segnale di ricompensa. Il lavoro di ricerca si concentra sull'ambito dei delayed Markov Decision Process (DMDP) e vengono considerati sia ritardi deterministici che ritardi stocastici presenti all'interno di ambienti deterministici e stocastici. Abbiamo adottato l'approccio Model-Based per progettare una nuova rete strutturata, combinando risultati recenti dalle letterature POMDP e Deep Learning, rispettivamente Predictive State Representation e Self-Attention, con una proprietà modulare che le consente di essere implementata insieme a qualsiasi algoritmo di Reinforcement Learning esistente. Abbiamo seguito un approccio euristico in cui vengono fornite informazioni all'algoritmo di Reinforcement Learning circa il corrente posizionamento dell'agente nell'ambiente sotto forma di una rappresentazione della distribuzione di probabilità dello stato corrente non ancora osservato. La rete è stata implementata insieme ad un algoritmo di Reinforcement Learning proveniente dallo stato dell'arte attuale così da poterne stabilire le capacità, definendo un nuovo algoritmo che è in grado di agire in presenza di ritardi deterministici ed è compatibile con ritardi stocastici. Infine, abbiamo valutato l'efficacia dell'approccio proposto confrontando l'approccio sviluppato con una serie di algoritmi di base, fornendo risultati sia per ritardi deterministici che per ritardi stocastici, delineando le conclusioni sui pregi e sui difetti scoperti e proponendo una serie di possibili sviluppi futuri per la ricerca in modo da limitare i secondi.