Non-stationary environments are challenging scenarios for Reinforcement Learning algorithms, due to the changing nature of the transition and reward functions. The setting studied by this work considers an infinite random sequence of Markov Decision Processes (MDPs), each of which is drawn from some unknown distribution. To consider the most realistic setting possible, the algorithm doesn’t make assumptions about the existence of a pre-training phase, a priori knowledge about the number, or boundaries between contexts. This work introduces Game-MBCD, a hybrid model-based/model-free approach based on game theory, capable of handling non-stationary environments affected by both abrupt changes and drifts. Game-MBCD does not require a pre-training phase. In particular, one of the objectives of this work is to improve the performance of the state-of-the-art when a new unseen context is encountered. Policy learning for every context is carried out with a procedure based on game theory, which accounts for the cross-dependency between environment modelization and policy optimization in Dyna-style RL algorithms. Furthermore, the baseline used for the algorithm development has been enriched with an approach based on the KL-divergence, to improve the quality of the simulated rollout dataset used for policy training. The experiments conducted show that Game-MBCD is more resilient to the various classes of non-stationary environments compared with model-based algorithms and non-stationary RL state-of-the-art algorithms.

Gli ambienti non stazionari sono scenari impegnativi per gli algoritmi di Reinforcement Learning, a causa della natura mutevole delle funzioni di transizione e di ricompensa. Lo scenario analizzato da questo lavoro, considera una infinita sequenza casuale di Markov Decision Processes (MDP), ognuno dei quali è campionato da una distribuzione non conosciuta. Per considerare l’impostazione più realistica possibile, l’algoritmo non fa ipotesi sull’esistenza di una fase di pre-addestramento o sulla conoscenza a priori del numero, o dei confini tra i contesti. Questo lavoro introduce Game-MBCD, un approccio ibrido model-based/model-free basato sulla teoria dei giochi, capace di gestire ambienti non stazionari affetti sia da cambiamenti bruschi che da derive. Game-MBCD non richiede una fase di pre-addestramento. In particolare, uno degli obiettivi di questo lavoro è migliorare le prestazioni dello stato dell’arte quando si incontra un nuovo contesto mai visto. La politica per ogni contesto viene estratta con una procedura basata sulla teoria dei giochi, che tiene conto della codipendenza tra la modellizzazione dell’ambiente e l’ottimizzazione della politica negli algoritmi RL in stile Dyna. Inoltre, il punto di partenza utilizzato per lo sviluppo dell’algoritmo è stato arricchito con un approccio basato sulla divergenza di KL, per migliorare la qualità delle sequenze di dati simulati, utilizzati per l’addestramento delle politiche. Gli esperimenti condotti mostrano che Game-MBCD è più resistente alle varie classi di ambienti non stazionari, rispetto agli algoritmi model-based e agli algoritmi di RL non stazionari dello stato dell’arte.

Game-theoretic policy optimization for non-stationary environments characterized by abrupt changes and drifts

COLOMBO, VALERIO
2020/2021

Abstract

Non-stationary environments are challenging scenarios for Reinforcement Learning algorithms, due to the changing nature of the transition and reward functions. The setting studied by this work considers an infinite random sequence of Markov Decision Processes (MDPs), each of which is drawn from some unknown distribution. To consider the most realistic setting possible, the algorithm doesn’t make assumptions about the existence of a pre-training phase, a priori knowledge about the number, or boundaries between contexts. This work introduces Game-MBCD, a hybrid model-based/model-free approach based on game theory, capable of handling non-stationary environments affected by both abrupt changes and drifts. Game-MBCD does not require a pre-training phase. In particular, one of the objectives of this work is to improve the performance of the state-of-the-art when a new unseen context is encountered. Policy learning for every context is carried out with a procedure based on game theory, which accounts for the cross-dependency between environment modelization and policy optimization in Dyna-style RL algorithms. Furthermore, the baseline used for the algorithm development has been enriched with an approach based on the KL-divergence, to improve the quality of the simulated rollout dataset used for policy training. The experiments conducted show that Game-MBCD is more resilient to the various classes of non-stationary environments compared with model-based algorithms and non-stationary RL state-of-the-art algorithms.
RESTELLI, MARCELLO
CANONACO, GIUSEPPE
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Gli ambienti non stazionari sono scenari impegnativi per gli algoritmi di Reinforcement Learning, a causa della natura mutevole delle funzioni di transizione e di ricompensa. Lo scenario analizzato da questo lavoro, considera una infinita sequenza casuale di Markov Decision Processes (MDP), ognuno dei quali è campionato da una distribuzione non conosciuta. Per considerare l’impostazione più realistica possibile, l’algoritmo non fa ipotesi sull’esistenza di una fase di pre-addestramento o sulla conoscenza a priori del numero, o dei confini tra i contesti. Questo lavoro introduce Game-MBCD, un approccio ibrido model-based/model-free basato sulla teoria dei giochi, capace di gestire ambienti non stazionari affetti sia da cambiamenti bruschi che da derive. Game-MBCD non richiede una fase di pre-addestramento. In particolare, uno degli obiettivi di questo lavoro è migliorare le prestazioni dello stato dell’arte quando si incontra un nuovo contesto mai visto. La politica per ogni contesto viene estratta con una procedura basata sulla teoria dei giochi, che tiene conto della codipendenza tra la modellizzazione dell’ambiente e l’ottimizzazione della politica negli algoritmi RL in stile Dyna. Inoltre, il punto di partenza utilizzato per lo sviluppo dell’algoritmo è stato arricchito con un approccio basato sulla divergenza di KL, per migliorare la qualità delle sequenze di dati simulati, utilizzati per l’addestramento delle politiche. Gli esperimenti condotti mostrano che Game-MBCD è più resistente alle varie classi di ambienti non stazionari, rispetto agli algoritmi model-based e agli algoritmi di RL non stazionari dello stato dell’arte.
File allegati
File Dimensione Formato  
2022_04_Colombo.pdf

accessibile in internet per tutti

Descrizione: Executive Summary + Journal Paper
Dimensione 3.83 MB
Formato Adobe PDF
3.83 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186194