In constrained Markov decision processes (CMDPs) with adversarial rewards and constraints, a well-known impossibility result prevents any algorithm from attaining both sublinear regret and sublinear constraint violation, when competing against a best-in-hindsight policy that satisfies constraints on average. In this thesis, we show that this negative result can be eased in CMDPs with non-stationary rewards and constraints, by providing algorithms whose performances smoothly degrade as non-stationarity increases. Specifically, we propose algorithms attaining Õ(√T + C) regret and positive constraint violation under bandit feed-back, where C is a corruption value measuring the environment non-stationarity. This can be Θ(T ) in the worst case, coherently with the impossibility result for adversarial CMDPs. First, we design an algorithm with the desired guarantees when C is known. Then, in the case C is unknown, we show how to obtain the same results by embedding such an algorithm in a general meta-procedure. This is of independent interest, as it can be applied to any non-stationary constrained online learning setting. Finally we design an algorithm that under the same condition, with known C, attains Õ(√T ) regret and Õ(√T + C) positive constraint violation.

Nei Processi Decisionali di Markov Vincolati (Constrained Markov Decision Processes o CMDP) con ricompense e vincoli avversari, un noto risultato di impossibilità impedisce a qualsiasi algoritmo di ottenere sia un regret sublineare che una violazione dei vincoli sublineare, quando si compete contro una politica ottimale in retrospettiva che soddisfa i vincoli in media. In questa tesi, mostriamo che questo risultato negativo può essere attenuato nei CMDP con ricompense e vincoli non stazionari, fornendo algoritmi le cui prestazioni degradano gradualmente con l’aumentare della non stazionarietà. In particolare, proponiamo algoritmi che ottengono un regret di Õ(√T + C) e una violazione dei vincoli positiva con un feedback di tipo bandit, dove C è un valore di corruzione che misura la non stazionarietà dell’ambiente. Nel peggiore dei casi, questo valore può essere Θ(T ), in coerenza con il risultato di impossibilità per i CMDP avversari. Innanzitutto, progettiamo un algoritmo con le garanzie desiderate quando C è noto. Successivamente, nel caso in cui C sia sconosciuto, mostriamo come ottenere gli stessi risultati incorporando tale algoritmo in una meta-procedura generale. Questa è di per sé interessante, poiché può essere applicata a qualsiasi contesto di apprendimento online vincolato non stazionario. Infine, progettiamo un algoritmo che, nelle stesse condizioni, con C noto, ottiene un regret di Õ(√T ) e una violazione positiva dei vincoli di Õ(√T + C).

Dealing with non-stationarity in Constrained Markov Decision Processes

Lunghi, Anna
2023/2024

Abstract

In constrained Markov decision processes (CMDPs) with adversarial rewards and constraints, a well-known impossibility result prevents any algorithm from attaining both sublinear regret and sublinear constraint violation, when competing against a best-in-hindsight policy that satisfies constraints on average. In this thesis, we show that this negative result can be eased in CMDPs with non-stationary rewards and constraints, by providing algorithms whose performances smoothly degrade as non-stationarity increases. Specifically, we propose algorithms attaining Õ(√T + C) regret and positive constraint violation under bandit feed-back, where C is a corruption value measuring the environment non-stationarity. This can be Θ(T ) in the worst case, coherently with the impossibility result for adversarial CMDPs. First, we design an algorithm with the desired guarantees when C is known. Then, in the case C is unknown, we show how to obtain the same results by embedding such an algorithm in a general meta-procedure. This is of independent interest, as it can be applied to any non-stationary constrained online learning setting. Finally we design an algorithm that under the same condition, with known C, attains Õ(√T ) regret and Õ(√T + C) positive constraint violation.
CASTIGLIONI, MATTEO
MARCHESI, ALBERTO
STRADI, FRANCESCO EMANUELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Nei Processi Decisionali di Markov Vincolati (Constrained Markov Decision Processes o CMDP) con ricompense e vincoli avversari, un noto risultato di impossibilità impedisce a qualsiasi algoritmo di ottenere sia un regret sublineare che una violazione dei vincoli sublineare, quando si compete contro una politica ottimale in retrospettiva che soddisfa i vincoli in media. In questa tesi, mostriamo che questo risultato negativo può essere attenuato nei CMDP con ricompense e vincoli non stazionari, fornendo algoritmi le cui prestazioni degradano gradualmente con l’aumentare della non stazionarietà. In particolare, proponiamo algoritmi che ottengono un regret di Õ(√T + C) e una violazione dei vincoli positiva con un feedback di tipo bandit, dove C è un valore di corruzione che misura la non stazionarietà dell’ambiente. Nel peggiore dei casi, questo valore può essere Θ(T ), in coerenza con il risultato di impossibilità per i CMDP avversari. Innanzitutto, progettiamo un algoritmo con le garanzie desiderate quando C è noto. Successivamente, nel caso in cui C sia sconosciuto, mostriamo come ottenere gli stessi risultati incorporando tale algoritmo in una meta-procedura generale. Questa è di per sé interessante, poiché può essere applicata a qualsiasi contesto di apprendimento online vincolato non stazionario. Infine, progettiamo un algoritmo che, nelle stesse condizioni, con C noto, ottiene un regret di Õ(√T ) e una violazione positiva dei vincoli di Õ(√T + C).
File allegati
File Dimensione Formato  
2024_07_Lunghi_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 553.92 kB
Formato Adobe PDF
553.92 kB Adobe PDF Visualizza/Apri
2024_07_Lunghi_Thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 986.92 kB
Formato Adobe PDF
986.92 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222847