Constrained Reinforcement Learning (CRL) addresses sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints. In this setting, policy-based methods are widely used since they come with several advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or parameter-based exploration strategy, depending on whether they learn directly the parameters of a stochastic policy or those of a stochastic hyperpolicy. We introduce an exploration-agnostic algorithm, called C-PG, which exhibits global last-iterate convergence guarantees, and its action-based (C-PGAE) and the parameter-based (C-PGPE) versions, illustrating how they can be extended terms of risk measures over the costs, as it is often requested in safety-critical scenarios. We provide last-iterate convergence guarantees of C-PG to the optimal deterministic policy when the stochastic (hyper)policies used during the learning process are built upon a deterministic one via white noise perturbations. Finally, we numerically validate both action-based and parameter-based versions of C-PG on constrained control problems, and compare them with state-of-the-art baselines, demonstrating their effectiveness when deploying deterministic policies after the learning phase.

Constrained Reinforcement Learning (CRL) affronta problemi decisionali sequenziali in cui gli agenti devono raggiungere gli obiettivi massimizzando il rendimento atteso e rispettando i vincoli specifici del dominio. In questo contesto, i metodi policy-based sono ampiamente utilizzati perché presentano diversi vantaggi quando si tratta di problemi di controllo continuo. Questi metodi cercano nello spazio delle politiche con una strategia di esplorazione action-based o parameter-based, a seconda che apprendano direttamente i parametri di una politica stocastica o quelli di una iperpolitica stocastica. Introduciamo un algoritmo indipendente dall'esplorazione, chiamato C-PG, che presenta garanzie di convergenza globale last-iterate, e le sue versioni basate sull'azione (C-PGAE) e sui parametri (C-PGPE), illustrando come possano essere estese in termini di misure di rischio sui costi, come spesso richiesto in scenari critici per la sicurezza. Forniamo garanzie di convergenza last-iterate di C-PG alla politica deterministica ottimale quando le (iper)politiche stocastiche utilizzate durante il processo di apprendimento sono costruite su una deterministica tramite perturbazioni di rumore bianco. Infine, convalidiamo numericamente le versioni di C-PG basate sulle azioni e sui parametri su problemi di controllo vincolati e le confrontiamo con lo stato dell'arte, dimostrando la loro efficacia nell'implementazione di politiche deterministiche dopo la fase di apprendimento.

Learning deterministic policies in constrained Markov decision processes with policy gradients

CESANI, LEONARDO
2023/2024

Abstract

Constrained Reinforcement Learning (CRL) addresses sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints. In this setting, policy-based methods are widely used since they come with several advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or parameter-based exploration strategy, depending on whether they learn directly the parameters of a stochastic policy or those of a stochastic hyperpolicy. We introduce an exploration-agnostic algorithm, called C-PG, which exhibits global last-iterate convergence guarantees, and its action-based (C-PGAE) and the parameter-based (C-PGPE) versions, illustrating how they can be extended terms of risk measures over the costs, as it is often requested in safety-critical scenarios. We provide last-iterate convergence guarantees of C-PG to the optimal deterministic policy when the stochastic (hyper)policies used during the learning process are built upon a deterministic one via white noise perturbations. Finally, we numerically validate both action-based and parameter-based versions of C-PG on constrained control problems, and compare them with state-of-the-art baselines, demonstrating their effectiveness when deploying deterministic policies after the learning phase.
MUSSI, MARCO
METELLI, ALBERTO MARIA
MONTENEGRO, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Constrained Reinforcement Learning (CRL) affronta problemi decisionali sequenziali in cui gli agenti devono raggiungere gli obiettivi massimizzando il rendimento atteso e rispettando i vincoli specifici del dominio. In questo contesto, i metodi policy-based sono ampiamente utilizzati perché presentano diversi vantaggi quando si tratta di problemi di controllo continuo. Questi metodi cercano nello spazio delle politiche con una strategia di esplorazione action-based o parameter-based, a seconda che apprendano direttamente i parametri di una politica stocastica o quelli di una iperpolitica stocastica. Introduciamo un algoritmo indipendente dall'esplorazione, chiamato C-PG, che presenta garanzie di convergenza globale last-iterate, e le sue versioni basate sull'azione (C-PGAE) e sui parametri (C-PGPE), illustrando come possano essere estese in termini di misure di rischio sui costi, come spesso richiesto in scenari critici per la sicurezza. Forniamo garanzie di convergenza last-iterate di C-PG alla politica deterministica ottimale quando le (iper)politiche stocastiche utilizzate durante il processo di apprendimento sono costruite su una deterministica tramite perturbazioni di rumore bianco. Infine, convalidiamo numericamente le versioni di C-PG basate sulle azioni e sui parametri su problemi di controllo vincolati e le confrontiamo con lo stato dell'arte, dimostrando la loro efficacia nell'implementazione di politiche deterministiche dopo la fase di apprendimento.
File allegati
File Dimensione Formato  
2025_04_Cesani_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: executive summary
Dimensione 1.02 MB
Formato Adobe PDF
1.02 MB Adobe PDF Visualizza/Apri
2025_04_Cesani_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 3.21 MB
Formato Adobe PDF
3.21 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234298