MUSSI, MARCO METELLI, ALBERTO MARIA MONTENEGRO, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Constrained Reinforcement Learning (CRL) affronta problemi decisionali sequenziali in cui gli agenti devono raggiungere gli obiettivi massimizzando il rendimento atteso e rispettando i vincoli specifici del dominio. In questo contesto, i metodi policy-based sono ampiamente utilizzati perché presentano diversi vantaggi quando si tratta di problemi di controllo continuo. Questi metodi cercano nello spazio delle politiche con una strategia di esplorazione action-based o parameter-based, a seconda che apprendano direttamente i parametri di una politica stocastica o quelli di una iperpolitica stocastica.
Introduciamo un algoritmo indipendente dall'esplorazione, chiamato C-PG, che presenta garanzie di convergenza globale last-iterate, e le sue versioni basate sull'azione (C-PGAE) e sui parametri (C-PGPE), illustrando come possano essere estese in termini di misure di rischio sui costi, come spesso richiesto in scenari critici per la sicurezza.
Forniamo garanzie di convergenza last-iterate di C-PG alla politica deterministica ottimale quando le (iper)politiche stocastiche utilizzate durante il processo di apprendimento sono costruite su una deterministica tramite perturbazioni di rumore bianco. Infine, convalidiamo numericamente le versioni di C-PG basate sulle azioni e sui parametri su problemi di controllo vincolati e le confrontiamo con lo stato dell'arte, dimostrando la loro efficacia nell'implementazione di politiche deterministiche dopo la fase di apprendimento.
Constrained Reinforcement Learning (CRL) addresses sequential decision-making problems where agents are required to achieve goals by maximizing the expected return while meeting domain-specific constraints. In this setting, policy-based methods are widely used since they come with several advantages when dealing with continuous-control problems. These methods search in the policy space with an action-based or parameter-based exploration strategy, depending on whether they learn directly the parameters of a stochastic policy or those of a stochastic hyperpolicy.
We introduce an exploration-agnostic algorithm, called C-PG, which exhibits global last-iterate convergence guarantees, and its action-based (C-PGAE) and the parameter-based (C-PGPE) versions, illustrating how they can be extended terms of risk measures over the costs, as it is often requested in safety-critical scenarios.
We provide last-iterate convergence guarantees of C-PG to the optimal deterministic policy when the stochastic (hyper)policies used during the learning process are built upon a deterministic one via white noise perturbations. Finally, we numerically validate both action-based and parameter-based versions of C-PG on constrained control problems, and compare them with state-of-the-art baselines, demonstrating their effectiveness when deploying deterministic policies after the learning phase.