Keeping risk under control is a primary concern in many critical real-world domains, including finance and healthcare. The literature on risk-averse reinforcement learning (RL) has mostly focused on designing ad-hoc algorithms for specific risk measures. As such, most of these algorithms do not easily generalize to measures other than the one they are designed for. Furthermore, it is often unclear whether state-of-the-art risk-neutral RL algorithms can be extended to reduce risk. In this dissertation, we take a step towards overcoming these limitations, by following two different paths. The first one consists in proposing a single framework to optimize some of the most popular risk measures, including conditional value-at-risk, utility functions, and mean-variance. Leveraging theoretical results on state augmentation, we transform the decision-making process so that optimizing the chosen risk measure in the original environment is equivalent to optimizing the expected return in the transformed one. We then present a risk-sensitive meta-algorithm that transforms the trajectories it collects from the environment and feeds these into any risk-neutral policy optimization method. The second path we follow consists in considering, for the first time, risk-measures connected to the state-action occupancy distribution, instead of the return one. We define a novel measure of risk, which we call reward volatility, consisting of the variance of the rewards under the state-occupancy measure, and we study the optimization of a trade-off objective called mean-volatility. We provide a monotonic improvement for this objective, which allows then to derive a TRPO-like algorithm for risk-averse optimization. Finally, in order to understand the impact of mean-volatility optimization on sample-complexity, we study the convergence rate of an actor-critic approach optimizing this criterion. Thus, we extend recent analyses in the risk-neutral actor-critic setting to the mean-volatility case, in order to establish the sample-complexity required to attain an epsilon-accurate stationary point. All contributions are empirically validated with extensive experimental analyses on challenging benchmarks.

Tenere il rischio sotto controllo è una questione di primaria importanza in molti domini critici del mondo reale, come, ad esempio, in contesti finanziari e sanitari. La letteratura sul reinforcement learning (RL) con avversione al rischio si è concentrata principalmente sulla progettazione di algoritmi ad hoc per misure di rischio specifiche. Come tale, la maggior parte di questi algoritmi non si generalizzano facilmente a misure diverse da quelle per cui sono stati progettati. Inoltre, spesso non è chiaro se gli algoritmi di RL all'avanguardia e neutrali al rischio possano permettere estensioni che li rendano avversi al rischio. In questa dissertazione, facciamo un passo verso il superamento di queste limitazioni, seguendo due strade diverse. La prima consiste nel proporre un'unica struttura per ottimizzare alcune delle misure di rischio più popolari, tra cui il conditional value at risk, le funzioni di utilità e il mean-variance. Sfruttando i risultati teorici sulla state-augmentation, trasformiamo il processo decisionale in modo che l'ottimizzazione della misura di rischio scelta nell'ambiente originale sia equivalente all'ottimizzazione del return atteso in quello trasformato. Presentiamo quindi un meta-algoritmo sensibile al rischio che trasforma le traiettorie raccolte dall'ambiente e le alimenta in qualsiasi metodo di ottimizzazione della politica neutrale al rischio. Il secondo percorso che seguiamo consiste nel considerare, per la prima volta, misure di rischio legate alla state-occupancy distribution, invece di quella del return. Definiamo una nuova misura di rischio, che chiamiamo reward-volatility, che consiste nella varianza delle reward sotto la state-occupancy distribution, e studiamo l'ottimizzazione di un obiettivo di trade-off chiamato mean-volatility. Forniamo una garanzia di miglioramento di performance monotono per questo obiettivo, che ci permette di derivare un algoritmo simile a TRPO per l'ottimizzazione avversa al rischio. Infine, per capire l'impatto dell'ottimizzazione della volatilità media sulla sample-complexity, studiamo il tasso di convergenza di un approccio actor-critic che ottimizza questo criterio. Quindi, estendiamo le analisi recenti nel setting actor-critic neutrale al rischio al caso della mean-volatility, al fine di stabilire la sample-complexity necessaria per raggiungere un punto stazionario epsilon-accurato. Tutti i contributi sono validati empiricamente con ampie analisi sperimentali su benchmark complessi. Tradotto con www.DeepL.com/Translator (versione gratuita)

Algorithms for risk-averse reinforcement learning

Bisi, Lorenzo
2021/2022

Abstract

Keeping risk under control is a primary concern in many critical real-world domains, including finance and healthcare. The literature on risk-averse reinforcement learning (RL) has mostly focused on designing ad-hoc algorithms for specific risk measures. As such, most of these algorithms do not easily generalize to measures other than the one they are designed for. Furthermore, it is often unclear whether state-of-the-art risk-neutral RL algorithms can be extended to reduce risk. In this dissertation, we take a step towards overcoming these limitations, by following two different paths. The first one consists in proposing a single framework to optimize some of the most popular risk measures, including conditional value-at-risk, utility functions, and mean-variance. Leveraging theoretical results on state augmentation, we transform the decision-making process so that optimizing the chosen risk measure in the original environment is equivalent to optimizing the expected return in the transformed one. We then present a risk-sensitive meta-algorithm that transforms the trajectories it collects from the environment and feeds these into any risk-neutral policy optimization method. The second path we follow consists in considering, for the first time, risk-measures connected to the state-action occupancy distribution, instead of the return one. We define a novel measure of risk, which we call reward volatility, consisting of the variance of the rewards under the state-occupancy measure, and we study the optimization of a trade-off objective called mean-volatility. We provide a monotonic improvement for this objective, which allows then to derive a TRPO-like algorithm for risk-averse optimization. Finally, in order to understand the impact of mean-volatility optimization on sample-complexity, we study the convergence rate of an actor-critic approach optimizing this criterion. Thus, we extend recent analyses in the risk-neutral actor-critic setting to the mean-volatility case, in order to establish the sample-complexity required to attain an epsilon-accurate stationary point. All contributions are empirically validated with extensive experimental analyses on challenging benchmarks.
PERNICI, BARBARA
GATTI, NICOLA
12-feb-2022
Algorithms for risk-averse reinforcement learning
Tenere il rischio sotto controllo è una questione di primaria importanza in molti domini critici del mondo reale, come, ad esempio, in contesti finanziari e sanitari. La letteratura sul reinforcement learning (RL) con avversione al rischio si è concentrata principalmente sulla progettazione di algoritmi ad hoc per misure di rischio specifiche. Come tale, la maggior parte di questi algoritmi non si generalizzano facilmente a misure diverse da quelle per cui sono stati progettati. Inoltre, spesso non è chiaro se gli algoritmi di RL all'avanguardia e neutrali al rischio possano permettere estensioni che li rendano avversi al rischio. In questa dissertazione, facciamo un passo verso il superamento di queste limitazioni, seguendo due strade diverse. La prima consiste nel proporre un'unica struttura per ottimizzare alcune delle misure di rischio più popolari, tra cui il conditional value at risk, le funzioni di utilità e il mean-variance. Sfruttando i risultati teorici sulla state-augmentation, trasformiamo il processo decisionale in modo che l'ottimizzazione della misura di rischio scelta nell'ambiente originale sia equivalente all'ottimizzazione del return atteso in quello trasformato. Presentiamo quindi un meta-algoritmo sensibile al rischio che trasforma le traiettorie raccolte dall'ambiente e le alimenta in qualsiasi metodo di ottimizzazione della politica neutrale al rischio. Il secondo percorso che seguiamo consiste nel considerare, per la prima volta, misure di rischio legate alla state-occupancy distribution, invece di quella del return. Definiamo una nuova misura di rischio, che chiamiamo reward-volatility, che consiste nella varianza delle reward sotto la state-occupancy distribution, e studiamo l'ottimizzazione di un obiettivo di trade-off chiamato mean-volatility. Forniamo una garanzia di miglioramento di performance monotono per questo obiettivo, che ci permette di derivare un algoritmo simile a TRPO per l'ottimizzazione avversa al rischio. Infine, per capire l'impatto dell'ottimizzazione della volatilità media sulla sample-complexity, studiamo il tasso di convergenza di un approccio actor-critic che ottimizza questo criterio. Quindi, estendiamo le analisi recenti nel setting actor-critic neutrale al rischio al caso della mean-volatility, al fine di stabilire la sample-complexity necessaria per raggiungere un punto stazionario epsilon-accurato. Tutti i contributi sono validati empiricamente con ampie analisi sperimentali su benchmark complessi. Tradotto con www.DeepL.com/Translator (versione gratuita)
File allegati
File Dimensione Formato  
PhD_Thesis_Bisi.pdf

accessibile in internet per tutti

Descrizione: Tesi di dottorato di Lorenzo Bisi
Dimensione 2.46 MB
Formato Adobe PDF
2.46 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182899