In real-world problems such as robotics, finance and healthcare, the risk is always present and it is important to take it into consideration in order to limit the chance of rare but dangerous events. The literature on risk-averse reinforcement learning has touched coherent risk measures based on the long-term return or reward-based risk measures that are not coherent. Here we present two new risk-averse objectives that are both coherent and based on the reward: the reward-based mean-mean absolute deviation (Mean-RMAD) and the reward-based conditional value at risk (RCVaR), showing the importance of coherence with an example. We prove that these risk measures bound the corresponding return-based risk measures, so increasing one of the former measures increases also the return-based version. We develop algorithms for these risk measures with guaranteed monotonic improvement. Furthermore, a meta-algorithm allows to solve the RCVaR optimisation by optimising instead a sequence of risk-neutral problems. Finally, we conduct an empirical analysis about how these approaches are effective in retrieving behaviours with different levels of risk-aversion on a financial environment and on noisy and challenging environments from PyBullet.

In problemi del mondo reale come la robotica, la finanza e la sanità il rischio è sempre presente ed è importante tenerlo in considerazione in modo da limitare la possibilità di rari ma pericolosi eventi. La letteratura sull'apprendimento per rinforzo avverso al rischio ha indagato misure di rischio coerenti basate sul return del lungo termine e misure di rischio coerenti basate sul reward. Qui presentiamo due nuovi obiettivi avversi al rischio che sono sia coerenti sia basati sul reward: la media-deviazione media assoluta (Mean-RMAD) e il valore condizionale a rischio (RCVaR) basati sul reward, mostrando l'importanza della coerenza con un esempio. Dimostriamo che queste misure di rischio limitano il valore delle corrispondenti misure di rischio basate sul return, quindi se si incrementa una delle precedenti misure si incrementa anche la versione basata sul return. Sviluppiamo algoritmi per queste misure di rischio con la garanzia di miglioramento monotono della misura. Inoltre, un meta-algoritmo permette di risolvere la massimizzazione del RCVaR ottimizzando una sequenza di problemi neutrali al rischio. Infine, svolgiamo un'analisi empirica riguardo come questi approcci sono efficaci nel trovare comportamenti per diversi livelli di avversione al rischio su un ambiente finanziario e su ambienti rumorosi e impegnativi che provengono da PyBullet.

Algorithms for reward-based coherent risk measures in risk-averse reinforcement learning

Bonetti, Massimiliano
2020/2021

Abstract

In real-world problems such as robotics, finance and healthcare, the risk is always present and it is important to take it into consideration in order to limit the chance of rare but dangerous events. The literature on risk-averse reinforcement learning has touched coherent risk measures based on the long-term return or reward-based risk measures that are not coherent. Here we present two new risk-averse objectives that are both coherent and based on the reward: the reward-based mean-mean absolute deviation (Mean-RMAD) and the reward-based conditional value at risk (RCVaR), showing the importance of coherence with an example. We prove that these risk measures bound the corresponding return-based risk measures, so increasing one of the former measures increases also the return-based version. We develop algorithms for these risk measures with guaranteed monotonic improvement. Furthermore, a meta-algorithm allows to solve the RCVaR optimisation by optimising instead a sequence of risk-neutral problems. Finally, we conduct an empirical analysis about how these approaches are effective in retrieving behaviours with different levels of risk-aversion on a financial environment and on noisy and challenging environments from PyBullet.
BISI, LORENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
In problemi del mondo reale come la robotica, la finanza e la sanità il rischio è sempre presente ed è importante tenerlo in considerazione in modo da limitare la possibilità di rari ma pericolosi eventi. La letteratura sull'apprendimento per rinforzo avverso al rischio ha indagato misure di rischio coerenti basate sul return del lungo termine e misure di rischio coerenti basate sul reward. Qui presentiamo due nuovi obiettivi avversi al rischio che sono sia coerenti sia basati sul reward: la media-deviazione media assoluta (Mean-RMAD) e il valore condizionale a rischio (RCVaR) basati sul reward, mostrando l'importanza della coerenza con un esempio. Dimostriamo che queste misure di rischio limitano il valore delle corrispondenti misure di rischio basate sul return, quindi se si incrementa una delle precedenti misure si incrementa anche la versione basata sul return. Sviluppiamo algoritmi per queste misure di rischio con la garanzia di miglioramento monotono della misura. Inoltre, un meta-algoritmo permette di risolvere la massimizzazione del RCVaR ottimizzando una sequenza di problemi neutrali al rischio. Infine, svolgiamo un'analisi empirica riguardo come questi approcci sono efficaci nel trovare comportamenti per diversi livelli di avversione al rischio su un ambiente finanziario e su ambienti rumorosi e impegnativi che provengono da PyBullet.
File allegati
File Dimensione Formato  
2022_04_Bonetti_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 9.11 MB
Formato Adobe PDF
9.11 MB Adobe PDF Visualizza/Apri
2022_04_Bonetti_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 1.72 MB
Formato Adobe PDF
1.72 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186922