Algorithms for reward-based coherent risk measures in risk-averse reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In real-world problems such as robotics, finance and healthcare, the risk is always present and it is important to take it into consideration in order to limit the chance of rare but dangerous events. The literature on risk-averse reinforcement learning has touched coherent risk measures based on the long-term return or reward-based risk measures that are not coherent. Here we present two new risk-averse objectives that are both coherent and based on the reward: the reward-based mean-mean absolute deviation (Mean-RMAD) and the reward-based conditional value at risk (RCVaR), showing the importance of coherence with an example. We prove that these risk measures bound the corresponding return-based risk measures, so increasing one of the former measures increases also the return-based version. We develop algorithms for these risk measures with guaranteed monotonic improvement. Furthermore, a meta-algorithm allows to solve the RCVaR optimisation by optimising instead a sequence of risk-neutral problems. Finally, we conduct an empirical analysis about how these approaches are effective in retrieving behaviours with different levels of risk-aversion on a financial environment and on noisy and challenging environments from PyBullet.

In problemi del mondo reale come la robotica, la finanza e la sanità il rischio è sempre presente ed è importante tenerlo in considerazione in modo da limitare la possibilità di rari ma pericolosi eventi. La letteratura sull'apprendimento per rinforzo avverso al rischio ha indagato misure di rischio coerenti basate sul return del lungo termine e misure di rischio coerenti basate sul reward. Qui presentiamo due nuovi obiettivi avversi al rischio che sono sia coerenti sia basati sul reward: la media-deviazione media assoluta (Mean-RMAD) e il valore condizionale a rischio (RCVaR) basati sul reward, mostrando l'importanza della coerenza con un esempio. Dimostriamo che queste misure di rischio limitano il valore delle corrispondenti misure di rischio basate sul return, quindi se si incrementa una delle precedenti misure si incrementa anche la versione basata sul return. Sviluppiamo algoritmi per queste misure di rischio con la garanzia di miglioramento monotono della misura. Inoltre, un meta-algoritmo permette di risolvere la massimizzazione del RCVaR ottimizzando una sequenza di problemi neutrali al rischio. Infine, svolgiamo un'analisi empirica riguardo come questi approcci sono efficaci nel trovare comportamenti per diversi livelli di avversione al rischio su un ambiente finanziario e su ambienti rumorosi e impegnativi che provengono da PyBullet.

Algorithms for reward-based coherent risk measures in risk-averse reinforcement learning

Bonetti, Massimiliano

2020/2021

Abstract

In real-world problems such as robotics, finance and healthcare, the risk is always present and it is important to take it into consideration in order to limit the chance of rare but dangerous events. The literature on risk-averse reinforcement learning has touched coherent risk measures based on the long-term return or reward-based risk measures that are not coherent. Here we present two new risk-averse objectives that are both coherent and based on the reward: the reward-based mean-mean absolute deviation (Mean-RMAD) and the reward-based conditional value at risk (RCVaR), showing the importance of coherence with an example. We prove that these risk measures bound the corresponding return-based risk measures, so increasing one of the former measures increases also the return-based version. We develop algorithms for these risk measures with guaranteed monotonic improvement. Furthermore, a meta-algorithm allows to solve the RCVaR optimisation by optimising instead a sequence of risk-neutral problems. Finally, we conduct an empirical analysis about how these approaches are effective in retrieving behaviours with different levels of risk-aversion on a financial environment and on noisy and challenging environments from PyBullet.

Scheda breve

Scheda completa

	Relatore
	
				RESTELLI, MARCELLO
			
	Correlatore/i
	
				BISI, LORENZO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				28-apr-2022
			
	Anno accademico
	
				2020/2021
			
	Abstract in italiano
	
				In problemi del mondo reale come la robotica, la finanza e la sanità il rischio è sempre presente ed è importante tenerlo in considerazione in modo da limitare la possibilità di rari ma pericolosi eventi. La letteratura sull'apprendimento per rinforzo avverso al rischio ha indagato misure di rischio coerenti basate sul return del lungo termine e misure di rischio coerenti basate sul reward. Qui presentiamo due nuovi obiettivi avversi al rischio che sono sia coerenti sia basati sul reward: la media-deviazione media assoluta (Mean-RMAD) e il valore condizionale a rischio (RCVaR) basati sul reward, mostrando l'importanza della coerenza con un esempio. Dimostriamo che queste misure di rischio limitano il valore delle corrispondenti misure di rischio basate sul return, quindi se si incrementa una delle precedenti misure si incrementa anche la versione basata sul return. Sviluppiamo algoritmi per queste misure di rischio con la garanzia di miglioramento monotono della misura. Inoltre, un meta-algoritmo permette di risolvere la massimizzazione del RCVaR ottimizzando una sequenza di problemi neutrali al rischio. Infine, svolgiamo un'analisi empirica riguardo come questi approcci sono efficaci nel trovare comportamenti per diversi livelli di avversione al rischio su un ambiente finanziario e su ambienti rumorosi e impegnativi che provengono da PyBullet.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2022_04_Bonetti_01.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 9.11 MB Formato Adobe PDF Visualizza/Apri	9.11 MB	Adobe PDF	Visualizza/Apri
2022_04_Bonetti_02.pdf accessibile in internet per tutti Descrizione: Executive summary Dimensione 1.72 MB Formato Adobe PDF Visualizza/Apri	1.72 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186922