This thesis provides a study of risk-averse reinforcement learning in general sequential decision-making problems. It focuses on likelihood ratio methods based on variance related criteria such as the Sharpe Ratio and the mean-variance criterion, which are the most common risk measures in economics and operations research. Many real financial problems are too complex to describe the underlying model in terms of small finite sets of states and actions, moreover a learning agent can be mostly trained with historical data collected by other agents, because, in the general case, it is not convenient, or even possible, to explore a risky environment and extract enough data to perform an on-policy learning. For these reasons the main contribution of this work is to present risk-aware algorithms devised to both operate in an off-line batch context and solve problems with continuous state and/or action spaces.

Questa tesi presenta uno studio delle tecniche di apprendimento per rinforzo nell’ambito dell’avversione al rischio per generici processi decisionali. Sono presi in considerazione i metodi basati sull’indice di verosimiglianza che utilizzano criteri in cui è presente la nozione di varianza, come l’indice di Sharpe o il criterio media–varianza, che sono le misure di rischio più diffuse in economia e ricerca operativa. Molti problemi nell’ambito finanziario sono troppo complessi per poterne descrivere il sottostante modello tramite insiemi di stati e azioni che siano di piccole dimensioni. Inoltre un agente può utilizzare nel suo processo di apprendimento prevalentemente dati storici collezionati da altri agenti, perché, in generale, non è conveniente, o addirittura possibile, esplorare un ambiente rischioso ed estrarre dati a sufficienza per eseguire un apprendimento in linea. Per queste ragioni il principale contributo di questo lavoro è quello di presentare algoritmi di avversione al rischio ideati sia per operare con dati non in linea sia per risolvere problemi con spazi di stato e azione continui.

A study on off-line policy gradient algorithms and their application to risk-averse learning

MASTRANGELO, LUCA
2013/2014

Abstract

This thesis provides a study of risk-averse reinforcement learning in general sequential decision-making problems. It focuses on likelihood ratio methods based on variance related criteria such as the Sharpe Ratio and the mean-variance criterion, which are the most common risk measures in economics and operations research. Many real financial problems are too complex to describe the underlying model in terms of small finite sets of states and actions, moreover a learning agent can be mostly trained with historical data collected by other agents, because, in the general case, it is not convenient, or even possible, to explore a risky environment and extract enough data to perform an on-policy learning. For these reasons the main contribution of this work is to present risk-aware algorithms devised to both operate in an off-line batch context and solve problems with continuous state and/or action spaces.
PIROTTA, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2015
2013/2014
Questa tesi presenta uno studio delle tecniche di apprendimento per rinforzo nell’ambito dell’avversione al rischio per generici processi decisionali. Sono presi in considerazione i metodi basati sull’indice di verosimiglianza che utilizzano criteri in cui è presente la nozione di varianza, come l’indice di Sharpe o il criterio media–varianza, che sono le misure di rischio più diffuse in economia e ricerca operativa. Molti problemi nell’ambito finanziario sono troppo complessi per poterne descrivere il sottostante modello tramite insiemi di stati e azioni che siano di piccole dimensioni. Inoltre un agente può utilizzare nel suo processo di apprendimento prevalentemente dati storici collezionati da altri agenti, perché, in generale, non è conveniente, o addirittura possibile, esplorare un ambiente rischioso ed estrarre dati a sufficienza per eseguire un apprendimento in linea. Per queste ragioni il principale contributo di questo lavoro è quello di presentare algoritmi di avversione al rischio ideati sia per operare con dati non in linea sia per risolvere problemi con spazi di stato e azione continui.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.73 MB
Formato Adobe PDF
2.73 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/106524