Recently, policy gradient approaches are arousing an ever greater interest as they tend to perform extremely well in continuous state-action domains. However, as the complexity of the parameterized function representing the policy increases, the efficiency of these approaches tends to fall sharply. To this reason, it is still hard to utilize these methods in a real-world scenario. In this thesis, we propose and analyze a potential solution to this problem. Our approach is based on the idea of incrementally adapting the policy representation during the learning process, possibly starting from simpler parameterized functions before exploring more complex ones. Especially, we present a set of alternative formulations of this approach, that address the exploration/exploitation dilemma from different perspectives. Finally, we provide an empirical evaluation of a collection of simulated domains in order to illustrate the potential benefits and issues of our proposed solutions.

Recentemente, gli approcci “policy gradient” (gradiente della politica) stanno suscitando un interesse sempre maggiore poiché tendono ad essere molto efficaci nel risolvere problemi di controllo caratterizzati da domini dello spazio-azione continui. Purtroppo, all’aumentare della complessità della funzione parametrica richiesta per descrivere una politica, l’efficienza di questi metodi tende a ridursi drasticamente. Risulta quindi difficile applicare questi metodi in pratica. In questa tesi, proponiamo ed analizziamo una potenziale soluzione a questo problema. Il nostro approccio si basa sull’idea di adattare gradualmente la rappresentazione di una politica durante il processo di apprendimento, possibilmente partendo da funzioni parametriche più semplici prima di esplorarne di più complesse. In particolare, presentiamo una serie di formulazioni alternative, che affrontano il noto problema di “exploration/exploitation” da diversi punti di vista. Infine, proponiamo una valutazione empirica su una collezione di problemi simulati con lo scopo di illustrare i potenziali benefici e le limitazioni delle soluzioni introdotte.

Reinforcement learning through adaptive policy spaces

PELOSI, GIOVANNI
2018/2019

Abstract

Recently, policy gradient approaches are arousing an ever greater interest as they tend to perform extremely well in continuous state-action domains. However, as the complexity of the parameterized function representing the policy increases, the efficiency of these approaches tends to fall sharply. To this reason, it is still hard to utilize these methods in a real-world scenario. In this thesis, we propose and analyze a potential solution to this problem. Our approach is based on the idea of incrementally adapting the policy representation during the learning process, possibly starting from simpler parameterized functions before exploring more complex ones. Especially, we present a set of alternative formulations of this approach, that address the exploration/exploitation dilemma from different perspectives. Finally, we provide an empirical evaluation of a collection of simulated domains in order to illustrate the potential benefits and issues of our proposed solutions.
MUTTI, MIRCO
PAPINI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Recentemente, gli approcci “policy gradient” (gradiente della politica) stanno suscitando un interesse sempre maggiore poiché tendono ad essere molto efficaci nel risolvere problemi di controllo caratterizzati da domini dello spazio-azione continui. Purtroppo, all’aumentare della complessità della funzione parametrica richiesta per descrivere una politica, l’efficienza di questi metodi tende a ridursi drasticamente. Risulta quindi difficile applicare questi metodi in pratica. In questa tesi, proponiamo ed analizziamo una potenziale soluzione a questo problema. Il nostro approccio si basa sull’idea di adattare gradualmente la rappresentazione di una politica durante il processo di apprendimento, possibilmente partendo da funzioni parametriche più semplici prima di esplorarne di più complesse. In particolare, presentiamo una serie di formulazioni alternative, che affrontano il noto problema di “exploration/exploitation” da diversi punti di vista. Infine, proponiamo una valutazione empirica su una collezione di problemi simulati con lo scopo di illustrare i potenziali benefici e le limitazioni delle soluzioni introdotte.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Thesis___FINAL-23.pdf

accessibile in internet per tutti

Descrizione: Thesis final
Dimensione 6.23 MB
Formato Adobe PDF
6.23 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148522