Automated Reinforcement Learning (AutoRL) is a relatively new area of research that is gaining increasing attention. The objective of AutoRL consists in easing the employment of Reinforcement Learning (RL) techniques for the broader public by alleviating some of its main challenges, including data collection, algorithm selection, and hyper-parameter tuning. In this work, we propose a general and flexible framework, namely ARLO, to construct automated pipelines for AutoRL. Based on this, we propose a pipeline for offline and one for online RL, discussing the components, interaction, and highlighting the difference between the two settings. Furthermore, we provide a Python implementation of such pipelines, released as an open-source library. Our implementation has been tested on an illustrative LQG domain and on classic MuJoCo environments, showing the ability to reach competitive performances without requiring any manual adjustment by humans. We also showcase the full pipeline on a realistic dam environment, automatically performing the feature selection and the model generation tasks.
L’Automated Reinforcement Learning (AutoRL) é un’area di ricerca relativamente nuova, che recentemente sta ricevendo sempre piú attenzione, il cui obbiettivo é quello di facilitare l’utilizzo di tecniche di Reinforcement Learning (RL) anche per coloro che non sono degli esperti, mitigando alcune delle principali difficoltá, quali la raccolta dei dati, la scelta del modello da utilizzare, e la scelta degli iper-parametri dei modelli utilizzati. In questo lavoro, proponiamo un framework generale e flessibile, chiamato ARLO, per poter costruire pipelines di AutoRL in modo automatico. Basandoci su tale framework proponiamo due pipelines specifiche, una per offline RL e una per online RL, discutendone le componenti, le interazioni, ed evidenziandone le differenze. Rilasciamo inoltre una libreria open-source contenente un’implementazione in Python di tale framework e delle due pipelines specifiche. Successivamente testiamo il nostro framework, e la sua implementazione, su un ambiente LQG, su dei classici ambienti MuJoCo e infine su un ambiente piú realistico, che modellizza una diga, in cui automaticamente vengono eseguiti sia feature selection che model generation. I risultati ottenuti dimostrano l’abilitá da parte del nostro framework, e della sua implementazione, di ottenere risultati competitivi, senza richiedere alcun intervento umano.
Towards Automated Reinforcement Learning
Lombarda, Davide
2020/2021
Abstract
Automated Reinforcement Learning (AutoRL) is a relatively new area of research that is gaining increasing attention. The objective of AutoRL consists in easing the employment of Reinforcement Learning (RL) techniques for the broader public by alleviating some of its main challenges, including data collection, algorithm selection, and hyper-parameter tuning. In this work, we propose a general and flexible framework, namely ARLO, to construct automated pipelines for AutoRL. Based on this, we propose a pipeline for offline and one for online RL, discussing the components, interaction, and highlighting the difference between the two settings. Furthermore, we provide a Python implementation of such pipelines, released as an open-source library. Our implementation has been tested on an illustrative LQG domain and on classic MuJoCo environments, showing the ability to reach competitive performances without requiring any manual adjustment by humans. We also showcase the full pipeline on a realistic dam environment, automatically performing the feature selection and the model generation tasks.File | Dimensione | Formato | |
---|---|---|---|
Lombarda_executive_summary.pdf
solo utenti autorizzati dal 12/04/2023
Descrizione: executive summary
Dimensione
526.12 kB
Formato
Adobe PDF
|
526.12 kB | Adobe PDF | Visualizza/Apri |
Lombarda_tesi.pdf
solo utenti autorizzati dal 12/04/2023
Descrizione: tesi
Dimensione
2.15 MB
Formato
Adobe PDF
|
2.15 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/187829