Reinforcement Learning (RL) has driven impressive advances in artificial intelligence in recent years for a wide range of domains, from robotic control to financial trading. However, the performance of current RL methods is strongly dependent on the hyperparameters of the algorithms, which practitioners usually need to tune carefully, and on the environment design, where the control frequency plays a dominant role. The consequent engineering procedures are prone to errors and are time-consuming, especially if they are started from scratch for each task modification. The subject of this dissertation is the development of automatic techniques to enhance the learning capabilities of RL algorithms in a twofold direction. In the first part, we address the Hyperparameter Optimization (HO) problem, with a particular focus on policy-based techniques for RL: indeed, they rely on strong theoretical guarantees that play a very important role but do not help in the selection of the hyperparameters. To enhance the learning capabilities of this class of algorithms, we frame HO as a Sequential Decision Process and design a solution that allows selecting a dynamic sequence of hyperparameters adaptive to the policy and the context of the environment. Hence, the reward function of the learning process is performance gain, and the action consists in the hyperparameter selection. With this problem definition, it is possible to adopt RL algorithms on a more abstract level to optimize the progress of the whole learning instance. The second part is devoted to improving RL agents by leveraging the frequency of the agent-environment interaction, which has a deep impact on the control opportunities and the sample complexity of the learning algorithms. We introduce and discuss the concept of action persistence or action repetition: leveraging theoretical results and bounds on the performance loss incurred while employing persistence, we provide algorithmic contributions to detect the most promising frequency. As a conclusive contribution, we employ a new operator that allows for effective use of the experience collected at any time scale to learn a dynamic adaption of the persistence or, in other terms, the best duration of each action. All contributions are empirically validated through experimental assessments on challenging benchmarks.

Negli ultimi anni, l'apprendimento tramite rinforzo (Reinforcement Learning, RL) ha ottenuto progressi impressionanti in una vasta gamma di domini, dal controllo robotico al trading finanziario. Tuttavia, le prestazioni dei metodi attuali sono fortemente dipendenti dai loro iperparametri, da regolare con cura, e dalla configurazione dell'ambiente, in cui la frequenza di controllo svolge un ruolo dominante. Le conseguenti procedure di progettazione sono soggette a errori e richiedono molto tempo, soprattutto se avviate da zero per ogni modifica del sistema. Oggetto di questa dissertazione è lo sviluppo di tecniche automatiche per migliorare le capacità di apprendimento degli algoritmi RL in due direzioni. Nella prima parte, affrontiamo il problema dell'ottimizzazione dei iperparametri, con particolare attenzione alle tecniche di RL tramite gradiente: queste si basano su importanti garanzie teoriche che non aiutano nella selezione dei iperparametri. Per migliorare le capacità di apprendimento di questa classe di algoritmi, definiamo il problema come un processo decisionale sequenziale e progettiamo una soluzione che consente di attuare una sequenza dinamica di iperparametri adattiva alla politica e al contesto dell'ambiente. Di conseguenza, il guadagno dell'istanza di apprendimento è dato dal miglioramento delle prestazioni e l'azione consiste nella scelta degli iperparametri. Con questa definizione, si possono adottare gli algoritmi di RL su un livello più astratto per ottimizzare il progresso dell'intera istanza di apprendimento. La seconda parte è dedicata al miglioramento degli agenti RL sfruttando la frequenza di interazione agente-ambiente, che ha un impatto profondo sulle potenzialità e sulla complessità degli algoritmi di apprendimento. Introduciamo e discutiamo il concetto di persistenza o ripetizione dell'azione: sfruttando i risultati e i limiti teorici sulle perdite di prestazione durante l'utilizzo della persistenza, forniamo contributi algoritmici per rilevare la frequenza di controllo più promettente. Come contributo conclusivo, utilizziamo un nuovo operatore che consente un efficace utilizzo dell'esperienza raccolta in qualsiasi scala temporale per imparare un adattamento dinamico della persistenza o, in altri termini, della durata migliore di ogni azione. Tutti i contributi vengono validati empiricamente attraverso valutazioni sperimentali su benchmark complessi.

Exploiting hyperparameter optimization and control frequency in reinforcement learning

Sabbioni, Luca
2022/2023

Abstract

Reinforcement Learning (RL) has driven impressive advances in artificial intelligence in recent years for a wide range of domains, from robotic control to financial trading. However, the performance of current RL methods is strongly dependent on the hyperparameters of the algorithms, which practitioners usually need to tune carefully, and on the environment design, where the control frequency plays a dominant role. The consequent engineering procedures are prone to errors and are time-consuming, especially if they are started from scratch for each task modification. The subject of this dissertation is the development of automatic techniques to enhance the learning capabilities of RL algorithms in a twofold direction. In the first part, we address the Hyperparameter Optimization (HO) problem, with a particular focus on policy-based techniques for RL: indeed, they rely on strong theoretical guarantees that play a very important role but do not help in the selection of the hyperparameters. To enhance the learning capabilities of this class of algorithms, we frame HO as a Sequential Decision Process and design a solution that allows selecting a dynamic sequence of hyperparameters adaptive to the policy and the context of the environment. Hence, the reward function of the learning process is performance gain, and the action consists in the hyperparameter selection. With this problem definition, it is possible to adopt RL algorithms on a more abstract level to optimize the progress of the whole learning instance. The second part is devoted to improving RL agents by leveraging the frequency of the agent-environment interaction, which has a deep impact on the control opportunities and the sample complexity of the learning algorithms. We introduce and discuss the concept of action persistence or action repetition: leveraging theoretical results and bounds on the performance loss incurred while employing persistence, we provide algorithmic contributions to detect the most promising frequency. As a conclusive contribution, we employ a new operator that allows for effective use of the experience collected at any time scale to learn a dynamic adaption of the persistence or, in other terms, the best duration of each action. All contributions are empirically validated through experimental assessments on challenging benchmarks.
PIRODDI, LUIGI
GATTI, NICOLA
14-lug-2023
Negli ultimi anni, l'apprendimento tramite rinforzo (Reinforcement Learning, RL) ha ottenuto progressi impressionanti in una vasta gamma di domini, dal controllo robotico al trading finanziario. Tuttavia, le prestazioni dei metodi attuali sono fortemente dipendenti dai loro iperparametri, da regolare con cura, e dalla configurazione dell'ambiente, in cui la frequenza di controllo svolge un ruolo dominante. Le conseguenti procedure di progettazione sono soggette a errori e richiedono molto tempo, soprattutto se avviate da zero per ogni modifica del sistema. Oggetto di questa dissertazione è lo sviluppo di tecniche automatiche per migliorare le capacità di apprendimento degli algoritmi RL in due direzioni. Nella prima parte, affrontiamo il problema dell'ottimizzazione dei iperparametri, con particolare attenzione alle tecniche di RL tramite gradiente: queste si basano su importanti garanzie teoriche che non aiutano nella selezione dei iperparametri. Per migliorare le capacità di apprendimento di questa classe di algoritmi, definiamo il problema come un processo decisionale sequenziale e progettiamo una soluzione che consente di attuare una sequenza dinamica di iperparametri adattiva alla politica e al contesto dell'ambiente. Di conseguenza, il guadagno dell'istanza di apprendimento è dato dal miglioramento delle prestazioni e l'azione consiste nella scelta degli iperparametri. Con questa definizione, si possono adottare gli algoritmi di RL su un livello più astratto per ottimizzare il progresso dell'intera istanza di apprendimento. La seconda parte è dedicata al miglioramento degli agenti RL sfruttando la frequenza di interazione agente-ambiente, che ha un impatto profondo sulle potenzialità e sulla complessità degli algoritmi di apprendimento. Introduciamo e discutiamo il concetto di persistenza o ripetizione dell'azione: sfruttando i risultati e i limiti teorici sulle perdite di prestazione durante l'utilizzo della persistenza, forniamo contributi algoritmici per rilevare la frequenza di controllo più promettente. Come contributo conclusivo, utilizziamo un nuovo operatore che consente un efficace utilizzo dell'esperienza raccolta in qualsiasi scala temporale per imparare un adattamento dinamico della persistenza o, in altri termini, della durata migliore di ogni azione. Tutti i contributi vengono validati empiricamente attraverso valutazioni sperimentali su benchmark complessi.
File allegati
File Dimensione Formato  
Sabbioni_phd_thesis.pdf

accessibile in internet per tutti

Dimensione 7.09 MB
Formato Adobe PDF
7.09 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/207414