Reinforcement Learning (RL) stands as a central paradigm in the advancement of Artificial Intelligence, offering robust methodologies for tackling sequential decision-making challenges across diverse domains. Traditional Online RL learns through trial-and-error by interacting with the environment and dynamically adapting its behaviour based on the feedback received, often at the cost of high sample complexity and instability during the learning process. On the other hand, Offline RL leverages pre-collected transitions stored in a static dataset to train agents without the necessity for interactions with the environment. Neverthess, Offline RL methods are constrained to rely on the quality and diversity of offline data, limiting their ability to generalize to unknown scenarios. To overcome the challenges of both methods while harnessing the strengths of existing approaches, attention has turned to the Hybrid RL setting, where the agent has access to both an offline dataset and the ability to dynamically interact with the environment, with the goal of exploiting the static data to efficiently address the exploration challenge. Despite the increasing interest in Hybrid RL methods, multiple works have shown to be affected by an anomalous behaviour during the training process, which we refer as Catastrophic forgetting, where the agent suffers from a sudden and destructive drop in performance which dramatically affects the sample complexity of the interested algorithms and damages the learned behaviour. This thesis proposes a novel technique based on a two-stage algorithm that aims at tackling the aforementioned challenge, providing strong empirical results across a range of benchmark traning environments when compared to exisiting Offline, Online and Hybrid RL methods, enhancing stability during training and significantly preventing the occurrence of Catastrophic forgetting phenomenons. Furthermore, we provide theoretical guarantees on both learning phases, ensuring convergence to near-optimal policies while avoiding performance degradation, thereby establishing a robust foundation for Hybrid RL approaches.

L'Apprendimento per Rinforzo rappresenta un paradigma centrale nell'ambito dell' Intelligenza Artificiale, capace di offrire metodi per affrontare problemi decisioni di tipo sequenziale in diversi ambiti. L'Apprendimento per Rinforzo Online guida l'apprendimento attraverso tentativi ed errori, interagendo con l'ambiente e adattando il proprio comportamento in base al feedback ricevuto, spesso a costo di un'elevata complessità campionaria e di instabilità del processo di apprendimento. D'altro canto, l'Apprendimento per Rinforzo Offline sfrutta le transizioni contenute in un set di dati statico per addestrare gli agenti senza la necessità di interagire con l'ambiente. Tuttavia, i metodi offline sono costretti a fare affidamento sulla qualità dei dati offline, limitando la propria capacità di generalizzare a scenari sconosciuti. Per superare le sfide di entrambi i metodi e sfruttare al contempo i punti di forza degli approcci esistenti, l'attenzione si è rivolta verso tecniche di Apprendimento per Rinforzo Ibrido, in cui l'agente ha accesso sia ad un set di dati offline, sia alla possibilità di interagire con l'ambiente, con l'obiettivo di usare i dati statici per affrontare efficientemente l'esplorazione. Nonostante il crescente interesse per i metodi ibridi, molti lavori hanno dimostrato di essere affetti da un comportamento anomalo durante l'addestramento, definito Oblio Catastrofico, in cui l'agente soffre di un improvviso e spesso irreversibile calo delle prestazioni che influisce drammaticamente sull'efficienza degli algoritmi interessati e danneggia il comportamento appreso. Questa tesi propone una tecnica innovativa basata su un algoritmo a due stadi che mira ad affrontare la suddetta sfida, fornendo solidi risultati empirici rispetto ai metodi offline, online e ibridi esistenti, migliorando la stabilità durante l'addestramento e prevenendo il verificarsi di fenomeni di Oblio Catastrofico. Inoltre, forniamo garanzie teoriche su entrambe le fasi di apprendimento, assicurando la convergenza verso strategie quasi ottimali ed evitando al contempo il degrado delle prestazioni, stabilendo una solida base per futuri approcci di Apprendimento per Rinforzo Ibrido.

Preventing catastrophic forgetting in hybrid reinforcement learning

De CLARA, LEONARDO
2023/2024

Abstract

Reinforcement Learning (RL) stands as a central paradigm in the advancement of Artificial Intelligence, offering robust methodologies for tackling sequential decision-making challenges across diverse domains. Traditional Online RL learns through trial-and-error by interacting with the environment and dynamically adapting its behaviour based on the feedback received, often at the cost of high sample complexity and instability during the learning process. On the other hand, Offline RL leverages pre-collected transitions stored in a static dataset to train agents without the necessity for interactions with the environment. Neverthess, Offline RL methods are constrained to rely on the quality and diversity of offline data, limiting their ability to generalize to unknown scenarios. To overcome the challenges of both methods while harnessing the strengths of existing approaches, attention has turned to the Hybrid RL setting, where the agent has access to both an offline dataset and the ability to dynamically interact with the environment, with the goal of exploiting the static data to efficiently address the exploration challenge. Despite the increasing interest in Hybrid RL methods, multiple works have shown to be affected by an anomalous behaviour during the training process, which we refer as Catastrophic forgetting, where the agent suffers from a sudden and destructive drop in performance which dramatically affects the sample complexity of the interested algorithms and damages the learned behaviour. This thesis proposes a novel technique based on a two-stage algorithm that aims at tackling the aforementioned challenge, providing strong empirical results across a range of benchmark traning environments when compared to exisiting Offline, Online and Hybrid RL methods, enhancing stability during training and significantly preventing the occurrence of Catastrophic forgetting phenomenons. Furthermore, we provide theoretical guarantees on both learning phases, ensuring convergence to near-optimal policies while avoiding performance degradation, thereby establishing a robust foundation for Hybrid RL approaches.
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
L'Apprendimento per Rinforzo rappresenta un paradigma centrale nell'ambito dell' Intelligenza Artificiale, capace di offrire metodi per affrontare problemi decisioni di tipo sequenziale in diversi ambiti. L'Apprendimento per Rinforzo Online guida l'apprendimento attraverso tentativi ed errori, interagendo con l'ambiente e adattando il proprio comportamento in base al feedback ricevuto, spesso a costo di un'elevata complessità campionaria e di instabilità del processo di apprendimento. D'altro canto, l'Apprendimento per Rinforzo Offline sfrutta le transizioni contenute in un set di dati statico per addestrare gli agenti senza la necessità di interagire con l'ambiente. Tuttavia, i metodi offline sono costretti a fare affidamento sulla qualità dei dati offline, limitando la propria capacità di generalizzare a scenari sconosciuti. Per superare le sfide di entrambi i metodi e sfruttare al contempo i punti di forza degli approcci esistenti, l'attenzione si è rivolta verso tecniche di Apprendimento per Rinforzo Ibrido, in cui l'agente ha accesso sia ad un set di dati offline, sia alla possibilità di interagire con l'ambiente, con l'obiettivo di usare i dati statici per affrontare efficientemente l'esplorazione. Nonostante il crescente interesse per i metodi ibridi, molti lavori hanno dimostrato di essere affetti da un comportamento anomalo durante l'addestramento, definito Oblio Catastrofico, in cui l'agente soffre di un improvviso e spesso irreversibile calo delle prestazioni che influisce drammaticamente sull'efficienza degli algoritmi interessati e danneggia il comportamento appreso. Questa tesi propone una tecnica innovativa basata su un algoritmo a due stadi che mira ad affrontare la suddetta sfida, fornendo solidi risultati empirici rispetto ai metodi offline, online e ibridi esistenti, migliorando la stabilità durante l'addestramento e prevenendo il verificarsi di fenomeni di Oblio Catastrofico. Inoltre, forniamo garanzie teoriche su entrambe le fasi di apprendimento, assicurando la convergenza verso strategie quasi ottimali ed evitando al contempo il degrado delle prestazioni, stabilendo una solida base per futuri approcci di Apprendimento per Rinforzo Ibrido.
File allegati
File Dimensione Formato  
Classical_Format_Thesis___Leonardo_De_Clara-final.pdf

accessibile in internet per tutti

Descrizione: Testo della Tesi
Dimensione 18.72 MB
Formato Adobe PDF
18.72 MB Adobe PDF Visualizza/Apri
Executive_Summary___Leonardo_De_Clara.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.38 MB
Formato Adobe PDF
1.38 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231381