Overcoming the assumption that data is independently and identically distributed is necessary when dealing with an infinite data stream, which calls for a model that is always learning from new data points. When learning from data streams, four new challenges arise: learning continuously, dealing with concept drift, avoiding catastrophic forgetting, and managing temporal dependencies. Continuous learning from the stream means the model must constantly learn from new data points without being retrained from scratch. Concept drift refers to changes in the data distribution over time, requiring models to adapt to new patterns without forgetting previously learned information. Catastrophic forgetting occurs when a model forgets previously learned concepts upon learning new ones, necessitating mechanisms to retain past knowledge. Temporal dependency involves understanding and predicting sequences of data points, which is critical in time series analysis. These challenges are addressed separately in the literature by three research areas: Streaming Machine Learning (SML), time series analysis (TSA), and Continual Learning (CL). The objective of this work is to find a joint solution to these four challenges. The Continuous Piggyback (cPB) strategy is suggested in this thesis as a comprehensive solution to these problems. This model leverages the principles of SML, CL, and TSA to provide a robust solution. cPB is a continuous version of the CL strategy employed by PB, designed to avoid catastrophic forgetting in neural network models. Our technique is based on Recurrent Neural Networks (RNNs) and applies Stochastic Gradient Descent (SGD) to tame temporal dependence between the data points of a data stream. In our experimental campaign, we compare the cPB model with SML models and an ablated version. The results demonstrate the cPB model's quick adaptation to new concepts, its robustness to concept drifts, and its ability to outperform other models in many cases.

Superare l'assunzione che i dati siano indipendenti e identicamente distribuiti è necessario quando si tratta di un flusso di dati infinito, il che richiede un modello che apprenda continuamente da nuovi punti dati. Quando si apprende da flussi di dati, emergono quattro nuove sfide: apprendimento continuo, gestione del concept drift, prevenzione del catastrophic forgetting e gestione delle temporal dependencies. L'apprendimento continuo dal flusso significa che il modello deve imparare costantemente dai nuovi punti dati senza essere riformato da zero. Il concept drift si riferisce ai cambiamenti nella distribuzione dei dati nel tempo, richiedendo ai modelli di adattarsi a nuovi schemi senza dimenticare le informazioni apprese in precedenza. Il catastrophic forgetting si verifica quando un modello dimentica concetti appresi in precedenza durante l'apprendimento di nuovi, necessitando di meccanismi per mantenere la conoscenza passata. La temporal dependency implica comprendere e prevedere sequenze di punti dati, essenziale nell'analisi delle serie temporali. Queste sfide sono affrontate separatamente nella letteratura da tre aree di ricerca: Streaming Machine Learning (SML), time series analysis (TSA) e Continual Learning (CL). L'obiettivo di questo lavoro è trovare una soluzione congiunta a queste quattro sfide. La strategia Continuous Piggyback (cPB) è suggerita in questa tesi come una soluzione completa a questi problemi. Questo modello sfrutta i principi di SML, CL e TSA per fornire una soluzione robusta. cPB è una versione continua della strategia CL impiegata da PB, progettata per evitare il catastrophic forgetting nei modelli di reti neurali. La nostra tecnica si basa su Recurrent Neural Networks (RNN) e applica Stochastic Gradient Descent (SGD) per gestire la dipendenza temporale tra i punti dati di un flusso di dati. Nella nostra campagna sperimentale, confrontiamo il modello cPB con modelli SML e una versione ablata. I risultati dimostrano la rapida adattabilità del modello cPB a nuovi concetti, la sua robustezza ai concept drifts e la sua capacità di superare altri modelli in molti casi.

CPB: a novel continuous piggyback architecture for evolving streaming time series classification

PAKI, REZA
2023/2024

Abstract

Overcoming the assumption that data is independently and identically distributed is necessary when dealing with an infinite data stream, which calls for a model that is always learning from new data points. When learning from data streams, four new challenges arise: learning continuously, dealing with concept drift, avoiding catastrophic forgetting, and managing temporal dependencies. Continuous learning from the stream means the model must constantly learn from new data points without being retrained from scratch. Concept drift refers to changes in the data distribution over time, requiring models to adapt to new patterns without forgetting previously learned information. Catastrophic forgetting occurs when a model forgets previously learned concepts upon learning new ones, necessitating mechanisms to retain past knowledge. Temporal dependency involves understanding and predicting sequences of data points, which is critical in time series analysis. These challenges are addressed separately in the literature by three research areas: Streaming Machine Learning (SML), time series analysis (TSA), and Continual Learning (CL). The objective of this work is to find a joint solution to these four challenges. The Continuous Piggyback (cPB) strategy is suggested in this thesis as a comprehensive solution to these problems. This model leverages the principles of SML, CL, and TSA to provide a robust solution. cPB is a continuous version of the CL strategy employed by PB, designed to avoid catastrophic forgetting in neural network models. Our technique is based on Recurrent Neural Networks (RNNs) and applies Stochastic Gradient Descent (SGD) to tame temporal dependence between the data points of a data stream. In our experimental campaign, we compare the cPB model with SML models and an ablated version. The results demonstrate the cPB model's quick adaptation to new concepts, its robustness to concept drifts, and its ability to outperform other models in many cases.
GIANNINI, FEDERICO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Superare l'assunzione che i dati siano indipendenti e identicamente distribuiti è necessario quando si tratta di un flusso di dati infinito, il che richiede un modello che apprenda continuamente da nuovi punti dati. Quando si apprende da flussi di dati, emergono quattro nuove sfide: apprendimento continuo, gestione del concept drift, prevenzione del catastrophic forgetting e gestione delle temporal dependencies. L'apprendimento continuo dal flusso significa che il modello deve imparare costantemente dai nuovi punti dati senza essere riformato da zero. Il concept drift si riferisce ai cambiamenti nella distribuzione dei dati nel tempo, richiedendo ai modelli di adattarsi a nuovi schemi senza dimenticare le informazioni apprese in precedenza. Il catastrophic forgetting si verifica quando un modello dimentica concetti appresi in precedenza durante l'apprendimento di nuovi, necessitando di meccanismi per mantenere la conoscenza passata. La temporal dependency implica comprendere e prevedere sequenze di punti dati, essenziale nell'analisi delle serie temporali. Queste sfide sono affrontate separatamente nella letteratura da tre aree di ricerca: Streaming Machine Learning (SML), time series analysis (TSA) e Continual Learning (CL). L'obiettivo di questo lavoro è trovare una soluzione congiunta a queste quattro sfide. La strategia Continuous Piggyback (cPB) è suggerita in questa tesi come una soluzione completa a questi problemi. Questo modello sfrutta i principi di SML, CL e TSA per fornire una soluzione robusta. cPB è una versione continua della strategia CL impiegata da PB, progettata per evitare il catastrophic forgetting nei modelli di reti neurali. La nostra tecnica si basa su Recurrent Neural Networks (RNN) e applica Stochastic Gradient Descent (SGD) per gestire la dipendenza temporale tra i punti dati di un flusso di dati. Nella nostra campagna sperimentale, confrontiamo il modello cPB con modelli SML e una versione ablata. I risultati dimostrano la rapida adattabilità del modello cPB a nuovi concetti, la sua robustezza ai concept drifts e la sua capacità di superare altri modelli in molti casi.
File allegati
File Dimensione Formato  
2024_07_Paki_Thesis.pdf

accessibile in internet per tutti a partire dal 29/06/2025

Descrizione: Thesis main file
Dimensione 37.66 MB
Formato Adobe PDF
37.66 MB Adobe PDF   Visualizza/Apri
2024_07_Paki_Executive summary.pdf

accessibile in internet per tutti a partire dal 29/06/2025

Descrizione: Executive summary file
Dimensione 6.57 MB
Formato Adobe PDF
6.57 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222899