Data are everywhere. From new emerging topics in social networks to pressure and vibration levels of industrial machinery, from traffic congestion to drilling in an oil ring, data streams are now more than ever an invaluable resource for companies, if only they could correctly analyze them. Indeed, around 68% of the data generated are not used due to inadequate infrastructures and techniques. Most of the traditional Machine Learning techniques used by companies cannot deal with a continuous coming flow of data due to how they manage their learning phase. More specifically, they restart anew the training process every time new data are available (stateless retraining), resulting inappropriate in a world where unboundedness, velocity, volatility, and non-stationarity are the new normal. Recently, a new generation of Machine Learning models, called Streaming Machine Learning, was introduced to cope with the new data streams requirements, i.e., processing data on the fly (one sample at a time or in mini-batches), incrementally and continuously updating the models (stateful retraining), quickly adapting to any non-stationarity change in the stream (concept drift), and discarding the samples after updating the models to manage the time and memory consumption. Although Streaming Machine Learning can manage data streams, some challenges remain unsolved. In a binary classification scenario, one of them is the combination of multiple concepts drift occurrences over time with class imbalance, from which the following unsolved research question arose: in case of imbalanced data streams and concept drifts, in a binary classification task, is it possible to conceive novel rebalancing meta-strategies that help in outperforming the state-of-the-art? This PhD thesis deeply investigates the class imbalance problem in the streaming scenario proposing new meta-strategies to be combined with any SML model unable to rebalance streams in the presence of concept drifts. The investigation narrows the principal challenge into subsequently more specific ones, aiming at better investigating and highlighting the fundamental aspects that a meta-strategy must fulfil. Finally, this thesis, starting from the narrowest challenges, wraps up the results achieved by all the meta-strategies proposed, presenting benefits and limitations, and uses them to discuss the more general challenges up to the principal research question.

I dati sono ovunque. Dai nuovi topics emergenti nei social network ai livelli di pressione e vibrazione dei macchinari industriali, dalla congestione del traffico all'estrazione petrolifera, i flussi di dati sono oggi più che mai una risorsa inestimabile per le aziende, se solo fossero in grado di analizzarli correttamente. Infatti, circa il 68% dei dati generati non viene utilizzato a causa di infrastrutture e tecniche inadeguate. La maggior parte delle tecniche tradizionali di Machine Learning utilizzate dalle aziende non è in grado di gestire un flusso continuo di dati a causa del modo in cui gestiscono la fase di apprendimento. In particolare, esse riavviano il processo di addestramento ogni volta che sono disponibili nuovi dati (stateless retraining), risultando inappropriate in un mondo in cui l'illimitatezza, la velocità, la volatilità e la non stazionarietà sono la nuova normalità. Recentemente, è stata introdotta una nuova generazione di modelli di apprendimento automatico, chiamata Streaming Machine Learning, per far fronte ai nuovi requisiti dei flussi di dati, ossia elaborare i dati in tempo reale (uno alla volta o in piccoli gruppi), aggiornare in modo incrementale e continuo i modelli (stateful retraining), adattarsi rapidamente a qualsiasi cambiamento di stazionarietà nel flusso (concept drift) e scartare i dati dopo l'aggiornamento dei modelli per gestire il tempo e il consumo di memoria. Sebbene lo Streaming Machine Learning sia in grado di gestire flussi di dati, alcune sfide rimangono irrisolte. In uno scenario di classificazione binaria, una di queste è la combinazione di più eventi di concept drifts nel tempo con lo sbilanciamento delle classi, da cui è nata la seguente domanda di ricerca irrisolta: in caso di flussi di dati sbilanciati e di concept drifts, in uno scenario di classificazione binaria, è possibile introdurre nuove meta-strategie per ribilanciare il flusso dei dati che aiutino a superare lo stato dell'arte? Questa tesi di dottorato indaga a fondo il problema dello sbilanciamento delle classi nello scenario dello Streaming Machine Learning proponendo nuove meta-strategie da abbinare a qualsiasi modello SML incapace di ribilanciare il flusso di dati in presenza di concept drifts. L'indagine suddivide la sfida principale in altre successivamente più specifiche, con l'obiettivo di indagare meglio ed evidenziare gli aspetti fondamentali che una meta-strategia deve soddisfare. Infine, questa tesi, partendo dalle sfide più specifiche, riassume i risultati ottenuti da tutte le meta-strategie proposte, presentandone benefici e limiti, e li utilizza per discutere le sfide più generali fino alla domanda di ricerca principale.

On learning from massive, evolving and imbalanced data streams

Bernardo, Alessio
2022/2023

Abstract

Data are everywhere. From new emerging topics in social networks to pressure and vibration levels of industrial machinery, from traffic congestion to drilling in an oil ring, data streams are now more than ever an invaluable resource for companies, if only they could correctly analyze them. Indeed, around 68% of the data generated are not used due to inadequate infrastructures and techniques. Most of the traditional Machine Learning techniques used by companies cannot deal with a continuous coming flow of data due to how they manage their learning phase. More specifically, they restart anew the training process every time new data are available (stateless retraining), resulting inappropriate in a world where unboundedness, velocity, volatility, and non-stationarity are the new normal. Recently, a new generation of Machine Learning models, called Streaming Machine Learning, was introduced to cope with the new data streams requirements, i.e., processing data on the fly (one sample at a time or in mini-batches), incrementally and continuously updating the models (stateful retraining), quickly adapting to any non-stationarity change in the stream (concept drift), and discarding the samples after updating the models to manage the time and memory consumption. Although Streaming Machine Learning can manage data streams, some challenges remain unsolved. In a binary classification scenario, one of them is the combination of multiple concepts drift occurrences over time with class imbalance, from which the following unsolved research question arose: in case of imbalanced data streams and concept drifts, in a binary classification task, is it possible to conceive novel rebalancing meta-strategies that help in outperforming the state-of-the-art? This PhD thesis deeply investigates the class imbalance problem in the streaming scenario proposing new meta-strategies to be combined with any SML model unable to rebalance streams in the presence of concept drifts. The investigation narrows the principal challenge into subsequently more specific ones, aiming at better investigating and highlighting the fundamental aspects that a meta-strategy must fulfil. Finally, this thesis, starting from the narrowest challenges, wraps up the results achieved by all the meta-strategies proposed, presenting benefits and limitations, and uses them to discuss the more general challenges up to the principal research question.
PIRODDI, LUIGI
MARTINENGHI, DAVIDE
BIFET, ALBERT
24-mag-2023
On learning from massive, evolving and imbalanced data streams
I dati sono ovunque. Dai nuovi topics emergenti nei social network ai livelli di pressione e vibrazione dei macchinari industriali, dalla congestione del traffico all'estrazione petrolifera, i flussi di dati sono oggi più che mai una risorsa inestimabile per le aziende, se solo fossero in grado di analizzarli correttamente. Infatti, circa il 68% dei dati generati non viene utilizzato a causa di infrastrutture e tecniche inadeguate. La maggior parte delle tecniche tradizionali di Machine Learning utilizzate dalle aziende non è in grado di gestire un flusso continuo di dati a causa del modo in cui gestiscono la fase di apprendimento. In particolare, esse riavviano il processo di addestramento ogni volta che sono disponibili nuovi dati (stateless retraining), risultando inappropriate in un mondo in cui l'illimitatezza, la velocità, la volatilità e la non stazionarietà sono la nuova normalità. Recentemente, è stata introdotta una nuova generazione di modelli di apprendimento automatico, chiamata Streaming Machine Learning, per far fronte ai nuovi requisiti dei flussi di dati, ossia elaborare i dati in tempo reale (uno alla volta o in piccoli gruppi), aggiornare in modo incrementale e continuo i modelli (stateful retraining), adattarsi rapidamente a qualsiasi cambiamento di stazionarietà nel flusso (concept drift) e scartare i dati dopo l'aggiornamento dei modelli per gestire il tempo e il consumo di memoria. Sebbene lo Streaming Machine Learning sia in grado di gestire flussi di dati, alcune sfide rimangono irrisolte. In uno scenario di classificazione binaria, una di queste è la combinazione di più eventi di concept drifts nel tempo con lo sbilanciamento delle classi, da cui è nata la seguente domanda di ricerca irrisolta: in caso di flussi di dati sbilanciati e di concept drifts, in uno scenario di classificazione binaria, è possibile introdurre nuove meta-strategie per ribilanciare il flusso dei dati che aiutino a superare lo stato dell'arte? Questa tesi di dottorato indaga a fondo il problema dello sbilanciamento delle classi nello scenario dello Streaming Machine Learning proponendo nuove meta-strategie da abbinare a qualsiasi modello SML incapace di ribilanciare il flusso di dati in presenza di concept drifts. L'indagine suddivide la sfida principale in altre successivamente più specifiche, con l'obiettivo di indagare meglio ed evidenziare gli aspetti fondamentali che una meta-strategia deve soddisfare. Infine, questa tesi, partendo dalle sfide più specifiche, riassume i risultati ottenuti da tutte le meta-strategie proposte, presentandone benefici e limiti, e li utilizza per discutere le sfide più generali fino alla domanda di ricerca principale.
File allegati
File Dimensione Formato  
Phd_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi Alessio Bernardo
Dimensione 46.06 MB
Formato Adobe PDF
46.06 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/203758