Nowadays, data coming from electronic devices, such as smartphones, credit cards, televisions, and cars, surround us. The ability to analyze all the data generated in real-time is the future challenge and the starting point to understand where to innovate. The research for new solutions opened a new branch of machine learning called Streaming Machine Learning (SML). This new approach focuses on data streams, sequences of data, possibly infinite, arriving in sequential order, once at a time. The two difficulties appearing in the real-world are concept drift and class imbalance. The former refers to the changes in the characteristics of the data, while the latter refers to an unequal distribution between the classes. Focusing on the binary classification task, I studied and implemented various state-of-art algorithms able to deal with both the concept drift and class imbalance problems. The result is an easy-to-reuse benchmarking environment that we exploited to conduct a wide experimental campaign. I tested the algorithm on artificial and real data streams with different imbalance levels and various kinds of concept drift. I collected empirical evidence that rebalancing data streams significantly improves the performances during different concept drift types.

Al giorno d'oggi, dati provenienti da dispositivi elettronici come smartphones, carte di credito, televisioni e automobili, ci circondano. La capacità di analizzare tutti questi dati in tempo reale è la sfida del futuro e il punto di partenza per capire dove innovare. La ricerca di nuove soluzioni ha aperto un nuovo ramo di apprendimento automatico chiamato "Streaming Machine Learning" (SML). Questo nuovo metodo analizza sequenze di dati, chiamate "data streams", potenzialmente infinite, che arrivano in ordine temporale. Le due maggiori difficoltà che appaiono in situazioni reali in questo campo sono il "concept drift" e lo sbilanciamento di classe. La prima si riferisce a possibili cambiamenti nelle caratteristiche dei dati, mentre la seconda a disparità di rappresentazione tra le classi di dati. Concentrandomi sulla classificazione binaria, ho studiato e implementato gli algoritmi dello stato dell'arte che affrontano entrambi i problemi. Il risultato è un ambiente di valutazione che ho usato per condurre una estesa campagna sperimentale. Ho testato gli algoritmi usando "data streams", sia artificiali sia reali, aventi diversi livelli di sbilanciameto di classe e vari tipi di "concept drift". Le prove sperimentali raccolte dimostrano che affrontare il problema dello sbilanciamento di classe migliora significativamente le prestazioni durante i diversi tipi di "concept drift".

A comparative study of streaming machine learning algorithms for binary classification under concept drift and class imbalance

VOLTAN, ENRICO
2020/2021

Abstract

Nowadays, data coming from electronic devices, such as smartphones, credit cards, televisions, and cars, surround us. The ability to analyze all the data generated in real-time is the future challenge and the starting point to understand where to innovate. The research for new solutions opened a new branch of machine learning called Streaming Machine Learning (SML). This new approach focuses on data streams, sequences of data, possibly infinite, arriving in sequential order, once at a time. The two difficulties appearing in the real-world are concept drift and class imbalance. The former refers to the changes in the characteristics of the data, while the latter refers to an unequal distribution between the classes. Focusing on the binary classification task, I studied and implemented various state-of-art algorithms able to deal with both the concept drift and class imbalance problems. The result is an easy-to-reuse benchmarking environment that we exploited to conduct a wide experimental campaign. I tested the algorithm on artificial and real data streams with different imbalance levels and various kinds of concept drift. I collected empirical evidence that rebalancing data streams significantly improves the performances during different concept drift types.
BERNARDO, ALESSIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2020/2021
Al giorno d'oggi, dati provenienti da dispositivi elettronici come smartphones, carte di credito, televisioni e automobili, ci circondano. La capacità di analizzare tutti questi dati in tempo reale è la sfida del futuro e il punto di partenza per capire dove innovare. La ricerca di nuove soluzioni ha aperto un nuovo ramo di apprendimento automatico chiamato "Streaming Machine Learning" (SML). Questo nuovo metodo analizza sequenze di dati, chiamate "data streams", potenzialmente infinite, che arrivano in ordine temporale. Le due maggiori difficoltà che appaiono in situazioni reali in questo campo sono il "concept drift" e lo sbilanciamento di classe. La prima si riferisce a possibili cambiamenti nelle caratteristiche dei dati, mentre la seconda a disparità di rappresentazione tra le classi di dati. Concentrandomi sulla classificazione binaria, ho studiato e implementato gli algoritmi dello stato dell'arte che affrontano entrambi i problemi. Il risultato è un ambiente di valutazione che ho usato per condurre una estesa campagna sperimentale. Ho testato gli algoritmi usando "data streams", sia artificiali sia reali, aventi diversi livelli di sbilanciameto di classe e vari tipi di "concept drift". Le prove sperimentali raccolte dimostrano che affrontare il problema dello sbilanciamento di classe migliora significativamente le prestazioni durante i diversi tipi di "concept drift".
File allegati
File Dimensione Formato  
Tesi_Enrico_Voltan.pdf

Open Access dal 08/04/2024

Dimensione 5.74 MB
Formato Adobe PDF
5.74 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175773