Nowadays, every device connected to the Internet generates an ever-growing stream of data (formally, unbounded). Machine Learning on unbounded data streams is a grand challenge due to its resource constraints. In fact, standard machine learning techniques are not able to deal with data whose statistics are subject to gradual or sudden changes without any warning. Massive Online Analysis (MOA) is the collective name, as well as a software library, for new learners that are able to manage data streams. In this thesis, I present a bechmarking environment for streaming machine learning algorithms built on MOA. I use such an environment to conduct: a replication study, in order to confirm the results present in the state of the art; a confirmation study, in order to compare standard machine learning methods to adaptive ones on a real-world dataset; and a research study on streaming rebalancing. Indeed, data streams can be imbalanced as static data, but there is not a method to rebalance them incrementally, one element at a time. In this thesis I also propose a new streaming approach able to rebalance data streams online, one element at a time. Such a method is evaluated against some synthetically generated datasets using both prequential evaluation and validation set in order to demonstrate that it outperforms the existing approaches.

Oggi, ogni device connesso ad Internet genera una sempre più crescente quantità di dati (illimitata, dall'inglese “unbound”). Applicare tecniche di machine learning su uno stream di dati potenzialmente illimitato è una grande sfida dovuta alla grande quantità di dati. Infatti, le tecniche standard non sono in grado di gestire questi tipi di dati, le cui statistiche sono spesso soggette a graduali o addirittura repentini cambiamenti, senza nessun tipo di preavviso. La Massive Online Analysis (MOA) è un nuovo approccio, oltre ad essere il nome di una libreria, usato negli algoritmi di machine learning in grado di gestire gli stream di dati. In questa tesi presento un benchmark per tecniche di streaming machine learning sviluppate in MOA. Questo benchmark è usato per: replicare alcuni esperimenti esistenti con lo scopo di confermare i risultati dello stato dell’arte; comparare le tecniche standard di machine learning con quelle adattive usando un dataset tratto da uno scenario reale; condurre uno studio di ricerca circa il ribilanciamento di uno stream. Gli stream di dati, infatti, possono essere sbilanciati proprio come i dataset statici con l’unica differenza che non esiste un metodo in grado di ribilanciarli progressivamente, un dato alla volta. Per questo motivo, nella tesi propongo anche un nuovo approccio streaming in grado di ribilanciare gli stream di dati un elemento per volta. Questo metodo è valutato usando sia la tecnica chiamata prequential evaluation sia un validation set, con lo scopo di dimostrare che i risultati ottenuti sono migliori di quelli provenienti dai metodi esistenti.

Towards a benchmarking environment for streaming machine learning

BERNARDO, ALESSIO
2017/2018

Abstract

Nowadays, every device connected to the Internet generates an ever-growing stream of data (formally, unbounded). Machine Learning on unbounded data streams is a grand challenge due to its resource constraints. In fact, standard machine learning techniques are not able to deal with data whose statistics are subject to gradual or sudden changes without any warning. Massive Online Analysis (MOA) is the collective name, as well as a software library, for new learners that are able to manage data streams. In this thesis, I present a bechmarking environment for streaming machine learning algorithms built on MOA. I use such an environment to conduct: a replication study, in order to confirm the results present in the state of the art; a confirmation study, in order to compare standard machine learning methods to adaptive ones on a real-world dataset; and a research study on streaming rebalancing. Indeed, data streams can be imbalanced as static data, but there is not a method to rebalance them incrementally, one element at a time. In this thesis I also propose a new streaming approach able to rebalance data streams online, one element at a time. Such a method is evaluated against some synthetically generated datasets using both prequential evaluation and validation set in order to demonstrate that it outperforms the existing approaches.
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-apr-2019
2017/2018
Oggi, ogni device connesso ad Internet genera una sempre più crescente quantità di dati (illimitata, dall'inglese “unbound”). Applicare tecniche di machine learning su uno stream di dati potenzialmente illimitato è una grande sfida dovuta alla grande quantità di dati. Infatti, le tecniche standard non sono in grado di gestire questi tipi di dati, le cui statistiche sono spesso soggette a graduali o addirittura repentini cambiamenti, senza nessun tipo di preavviso. La Massive Online Analysis (MOA) è un nuovo approccio, oltre ad essere il nome di una libreria, usato negli algoritmi di machine learning in grado di gestire gli stream di dati. In questa tesi presento un benchmark per tecniche di streaming machine learning sviluppate in MOA. Questo benchmark è usato per: replicare alcuni esperimenti esistenti con lo scopo di confermare i risultati dello stato dell’arte; comparare le tecniche standard di machine learning con quelle adattive usando un dataset tratto da uno scenario reale; condurre uno studio di ricerca circa il ribilanciamento di uno stream. Gli stream di dati, infatti, possono essere sbilanciati proprio come i dataset statici con l’unica differenza che non esiste un metodo in grado di ribilanciarli progressivamente, un dato alla volta. Per questo motivo, nella tesi propongo anche un nuovo approccio streaming in grado di ribilanciare gli stream di dati un elemento per volta. Questo metodo è valutato usando sia la tecnica chiamata prequential evaluation sia un validation set, con lo scopo di dimostrare che i risultati ottenuti sono migliori di quelli provenienti dai metodi esistenti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_04_Bernardo.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 6.94 MB
Formato Adobe PDF
6.94 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145564