The advent of the Internet and information systems in recent decades has led to a dramatic increase in the number of data streams in the digital ecosystem. Therefore, machine learning applied to data streams is a significant stake but also a challenge due to the resource constraints involved. Indeed, applying machine learning directly to data streams has significant advantages in terms of flexibility and speed. It offers a range of solutions to sudden or gradual changes in the statistics of these streams, something that standard machine learning cannot do. Massive Online Analysis (MOA) is an open-source software library developed in Java, allowing these streaming machine learning algorithms to be implemented and tested. Paradoxically, embedded systems, which are by nature limited in resources, are more and more used, especially with the advent of connected objects. The Raspberry Pi is an embedded computer, or microcomputer, that offers features comparable to those of a basic desktop computer, in an extremely compact format. It is in this context that this thesis is written, which proposes to evaluate the suitability of the Raspberry Pi to run streaming machine learning algorithms on data streams, using MOA. First, the feasibility of the project was assessed with the implementation of Raspberry Pi emulators. Then, the performance of a real Raspberry Pi was evaluated, with synthetically generated data and real data. Finally, a quantized, and therefore lighter, version of MOA was produced and tested on the Raspberry Pi to evaluate the gain in execution performance in balance with the loss of precision. Thus, there are two main focuses in this thesis, the first being the evaluation of the performance of streaming machine learning algorithms, using MOA, on the Raspberry Pi, and the second being the development of an original solution that improves these results, through quantization.

L’avvento d’Internet e dei sistemi informatici negli ultimi decenni hanno portato ad un aumento esponenziale del numero di flussi di dati nell’ecosistema digitale. L’apprendimento automatico applicato ai flussi di dati costituisce quindi un’importante opportunità, ma anche una sfida a causa dei vincoli di risorse. Infatti, applicare l’apprendimento automatico direttamente ai flussi di dati presenta importanti vantaggi in termini di flessibilità e velocità, e offre una serie di soluzioni a cambiamenti improvvisi o graduali nelle statistiche di questi flussi, cosa che l’apprendimento automatico standard non è in grado di fare. Massive Online Analysis (MOA) è una libreria software open source, sviluppata in Java, che permette di implementare e testare questi algoritmi di apprendimento automatico in streaming. Paradossalmente, i sistemi embedded, che per loro natura hanno risorse limitate, sono sempre più utilizzati, soprattutto con l’avvento degli oggetti connessi. Il Raspberry Pi è un computer embedded, o microcomputer, che offre funzionalità paragonabili a quelle di un computer desktop di base, in un formato estremamente compatto. È in questo contesto che si inserisce questa tesi, valutando l’idoneità del Raspberry Pi per eseguire algoritmi di apprendimento automatico in streaming su flussi di dati, utilizzando MOA. In primo luogo, è stata valutata la fattibilità del progetto con l’implementazione di un emulatore Raspberry Pi. Poi, sono state valutate le prestazioni di un Raspberry Pi reale con dati generati sinteticamente e con dati reali. Infine, una versione quantizzata, e quindi più leggera, di MOA è stata prodotta e testata su Raspberry Pi per valutare il guadagno in termini di prestazioni di esecuzione in rapporto alla perdita di precisione. In questa tesi, quindi, ci sono due obiettivi principali. Il primo è la valutazione delle prestazioni degli algoritmi di apprendimento automatico in streaming utilizzando MOA su Raspberry Pi, mentre il secondo è lo sviluppo di una soluzione innovativa che migliori questi risultati.

Suitability analysis of the Raspberry Pi to run streaming machine learning algorithms

DURA, FRANCK EDMOND LUC
2021/2022

Abstract

The advent of the Internet and information systems in recent decades has led to a dramatic increase in the number of data streams in the digital ecosystem. Therefore, machine learning applied to data streams is a significant stake but also a challenge due to the resource constraints involved. Indeed, applying machine learning directly to data streams has significant advantages in terms of flexibility and speed. It offers a range of solutions to sudden or gradual changes in the statistics of these streams, something that standard machine learning cannot do. Massive Online Analysis (MOA) is an open-source software library developed in Java, allowing these streaming machine learning algorithms to be implemented and tested. Paradoxically, embedded systems, which are by nature limited in resources, are more and more used, especially with the advent of connected objects. The Raspberry Pi is an embedded computer, or microcomputer, that offers features comparable to those of a basic desktop computer, in an extremely compact format. It is in this context that this thesis is written, which proposes to evaluate the suitability of the Raspberry Pi to run streaming machine learning algorithms on data streams, using MOA. First, the feasibility of the project was assessed with the implementation of Raspberry Pi emulators. Then, the performance of a real Raspberry Pi was evaluated, with synthetically generated data and real data. Finally, a quantized, and therefore lighter, version of MOA was produced and tested on the Raspberry Pi to evaluate the gain in execution performance in balance with the loss of precision. Thus, there are two main focuses in this thesis, the first being the evaluation of the performance of streaming machine learning algorithms, using MOA, on the Raspberry Pi, and the second being the development of an original solution that improves these results, through quantization.
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
L’avvento d’Internet e dei sistemi informatici negli ultimi decenni hanno portato ad un aumento esponenziale del numero di flussi di dati nell’ecosistema digitale. L’apprendimento automatico applicato ai flussi di dati costituisce quindi un’importante opportunità, ma anche una sfida a causa dei vincoli di risorse. Infatti, applicare l’apprendimento automatico direttamente ai flussi di dati presenta importanti vantaggi in termini di flessibilità e velocità, e offre una serie di soluzioni a cambiamenti improvvisi o graduali nelle statistiche di questi flussi, cosa che l’apprendimento automatico standard non è in grado di fare. Massive Online Analysis (MOA) è una libreria software open source, sviluppata in Java, che permette di implementare e testare questi algoritmi di apprendimento automatico in streaming. Paradossalmente, i sistemi embedded, che per loro natura hanno risorse limitate, sono sempre più utilizzati, soprattutto con l’avvento degli oggetti connessi. Il Raspberry Pi è un computer embedded, o microcomputer, che offre funzionalità paragonabili a quelle di un computer desktop di base, in un formato estremamente compatto. È in questo contesto che si inserisce questa tesi, valutando l’idoneità del Raspberry Pi per eseguire algoritmi di apprendimento automatico in streaming su flussi di dati, utilizzando MOA. In primo luogo, è stata valutata la fattibilità del progetto con l’implementazione di un emulatore Raspberry Pi. Poi, sono state valutate le prestazioni di un Raspberry Pi reale con dati generati sinteticamente e con dati reali. Infine, una versione quantizzata, e quindi più leggera, di MOA è stata prodotta e testata su Raspberry Pi per valutare il guadagno in termini di prestazioni di esecuzione in rapporto alla perdita di precisione. In questa tesi, quindi, ci sono due obiettivi principali. Il primo è la valutazione delle prestazioni degli algoritmi di apprendimento automatico in streaming utilizzando MOA su Raspberry Pi, mentre il secondo è lo sviluppo di una soluzione innovativa che migliori questi risultati.
File allegati
File Dimensione Formato  
2022_12_Dura.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 9.94 MB
Formato Adobe PDF
9.94 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201696