Design and implementation of a software pipeline for machine learning on streaming data

The application of machine learning (ML) methodologies in various fields of everyday life has become prominent in recent years. ML models are used in operational environments to perform many difficult tasks, such as, traffic classification, automatic failure detection, image recognition, that traditionally require specialized human expertise and effort to be accomplished. ML models are becoming more and more accurate, less prone to errors and able to highlight patterns that are hidden inside data and not even an expert eye can find. One of the most challenging objectives when deploying ML algorithms, besides developing the ML models, is how to make such ML models efficiently work in an operational environment, e.g., where the scale of the data to handle grows with the number of users and no service downtime can be tolerated. In such cases, the hardware/software infrastructure that supports the ML models should be able to scale and be resilient to software or hardware failures. In this work, we propose a distributed, scalable and fault-tolerant software pipeline that supports data ingestion and application of ML models to streaming data. The proposed pipeline can support thousands of data sources in a real environment and is built using state of the art and open sources software that are chained to form a software pipeline that achieves near real-time application of the machine learning model. As an application environment of the developed data ingestion pipeline, we consider the case of failure management in microwave networks, where the objective of ML models is to detect and to classify failure in microwave equipment by only looking at the working logs of the hardware that reports power measurement over the link. Finally, we present the experimental results on this use case, concentrating on the latency introduced by the pipeline components on a different number of active data streams.

Le applicazioni delle tecniche di machine Learning (ML) nei diversi settori è diventata prominente negli ultimi anni. I modelli ML sono usati in ambienti operazionali per eseguire compiti difficili non assolvibili da algoritmi tradizionali e che spesso richiedono personale specializzato, come la classificazione di traffico criptato, il riconoscimento automatico dei guasti, o il riconoscimento delle immagini. I modelli ML sono sempre più accurati e sono capaci di evidenziare pattern nascosti nei dati che spesso neanche un occhio esperto riesce a trovare. Una delle sfide più difficili nella progettazione di algoritmi ML, oltre allo sviluppo del modello stesso, è come rendere il modello ML efficiente in un ambiente operazionale, dove la dimensione dei dati da gestire cresce all'aumentare degli utenti e dove non possono essere tollerate interruzioni del servizio. In questi casi, l'infrastruttura che supporta l'esecuzione del modello ML deve essere scalabile e resistente a guasti hardware e software. In questo lavoro, proponiamo una pipeline software distribuita, scalabile e resistente a guasti per supportare l'acquisizione e l'applicazione di modelli ML a dati streaming. L'architettura proposta è in grado di supportare migliaia di sorgenti dati e l'applicazione di modelli ML in near real-time in ambienti reali ed è costruita usando software open source concatenati in una pipeline software. Come caso di studio per la pipeline sviluppata, consideriamo il caso della gestione dei guasti nelle reti costituite da link a microonde, il cui obiettivo è di riconoscere e classificare errori negli apparati di rete usando un modello ML che si basa sui report di funzionamento e sulle misurazioni radio eseguite dai link. Infine, presentiamo i risultati sperimentali in questo caso d'uso, focalizzandoci sulla latenza tra la creazione e la classificazione dei report di rete introdotta dai componenti della pipeline considerando una quantità crescente di sorgenti dati attive.