Communication services on microwave networks are designed to cope with strict Quality of Services (QoS) requirements such as low latency and high bandwidth. As failures can affect the network availability, failure forecast, detection and identification are crucial for the service maintenance and must be executed in short time. In our work, we study new solutions for failure management on microwave networks. Starting with monitored mea- surement data collected from network equipment, in particular alarms, we first perform some preparatory data wrangling, then we mainly focus on the failure prediction problem, composed of three steps: alarms forecasting, failure detection and fault identification. Nowadays microwave fault management is mainly handled reactively, waiting for the fail- ure event, and only then restoring service. In this study, we are proposing a modular framework to handle faults in a proactive way, where the occurrence of a failure could be detected and managed in advance, potentially avoiding the actual failure event. Today alarms forecasting is not performed, while the failure detection and fault identification procedure is carried out by human experts, who typically analyse radio-power measures and equipment alarms related to the failure event and, based on their filed experience, identify possible root causes of the failure and proper countermeasures to restore the service. Usually, the amount of data related to the failure events that must be anal- ysed is huge, and new ultra reliable low latency communications imposes a stringent time constraints to restore the service after a failure. This constraints can be satisfied using data-analysis techniques that allow to handle huge quantity of data in short time. In our work, we opted for techniques from machine learning discipline. Our proposed workflow, based on a modular implementation, takes as input a set of the available highly unbalanced data. First it performs data pre-processing based on human experience, then alarms are forecasted with a deep learning model for time-series prediction. Based on these alarm forecasts, our framework predicts if there will be failure or not using ensemble classification methods, and, eventually ensemble classification ML models are used to predict also the failure root-cause. Finally, we propose an alternative single-step approach - taking as input alarms statistics and leveraging on classification techniques - with lower specificity on alarms forecasting and more on fault root-cause prediction based on previously defined knowledge, enabling farther prediction horizon. Numerical experiments on real data from SIAE Microelectronics have shown very promis- ing results, with performance metrics as accuracy, precision and recall above 95% and execution time a lot lower than the equivalent hand-made processing. In conclusion a trade-off between the two proposed approaches must be considered: the first, short-term, more accurate but with computational constraint limiting prediction horizon and the latter, long-term, able to achieve longer predictions though losing accuracy and the ability of short-term predictions.

I servizi di comunicazione su reti millimetriche sono progettati per far fronte ai requisiti di alta qualità dei servizi (QoS) come bassa latenza e ampia larghezza di banda. Poiché la presenza di guasti può influire sulla disponibilità della rete, la predizione degli allarmi, il rilevamento dei malfunzionamenti e l’identificazione della causa è cruciale per la manuten- zione del servizio e deve essere eseguita in tempi brevi. Nel nostro lavoro, studiamo la gestione dei guasti nelle reti a onde millimetriche. Partendo con le misure monitorate dagli apparati di rete, in particolare lo storico degli allarmi, prima eseguiamo alcuni pro- cessi di trasformazione sui dati, poi ci concentriamo principalmente sul problema della previsione dei guasti, composto da tre fasi: previsione degli allarmi, rilevamento dei mal- funzionamenti e identificazione delle cause. Oggi la gestione dei guasti delle onde millimetriche viene gestita principalmente in modo reattivo, attendendo l’evento di malfunzionamento e solo allora ripristinando il servizio. In questo studio, stiamo proponendo un framework modulare per gestire i guasti in modo proattivo, dove l’avvenimento di malfunzionamento può essere rilevato e gestito in an- ticipo, evitando potenzialmente l’effettivo guasto. Oggi la previsione degli allarmi non viene eseguita, mentre la procedura di rilevamento e identificazione del guasto è svolta da esperti umani, che tipicamente analizzano le misure di potenza radio e gli allarmi delle apparecchiature relativi all’evento di guasto, che sulla base dell’esperienza, identificano le possibili cause alla causa del guasto e le contromisure adeguate per ripristinare il servizio. Solitamente, la quantità di dati relativi agli eventi di guasto che deve essere analizzata è enorme, mentre il nuovo schema di comunicazione ultra affidabile a bassa latenza im- pone vincoli di tempo stringenti per ripristinare il servizio dopo un guasto. Questi vincoli possono essere soddisfatti utilizzando tecniche di analisi dei dati che permettono la ma- nipolazione di enormi quantità di dati in breve tempo. Nel nostro lavoro abbiamo optato per tecniche della disciplina del machine learning. Il flusso di lavoro da noi proposto, basato su un’implementazione modulare, elastica e flessibile, prende come input un insieme dei dati disponibili altamente sbilanciati. Prima esegue la preparazione dei dati, quindi avviene la previsione degli allarmi con il modello di deep learning per la predizione di serie temporali. Basandoci su queste predizioni di allarmi, la nostra struttura predice se ci saranno o meno malfunzionamenti utilizzando metodi di classificazione d’insieme del campo machine learning e, infine, i modelli vengono utilizzati per predirre la causa del malfunzionamento. Infine viene presentato un flusso di lavoro alternativo a singolo passo - prendendo come dati iniziali le statistiche degli allarmi e facendo leva sulle tecniche di classificazione - con una specificità minore sulla predizione degli allarmi, quanto più sulla causa di mal- funzionamento basata sulla conoscenza precedente e abilitando una maggiore visione nel futuro. Gli esperimenti numerici su dati reali forniti da SIAE Microelectronics hanno mostrato risultati molto promettenti, con metriche prestazionali come accuracy, precision e recall oltre il 95% e tempi di esecuzione molto inferiori al rispettivo processo manuale. In conclusione, un compromesso va considerato tra i due approcci: il primo a corto rag- gio, più accurato ma con un limite computazionale sull’orizzonte temporale, mentre il secondo a lungo raggio capace di raggiungere predizioni più lontane, tuttavia perdendo in accuratezza e in capacità di predizioni a corto raggio.

Machine-learning-assisted failure prediction in microwave networks based on equipment alarms

Lateano, Francesco
2020/2021

Abstract

Communication services on microwave networks are designed to cope with strict Quality of Services (QoS) requirements such as low latency and high bandwidth. As failures can affect the network availability, failure forecast, detection and identification are crucial for the service maintenance and must be executed in short time. In our work, we study new solutions for failure management on microwave networks. Starting with monitored mea- surement data collected from network equipment, in particular alarms, we first perform some preparatory data wrangling, then we mainly focus on the failure prediction problem, composed of three steps: alarms forecasting, failure detection and fault identification. Nowadays microwave fault management is mainly handled reactively, waiting for the fail- ure event, and only then restoring service. In this study, we are proposing a modular framework to handle faults in a proactive way, where the occurrence of a failure could be detected and managed in advance, potentially avoiding the actual failure event. Today alarms forecasting is not performed, while the failure detection and fault identification procedure is carried out by human experts, who typically analyse radio-power measures and equipment alarms related to the failure event and, based on their filed experience, identify possible root causes of the failure and proper countermeasures to restore the service. Usually, the amount of data related to the failure events that must be anal- ysed is huge, and new ultra reliable low latency communications imposes a stringent time constraints to restore the service after a failure. This constraints can be satisfied using data-analysis techniques that allow to handle huge quantity of data in short time. In our work, we opted for techniques from machine learning discipline. Our proposed workflow, based on a modular implementation, takes as input a set of the available highly unbalanced data. First it performs data pre-processing based on human experience, then alarms are forecasted with a deep learning model for time-series prediction. Based on these alarm forecasts, our framework predicts if there will be failure or not using ensemble classification methods, and, eventually ensemble classification ML models are used to predict also the failure root-cause. Finally, we propose an alternative single-step approach - taking as input alarms statistics and leveraging on classification techniques - with lower specificity on alarms forecasting and more on fault root-cause prediction based on previously defined knowledge, enabling farther prediction horizon. Numerical experiments on real data from SIAE Microelectronics have shown very promis- ing results, with performance metrics as accuracy, precision and recall above 95% and execution time a lot lower than the equivalent hand-made processing. In conclusion a trade-off between the two proposed approaches must be considered: the first, short-term, more accurate but with computational constraint limiting prediction horizon and the latter, long-term, able to achieve longer predictions though losing accuracy and the ability of short-term predictions.
TORNATORE, MASSIMO
AYOUB, OMRAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
I servizi di comunicazione su reti millimetriche sono progettati per far fronte ai requisiti di alta qualità dei servizi (QoS) come bassa latenza e ampia larghezza di banda. Poiché la presenza di guasti può influire sulla disponibilità della rete, la predizione degli allarmi, il rilevamento dei malfunzionamenti e l’identificazione della causa è cruciale per la manuten- zione del servizio e deve essere eseguita in tempi brevi. Nel nostro lavoro, studiamo la gestione dei guasti nelle reti a onde millimetriche. Partendo con le misure monitorate dagli apparati di rete, in particolare lo storico degli allarmi, prima eseguiamo alcuni pro- cessi di trasformazione sui dati, poi ci concentriamo principalmente sul problema della previsione dei guasti, composto da tre fasi: previsione degli allarmi, rilevamento dei mal- funzionamenti e identificazione delle cause. Oggi la gestione dei guasti delle onde millimetriche viene gestita principalmente in modo reattivo, attendendo l’evento di malfunzionamento e solo allora ripristinando il servizio. In questo studio, stiamo proponendo un framework modulare per gestire i guasti in modo proattivo, dove l’avvenimento di malfunzionamento può essere rilevato e gestito in an- ticipo, evitando potenzialmente l’effettivo guasto. Oggi la previsione degli allarmi non viene eseguita, mentre la procedura di rilevamento e identificazione del guasto è svolta da esperti umani, che tipicamente analizzano le misure di potenza radio e gli allarmi delle apparecchiature relativi all’evento di guasto, che sulla base dell’esperienza, identificano le possibili cause alla causa del guasto e le contromisure adeguate per ripristinare il servizio. Solitamente, la quantità di dati relativi agli eventi di guasto che deve essere analizzata è enorme, mentre il nuovo schema di comunicazione ultra affidabile a bassa latenza im- pone vincoli di tempo stringenti per ripristinare il servizio dopo un guasto. Questi vincoli possono essere soddisfatti utilizzando tecniche di analisi dei dati che permettono la ma- nipolazione di enormi quantità di dati in breve tempo. Nel nostro lavoro abbiamo optato per tecniche della disciplina del machine learning. Il flusso di lavoro da noi proposto, basato su un’implementazione modulare, elastica e flessibile, prende come input un insieme dei dati disponibili altamente sbilanciati. Prima esegue la preparazione dei dati, quindi avviene la previsione degli allarmi con il modello di deep learning per la predizione di serie temporali. Basandoci su queste predizioni di allarmi, la nostra struttura predice se ci saranno o meno malfunzionamenti utilizzando metodi di classificazione d’insieme del campo machine learning e, infine, i modelli vengono utilizzati per predirre la causa del malfunzionamento. Infine viene presentato un flusso di lavoro alternativo a singolo passo - prendendo come dati iniziali le statistiche degli allarmi e facendo leva sulle tecniche di classificazione - con una specificità minore sulla predizione degli allarmi, quanto più sulla causa di mal- funzionamento basata sulla conoscenza precedente e abilitando una maggiore visione nel futuro. Gli esperimenti numerici su dati reali forniti da SIAE Microelectronics hanno mostrato risultati molto promettenti, con metriche prestazionali come accuracy, precision e recall oltre il 95% e tempi di esecuzione molto inferiori al rispettivo processo manuale. In conclusione, un compromesso va considerato tra i due approcci: il primo a corto rag- gio, più accurato ma con un limite computazionale sull’orizzonte temporale, mentre il secondo a lungo raggio capace di raggiungere predizioni più lontane, tuttavia perdendo in accuratezza e in capacità di predizioni a corto raggio.
File allegati
File Dimensione Formato  
ML_uWave_Master_Thesis.pdf

accessibile in internet per tutti

Descrizione: Tesi Magistrale Francesco Lateano
Dimensione 3.02 MB
Formato Adobe PDF
3.02 MB Adobe PDF Visualizza/Apri
ML_uWave_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary Francesco Lateano
Dimensione 2.12 MB
Formato Adobe PDF
2.12 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187529