Cross-vendor knowledge transfer for failure management in microwave networks

Ensuring high reliability and availability of microwave networks is a major concern in microwave network management, particularly for 5G and beyond networks, that have to fulfill the Ultra-Reliable and Low-Latency Communication (URLLC) requirements. In particular, detecting link anomalies and identifying their root-cause in real time is key to guarantee service continuity. Conventional failure management, based on domain experts, constitutes a costly and not scalable solution, due to the presence of complex and increasing amount of parameters that influence the decisions. In this thesis, in the context of microwave networks, we explore how failure root-cause identification can be improved by using Transfer Learning (TL), Active Learning (AL) and eXplainable Artificial Intelligence (XAI) frameworks when applied to a scenario where a limited amount of labeled data is available for a microwave equipment vendor. TL is used to transfer knowledge from one domain, i.e., a real-world dataset from "Vendor A", that had been previously processed and analyzed, to another similar domain, i.e., a dataset of a different vendor ("Vendor B") with limited available information on failure causes. AL is leveraged to select the most relevant instances to be labeled, thus reducing the overall costs required for domain experts labeling. Furthermore, we adopt XAI techniques, especially SHAP frameworks, to increase the model’s understandability and reliability, which is important for network administrators to understand the model’s decisions. Lastly, we combine TL and AL to enhance the exploitation of knowledge from another domain and select only the most informative samples, achieving optimal performance even faster. Our findings show the feasibility of applying TL, AL and XAI for ML-based failure management for improving the network reliability, minimizing downtime, and improving the effectiveness of maintenance activities in next-generation communication networks.

Garantire un’elevata affidabilità e disponibilità delle reti microwave è una delle principali preoccupazioni nella gestione delle reti microwave, in particolare per le reti 5G e oltre, che devono soddisfare i requisiti di Ultra-Reliable and Low-Latency Communication (URLLC). In particolare, il rilevamento delle anomalie nei collegamenti e l’identificazione in tempo reale delle loro cause principali sono fondamentali per garantire la continuità del servizio. La gestione convenzionale dei guasti, basata sugli esperti del settore, rappresenta una soluzione costosa e non scalabile, a causa della complessità e della crescente quantità di parametri che influenzano le decisioni. In questa tesi, nel contesto delle reti microwave, esploriamo come l’identificazione delle cause principali dei guasti possa essere migliorata utilizzando il Transfer Learning (TL), l’Active Learning (AL) e framework di eXplainable Artificial Intelligence (XAI) applicati a uno scenario in cui un fornitore di apparecchiature microwave dispone di una quantità limitata di dati etichettati. Il TL viene utilizzato per trasferire conoscenze da un dominio, ovvero un dataset reale proveniente dal “Vendor A”, precedentemente elaborato e analizzato, a un altro dominio simile, ovvero un dataset di un fornitore diverso (“Vendor B”), con informazioni limitate sulle cause dei guasti. L’AL viene sfruttato per selezionare le istanze più rilevanti da etichettare, riducendo così i costi complessivi richiesti per l’etichettatura da parte degli esperti del settore. Inoltre, adottiamo tecniche di XAI, in particolare il framework SHAP, per aumentare la comprensibilità e l’affidabilità del modello, aspetto fondamentale affinché gli amministratori di rete possano comprendere le decisioni del modello. Infine, combiniamo TL e AL per migliorare lo sfruttamento delle conoscenze provenienti da un altro dominio e selezionare solo i campioni più informativi, raggiungendo prestazioni ottimali in tempi più brevi. I nostri risultati dimostrano la fattibilità dell’applicazione di TL, AL e XAI per la gestione dei guasti basata su ML, migliorando l’affidabilità della rete, riducendo i tempi di inattività e aumentando l’efficacia delle attività di manutenzione nelle reti di comunicazione di nuova generazione.