Addressing failure management in next-generation communication networks is crucial, as a single failure can disrupt service for millions of users. End-to-end fault management must be automated and employ advanced mechanisms to handle the failures arising from the complex architecture of 5G and beyond generations. Machine Learning (ML) offers promising solutions by ensuring automated, time- and cost-efficient fault management. However, ML-based solutions must evolve alongside network architectural innovations. Traditionally, communication networks have been monolithic, with tightly integrated components managed by a single vendor. Next-generation networks are moving towards disaggregation, allowing multiple vendors to manage interoperable Network Elements (NEs) or enabling multi-operator control over networks. This shift, supported by groups like O-RAN, OpenROADM, OpenConfig, and the Telecom Infra Project(TIP), aims to mitigate vendor lock-in and foster competition and innovation. Furthermore, most of the ML models are data-hungry and typically leverage data centralization in large computing units, e.g., Data Centers. However, in disaggregated networks, business-critical data sharing among entities, such as vendors or operators, is faced with privacy concerns. Federated Learning (FL), introduced by Google in 2016, offers a solution that allows the development of a global ML model by training multiple local models without sharing data. Two main categories of FL exist, according to how data is partitioned among entities, namely, Horizontal and Vertical Federated Learning (HFL, VFL). VFL is applicable where different entities have different features of the same data instance. Considering different entities would have different features in disaggregated architecture (e.g. alarms collected at different equipment types), this thesis aims to develop VFL-based fault management solutions that allow collaborative ML model development in disaggregated architectures. This study proposes privacy-preserving VFL-based ML models for two use cases: partially disaggregated optical networks and disaggregated microwave networks. As VFL approaches, we examined Split Neural Network (SplitNN) and Gradient Boosting Decision Trees (GBDT), using real data from an optical testbed at NICT in Japan and a unique dataset from SIAE's real microwave network. In the optical network use case, we utilized OSNR measurements derived from the ROADM-based optical link and we tested multi-operator deployment scenarios(i.e. each operator manages different segments of the network) in a federated setting, namely Two Operators (TWO-OS) and Three Operators (THREE-OS). For the microwave network use case, we used microwave link data that includes equipment alarms for hardware failure types from several NEs (e.g. Indoor Unit (IDU), Outdoor Unit(ODU)) and we tested multi-vendor deployment scenarios (i.e., each vendor manages different interoperable NE) in a federated setting, namely Two Vendors (TWO-VS) and Three Vendors (THREE-VS). Our experiments show that, depending on the model(i.e., SplitNN vs. FedTree) and ML model hyperparameters, federated scenarios achieved a maximum F1-Score of 82.17%, while centralized scenarios reached up to 82.72% for the optical network use case. Similarly, in the microwave network use case, the difference in F1-Score between centralized and federated scenarios remained consistently within 1%, regardless of the deployment strategies or model types used.

La gestione dei guasti nelle reti di comunicazione di nuova generazione è di cruciale importanza, poiché un singolo guasto può interrompere il servizio per milioni di utenti. La gestione dei guasti end-to-end deve essere automatizzata e utilizzare meccanismi avanzati per affrontare i guasti derivanti dalla complessa architettura delle reti di nuova generazione (5G e successive). Il Machine Learning (ML) offre soluzioni promettenti, garantendo una gestione dei guasti automatizzata, efficiente in termini di tempo e di costi. Tuttavia, le soluzioni basate su ML devono evolversi con le innovazioni architettoniche della rete. Tradizionalmente, le reti di comunicazione sono state sviluppate in maniera monolitica, con componenti strettamente integrati gestiti da un unico fornitore. Le reti di nuova generazione si stanno evolvendo verso la disaggregazione, in cui diversi fornitori gestiscono Elementi di Rete (Network, Element, NE) interoperabili o si ha un controllo multi-operatore sulle reti. Questo cambiamento, sostenuto da gruppi come O-RAN, OpenROADM, OpenConfig e il Telecom Infra Project (TIP), mira a mitigare il lock-in del fornitore e a favorire la concorrenza e l'innovazione. Inoltre, la maggior parte dei modelli di ML richiedono l'uso di grandi quantità di dati, tipicamente analizzati in modo centralizzato (ad esempio, in Data Center). Tuttavia, nelle reti disaggregate, la condivisione di dati critici tra varie entità, come fornitori di apparati o operatori, è un aspetto critico per quanto riguarda la riservatezza dei dati stessi. Il Federated Learning (FL), introdotto da Google nel 2016, offre una soluzione che consente lo sviluppo di un modello globale di ML attraverso l'addestramento di diversi modelli locali che non richiede la condivisione dei dati. Esistono due principali categorie di FL, a seconda di come i dati sono partizionati tra le entità, ovvero il FL Orizzontale (HFL) e Verticale (VFL). Il VFL è applicabile quando entità diverse possiedono dati con caratteristiche diverse ma della stessa istanza. Considerando che nelle architetture disaggregate diverse entità potrebbero possedere dati di natura fdiversa (ad esempio, allarmi raccolti in apparati differenti), questa tesi mira a sviluppare soluzioni di gestione dei guasti basate su VFL che permettano lo sviluppo collaborativo di modelli di ML in architetture di rete disaggregate. Questo studio propone dei modelli ML basati su VFL che consentono di mantenere la confidenzialità dei dati, in due casi d'uso specifici: reti ottiche parzialmente disaggregate e reti a microonde disaggregate. Quali approcci VFL, sono stati adottati lo Split Neural Network (SplitNN) e i Gradient Boosting Decision Trees (GBDT) basati su VFL, utilizzando dati reali da un banco di prova ottico presso il NICT in Giappone e un dataset unico dalla rete a microonde reale di SIAE. Nel caso d'uso delle reti ottiche, abbiamo utilizzato misurazioni dell'OSNR derivate dal collegamento ottico basato su ROADM e abbiamo testato scenari di dispiegamento multi-operatore (ad esempio, ogni operatore gestisce diversi segmenti della rete) in un contesto federato, noti come Scenario Due Operatori e Scenario Tre Operatori (TWO-OS, THREE-OS). Per il caso d'uso della rete a microonde, abbiamo utilizzato dati dei collegamenti a microonde che includono allarmi di apparecchiatura per tipi di guasto hardware provenienti da diversi NE (ad esempio, Indoor Unit (IDU), Outdoor Unit (ODU)) e abbiamo testato scenari di dispiegamento multi-venditore (ad esempio, ogni venditore gestisce NE interoperabili diversi) in un contesto federato, noti come Scenario Due Venditori e Scenario Tre Venditori (TWO-VS, THREE-VS). I nostri esperimenti mostrano che, a seconda del modello (ad esempio, SplitNN vs. FedTree) e dei parametri dell'ML, gli scenari federati hanno raggiunto un punteggio F1 massimo del 82.17%, mentre gli scenari centralizzati hanno raggiunto fino al 82.72% per il caso d'uso della rete ottica. Analogamente, la differenza nel punteggio F1 tra scenari centralizzati e federati è rimasta costantemente entro l'1%, indipendentemente dalle strategie di dispiegamento o dai tipi di modello utilizzati.

Vertical Federated Learning Applications in Disaggregated Communication Networks

Temiz, Fatih
2023/2024

Abstract

Addressing failure management in next-generation communication networks is crucial, as a single failure can disrupt service for millions of users. End-to-end fault management must be automated and employ advanced mechanisms to handle the failures arising from the complex architecture of 5G and beyond generations. Machine Learning (ML) offers promising solutions by ensuring automated, time- and cost-efficient fault management. However, ML-based solutions must evolve alongside network architectural innovations. Traditionally, communication networks have been monolithic, with tightly integrated components managed by a single vendor. Next-generation networks are moving towards disaggregation, allowing multiple vendors to manage interoperable Network Elements (NEs) or enabling multi-operator control over networks. This shift, supported by groups like O-RAN, OpenROADM, OpenConfig, and the Telecom Infra Project(TIP), aims to mitigate vendor lock-in and foster competition and innovation. Furthermore, most of the ML models are data-hungry and typically leverage data centralization in large computing units, e.g., Data Centers. However, in disaggregated networks, business-critical data sharing among entities, such as vendors or operators, is faced with privacy concerns. Federated Learning (FL), introduced by Google in 2016, offers a solution that allows the development of a global ML model by training multiple local models without sharing data. Two main categories of FL exist, according to how data is partitioned among entities, namely, Horizontal and Vertical Federated Learning (HFL, VFL). VFL is applicable where different entities have different features of the same data instance. Considering different entities would have different features in disaggregated architecture (e.g. alarms collected at different equipment types), this thesis aims to develop VFL-based fault management solutions that allow collaborative ML model development in disaggregated architectures. This study proposes privacy-preserving VFL-based ML models for two use cases: partially disaggregated optical networks and disaggregated microwave networks. As VFL approaches, we examined Split Neural Network (SplitNN) and Gradient Boosting Decision Trees (GBDT), using real data from an optical testbed at NICT in Japan and a unique dataset from SIAE's real microwave network. In the optical network use case, we utilized OSNR measurements derived from the ROADM-based optical link and we tested multi-operator deployment scenarios(i.e. each operator manages different segments of the network) in a federated setting, namely Two Operators (TWO-OS) and Three Operators (THREE-OS). For the microwave network use case, we used microwave link data that includes equipment alarms for hardware failure types from several NEs (e.g. Indoor Unit (IDU), Outdoor Unit(ODU)) and we tested multi-vendor deployment scenarios (i.e., each vendor manages different interoperable NE) in a federated setting, namely Two Vendors (TWO-VS) and Three Vendors (THREE-VS). Our experiments show that, depending on the model(i.e., SplitNN vs. FedTree) and ML model hyperparameters, federated scenarios achieved a maximum F1-Score of 82.17%, while centralized scenarios reached up to 82.72% for the optical network use case. Similarly, in the microwave network use case, the difference in F1-Score between centralized and federated scenarios remained consistently within 1%, regardless of the deployment strategies or model types used.
IBRAHIMI, MEMEDHE
TORNATORE, MASSIMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
La gestione dei guasti nelle reti di comunicazione di nuova generazione è di cruciale importanza, poiché un singolo guasto può interrompere il servizio per milioni di utenti. La gestione dei guasti end-to-end deve essere automatizzata e utilizzare meccanismi avanzati per affrontare i guasti derivanti dalla complessa architettura delle reti di nuova generazione (5G e successive). Il Machine Learning (ML) offre soluzioni promettenti, garantendo una gestione dei guasti automatizzata, efficiente in termini di tempo e di costi. Tuttavia, le soluzioni basate su ML devono evolversi con le innovazioni architettoniche della rete. Tradizionalmente, le reti di comunicazione sono state sviluppate in maniera monolitica, con componenti strettamente integrati gestiti da un unico fornitore. Le reti di nuova generazione si stanno evolvendo verso la disaggregazione, in cui diversi fornitori gestiscono Elementi di Rete (Network, Element, NE) interoperabili o si ha un controllo multi-operatore sulle reti. Questo cambiamento, sostenuto da gruppi come O-RAN, OpenROADM, OpenConfig e il Telecom Infra Project (TIP), mira a mitigare il lock-in del fornitore e a favorire la concorrenza e l'innovazione. Inoltre, la maggior parte dei modelli di ML richiedono l'uso di grandi quantità di dati, tipicamente analizzati in modo centralizzato (ad esempio, in Data Center). Tuttavia, nelle reti disaggregate, la condivisione di dati critici tra varie entità, come fornitori di apparati o operatori, è un aspetto critico per quanto riguarda la riservatezza dei dati stessi. Il Federated Learning (FL), introdotto da Google nel 2016, offre una soluzione che consente lo sviluppo di un modello globale di ML attraverso l'addestramento di diversi modelli locali che non richiede la condivisione dei dati. Esistono due principali categorie di FL, a seconda di come i dati sono partizionati tra le entità, ovvero il FL Orizzontale (HFL) e Verticale (VFL). Il VFL è applicabile quando entità diverse possiedono dati con caratteristiche diverse ma della stessa istanza. Considerando che nelle architetture disaggregate diverse entità potrebbero possedere dati di natura fdiversa (ad esempio, allarmi raccolti in apparati differenti), questa tesi mira a sviluppare soluzioni di gestione dei guasti basate su VFL che permettano lo sviluppo collaborativo di modelli di ML in architetture di rete disaggregate. Questo studio propone dei modelli ML basati su VFL che consentono di mantenere la confidenzialità dei dati, in due casi d'uso specifici: reti ottiche parzialmente disaggregate e reti a microonde disaggregate. Quali approcci VFL, sono stati adottati lo Split Neural Network (SplitNN) e i Gradient Boosting Decision Trees (GBDT) basati su VFL, utilizzando dati reali da un banco di prova ottico presso il NICT in Giappone e un dataset unico dalla rete a microonde reale di SIAE. Nel caso d'uso delle reti ottiche, abbiamo utilizzato misurazioni dell'OSNR derivate dal collegamento ottico basato su ROADM e abbiamo testato scenari di dispiegamento multi-operatore (ad esempio, ogni operatore gestisce diversi segmenti della rete) in un contesto federato, noti come Scenario Due Operatori e Scenario Tre Operatori (TWO-OS, THREE-OS). Per il caso d'uso della rete a microonde, abbiamo utilizzato dati dei collegamenti a microonde che includono allarmi di apparecchiatura per tipi di guasto hardware provenienti da diversi NE (ad esempio, Indoor Unit (IDU), Outdoor Unit (ODU)) e abbiamo testato scenari di dispiegamento multi-venditore (ad esempio, ogni venditore gestisce NE interoperabili diversi) in un contesto federato, noti come Scenario Due Venditori e Scenario Tre Venditori (TWO-VS, THREE-VS). I nostri esperimenti mostrano che, a seconda del modello (ad esempio, SplitNN vs. FedTree) e dei parametri dell'ML, gli scenari federati hanno raggiunto un punteggio F1 massimo del 82.17%, mentre gli scenari centralizzati hanno raggiunto fino al 82.72% per il caso d'uso della rete ottica. Analogamente, la differenza nel punteggio F1 tra scenari centralizzati e federati è rimasta costantemente entro l'1%, indipendentemente dalle strategie di dispiegamento o dai tipi di modello utilizzati.
File allegati
File Dimensione Formato  
2024_10_Temiz_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Fatih Temiz - Master Thesis Executive Summary
Dimensione 3.86 MB
Formato Adobe PDF
3.86 MB Adobe PDF   Visualizza/Apri
2024_10_Temiz_Thesis_01.pdf

solo utenti autorizzati a partire dal 18/09/2025

Descrizione: Fatih Temiz - Master Thesis - October 2024
Dimensione 7.44 MB
Formato Adobe PDF
7.44 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227679