Fault management plays a critical role in modern optical networks, where timely detection and mitigation of anomalies are essential to ensure service continuity. Although Machine Learning (ML) techniques have proven their effectiveness in several fault management tasks, they typically require large labeled datasets representative of multiple fault conditions. This work addresses the challenge of generalizing ML models for fault detection for different network conditions. To do so, we propose an innovative feature engineering strategy that leverages feature importance information derived from Explainable AI (XAI) techniques. In particular, we combine SHAP and Permutation Importance to identify the most relevant features in different specific contexts, thus developing an aggregate set of features applicable to more diverse conditions. After designing these methodologies, experiments are conducted analyzing the performance of the generalized and trained models in the specific network scenarios. The analysis shows that generalized models achieve comparable or superior performance compared to scenario-specific models, especially when the number of selected features is limited. Furthermore, we prove that, adopting XAI techniques, a reduction in features is possible while still maintaining high performance and sometimes improving it, also reducing computational complexity. Finally, the obtained results also show that in scenarios not seen during training, generalized models maintain a high level of accuracy, demonstrating their ability to adapt to different operating conditions without the need for retraining.

La gestione dei guasti svolge un ruolo cruciale nelle moderne reti ottiche, dove il rilevamento tempestivo e la mitigazione delle anomalie sono essenziali per garantire la continuità del servizio. Sebbene le tecniche di Machine Learning (ML) abbiano dimostrato la loro efficacia in diversi compiti di gestione dei guasti, esse richiedono generalmente grandi dataset etichettati, rappresentativi di molteplici condizioni di guasto. Questo lavoro affronta la sfida di generalizzare i modelli di ML per il rilevamento dei guasti in diverse condizioni di rete. A tal fine, proponiamo una strategia innovativa di feature engineering che sfrutta le informazioni sull'importanza delle caratteristiche derivate da tecniche di Explainable AI (XAI). In particolare, combiniamo SHAP e Permutation Importance per identificare le caratteristiche più rilevanti in diversi contesti specifici, sviluppando così un insieme aggregato di feature applicabile a condizioni più eterogenee. Dopo aver progettato queste metodologie, sono condotti esperimenti per analizzare le prestazioni dei modelli generalizzati e addestrati nei diversi scenari di rete specifici. L'analisi mostra che i modelli generalizzati ottengono prestazioni comparabili o superiori rispetto ai modelli specifici per scenario, soprattutto quando il numero di feature selezionate è limitato. Inoltre, dimostriamo che, adottando tecniche di XAI, è possibile ridurre il numero di feature mantenendo comunque elevate prestazioni e, in alcuni casi, migliorandole, riducendo al contempo la complessità computazionale. Infine, i risultati ottenuti evidenziano che, in scenari non visti durante l'addestramento, i modelli generalizzati mantengono un alto livello di accuratezza, dimostrando la loro capacità di adattarsi a diverse condizioni operative senza la necessità di un nuovo addestramento.

Towards generalized ML models for failure management in optical networks

Grassi, Andrea
2023/2024

Abstract

Fault management plays a critical role in modern optical networks, where timely detection and mitigation of anomalies are essential to ensure service continuity. Although Machine Learning (ML) techniques have proven their effectiveness in several fault management tasks, they typically require large labeled datasets representative of multiple fault conditions. This work addresses the challenge of generalizing ML models for fault detection for different network conditions. To do so, we propose an innovative feature engineering strategy that leverages feature importance information derived from Explainable AI (XAI) techniques. In particular, we combine SHAP and Permutation Importance to identify the most relevant features in different specific contexts, thus developing an aggregate set of features applicable to more diverse conditions. After designing these methodologies, experiments are conducted analyzing the performance of the generalized and trained models in the specific network scenarios. The analysis shows that generalized models achieve comparable or superior performance compared to scenario-specific models, especially when the number of selected features is limited. Furthermore, we prove that, adopting XAI techniques, a reduction in features is possible while still maintaining high performance and sometimes improving it, also reducing computational complexity. Finally, the obtained results also show that in scenarios not seen during training, generalized models maintain a high level of accuracy, demonstrating their ability to adapt to different operating conditions without the need for retraining.
KARANDIN, OLEG
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La gestione dei guasti svolge un ruolo cruciale nelle moderne reti ottiche, dove il rilevamento tempestivo e la mitigazione delle anomalie sono essenziali per garantire la continuità del servizio. Sebbene le tecniche di Machine Learning (ML) abbiano dimostrato la loro efficacia in diversi compiti di gestione dei guasti, esse richiedono generalmente grandi dataset etichettati, rappresentativi di molteplici condizioni di guasto. Questo lavoro affronta la sfida di generalizzare i modelli di ML per il rilevamento dei guasti in diverse condizioni di rete. A tal fine, proponiamo una strategia innovativa di feature engineering che sfrutta le informazioni sull'importanza delle caratteristiche derivate da tecniche di Explainable AI (XAI). In particolare, combiniamo SHAP e Permutation Importance per identificare le caratteristiche più rilevanti in diversi contesti specifici, sviluppando così un insieme aggregato di feature applicabile a condizioni più eterogenee. Dopo aver progettato queste metodologie, sono condotti esperimenti per analizzare le prestazioni dei modelli generalizzati e addestrati nei diversi scenari di rete specifici. L'analisi mostra che i modelli generalizzati ottengono prestazioni comparabili o superiori rispetto ai modelli specifici per scenario, soprattutto quando il numero di feature selezionate è limitato. Inoltre, dimostriamo che, adottando tecniche di XAI, è possibile ridurre il numero di feature mantenendo comunque elevate prestazioni e, in alcuni casi, migliorandole, riducendo al contempo la complessità computazionale. Infine, i risultati ottenuti evidenziano che, in scenari non visti durante l'addestramento, i modelli generalizzati mantengono un alto livello di accuratezza, dimostrando la loro capacità di adattarsi a diverse condizioni operative senza la necessità di un nuovo addestramento.
File allegati
File Dimensione Formato  
2025_04_Grassi_executive_summary.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.03 MB
Formato Adobe PDF
2.03 MB Adobe PDF   Visualizza/Apri
2025_04_Grassi_tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 9.41 MB
Formato Adobe PDF
9.41 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236342