Transfer-learning-based soft-failure detection and identification in optical networks

Precise monitoring of the received signal quality provides a valuable source of information for ensuring the performance of optical networks and guaranteeing the quality of transmission. During network activity, several types of soft failures (as opposed to hard failures where the signal is completely disrupted) can affect signal quality and cause anomalies in the receiver's OSNR, eventually leading to packet losses or even interruption of service. Therefore, a solid framework for soft failure detection (i.e. detecting anomalies due to failure occurrences), localization (i.e. identifying where the failure occurred in the network), and identification (i.e. knowing the actual cause of the failure) is critical, because it can be used by operators to conduct traffic re-routing and rapid recovery of failures. New generation coherent transponders offer an opportunity to track many parameters associated with optical signal transmission, such as OSNR (Optical Signal-to-Noise-Ratio), Q-factor or pre-Forward Error Contact Bit Error Rate (pre-FEC BER). The amount of generated data is enormous. In this context, techniques from machine learning (ML) discipline are regarded as a strong candidate to address this issue, asML enables automated network self-configuration and quick decision-making by leveraging effectively the abundance of data that can be retrieved via network monitors. Previous works have already leveraged ML to perform soft-failure detection and identification in optical networks. Supervised ML-based approaches learn a mapping from the monitored OSNR values to a output variable, e.g. failure detection or identification. To make the learning phase effective, a large amount of training samples must be provided to the learning algorithm. The collection of the training samples is often difficult in the optical networks because of the practical issues such as lack of monitoring equipment at every node, highly costly to permit acquisition of the datasets. For the networks in the early deployment stage it would be more difficult to acquire the datasets. However it is possible to build a ML model with the help of the large datasets available from the different network than the one on which we operate the ML model. To put it in a nutshell we intend to transfer the knowledge from one network to the another. This kind of knowledge transferring is referred as Transfer Learning (TL). Even though some initial research works have appeared on this topic, several questions are still pending regarding, e.g., how accurately can we build a model on the network, which TL technique (among the large set of already existing and well established tools) is better suited for soft-failure detection and identification based on OSNR analysis at signal receiver. To answer some of these pending concerns, we present the following contributions in this thesis: 1) we define a ML/TL framework for OSNR anomaly detection based on monitored OSNR data; here we employ different TL algorithms, for which we assess the trade-off between complexity and prediction accuracy; 2) we propose, to the best of our knowledge for the first time in literature, a TL-based methodology to discriminate among different sources of soft failure, enabling the capability to distinguish if a OSNR anomaly is determined by excessive filtering (e.g., due to filters misalignment) or reduced amplification (e.g., due to amplifier malfunctioning). In this context, ML provides a huge potential in extracting hidden patterns from OSNR data, while using other approaches would require the availability and analysis of additional parameters, e.g., BER and/or Q-factor. Also with the help of TL we can leverage the amount of data we require to train a ML model on a network. We perform transfer learning across different lightpaths for failure identification and failure-cause identification using OSNR traces collected over NICT's Sendai optical-network testbed. Results suggest limited that limited additional data on the target lightpath allow to achieve satisfactory accuracy.

Il monitoraggio preciso della qualità del segnale ricevuto fornisce una preziosa fonte di informazioni per garantire le prestazioni delle reti ottiche e garantire la qualità della trasmissione. Monitoraggio preciso dell'attività Durante la rete, diversi tipi di guasti soft (al contrario di guasti gravi in cui il segnale è completamente interrotto) possono influire sulla qualità del segnale e causare anomalie nell'OSNR del ricevitore, portando infine alla perdita di pacchetti o addirittura all'interruzione del servizio. la qualità del segnale fornisce una preziosa fonte di informazioni per garantire le prestazioni delle reti ottiche e garantire la qualità della trasmissione. Pertanto, un solido framework per il rilevamento di errori soft (ovvero il rilevamento di anomalie dovute a eventi di errore), la localizzazione (ovvero l'identificazione di dove si è verificato l'errore nella rete) e l'identificazione (ovvero la conoscenza della causa effettiva dell'errore) sono fondamentali, perché possono essere utilizzato dagli operatori per eseguire il reindirizzamento del traffico e il rapido ripristino degli errori. I transponder coerenti di nuova generazione offrono l'opportunità di tracciare molti parametri associati alla trasmissione del segnale ottico, come OSNR (Rapporto segnale-rumore ottico), fattore Q o tasso di errore bit di contatto errore pre-forward (BER pre-FEC). La quantità di dati generati è enorme. In questo contesto, le tecniche della disciplina dell'apprendimento automatico (ML) sono considerate un candidato forte per affrontare questo problema, poiché l'ML consente l'autoconfigurazione automatica della rete e il rapido processo decisionale sfruttando efficacemente l'abbondanza di dati che possono essere recuperati tramite i monitor di rete. I lavori precedenti hanno già sfruttato ML per eseguire il rilevamento e l'identificazione di guasti software nelle reti ottiche. Gli approcci supervisionati basati su ML apprendono una mappatura dai valori OSNR monitorati a una variabile di output, ad es. rilevazione o identificazione di guasti. Per rendere efficace la fase di apprendimento, è necessario fornire una grande quantità di campioni di addestramento all'algoritmo di apprendimento. La raccolta dei campioni di addestramento è spesso difficile nelle reti ottiche a causa di problemi pratici come la mancanza di apparecchiature di monitoraggio in ogni nodo, altamente costose per consentire l'acquisizione dei set di dati. Per le reti nella fase iniziale di implementazione sarebbe più difficile acquisire i set di dati. Tuttavia è possibile costruire un modello ML con l'aiuto di grandi set di dati disponibili dalla rete diversa da quella su cui operiamo il modello ML. Per farla breve, intendiamo trasferire la conoscenza da una rete all'altra. Questo tipo di trasferimento di conoscenze viene definito Transfer Learning (TL). Anche se su questo argomento sono apparsi alcuni lavori di ricerca iniziale, sono ancora in sospeso alcune domande riguardanti, ad esempio, quanto accuratamente possiamo costruire un modello sulla rete, quale tecnica TL (tra la vasta gamma di strumenti già esistenti e consolidati) è migliore adatto per il rilevamento e l'identificazione di guasti lievi basato sull'analisi OSNR sul ricevitore del segnale. Per rispondere ad alcune di queste preoccupazioni in sospeso, presentiamo i seguenti contributi in questa tesi: 1) definiamo un framework ML / TL per il rilevamento di anomalie OSNR basato su dati OSNR monitorati; qui utilizziamo diversi algoritmi TL, per i quali valutiamo il compromesso tra complessità e accuratezza della previsione; 2) proponiamo, per quanto a nostra conoscenza per la prima volta in letteratura, una metodologia basata su TL per discriminare tra le diverse fonti di cedimento morbido, consentendo la capacità di distinguere se un'anomalia OSNR è determinata da un eccessivo filtraggio (ad es. per filtrare il disallineamento) o l'amplificazione ridotta (ad es. a causa di un malfunzionamento dell'amplificatore). In questo contesto, ML offre un enorme potenziale nell'estrazione di schemi nascosti dai dati OSNR, mentre l'utilizzo di altri approcci richiederebbe la disponibilità e l'analisi di parametri aggiuntivi, ad esempio BER e / o fattore Q. Inoltre, con l'aiuto di TL, possiamo sfruttare la quantità di dati necessari per addestrare un modello ML su una rete. Eseguiamo l'apprendimento del trasferimento attraverso diversi percorsi di luce per l'identificazione degli errori e l'identificazione delle cause degli errori utilizzando le tracce OSNR raccolte sul banco di prova della rete ottica Sendai di NICT. I risultati suggeriscono limitato che dati aggiuntivi limitati sul percorso luminoso target consentono di ottenere una precisione soddisfacente.