Machine learning as a network management primitive: from end-to-end optimization to atomic network functions

Machine Learning (ML) is rapidly becoming the jack-of-all-trades of the network management stack. Thanks to its purely data-driven nature, ML can be leveraged for developing a broad set of network management functions tailored for the specific task at hand. Unfortunately, we are still far from harnessing the full potential of ML for network management. Contemporary literature in this field has made tremendous progress in identifying algorithms and design principles for producing well-trained models from historical data. These contributions, though fundamental, cover only one aspect of the whole ML model lifecycle. Deploying, using, and maintaining ML-based network management solutions poses nontrivial research challenges, orthogonal with respect to training a model, that is presently not yet thoroughly addressed. This hinders a widespread adoption of ML by network operators, who instead prefer relying upon classical, battle-tested network management solutions. To take a step toward solving this fundamental problem, this Thesis identifies five core challenges in ML for network management: 1) Generalizability to data beyond training, 2) Adaptability to dynamic network environments, 3) Reliability, in terms of providing theoretical performance guarantees after model deployment, 4) Data efficiency, for minimizing the amount of labor required for training and updating models, and 5) Performance, i.e., ML-based solutions must tangibly improve over conventional methods to be worth considering. We address these challenges through multiple representative network management applications: online and offline network optimization with Reinforcement Learning, focusing on generalizability and performance; ML-based hardware fault classification in microwave networks, focusing on data efficiency and reliability; Continual in-network ML, focusing on data efficiency and adaptability; and intent-based networking with Large Language Models, focusing on performance and data-efficiency. We quantitatively validate the practical effectiveness of our proposed solutions through extensive comparisons against the state of the art, and by leveraging novel real-world datasets, which we make publicly available.

Il Machine Learning (ML) sta rapidamente diventando il coltellino svizzero della gestione delle reti. Grazie alla sua natura puramente basata sui dati, il ML può essere sfruttato per sviluppare un'ampia gamma di funzioni di gestione della rete personalizzate per specifiche attività. Tuttavia, siamo ancora lontani dallo sfruttare appieno il potenziale del ML per la gestione delle reti. La letteratura in questo campo ha fatto enormi progressi nell'identificare algoritmi e principi di progettazione per produrre modelli ben addestrati a partire da dati storici. Questi contributi, sebbene fondamentali, coprono solo un aspetto dell'intero ciclo di vita del modello. L'implementazione, l'utilizzo e la manutenzione delle soluzioni di gestione della rete basate su ML pongono sfide di ricerca non banali, ortogonali rispetto all'addestramento di un modello, che attualmente non sono ancora affrontate in modo esaustivo. Questo ostacola una diffusa adozione del ML da parte degli operatori, che preferiscono invece affidarsi a soluzioni consolidate di gestione della rete. Per fare un passo avanti verso la risoluzione di questo problema, questa Tesi identifica cinque sfide fondamentali nel ML per la gestione delle reti: 1) Generalizzabilità ai dati al di là dell'addestramento, 2) Adattabilità agli ambienti di rete dinamici, 3) Affidabilità, in termini di garanzie teoriche di prestazioni a valle della distribuzione del modello, 4) Efficienza nell'uso dei dati, per minimizzare la quantità di lavoro richiesto per l'addestramento e l'aggiornamento dei modelli, e 5) Prestazioni, siccome le soluzioni basate su ML devono migliorare tangibilmente rispetto ai metodi convenzionali per essere prese in considerazione. Affrontiamo queste sfide attraverso molteplici applicazioni rappresentative nella gestione delle reti: ottimizzazione di reti online e offline con Reinforcement Learning, concentrandoci su generalizzabilità e prestazioni; classificazione dei guasti hardware basata su ML nelle reti a microonde, concentrandoci su efficienza nell'uso dei dati e affidabilità; ML continuo in-network, concentrandoci su efficienza nell'uso dei dati e adattabilità; e intent-based networking con Large Language Models, concentrandoci su prestazioni ed efficienza dell'uso dei dati. Validiamo quantitativamente l'efficacia pratica delle nostre soluzioni mediante estesi confronti con lo stato dell'arte e sfruttando nuovi dataset estratti da reti reali, che rendiamo pubblicamente disponibili.