From device to infrastructure: how traffic analysis enables observability in encrypted and heterogeneous networks

Modern networks have shifted from static, hardware-centric infrastructures to highly dynamic, encrypted, and distributed ecosystems. This transformation improves agility, privacy, and scalability, but introduces significant observability challenges, creating a fundamental paradox: as networks become increasingly critical to society, their operation becomes less transparent and predictable. This thesis explores the role of traffic analysis as a lens for understanding these increasingly complex systems. Given the vast scope of modern networks and traffic analysis, we focus our investigation on specific use cases across three complementary scales of modern networked systems. At the device scale, we investigate traffic analysis for IoT forensic investigations, examining how the physical topology of IoT mesh networks influences traffic patterns. Our findings reveal that models trained under one network configuration may experience significant performance degradation when deployed in different topologies, despite having an identical device set. At the infrastructure scale, we examine how the evolution of Radio Access Networks challenges the temporal validity of traffic prediction models. We demonstrate that infrastructure changes systematically alter traffic distributions and invalidate the statistical relationships upon which predictive models depend. This reveals infrastructure evolution as a fundamental, yet underexplored, source of concept drift in network machine learning applications. At the learning-overlay scale, we analyze Federated Learning (FL) traffic from two perspectives: detection and characterization. We demonstrate that, despite encryption, the distinctive communication patterns of FL training can be identified from minimal observations, creating both opportunities for network-aware optimization and concerns about privacy. Through our FederNet platform, we establish an emulation framework for studying how algorithmic and optimization techniques in FL manifest as observable network behaviors. In conclusion, this thesis demonstrates that network observability through traffic analysis is challenged by heterogeneity, temporal drift, and non-stationary network conditions. To support the investigation of these limitations, we release datasets, measurement traces, and experimental platforms that address a critical gap in publicly available resources for studying model robustness under dynamic network environments.

Le reti di comunicazione moderne hanno progressivamente superato architetture statiche e fortemente dipendenti dall’hardware, evolvendo verso ecosistemi altamente dinamici, cifrati e distribuiti. Questa trasformazione ha apportato benefici significativi in termini di agilità operativa, tutela della privacy e scalabilità, ma ha al contempo introdotto rilevanti criticità sul piano dell’osservabilità. Ne deriva un paradosso fondamentale: mentre le reti assumono un ruolo sempre più centrale per il funzionamento della società, il loro comportamento diventa progressivamente meno trasparente e prevedibile. Questa tesi indaga il ruolo dell’analisi del traffico come strumento interpretativo per comprendere tali sistemi complessi. Data l’ampiezza del tema, l’analisi è circoscritta a tre casi d’uso rappresentativi, che affrontano il problema dell’osservabilità da prospettive complementari. Nel primo caso d’uso, analizziamo l’impiego dell’analisi del traffico in ambito forense per l’Internet of Things (IoT), concentrandoci sull’influenza della topologia fisica delle reti mesh sui pattern di traffico osservabili. I risultati mostrano che modelli addestrati su una specifica configurazione di rete possono subire una marcata degradazione delle prestazioni quando validati su topologie differenti, pur in presenza di un insieme di dispositivi invariato. Ciò evidenzia come la topologia di rete rappresenti un fattore determinante, spesso trascurato, nelle prestazioni dei modelli di analisi del traffico. A livello infrastrutturale, esaminiamo in che modo l’evoluzione delle Radio Access Networks (RAN) metta in discussione la validità temporale dei modelli di previsione del traffico. In particolare, dimostriamo che modifiche infrastrutturali (quali, ad esempio, l’attivazione di una nuova unità radio) alterano sistematicamente le distribuzioni del traffico e compromettono le relazioni statistiche su cui tali modelli si fondano. Questo risultato identifica l’evoluzione dell’infrastruttura di rete come una causa fondamentale, ma finora poco esplorata, di concept drift nelle applicazioni di apprendimento automatico e di intelligenza artificiale per le reti. Infine, considerando che un numero crescente di metodologie di apprendimento distribuito utilizza la rete come strumento chiave per migliorare efficienza e tutela della privacy, la tesi analizza il traffico generato dal Federated Learning (FL) sotto due prospettive: l’identificazione e la caratterizzazione. In particolare, mostriamo che, nonostante l’adozione di meccanismi di cifratura, i pattern di comunicazione distintivi delle fasi di addestramento federato possono essere identificati a partire da osservazioni minime. Ciò apre, da un lato, opportunità per l’ottimizzazione consapevole delle risorse di rete e, dall’altro, solleva nuove problematiche in termini di privacy. Attraverso la piattaforma FederNet, proponiamo inoltre un ambiente di emulazione che consente di studiare come le scelte algoritmiche e le tecniche di ottimizzazione nel FL si riflettano in comportamenti di rete osservabili. In conclusione, questa tesi mostra come l’osservabilità delle reti attraverso l’analisi del traffico sia fortemente limitata da eterogeneità, deriva temporale e condizioni di rete non stazionarie. A supporto dell’analisi di tali limitazioni, vengono rilasciati dataset e piattaforme sperimentali che colmano una lacuna nelle risorse pubblicamente disponibili per lo studio della robustezza dei modelli in ambienti di rete dinamici.