BOIANO, ANTONIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il Federated Learning (FL) consente a più client di addestrare in modo collaborativo un modello condiviso senza scambiare dati grezzi, migliorando la privacy e riducendo i rischi di esposizione. Poiché la comunicazione FL avviene su reti pubbliche, è vulnera bile a minacce in cui gli attaccanti potrebbero ottenere accesso, manipolare il processo di addestramento o intercettare i trasferimenti di dati. Garantire connessioni sicure end to-end tra gli host è quindi essenziale per mantenere l’integrità e l’affidabilità dei sistemi FL. Questa tesi esplora la classificazione del traffico FL utilizzando tecniche di apprendi mento supervisionato e non supervisionato per migliorare la sicurezza dei client. Ab biamo sviluppato un classificatore XGBoost per l’apprendimento supervisionato, che ha raggiunto un’accuratezza del 99% con una finestra di 20 pacchetti. Nel contesto non super visionato, abbiamo sviluppato un modello Isolation Forest, che ha ottenuto un’accuratezza dell’80,3% utilizzando cinque caratteristiche chiave e una finestra di 20 pacchetti. Inoltre, abbiamo progettato un LSTM Autoencoder, che ha raggiunto un’accuratezza dell’88,53% con una finestra di 10 pacchetti. Sebbene l’apprendimento supervisionato abbia ottenuto la massima accuratezza, la sua dipendenza da un dataset rappresentativo del traffico non-FL ne limita l’adattabilità, poiché richiede etichette ben definite e potrebbe fati care a generalizzare su anomalie non viste. Al contrario, i modelli non supervisionati offrono una maggiore flessibilità per il rilevamento di anomalie nel mondo reale, dove i dati etichettati sono spesso scarsi e in continua evoluzione. Identificando le anomalie in base alle deviazioni dai pattern appresi anziché tramite etichette predefinite, questi mod elli si adattano in modo più efficace a scenari FL eterogenei e dinamici. Questa ricerca getta le basi per un ulteriore miglioramento delle prestazioni dei modelli, l’ottimizzazione della selezione delle caratteristiche e il perfezionamento dell’accuratezza nel rilevamento delle anomalie
Federated Learning (FL) allows multiple clients to train a shared model collaboratively without exchanging raw data, enhancing privacy and reducing exposure risks. Because FL communication takes place over public internet networks, it is vulnerable to threats where attackers could gain access, manipulate the training process, or intercept data transfers. Ensuring secure end-to-end connections between end hosts is therefore essential to maintaining the integrity and reliability of FL systems. This thesis explores FL traffic classification using supervised and unsupervised learning techniques to enhance client security. We developed an XGBoost classifier for supervised learning, which achieved 99% accuracy with a window size of 20 packets. In the unsupervised domain, we developed an Isolation Forest model, which achieved an 80.3% accuracy using five key features and a window size of 20 packets. We also developed an LSTM Autoencoder, which reached 88.53 % accuracy with window sizes of 10 packets. While supervised learning achieved the highest accuracy, its dependence on a representative of a non-FL dataset limits its adaptability, as it requires well-defined labels and may struggle to generalize to unseen anomalies. In contrast, unsupervised models offer greater flexibility for real-world anomaly detection, where labeled data is often scarce and continuously evolving. By identifying anomalies based on deviations from learned patterns rather than predefined labels, these models can adapt more effectively to diverse and dynamic FL environments. This research lays the groundwork for further improving model performance, refining feature selection, and optimizing detection accuracy.