ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il Federated Learning (FL) consente a più client di addestrare in modo collaborativo
un modello condiviso senza scambiare dati grezzi, migliorando la privacy e riducendo i
rischi di esposizione. Poiché la comunicazione FL avviene su reti pubbliche, è vulnera
bile a minacce in cui gli attaccanti potrebbero ottenere accesso, manipolare il processo
di addestramento o intercettare i trasferimenti di dati. Garantire connessioni sicure end
to-end tra gli host è quindi essenziale per mantenere l’integrità e l’affidabilità dei sistemi
FL. Questa tesi esplora la classificazione del traffico FL utilizzando tecniche di apprendi
mento supervisionato e non supervisionato per migliorare la sicurezza dei client. Ab
biamo sviluppato un classificatore XGBoost per l’apprendimento supervisionato, che ha
raggiunto un’accuratezza del 99% con una finestra di 20 pacchetti. Nel contesto non super
visionato, abbiamo sviluppato un modello Isolation Forest, che ha ottenuto un’accuratezza
dell’80,3% utilizzando cinque caratteristiche chiave e una finestra di 20 pacchetti. Inoltre,
abbiamo progettato un LSTM Autoencoder, che ha raggiunto un’accuratezza dell’88,53%
con una finestra di 10 pacchetti. Sebbene l’apprendimento supervisionato abbia ottenuto
la massima accuratezza, la sua dipendenza da un dataset rappresentativo del traffico
non-FL ne limita l’adattabilità, poiché richiede etichette ben definite e potrebbe fati
care a generalizzare su anomalie non viste. Al contrario, i modelli non supervisionati
offrono una maggiore flessibilità per il rilevamento di anomalie nel mondo reale, dove i
dati etichettati sono spesso scarsi e in continua evoluzione. Identificando le anomalie in
base alle deviazioni dai pattern appresi anziché tramite etichette predefinite, questi mod
elli si adattano in modo più efficace a scenari FL eterogenei e dinamici. Questa ricerca
getta le basi per un ulteriore miglioramento delle prestazioni dei modelli, l’ottimizzazione
della selezione delle caratteristiche e il perfezionamento dell’accuratezza nel rilevamento
delle anomalie
Federated Learning (FL) allows multiple clients to train a shared model collaboratively
without exchanging raw data, enhancing privacy and reducing exposure risks. Because
FL communication takes place over public internet networks, it is vulnerable to threats
where attackers could gain access, manipulate the training process, or intercept data
transfers. Ensuring secure end-to-end connections between end hosts is therefore essential
to maintaining the integrity and reliability of FL systems. This thesis explores FL traffic
classification using supervised and unsupervised learning techniques to enhance client
security. We developed an XGBoost classifier for supervised learning, which achieved 99%
accuracy with a window size of 20 packets. In the unsupervised domain, we developed
an Isolation Forest model, which achieved an 80.3% accuracy using five key features and
a window size of 20 packets. We also developed an LSTM Autoencoder, which reached
88.53 % accuracy with window sizes of 10 packets. While supervised learning achieved
the highest accuracy, its dependence on a representative of a non-FL dataset limits its
adaptability, as it requires well-defined labels and may struggle to generalize to unseen
anomalies. In contrast, unsupervised models offer greater flexibility for real-world anomaly
detection, where labeled data is often scarce and continuously evolving. By identifying
anomalies based on deviations from learned patterns rather than predefined labels, these
models can adapt more effectively to diverse and dynamic FL environments. This research
lays the groundwork for further improving model performance, refining feature selection,
and optimizing detection accuracy.