Realization of machine learning algorithms to detect botnet attacks in software defined networks

Software Defined Networks (SDN) are bringing many advances with respect to traditional networking in various domains, such as network control, ease of configuration, and automation. Nevertheless, due to the fact that, in SDN, centralized controllers host lots of functionalities, there is an increased vulnerability to botnet attacks, such as Distributed Denial of Service (DDoS), data scan, or Keylogging, which can potentially affect the controller availability and, in turn, the entire network. Involving the data plane in the detection process by implementing Machine Learning (ML) algorithms directly in the data plane devices, such as switches, routers or end hosts, appears a promising alternative to address the problem. Programmability in the data plane, not present in traditional networks, can be added in SDN using, among the others, P4 programming language. Considering that this new programming capability of the data plane is limited in computing resources, extracting the most relevant network features becomes a critical task and a fundamental part of the training process in ML algorithms. Removing redundant features and detecting biases in the data are just some functions a Feature Selection algorithm should consider. In this thesis, we propose a ML solution to detect different botnet attacks in SDN, as well as feature selection techniques such as Recursive Feature Elimination and techniques based on feature importance metrics, such as SHAP, to be used before training the ML models. Using an existing dataset obtained on a simulated SDN network environment, we found that, with the studied feature selection techniques and ML algorithms, we can reduce the number of features from 83 to 3, obtaining up to 98% accuracy and training times of up to 500 times lower compared to the case where all available features are used.

Il paradigma Software Defined Networking (SDN) ha introdotto diverse innovazioni nel contesto di networking attuale sotto vari punti di vista, come ad esempio il controllo, la facilità di configurazione e l’automazione di rete. Tuttavia, il fatto che l’architettura SDN sia basata sulla centralizzazione di numerose funzionalità di rete nei controller SDN provoca una maggiore vulnerabilità ad attacchi informatici, come gli attacchi di tipo Distributed Denial of Service (DDoS), data scan o Keylogging, che possono interferire sul corretto funzionamento del controller e, di conseguenza, influenzare il traffico dell’intera rete SDN. Per evitare questo problema, coinvolgere il piano dati nel processo di rilevamento degli attacchi, applicando algoritmi di Machine Learning (ML) direttamente nei dispositivi del piano dati, come switch, router o host, rappresenta una alternativa promettente. La programmabilità di dispositivi del piano dati, non attuabile nelle reti tradizionali, può essere ottenuta, tra gli altri, mediante il linguaggio di programmazione P4. Considerando che questa nuova capacità di programmazione del piano dati presenta certi limiti in termini di risorse computazionali, l’estrazione delle features di rete più rilevanti per la rilevazione di attacchi diventa un compito critico e una parte fondamentale del processo di addestramento negli algoritmi ML dedicati allo scopo. Rimuovere informazioni ridondanti o non significative per individuare i sopracitati attacchi informatici sono solo alcune delle funzioni che un algoritmo di features selection può prendere in considerazione. In questa tesi, sono proposte soluzioni basate su algoritmi di ML per rilevare diversi attacchi informatici in reti SDN, nonché tecniche di selezione delle features come Recursirve Feature Elimination (RFE) e basate su metriche di feature importance come ad esempio SHAP, da utilizzare prima di addestrare i modelli ML. Utilizzando un dataset esistente ottenuto su un ambiente di rete SDN simulato, le tecniche di selezione delle feature e attraverso l’ottimizzazione degli algoritmi di ML in uso, si mostra che è possibile ridurre il numero di feature da 83 a 3, ottenendo una accuratezza nell’individuazione degli attacchi fino al 98% e tempi di addestramento fino a 500 volte inferiori rispetto al caso in cui si usi l’intero insieme di feature a disposizione.