Performance evaluation of CANdito: an analysis of data influence on false positive generation in controller area network intrusion detection systems

Modern vehicles have evolved into complex systems that integrate mechanical components, advanced electronics, and intricate software, enhancing vehicle safety, efficiency, and user experience. However, these advancements also present new challenges, particularly within the Controller Area Network (CAN) protocol, which is essential for real-time communication among Electronic Control Units (ECUs). The CAN protocol's vulnerability to various attacks, such as message spoofing, flooding, and replay attacks, underscores the need for robust security measures like Intrusion Detection Systems (IDS). Traditional IDS approaches, typically anomaly-based or signature-based, often fall short in addressing the increasingly sophisticated nature of cyber threats. As a result, deep learning (DL) based IDS have been proposed due to their capability to handle complex, high-dimensional data and to detect subtle patterns in CAN bus traffic. While these DL-based IDS have enhanced detection capabilities, particularly for zero-day attacks, they also tend to generate a high number of false positives, which hinders the implementation of autonomous response systems. This thesis focuses on CANdito, an IDS that utilizes Long Short-Term Memory (LSTM) networks to detect temporal patterns in CAN traffic. The study aims to reduce the false positives generated by CANdito by examining how different data-splitting strategies for training and validation sets impact its performance. To achieve this, the thesis introduces various data splitters — Non-Overlapping, Fixed, Balanced, and Smartly-Balanced — and evaluates their effectiveness in optimizing CANdito's detection accuracy while minimizing false positives. While highlighting the robustness of state-of-the-art CANdito performance in all experiments, the results demonstrate how training sets influence CANdito detection capabilities and contribute to the development of more reliable IDS for automotive networks.

I veicoli moderni si sono evoluti in sistemi complessi che integrano componenti meccanici, elettronica avanzata e software sofisticati, migliorando la sicurezza, l'efficienza e l'esperienza dell'utente. Tuttavia, questi progressi presentano anche nuove sfide, in particolare in Controller Area Network (CAN), essenziale per la comunicazione in tempo reale tra le Unità di Controllo Elettroniche (ECU). CAN presenta vulnerabilità a vari attacchi, come lo spoofing dei messaggi, il flooding e gli attacchi di replay, evidenziando la necessità di misure di sicurezza robuste come i Sistemi di Rilevamento delle Intrusioni (IDS). Gli IDS, tipicamente basati su anomalie o signature, spesso non riescono ad affrontare la natura sempre più sofisticata delle minacce informatiche. Di conseguenza, sono stati proposti IDS basati sul deep learning (DL) grazie alla loro capacità di gestire dati complessi e di grandi dimensioni e e di rilevare pattern sofisticati nel CAN bus. Sebbene questi IDS basati su DL abbiano migliorato le capacità di rilevamento, soprattutto per gli attacchi zero-day, tendono a generare un elevato numero di falsi positivi, il che ostacola l'implementazione di sistemi di risposta autonoma. Questa tesi si concentra su CANdito, un IDS che utilizza reti Long Short-Term Memory (LSTM) per rilevare pattern temporali nel traffico di CAN. Lo scopo dello studio è ridurre i falsi positivi generati da CANdito esaminando come diverse strategie di suddivisione dei dati per i set di allenamento e validazione influenzino le sue prestazioni. A tal fine, la tesi introduce vari splitter di dati — Non-Overlapping, Fixed, Balanced e Smartly-Balanced — e ne valuta l'efficacia nell'ottimizzare l'accuratezza del rilevamento di CANdito minimizzando i falsi positivi. I risultati, pur evidenziando la robustezza delle prestazioni di CANdito in tutti i set, dimostrano come le capacità di rilevamento di CANdito siano influenzate dal set di allenamento e contribuiscono allo sviluppo di IDS più affidabili per le reti del settore automotive, bilanciando la necessità di elevati tassi di rilevamento con la riduzione dei falsi positivi.