In the current digital landscape, the rapid evolution of cyber threats necessitates efficient, real-time analysis of online content to support cybersecurity situational awareness and threat intelligence. The CS-Aware-Next project, funded by the European Union, aims to provide organizations with advanced tools for cybersecurity management by leveraging artificial intelligence techniques. To address this challenge, this research designs and evaluates a classification system that processes cybersecurity-related posts, integrating threat intelligence from social media into cybersecurity workflows. This thesis develops a multi-label classification system within the CS-Aware-Next project to enhance automated cybersecurity filtering and classification using social media data. The study explores different system configurations and assesses their effectiveness in filtering and categorizing cybersecurity-relevant content. Specifically, various machine learning models, including traditional classifiers (Logistic Regression, Naïve Bayes) and ensemble methods (Random Forest, XGBoost), are examined alongside different text representation techniques. The research contrasts static embeddings (GloVe) with context-aware encoders such as DistilRoBERTa, SBERT, and the cybersecurity-specific ATT&CK-BERT model. The experimental evaluation highlights that context-aware models significantly improve classification accuracy, particularly when combined with ensemble methods, by effectively capturing the semantics of cybersecurity-related text. Despite challenges such as class imbalance and overlapping label semantics, the results demonstrate the potential of AI-driven solutions in improving automated cybersecurity classification. The findings provide valuable insights for developing AI-powered cybersecurity tools that support more effective threat detection and proactive defense strategies in an increasingly interconnected digital environment.

Nell'attuale panorama digitale, la rapida evoluzione delle minacce informatiche richiede un'analisi efficiente e in tempo reale dei contenuti online per supportare la consapevolezza della situazione in materia di sicurezza informatica e l'intelligence sulle minacce. Il progetto CS-Aware-Next, finanziato dall'UE, mira a fornire alle organizzazioni strumenti avanzati per la gestione della cybersicurezza sfruttando tecniche di IA. Per affrontare questa sfida, questa ricerca progetta e valuta un sistema di classificazione che elabora i post relativi alla cybersicurezza, integrando le informazioni sulle minacce dai social media nei flussi di lavoro della cybersicurezza. Questa tesi sviluppa un sistema di classificazione multi-label nell'ambito del progetto CS-Aware-Next per migliorare il filtraggio e la classificazione automatizzati della cybersicurezza utilizzando i dati dei social media. Lo studio esplora diverse configurazioni del sistema e ne valuta l'efficacia nel filtrare e classificare i contenuti rilevanti per la cybersicurezza. In particolare, vengono esaminati diversi modelli di apprendimento automatico, tra cui classificatori tradizionali (Regressione logistica, Naïve Bayes) e metodi ensemble (Random Forest, XGBoost), insieme a diverse tecniche di rappresentazione del testo. La ricerca contrappone embeddings statici (GloVe) a codificatori context-aware come SBERT e ATT&CK-BERT, specifico per la cybersicurezza. La valutazione sperimentale evidenzia che i modelli context-aware migliorano significativamente l'accuratezza della classificazione, in particolare se combinati con metodi ensemble, catturando efficacemente la semantica del testo relativo alla cybersicurezza. Nonostante sfide come lo sbilanciamento delle classi e la sovrapposizione della semantica delle etichette, i risultati dimostrano il potenziale delle soluzioni guidate dall'IA nel migliorare la classificazione automatizzata della sicurezza informatica. I risultati forniscono indicazioni preziose per lo sviluppo di strumenti di cybersicurezza basati sull'IA che supportino strategie di rilevamento delle minacce e di difesa proattiva più efficaci in un ambiente digitale sempre più interconnesso.

Multi-label classification in the CS-Aware-Next project: evaluating ML algorithms for cybersecurity filtering and classification

CELA, IRFAN
2024/2025

Abstract

In the current digital landscape, the rapid evolution of cyber threats necessitates efficient, real-time analysis of online content to support cybersecurity situational awareness and threat intelligence. The CS-Aware-Next project, funded by the European Union, aims to provide organizations with advanced tools for cybersecurity management by leveraging artificial intelligence techniques. To address this challenge, this research designs and evaluates a classification system that processes cybersecurity-related posts, integrating threat intelligence from social media into cybersecurity workflows. This thesis develops a multi-label classification system within the CS-Aware-Next project to enhance automated cybersecurity filtering and classification using social media data. The study explores different system configurations and assesses their effectiveness in filtering and categorizing cybersecurity-relevant content. Specifically, various machine learning models, including traditional classifiers (Logistic Regression, Naïve Bayes) and ensemble methods (Random Forest, XGBoost), are examined alongside different text representation techniques. The research contrasts static embeddings (GloVe) with context-aware encoders such as DistilRoBERTa, SBERT, and the cybersecurity-specific ATT&CK-BERT model. The experimental evaluation highlights that context-aware models significantly improve classification accuracy, particularly when combined with ensemble methods, by effectively capturing the semantics of cybersecurity-related text. Despite challenges such as class imbalance and overlapping label semantics, the results demonstrate the potential of AI-driven solutions in improving automated cybersecurity classification. The findings provide valuable insights for developing AI-powered cybersecurity tools that support more effective threat detection and proactive defense strategies in an increasingly interconnected digital environment.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
Nell'attuale panorama digitale, la rapida evoluzione delle minacce informatiche richiede un'analisi efficiente e in tempo reale dei contenuti online per supportare la consapevolezza della situazione in materia di sicurezza informatica e l'intelligence sulle minacce. Il progetto CS-Aware-Next, finanziato dall'UE, mira a fornire alle organizzazioni strumenti avanzati per la gestione della cybersicurezza sfruttando tecniche di IA. Per affrontare questa sfida, questa ricerca progetta e valuta un sistema di classificazione che elabora i post relativi alla cybersicurezza, integrando le informazioni sulle minacce dai social media nei flussi di lavoro della cybersicurezza. Questa tesi sviluppa un sistema di classificazione multi-label nell'ambito del progetto CS-Aware-Next per migliorare il filtraggio e la classificazione automatizzati della cybersicurezza utilizzando i dati dei social media. Lo studio esplora diverse configurazioni del sistema e ne valuta l'efficacia nel filtrare e classificare i contenuti rilevanti per la cybersicurezza. In particolare, vengono esaminati diversi modelli di apprendimento automatico, tra cui classificatori tradizionali (Regressione logistica, Naïve Bayes) e metodi ensemble (Random Forest, XGBoost), insieme a diverse tecniche di rappresentazione del testo. La ricerca contrappone embeddings statici (GloVe) a codificatori context-aware come SBERT e ATT&CK-BERT, specifico per la cybersicurezza. La valutazione sperimentale evidenzia che i modelli context-aware migliorano significativamente l'accuratezza della classificazione, in particolare se combinati con metodi ensemble, catturando efficacemente la semantica del testo relativo alla cybersicurezza. Nonostante sfide come lo sbilanciamento delle classi e la sovrapposizione della semantica delle etichette, i risultati dimostrano il potenziale delle soluzioni guidate dall'IA nel migliorare la classificazione automatizzata della sicurezza informatica. I risultati forniscono indicazioni preziose per lo sviluppo di strumenti di cybersicurezza basati sull'IA che supportino strategie di rilevamento delle minacce e di difesa proattiva più efficaci in un ambiente digitale sempre più interconnesso.
File allegati
File Dimensione Formato  
2025_04_Cela.pdf

accessibile in internet per tutti

Descrizione: testo tesi
Dimensione 3.21 MB
Formato Adobe PDF
3.21 MB Adobe PDF Visualizza/Apri
2025_04_Cela_Executive_summary.pdf

accessibile in internet per tutti

Descrizione: sommario
Dimensione 698.78 kB
Formato Adobe PDF
698.78 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236407