The presence of professionals, hobbyists, and official cybersecurity intelligence accounts makes social media a valuable source for computer security awareness. By capturing and analyzing the posts on emerging cyber threats regularly shared by these accounts, individuals can obtain a comprehensive understanding of potential dangers and effectively implement mitigation strategies. To accomplish this task, we implemented a sequential approach utilizing two text classifiers trained on manually labelled data. By implementing active learning, we optimized the labelling process, reducing manual effort while enhancing the accuracy of the classification model. Both classifiers employ a 5-layer FFNN. The initial classifier utilizes LASER in the input layer, a language-agnostic sentence-level embedding technique, combined with user context capturing through User2Vec. This classifier scans the stream of tweets and predicts their cybersecurity informativeness, keeping only highly probable ones that belong to the positive class. Subsequently, the second classifier processes these tweets and assigns a specific vulnerability or threat type label to each of them. To enhance the models’ results, hyperparameters were fine-tuned, and techniques to prevent overfitting were utilized, such as batch normalization, L2 regularization, early stopping and dropout. With an achieved accuracy of 87%, the proposed approach offers effective classification and categorization of tweets, empowering cybersecurity professionals to stay informed and take appropriate measures. The combination of active learning, deep learning classifiers, and model optimization contributes to the efficiency and accuracy of the overall system.

La presenza di professionist, appassionati e account ufficiali di intelligence nel campo della sicurezza informatica rende i social media una fonte preziosa per la cybersecurity awareness. Raccogliendo e analizzando i post sulle minacce informatiche emergenti, condivisi regolarmente da questi account, è possibile ottenere una comprensione completa dei potenziali rischi e implementare efficacemente strategie di mitigazione. A questo scopo, abbiamo implementato un approccio sequenziale utilizzando due classificatori testuali, addestrati su dati etichettati manualmente. l’apprendimento attivo, abbiamo ottimizzato il processo di etichettatura, riducendo lo sforzo manuale e migliorando l’accuratezza del modello di classificazione. Entrambi i classificatori utilizzano una FFNN a 5 strati. Il primo classificatore utilizza come input LASER, una tecnica di embedding a livello di frase indipendente dalla lingua, combinata con informazioni sul contesto dell’utente tramite User2Vec. Questo classificatore scansiona il flusso di tweet e predice la loro informatività in materia di cybersicurezza, conservando solo quelli che appartengono alla classe positiva con alta probabilità. Successivamente, il secondo classificatore elabora questi tweet e assegna una specifica etichetta di vulnerabilità o di minaccia a ciascuno di essi. Per migliorare le performance dei modelli, sono stati ottimizzati gli iperparametri e sono state utilizzate tecniche per prevenire l’overfitting, come la normalizzazione dei batch, la regolarizzazione L2, l’arresto anticipato e il dropout. Con un’accuratezza dell’87%, il nostro approccio permette un’efficace classificazione e categorizzazione dei tweet, consentendo ai professionisti della cybersicurezza di rimanere informati e di adottare azioni appropriate. La combinazione di apprendimento attivo, classificatori automatici basati su deep learning e ottimizzazione del modello contribuisce all’efficienza e all’accuratezza del sistema complessivo.

Improving cybersecurity awareness: tweet classification using multilingual sentence embeddings and contextual features

COTOV, ANASTASIA
2022/2023

Abstract

The presence of professionals, hobbyists, and official cybersecurity intelligence accounts makes social media a valuable source for computer security awareness. By capturing and analyzing the posts on emerging cyber threats regularly shared by these accounts, individuals can obtain a comprehensive understanding of potential dangers and effectively implement mitigation strategies. To accomplish this task, we implemented a sequential approach utilizing two text classifiers trained on manually labelled data. By implementing active learning, we optimized the labelling process, reducing manual effort while enhancing the accuracy of the classification model. Both classifiers employ a 5-layer FFNN. The initial classifier utilizes LASER in the input layer, a language-agnostic sentence-level embedding technique, combined with user context capturing through User2Vec. This classifier scans the stream of tweets and predicts their cybersecurity informativeness, keeping only highly probable ones that belong to the positive class. Subsequently, the second classifier processes these tweets and assigns a specific vulnerability or threat type label to each of them. To enhance the models’ results, hyperparameters were fine-tuned, and techniques to prevent overfitting were utilized, such as batch normalization, L2 regularization, early stopping and dropout. With an achieved accuracy of 87%, the proposed approach offers effective classification and categorization of tweets, empowering cybersecurity professionals to stay informed and take appropriate measures. The combination of active learning, deep learning classifiers, and model optimization contributes to the efficiency and accuracy of the overall system.
BONO, CARLO ALBERTO
CAPPIELLO, CINZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
La presenza di professionist, appassionati e account ufficiali di intelligence nel campo della sicurezza informatica rende i social media una fonte preziosa per la cybersecurity awareness. Raccogliendo e analizzando i post sulle minacce informatiche emergenti, condivisi regolarmente da questi account, è possibile ottenere una comprensione completa dei potenziali rischi e implementare efficacemente strategie di mitigazione. A questo scopo, abbiamo implementato un approccio sequenziale utilizzando due classificatori testuali, addestrati su dati etichettati manualmente. l’apprendimento attivo, abbiamo ottimizzato il processo di etichettatura, riducendo lo sforzo manuale e migliorando l’accuratezza del modello di classificazione. Entrambi i classificatori utilizzano una FFNN a 5 strati. Il primo classificatore utilizza come input LASER, una tecnica di embedding a livello di frase indipendente dalla lingua, combinata con informazioni sul contesto dell’utente tramite User2Vec. Questo classificatore scansiona il flusso di tweet e predice la loro informatività in materia di cybersicurezza, conservando solo quelli che appartengono alla classe positiva con alta probabilità. Successivamente, il secondo classificatore elabora questi tweet e assegna una specifica etichetta di vulnerabilità o di minaccia a ciascuno di essi. Per migliorare le performance dei modelli, sono stati ottimizzati gli iperparametri e sono state utilizzate tecniche per prevenire l’overfitting, come la normalizzazione dei batch, la regolarizzazione L2, l’arresto anticipato e il dropout. Con un’accuratezza dell’87%, il nostro approccio permette un’efficace classificazione e categorizzazione dei tweet, consentendo ai professionisti della cybersicurezza di rimanere informati e di adottare azioni appropriate. La combinazione di apprendimento attivo, classificatori automatici basati su deep learning e ottimizzazione del modello contribuisce all’efficienza e all’accuratezza del sistema complessivo.
File allegati
File Dimensione Formato  
2023_07_Cotov_Executive Summary_02.pdf

accessibile in internet per tutti

Dimensione 696.59 kB
Formato Adobe PDF
696.59 kB Adobe PDF Visualizza/Apri
2023_07_Cotov_Thesis_01.pdf

accessibile in internet per tutti

Dimensione 4.83 MB
Formato Adobe PDF
4.83 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208332