This study delves into the unexplored potential of hacker forums as valuable sources for proactive Cyber Threat Intelligence (CTI). Given the current prevalence of reactive CTI approaches focused on analyzing threat intelligence post-attack, this study aims to shift towards proactive strategies by exploring the correlation between traditional sources and hacker forums. We analyzed 2 million CTI-relevant posts from 34 different hacker forums and 75,000 articles from 16 online sources, spanning from early 2002 to the first months of 2023, demonstrating that forum discussions often foreshadow attacks detailed in security reports. Using a custom Natural Language Processing (NLP) pipeline with fine-tuned BERT models and DarkBERT achieving weighted average F1 scores over 80%, we extract named entities from forum posts and reports and cross-reference their date of occurrence over different time periods. Our findings show that CTI-relevant topics are prevalently discussed earlier in hacker forums, proving the value of monitoring these sources for early threat detection and mitigation, and suggesting a shift of cybersecurity strategies from reactive to proactive, based on timely and targeted Cyber Threat Intelligence.

Questo studio approfondisce il potenziale inesplorato dei forum di hacker come fonti valide per la Cyber Threat Intelligence (CTI) proattiva. Data l’attuale prevalenza di approcci reattivi nella CTI focalizzati sull’analisi delle informazioni sulle minacce dopo un attacco, questo studio mira ad orientarsi verso strategie proattive esplorando la correlazione tra le fonti tradizionali e i forum di hacker. Abbiamo analizzato 2 milioni di post CTI-rilevanti provenienti da 34 diversi forum di hacker e 75.000 articoli da 16 fonti online, coprendo il periodo tra l’inizio del 2002 e i primi mesi del 2023, dimostrando che le discussioni nei forum spesso preannunciano attacchi poi dettagliati nei rapporti di sicurezza. Utilizzando una pipeline personalizzata di elaborazione del linguaggio naturale (NLP) con modelli BERT addestrati specificamente e DarkBERT che raggiunge valori di weighted average F1 superiori all’80%, estraiamo entità (named entities) dai post nei forum e dai rapporti, incrociandone la data di occorrenza in diversi periodi temporali. I nostri risultati mostrano che argomenti rilevanti per la CTI sono frequentemente discussi in anticipo nei forum di hacker, dimostrando il valore del monitoraggio di queste fonti per la rilevazione e mitigazione preventiva delle minacce, e suggerendo uno spostamento delle strategie di cybersecurity da reattive a proattive, basate su una Cyber Threat Intelligence tempestiva e mirata.

Unveiling the potential of hacker forums in cyber threat intelligence: a longitudinal analysis of emerging threats in discussions

Ferro, Lara
2022/2023

Abstract

This study delves into the unexplored potential of hacker forums as valuable sources for proactive Cyber Threat Intelligence (CTI). Given the current prevalence of reactive CTI approaches focused on analyzing threat intelligence post-attack, this study aims to shift towards proactive strategies by exploring the correlation between traditional sources and hacker forums. We analyzed 2 million CTI-relevant posts from 34 different hacker forums and 75,000 articles from 16 online sources, spanning from early 2002 to the first months of 2023, demonstrating that forum discussions often foreshadow attacks detailed in security reports. Using a custom Natural Language Processing (NLP) pipeline with fine-tuned BERT models and DarkBERT achieving weighted average F1 scores over 80%, we extract named entities from forum posts and reports and cross-reference their date of occurrence over different time periods. Our findings show that CTI-relevant topics are prevalently discussed earlier in hacker forums, proving the value of monitoring these sources for early threat detection and mitigation, and suggesting a shift of cybersecurity strategies from reactive to proactive, based on timely and targeted Cyber Threat Intelligence.
PALADINI, TOMMASO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Questo studio approfondisce il potenziale inesplorato dei forum di hacker come fonti valide per la Cyber Threat Intelligence (CTI) proattiva. Data l’attuale prevalenza di approcci reattivi nella CTI focalizzati sull’analisi delle informazioni sulle minacce dopo un attacco, questo studio mira ad orientarsi verso strategie proattive esplorando la correlazione tra le fonti tradizionali e i forum di hacker. Abbiamo analizzato 2 milioni di post CTI-rilevanti provenienti da 34 diversi forum di hacker e 75.000 articoli da 16 fonti online, coprendo il periodo tra l’inizio del 2002 e i primi mesi del 2023, dimostrando che le discussioni nei forum spesso preannunciano attacchi poi dettagliati nei rapporti di sicurezza. Utilizzando una pipeline personalizzata di elaborazione del linguaggio naturale (NLP) con modelli BERT addestrati specificamente e DarkBERT che raggiunge valori di weighted average F1 superiori all’80%, estraiamo entità (named entities) dai post nei forum e dai rapporti, incrociandone la data di occorrenza in diversi periodi temporali. I nostri risultati mostrano che argomenti rilevanti per la CTI sono frequentemente discussi in anticipo nei forum di hacker, dimostrando il valore del monitoraggio di queste fonti per la rilevazione e mitigazione preventiva delle minacce, e suggerendo uno spostamento delle strategie di cybersecurity da reattive a proattive, basate su una Cyber Threat Intelligence tempestiva e mirata.
File allegati
File Dimensione Formato  
2024_04_Ferro_Executive_Summary_02.pdf

Open Access dal 07/03/2025

Descrizione: Testo executive summary
Dimensione 695.32 kB
Formato Adobe PDF
695.32 kB Adobe PDF Visualizza/Apri
2024_04_Ferro_Thesis_01.pdf

Open Access dal 07/03/2025

Descrizione: Testo tesi
Dimensione 1.99 MB
Formato Adobe PDF
1.99 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/217605