Cyberattacks are growing in sophistication and impact, compelling organizations to continuously evolve their defensive strategies. As the actions of threat actors often exhibit recurring patterns, defenders have turned to Artificial Intelligence (AI)-based methodologies to automatically analyze data collected from targeted software systems, both to detect anomalous behavior in real time and to learn from previously recorded intrusions to inform future strategic decisions. This thesis explores the challenges of two popular paradigms in AI-driven cyber defense: real-time detection systems, focusing on their application in the banking fraud domain, and proactive approaches based on Cyber Threat Intelligence (CTI). Accordingly, this thesis is structured in two parts. In part one, we investigate the robustness of Machine Learning-based banking fraud detection systems against attackers attempting to subvert the intended behavior of the learning algorithm to evade detection. First, we show how attackers may manipulate banking transactions to evade or poison fraud detectors and propose a corresponding mitigation tailored to realistic financial fraud scenarios. We evaluate its effectiveness under different levels of attacker knowledge of the target system. Our results show that the economic damage of the attack can be extensively reduced with a small increase of false positives. Then, we introduce an Online Learning-based detection framework leveraging the Multiplicative Weights Update algorithm to dynamically adapt to adversarial behavior. We demonstrate its capacity to minimize economic loss and maintain robustness against evolving fraudulent strategies. We conduct our experimental evaluation on real-world banking data provided by an Italian financial institution. In part two, we examine the challenges of CTI-based proactive defense strategies, focusing on the quality of unstructured intelligence sources and the applications of Natural Language Processing (NLP) required to extract actionable insights from them. First, we present a large-scale longitudinal analysis correlating discussions in underground forums (over 88 million posts) with CTI reports spanning two decades. Our findings reveal that hacker forums have historically contributed to malware later used in real-world attacks, and that systematic CTI monitoring has only caught up within the past decade. Finally, we provide a comprehensive systematization and empirical comparison of NLP-based Tactics, Techniques, and Procedures (TTP) extraction methods, uncovering limitations in current research and frameworks, and highlighting the need for future work on ontology refinement and large-scale dataset development. Despite their constant evolution, both paradigms should be employed in a complementary manner to cover their respective limitations. Future real-time detection systems could progress toward the identification of adversaries and automatic deployment of optimal defense strategies, possibly informed by CTI analysis. To advance and increase cooperation between the two paradigms, CTI research should not only cover the data sources that anticipated cyberattacks, but also refine existing frameworks, which still exhibit ambiguities that hinder automatic interpretation of intelligence.
I cyberattack continuano a crescere in sofisticazione e impatto, spingendo enti ed istituzioni ad evolvere costantemente le proprie strategie difensive. Poiché le operazioni informatiche compiute dagli attaccanti presentano spesso schemi ricorrenti, i difensori hanno cominciato ad adottare metodologie basate sull'Intelligenza Artificiale (IA) per analizzare automaticamente i dati raccolti dai sistemi software presi di mira, sia per rilevare tali comportamenti anomali in tempo reale, sia per apprendere dalle intrusioni registrate in precedenza al fine di orientare le future decisioni strategiche di difesa. Questa dissertazione esplora le attuali sfide riguardanti tali paradigmi di difesa informatica guidata dall'IA: i sistemi per la rilevazione in tempo reale, nell'ambito delle frodi bancarie, e gli approcci di difesa proattivi basati sull'analisi di Cyber Threat Intelligence (CTI). La presente dissertazione è, pertanto, strutturata in due parti. Nella prima parte, studiamo le sfide riguardanti la robustezza dei sistemi di rilevamento delle frodi bancarie (FDS) basati sul Machine Learning contro gli avversari che tentano di sovvertire il comportamento previsto dell'algoritmo di IA e oltrepassare il sistema di rilevazione. Inizialmente, mostriamo come gli aggressori possono manipolare le transazioni per eludere ed "avvelenare" (poisoning) i FDS e proponiamo una corrispondente mitigazione adattata allo scenario bancario. Ne valutiamo l'efficacia contro livelli incrementali di conoscenza del sistema da parte dell'aggressore. I nostri risultati mostrano che l'efficacia dell'attacco può essere ampiamente ridotta a costo di un ridotto incremento dei falsi allarmi rilevati dal sistema. Successivamente, introduciamo un FDS basato sull'algoritmo Multiplicative Weights Update per l'adattamento automatico al comportamento dinamico proprio degli avversari informatici. Il nostro sistema è in grado di incrementare la robustezza del sistema contro strategie dinamiche di frode, riducendo al minimo le perdite economiche dell'istituzione finanziaria. La nostra valutazione sperimentale è condotta su dati reali forniti da un istituto bancario italiano. Nella seconda parte, esaminiamo le sfide relative ai sistemi di difesa proattiva basati sull'analisi di CTI. In particolare, analizziamo la qualità delle fonti di intelligence e le applicazioni di Natural Language Processing (NLP) necessarie per estrarre automaticamente da esse informazioni utili alla difesa. In primo luogo, presentiamo un'analisi su larga scala che correla le discussioni pubbliche degli "hacker forum" (oltre 88 milioni di post) con i report CTI che coprono un arco temporale di due decenni. I nostri risultati rivelano che gli hacker forum hanno storicamente contribuito allo sviluppo di malware successivamente utilizzato in attacchi reali, e che il monitoraggio sistematico di CTI ha colmato questo divario solo nell'ultimo decennio. Infine, forniamo una sistematizzazione e un confronto empirico completo dei metodi di estrazione di "Tactics, Techniques and Procedures" (TTP) basati sull'NLP. I nostri risultati evidenziano i limiti delle metodologie di ricerca e dei framework attuali e sottolineano la necessità di lavori futuri sul perfezionamento delle ontologie e sullo sviluppo di dataset più comprensivi. Nonostante la loro evoluzione, entrambi i paradigmi di difesa dovrebbero essere impiegati in modo complementare, al fine di coprire le loro rispettive limitazioni. I futuri sistemi di rilevamento in tempo reale potrebbero progredire verso l'identificazione degli avversari e l'implementazione automatica di strategie di difesa ottimali, possibilmente supportate dall'analisi della CTI. Inoltre, al fine di incrementare la cooperazione tra i due paradigmi, la ricerca di CTI dovrebbe non solo considerare le fonti di dati che hanno anticipato i cyberattack, ma anche perfezionare i framework esistenti, i quali presentano ancora ambiguità che ostacolano l'interpretazione automatica dell'informazione.
Artificial Intelligence-based cyberattack mitigation techniques intelligence-based cyberattack mitigation techniques
PALADINI, TOMMASO
2025/2026
Abstract
Cyberattacks are growing in sophistication and impact, compelling organizations to continuously evolve their defensive strategies. As the actions of threat actors often exhibit recurring patterns, defenders have turned to Artificial Intelligence (AI)-based methodologies to automatically analyze data collected from targeted software systems, both to detect anomalous behavior in real time and to learn from previously recorded intrusions to inform future strategic decisions. This thesis explores the challenges of two popular paradigms in AI-driven cyber defense: real-time detection systems, focusing on their application in the banking fraud domain, and proactive approaches based on Cyber Threat Intelligence (CTI). Accordingly, this thesis is structured in two parts. In part one, we investigate the robustness of Machine Learning-based banking fraud detection systems against attackers attempting to subvert the intended behavior of the learning algorithm to evade detection. First, we show how attackers may manipulate banking transactions to evade or poison fraud detectors and propose a corresponding mitigation tailored to realistic financial fraud scenarios. We evaluate its effectiveness under different levels of attacker knowledge of the target system. Our results show that the economic damage of the attack can be extensively reduced with a small increase of false positives. Then, we introduce an Online Learning-based detection framework leveraging the Multiplicative Weights Update algorithm to dynamically adapt to adversarial behavior. We demonstrate its capacity to minimize economic loss and maintain robustness against evolving fraudulent strategies. We conduct our experimental evaluation on real-world banking data provided by an Italian financial institution. In part two, we examine the challenges of CTI-based proactive defense strategies, focusing on the quality of unstructured intelligence sources and the applications of Natural Language Processing (NLP) required to extract actionable insights from them. First, we present a large-scale longitudinal analysis correlating discussions in underground forums (over 88 million posts) with CTI reports spanning two decades. Our findings reveal that hacker forums have historically contributed to malware later used in real-world attacks, and that systematic CTI monitoring has only caught up within the past decade. Finally, we provide a comprehensive systematization and empirical comparison of NLP-based Tactics, Techniques, and Procedures (TTP) extraction methods, uncovering limitations in current research and frameworks, and highlighting the need for future work on ontology refinement and large-scale dataset development. Despite their constant evolution, both paradigms should be employed in a complementary manner to cover their respective limitations. Future real-time detection systems could progress toward the identification of adversaries and automatic deployment of optimal defense strategies, possibly informed by CTI analysis. To advance and increase cooperation between the two paradigms, CTI research should not only cover the data sources that anticipated cyberattacks, but also refine existing frameworks, which still exhibit ambiguities that hinder automatic interpretation of intelligence.| File | Dimensione | Formato | |
|---|---|---|---|
|
tesi_dottorato_finale.pdf
accessibile in internet per tutti
Dimensione
11.46 MB
Formato
Adobe PDF
|
11.46 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/254197