Artificial scams: on the risks of fully agentic spear phishing

Phishing is increasingly shifting from generic mass campaigns to highly targeted spear phishing attacks, thanks to \glspl{llm} enabling the automated generation of coherent, persuasive, and context-aware text at scale. This thesis investigates whether \gls{llm}-based systems can be integrated into a fully automated pipeline for generating personalized phishing emails and whether such automation significantly increases attack effectiveness. The system is based on a modular multi-agent architecture which autonomously performs identity inference from the email address, public data extraction, topic selection, and email generation using only publicly available information. Each component of the pipeline is experimentally validated, highlighting both the potential and the limitations of automated identity disambiguation and contextual inference. The overall effectiveness of the system is evaluated through a controlled human-subject experiment comparing personalized \gls{llm}-generated phishing emails with a traditional generic phishing message. The results show a substantially higher \gls{ctr} for personalized emails, even within a technically aware population. A subgroup analysis further indicates that correct recipient name usage is essential to maintain message credibility, while topic relevance plays a decisive role in increasing user engagement. Despite limitations related to participant demographics, data availability, and ethical constraints, the findings demonstrate that \gls{llm}-driven automation can significantly enhance the scalability and persuasive power of spear phishing attacks, reinforcing the need for more advanced detection mechanisms and adaptive defensive strategies to counter increasingly personalized and automated phishing threats.

Il phishing si sta progressivamente evolvendo da generiche campagne di massa a attacchi di spear phishing altamente precisi, grazie ai \gls{llm} che consentono la generazione automatica di testi coerenti, persuasivi e contestualizzati su larga scala. Questa tesi valuta se i sistemi basati su \gls{llm} possono essere integrati in una pipeline completamente automatizzate per la generazione di messaggi di phishing personalizzati e se tale automazione aumenti significativamente l'efficacia degli attacchi. Il sistema proposto si basa su un'architettura modulare multi-agente che esegue autonomamente l'estrazione dell'identità dall'indirizzo mail, l'estrazione di dati pubblici, la selezione del tema e la generazione dell'email utilizzando esclusivamente i dati disponibili pubblicamente. Tutti i componenti della pipeline sono stati validati sperimentalmente, sottolineando sia il potenziale che i limiti dell'automatizzazione nei processi di disambiguazione dell'identità e di estrazione del contesto. L'efficacia complessiva del sistema è stata valutata tramite un esperimento controllato con soggetti umani, comparando email di phishing personalizzate generate tramite \gls{llm} con un messaggio di phishing tradizionale. I risultato mostrano un \gls{ctr} significativamente più elevato per le mail personalizzate, anche all'interno di una popolazione con competenze tecniche. L'analisi per sottogruppi indica inoltre che il corretto utilizzo del nome del destinatario è essenziale per mantenere la credibilità del messaggio, mentre la rilevanza del tema riveste un ruolo determinante nell'aumentare il coinvolgimento dell'utente. Nonostante le limitazioni legate alle caratteristiche del campione sperimentale, alla disponibilità dei dati e ai vincoli etici, i risultati dimostrano che l'automazione basata su \gls{llm} può incrementare significativamente la scalabilità e il potere persuasivo degli attacchi di spear phishing, rafforzando la necessità di meccanismi di rilevamento più avanzati e di strategie difensive adattive per contrastare minacce di phishing sempre più personalizzate e automatizzate.