Explainable deepfake detection: an investigation into model behavior and generalization

The rapid evolution of generative artificial intelligence has democratized the production of highly realistic synthetic speech, often referred to as deepfake audio, posing significant challenges to biometric security systems. Although current deepfake detection systems achieve high scores on standard benchmarks, they operate as opaque “black boxes”, leaving their internal decision-making processes largely unexplored. This thesis presents an exploratory study on the spectral dependencies of Convolutional Neural Networks (LCNN and ResNet) applied to the speech deepfake detection domain. We introduce a diagnostic framework based on an adaptation of Relative Contribution Quantification (RCQ) to generate global attention profiles in the frequency domain. Our analysis confirms a characteristic “U-shaped” attention profile, in which models favor low- and high-frequency components of the speech signal, placing less emphasis on the mid-frequency range. To investigate the plasticity of these attention profiles, we introduce Stratified Spectral Mixing (SSM), a data augmentation strategy designed in this context as an investigative tool to disrupt vertical spectral coherence. Experimental results show that this intervention encourages models to reconfigure their spectral focus, leading to a more distributed allocation of attention across frequency bands. This shift is accompanied by improved generalization to previously unseen attack algorithms and greater robustness under limited-bandwidth conditions, such as GSM telephony. Overall, these findings demonstrate that actively modifying a model’s spectral focus provides a practical means of examining how its detection behavior evolves.

La rapida evoluzione dell’Intelligenza Artificial generativa ha democratizzato la produzione di parlato sintetico realistico, introducendo sfide importanti alla sicurezza biometrica. Nonostante gli attuali rilevatori di deepfake ottengano risultati elevati sui benchmark standard, operano come "black boxes" opache, lasciando i loro processi decisionali interni largamente inesplorati. Questa tesi presenta uno studio esplorativo sulle dipendenze spettrali delle Reti Neurali Convoluzionali (LCNN e ResNet) applicati all’audio forense. Introduciamo un framework diagnostico basato su un adattamento della Relative Contribution Quantification (RCQ) per generare dei profili di attenzione globale nel dominio della frequenza. La nostra analisi conferma un caratteristico profilo di attenzione a "U", in cui i modelli privilegiano i componenti a bassa e ad alta frequenza, ponendo minore enfasi sulla gamma delle frequenze medie. Per indagare la plasticità di questi profili di attenzione, impieghiamo lo Stratified Spectral Mixing (SSM), una strategia di data augmentation utilizzata in questo contesto come strumento investigativo per rompere la coerenza spettrale verticale. I risultati sperimentali dimostrano che questo intervento spinge i modelli a riconfigurare il loro focus spettrale, promuovendo un’attenzione piú distribuita tra le diverse bande di frequenza. Questo cambiamento si accompagna ad una migliore generalizzazione su algortmi di attacco non visti e ad una maggiore robustezza in scenari a banda limitata (telefonia GSM). In definitiva, questo lavoro evidenzia come, modificando attivamente il focus spettrale dei modelli, sia possibile studiare come cambia il comportamento di rilevamento.