In recent years, the rise of AI-driven generative models has enabled the creation of highly realistic speech deepfakes—synthetic audio signals capable of mimicking a target speaker’s voice with remarkable accuracy—raising critical security concerns. While these developments pave the way to new possibilities in various applications, they also raise serious security concerns, particularly in the domains of authentication, audio forensics, and misinformation. Existing methods for detecting speech deepfakes primarily rely on supervised learning, which suffers from two critical limitations: generalization to unseen synthesis techniques and interpretability regarding model decision-making processes. The need to overcome these limitations has prompted recent research toward novel strategies for detecting speech deepfakes. These strategies include one-class-based approaches to address generalization issues and anomaly localization techniques to enhance the interpretability of detection systems, enabling more robust and explainable detection of speech deepfakes. To address these issues, this thesis introduces a novel interpretable one-class detection framework, reframing speech deepfake detection as an anomaly detection problem. Our proposed approach leverages a model trained exclusively on real speech, learning to characterize its intrinsic distribution to distinguish genuine speech from out-of-distribution synthetic samples. A key feature of our framework is its ability to produce interpretable anomaly maps during inference, highlighting anomalous regions across both time and frequency domains. This is achieved through a Student-Teacher Feature Pyramid Matching (STFPM) system, enhanced with Discrepancy Scaling (DS) to improve generalization capabilities across diverse and unseen data distributions. Extensive evaluations indicate that our method outperforms the considered baselines, showcasing its effectiveness in both detecting deepfakes and localizing artifacts within an investigated speech sample. Our work highlights the potential of anomaly detection-based strategies in strengthening the reliability and interpretability of speech deepfake detection systems.
Negli ultimi anni, l’ascesa di modelli generativi basati sull’intelligenza artificiale ha permesso la creazione di deepfake vocali altamente realistici—segnali audio sintetici in grado di imitare la voce di un determinato parlatore con una notevole precisione—sollevando preoccupazioni cruciali per la sicurezza. Sebbene questi sviluppi aprano la strada a nuove possibilità in vari ambiti applicativi, sollevano anche gravi preoccupazioni, in particolare nei settori dell'autenticazione, dell'audio forense e della disinformazione. I metodi esistenti per rilevare i deepfake vocali si basano principalmente sull'apprendimento supervisionato da parte di reti neurali, il quale presenta tuttavia due limitazioni fondamentali: la generalizzazione a tecniche di sintesi non viste e l'interpretabilità dei processi decisionali del modello. La prima limitazione impedisce ai metodi di rilevamento di adattarsi facilmente a scenari reali, dove emergono frequentemente nuove e diverse tecniche di generazione di deepfake. La seconda mina la fiducia in questi sistemi, specialmente nelle applicazioni forensi, dove la trasparenza e l'interpretabilità sono cruciali per la validazione e l’accettazione legale.La necessità di superare queste limitazioni ha spinto le ricerche recenti verso nuove strategie per il rilevamento dei deepfake vocali. Queste strategie includono approcci basati su un'unica classe di contenuti in fase di allenamento delle reti (one-class), per affrontare i problemi di generalizzazione, cosí come tecniche di localizzazione delle anomalie per migliorarne l'interpretabilità, permettendo una rilevazione più robusta e spiegabile dei deepfake vocali. Per affrontare questi problemi, questa tesi introduce un nuovo framework di detection one-class, riformulando il problema della deepfake detection come un problema di detection di anomalie. Il nostro approccio sfrutta un modello addestrato esclusivamente su parlato reale, imparando a caratterizzarne la distribuzione e distinguere poi efficacemente le voci autentiche da quelle sintetiche, che presentano -di contro- una distribuzione diversa. Un elemento distintivo del nostro framework è la sua capacità di produrre delle mappe delle anomalie rilevate, evidenziando aree di parlato che sono sospette sia nel dominio del tempo che in quello della frequenza. Ciò avviene grazie a un sistema di cosiddetto Student-Teacher Feature Pyramid Matching rafforzato Discrepancy Scaling per migliorare le capacità di generalizzazione su distribuzioni di dati diverse e non viste. Le valutazioni approfondite da noi intraprese indicano che il metodo proposto é in grado di superare i metodi dello stato del'arte presi in considerazione, rivelandosi efficace sia nel rilevare i deepfake, che nel localizzare gli artefatti di sintesi all'interno di una data traccia sintetica sotto analisi. Il nostro lavoro evidenzia il potenziale delle strategie di deepfake detection basate sulla detection di anomalie.
Anomaly detection and localization for speech deepfakes via feature pyramid matching
Coletta, Emma
2023/2024
Abstract
In recent years, the rise of AI-driven generative models has enabled the creation of highly realistic speech deepfakes—synthetic audio signals capable of mimicking a target speaker’s voice with remarkable accuracy—raising critical security concerns. While these developments pave the way to new possibilities in various applications, they also raise serious security concerns, particularly in the domains of authentication, audio forensics, and misinformation. Existing methods for detecting speech deepfakes primarily rely on supervised learning, which suffers from two critical limitations: generalization to unseen synthesis techniques and interpretability regarding model decision-making processes. The need to overcome these limitations has prompted recent research toward novel strategies for detecting speech deepfakes. These strategies include one-class-based approaches to address generalization issues and anomaly localization techniques to enhance the interpretability of detection systems, enabling more robust and explainable detection of speech deepfakes. To address these issues, this thesis introduces a novel interpretable one-class detection framework, reframing speech deepfake detection as an anomaly detection problem. Our proposed approach leverages a model trained exclusively on real speech, learning to characterize its intrinsic distribution to distinguish genuine speech from out-of-distribution synthetic samples. A key feature of our framework is its ability to produce interpretable anomaly maps during inference, highlighting anomalous regions across both time and frequency domains. This is achieved through a Student-Teacher Feature Pyramid Matching (STFPM) system, enhanced with Discrepancy Scaling (DS) to improve generalization capabilities across diverse and unseen data distributions. Extensive evaluations indicate that our method outperforms the considered baselines, showcasing its effectiveness in both detecting deepfakes and localizing artifacts within an investigated speech sample. Our work highlights the potential of anomaly detection-based strategies in strengthening the reliability and interpretability of speech deepfake detection systems.File | Dimensione | Formato | |
---|---|---|---|
2025_4_Coletta_Executive_Summary.pdf
accessibile in internet per tutti a partire dal 13/03/2026
Descrizione: Executive Summary
Dimensione
1.29 MB
Formato
Adobe PDF
|
1.29 MB | Adobe PDF | Visualizza/Apri |
2025_4_Coletta_Thesis.pdf
accessibile in internet per tutti a partire dal 13/03/2026
Descrizione: Thesis
Dimensione
4.62 MB
Formato
Adobe PDF
|
4.62 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/236330