Recent advances in speech synthesis systems have significantly increased vulnerabilities in voice authentication mechanisms by enabling sophisticated voice spoofing attacks. While current spoofing detection systems frequently employ end-to-end deep learning architectures, these approaches often operate as black-box models with limited interpretability and inconsistent generalization across acoustic conditions. This thesis presents a systematic framework for synthetic speech detection through the analysis of interpretable acoustic markers. Our methodology diverges from conventional deep learning approaches by focusing on quantifiable spectro-temporal features that characterize the distinction between bonafide and spoofed speech signals. The research contributions advance the field through multiple complementary dimensions. Our work introduces the characterization of discriminative acoustic markers that serve as reliable spoofing indicators, coupled with the development of robust feature extraction algorithms specifically optimized for detecting both complete and partial manipulations. Through rigorous experimentation and the application of a semi-supervised cluster-thenlabel methodology, we demonstrate the robustness of these acoustic features across diverse acoustic conditions, speaker populations, and previously unseen synthesis architectures. The experimental results validate the effectiveness of this approach, where the clustering phase identifies natural groupings in the acoustic feature space, followed by selective labeling that optimizes detection boundaries. This hybrid strategy achieves superior detection performance while maintaining full interpretability of the acoustic decision boundaries. This research effectively addresses fundamental limitations in contemporary spoofing detection systems by establishing a framework that ensures both model interpretability and cross-domain generalization. The proposed acoustic feature methodology complements existing deep learning architectures, advancing the development of more reliable voice spoofing countermeasures.

I recenti progressi nei sistemi di sintesi vocale hanno incrementato significativamente le vulnerabilità nei meccanismi di autenticazione biometrica, rendendo possibili sofisticati attacchi di voice spoofing. Sebbene i sistemi di rilevamento attuali utilizzino frequentemente architetture di deep learning end-to-end, questi approcci spesso operano come modelli a scatola nera con limitata interpretabilità e generalizzazione incoerente in diverse condizioni acustiche. Questa tesi presenta un framework sistematico per il rilevamento del parlato sintetico attraverso l’analisi di marker vocalici interpretabili. La proposta metodologia si discosta dagli approcci convenzionali di deep learning concentrandosi su caratteristiche spettrotemporali quantificabili che caratterizzano la distinzione tra segnali vocali autentici e sintetici. Sono stati sviluppati ed implementati estrattori di caratteristiche vocaliche che identificano gli artefatti nel parlato, concentrandosi in particolare sulle discontinuità spettro-temporali che l’analisi spettrale convenzionale non riesce a catturare. La ricerca apporta significativi contributi scientifici attraverso diverse prospettive complementari. I parametri vocali implementati hanno mostrato la loro affidabilità per l’identificazione dello spoofing vocale e sono stati in grado di rilevare efficacemente manipolazioni complete e parziali. I risultati sperimentali confermano l’efficacia dell’approccio proposto, dove la fase di clustering identifica raggruppamenti naturali nello spazio delle caratteristiche estratte, seguita da un’etichettatura selettiva che ottimizza i confini decisionali. Questa strategia ibrida raggiunge prestazioni di rilevamento superiori, mantenendo la piena interpretabilità dei confini decisionali nel dominio acustico. Questa ricerca affronta efficacemente le limitazioni fondamentali dei sistemi di rilevamento dello spoofing contemporanei, stabilendo un framework che assicura sia l’interpretabilità del modello che la generalizzazione cross-domain.

Voice-spoofing detection via low-level acoustic features and anti-fraud ML methods

AMICO, STEFANO ANTONIO
2023/2024

Abstract

Recent advances in speech synthesis systems have significantly increased vulnerabilities in voice authentication mechanisms by enabling sophisticated voice spoofing attacks. While current spoofing detection systems frequently employ end-to-end deep learning architectures, these approaches often operate as black-box models with limited interpretability and inconsistent generalization across acoustic conditions. This thesis presents a systematic framework for synthetic speech detection through the analysis of interpretable acoustic markers. Our methodology diverges from conventional deep learning approaches by focusing on quantifiable spectro-temporal features that characterize the distinction between bonafide and spoofed speech signals. The research contributions advance the field through multiple complementary dimensions. Our work introduces the characterization of discriminative acoustic markers that serve as reliable spoofing indicators, coupled with the development of robust feature extraction algorithms specifically optimized for detecting both complete and partial manipulations. Through rigorous experimentation and the application of a semi-supervised cluster-thenlabel methodology, we demonstrate the robustness of these acoustic features across diverse acoustic conditions, speaker populations, and previously unseen synthesis architectures. The experimental results validate the effectiveness of this approach, where the clustering phase identifies natural groupings in the acoustic feature space, followed by selective labeling that optimizes detection boundaries. This hybrid strategy achieves superior detection performance while maintaining full interpretability of the acoustic decision boundaries. This research effectively addresses fundamental limitations in contemporary spoofing detection systems by establishing a framework that ensures both model interpretability and cross-domain generalization. The proposed acoustic feature methodology complements existing deep learning architectures, advancing the development of more reliable voice spoofing countermeasures.
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2024
2023/2024
I recenti progressi nei sistemi di sintesi vocale hanno incrementato significativamente le vulnerabilità nei meccanismi di autenticazione biometrica, rendendo possibili sofisticati attacchi di voice spoofing. Sebbene i sistemi di rilevamento attuali utilizzino frequentemente architetture di deep learning end-to-end, questi approcci spesso operano come modelli a scatola nera con limitata interpretabilità e generalizzazione incoerente in diverse condizioni acustiche. Questa tesi presenta un framework sistematico per il rilevamento del parlato sintetico attraverso l’analisi di marker vocalici interpretabili. La proposta metodologia si discosta dagli approcci convenzionali di deep learning concentrandosi su caratteristiche spettrotemporali quantificabili che caratterizzano la distinzione tra segnali vocali autentici e sintetici. Sono stati sviluppati ed implementati estrattori di caratteristiche vocaliche che identificano gli artefatti nel parlato, concentrandosi in particolare sulle discontinuità spettro-temporali che l’analisi spettrale convenzionale non riesce a catturare. La ricerca apporta significativi contributi scientifici attraverso diverse prospettive complementari. I parametri vocali implementati hanno mostrato la loro affidabilità per l’identificazione dello spoofing vocale e sono stati in grado di rilevare efficacemente manipolazioni complete e parziali. I risultati sperimentali confermano l’efficacia dell’approccio proposto, dove la fase di clustering identifica raggruppamenti naturali nello spazio delle caratteristiche estratte, seguita da un’etichettatura selettiva che ottimizza i confini decisionali. Questa strategia ibrida raggiunge prestazioni di rilevamento superiori, mantenendo la piena interpretabilità dei confini decisionali nel dominio acustico. Questa ricerca affronta efficacemente le limitazioni fondamentali dei sistemi di rilevamento dello spoofing contemporanei, stabilendo un framework che assicura sia l’interpretabilità del modello che la generalizzazione cross-domain.
File allegati
File Dimensione Formato  
2024_12_Amico_Tesi.pdf

non accessibile

Dimensione 11.12 MB
Formato Adobe PDF
11.12 MB Adobe PDF   Visualizza/Apri
2024_12_Amico_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.9 MB
Formato Adobe PDF
1.9 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230281