In recent years, there has been an increase in the development of techniques that create synthetic audio. Nowadays, their quality has improved, and the speech signals they produce are becoming extremely realistic and very difficult to distinguish from those of a real person. Moreover, these techniques are getting popular and accessible. Their misuse, which includes impersonation and the spread of misinformation, makes it essential to develop countermeasures that can distinguish a synthetic audio signal from an authentic one to prevent malicious attacks from escalating. These countermeasure models operate by extracting acoustic features from an unknown audio file with utterances and feeding them into a classifier that determines whether the signal is real or a deepfake. In this study, we analyzed the performance of WavLM, a self-supervised feature extractor based on the HuBERT framework, which utilizes a convolutional neural network and a Transformer encoder to extract relevant acoustic features. WavLM is optimal for speech applications because it can recognize long-term patterns in a signal. We applied WavLM in three different synthetic speech detection experiments, trained on various datasets and tested on a total of six datasets. The three training models were the following: a model trained on real and fake samples of a single dataset (ASVspoof2019), a model trained on a generalized real subset (with samples from five corpora) paired with fake samples from ASVspoof2019, and an anomaly detection model trained only on real samples belonging to five datasets. We tested the models on several classifiers, using a supervised classifier as our baseline and comparing its performance with that of unsupervised classifiers, including anomaly detectors and clustering algorithms. We also computed the performance of Wav2Vec 2.0, another self-supervised feature extractor that is a precursor to WavLM, to demonstrate that, in most cases, WavLM performs better when applied to speech samples.

Negli ultimi anni abbiamo assistito a un progresso nello sviluppo di tecniche per la generazione di audio sintetici. Oggi la loro qualità è migliorata e gli audio creati con queste tecniche risultano estremamente realistici e difficili da distinguere dai segnali audio contenenti una voce reale. Inoltre, queste tecniche stanno diventando sempre più popolari e accessibili. Il loro utilizzo improprio, ad esempio ai fini di impersonificazione o di diffusione di disinformazione, ha reso inevitabile lo sviluppo di contromisure, tecniche che sono in grado di distinguere un audio sintetico da un segnale autentico, con l'obiettivo di prevenire l'intensificazione di tali attacchi malevoli. Queste contromisure sono modelli che estraggono le feature acustiche più rilevanti da un file audio sconosciuto che contiene parlato e li analizzano con un classificatore che classifica il segnale come reale o deepfake. In questa tesi abbiamo analizzato le prestazioni di WavLM, un modello self-supervised di estrazione delle feature basato sullo schema HuBERT che estrae le feature acustiche più rilevanti con una rete neurale convoluzionale e un codificatore Transformer. WavLM è un modello ideale per applicazioni audio perché è in grado di riconoscere pattern prolungati in un segnale, poiché non lavora a livello di frame. Abbiamo applicato WavLM in tre esperimenti di rilevazione di audio sintetici, in cui il modello è stato allenato su diversi insiemi di dati ed è poi stato testato su un totale di sei dataset. I tre modelli di allenamento sono i seguenti: un modello allenato su campioni reali e sintetici provenienti da un unico dataset (ASVspoof2019), un modello allenato su un sottoinsieme generalizzato di dati reali (con campioni da cinque insiemi di dati) abbinato ai campioni fake di ASVspoof2019, e un modello di rilevazione di anomalie allenato solo su campioni reali di cinque dataset. Abbiamo testato questi tre modelli su diversi classificatori, utilizzando un classificatore supervised come riferimento e paragonando le sue prestazioni a un insieme di classificatori unsupervised che include rilevatori di anomalie e algoritmi di raggruppamento. Abbiamo inoltre studiato le prestazioni di Wav2Vec 2.0, un altro estrattore di feature self-supervised che è una sorta di precursore di WavLM, per dimostrare che, nella maggior parte dei casi, WavLM funziona meglio quando applicato a campioni contenenti parlato.

Self-supervised models for synthetic speech detection

Marazzi, Alice
2024/2025

Abstract

In recent years, there has been an increase in the development of techniques that create synthetic audio. Nowadays, their quality has improved, and the speech signals they produce are becoming extremely realistic and very difficult to distinguish from those of a real person. Moreover, these techniques are getting popular and accessible. Their misuse, which includes impersonation and the spread of misinformation, makes it essential to develop countermeasures that can distinguish a synthetic audio signal from an authentic one to prevent malicious attacks from escalating. These countermeasure models operate by extracting acoustic features from an unknown audio file with utterances and feeding them into a classifier that determines whether the signal is real or a deepfake. In this study, we analyzed the performance of WavLM, a self-supervised feature extractor based on the HuBERT framework, which utilizes a convolutional neural network and a Transformer encoder to extract relevant acoustic features. WavLM is optimal for speech applications because it can recognize long-term patterns in a signal. We applied WavLM in three different synthetic speech detection experiments, trained on various datasets and tested on a total of six datasets. The three training models were the following: a model trained on real and fake samples of a single dataset (ASVspoof2019), a model trained on a generalized real subset (with samples from five corpora) paired with fake samples from ASVspoof2019, and an anomaly detection model trained only on real samples belonging to five datasets. We tested the models on several classifiers, using a supervised classifier as our baseline and comparing its performance with that of unsupervised classifiers, including anomaly detectors and clustering algorithms. We also computed the performance of Wav2Vec 2.0, another self-supervised feature extractor that is a precursor to WavLM, to demonstrate that, in most cases, WavLM performs better when applied to speech samples.
LEONZIO, DANIELE UGO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2025
2024/2025
Negli ultimi anni abbiamo assistito a un progresso nello sviluppo di tecniche per la generazione di audio sintetici. Oggi la loro qualità è migliorata e gli audio creati con queste tecniche risultano estremamente realistici e difficili da distinguere dai segnali audio contenenti una voce reale. Inoltre, queste tecniche stanno diventando sempre più popolari e accessibili. Il loro utilizzo improprio, ad esempio ai fini di impersonificazione o di diffusione di disinformazione, ha reso inevitabile lo sviluppo di contromisure, tecniche che sono in grado di distinguere un audio sintetico da un segnale autentico, con l'obiettivo di prevenire l'intensificazione di tali attacchi malevoli. Queste contromisure sono modelli che estraggono le feature acustiche più rilevanti da un file audio sconosciuto che contiene parlato e li analizzano con un classificatore che classifica il segnale come reale o deepfake. In questa tesi abbiamo analizzato le prestazioni di WavLM, un modello self-supervised di estrazione delle feature basato sullo schema HuBERT che estrae le feature acustiche più rilevanti con una rete neurale convoluzionale e un codificatore Transformer. WavLM è un modello ideale per applicazioni audio perché è in grado di riconoscere pattern prolungati in un segnale, poiché non lavora a livello di frame. Abbiamo applicato WavLM in tre esperimenti di rilevazione di audio sintetici, in cui il modello è stato allenato su diversi insiemi di dati ed è poi stato testato su un totale di sei dataset. I tre modelli di allenamento sono i seguenti: un modello allenato su campioni reali e sintetici provenienti da un unico dataset (ASVspoof2019), un modello allenato su un sottoinsieme generalizzato di dati reali (con campioni da cinque insiemi di dati) abbinato ai campioni fake di ASVspoof2019, e un modello di rilevazione di anomalie allenato solo su campioni reali di cinque dataset. Abbiamo testato questi tre modelli su diversi classificatori, utilizzando un classificatore supervised come riferimento e paragonando le sue prestazioni a un insieme di classificatori unsupervised che include rilevatori di anomalie e algoritmi di raggruppamento. Abbiamo inoltre studiato le prestazioni di Wav2Vec 2.0, un altro estrattore di feature self-supervised che è una sorta di precursore di WavLM, per dimostrare che, nella maggior parte dei casi, WavLM funziona meglio quando applicato a campioni contenenti parlato.
File allegati
File Dimensione Formato  
2025_12_Marazzi_Executive_Summary.pdf

accessibile in internet per tutti a partire dal 19/11/2026

Descrizione: Executive Summary
Dimensione 2.94 MB
Formato Adobe PDF
2.94 MB Adobe PDF   Visualizza/Apri
2025_12_Marazzi_Tesi.pdf

accessibile in internet per tutti a partire dal 19/11/2026

Descrizione: Thesis Corpus
Dimensione 4.86 MB
Formato Adobe PDF
4.86 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247140