In modern days, new technological advances in speech generation have opened up the possibilities of creating synthetic speech with low effort and using consumer-level devices. This phenomenon has opened the doors to new scenarios and exciting possibilities, such as the development of new vocal assistants, devices for people with pathological conditions, didactics, etc. However, when these technologies are used by malicious users, they can lead to illegal consequences and dangerous scenarios for the population. For instance, it is possible to clone one person’s voice using just a few seconds of reference audio and make them say arbitrary utterances. This can lead to credibility issues, privacy concerns, threatening audio, identity theft, and other issues. To address the malicious use of synthetic speech and counterfeit audio data, the forensic community guides the research toward new methods for spoofing and detecting those newly generated fakes. In this work, we focus on the problem of synthetic speech detection, which consists of taking an audio signal as input and determining whether this is authentic or not. Modern detection architectures present encouraging results, but are far from being perfect due to the fast progress in deepfake generation techniques. In this thesis, we propose a pipeline to improve the detection performance of a synthetic speech detector by making use of support tracks. Given a speech audio signal, we generate a set of support tracks that contain the same textual and voice content as the track under analysis and use them to improve the detection accuracy of the system. The method is based on the computation of the distances between the reference and these support tracks, leading to more stable and reliable predictions. The support tracks are implemented using multiple existing Text-to-Speech and Voice Conversion methods. Results provided by the complete pipeline proposed in this work show an exciting new possibility for improving deepfake detection through a modular method, unbounded from specific models.

Al giorno d’oggi, i nuovi progressi tecnologici nella generazione del parlato hanno portato alla possibilità di creare un parlato sintetico con relativa facilità utilizzando dispositivi di livello consumer. Questo fenomeno ha aperto le porte a nuovi scenari e possibilità interessanti, come lo sviluppo di nuovi assistenti vocali, dispositivi per persone con condizioni patologiche, didattica, ecc. Tuttavia, quando queste tecnologie vengono utilizzate da utenti malintenzionati, possono portare a conseguenze illegali ed a scenari pericolosi per la popolazione. Ad esempio, è possibile clonare la voce di una persona utilizzando solo pochi secondi di audio di riferimento e farle pronunciare frasi arbitrarie. Questi nuovi falsi generati vengono chiamati deepfake. Questo può portare a problemi di credibilità, problemi di privacy, audio minacciosi, furto di identità e altri pericoli. Per affrontare l’uso malevolo del parlato sintetico e dei dati audio contraffatti, la comunità forense orienta la ricerca verso nuovi metodi per lo spoofing e il rilevamento di questi nuovi falsi generati. In questo lavoro ci concentriamo sul problema del rilevamento del parlato sintetico, che consiste nel prendere in input un segnale audio e determinarne l’autenticità. Le moderne architetture di rilevamento presentano risultati incoraggianti, ma sono ben lontane dall’essere perfette a causa dei rapidi progressi delle tecniche di generazione di deepfake. In questa tesi, proponiamo un sistema per migliorare le prestazioni di un rilevatore di parlato sintetico facendo uso di tracce di supporto. Dato un segnale audio vocale, generiamo un insieme di tracce di supporto che contengono lo stesso contenuto testuale e vocale della traccia in analisi e le utilizziamo per migliorare l’accuratezza del rilevamento del sistema. Il metodo si basa sul calcolo delle distanze tra la traccia di riferimento e queste tracce di supporto, che portano a previsioni più stabili e affidabili. Le tracce di supporto sono implementate utilizzando diversi metodi di conversione vocale e Text-to-Speech esistenti. I risultati forniti dalla pipeline completa proposta in questo lavoro mostrano una nuova ed entusiasmante possibilità di migliorare il rilevamento dei deepfake attraverso un metodo modulare, svincolato da modelli specifici.

DeepMetric: enhancing synthetic speech detection through support tracks generation

ORSATTI, ALESSANDRO
2022/2023

Abstract

In modern days, new technological advances in speech generation have opened up the possibilities of creating synthetic speech with low effort and using consumer-level devices. This phenomenon has opened the doors to new scenarios and exciting possibilities, such as the development of new vocal assistants, devices for people with pathological conditions, didactics, etc. However, when these technologies are used by malicious users, they can lead to illegal consequences and dangerous scenarios for the population. For instance, it is possible to clone one person’s voice using just a few seconds of reference audio and make them say arbitrary utterances. This can lead to credibility issues, privacy concerns, threatening audio, identity theft, and other issues. To address the malicious use of synthetic speech and counterfeit audio data, the forensic community guides the research toward new methods for spoofing and detecting those newly generated fakes. In this work, we focus on the problem of synthetic speech detection, which consists of taking an audio signal as input and determining whether this is authentic or not. Modern detection architectures present encouraging results, but are far from being perfect due to the fast progress in deepfake generation techniques. In this thesis, we propose a pipeline to improve the detection performance of a synthetic speech detector by making use of support tracks. Given a speech audio signal, we generate a set of support tracks that contain the same textual and voice content as the track under analysis and use them to improve the detection accuracy of the system. The method is based on the computation of the distances between the reference and these support tracks, leading to more stable and reliable predictions. The support tracks are implemented using multiple existing Text-to-Speech and Voice Conversion methods. Results provided by the complete pipeline proposed in this work show an exciting new possibility for improving deepfake detection through a modular method, unbounded from specific models.
LEONZIO, DANIELE UGO
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-apr-2024
2022/2023
Al giorno d’oggi, i nuovi progressi tecnologici nella generazione del parlato hanno portato alla possibilità di creare un parlato sintetico con relativa facilità utilizzando dispositivi di livello consumer. Questo fenomeno ha aperto le porte a nuovi scenari e possibilità interessanti, come lo sviluppo di nuovi assistenti vocali, dispositivi per persone con condizioni patologiche, didattica, ecc. Tuttavia, quando queste tecnologie vengono utilizzate da utenti malintenzionati, possono portare a conseguenze illegali ed a scenari pericolosi per la popolazione. Ad esempio, è possibile clonare la voce di una persona utilizzando solo pochi secondi di audio di riferimento e farle pronunciare frasi arbitrarie. Questi nuovi falsi generati vengono chiamati deepfake. Questo può portare a problemi di credibilità, problemi di privacy, audio minacciosi, furto di identità e altri pericoli. Per affrontare l’uso malevolo del parlato sintetico e dei dati audio contraffatti, la comunità forense orienta la ricerca verso nuovi metodi per lo spoofing e il rilevamento di questi nuovi falsi generati. In questo lavoro ci concentriamo sul problema del rilevamento del parlato sintetico, che consiste nel prendere in input un segnale audio e determinarne l’autenticità. Le moderne architetture di rilevamento presentano risultati incoraggianti, ma sono ben lontane dall’essere perfette a causa dei rapidi progressi delle tecniche di generazione di deepfake. In questa tesi, proponiamo un sistema per migliorare le prestazioni di un rilevatore di parlato sintetico facendo uso di tracce di supporto. Dato un segnale audio vocale, generiamo un insieme di tracce di supporto che contengono lo stesso contenuto testuale e vocale della traccia in analisi e le utilizziamo per migliorare l’accuratezza del rilevamento del sistema. Il metodo si basa sul calcolo delle distanze tra la traccia di riferimento e queste tracce di supporto, che portano a previsioni più stabili e affidabili. Le tracce di supporto sono implementate utilizzando diversi metodi di conversione vocale e Text-to-Speech esistenti. I risultati forniti dalla pipeline completa proposta in questo lavoro mostrano una nuova ed entusiasmante possibilità di migliorare il rilevamento dei deepfake attraverso un metodo modulare, svincolato da modelli specifici.
File allegati
File Dimensione Formato  
Executive_Summary_Orsatti.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 570.46 kB
Formato Adobe PDF
570.46 kB Adobe PDF Visualizza/Apri
Thesis_Orsatti.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 1.81 MB
Formato Adobe PDF
1.81 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218339