With the rapid progress of artificial intelligence techniques over the last few years, the possibility to generate extremely realistic video, image and audio is within everyone's reach. These technologies have paved the way for deepfakes' creation, data produced using deep learning techniques that realistically represent people in deceptive behaviors. Even if they have been largely employed for entertainment purposes, it quickly became evident that their use can cause harm to the people represented. Indeed, nowadays it is not hard to find examples of fake news spreading and frauds that involve deepfake content. In this context, audio plays an important role since the majority of deepfakes come in a video form containing an audio component. Moreover, it is becoming increasingly common the use of deepfake with audio only. This is driven by the continuous evolution of speech synthesis systems, which nowadays can generate highly realistic content with very few seconds of audio of the target person. It is thus clear the importance of an anti-spoofing method for detecting fake speech content. However, an even greater threat comes from the combination of audio splicing, substituting only sections of an original speech to change its entire meaning, and deepfake. In this work, we consider the problem of splicing detection and localization based on synthetic voice production. We are interested only in spliced audio created by substituting parts of a pristine speech with synthetically generated speech. When used for malicious purposes, audio splicing can produce incredibly realistic spliced tracks that can fool the state-of-the-art detectors, since the audio still contains sections of real signals. We address the problem by dividing a suspect speech signal into overlapping frames and mapping them to a high-dimensional embedding space using state-of-the-art deep learning systems (extractors) trained to detect signals as real or fake. Then, we employ the novelty function to analyze the similarity between the embeddings. When the novelty function shows peaks of significant prominence, a splicing point is detected and localized. In particular, we exploit the importance of metric learning in the training phase of the extractor. We believe that a well-defined embedding space is of crucial importance for the problem of splicing detection and localization. To evaluate our method we construct two large datasets of spliced and non-spliced signal speech signals, exploiting also the possibility of multiple spliced regions in the audio. All the synthetically generated data employed are produced using state-of-the-art speech synthesis systems. The method is evaluated both for the detection and localization tasks. The use of metric learning shows promising results in the field of splicing detection and localization, suggesting some future developments in this direction. Moreover, we also analyzed the importance of defining an effective novelty function and its contribution to splicing detection and localization's overall performances.

Con il rapido progresso delle tecniche di intelligenza artificiale degli ultimi anni, la possibilità di generare video, immagini e audio estremamente realistici è alla portata di tutti. Queste tecnologie hanno aperto la strada alla creazione di deepfakes, contenuti multimediali prodotti utilizzando tecniche di deep learning che rappresentano realisticamente persone in comportamenti ingannevoli. Anche se principalmente utilizzati per puro intrattenimento, è da subito apparso evidente che il loro impiego potesse causare problemi e danni alle persone rappresentate. Infatti, al giorno d'oggi non è difficile trovare online casi di diffusione di fake news, frodi e bufale che coinvolgono i deepfake. In questo contesto, la componente audio gioca un ruolo importante, poiché la maggior parte dei deepfake si presenta sotto forma di video in cui l'audio riveste un ruolo di assoluta importanza per il realismo del risultato finale. Inoltre, sta diventando sempre più comune l'uso di deepfake composti da solo audio. Questo sviluppo viene sostenuto anche dalla continua evoluzione dei sistemi di sintesi vocale, che sono ormai in grado di generare audio altamente realistici con pochissimi secondi di parlato della persona che si vuole imitare. È quindi evidente l'importanza di un metodo automatico per la rilevazione di questi falsi. Tuttavia, un ulteriore minaccia è costituita dalla combinazione di audio splicing, una tecnica utilizzata per sostituire solo parti di un audio con l'obbiettivo di cambiarne l'intero significato, e deepfake. In questa tesi consideriamo il problema del rilevamento e della localizzazione dello splicing basato sulla produzione sintetica della voce. Siamo interessati solo ad audio creati sostituendo parti del segnale originale con porzioni di audio generate sinteticamente. Se usata per scopi malevoli, questa tecnica può produrre tracce incredibilmente realistiche che possono facilmente ingannare i migliori rilevatori automatici, poiché l'audio contiene ancora sezioni del parlato originale. Affrontiamo il problema dividendo il segnale sospetto in sezioni, anche sovrapposte, che vengono poi mappate in uno spazio di embeddings grazie all'utilizzo di reti neurali allenate per distinguere audio reali da parlato falso. Andiamo poi a calcolare la funzione di novelty partendo dagli embeddings estratti. Questa ci consente di analizzare la somiglianza tra i vari embeddings. Quando la funzione di novelty mostra picchi con prominenza significativa, viene rilevato e localizzato un punto di splicing all'interno dell'audio. In particolare, sfruttiamo l'importanza del metric learning nella fase di allenamento della rete neurale. Crediamo infatti che uno spazio di embeddings ben definito sia di cruciale importanza per la risoluzione del problema di splicing, sia in termini di rilevamento che in termini di localizzazione. Per validare il nostro metodo abbiamo creato due dataset di grandi dimensioni contenenti audio non-spliced e audio spliced, andando a considerare anche audio contenenti più di una singola sezione modificata. Tutti i vocali generati sinteticamente ed utilizzati per la creazione degli audio nei due dataset sono prodotti utilizzando sistemi di sintesi vocale all'avanguardia. Il metodo proposto è stato validato sia sul problema di rilevamento che di localizzazione dei punti di splicing. L'uso di metric learning mostra risultati molto promettenti nel campo del rilevamento e della localizzazione dello splicing, suggerendo alcuni sviluppi futuri in questa direzione. Abbiamo inoltre analizzato l'importanza dell'utilizzo di una funzione di novelty e il suo contributo nel rilevamento e nelle prestazioni complessive della localizzazione dei punti di splicing.

A metric learning approach for splicing localization based on synthetic speech detection

CASTELLI, FRANCESCO
2020/2021

Abstract

With the rapid progress of artificial intelligence techniques over the last few years, the possibility to generate extremely realistic video, image and audio is within everyone's reach. These technologies have paved the way for deepfakes' creation, data produced using deep learning techniques that realistically represent people in deceptive behaviors. Even if they have been largely employed for entertainment purposes, it quickly became evident that their use can cause harm to the people represented. Indeed, nowadays it is not hard to find examples of fake news spreading and frauds that involve deepfake content. In this context, audio plays an important role since the majority of deepfakes come in a video form containing an audio component. Moreover, it is becoming increasingly common the use of deepfake with audio only. This is driven by the continuous evolution of speech synthesis systems, which nowadays can generate highly realistic content with very few seconds of audio of the target person. It is thus clear the importance of an anti-spoofing method for detecting fake speech content. However, an even greater threat comes from the combination of audio splicing, substituting only sections of an original speech to change its entire meaning, and deepfake. In this work, we consider the problem of splicing detection and localization based on synthetic voice production. We are interested only in spliced audio created by substituting parts of a pristine speech with synthetically generated speech. When used for malicious purposes, audio splicing can produce incredibly realistic spliced tracks that can fool the state-of-the-art detectors, since the audio still contains sections of real signals. We address the problem by dividing a suspect speech signal into overlapping frames and mapping them to a high-dimensional embedding space using state-of-the-art deep learning systems (extractors) trained to detect signals as real or fake. Then, we employ the novelty function to analyze the similarity between the embeddings. When the novelty function shows peaks of significant prominence, a splicing point is detected and localized. In particular, we exploit the importance of metric learning in the training phase of the extractor. We believe that a well-defined embedding space is of crucial importance for the problem of splicing detection and localization. To evaluate our method we construct two large datasets of spliced and non-spliced signal speech signals, exploiting also the possibility of multiple spliced regions in the audio. All the synthetically generated data employed are produced using state-of-the-art speech synthesis systems. The method is evaluated both for the detection and localization tasks. The use of metric learning shows promising results in the field of splicing detection and localization, suggesting some future developments in this direction. Moreover, we also analyzed the importance of defining an effective novelty function and its contribution to splicing detection and localization's overall performances.
BORRELLI, CLARA
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2022
2020/2021
Con il rapido progresso delle tecniche di intelligenza artificiale degli ultimi anni, la possibilità di generare video, immagini e audio estremamente realistici è alla portata di tutti. Queste tecnologie hanno aperto la strada alla creazione di deepfakes, contenuti multimediali prodotti utilizzando tecniche di deep learning che rappresentano realisticamente persone in comportamenti ingannevoli. Anche se principalmente utilizzati per puro intrattenimento, è da subito apparso evidente che il loro impiego potesse causare problemi e danni alle persone rappresentate. Infatti, al giorno d'oggi non è difficile trovare online casi di diffusione di fake news, frodi e bufale che coinvolgono i deepfake. In questo contesto, la componente audio gioca un ruolo importante, poiché la maggior parte dei deepfake si presenta sotto forma di video in cui l'audio riveste un ruolo di assoluta importanza per il realismo del risultato finale. Inoltre, sta diventando sempre più comune l'uso di deepfake composti da solo audio. Questo sviluppo viene sostenuto anche dalla continua evoluzione dei sistemi di sintesi vocale, che sono ormai in grado di generare audio altamente realistici con pochissimi secondi di parlato della persona che si vuole imitare. È quindi evidente l'importanza di un metodo automatico per la rilevazione di questi falsi. Tuttavia, un ulteriore minaccia è costituita dalla combinazione di audio splicing, una tecnica utilizzata per sostituire solo parti di un audio con l'obbiettivo di cambiarne l'intero significato, e deepfake. In questa tesi consideriamo il problema del rilevamento e della localizzazione dello splicing basato sulla produzione sintetica della voce. Siamo interessati solo ad audio creati sostituendo parti del segnale originale con porzioni di audio generate sinteticamente. Se usata per scopi malevoli, questa tecnica può produrre tracce incredibilmente realistiche che possono facilmente ingannare i migliori rilevatori automatici, poiché l'audio contiene ancora sezioni del parlato originale. Affrontiamo il problema dividendo il segnale sospetto in sezioni, anche sovrapposte, che vengono poi mappate in uno spazio di embeddings grazie all'utilizzo di reti neurali allenate per distinguere audio reali da parlato falso. Andiamo poi a calcolare la funzione di novelty partendo dagli embeddings estratti. Questa ci consente di analizzare la somiglianza tra i vari embeddings. Quando la funzione di novelty mostra picchi con prominenza significativa, viene rilevato e localizzato un punto di splicing all'interno dell'audio. In particolare, sfruttiamo l'importanza del metric learning nella fase di allenamento della rete neurale. Crediamo infatti che uno spazio di embeddings ben definito sia di cruciale importanza per la risoluzione del problema di splicing, sia in termini di rilevamento che in termini di localizzazione. Per validare il nostro metodo abbiamo creato due dataset di grandi dimensioni contenenti audio non-spliced e audio spliced, andando a considerare anche audio contenenti più di una singola sezione modificata. Tutti i vocali generati sinteticamente ed utilizzati per la creazione degli audio nei due dataset sono prodotti utilizzando sistemi di sintesi vocale all'avanguardia. Il metodo proposto è stato validato sia sul problema di rilevamento che di localizzazione dei punti di splicing. L'uso di metric learning mostra risultati molto promettenti nel campo del rilevamento e della localizzazione dello splicing, suggerendo alcuni sviluppi futuri in questa direzione. Abbiamo inoltre analizzato l'importanza dell'utilizzo di una funzione di novelty e il suo contributo nel rilevamento e nelle prestazioni complessive della localizzazione dei punti di splicing.
File allegati
File Dimensione Formato  
Castelli_Thesis.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 13.1 MB
Formato Adobe PDF
13.1 MB Adobe PDF Visualizza/Apri
Castelli_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 3.08 MB
Formato Adobe PDF
3.08 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/184332