Recent advancements in deep learning and generative models have significantly simplified the creation and manipulation of synthetic media, allowing even inexperienced users to produce highly realistic content with minimal effort. Besides the exciting opportunities that the developed technologies offer, they also carry the potential for unpleasant consequences. Indeed, when these are used for malicious purposes, they can lead to harmful situations, with several recorded cases of fraud, blackmail, and fake news spreading due to the misuse of synthetic data. An example of this phenomenon is deepfakes, synthetic multimedia content generated through deep learning techniques that depict individuals in actions and behaviors that do not belong to them. Using only a few images or an audio recording of a target victim, an attacker can utilize deepfake technology to produce synthetic data that impersonates the victim and discredits their reputation. To prevent unpleasant situations due to the misuse of forged data, it is crucial to develop detection methods capable of discriminating between real and fake content. In this thesis, we consider the problem of deepfake detection and explore multiple strategies and approaches to tackle it. Starting from a monomodal scenario, i.e., synthetic speech detection, we propose two distinct techniques to address it, alongside suggesting multiple solutions for related problems. These include estimating the reliability of the output of a classifier, addressing the synthetic speech attribution task, and proposing multiple XAI techniques to determine the critical factors in a synthetic signal that drive the detection process. Additionally, we explore tasks related to splicing detection and localization in speech deepfakes, analyzing content comprising elements from both real and fake classes rather than entirely belonging to one or the other. Then, we extend the deepfake detection problem to the multimodal scenario, analyzing audio-video deepfakes. Leveraging the insights gained from monomodal studies, we tackle some of the issues that are present in the current literature. These involve exploring diverse fusion strategies across the content of different modalities and handling the lack of multimodal deepfake data needed to train and test the classifiers. Most of the proposed methods offer intriguing insights not only for the deepfake detection problem but also for the multimedia forensic field at large. Indeed, the presented approaches can be adapted to tackle various tasks across different domains. Among these, we recall the transfer learning methods explored in the analysis of high-level semantic features and the diverse fusion techniques we introduced. In general, we consider this thesis as an initial exploration of the multimedia forensic field. Despite the promising outcomes we achieved, new challenges continuously emerge in multimedia forensics, necessitating the constant development of novel methods to address them. We hope our contributions will provide valuable insights in this regard, fostering the development and progress of this research field.

I recenti progressi nel campo del deep learning e dei modelli generativi hanno semplificato in modo significativo la creazione e la manipolazione di media sintetici, permettendo anche a utenti inesperti di generare contenuti altamente realistici con il minimo sforzo. Le tecnologie sviluppate, oltre a offire interessanti opportunità in numerosi scenari, sono potenzialmente pericolose. Infatti, quando vengono utilizzate per scopi malevoli, queste tecnologie possono creare situazioni dannose. Lo testimoniano i diversi casi di frode, ricatto e diffusione di fake news registrati negli ultimi anni a causa dell'uso improprio di dati sintetici. Un esempio di questo fenomeno è rappresentato dai deepfakes, contenuti multimediali sintetici generati attraverso tecniche di deep learning, che ritraggono individui in azioni e comportamenti che non gli appartengono. Attraverso il solo utilizzo di poche immagini o di una registrazione audio della vittima, un aggressore può sfruttare la tecnologia deepfake per produrre dati sintetici che gli permettono di impersonare la vittima screditandone la reputazione. Per evitare che si creino situazioni spiacevoli dovute all’uso improprio di dati sintetici, è fondamentale sviluppare metodi di rilevamento in grado di discriminare tra contenuti reali e non. In questa tesi consideriamo il problema di rilevamento dei deepfake e lo affrontiamo esplorando diverse strategie e approcci. Partendo da uno scenario monomodale quale il rilevamento del parlato sintetico, proponiamo due approcci distinti per affrontare il problema di rilevamento, oltre a suggerire molteplici soluzioni a problemi correlati. Tra questi, stimiamo l'affidabilità dell'output di un classificatore, analizziamo il problema di attribuzione del parlato sintetico ai generatori utilizzati per sintetizzarlo, e proponiamo diverse tecniche di XAI per determinare quali sono i fattori di un segnale sintetico che influenzano maggiormente il processo di rilevamento. Inoltre, esploriamo i problemi relativi all'identificazione e alla localizzazione dei punti di splicing nei deepfake vocali, analizzando tracce audio che comprendono sia porzioni reali che falsificate, anziché appartenere interamente all'una o all'altra classe. Estendiamo poi il problema di rilevamento dei deepfake allo scenario multimodale, analizzando contenuti audio-video. Sfruttando le conoscenze acquisite con le analisi monomodali, affrontiamo alcuni dei problemi presenti nella letteratura. Tra questi, esploriamo diverse strategie di fusione tra i contenuti delle modalità analizzate e affrontiamo la mancanza di dati deepfake multimodali necessari per addestrare i classificatori. La maggior parte dei metodi proposti offre spunti interessanti non solo per il problema di rilevamento dei deepfake, ma anche, più in generale, per il campo forense multimediale. Infatti, gli approcci presentati possono essere adattati per affrontare vari compiti in diversi domini. Tra questi, ricordiamo i metodi di transfer learning utilizzati nell'analisi delle caratteristiche semantiche e le diverse tecniche di fusione analizzate. In generale, consideriamo questa tesi come parte di un'esplorazione continua dell'ambito forense multimediale. Nonostante i promettenti risultati raggiunti, in questo campo emergono continuamente nuove sfide, le quali richiedono lo sviluppo costante di nuovi metodi per affrontarle. Ci auguriamo che i nostri contributi forniscano spunti preziosi a tal proposito, contribuendo così alla crescita e al progresso di questo filone di ricerca.

Data-driven techniques for speech and multimodal deepfake detection

Salvi, Davide
2024/2025

Abstract

Recent advancements in deep learning and generative models have significantly simplified the creation and manipulation of synthetic media, allowing even inexperienced users to produce highly realistic content with minimal effort. Besides the exciting opportunities that the developed technologies offer, they also carry the potential for unpleasant consequences. Indeed, when these are used for malicious purposes, they can lead to harmful situations, with several recorded cases of fraud, blackmail, and fake news spreading due to the misuse of synthetic data. An example of this phenomenon is deepfakes, synthetic multimedia content generated through deep learning techniques that depict individuals in actions and behaviors that do not belong to them. Using only a few images or an audio recording of a target victim, an attacker can utilize deepfake technology to produce synthetic data that impersonates the victim and discredits their reputation. To prevent unpleasant situations due to the misuse of forged data, it is crucial to develop detection methods capable of discriminating between real and fake content. In this thesis, we consider the problem of deepfake detection and explore multiple strategies and approaches to tackle it. Starting from a monomodal scenario, i.e., synthetic speech detection, we propose two distinct techniques to address it, alongside suggesting multiple solutions for related problems. These include estimating the reliability of the output of a classifier, addressing the synthetic speech attribution task, and proposing multiple XAI techniques to determine the critical factors in a synthetic signal that drive the detection process. Additionally, we explore tasks related to splicing detection and localization in speech deepfakes, analyzing content comprising elements from both real and fake classes rather than entirely belonging to one or the other. Then, we extend the deepfake detection problem to the multimodal scenario, analyzing audio-video deepfakes. Leveraging the insights gained from monomodal studies, we tackle some of the issues that are present in the current literature. These involve exploring diverse fusion strategies across the content of different modalities and handling the lack of multimodal deepfake data needed to train and test the classifiers. Most of the proposed methods offer intriguing insights not only for the deepfake detection problem but also for the multimedia forensic field at large. Indeed, the presented approaches can be adapted to tackle various tasks across different domains. Among these, we recall the transfer learning methods explored in the analysis of high-level semantic features and the diverse fusion techniques we introduced. In general, we consider this thesis as an initial exploration of the multimedia forensic field. Despite the promising outcomes we achieved, new challenges continuously emerge in multimedia forensics, necessitating the constant development of novel methods to address them. We hope our contributions will provide valuable insights in this regard, fostering the development and progress of this research field.
PIRODDI, LUIGI
MONTI-GUARNIERI, ANDREA VIRGILIO
14-nov-2024
I recenti progressi nel campo del deep learning e dei modelli generativi hanno semplificato in modo significativo la creazione e la manipolazione di media sintetici, permettendo anche a utenti inesperti di generare contenuti altamente realistici con il minimo sforzo. Le tecnologie sviluppate, oltre a offire interessanti opportunità in numerosi scenari, sono potenzialmente pericolose. Infatti, quando vengono utilizzate per scopi malevoli, queste tecnologie possono creare situazioni dannose. Lo testimoniano i diversi casi di frode, ricatto e diffusione di fake news registrati negli ultimi anni a causa dell'uso improprio di dati sintetici. Un esempio di questo fenomeno è rappresentato dai deepfakes, contenuti multimediali sintetici generati attraverso tecniche di deep learning, che ritraggono individui in azioni e comportamenti che non gli appartengono. Attraverso il solo utilizzo di poche immagini o di una registrazione audio della vittima, un aggressore può sfruttare la tecnologia deepfake per produrre dati sintetici che gli permettono di impersonare la vittima screditandone la reputazione. Per evitare che si creino situazioni spiacevoli dovute all’uso improprio di dati sintetici, è fondamentale sviluppare metodi di rilevamento in grado di discriminare tra contenuti reali e non. In questa tesi consideriamo il problema di rilevamento dei deepfake e lo affrontiamo esplorando diverse strategie e approcci. Partendo da uno scenario monomodale quale il rilevamento del parlato sintetico, proponiamo due approcci distinti per affrontare il problema di rilevamento, oltre a suggerire molteplici soluzioni a problemi correlati. Tra questi, stimiamo l'affidabilità dell'output di un classificatore, analizziamo il problema di attribuzione del parlato sintetico ai generatori utilizzati per sintetizzarlo, e proponiamo diverse tecniche di XAI per determinare quali sono i fattori di un segnale sintetico che influenzano maggiormente il processo di rilevamento. Inoltre, esploriamo i problemi relativi all'identificazione e alla localizzazione dei punti di splicing nei deepfake vocali, analizzando tracce audio che comprendono sia porzioni reali che falsificate, anziché appartenere interamente all'una o all'altra classe. Estendiamo poi il problema di rilevamento dei deepfake allo scenario multimodale, analizzando contenuti audio-video. Sfruttando le conoscenze acquisite con le analisi monomodali, affrontiamo alcuni dei problemi presenti nella letteratura. Tra questi, esploriamo diverse strategie di fusione tra i contenuti delle modalità analizzate e affrontiamo la mancanza di dati deepfake multimodali necessari per addestrare i classificatori. La maggior parte dei metodi proposti offre spunti interessanti non solo per il problema di rilevamento dei deepfake, ma anche, più in generale, per il campo forense multimediale. Infatti, gli approcci presentati possono essere adattati per affrontare vari compiti in diversi domini. Tra questi, ricordiamo i metodi di transfer learning utilizzati nell'analisi delle caratteristiche semantiche e le diverse tecniche di fusione analizzate. In generale, consideriamo questa tesi come parte di un'esplorazione continua dell'ambito forense multimediale. Nonostante i promettenti risultati raggiunti, in questo campo emergono continuamente nuove sfide, le quali richiedono lo sviluppo costante di nuovi metodi per affrontarle. Ci auguriamo che i nostri contributi forniscano spunti preziosi a tal proposito, contribuendo così alla crescita e al progresso di questo filone di ricerca.
File allegati
File Dimensione Formato  
PHD_THESIS_SALVI_FINAL.pdf

accessibile in internet per tutti

Descrizione: PHD THESIS
Dimensione 14.41 MB
Formato Adobe PDF
14.41 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/229556