The democratization of powerful video and audio editing tools has ushered in a new era of creative expression and content creation. However, this accessibility presents a significant challenge: the rise of deepfakes. Deepfakes, hyper-realistic forgeries created using deep learning algorithms, pose a growing threat. Unlike traditional video manipulations, deepfakes can seamlessly stitch together source footage, allowing for the creation of videos depicting individuals performing actions or uttering words they never did in reality. This ability to manipulate reality has serious consequences. Deepfakes can be weaponized to spread misinformation, damage reputations, or erode trust in public figures. In response to this growing threat, this thesis proposes a novel deepfake detection method that leverages feature extraction techniques. This approach capitalizes on the strengths of both audio and visual analysis through a multimodal architecture employing separate feature extractors for each modality. The extracted features are then fed into a Long Short-Term Memory (LSTM) classifier to make the final determination of a video’s authenticity. Our research began with a two-pronged approach, employing separate models focused on extracting audio and visual features. This initial analysis served a dual purpose: evaluating the effectiveness of each modality in deepfake detection and identifying the most critical and reliable features. Building on this analysis, we developed a multimodal deepfake detection model that leverages the strengths of both audio and visual analysis. This model achieved remarkable performance, particularly in a real-world scenario with mixed real and deepfake data. Most notably, the best-performing model achieved an Area Under the Curve (AUC) of 0.99 and a balanced accuracy of 99.93%, demonstrating the effectiveness of the proposed multimodal approach in combating the growing threat of deepfakes.

La democratizzazione di potenti strumenti di editing video e audio ha inaugurato una nuova era di espressione creativa e creazione di contenuti. Tuttavia, questa accessibilità presenta una sfida significativa: l’ascesa dei deepfake. I deepfake, falsificazioni iper-realistiche create utilizzando algoritmi di deep learning, rappresentano una minaccia crescente. A differenza delle manipolazioni video tradizionali, i deepfake possono unire perfettamente filmati di origine, permettendo la creazione di video che mostrano individui pronunciare parole o compiere azioni che non hanno mai fatto nella realtà. Questa capacità di manipolare la realtà ha conseguenze serie. I deepfake possono essere usati come arma per diffondere disinformazione, danneggiare reputazioni o erodere la fiducia nelle figure pubbliche. In risposta a questa minaccia crescente, questa tesi propone un nuovo metodo di riconoscimento dei deepfake che sfrutta tecniche di estrazione delle caratteristiche. Questo approccio capitalizza i punti di forza sia dell’analisi audio che visiva attraverso un’architettura multimodale che impiega estrattori di caratteristiche separati per ciascuna modalità. Le caratteristiche estratte vengono quindi inserite in un classificatore Long Short-Term Memory (LSTM) per determinare l’autenticità di un video. La nostra ricerca è iniziata con un approccio su due fronti, impiegando modelli separati focalizzati sull’estrazione delle caratteristiche audio e visive. Questa analisi iniziale ha avuto un doppio scopo: valutare l’efficacia di ciascuna modalità nel rilevamento dei deepfake e identificare le caratteristiche più affidabili. Basandoci su questa analisi, abbiamo sviluppato un modello multimodale di riconoscimento dei deepfake che sfrutta i punti di forza sia dell’analisi audio sia visiva. Questo modello ha ottenuto prestazioni notevoli, in particolare in uno scenario reale con dati misti sia reali che deepfake. Il modello con le migliori prestazioni ha raggiunto un’Area Under the Curve (AUC) di 0.99 e una Balanced Accuracy del 99.93%, dimostrando l’efficacia dell’approccio multimodale proposto nel combattere la crescente minaccia dei deepfake.

Exploiting visual and audio features for multimodal deepfake detection

MORO, ALESSANDRA
2023/2024

Abstract

The democratization of powerful video and audio editing tools has ushered in a new era of creative expression and content creation. However, this accessibility presents a significant challenge: the rise of deepfakes. Deepfakes, hyper-realistic forgeries created using deep learning algorithms, pose a growing threat. Unlike traditional video manipulations, deepfakes can seamlessly stitch together source footage, allowing for the creation of videos depicting individuals performing actions or uttering words they never did in reality. This ability to manipulate reality has serious consequences. Deepfakes can be weaponized to spread misinformation, damage reputations, or erode trust in public figures. In response to this growing threat, this thesis proposes a novel deepfake detection method that leverages feature extraction techniques. This approach capitalizes on the strengths of both audio and visual analysis through a multimodal architecture employing separate feature extractors for each modality. The extracted features are then fed into a Long Short-Term Memory (LSTM) classifier to make the final determination of a video’s authenticity. Our research began with a two-pronged approach, employing separate models focused on extracting audio and visual features. This initial analysis served a dual purpose: evaluating the effectiveness of each modality in deepfake detection and identifying the most critical and reliable features. Building on this analysis, we developed a multimodal deepfake detection model that leverages the strengths of both audio and visual analysis. This model achieved remarkable performance, particularly in a real-world scenario with mixed real and deepfake data. Most notably, the best-performing model achieved an Area Under the Curve (AUC) of 0.99 and a balanced accuracy of 99.93%, demonstrating the effectiveness of the proposed multimodal approach in combating the growing threat of deepfakes.
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
17-lug-2024
2023/2024
La democratizzazione di potenti strumenti di editing video e audio ha inaugurato una nuova era di espressione creativa e creazione di contenuti. Tuttavia, questa accessibilità presenta una sfida significativa: l’ascesa dei deepfake. I deepfake, falsificazioni iper-realistiche create utilizzando algoritmi di deep learning, rappresentano una minaccia crescente. A differenza delle manipolazioni video tradizionali, i deepfake possono unire perfettamente filmati di origine, permettendo la creazione di video che mostrano individui pronunciare parole o compiere azioni che non hanno mai fatto nella realtà. Questa capacità di manipolare la realtà ha conseguenze serie. I deepfake possono essere usati come arma per diffondere disinformazione, danneggiare reputazioni o erodere la fiducia nelle figure pubbliche. In risposta a questa minaccia crescente, questa tesi propone un nuovo metodo di riconoscimento dei deepfake che sfrutta tecniche di estrazione delle caratteristiche. Questo approccio capitalizza i punti di forza sia dell’analisi audio che visiva attraverso un’architettura multimodale che impiega estrattori di caratteristiche separati per ciascuna modalità. Le caratteristiche estratte vengono quindi inserite in un classificatore Long Short-Term Memory (LSTM) per determinare l’autenticità di un video. La nostra ricerca è iniziata con un approccio su due fronti, impiegando modelli separati focalizzati sull’estrazione delle caratteristiche audio e visive. Questa analisi iniziale ha avuto un doppio scopo: valutare l’efficacia di ciascuna modalità nel rilevamento dei deepfake e identificare le caratteristiche più affidabili. Basandoci su questa analisi, abbiamo sviluppato un modello multimodale di riconoscimento dei deepfake che sfrutta i punti di forza sia dell’analisi audio sia visiva. Questo modello ha ottenuto prestazioni notevoli, in particolare in uno scenario reale con dati misti sia reali che deepfake. Il modello con le migliori prestazioni ha raggiunto un’Area Under the Curve (AUC) di 0.99 e una Balanced Accuracy del 99.93%, dimostrando l’efficacia dell’approccio multimodale proposto nel combattere la crescente minaccia dei deepfake.
File allegati
File Dimensione Formato  
2024_07_Moro_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo Tesi
Dimensione 13.67 MB
Formato Adobe PDF
13.67 MB Adobe PDF   Visualizza/Apri
2024_07_Moro_Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo Executive Summary
Dimensione 1.09 MB
Formato Adobe PDF
1.09 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223375