Recently, we have been part of a massive advancement in Artificial Intelligence techniques. AI has changed several aspects of our lives, including those related to how information is spread and how easy it is to create highly manipulated content. In such an era, the authenticity of multimedia material is being threatened by a new type of video and image tampering known as Deepfake, i.e., synthetically generated videos that represent people in actions and behaviors that do not belong to them. This technology evolves so rapidly that it has been critical for forgery detection techniques to follow. For these reasons, there is a constant interest within the scientific community in keeping up with the rapid progress of deepfake technologies. This is achieved through the development of advanced tampering methods that detect manipulations in images and videos. Among the variety of deepfake videos, we focus on the ones generated using face swap techniques, where a source face is replaced with a target face while preserving facial expression coherence. The goal of this thesis is to propose a method to detect such deepfake alterations based on the assumption that there is an inconsistency in Head Pose Estimation of real and manipulated videos due to a mismatch of facial landmark locations. This approach starts by 3D Head Pose Estimation of the head present in the video, thus information related to facial landmarks are extracted and used to feed a binary classifier, such as K-Nearest Neighbors (KNN) and Random Forest. Results show that the proposed method achieved high detection accuracy, as evaluated through the use of Random Forest and KNN classifiers.

Negli ultimi tempi abbiamo preso parte ad un enorme progresso nelle tecniche che coinvolgono l'Intelligenza Artificiale. Tra i vari aspetti della nostra vita che l'IA ha cambiato, è importante sottolineare quelli relativi a come le informazioni vengono diffuse e quanto sia facile creare contenuti falsificati. Al giorno d’oggi, l'autenticità del materiale multimediale è minacciata da un nuovo tipo di alterazione che colpisce i video e le immagini, noto come Deepfake. Questa tecnologia evolve così rapidamente che le tecniche tradizionali di rilevamento delle manipolazioni hanno avuto difficoltà ad allinearsi al suo costante progresso. Per questi motivi, all'interno della comunità scientifica è forte l’interesse ad allinearsi al rapido progresso delle tecnologie deepfake. Ciò è raggiungibile attraverso lo sviluppo di metodi avanzati in grado di rilevare le manipolazioni nelle immagini e nei video. Tra la varietà di video deepfake esistenti, ci concentriamo su quelli generati utilizzando tecniche chiamate “face swap” (scambio di facce), in cui un volto sorgente viene sostituito con un volto target preservando la coerenza delle espressioni facciali. Lo scopo di questa tesi è quello di proporre un metodo per rilevare i deepfake basandosi sull'ipotesi che vi sia una incoerenza nella stima della posa della testa tra i video reali e quelli manipolati, a causa di una mancata corrispondenza tra i punti di riferimento facciali. Tale approccio inizia con la stima della posa 3D del volto presente nel video, vengono quindi estratte le informazioni relative ai punti di riferimento facciali e tali informazioni vengono utilizzate per alimentare un classificatore binario, come il K-Nearest Neighbors (KNN) e il Random Forest. I risultati mostrano come il metodo proposto ha raggiunto un'elevata precisione nell’identificazione di video manipolati, come valutato attraverso l'uso dei classificatori KNN e Random Forest.

Video deepfake detection through head pose estimation

Zezza, Federica
2023/2024

Abstract

Recently, we have been part of a massive advancement in Artificial Intelligence techniques. AI has changed several aspects of our lives, including those related to how information is spread and how easy it is to create highly manipulated content. In such an era, the authenticity of multimedia material is being threatened by a new type of video and image tampering known as Deepfake, i.e., synthetically generated videos that represent people in actions and behaviors that do not belong to them. This technology evolves so rapidly that it has been critical for forgery detection techniques to follow. For these reasons, there is a constant interest within the scientific community in keeping up with the rapid progress of deepfake technologies. This is achieved through the development of advanced tampering methods that detect manipulations in images and videos. Among the variety of deepfake videos, we focus on the ones generated using face swap techniques, where a source face is replaced with a target face while preserving facial expression coherence. The goal of this thesis is to propose a method to detect such deepfake alterations based on the assumption that there is an inconsistency in Head Pose Estimation of real and manipulated videos due to a mismatch of facial landmark locations. This approach starts by 3D Head Pose Estimation of the head present in the video, thus information related to facial landmarks are extracted and used to feed a binary classifier, such as K-Nearest Neighbors (KNN) and Random Forest. Results show that the proposed method achieved high detection accuracy, as evaluated through the use of Random Forest and KNN classifiers.
SALVI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-ott-2024
2023/2024
Negli ultimi tempi abbiamo preso parte ad un enorme progresso nelle tecniche che coinvolgono l'Intelligenza Artificiale. Tra i vari aspetti della nostra vita che l'IA ha cambiato, è importante sottolineare quelli relativi a come le informazioni vengono diffuse e quanto sia facile creare contenuti falsificati. Al giorno d’oggi, l'autenticità del materiale multimediale è minacciata da un nuovo tipo di alterazione che colpisce i video e le immagini, noto come Deepfake. Questa tecnologia evolve così rapidamente che le tecniche tradizionali di rilevamento delle manipolazioni hanno avuto difficoltà ad allinearsi al suo costante progresso. Per questi motivi, all'interno della comunità scientifica è forte l’interesse ad allinearsi al rapido progresso delle tecnologie deepfake. Ciò è raggiungibile attraverso lo sviluppo di metodi avanzati in grado di rilevare le manipolazioni nelle immagini e nei video. Tra la varietà di video deepfake esistenti, ci concentriamo su quelli generati utilizzando tecniche chiamate “face swap” (scambio di facce), in cui un volto sorgente viene sostituito con un volto target preservando la coerenza delle espressioni facciali. Lo scopo di questa tesi è quello di proporre un metodo per rilevare i deepfake basandosi sull'ipotesi che vi sia una incoerenza nella stima della posa della testa tra i video reali e quelli manipolati, a causa di una mancata corrispondenza tra i punti di riferimento facciali. Tale approccio inizia con la stima della posa 3D del volto presente nel video, vengono quindi estratte le informazioni relative ai punti di riferimento facciali e tali informazioni vengono utilizzate per alimentare un classificatore binario, come il K-Nearest Neighbors (KNN) e il Random Forest. I risultati mostrano come il metodo proposto ha raggiunto un'elevata precisione nell’identificazione di video manipolati, come valutato attraverso l'uso dei classificatori KNN e Random Forest.
File allegati
File Dimensione Formato  
Federica_Zezza_Thesis_Article.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 6.93 MB
Formato Adobe PDF
6.93 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226744