Forensic detection of deepfakes generated through video-to-video translation

The creation of manipulated videos involving human characters has reached in recent years unprecedented realism. The diffusion of altered content may lead to severe consequences if it contains misleading pieces of information. For this reason, it is increasingly necessary to develop forensic methodologies that enable to verify if a given video has been digitally synthesized or not. In this thesis, we focus on the problem of discerning whether a video sequence is original or not. The synthesized videos we are dealing with are generated by a video-to-video translation algorithm using pose as an intermediate representation, where the entire body of the involved human character is synthesized by a latest generation software. We propose two methodologies to solve this task. The first detector, which is considered as a baseline reference, is based on the use of a Convolutional Neural Network (CNN). The second detector is based on the extraction of temporal textural descriptors from the video sequences and on the classification of these features using a Multi-Layer Perceptron (MLP). The features are extracted from five body parts of the human subjects, and we investigate two different pre-processed versions of the videos. The proposed solutions are tested on a dataset we have generated and designed specifically for this task. The dataset involves 50 synthesized videos with a minimum length of 2 minutes of recordings, depicting 10 different persons. Both proposed methodologies achieve high accuracy classification results. Moreover, we show that our proposed feature-based method is robust to different levels of video compression and resizing, and outperforms the baseline based on CNN in different training conditions.

La creazione di video che coinvolgono persone reali ha raggiunto negli ultimi anni un realismo senza precedenti. La diffusione di contenuti alterati può portare a gravi conseguenze se essi contengono informazioni fuorvianti. Per questo motivo, è sempre più necessario sviluppare tecniche forensi che consentono di verificare se un certo video è stato sintetizzato digitalmente o meno. Il problema affrontato in questa tesi è capire se una sequenza video è originale o falsa. I video sintetizzati su cui focalizziamo la nostra attenzione sono generati da un algoritmo di traduzione da video a video che utilizza la posa come rappresentazione intermedia, dove l'intero corpo del soggetto umano coinvolto è sintetizzato da un software di ultima generazione. Proponiamo due metodologie per affrontare questo problema. Il primo metodo, che è considerato come riferimento di base, si basa sull'uso di una Convolutional Neural Network (CNN). Il secondo metodo si basa sull'estrazione di descrittori spazio-temporali dalle sequenze video e sulla classificazione di tali caratteristiche utilizzando un Multi-Layer Perceptron (MLP). I descrittori sono estratti da cinque parti del corpo dei soggetti umani, considerando due diverse versioni pre-elaborate dei video. Le soluzioni proposte sono testate su un insieme di dati che abbiamo generato e progettato appositamente per questo lavoro. L'insieme di dati comprende 50 video sintetizzati con una lunghezza minima di 2 minuti, raffiguranti 10 soggetti diversi. Entrambe le metodologie da noi proposte raggiungono un'alta accuratezza di classificazione. Inoltre, dimostriamo che il nostro metodo basato sull'estrazione dei descrittori è robusto rispetto alla compressione e al ridimensionamento, e supera il metodo basato su CNN in diversi scenari.