Deepfake detection through video volume rotation

The advancements in deep learning techniques, coupled with easy access to vast free databases, have made it possible for users without technical expertise to produce or modify authentic-looking multimedia content, e.g., images, videos, and audio clips. However, this has also led to the widespread creation of manipulated media for malicious purposes, posing a real hazard to today's society. One example is represented by deepfakes, i.e., videos where the face of the subject has been altered. Deepfakes can misrepresent a person as saying or doing something they never did, leading to threats like fake news, identity theft, and fraud. Deepfakes have become a significant concern due to their potential to mislead and deceive individuals and society. To address concerns regarding the authenticity of such multimedia content, the forensic community has developed several techniques to prevent their abuse and verify the integrity of these videos. The State-Of-The-Art is represented by deep learning solutions like Convolutional Neural Networks (CNN) that often analyze videos on a per-frame basis. Other approaches try to bring out inconsistencies in the temporal evolution of frames in deepfake videos, either with Recurrent Neural Networks or 3D models. All of these methods however process videos by considering them as a temporal evolution of still images. In this thesis, we propose a novel detection approach based instead on a multi-view analysis. Our intuition is that a rotation of video volume along the frame axis expresses a new perspective, that may help capture valuable features that otherwise would be overlooked by considering videos as mere sequences of frames. Our detector implements multiple 3D Convolutional Neural Networks(CNNs), exploiting their computational structure to learn spatial and temporal features from volumetric input data. The combination of these two approaches defines a new video-level detection system that captures and analyzes patterns in the data that might be missed by other single ``view'' methods. Our research includes two main experiments assessing the effects of different data resolutions with a slightly modified pre-processing pipeline. Additionally, we present a temporal localization method that, when combined with multiple sampling strategies of the video frames from a temporal perspective, enables the identification of frames with significant manipulation artifacts, even though our detection analysis is performed at a video level.

Al giorno d'oggi il fenomeno dei ``deepfake'' rappresenta un tema di forte preoccupazione per la nostra società. Il loro potenziale di alterare la realtà, minaccia gravemente la stabilità e la fiducia sociale mettendo a rischio l'identità dei singoli individui, arrivando perfino a manipolare l'opinione pubblica. I progressi nelle tecniche di deep learning, ed il facile accesso a vasti database gratuiti, hanno difatti reso possibile ad utenti senza particolari competenze tecniche la produzione e la manipolazione di contenuti multimediali. L'uso dannoso di questa tecnologia, che permette di modificare l'identità o le azioni di un individuo all'interno di un immagine o video, ha portato alla definizione di nuove frodi attraverso il furto d'identità o la consolidazione di ``fake news''. Riguardo tale problematica la comunità forense ha sviluppato diverse tecniche implementando sistemi rilevatori capaci di verificare l'intergrità e l'autenticità di contenuti multimediali, al fine di prevenire tali abusi. Lo stato dell'arte è rappresentato da soluzioni di deep learning come Convolutional Neural Networks (CNN) che spesso analizzano i video a livello di frame. Altri approcci cercano di mettere in evidenza le incoerenze nell'evoluzione temporale dei video deepfake, sia con reti neurali ricorrenti che con modelli 3D. Tuttavia, l'evoluzione temporale viene modellata come seuqenze di immagini statiche. In questo lavoro proponiamo un sistema di rilevazione basato su un'analisi multi-prospettica. Considerando un video come un volume costituito da pixel, una semplice rotazione permette di definire nuove ``viste'' dove l'analisi dell'evoluzione temporale può permettere di catturare ``tracce'' discriminanti per la classificazione dei deepfake. Il rilevatore proposto sfrutta la struttura computazionale delle reti convoluzionali 3D, capaci di combinare le caratteristiche spazio-temporali dei dati volumetrici in ingresso. La combinazione dei due approcci definisce un sistema di rilevamento inedito capace di apprendere strutture di dati trascurate dai metodi che considerano i video come semplici sequenze di fotogrammi. Vengono presentati due esperimenti principali, caratterizzati da una pipeline di processi leggermente modificata, al fine di valutare gli effetti derivanti dalla variazione della risoluzione dei dati in ingresso. In aggiunta, viene presentato un modello di localizzazione temporale a livello video, dove diverse stategie di campionamento assieme al rilevatore proposto, permettono l'identificazione di frame con manipolazioni più evidenti, quindi caratterizzanti dal punto di vista della classificazione.