Deepfakes are swiftly becoming a reality. These media are generated by very powerful tools which allow fast and cheap media manipulation. Along with potential positive uses of such tools come malevolent uses and threats. Indeed, these videos can be used to defame people, spread fake news or impersonate others to access a bank account. Given the upcoming problems these media pose, researchers have started working on different ways to try and detect these types of media. As of now, several powerful frame-based detectors have been proposed, but the time domain has not been studied in depth. In our work, we show two different approaches to study deepfake videos in the time domain. We first present several video-level deepfake detectors: from deepfake detection state of the art convolutional Long Short-Term Memory to previously untested architectures for this field, namely, Transformers. Afterwards, we focus on video-level artifacts in videos. These errors appear since the most used deepfake generation tools work frame-by-frame, causing inconsistencies across consecutive frames. We build a synthetic dataset of such videos by replicating the inconsistencies, and propose methods to spot them automatically using the models described above. At the same time, we build a Web Interface that allows users to label videos, asking them to spot inconsistencies. We use these labelled videos to evaluate our models and compare their performance with human annotators.

I deepfakes stanno rapidamente divenendo realtà. Questi media sono generati da tecniche molto potenti di deep learning, le quali permettono di manipolare un video o un'immagine molto rapidamente e a basso costo. Il loro potenziale è altissimo, ma se vengono usati per scopi criminosi rappresentano un minaccia concreta: possono essere utilizzati per diffamare, spargere fake news o impersonare altre persone per riuscire a bypassare sistemi di riconoscimento. Dati i problemi che stanno sorgendo, i ricercatori hanno iniziato a studiare tecniche per il riconoscimento di tali video. Ora come ora la maggior parte delle tecniche efficaci è costituita da classificatori frame-based, ossia che classificano un frame alla volta, mentre il dominio temporale (quindi cercare di studiare il video nel suo insieme) è ancora piuttosto acerbo. Nel nostro lavoro presentiamo due approcci per studiare il dominio temporale nel riconoscimento di deepfakes. Prima di tutto, presentiamo vari modelli video-level: dalle Long Short-Term Memory convoluzionali, stato dell'arte per quanto riguarda il riconoscimento video-level, ai Transformers, nuovi in questo campo. Successivamente, come secondo approccio, studiamo artefatti temporali in questi video. Questi errori si verificano poichè la maggior parte delle tecniche di generazione dei deepfakes lavora frame per frame, causando inconsistenze tra frames consecutivi. Proponiamo quindi un modo di riconoscere queste inconsistenze, utilizzando i modelli descritti prima e il nostro dataset sintetico, basato sul tentare di replicare tali inconsistenze. Parallelamente, attraverso il crowdsourcing, raccogliamo una serie di annotazioni di diversi utenti, i quali devono riconoscere inconsistenze nei video e la cui performance viene utilizzata per valutare i risultati dei nostri modelli.

Deepfake detection using LSTMs, Transformers and video-level artifacts

ROSETTI, NICOLA
2020/2021

Abstract

Deepfakes are swiftly becoming a reality. These media are generated by very powerful tools which allow fast and cheap media manipulation. Along with potential positive uses of such tools come malevolent uses and threats. Indeed, these videos can be used to defame people, spread fake news or impersonate others to access a bank account. Given the upcoming problems these media pose, researchers have started working on different ways to try and detect these types of media. As of now, several powerful frame-based detectors have been proposed, but the time domain has not been studied in depth. In our work, we show two different approaches to study deepfake videos in the time domain. We first present several video-level deepfake detectors: from deepfake detection state of the art convolutional Long Short-Term Memory to previously untested architectures for this field, namely, Transformers. Afterwards, we focus on video-level artifacts in videos. These errors appear since the most used deepfake generation tools work frame-by-frame, causing inconsistencies across consecutive frames. We build a synthetic dataset of such videos by replicating the inconsistencies, and propose methods to spot them automatically using the models described above. At the same time, we build a Web Interface that allows users to label videos, asking them to spot inconsistencies. We use these labelled videos to evaluate our models and compare their performance with human annotators.
BESTAGINI, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
I deepfakes stanno rapidamente divenendo realtà. Questi media sono generati da tecniche molto potenti di deep learning, le quali permettono di manipolare un video o un'immagine molto rapidamente e a basso costo. Il loro potenziale è altissimo, ma se vengono usati per scopi criminosi rappresentano un minaccia concreta: possono essere utilizzati per diffamare, spargere fake news o impersonare altre persone per riuscire a bypassare sistemi di riconoscimento. Dati i problemi che stanno sorgendo, i ricercatori hanno iniziato a studiare tecniche per il riconoscimento di tali video. Ora come ora la maggior parte delle tecniche efficaci è costituita da classificatori frame-based, ossia che classificano un frame alla volta, mentre il dominio temporale (quindi cercare di studiare il video nel suo insieme) è ancora piuttosto acerbo. Nel nostro lavoro presentiamo due approcci per studiare il dominio temporale nel riconoscimento di deepfakes. Prima di tutto, presentiamo vari modelli video-level: dalle Long Short-Term Memory convoluzionali, stato dell'arte per quanto riguarda il riconoscimento video-level, ai Transformers, nuovi in questo campo. Successivamente, come secondo approccio, studiamo artefatti temporali in questi video. Questi errori si verificano poichè la maggior parte delle tecniche di generazione dei deepfakes lavora frame per frame, causando inconsistenze tra frames consecutivi. Proponiamo quindi un modo di riconoscere queste inconsistenze, utilizzando i modelli descritti prima e il nostro dataset sintetico, basato sul tentare di replicare tali inconsistenze. Parallelamente, attraverso il crowdsourcing, raccogliamo una serie di annotazioni di diversi utenti, i quali devono riconoscere inconsistenze nei video e la cui performance viene utilizzata per valutare i risultati dei nostri modelli.
File allegati
File Dimensione Formato  
thesis-final-version.pdf

accessibile in internet per tutti

Descrizione: deepfake detection thesis
Dimensione 24.17 MB
Formato Adobe PDF
24.17 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183282