Audio-video deepfake detection through emotion recognition

In recent years, techniques for synthetic media generation have seen huge advancements. With the powerful tools provided by state-of-the-art artificial intelligence approaches, it is now possible to generate audio and visual content so accurately as to be able to deceive human sight and hearing. These new machine-generated media are known as deepfakes. Although benign and harmless applications can not be overlooked, they immediately raised ethical and legal concerns. As they allow to alter both voice and visual identities of portrayed subjects, some of their malevolent uses may lead to severe consequences such as fake news spreading, falsifying legal proofs, or new forms of blackmail and fraud. Therefore, developing robust and reliable deepfake detection systems is compelling and essential for both the individual and society. In this thesis, we propose a method for deepfake detection using both audio and video signals. The underlying assumption of the present work is that machines can not recreate emotions in altered or generated subjects as real humans genuinely convey them. For this reason, we adapted neural network-based techniques from the emotion recognition field to this task. Results show that audio-based techniques detect altered media more accurately than video-based approaches. However, we obtain the best classification results when we adopt a multimodal approach, considering the audio and video modalities together.

Negli ultimi anni le tecniche per generare contenuti multimediali sintetici hanno avuto un notevole miglioramento. Con i potenti strumenti forniti da applicazioni di intelligenza artificiale, è ora possibile generare materiali audiovisivi in modo così accurato da poter ingannare i sensi umani di vista e udito. Questi nuovi media generati da macchine vengono chiamati deepfake. Nonostante i deepfake possano dare vita a nuovi stimolanti scenari futuri, questi media hanno da subito suscitato preoccupazioni sia etiche che legali. Permettendo di alterare le identità vocali e visive delle persone ritratte, alcuni dei utilizzi potrebbero avere gravi conseguenze come la diffusione di fake news, falsificazione di prove legali, nuove forme di frode e ricatto. È quindi indispensabile e urgente sviluppare sistemi di rilevamento dei deepfake che siano attendibili e robusti, per l'individuo e la società. In questa tesi, proponiamo un metodo multimodale per il rilevamento dei deepfake, basato sull'analisi simultanea di audio e video. L'ipotesi su cui si basa questo lavoro è che l'intelligenza artificiale sia in grado di ricreare nei soggetti rappresentati aspetti di basso livello, ma non riesca a riprodurre aspetti più complessi come le emozioni. Per fare ciò abbiamo adattato a questo obiettivo tecniche di riconoscimento automatico delle emozioni basate su reti neurali. I risultati mostrano che le tecniche basate sull'audio individuano i media alterati più accuratamente delle tecniche basate sul video. Tuttavia, i migliori risultati nella classificazione vengono ottenuti con un approccio mulimodale, quando consideriamo le modalità audio e video assieme.