The development of Internet based communication systems, such as social networks, chat services, etc., has exponentially increased the amount of multimedia objects we can share with other people. The parallel diffusion of easy-to-use editing tools poses issues on the authenticity of the content we are seeing. With the pervasiveness of social media in everyday life, including politics, the malicious use of these edited objects is a threat to the personal and public safety of people. There is therefore an urgent need for tools that automatically determine the authenticity of the content at hand, which are the object of study of the multimedia forensics research field. Goal of this thesis is the development of an efficient methodology for the detection of malicious editing on video signals. Specifically, we resort to deep learning tools, convolutional and recurrent neural networks in particular, to identify and localize image-based attacks, consisting in the addition of portions of other source videos in order to alter or hide the content of the original signal. We address this task using an anomaly detection approach. We propose different types of autoencoders, networks designed to learn a reduced dimensionality representation of their input. Training them to perfectly reconstruct non-altered portions of videos, image-based attacks are localized as regions of the input that are badly reconstructed. By measuring the reconstruction error, we are able to create an heatmap of the possible attacks. We train three different families of autoencoders, both in a recurrent version, where we resort to the convolutional LSTM model, and in a non-recurrent one, where instead we use convolutional neural networks only. Part of the novelty of this work consists in the way we look at the video signal. Considering it as a volume, we train each family of networks to reconstruct it from different perspectives, by "rotating" the volume of 90 degrees along the frame axes. The use of the convolutional LSTM model, along with this volume rotation procedure, to the best of our knowledge have never been tried in literature, and we show that in some scenarios help the localization of the attack. To train the autoencoders, we resorted to different forms of loss functions. Among them, we propose a regularization term that empirically enabled us to achieve the best results in our tests. The results obtained pave the way to future lines of research, such as the use of neural networks that are more suited for handling video data according to the "volume" paradigm and semantic (3D convolutional neural networks indeed), or the integration of the different perspectives of the rotated volume in a single model. Using semi-supervised approach, or mixing unsupervised and supervised approaches, are also viable options.

Lo sviluppo di sistemi di comunicazione basati sull’utilizzo della rete, come i social network, le app di messaggistica istantanea, etc., ha esponenzialmente aumentato la quantità di contenuti multimediali scambiati fra le persone ogni giorno. La diffusione, allo stesso tempo, di strumenti di editing dal facile utilizzo, pone il problema di valutare l’autenticità del contenuto che stiamo osservando. Considerando la pervasività dei social media nella vita di tutti i giorni, e in ambiti sensibili come quello politico, l’uso illecito o malevolo di questi strumenti di editing è una seria minaccia per la sicurezza privata, e pubblica, di un gran numero di persone. Vi è pertanto un bisogno urgente di strumenti in grado di determinare in modo automatico l’autenticità di contenuti multimediali. Tali strumenti sono oggetto di studio del campo di ricerca della forensica multimediale. Obiettivo di questa tesi è lo sviluppo di una metodologia per l’identificazione di operazioni di manomissione su segnali video. In particolare, utilizziamo strumenti di deep learning, reti neurali convoluzionali e ricorrenti, per identificare e localizzare i cosiddetti image-based attack, ovvero le addizioni di porzioni di video esterni usate per alterare o nascondere il contenuto originale del segnale. Affrontiamo il problema utilizzando un approccio ispirato al campo della anomaly detection, proponendo diversi tipi di autoencoder, reti progettate per imparare una rappresentazione di dimensionalità ridotta del proprio input. Addestrando queste reti a ricostruire perfettamente porzioni di video non alterate, gli image-based attack sono localizzati come regioni del video in input che sono ricostruite sommariamente. Misurando l’errore di ricostruzione, siamo in grado di creare una heatmap delle zone attaccate. Addestriamo tre differenti famiglie di autoencoder, declinate sia in una versione ricorrente, basata sul convolutional LSTM model, sia in una non ricorrente, basata invece solamente sulle reti neurali convoluzionali. Parte del contributo innovativo di questo lavoro consiste nella modalità con cui osserviamo il segnale video. Considerando il video come un volume, addestriamo ogni famiglia di reti a ricostruirlo da differenti prospettive, "ruotando" il volume di 90 gradi lungo gli assi dell’immagine. L’uso del convolutional LSTM model, insieme alla procedura di rotazione del volume, a nostra conoscenza non sono mai stati proposti in letteratura, e mostriamo come in alcuni scenari possano aiutare la localizzazione dell’attacco. Per addestrare gli autoencoder, ricorriamo a diversi tipi di loss function. Tra di essi, proponiamo un termine di regolarizzazione che empiricamente ci ha permesso di raggiungere i migliori risultati nei nostri test. I risultati ottenuti aprono diverse future prospettive di ricerca, come l’uso di reti neurali che siano più adatte all’elaborazione dei segnali video secondo il paradigma e la semantica dei "volumi" (come ad esempio le reti neurali convoluzionali 3D), o l’integrazione delle differenti prospettive del volume ruotato all’interno di un unico modello. Altre opzioni percorribili sono l’uso di approcci semi-supervisionati, o l’utilizzo di approcci misti supervisionati e non supervisionati.

Convolutional and recurrent neural networks for video tampering detection and localization

CANNAS, EDOARDO DANIELE
2018/2019

Abstract

The development of Internet based communication systems, such as social networks, chat services, etc., has exponentially increased the amount of multimedia objects we can share with other people. The parallel diffusion of easy-to-use editing tools poses issues on the authenticity of the content we are seeing. With the pervasiveness of social media in everyday life, including politics, the malicious use of these edited objects is a threat to the personal and public safety of people. There is therefore an urgent need for tools that automatically determine the authenticity of the content at hand, which are the object of study of the multimedia forensics research field. Goal of this thesis is the development of an efficient methodology for the detection of malicious editing on video signals. Specifically, we resort to deep learning tools, convolutional and recurrent neural networks in particular, to identify and localize image-based attacks, consisting in the addition of portions of other source videos in order to alter or hide the content of the original signal. We address this task using an anomaly detection approach. We propose different types of autoencoders, networks designed to learn a reduced dimensionality representation of their input. Training them to perfectly reconstruct non-altered portions of videos, image-based attacks are localized as regions of the input that are badly reconstructed. By measuring the reconstruction error, we are able to create an heatmap of the possible attacks. We train three different families of autoencoders, both in a recurrent version, where we resort to the convolutional LSTM model, and in a non-recurrent one, where instead we use convolutional neural networks only. Part of the novelty of this work consists in the way we look at the video signal. Considering it as a volume, we train each family of networks to reconstruct it from different perspectives, by "rotating" the volume of 90 degrees along the frame axes. The use of the convolutional LSTM model, along with this volume rotation procedure, to the best of our knowledge have never been tried in literature, and we show that in some scenarios help the localization of the attack. To train the autoencoders, we resorted to different forms of loss functions. Among them, we propose a regularization term that empirically enabled us to achieve the best results in our tests. The results obtained pave the way to future lines of research, such as the use of neural networks that are more suited for handling video data according to the "volume" paradigm and semantic (3D convolutional neural networks indeed), or the integration of the different perspectives of the rotated volume in a single model. Using semi-supervised approach, or mixing unsupervised and supervised approaches, are also viable options.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
Lo sviluppo di sistemi di comunicazione basati sull’utilizzo della rete, come i social network, le app di messaggistica istantanea, etc., ha esponenzialmente aumentato la quantità di contenuti multimediali scambiati fra le persone ogni giorno. La diffusione, allo stesso tempo, di strumenti di editing dal facile utilizzo, pone il problema di valutare l’autenticità del contenuto che stiamo osservando. Considerando la pervasività dei social media nella vita di tutti i giorni, e in ambiti sensibili come quello politico, l’uso illecito o malevolo di questi strumenti di editing è una seria minaccia per la sicurezza privata, e pubblica, di un gran numero di persone. Vi è pertanto un bisogno urgente di strumenti in grado di determinare in modo automatico l’autenticità di contenuti multimediali. Tali strumenti sono oggetto di studio del campo di ricerca della forensica multimediale. Obiettivo di questa tesi è lo sviluppo di una metodologia per l’identificazione di operazioni di manomissione su segnali video. In particolare, utilizziamo strumenti di deep learning, reti neurali convoluzionali e ricorrenti, per identificare e localizzare i cosiddetti image-based attack, ovvero le addizioni di porzioni di video esterni usate per alterare o nascondere il contenuto originale del segnale. Affrontiamo il problema utilizzando un approccio ispirato al campo della anomaly detection, proponendo diversi tipi di autoencoder, reti progettate per imparare una rappresentazione di dimensionalità ridotta del proprio input. Addestrando queste reti a ricostruire perfettamente porzioni di video non alterate, gli image-based attack sono localizzati come regioni del video in input che sono ricostruite sommariamente. Misurando l’errore di ricostruzione, siamo in grado di creare una heatmap delle zone attaccate. Addestriamo tre differenti famiglie di autoencoder, declinate sia in una versione ricorrente, basata sul convolutional LSTM model, sia in una non ricorrente, basata invece solamente sulle reti neurali convoluzionali. Parte del contributo innovativo di questo lavoro consiste nella modalità con cui osserviamo il segnale video. Considerando il video come un volume, addestriamo ogni famiglia di reti a ricostruirlo da differenti prospettive, "ruotando" il volume di 90 gradi lungo gli assi dell’immagine. L’uso del convolutional LSTM model, insieme alla procedura di rotazione del volume, a nostra conoscenza non sono mai stati proposti in letteratura, e mostriamo come in alcuni scenari possano aiutare la localizzazione dell’attacco. Per addestrare gli autoencoder, ricorriamo a diversi tipi di loss function. Tra di essi, proponiamo un termine di regolarizzazione che empiricamente ci ha permesso di raggiungere i migliori risultati nei nostri test. I risultati ottenuti aprono diverse future prospettive di ricerca, come l’uso di reti neurali che siano più adatte all’elaborazione dei segnali video secondo il paradigma e la semantica dei "volumi" (come ad esempio le reti neurali convoluzionali 3D), o l’integrazione delle differenti prospettive del volume ruotato all’interno di un unico modello. Altre opzioni percorribili sono l’uso di approcci semi-supervisionati, o l’utilizzo di approcci misti supervisionati e non supervisionati.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 11.32 MB
Formato Adobe PDF
11.32 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149900