Nowadays, thanks to the diffusion of hand-held video capturing devices and the widespread use of social networks and messaging apps, videos are commonly shared and have become part of our daily life. However, video manipulation is at everyone's hand thanks to the huge availability of easy-to-use video editing software suites. This has raised new social concerns, as the distribution of maliciously manipulated videos can lead to severe consequences (e.g., people defamation, fake-news spreading, mass opinion formation, etc.). For this reason, the multimedia forensics community has started developing a series of techniques to assess video authenticity and integrity. The goal of this thesis is to enrich the panorama of video forensic technique, by proposing a video frame-rate interpolation detector. Given a video under analysis, our goal is to detect whether the video has undergone some frame-rate upsampling operations that are often applied when multiple videos are spliced together, or to hide some part of a video. The proposed technique is based on an ensemble of Convolutional Neural Networks (CNNs) working on three different video domains (i.e., pixels, optical flow, and frame residuals), and on a Support Vector Machine (SVM) for a final classification. Results show that the proposed method outperforms state-of-the-art video frame-rate interpolation detectors, and can also be used to localize the spatial regions in which a video has been interpolated.

Al giorno d'oggi, grazie alla diffusione di dispositivi di acquisizione video a portata di mano e all'uso molto diffuso di social network e app di messaggistica, i video vengono condivisi facilmente e sono diventati parte della nostra vita quotidiana. Tuttavia, la manipolazione dei video è diventata alla portata di tutti grazie alla grande disponibilità di software, semplici da utilizzare, per la modifica video. Ciò ha sollevato nuove preoccupazioni sociali, poiché la distribuzione di video manipolati in modo dannoso può portare a gravi conseguenze (ad esempio, diffamazione delle persone, diffusione di notizie false, formazione di opinioni di massa, ecc.). Per questo motivo, la comunità di forensica multimediale ha iniziato a sviluppare una serie di tecniche per stabilire l'autenticità e l'integrità dei video. L'obiettivo di questa tesi è di arricchire il parnorama delle tecniche di forensica video, proponendo un detector per identificare l'interpolazione frame-rate di video. Dato un video da analizzare, il nostro obiettivo è di identificare se il video ha subito qualche operazione di sovra campionamento frame-rate che sono solitamente applicate quando molteplici video vengono uniti, o per nascondere alcune parti di un video. La tecnica proposta è basata su un insieme di Convolutional Neural Network (CNN) che lavorano su tre diversi domini video (ovvero, pixels, optical flow e residui di frame), e su una Support Vector Machine (SVM) per una classificazione finale. I risultati mostrano che il metodo proposto supera in prestazioni i più recenti detector di interpolazione frame rate di video, e può anche essere usato per localizzare le regioni di spazio in cui un video è stato interpolato.

A CNN-based detector for video frame-rate interpolation

MARIANI, SIMONE
2020/2021

Abstract

Nowadays, thanks to the diffusion of hand-held video capturing devices and the widespread use of social networks and messaging apps, videos are commonly shared and have become part of our daily life. However, video manipulation is at everyone's hand thanks to the huge availability of easy-to-use video editing software suites. This has raised new social concerns, as the distribution of maliciously manipulated videos can lead to severe consequences (e.g., people defamation, fake-news spreading, mass opinion formation, etc.). For this reason, the multimedia forensics community has started developing a series of techniques to assess video authenticity and integrity. The goal of this thesis is to enrich the panorama of video forensic technique, by proposing a video frame-rate interpolation detector. Given a video under analysis, our goal is to detect whether the video has undergone some frame-rate upsampling operations that are often applied when multiple videos are spliced together, or to hide some part of a video. The proposed technique is based on an ensemble of Convolutional Neural Networks (CNNs) working on three different video domains (i.e., pixels, optical flow, and frame residuals), and on a Support Vector Machine (SVM) for a final classification. Results show that the proposed method outperforms state-of-the-art video frame-rate interpolation detectors, and can also be used to localize the spatial regions in which a video has been interpolated.
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2022
2020/2021
Al giorno d'oggi, grazie alla diffusione di dispositivi di acquisizione video a portata di mano e all'uso molto diffuso di social network e app di messaggistica, i video vengono condivisi facilmente e sono diventati parte della nostra vita quotidiana. Tuttavia, la manipolazione dei video è diventata alla portata di tutti grazie alla grande disponibilità di software, semplici da utilizzare, per la modifica video. Ciò ha sollevato nuove preoccupazioni sociali, poiché la distribuzione di video manipolati in modo dannoso può portare a gravi conseguenze (ad esempio, diffamazione delle persone, diffusione di notizie false, formazione di opinioni di massa, ecc.). Per questo motivo, la comunità di forensica multimediale ha iniziato a sviluppare una serie di tecniche per stabilire l'autenticità e l'integrità dei video. L'obiettivo di questa tesi è di arricchire il parnorama delle tecniche di forensica video, proponendo un detector per identificare l'interpolazione frame-rate di video. Dato un video da analizzare, il nostro obiettivo è di identificare se il video ha subito qualche operazione di sovra campionamento frame-rate che sono solitamente applicate quando molteplici video vengono uniti, o per nascondere alcune parti di un video. La tecnica proposta è basata su un insieme di Convolutional Neural Network (CNN) che lavorano su tre diversi domini video (ovvero, pixels, optical flow e residui di frame), e su una Support Vector Machine (SVM) per una classificazione finale. I risultati mostrano che il metodo proposto supera in prestazioni i più recenti detector di interpolazione frame rate di video, e può anche essere usato per localizzare le regioni di spazio in cui un video è stato interpolato.
File allegati
File Dimensione Formato  
Simone_Mariani_Thesis_Article.pdf

accessibile in internet per tutti

Descrizione: Simone Mariani - Thesis
Dimensione 13.41 MB
Formato Adobe PDF
13.41 MB Adobe PDF Visualizza/Apri
Simone_Mariani_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Simone Mariani - Executive Summary
Dimensione 3.23 MB
Formato Adobe PDF
3.23 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186433