A multi-modal approach to forensic audio-visual device identification

The advent of the internet and social media has determined a rapid diffusion of digital multimedia content online. Images and videos are often shared to convey strong messages. If done maliciously, diffusion of biased or altered content may lead to severe social consequences. For this reason, it is important to develop forensic detectors capable of assessing the origin and the integrity of multimedia objects. In this thesis, we focus on the problem of camera model identification for video sequences. This is, given a video under analysis, detect the camera model used for its acquisition. This problem has gained a significant importance in multimedia forensics as it allows to trace back a video to its creator, thus enabling to solve copyright infringement cases as well as to expose the authors of hideous crimes. In order to solve the problem of determining the smartphone model used to acquire a video of unknown provenance, we develop two different detectors working in a multi-modal scenario. Both detectors are based on the use of convolutional neural networks (CNNs) and jointly exploit audio and visual information from the video under analysis in different ways. The first detector applies a voting procedure on top of two monomodal CNNs that analyze the audio and visual streams separately. The second detector is composed by a single CNN that takes decision jointly analyzing audio and visual data. The proposed solutions are tested on the well known Vision dataset, which contains a series of videos belonging to different devices. Experiments are performed considering original videos directly coming from the acquisition devices, videos uploaded on YouTube, videos shared through WhatsApp, and videos re-encoded using modern coding standards. Results show that the proposed multi-modal approaches outperform their mono-modal counterparts.

L’avvento di internet e dei social media ha determinato una rapida diffusione di contenuti multimediali digitali online. Le immagini e i video sono spesso condivisi per trasmettere messaggi forti. Se fatto in modo doloso, la diffusione di contenuti di parte o alterati può portare a gravi conseguenze sociali. Per questo motivo è importante sviluppare dei rilevatori forensi in grado di valutare l’origine e l’integrità degli oggetti multimediali. In questa tesi, ci concentriamo sul problema del camera model identification per sequenze video. Si tratta, dato un video in analisi, di rilevare il modello di fotocamera utilizzato per la sua acquisizione. Questo problema ha acquisito una notevole importanza nell’ambito forense multimediale in quanto permette di ricondurre un video al suo creatore, consentendo così di risolvere casi di violazione del copyright nonché esporre gli autori di crimini orribili. Per risolvere il problema della determinazione del modello di smartphone utilizzato per acquisire un video di provenienza sconosciuta, sviluppiamo due diversi rilevatori che lavorano in uno scenario multimodale. Entrambi i rilevatori si basano sull’uso di reti neurali convoluzionali (CNN) e sfruttano congiuntamente le informazioni audio e visive del video analizzato in modi diversi. Il primo rilevatore applica una procedura di voto su due CNN monomodali che analizzano separatamente i flussi audio e video. Il secondo rilevatore è composto da un’unica CNN che prende la decisione analizzando congiuntamente i dati audio e video. Le soluzioni proposte vengono testate sul noto dataset Vision, che contiene una serie di video appartenenti a diversi dispositivi. Gli esperimenti vengono eseguiti considerando video originali provenienti direttamente dai dispositivi di acquisizione, video caricati su YouTube, video condivisi tramite WhatsApp e video ricodificati utilizzando moderni standard di codifica. I risultati mostrano che gli approcci multimodali proposti superano le loro controparti monomodali.