The communication power associated with visual content makes digital images a powerful and effective tool to deliver messages, spread ideas, and prove facts. Smartphones, digital cameras, and camcorders are becoming more affordable every day, and thus constitute a rapid and convenient way of capturing and sharing photos quickly and inexpensively. The increasing diversity of brands, models, and devices makes the creation of new visual contents easier every day, while the ever-growing access to social network and picture sharing platforms poses a set of challenges, from the diffusion of illegal content to copyright infringement. The wide availability and ease of use of image manipulation software makes the process of altering an image simple and fast. This could severely reduce the trustworthiness of digital images for users, legal courts, and police investigators. The fake news phenomenon is a well-known and widespread example of the malicious use of digital pictures and manipulation software. Modified images done with precision are used to create false proofs for made-up stories, exploiting the often unquestionable trust with which readers take in visual content. In this thesis we face several challenges related to the analysis of digital images. A first step in assessing image authenticity, and tracing an image back to its origins, consists in determining which device shot a specific picture. State-of-the-art techniques based on Photo Response Non-Uniformity (PRNU) prove to be very effective in determining the specific sensor that shot a picture. However, given the highly increasing number of devices, a full-range search over all the existing devices is impractical and time consuming. One of the ways to reduce the search space is to first find the camera model that took a picture, then test the image under analysis against the devices from the same camera model. In this thesis we present the first data-driven method designed to learn camera model features directly from a collection of images, showing how modern deep-learning techniques based on Convolutional Neural Networks (CNN) can be adapted to multimedia forensics tasks. When it comes to a large-scale search of picture-device matches based on PRNU, at least two challenges arise: time and storage space constraints. To address such challenges, the forensics community explored a series of techniques to compress PRNU fingerprints and residuals. In order to reduce storage space requirements, while lowering the computational complexity, we introduce two techniques to address PRNU compression, by exploiting classical signal processing analysis and data reduction techniques. While determining the origin of a digital image is important to solve copyright infringement cases, digital images can be locally altered by adding, removing, or modifying objects with the goal of changing the semantics of the image. We present how to exploit the features learned with a CNN trained for camera model identification with the goal of detecting and localizing tampered regions within an image. Under both device identification and camera model identification perspectives, we study a set of possible antiforensics attacks tailored at anonymizing an image to prevent the correct identification of its origin. This allows us to understand the limitations and weaknesses of the proposed camera model and device identification techniques. Finally, we leverage the knowledge and skills acquired in mixing together handcrafted signal processing and data-driven methods in two different forensics applications: Laser Printer Attribution and Single versus Double JPEG Detection. In both scenarios the key to tackle the forensics task at hand is fusing together a proper signal pre-processing technique with a carefully designed data-driven system.

Il grande impatto comunicativo di immagini e contenuti visuali consente di veicolare efficacemente verso un'ampia platea di utenti, messaggi, idee, fatti. Il facile accesso ad una crescente varietà di smartphone, fotocamere e videocamere digitali consente a chiunque di catturare e condividere nuovi contenuti in maniera economica e pervasiva. Allo stesso tempo, la diffusione di social network e piattaforme di scambio immagini apre nuove sfide in termini di protezione della proprietà intellettuale e scambio di contenuti illeciti. La disponibilità di software di modifica delle immagini gratuiti o semplici da utilizzare rende il processo di alterazione dei contenuti visuali veloce e alla portata di tutti. L'impatto sociale che ne deriva è una ridotta fiducia nella veridicità delle immagini, anche da parte di enti legali ed investigatori dei corpi di polizia. La diffusione di fake news corredate da immagini accuratamente modificate è solamente un esempio di come il potere comunicativo dei contenuti visuali possa essere usato per deviare o distorcere l'informazione. In questa tesi affrontiamo alcune delle sfide legate all'analisi forense delle immagini digitali. Un primo passo nel determinare l'autenticità di un'immagine consiste nel determinarne l'origine, ovvero nell'individuare quale dispositivo ha scattato in primo luogo la fotografia. Tecniche allo stato dell'arte basate sul rumore introdotto da ogni singolo sensore sui pixel dell'immagine (PRNU) hanno dimostrato di essere particolarmente efficaci nell'abbinare un'immagine al dispositivo di origine. Tuttavia, la crescente varietà e numero di dispositivi rende una ricerca esaustiva del device specifico lenta e poco pratica. Un metodo per ridurre lo spazio di ricerca, e quindi velocizzare il processo di identificazione della sorgente, consiste nel determinare da prima marca e modello del dispositivo, e quindi individuare il device specifico con tecniche basate su PRNU. In questa tesi presentiamo il primo metodo data-driven sviluppato per apprendere come estrarre automaticamente descrittori compatti e significativi per l'identificazione del modello di camera digitale, mostrando come le moderne tecniche di deep learning basate su reti neurali convolutive possano essere adeguate al mondo delle analisi forensi multimediali. La ricerca su larga scala del device specifico che ha acquisito una fotografia, basata su tecniche di PRNU, presenta almeno due sfide tecnologiche: il tempo richiesto per la ricerca e lo spazio occupato dal database di impronte dei sensori. La comunità scientifica forense ha sviluppato una serie di tecniche per ridurre lo spazio di archiviazione necessario a salvare le impronte dei sensori e velocizzare la ricerca dei dispositivi, riducendo la complessità computazionale degli algoritmi di ricerca. A questo scopo, introduciamo in questa tesi due tecniche per la compressione delle impronte dei sensori, che uniscono tecniche classiche di elaborazione dei segnali a tecniche di riduzione della dimensionalità. Se determinare il modello di camera ed il sensore che hanno scattato una fotografia consente di risalire alla potenziale origine del contenuto principale di un’immagine, il rilevamento di regioni dell’immagine modificate, aggiunte o rimosse richiede lo sviluppo di metodi differenti. A questo scopo presentiamo come utilizzare i descrittori appresi per identificare il modello di camera al fine di localizzare le aree modificate all’interno di immagini digitali. Sia per quanto riguarda le tecniche di riconoscimento del modello di camera che per le tecniche di identificazione del sensore specifico affrontiamo anche la prospettiva anti-forense. Diversi attacchi ai sistemi di identificazione proposti sono sviluppati al fine di anonimizzare le immagini e rendere l’origine irrintracciabile. Questo consente lo studio dei punti deboli dei sistemi forensi di identificazione dell’origine delle immagini. Le conoscenze acquisite nel fondere descrittori classici, tecniche di elaborazione dei segnali e sistemi data-driven vengono infine applicate a due task forensi: l’attribuzione di un documento alla stampante laser che lo ha prodotto e il rilevamento di singola e doppia compressione JPEG di immagini digitali. Per entrambe le applicazioni il punto chiave del metodo sviluppato sta nella fusione di tecniche classiche di pre-condizionamento dei segnali e di sistemi di deep-learning opportunamente progettati.

Data-driven and handcrafted features for forensics analysis and source attribution

BONDI, LUCA

Abstract

The communication power associated with visual content makes digital images a powerful and effective tool to deliver messages, spread ideas, and prove facts. Smartphones, digital cameras, and camcorders are becoming more affordable every day, and thus constitute a rapid and convenient way of capturing and sharing photos quickly and inexpensively. The increasing diversity of brands, models, and devices makes the creation of new visual contents easier every day, while the ever-growing access to social network and picture sharing platforms poses a set of challenges, from the diffusion of illegal content to copyright infringement. The wide availability and ease of use of image manipulation software makes the process of altering an image simple and fast. This could severely reduce the trustworthiness of digital images for users, legal courts, and police investigators. The fake news phenomenon is a well-known and widespread example of the malicious use of digital pictures and manipulation software. Modified images done with precision are used to create false proofs for made-up stories, exploiting the often unquestionable trust with which readers take in visual content. In this thesis we face several challenges related to the analysis of digital images. A first step in assessing image authenticity, and tracing an image back to its origins, consists in determining which device shot a specific picture. State-of-the-art techniques based on Photo Response Non-Uniformity (PRNU) prove to be very effective in determining the specific sensor that shot a picture. However, given the highly increasing number of devices, a full-range search over all the existing devices is impractical and time consuming. One of the ways to reduce the search space is to first find the camera model that took a picture, then test the image under analysis against the devices from the same camera model. In this thesis we present the first data-driven method designed to learn camera model features directly from a collection of images, showing how modern deep-learning techniques based on Convolutional Neural Networks (CNN) can be adapted to multimedia forensics tasks. When it comes to a large-scale search of picture-device matches based on PRNU, at least two challenges arise: time and storage space constraints. To address such challenges, the forensics community explored a series of techniques to compress PRNU fingerprints and residuals. In order to reduce storage space requirements, while lowering the computational complexity, we introduce two techniques to address PRNU compression, by exploiting classical signal processing analysis and data reduction techniques. While determining the origin of a digital image is important to solve copyright infringement cases, digital images can be locally altered by adding, removing, or modifying objects with the goal of changing the semantics of the image. We present how to exploit the features learned with a CNN trained for camera model identification with the goal of detecting and localizing tampered regions within an image. Under both device identification and camera model identification perspectives, we study a set of possible antiforensics attacks tailored at anonymizing an image to prevent the correct identification of its origin. This allows us to understand the limitations and weaknesses of the proposed camera model and device identification techniques. Finally, we leverage the knowledge and skills acquired in mixing together handcrafted signal processing and data-driven methods in two different forensics applications: Laser Printer Attribution and Single versus Double JPEG Detection. In both scenarios the key to tackle the forensics task at hand is fusing together a proper signal pre-processing technique with a carefully designed data-driven system.
PERNICI, BARBARA
CESANA, MATTEO
20-mar-2019
Il grande impatto comunicativo di immagini e contenuti visuali consente di veicolare efficacemente verso un'ampia platea di utenti, messaggi, idee, fatti. Il facile accesso ad una crescente varietà di smartphone, fotocamere e videocamere digitali consente a chiunque di catturare e condividere nuovi contenuti in maniera economica e pervasiva. Allo stesso tempo, la diffusione di social network e piattaforme di scambio immagini apre nuove sfide in termini di protezione della proprietà intellettuale e scambio di contenuti illeciti. La disponibilità di software di modifica delle immagini gratuiti o semplici da utilizzare rende il processo di alterazione dei contenuti visuali veloce e alla portata di tutti. L'impatto sociale che ne deriva è una ridotta fiducia nella veridicità delle immagini, anche da parte di enti legali ed investigatori dei corpi di polizia. La diffusione di fake news corredate da immagini accuratamente modificate è solamente un esempio di come il potere comunicativo dei contenuti visuali possa essere usato per deviare o distorcere l'informazione. In questa tesi affrontiamo alcune delle sfide legate all'analisi forense delle immagini digitali. Un primo passo nel determinare l'autenticità di un'immagine consiste nel determinarne l'origine, ovvero nell'individuare quale dispositivo ha scattato in primo luogo la fotografia. Tecniche allo stato dell'arte basate sul rumore introdotto da ogni singolo sensore sui pixel dell'immagine (PRNU) hanno dimostrato di essere particolarmente efficaci nell'abbinare un'immagine al dispositivo di origine. Tuttavia, la crescente varietà e numero di dispositivi rende una ricerca esaustiva del device specifico lenta e poco pratica. Un metodo per ridurre lo spazio di ricerca, e quindi velocizzare il processo di identificazione della sorgente, consiste nel determinare da prima marca e modello del dispositivo, e quindi individuare il device specifico con tecniche basate su PRNU. In questa tesi presentiamo il primo metodo data-driven sviluppato per apprendere come estrarre automaticamente descrittori compatti e significativi per l'identificazione del modello di camera digitale, mostrando come le moderne tecniche di deep learning basate su reti neurali convolutive possano essere adeguate al mondo delle analisi forensi multimediali. La ricerca su larga scala del device specifico che ha acquisito una fotografia, basata su tecniche di PRNU, presenta almeno due sfide tecnologiche: il tempo richiesto per la ricerca e lo spazio occupato dal database di impronte dei sensori. La comunità scientifica forense ha sviluppato una serie di tecniche per ridurre lo spazio di archiviazione necessario a salvare le impronte dei sensori e velocizzare la ricerca dei dispositivi, riducendo la complessità computazionale degli algoritmi di ricerca. A questo scopo, introduciamo in questa tesi due tecniche per la compressione delle impronte dei sensori, che uniscono tecniche classiche di elaborazione dei segnali a tecniche di riduzione della dimensionalità. Se determinare il modello di camera ed il sensore che hanno scattato una fotografia consente di risalire alla potenziale origine del contenuto principale di un’immagine, il rilevamento di regioni dell’immagine modificate, aggiunte o rimosse richiede lo sviluppo di metodi differenti. A questo scopo presentiamo come utilizzare i descrittori appresi per identificare il modello di camera al fine di localizzare le aree modificate all’interno di immagini digitali. Sia per quanto riguarda le tecniche di riconoscimento del modello di camera che per le tecniche di identificazione del sensore specifico affrontiamo anche la prospettiva anti-forense. Diversi attacchi ai sistemi di identificazione proposti sono sviluppati al fine di anonimizzare le immagini e rendere l’origine irrintracciabile. Questo consente lo studio dei punti deboli dei sistemi forensi di identificazione dell’origine delle immagini. Le conoscenze acquisite nel fondere descrittori classici, tecniche di elaborazione dei segnali e sistemi data-driven vengono infine applicate a due task forensi: l’attribuzione di un documento alla stampante laser che lo ha prodotto e il rilevamento di singola e doppia compressione JPEG di immagini digitali. Per entrambe le applicazioni il punto chiave del metodo sviluppato sta nella fusione di tecniche classiche di pre-condizionamento dei segnali e di sistemi di deep-learning opportunamente progettati.
Tesi di dottorato
File allegati
File Dimensione Formato  
Luca Bondi PhD thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 27.32 MB
Formato Adobe PDF
27.32 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/145757