The need to geolocate images of indoor scenes occurs in many applications, including police forensic investigations into people trafficking and related crimes. According to the CTDC ootnote{Counter-Trafficking Data Collaborative}, data collected since 2002 suggests that the rate of human trafficking crimes has dramatically grown over the years, with up to a 15% increase cite{ctdc}. These types of crimes are complex and dynamic, taking place in a wide variety of contexts that are difficult to detect. This thesis addresses the urge to respond to the need of developing targeted counter-trafficking responses by proposing an automated-tool to facilitate investigations in identifying where a crime has occurred. Recent advances in deep learning based image processing technology have eased such image content-based geolocation. In order to be useful in such applications, geolocation technology needs not only be accurate but also interpretable and explanatory. In this thesis we develop effective geolocation techniques for indoor images, combining state-of-the-art attention-based image classification models with multi-task training to maximise geolocation performance at different levels of granularity (city, country, subregion, etc.). We further develop techniques for explaining the model's predictions in an intuitive manner based on the objects within the image upon which the classifier places the most attention, resulting both in visual an text explanations. We perform experiments comparing models with and without attention and analyzing the generated explanations, demonstrating the efficacy of the approach on real datasets gathered from public online sources such as travel websites or crowd-sourcing platforms.

La necessità di geolocalizzare immagini raffiguranti scene di interni di abitazioni si manifesta in diversi ambiti, tra cui durante investigazioni da parte della polizia su reati quali il traffico di esseri umani. Secondo l'agenzia CTDC ootnote{Counter-Trafficking Data Collaborative}, dati raccolti a partire dal 2002 cite{ctdc} suggeriscono un drammatico incremento del tasso di crimini legati al traffico di esseri umani, pari circa a un 15%. Questo tipo di reati risulta complesso e dinamico, compiendosi in una varietà di contesti e ambienti, spesso difficili da individuare. Questa tesi si propone di rispondere all'appello urgente di sviluppare una risposta mirata ed efficace al contrasto di questo tipo di reati. Ciò, attraverso lo sviluppo di uno strumento automatico, volto a velocizzare le investigazioni nell'individuazione del luogo del crimine. I recenti sviluppi in tecnologie di elaborazione di immagini attraverso Deep Learning hanno facilitato lo sviluppo di tecniche di geolocalizzazione basate sul solo contenuto grafico. Perchè un tale strumento possa essere utile in applicazioni quali l'analisi forense digitale, la tecnologia di geolocalizzazione sviluppata deve non solo essere precisa, ma anche interpretabile e autoesplicativa. In questa tesi sviluppiamo tecniche efficaci per geolocalizzare scene di interni, combinando lo stato dell'arte in classificaione di immagini basato su modelli con il cosiddetto meccanismo di "attenzione" assieme a un apprendimento parallelo, massimizzando così la prestazione del modello di geolocalizzazione a granularità diverse (a livello di città, stato, regione...). Inoltre, sviluppiamo tecniche per generare spiegazioni intuitive delle predizioni del modello a partire dagli oggetti nell'immagine su cui il modello ha posto maggiore "attenzione". Tali spiegazioni sono di tipo sia visivo che testuale. Infine, svolgiamo esperimenti confrontando i modelli con e senza "attenzione" e analizziamo le spiegazione prodotte, dimostrando l'efficacia dell'approccio proposto su dati reali, raccolti da fonti pubbliche tra cui siti di agenzie viaggi e siti di raccolta immagini da singoli utenti.

A hierarchical geolocation of indoor scenes with visual and text explanations using deep learning

NEGRI, VIRGINIA
2019/2020

Abstract

The need to geolocate images of indoor scenes occurs in many applications, including police forensic investigations into people trafficking and related crimes. According to the CTDC ootnote{Counter-Trafficking Data Collaborative}, data collected since 2002 suggests that the rate of human trafficking crimes has dramatically grown over the years, with up to a 15% increase cite{ctdc}. These types of crimes are complex and dynamic, taking place in a wide variety of contexts that are difficult to detect. This thesis addresses the urge to respond to the need of developing targeted counter-trafficking responses by proposing an automated-tool to facilitate investigations in identifying where a crime has occurred. Recent advances in deep learning based image processing technology have eased such image content-based geolocation. In order to be useful in such applications, geolocation technology needs not only be accurate but also interpretable and explanatory. In this thesis we develop effective geolocation techniques for indoor images, combining state-of-the-art attention-based image classification models with multi-task training to maximise geolocation performance at different levels of granularity (city, country, subregion, etc.). We further develop techniques for explaining the model's predictions in an intuitive manner based on the objects within the image upon which the classifier places the most attention, resulting both in visual an text explanations. We perform experiments comparing models with and without attention and analyzing the generated explanations, demonstrating the efficacy of the approach on real datasets gathered from public online sources such as travel websites or crowd-sourcing platforms.
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
La necessità di geolocalizzare immagini raffiguranti scene di interni di abitazioni si manifesta in diversi ambiti, tra cui durante investigazioni da parte della polizia su reati quali il traffico di esseri umani. Secondo l'agenzia CTDC ootnote{Counter-Trafficking Data Collaborative}, dati raccolti a partire dal 2002 cite{ctdc} suggeriscono un drammatico incremento del tasso di crimini legati al traffico di esseri umani, pari circa a un 15%. Questo tipo di reati risulta complesso e dinamico, compiendosi in una varietà di contesti e ambienti, spesso difficili da individuare. Questa tesi si propone di rispondere all'appello urgente di sviluppare una risposta mirata ed efficace al contrasto di questo tipo di reati. Ciò, attraverso lo sviluppo di uno strumento automatico, volto a velocizzare le investigazioni nell'individuazione del luogo del crimine. I recenti sviluppi in tecnologie di elaborazione di immagini attraverso Deep Learning hanno facilitato lo sviluppo di tecniche di geolocalizzazione basate sul solo contenuto grafico. Perchè un tale strumento possa essere utile in applicazioni quali l'analisi forense digitale, la tecnologia di geolocalizzazione sviluppata deve non solo essere precisa, ma anche interpretabile e autoesplicativa. In questa tesi sviluppiamo tecniche efficaci per geolocalizzare scene di interni, combinando lo stato dell'arte in classificaione di immagini basato su modelli con il cosiddetto meccanismo di "attenzione" assieme a un apprendimento parallelo, massimizzando così la prestazione del modello di geolocalizzazione a granularità diverse (a livello di città, stato, regione...). Inoltre, sviluppiamo tecniche per generare spiegazioni intuitive delle predizioni del modello a partire dagli oggetti nell'immagine su cui il modello ha posto maggiore "attenzione". Tali spiegazioni sono di tipo sia visivo che testuale. Infine, svolgiamo esperimenti confrontando i modelli con e senza "attenzione" e analizziamo le spiegazione prodotte, dimostrando l'efficacia dell'approccio proposto su dati reali, raccolti da fonti pubbliche tra cui siti di agenzie viaggi e siti di raccolta immagini da singoli utenti.
File allegati
File Dimensione Formato  
virginia_negri_master_thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: final version
Dimensione 20.4 MB
Formato Adobe PDF
20.4 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166292