A common need shared across several fields of application is the demand for geolocating outdoor images in order to understand where they were taken. This could be the case of the interventions of emergency services: with the advent of social media technologies, many people are posting photos and pictures related to natural disasters, often taken from unknown and untrusted sources, that could lead rescuers to wrong locations. For this reason, we create a collection of artificial intelligence models which are able to find the correct location of an image. This is performed by splitting the world into a set of regions, and finding the one in which such a picture comes from. In order to boost the accuracy of these self-learning models, we design new models for the hierarchical region classification task which directly encode the hierarchy of the regions into the neural architecture, specifically the feedforward layers of the CNN-based classification network. Cells are generated following a hierarchical process, and the models reflect the hierarchy by replicating the structure within the neural network. The use of such knowledge in the network structure results in better predictions both in terms of accuracy and calibration of the predicted confidence values. In order to prove the effectiveness of the hierarchical structure, we evaluate the models that we create using machine learning assessments that measure the quality and the calibration of the predictions. Finally, in order to provide users with a comprehensible prediction, we implement a set of visual explanations that are correlated to the model output. In particular, we provide a saliency map which evidence the pixels that were useful for the prediction and a world map which shows an overlay of the cells, together with their confidence levels. From a qualitative analysis, we are able to show how the saliency map is useful for highlighting areas of the image that are helpful for the prediction (buildings, trees, etc.) and how the world map can give hints on the true location of the image: if the model cannot predict the exact location, this visual world map can provide an overview of where the most likely regions are placed over the earth so that users can be helped in finding the correct location.

Un'esigenza comune a più campi di applicazione è il bisogno di geolocalizzare le immagini outdoor per capire dove sono state scattate. Potrebbe essere il caso degli interventi dei servizi di emergenza: con l'avvento dei social media, molte persone pubblicano fotografie e immagini relative a disastri naturali, spesso prese da fonti sconosciute e non attendibili, che potrebbero portare i soccorritori a intervenire in luoghi sbagliati. Per questo motivo creiamo un set di modelli di intelligenza artificiale in grado di trovare la corretta posizione di un'immagine. Ciò viene eseguito suddividendo il mondo in un insieme di regioni e trovando quella da cui proviene tale immagine. Per aumentare l'accuratezza di questi modelli di autoapprendimento, creiamo una serie di implementazioni che tengano conto del suddetta distribuzione delle regioni, a partire dal loro processo di generazione: le aree sono generate gerarchicamente e i modelli si avvalgono di queste informazioni. Infatti, riflettono le informazioni gerarchiche replicandone la struttura all'interno della rete neurale. L'uso di informazioni gerarchiche nella struttura della rete porta a migliori previsioni sia in termini di accuratezza che di calibrazione dei valori di confidenza predetti. Al fine di dimostrare l'efficacia della struttura gerarchica, valutiamo i modelli che creiamo utilizzando alcuni metodi di apprendimento automatico che misurano la qualità e la calibrazione delle previsioni. Infine, per fornire agli utenti una previsione più comprensibile, implementiamo una serie di spiegazioni visive che sono correlate all'output del modello. In particolare, forniamo una mappa di salienza che evidenzia i pixel utili per la previsione e una mappa del mondo che mostra una sovrapposizione delle celle, insieme ai loro livelli di confidenza. Da un'analisi qualitativa, siamo in grado di mostrare come la mappa di salienza sia utile per evidenziare le aree dell'immagine utili per la previsione (edifici, alberi, ecc.) e come la mappa del mondo possa dare indicazioni sulla vera localizzazione dell'immagine: se il modello non può prevedere la posizione esatta, questa mappa può fornire una panoramica di come sono distribuite le regioni più probabili, in modo che gli utenti possano essere aiutati a trovare la coppia di coordinate corretta.

Hierarchical classification model for content-based geolocation of outdoor images with visual explanations

Loria, Luca
2020/2021

Abstract

A common need shared across several fields of application is the demand for geolocating outdoor images in order to understand where they were taken. This could be the case of the interventions of emergency services: with the advent of social media technologies, many people are posting photos and pictures related to natural disasters, often taken from unknown and untrusted sources, that could lead rescuers to wrong locations. For this reason, we create a collection of artificial intelligence models which are able to find the correct location of an image. This is performed by splitting the world into a set of regions, and finding the one in which such a picture comes from. In order to boost the accuracy of these self-learning models, we design new models for the hierarchical region classification task which directly encode the hierarchy of the regions into the neural architecture, specifically the feedforward layers of the CNN-based classification network. Cells are generated following a hierarchical process, and the models reflect the hierarchy by replicating the structure within the neural network. The use of such knowledge in the network structure results in better predictions both in terms of accuracy and calibration of the predicted confidence values. In order to prove the effectiveness of the hierarchical structure, we evaluate the models that we create using machine learning assessments that measure the quality and the calibration of the predictions. Finally, in order to provide users with a comprehensible prediction, we implement a set of visual explanations that are correlated to the model output. In particular, we provide a saliency map which evidence the pixels that were useful for the prediction and a world map which shows an overlay of the cells, together with their confidence levels. From a qualitative analysis, we are able to show how the saliency map is useful for highlighting areas of the image that are helpful for the prediction (buildings, trees, etc.) and how the world map can give hints on the true location of the image: if the model cannot predict the exact location, this visual world map can provide an overview of where the most likely regions are placed over the earth so that users can be helped in finding the correct location.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Un'esigenza comune a più campi di applicazione è il bisogno di geolocalizzare le immagini outdoor per capire dove sono state scattate. Potrebbe essere il caso degli interventi dei servizi di emergenza: con l'avvento dei social media, molte persone pubblicano fotografie e immagini relative a disastri naturali, spesso prese da fonti sconosciute e non attendibili, che potrebbero portare i soccorritori a intervenire in luoghi sbagliati. Per questo motivo creiamo un set di modelli di intelligenza artificiale in grado di trovare la corretta posizione di un'immagine. Ciò viene eseguito suddividendo il mondo in un insieme di regioni e trovando quella da cui proviene tale immagine. Per aumentare l'accuratezza di questi modelli di autoapprendimento, creiamo una serie di implementazioni che tengano conto del suddetta distribuzione delle regioni, a partire dal loro processo di generazione: le aree sono generate gerarchicamente e i modelli si avvalgono di queste informazioni. Infatti, riflettono le informazioni gerarchiche replicandone la struttura all'interno della rete neurale. L'uso di informazioni gerarchiche nella struttura della rete porta a migliori previsioni sia in termini di accuratezza che di calibrazione dei valori di confidenza predetti. Al fine di dimostrare l'efficacia della struttura gerarchica, valutiamo i modelli che creiamo utilizzando alcuni metodi di apprendimento automatico che misurano la qualità e la calibrazione delle previsioni. Infine, per fornire agli utenti una previsione più comprensibile, implementiamo una serie di spiegazioni visive che sono correlate all'output del modello. In particolare, forniamo una mappa di salienza che evidenzia i pixel utili per la previsione e una mappa del mondo che mostra una sovrapposizione delle celle, insieme ai loro livelli di confidenza. Da un'analisi qualitativa, siamo in grado di mostrare come la mappa di salienza sia utile per evidenziare le aree dell'immagine utili per la previsione (edifici, alberi, ecc.) e come la mappa del mondo possa dare indicazioni sulla vera localizzazione dell'immagine: se il modello non può prevedere la posizione esatta, questa mappa può fornire una panoramica di come sono distribuite le regioni più probabili, in modo che gli utenti possano essere aiutati a trovare la coppia di coordinate corretta.
File allegati
File Dimensione Formato  
Luca_Loria_Thesis_and_Exec_Summary.pdf

accessibile in internet per tutti

Descrizione: Hierarchical classification model for content-based geolocation of outdoor images with visual explanations
Dimensione 8.27 MB
Formato Adobe PDF
8.27 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183044