The aim of this thesis is to enhance an existing system that examines the stream of social networks posts published during emergencies to automatically determine the locations referenced in their content. This work is enclosed in the disaster management domain, focusing on the automatic analysis of social media and the collaboration of volunteers to collect information useful for the enrichment of situational awareness in the management process. The delineated goal has been achieved through three stages. First of all, the former text-based geolocation algorithm, which relies on a Named Entity Recognition function for the detection of toponyms in the text and a weighted score system for the disambiguation of the associated candidate locations, has been completely revised to improve both its accuracy and efficiency and extend its linguistic support. Then, this process has been integrated with an image-based analysis that exploits the relationship between posts with images referring to the same scene. Specifically, it clusters posts with near-duplicate images and, through the combination of the content of posts belonging to the same cluster, is capable of extracting new knowledge that allows improving the text-based geolocation accuracy. Finally, an approach to manage the consistency of data among the different components of the system and integrate the introduced modifications has been proposed, focusing on the exploitation of posts clusters in the crowdsourcing initiatives and emergency operators tasks. The performed experimental evaluations demonstrate that the comprehensive system has been successfully improved and provides more accurate information to emergency responders, facilitating the crisis management.
Lo scopo di questa tesi è di migliorare un sistema che esamina il flusso di post dei social network pubblicati durante le emergenze per determinare automaticamente le località menzionate nel loro contenuto. Questo lavoro si pone nell’ambito della gestione dei disastri, in particolare nell’analisi automatizzata di social media e nella collaborazione di volontari per la raccolta di informazioni utili ad approfondire la consapevolezza situazionale nel processo di amministrazione. L’obiettivo delineato è stato raggiunto tramite tre interventi. Innanzitutto, il precedente algoritmo di geolocalizzazione basato sul testo, il quale fa affidamento ad una funzione di Named Entity Recognition per il riconoscimento di toponimi nel testo e di un sistema di punteggio ponderato per la disambiguazione delle località candidate associate ad essi, è stato completamente revisionato per migliorare sia la sua efficacia sia la sua efficienza e per estendere il suo supporto linguistico. Successivamente, questo processo è stato integrato con un’analisi basata sulle immagini che sfrutta la relazione tra post con immagini riferenti alla stessa scena. In particolare, clusterizza i post con immagini quasi-duplicate e, tramite la combinazione dei contenuti dei post che appartengono allo stesso cluster, è capace di estrarre nuove informazioni che permettono di migliorare la precisione della geolocalizzazione basata sul testo. Infine, è stato proposto un approccio per gestire la consistenza dei dati tra i diversi componenti del sistema e per integrare le modifiche introdotte, in particolare sfruttando la presenza dei cluster di post nelle iniziative di crowdsourcing e nelle attività svolte dagli operatori che gesticono le emergenze. I risultati sperimentali dimostrano che il sistema nel suo complesso è stato migliorato con successo e fornisce informazioni più accurate a coloro che gestiscono le emergenze, facilitando l’amministrazione dei disastri.
An integrated methodology to improve geolocation of social media content in disaster management
ZAPPA, JESSICA
2018/2019
Abstract
The aim of this thesis is to enhance an existing system that examines the stream of social networks posts published during emergencies to automatically determine the locations referenced in their content. This work is enclosed in the disaster management domain, focusing on the automatic analysis of social media and the collaboration of volunteers to collect information useful for the enrichment of situational awareness in the management process. The delineated goal has been achieved through three stages. First of all, the former text-based geolocation algorithm, which relies on a Named Entity Recognition function for the detection of toponyms in the text and a weighted score system for the disambiguation of the associated candidate locations, has been completely revised to improve both its accuracy and efficiency and extend its linguistic support. Then, this process has been integrated with an image-based analysis that exploits the relationship between posts with images referring to the same scene. Specifically, it clusters posts with near-duplicate images and, through the combination of the content of posts belonging to the same cluster, is capable of extracting new knowledge that allows improving the text-based geolocation accuracy. Finally, an approach to manage the consistency of data among the different components of the system and integrate the introduced modifications has been proposed, focusing on the exploitation of posts clusters in the crowdsourcing initiatives and emergency operators tasks. The performed experimental evaluations demonstrate that the comprehensive system has been successfully improved and provides more accurate information to emergency responders, facilitating the crisis management.File | Dimensione | Formato | |
---|---|---|---|
Tesi.pdf
non accessibile
Descrizione: Tesi completa
Dimensione
16.92 MB
Formato
Adobe PDF
|
16.92 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/149889