User-generated data turn out to be extremely effective in retrieving nearly real-time information about natural events and disasters. The E2mC (Evolution of Emergency Copernicus services) project aims to demonstrate the technical and operational feasibility of the integra- tion of social media analysis and crowd-sourced information. Within this project, an algorithm with the purpose of extracting geo-informa- tion from social media, called CIME, has been implemented. The outcome of CIME is, then, used for updating Copernicus crisis maps, in the context of the Emergency Management Service (EMS). The aim of this work is to analyze the ways the algorithm can be extended to properly perform in many diverse linguistic contexts, by comparing different approaches and open source tools. The comparison is carried out by testing different implementations, based on two open source NER tools (Stanford NER and Polyglot NER), on three significant languages: English, Italian and Spanish. Results have shown that all the implementations based on Stanford NER slightly outperform those exploiting Polyglot NER, being the first tool the state of the art. In fact, outcomes of Stanford NER modules are, on average, 6.6% better than those derived from Polyglot NER. Therefore, results suggest the development of an hybrid system, which leverages the first tool for supported languages while exploiting the second for other languages.

I dati generati dagli utenti si rivelano estremamente efficaci nel recu- perare informazioni quasi in tempo reale su eventi naturali e disastri. Il progetto E2mC (Evolution of Emergency Copernicus services) mira a dimostrare la fattibilita` tecnica e operativa dell’integrazione dell’ana- lisi dei social media e delle informazioni di crowdsourcing. All’interno di questo progetto, `e stato implementato un algoritmo con lo scopo di estrarre informazioni geografiche dai social media, chiamato CIME. Il risultato di CIME `e, quindi, utilizzato per l’aggiornamento del- le mappe di emergenza di Copernicus nel contesto del Emergency Management Service (EMS). Lo scopo di questo lavoro `e analizzare i modi in cui l’algoritmo puo` essere esteso per funzionare correttamente in molti contesti linguistici diversi, confrontando approcci diversi e strumenti open source. Il confronto `e stato effettuato testando diverse implementazioni, ba- sate su due strumenti NER open source (Stanford NER e Polyglot NER), su tre lingue significative: inglese, italiano e spagnolo. I risultati hanno mostrato che tutte le implementazioni basate su Stan- ford NER superano leggermente quelle che sfruttano Polyglot NER, essendo il primo strumento lo stato dell’arte. In effetti, i risultati dei moduli basati su Stanford NER sono, in media, del 6,6% migliori rispetto a quelli derivati da Polyglot NER. Pertanto, i risultati suggeriscono lo sviluppo di un sistema ibrido che sfrutta il primo strumento per le lingue supportate e il secondo per le altre lingue.

Multilingual named entity recognition for the geolocation of user-generated content

AIELLO, GIANMARCO
2017/2018

Abstract

User-generated data turn out to be extremely effective in retrieving nearly real-time information about natural events and disasters. The E2mC (Evolution of Emergency Copernicus services) project aims to demonstrate the technical and operational feasibility of the integra- tion of social media analysis and crowd-sourced information. Within this project, an algorithm with the purpose of extracting geo-informa- tion from social media, called CIME, has been implemented. The outcome of CIME is, then, used for updating Copernicus crisis maps, in the context of the Emergency Management Service (EMS). The aim of this work is to analyze the ways the algorithm can be extended to properly perform in many diverse linguistic contexts, by comparing different approaches and open source tools. The comparison is carried out by testing different implementations, based on two open source NER tools (Stanford NER and Polyglot NER), on three significant languages: English, Italian and Spanish. Results have shown that all the implementations based on Stanford NER slightly outperform those exploiting Polyglot NER, being the first tool the state of the art. In fact, outcomes of Stanford NER modules are, on average, 6.6% better than those derived from Polyglot NER. Therefore, results suggest the development of an hybrid system, which leverages the first tool for supported languages while exploiting the second for other languages.
RAVANELLI, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
I dati generati dagli utenti si rivelano estremamente efficaci nel recu- perare informazioni quasi in tempo reale su eventi naturali e disastri. Il progetto E2mC (Evolution of Emergency Copernicus services) mira a dimostrare la fattibilita` tecnica e operativa dell’integrazione dell’ana- lisi dei social media e delle informazioni di crowdsourcing. All’interno di questo progetto, `e stato implementato un algoritmo con lo scopo di estrarre informazioni geografiche dai social media, chiamato CIME. Il risultato di CIME `e, quindi, utilizzato per l’aggiornamento del- le mappe di emergenza di Copernicus nel contesto del Emergency Management Service (EMS). Lo scopo di questo lavoro `e analizzare i modi in cui l’algoritmo puo` essere esteso per funzionare correttamente in molti contesti linguistici diversi, confrontando approcci diversi e strumenti open source. Il confronto `e stato effettuato testando diverse implementazioni, ba- sate su due strumenti NER open source (Stanford NER e Polyglot NER), su tre lingue significative: inglese, italiano e spagnolo. I risultati hanno mostrato che tutte le implementazioni basate su Stan- ford NER superano leggermente quelle che sfruttano Polyglot NER, essendo il primo strumento lo stato dell’arte. In effetti, i risultati dei moduli basati su Stanford NER sono, in media, del 6,6% migliori rispetto a quelli derivati da Polyglot NER. Pertanto, i risultati suggeriscono lo sviluppo di un sistema ibrido che sfrutta il primo strumento per le lingue supportate e il secondo per le altre lingue.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_Aiello.pdf

non accessibile

Descrizione: Thesis text
Dimensione 6.9 MB
Formato Adobe PDF
6.9 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144809