Two software have been developed to perform scraping and crawling of data concerning the Arctic Circle, extracted both from Twitter and Blogs. The characteristics of the software make it a tool suitable for application in an environmental context, as was done in the research activity referred to in this thesis in order to assess the current situation of the Arctic Circle. The safety is also a field around which gravitate, currently, frequent discussions since with the melting of glaciers becomes increasingly common practice of exploitation of water and any other natural resource of the Arctic, more specifically for the extraction of gas and oil from underground deposits. Through the use of software and therefore through the crawling of twitter and websites it is possible to monitor in real time everything about the Arctic Circle - be it environmental or security. The crawling and the consequent analysis of the extracted data, has been realized through Python programming. Therefore, on one hand, the extraction of tweets and, on the other hand, the parsing of the HTML of the Arctic blogs containing newspaper articles was carried out. All this has been possible thanks to keywords extrapolated in a qualitative way from searches made on the web about news concerning that area of our planet. Moreover, a web interface able to show has been provided, in a chronological way, the articles of the above mentioned blogs. These articles have been placed in three distinct macro-categories, namely: Environment, Security and Locations, each of which includes in turn, within itself, at least one of the topics of interest. As for the data extracted from tweets, instead, it is represented that they were analyzed in order to highlight the main topics of concern and interest of Twitter users, with the purpose of performing an alert system based on the volume of daily tweets.

Sono stati sviluppati due software per effettuare lo scraping e il crawling dei dati inerenti al Circolo Polare Artico, estrapolati sia da Twitter che da Blogs. Le caratteristiche del software lo rendono uno strumento adatto all’applicazione in un contesto ambientale, così come è stato fatto nell’ambito dell’attività di ricerca di cui alla presente tesi al fine di valutare la situazione attuale del Circolo Polare Artico. Quello della sicurezza rappresenta, altresì, un campo intorno al quale gravitano, attualmente, frequenti discussioni poiché, con lo scioglimento dei ghiacciai, diviene sempre più diffusa la pratica dello sfruttamento delle acque e di ogni altra risorsa naturale dell’Artico, più in particolare per le attività di estrazione di gas e oli dai giacimenti sotterranei. Tramite l’uso dei software e quindi attraverso il crawling di twitter e dei siti web è possibile monitorare in real-time tutto ciò che riguarda il Circolo Polare Artico - sia esso a livello ambientale o di sicurezza. Il crawling e la conseguente analisi dei dati estratti, `e stata realizzata tramite programmazione Python. È stata dunque effettuata, da un lato, l’estrazione dei tweets, dall’altro, il parsing degli HTML dei blog dell’Artico contenenti articoli di giornale. Tutto questo è stato possibile grazie a delle keywords estrapolate in maniera qualitativa da ricerche effettuate sul web in merito alle notizie di attualità che riguardassero quella zona del nostro Pianeta. È stata fornita, inoltre, un’interfaccia web in grado di mostrare, in maniera cronologica, gli articoli dei suddetti blog. Questi articoli sono stati collocati in tre distinte macro-categorie, e cioè: Environment, Security e Locations, ognuna delle quali comprende a propria volta, al suo interno, almeno uno dei topic di interesse. Per quanto riguarda i dati estrapolati dai tweet, invece, si rappresenta che sono stati analizzati al fine di evidenziare i principali argomenti di preoccupazione e interesse degli utenti di Twitter, con lo scopo di effettuare un alert system basato sul volume di tweet giornalieri.

A methodology for event detection and geolocation based on social media information

Caterino, Mariarosaria;FIORINI, GIORGIO
2020/2021

Abstract

Two software have been developed to perform scraping and crawling of data concerning the Arctic Circle, extracted both from Twitter and Blogs. The characteristics of the software make it a tool suitable for application in an environmental context, as was done in the research activity referred to in this thesis in order to assess the current situation of the Arctic Circle. The safety is also a field around which gravitate, currently, frequent discussions since with the melting of glaciers becomes increasingly common practice of exploitation of water and any other natural resource of the Arctic, more specifically for the extraction of gas and oil from underground deposits. Through the use of software and therefore through the crawling of twitter and websites it is possible to monitor in real time everything about the Arctic Circle - be it environmental or security. The crawling and the consequent analysis of the extracted data, has been realized through Python programming. Therefore, on one hand, the extraction of tweets and, on the other hand, the parsing of the HTML of the Arctic blogs containing newspaper articles was carried out. All this has been possible thanks to keywords extrapolated in a qualitative way from searches made on the web about news concerning that area of our planet. Moreover, a web interface able to show has been provided, in a chronological way, the articles of the above mentioned blogs. These articles have been placed in three distinct macro-categories, namely: Environment, Security and Locations, each of which includes in turn, within itself, at least one of the topics of interest. As for the data extracted from tweets, instead, it is represented that they were analyzed in order to highlight the main topics of concern and interest of Twitter users, with the purpose of performing an alert system based on the volume of daily tweets.
CIAPPA, ACHILLE
CORSI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Sono stati sviluppati due software per effettuare lo scraping e il crawling dei dati inerenti al Circolo Polare Artico, estrapolati sia da Twitter che da Blogs. Le caratteristiche del software lo rendono uno strumento adatto all’applicazione in un contesto ambientale, così come è stato fatto nell’ambito dell’attività di ricerca di cui alla presente tesi al fine di valutare la situazione attuale del Circolo Polare Artico. Quello della sicurezza rappresenta, altresì, un campo intorno al quale gravitano, attualmente, frequenti discussioni poiché, con lo scioglimento dei ghiacciai, diviene sempre più diffusa la pratica dello sfruttamento delle acque e di ogni altra risorsa naturale dell’Artico, più in particolare per le attività di estrazione di gas e oli dai giacimenti sotterranei. Tramite l’uso dei software e quindi attraverso il crawling di twitter e dei siti web è possibile monitorare in real-time tutto ciò che riguarda il Circolo Polare Artico - sia esso a livello ambientale o di sicurezza. Il crawling e la conseguente analisi dei dati estratti, `e stata realizzata tramite programmazione Python. È stata dunque effettuata, da un lato, l’estrazione dei tweets, dall’altro, il parsing degli HTML dei blog dell’Artico contenenti articoli di giornale. Tutto questo è stato possibile grazie a delle keywords estrapolate in maniera qualitativa da ricerche effettuate sul web in merito alle notizie di attualità che riguardassero quella zona del nostro Pianeta. È stata fornita, inoltre, un’interfaccia web in grado di mostrare, in maniera cronologica, gli articoli dei suddetti blog. Questi articoli sono stati collocati in tre distinte macro-categorie, e cioè: Environment, Security e Locations, ognuna delle quali comprende a propria volta, al suo interno, almeno uno dei topic di interesse. Per quanto riguarda i dati estrapolati dai tweet, invece, si rappresenta che sono stati analizzati al fine di evidenziare i principali argomenti di preoccupazione e interesse degli utenti di Twitter, con lo scopo di effettuare un alert system basato sul volume di tweet giornalieri.
File allegati
File Dimensione Formato  
2021_12_Caterino_Fiorini.pdf

solo utenti autorizzati dal 18/11/2022

Descrizione: Executive Summary più testo dell' elaborato
Dimensione 37.13 MB
Formato Adobe PDF
37.13 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/181674