The use of crowdsourcing for mining policy adherence indicators from social media

With the spread of the COVID-19 pandemic, the need for finding ways to keep track of the population’s behavior has increased leading consequently Statistical Institutes to use Policy Adherence indicators. The problem lies in determining a scalable way to compute such indicators without compromising the individual’s privacy. Firstly, data relied exclusively on the volunteered contribution expressed through the participation to dedicated surveys. On the other hand, Social Media like Twitter and Flickr already proven to act as reliable data sources for computing population-based indicators in fields such as Disaster Relief. Through the use of Crowdsourcing and Deep Learning a Pipeline has been proposed to collect data from Social Media, leverage the feedback from the Crowd and compute such indicator. The main contribution of this work lies in the extension of the Pipeline to automatically classify the extracted posts by learning directly from the Crowd’s contribution. This process can be realized by leveraging and comparing different aggregation techniques to ensure the optimal classification performance and by using Attention-based Image classifiers aimed at understanding the specific areas of interest in the image that determine the associated class. The results obtained have been then compared with the existing data sources in order to verify the possibility to use Social Media as effective source for computing Policy Adherence indicators. Overall, evaluations showed how, by taking into account enough Tweets, it is possible to obtain a high correlation with the benchmark data. It is therefore possible to use this solution to populate maps and scale the computation to provide more granular data and support the monitor of Safety Measure’s adoption by the different countries.

La diffusione della pandemia di COVID-19 ha evidenziato il bisogno, in momenti di emergenza, di disporre di indicatori volti a monitorare il comportamento generale della popolazione spingendo Istituti Statistici a definire ed usare Policy Adherence indicators. Ciò ha però sollevato il problema di poter calcolare tali indicatori senza compromettere la privacy dei cittadini. I dati attualmente a disposizione, si basano infatti sulla contribuzione volontaria a questionari. Invece, Social Media come Flickr e Twitter hanno avuto modo di dimostrare la loro potenziale utilità come fonti di dati per il calcolo di indicatori basati sulla popolazione in campi come il Disaster Relief. Tramite l’uso del Crowdsourcing e del Deep Learning è stata dunque proposta una Pipeline volta ad estrarre dati da Social Media ed utilizzare il feedback di una Crowd per calcolare tali indicatori. Questo documento vuole contribuire proponendo un’estensione di tale Pipeline per classificare i posts estratti automaticamente imparando dal contributo della Crowd. Questo sfruttando diverse strategie di aggregazione dei diversi contributi per ottimizzare le performance di classificazione utilizzando nuovi paradigmi nel campo della Computer Vision come l’Attention che permette di indicare al classificatore quali sono le aree dell’immagine più significative per la determinazione della classe. I risultati ottenuti sono stati poi confrontati con i dati a disposizione per validare sperimentalmente la possibilità di usare i Social Media come fonte attendibile per il calcolo di Policy Adherence indicators. In particolare è stato possibile osservare come, considerando un numero sufficientemente alto di Tweet per una nazione, sia possible ottenere un’alta correlazione con i dati di confronto. E’ quindi stato possibile usare la soluzione presentata per popolare mappe rappresentanti l’indicatore e supportare il monitoraggio dell’adozione di misure di sicurezza nelle diverse nazioni.