In the current world where social media are prevalent in our lives, they also became an important tool to express our opinions and emotions on current public debates. Monitoring and understanding such opinions is a very complex task because the communication format is the natural language. This thesis goes thought the steps of creating an Instagram dataset, comparing the traditional topic mining technique, that uses TF-IDF, with the more modern language model based technique. The results found the language model based technique to be much better overall and it can be considered as a drop-in replacement for more traditional techniques. Moreover language model topic mining techniques are applied both on the posts and on the comments to analyze the Italian COVID debate that took place on Instagram. To further improve the results and the demographic information, sentiment and emotion analysis is employed and also techniques to estimate the age and the gender from profile images. Significant results include the estimation of trending topics in the COVID debate and the identification of relevant demographics such as the organized no-vaxxers.

Nel mondo attuale in cui i social media sono prevalenti nelle nostre vite essi sono anche diventati uno strumento importante per esprimere le nostre opinioni ed emozioni sui temi di dibattito pubblico. Il monitoraggio e la comprensione di tali opinioni è un compito molto complesso perché il formato di comunicazione è il linguaggio naturale. Questa tesi ripercorre i passaggi della creazione di un dataset basato sui contenuti di Instagram, confrontando la tradizionale tecnica di topic mining che utilizza TF-IDF con la più moderna tecnica basata sui modelli linguistici. I risultati hanno riscontrato che la tecnica basata sui modelli linguistici è molto più performante e può essere considerata un sostituto delle tecniche più tradizionali. Successivamente queste tecniche di topic mining basate sui modelli linguistici vengono applicate sia sui post che sui commenti per analizzare il dibattito, in italiano, sul COVID che si è svolto su Instagram. Per migliorare ulteriormente i risultati e le informazioni demografiche, vengono utilizzate tecniche di analisi del sentimento e delle emozioni e anche tecniche per stimare l’età e il genere partendo dalle immagini di profilo. Risultati più significativi includono la stima degli argomenti di tendenza nel dibattito sul COVID e l’identificazione di dati demografici rilevanti su gruppi quali quello dei no-vax organizzati.

Discussion topics on Instagram about COVID in Italy : techniques and applications

Ferri, Federico
2020/2021

Abstract

In the current world where social media are prevalent in our lives, they also became an important tool to express our opinions and emotions on current public debates. Monitoring and understanding such opinions is a very complex task because the communication format is the natural language. This thesis goes thought the steps of creating an Instagram dataset, comparing the traditional topic mining technique, that uses TF-IDF, with the more modern language model based technique. The results found the language model based technique to be much better overall and it can be considered as a drop-in replacement for more traditional techniques. Moreover language model topic mining techniques are applied both on the posts and on the comments to analyze the Italian COVID debate that took place on Instagram. To further improve the results and the demographic information, sentiment and emotion analysis is employed and also techniques to estimate the age and the gender from profile images. Significant results include the estimation of trending topics in the COVID debate and the identification of relevant demographics such as the organized no-vaxxers.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Nel mondo attuale in cui i social media sono prevalenti nelle nostre vite essi sono anche diventati uno strumento importante per esprimere le nostre opinioni ed emozioni sui temi di dibattito pubblico. Il monitoraggio e la comprensione di tali opinioni è un compito molto complesso perché il formato di comunicazione è il linguaggio naturale. Questa tesi ripercorre i passaggi della creazione di un dataset basato sui contenuti di Instagram, confrontando la tradizionale tecnica di topic mining che utilizza TF-IDF con la più moderna tecnica basata sui modelli linguistici. I risultati hanno riscontrato che la tecnica basata sui modelli linguistici è molto più performante e può essere considerata un sostituto delle tecniche più tradizionali. Successivamente queste tecniche di topic mining basate sui modelli linguistici vengono applicate sia sui post che sui commenti per analizzare il dibattito, in italiano, sul COVID che si è svolto su Instagram. Per migliorare ulteriormente i risultati e le informazioni demografiche, vengono utilizzate tecniche di analisi del sentimento e delle emozioni e anche tecniche per stimare l’età e il genere partendo dalle immagini di profilo. Risultati più significativi includono la stima degli argomenti di tendenza nel dibattito sul COVID e l’identificazione di dati demografici rilevanti su gruppi quali quello dei no-vax organizzati.
File allegati
File Dimensione Formato  
Thesis_Federico_Ferri.pdf

accessibile in internet per tutti

Dimensione 832.82 kB
Formato Adobe PDF
832.82 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187596