Nowadays social media are so widespread that they have become a fundamental part of our everyday life. The rise of social media has brought to life a new mean of communication, that is much faster and hetergeneous in both its content and its ways. Large quantities of data are generated every day; if not processed they are completely useless, but when properly manipulated they can turn into useful information of great value. The challenging part is being able to keep up with the massive amount of data and retrieve from it valuable information, that can be used to improve the provided services. Increasingly advanced techniques allow you to outline the users based on a variety of factors and the research in this field has made significant progress. The core idea of this thesis is to be able to compare users from the text content they share; in particular, the goal is to find similarities between users according to what they talk about. For this reason, the proposed approach consists in using Topic Modeling (or topic analysis) to achieve a better users’ segmentation. Through the topics they discuss, the users are compared and the similarity between them is measured. In this thesis, it has been chosen to focus on Twitter users and their posts, called tweets, because among the microblogging social platforms it is definitely one of the most used and popular.
Viviamo in un’epoca in cui i social media sono talmente diffusi da essere diventati parte integrante delle nostre giornate. L’avvento dei social ha portato alla luce un nuovo tipo di comunicazione, molto più rapido ed eterogeneo nei contenuti e nelle modalità. Ogni giorno vengono create ingenti quantità di dati grezzi che, senza alcun intervento, sono completamente inutili, ma se opportunamente trattati possono essere trasformati in informazioni di grande valore. La sfida è quindi quella di riuscire a stare al passo con l’enorme quantità di dati e trarne informazioni preziose e spendibili per migliorare i servizi offerti. Tecniche sempre più avanzate permettono di profilare gli utenti in base a molteplici aspetti e le ricerche in questo campo hanno fatto notevoli progressi. L’idea di fondo di questa tesi è quella di poter confrontare gli utenti tra di loro attraverso i contenuti testuali che pubblicano; in particolare, l’obiettivo è quello di riuscire a trovare similarità tra utenti basandosi sugli argomenti di cui parlano. Per questo motivo, l’approccio proposto consiste nell’utilizzare il Topic Modeling (o analisi degli argomenti) per contribuire ad una migliore profilazione dell’utente. Attraverso gli argomenti trattati, gli utenti vengono confrontati e viene misurata la somiglianza che c’è tra di loro. In questa tesi, è stato scelto di concentrarsi sugli utenti di Twitter e i loro messaggi, chiamati tweet, perché tra le piattaforme di microblogging è sicuramente una delle più utilizzate e diffuse.
Understanding user similarity from social media using topic analysis
SANFILIPPO, PAOLA
2018/2019
Abstract
Nowadays social media are so widespread that they have become a fundamental part of our everyday life. The rise of social media has brought to life a new mean of communication, that is much faster and hetergeneous in both its content and its ways. Large quantities of data are generated every day; if not processed they are completely useless, but when properly manipulated they can turn into useful information of great value. The challenging part is being able to keep up with the massive amount of data and retrieve from it valuable information, that can be used to improve the provided services. Increasingly advanced techniques allow you to outline the users based on a variety of factors and the research in this field has made significant progress. The core idea of this thesis is to be able to compare users from the text content they share; in particular, the goal is to find similarities between users according to what they talk about. For this reason, the proposed approach consists in using Topic Modeling (or topic analysis) to achieve a better users’ segmentation. Through the topics they discuss, the users are compared and the similarity between them is measured. In this thesis, it has been chosen to focus on Twitter users and their posts, called tweets, because among the microblogging social platforms it is definitely one of the most used and popular.File | Dimensione | Formato | |
---|---|---|---|
Thesis_Paola_Sanfilippo_v2.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
1.06 MB
Formato
Adobe PDF
|
1.06 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/147441