Information spreading in social networks : assessing target readers of news articles in Twitter

Nowadays, printed books or newspapers are not the mainstream for reading anymore, people start to seek news, books, and videos over the Internet, media providers also shifted their publications and videos to the internet to follow this trend. The popularization of the Internet enabled the diffusion of social network. A social network is an online platform that allows people to post texts, share e-books, videos and all other content types with other users. Tracking the spreading of content on the Internet is a convenient way to know how many people read it and how many target audiences it reaches, which are important factors for measuring the work of content publisher. However, there is no solution for online content tracking yet. We noticed the post and re-post mechanism in social networks helps the diffusion of content, and the huge amount of personal data contained in the user social accounts also tells user information. In this thesis, we are aiming to build a method for tracking how online content reaches its target audience in the social networks, specifically, we picked news articles from Google News website and Twitter for our case study. The tracking of the news article can be helped by Twitter data, and after collecting the potential readers of news, the identification of target readers brings us to a classification problem. We selected a seeds group for each news article which contains several Twitter accounts of its target readers, and we implemented different solutions to identify whether a potential reader account is similar to the seeds group. According to the news articles we selected, we built 3 datasets which are prepared for 3 different tasks: political orientation detection, age detection, and gender detection. The classification problem for each task has been addressed for two different methods, one based on the content of the tweets, other based on the similarity between a vector of different features which has been identified as projects in state of art. In the first method, we provided a script to extract content-based feature vectors out of potential reader tweets and seeds group tweets, by comparing the similarities between their feature vectors, we could count the readers with high similarity as target readers. The first method gives an accuracy of 67% in gender detection, but it performs badly on political orientation detection and age detection, so we turned our gaze to the feature-based similarity method. By picking different features for each task to replace the original content-based features, we got a performance improvement on both political orientation detection and age detection, their classification accuracy can reach 82.32% and 85%.

Al giorno d’oggi, le persone hanno iniziato a cercare e fruire notizie, libri e video su internet, soppiantando i formati cartacei. Gli editori hanno dunque seguito questo trend, distribuendo sempre piu’ pubblicazioni e con- tenuti video tramite internet. Inoltre, la popolarizzazione di internet ha abilitato la diffusione dei social network. I social network ("reti sociali") sono piattaforme online che permettono agli utenti di condividere tra di loro messaggi testuali, libri digitali, video, oltre ad altri tipi di contenuti. Tracciare la diffusione dei contenuti su internet permette di valutare le prestazioni degli editori di contenuti, misurando sia il numero di lettori, che il tipo di pubblico raggiunto dai contenuti. Purtroppo le soluzioni per effet- tuare questo tipo di tracciamento dei contenuti pubblicati sono limitate al primo caso: e’ possibile stimare il numero di lettori, ma non la loro tipologia. Abbiamo notato che i meccanismi di pubblicazione ("post") e condivisione ("re-post") dei social network supportano la diffusione di contenuti, e che l’elevato numero di dati disponibili riguardo gli utenti permette di ricavare importanti informazioni su di loro. In questa tesi, puntiamo a definire un metodo per tracciare il grado in cui i contenuti online raggiungono il loro pubblico designato sui social network. Specificatamente, abbiamo selezion- ato notizie dal sito web Google News, e tracciato la loro diffusione sul social network Twitter, come caso di studio. Il tracciamento degli articoli giornalistici puo’ essere supportato dai dati disponibili su Twitter. Dopo avere raccolto l’elenco dei potenziali lettori, l’identificazione tra loro dei lettori a cui la notizia era diretta e’ affrontato come un problema di classificazione. Per ogni notizia, abbiamo selezionato manualmente un campione (seed) di utenti Twitter corrispondenti al profilo di lettore desiderato, ed implementato diverse soluzioni per verificare qualora un potenziale lettore sia "simile" agli utenti del campione. Abbiamo creato 3 collezioni di dati (dataset), uno per ciascuna tipologia di classificazione: identificazione dell’orientamento politico, identificazione della fascia d’eta’, e identificazione del sesso. Per ogni tipologia, il problema di classificazione e’ stato affrontato con due diversi metodi. Uno e’ basato sul contenuto testuale dei "tweet" (messaggi) condivisi dagli utenti. Mentre l’altro si basa sulla similarita’ tra vettori di caratteristiche (features) estratti dai dati dell’utente. Tali caratteristiche sono state selezionate sulla base delle soluzioni presenti nello stato dell’arte, per ogni tipologia di classificazione. Per il primo metodo, abbiamo implementato un programma per estrarre i vettori di caratteristiche basate sul contenuto dei tweet di ciascun let- tore potenziale, e compararlo col vettore estratto dal campione. I lettori potenziali caratterizzati da un’elevata similarita’ col campione sono contati come lettori appartenenti alla profilo desiderato. Questo metodo ha ottenuto un’accuratezza del 67% nell’identificazione del sesso, e prestazioni peggiori negli altri due ambiti. Per questo motivo ci siamo successivamente concen- trati sul secondo metodo, basato su "caratteristiche" addizzionali. Selezio- nando caratteristiche differenti per ogni ambito, abbiamo ottenuto un au- mento delle prestazioni per il riconoscimento della fascia d’eta’ e dell’orientamento politico, raggiungendo un’accuratezza rispettivamente del 82.32% e del 85%.