Online geolocalized data is being massively produced as a result of both, the interactions on online social networks, and the content shared on the Internet that is annotated with geographical locations. This constitutes a rich source of information to characterize geographical places where either the people interacting reside or where the geo-tagged content is produced. Urban resources are allocated according to socio-economic indicators, and rapid urbanization in developing countries calls for updating those indicators in a timely fashion. The prohibitive costs of census data collection make that very difficult. To avoid allocating resources upon outdated indicators, one could partly update or complement them using digital data. In this dissertation we propose methods to estimate urban indicators as well as an unsupervised learning framework to discover dynamic areas of the city using the geotagged content published by either residents or visitors. First we conduct and analysis of online attention patterns evolution in a content sharing platform. Evolution of online social networks is driven by the need of their members to share and consume content, resulting in a complex interplay between individual activity and attention received from others. In a context of increasing information overload and limited resources, discovering which are the most successful behavioral patterns to attract attention is important to determine whether the attention attracted is random or follows some patterns instead. To shed light on the matter, we look into the patterns of activity and popularity of users in the Yahoo Meme microblogging service. We observe that a combination of different type of social and content-producing activity is necessary to attract attention and the efficiency of users, namely the average attention received per piece of content published, for many users has a defined trend in its temporal footprint. The analysis of the user time series of efficiency shows different classes of users whose activity patterns give insights on the type of behavior that pays off best in terms of attention gathering. In particular, sharing content with high spreading potential and then supporting the attention raised by it with social activity emerges as a frequent pattern for users gaining efficiency over time. Second, we analyze a random sample of interactions in the same service but focusing on content generated in Brazil and accurately predict the GDP and the social capital of 45 Brazilian cities. To make these predictions, we exploit the sociological concept of glocality, which says that economically successful cities tend to be involved in interactions that are both local and global at the same time. We indeed show that a city’s glocality, measured with social media data, effectively signals the city’s economic well-being. To this end, we aggregate the attention that the city’s residents are able to attract on the platform at the level of the city and quantify it using a set of metrics that are put together in a linear model that accurately predict the GDP. Finally, we propose an unsupervised learning framework to capture the composition of cities. To discover functional areas in a city, spatial discovery algorithms have been recently applied to social media (e.g., Foursquare) data: functional areas are often identified based on semantic annotations of places and human mobility patterns. These algorithms have, however, considered the formation of functional areas and their semantic annotation as two separate steps. As a result, the derived areas might not be the best ones to be unambiguously annotated. We propose a framework based on an objective function to maximize. By being integrated into any clustering algorithm, this function aims at finding and labeling areas such that an area’s label is semantically related to the points in the area and to those in the area’s neighborhood without being too general (e.g., the label ‘clothing stores’ is preferable to ‘professional places’). We evaluate the framework with a hierarchical clustering algorithm upon Foursquare data in the cities of Barcelona, Milan, and London. We find that it is more effective than baseline methods in discovering functional areas. We complement that evaluation with a user study involving 111 participants in the three cities, and with an additional temporal segmentation of areas upon Flickr data. The results generated by our framework can benefit a variety of applications, including geo-marketing, urban planning, and social recommendations. We summarize the results of our analysis and discuss directions for future research and applications of our work.

I dati online geolocalizzati sono prodotti massivamente come risultato di due fattori: l’interazione degli utenti nelle reti sociali e l’annotazione geografica del contenuto condiviso su Internet. Ci costituisce una ricca sorgente di informazione, che permette di identificare i luoghi dove gli utenti risiedono o dove il contenuto geolocalizzato viene prodotto. Le risorse urbane vengono allocate sulla base di indicatori socio-economici e la rapida urbanizzazione nei Paesi in via di sviluppo richiede di aggiornare questi indicatori in maniera tempestiva. Tuttavia, il costo richiesto per recensire larghe collezioni diè dati proibitivo. Di conseguenza, per evitare di allocare risorse in conformità ad indicatori non aggiornati, si potrebbe pensare di aggiornare quelli esistenti o di arricchirli utilizzando fonti di dati digitali. In questa tesi proponiamo metodi per stimare indicatori urbani. Inoltre, introduciamo un framework di apprendimento non supervisionato che permette di scoprire aree dinamiche della città utilizzando contenuto geolocalizzato pubblicato da residenti e/o visitatori. Prima di tutto, il nostro lavoro esegue un’analisi dei pattern di online attention su una piattaforma di content sharing. Levoluzione delle reti sociali online èguidata dal bisogno dei propri utenti di condividere e consumare contenuto. Come risultato, possiamo osservare una complessa interazione tra ciò che èprodotto dagli utenti e lattenzione che quel contenuto riceve. Se si considera una situazione in cui la quantità di informazione prodotta cresce e le risorse sono limitate, scoprire quali sono i comportamenti più di successo per attirare l’attenzione di altri utenti èimportante, poichèci permette di determinare se lattenzione ricevuta casuale o se segue qualche pattern. Per fare luce sulla questione, nel nostro lavoro identifichiamo pattern di attività e popolarità degli utenti nel servizio di microblogging Yahoo Meme. In questo contesto, osserviamo che combinare diversi tipi di attività sociali e di produzione di contenuto ènecessario per attirare l’attenzione degli utenti. L’analisi delle serie temporali di pubblicazione di dati da parte di un utente mostra che esistono diverse classi di utenti: il rate con cui essi pubblicano dati ci suggerisce quale sia il comportamento che meglio attira l’attenzione degli utenti di una rete sociale. In particolare, condividere contenuto con alto potenziale di diffusione e supportare l’attenzione con determinati comportamenti sociali emerge come pattern frequente in utenti con alta efficienza. In seguito, analizziamo un campione casuale di contenuto generato in Brasile sulla stessa piattaforma. Su questo campione, prediciamo il GDP e il capitale sociale di 45 città brasiliane. A questo scopo, sfruttiamo il concetto sociologico di ‘glocality’, secondo il quale le città con economia forte tendono ad essere coinvolte in interazioni sia globali che locali. Mostriamo quindi che la ‘glocality’ di una città, calcolata su dati sociali, misura in modo significativo il suo benessere. Per farlo, aggreghiamo a livello di città, l’attenzione che i cittadini riescono ad attirare, e la quantifichiamo utilizzando una serie di metriche aggregate in un modello lineare, così da predire accuratatamente il GDP. Infine, proponiamo un framework di apprendimento non supervisionato che cattura la composizione di ciascuna città. Recentemente alcuni algoritmi di spatial discovery sono stati applicati per scoprire le aree funzionali urbane: le aree funzionali sono spesso identificate basandosi su annotazioni dei luoghi e sui pattern di mobilità delle persone. Questi algoritmi, tuttavia, hanno considerato la formazione di aree funzionali e le loro annotazioni semantiche come due passi distinti. Come risultato, le aree estrapolate potrebbero non essere le migliori o potrebbero essere annotate in maniera ambigua. Nel nostro lavoro proponiamo un framework basato su un problema di ottimizzazione. La relativa funzione obiettivo èintegrabile in diversi algoritmi di clustering e aiuta a trovare e ad etichettare aree urbane, cosicchèl’etichetta di un’area èsemanticamente correlata ai punti nell’area e a quelli nel suo vicinato. In seguito, valutiamo le performance del framework con un algoritmo di clustering gerarchico sui dati di Foursquare, nelle città di Barcellona, Milano e Londra. I risultati mostrano che l’algoritmo proposto èpiù efficiente di altre baselines nella scoperta delle aree funzionali. Questa valutazione èarricchita da uno user study, che coinvolge 111 partecipanti in tre città, e da una segmentazione temporale delle aree su dati di Flickr. I risultati generati dal nostro framework possono favorire una grande varietà di applicazioni, tra le quali geo-marketing, urban planning e social recommendations.

Spatial analysis of online data to track cities' socio economic indicators and urban land use

VACA RUIZ, CARMEN KARINA

Abstract

Online geolocalized data is being massively produced as a result of both, the interactions on online social networks, and the content shared on the Internet that is annotated with geographical locations. This constitutes a rich source of information to characterize geographical places where either the people interacting reside or where the geo-tagged content is produced. Urban resources are allocated according to socio-economic indicators, and rapid urbanization in developing countries calls for updating those indicators in a timely fashion. The prohibitive costs of census data collection make that very difficult. To avoid allocating resources upon outdated indicators, one could partly update or complement them using digital data. In this dissertation we propose methods to estimate urban indicators as well as an unsupervised learning framework to discover dynamic areas of the city using the geotagged content published by either residents or visitors. First we conduct and analysis of online attention patterns evolution in a content sharing platform. Evolution of online social networks is driven by the need of their members to share and consume content, resulting in a complex interplay between individual activity and attention received from others. In a context of increasing information overload and limited resources, discovering which are the most successful behavioral patterns to attract attention is important to determine whether the attention attracted is random or follows some patterns instead. To shed light on the matter, we look into the patterns of activity and popularity of users in the Yahoo Meme microblogging service. We observe that a combination of different type of social and content-producing activity is necessary to attract attention and the efficiency of users, namely the average attention received per piece of content published, for many users has a defined trend in its temporal footprint. The analysis of the user time series of efficiency shows different classes of users whose activity patterns give insights on the type of behavior that pays off best in terms of attention gathering. In particular, sharing content with high spreading potential and then supporting the attention raised by it with social activity emerges as a frequent pattern for users gaining efficiency over time. Second, we analyze a random sample of interactions in the same service but focusing on content generated in Brazil and accurately predict the GDP and the social capital of 45 Brazilian cities. To make these predictions, we exploit the sociological concept of glocality, which says that economically successful cities tend to be involved in interactions that are both local and global at the same time. We indeed show that a city’s glocality, measured with social media data, effectively signals the city’s economic well-being. To this end, we aggregate the attention that the city’s residents are able to attract on the platform at the level of the city and quantify it using a set of metrics that are put together in a linear model that accurately predict the GDP. Finally, we propose an unsupervised learning framework to capture the composition of cities. To discover functional areas in a city, spatial discovery algorithms have been recently applied to social media (e.g., Foursquare) data: functional areas are often identified based on semantic annotations of places and human mobility patterns. These algorithms have, however, considered the formation of functional areas and their semantic annotation as two separate steps. As a result, the derived areas might not be the best ones to be unambiguously annotated. We propose a framework based on an objective function to maximize. By being integrated into any clustering algorithm, this function aims at finding and labeling areas such that an area’s label is semantically related to the points in the area and to those in the area’s neighborhood without being too general (e.g., the label ‘clothing stores’ is preferable to ‘professional places’). We evaluate the framework with a hierarchical clustering algorithm upon Foursquare data in the cities of Barcelona, Milan, and London. We find that it is more effective than baseline methods in discovering functional areas. We complement that evaluation with a user study involving 111 participants in the three cities, and with an additional temporal segmentation of areas upon Flickr data. The results generated by our framework can benefit a variety of applications, including geo-marketing, urban planning, and social recommendations. We summarize the results of our analysis and discuss directions for future research and applications of our work.
FIORINI, CARLO ETTORE
PERNICI, BARBARA
27-nov-2014
I dati online geolocalizzati sono prodotti massivamente come risultato di due fattori: l’interazione degli utenti nelle reti sociali e l’annotazione geografica del contenuto condiviso su Internet. Ci costituisce una ricca sorgente di informazione, che permette di identificare i luoghi dove gli utenti risiedono o dove il contenuto geolocalizzato viene prodotto. Le risorse urbane vengono allocate sulla base di indicatori socio-economici e la rapida urbanizzazione nei Paesi in via di sviluppo richiede di aggiornare questi indicatori in maniera tempestiva. Tuttavia, il costo richiesto per recensire larghe collezioni diè dati proibitivo. Di conseguenza, per evitare di allocare risorse in conformità ad indicatori non aggiornati, si potrebbe pensare di aggiornare quelli esistenti o di arricchirli utilizzando fonti di dati digitali. In questa tesi proponiamo metodi per stimare indicatori urbani. Inoltre, introduciamo un framework di apprendimento non supervisionato che permette di scoprire aree dinamiche della città utilizzando contenuto geolocalizzato pubblicato da residenti e/o visitatori. Prima di tutto, il nostro lavoro esegue un’analisi dei pattern di online attention su una piattaforma di content sharing. Levoluzione delle reti sociali online èguidata dal bisogno dei propri utenti di condividere e consumare contenuto. Come risultato, possiamo osservare una complessa interazione tra ciò che èprodotto dagli utenti e lattenzione che quel contenuto riceve. Se si considera una situazione in cui la quantità di informazione prodotta cresce e le risorse sono limitate, scoprire quali sono i comportamenti più di successo per attirare l’attenzione di altri utenti èimportante, poichèci permette di determinare se lattenzione ricevuta casuale o se segue qualche pattern. Per fare luce sulla questione, nel nostro lavoro identifichiamo pattern di attività e popolarità degli utenti nel servizio di microblogging Yahoo Meme. In questo contesto, osserviamo che combinare diversi tipi di attività sociali e di produzione di contenuto ènecessario per attirare l’attenzione degli utenti. L’analisi delle serie temporali di pubblicazione di dati da parte di un utente mostra che esistono diverse classi di utenti: il rate con cui essi pubblicano dati ci suggerisce quale sia il comportamento che meglio attira l’attenzione degli utenti di una rete sociale. In particolare, condividere contenuto con alto potenziale di diffusione e supportare l’attenzione con determinati comportamenti sociali emerge come pattern frequente in utenti con alta efficienza. In seguito, analizziamo un campione casuale di contenuto generato in Brasile sulla stessa piattaforma. Su questo campione, prediciamo il GDP e il capitale sociale di 45 città brasiliane. A questo scopo, sfruttiamo il concetto sociologico di ‘glocality’, secondo il quale le città con economia forte tendono ad essere coinvolte in interazioni sia globali che locali. Mostriamo quindi che la ‘glocality’ di una città, calcolata su dati sociali, misura in modo significativo il suo benessere. Per farlo, aggreghiamo a livello di città, l’attenzione che i cittadini riescono ad attirare, e la quantifichiamo utilizzando una serie di metriche aggregate in un modello lineare, così da predire accuratatamente il GDP. Infine, proponiamo un framework di apprendimento non supervisionato che cattura la composizione di ciascuna città. Recentemente alcuni algoritmi di spatial discovery sono stati applicati per scoprire le aree funzionali urbane: le aree funzionali sono spesso identificate basandosi su annotazioni dei luoghi e sui pattern di mobilità delle persone. Questi algoritmi, tuttavia, hanno considerato la formazione di aree funzionali e le loro annotazioni semantiche come due passi distinti. Come risultato, le aree estrapolate potrebbero non essere le migliori o potrebbero essere annotate in maniera ambigua. Nel nostro lavoro proponiamo un framework basato su un problema di ottimizzazione. La relativa funzione obiettivo èintegrabile in diversi algoritmi di clustering e aiuta a trovare e ad etichettare aree urbane, cosicchèl’etichetta di un’area èsemanticamente correlata ai punti nell’area e a quelli nel suo vicinato. In seguito, valutiamo le performance del framework con un algoritmo di clustering gerarchico sui dati di Foursquare, nelle città di Barcellona, Milano e Londra. I risultati mostrano che l’algoritmo proposto èpiù efficiente di altre baselines nella scoperta delle aree funzionali. Questa valutazione èarricchita da uno user study, che coinvolge 111 partecipanti in tre città, e da una segmentazione temporale delle aree su dati di Flickr. I risultati generati dal nostro framework possono favorire una grande varietà di applicazioni, tra le quali geo-marketing, urban planning e social recommendations.
Tesi di dottorato
File allegati
File Dimensione Formato  
2014_11_PhD_VacaRuiz.pdf

Open Access dal 08/11/2015

Descrizione: Doctoral thesis text
Dimensione 8.31 MB
Formato Adobe PDF
8.31 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/98061