Over the last decade, the popularity of Online Social Networks has been sub- jected to an enormous growth, giving users the opportunity to easily share information with millions of contacts spread all around the world. The most popular OSNs count hundreds of millions of users. The huge amount of information available on these networks has generated interest in many different research fields, such as networking, economy, soci- ology and data mining. In particular there has been a great effort to find out useful pattern and influencer measures to exploit the gathered information for marketing purposes. The data of OSNs are massively needed to accomplish these types of studies, but some issues arise when trying to gather as much information as possible. All the most popular OSNs provide a REST interface to collect data, but there are many difficulties because of limitations such as number of feasible queries and privacy constraints. We will be looking into the details of the main problems proposing solutions and a possible crawling architecture. OSN users are likely to share a huge amount of personal in- formation, such as their profiles or their interests. The most known online social networks are Facebook, LinkedIn and Twitter, not to mention the several social web- sites. Each OSN has its own specific customer segment: in fact, there is wide availability of dating, professional, general, scholastic and gaming so- cial networks. Usually each real user has more than one OSN account: for instance, a Facebook account is commonly used for general purpose com- munications and a LinkedIn account for professional worldwide visibility. This new frontier of social networking is exploited for social media marketing purposes. Companies are interested in the analysis of all these data, since OSNs can be especially exploited for marketing research, whereas social networking is used to gain credibility, create new communication channels towards customers, boost sales and strengthen brands. Moreover, company recruiters make massive use of professional OSNs in order to have access to millions of resumes. Our work focuses on the task of matching users on multiple social networks. This knowledge discovery task is very interesting from a business point of view, since matching profiles means being able of access to different aspects of the same real user. The advantage of matching users is evident from a marketing point of view, since it enables companies to access to more data of different kinds. Our dissertation considers only those aspects which do not violate the OSN terms of use, indeed we exploit only those pieces of information which are publicly accessible. Our mining techniques are content based, in other words they use the content of profiles in order to match users. In order to find out whether two profiles are matching or not, mining methods which use the structure of social networks could also be created, but these techniques require a bigger computational effort. Every content based algorithm is pre- sented in all details with commented experiments; furthermore, each match- ing method is evaluated in terms of performance.

Durante l’ultimo decennio la popolarità degli Online Social Network è stata soggetta a una enorme crescita, dando agli utenti la possibilità di condividere informazioni facilmente con milioni di contatti sparsi per tutto il mondo. Il più popolare OSN conta centiaia di milioni di utenti. La grossa mole di informazioni disponibili in questo tipo di reti ha generato interesse in diversi campi di ricerca, quali networking, economia, sociologia e data mining. In particolare è presente un grande sforzo nello scoprire pattern interessanti e misure di influencing per sfruttare le informazioni raccolte a fini di marketing. I dati degli OSN sono fondamentali per questo tipo di ricerche, alcuni problemi emergono quando si tenta di collezionare quante più informazioni possibili. Tutti gli OSN maggiormente popolari forniscono una interfaccia REST per raccogliere dati, ma sono presenti molti problemi a causa di limitazioni quali il numero di query fattibili e vincoli sulla privacy. Andremo nei dettagli dei principali problemi proponendo soluzioni e illustreremo una possibile architettura di crawling. Gli utenti degli OSN condividono volontariamente o involontariamente un grande ammontare di informazioni personali, tra le quali troviamo i loro profili ed interessi. I social network più conosciuti sono Facebook, LinkedIn e Twitter. In realtà esistono molti OSN. Ogni OSN ha il suo specifico segmeno di clientela, ad esempio sono disponibili OSN di dating, professionali, generici, scolastici e di gaming. Solimanete ogni utente utilizza svariati OSN. Ad esempio, comunemente gli utenti creano un account Facebook per comunicazioni di carattere generico e un account LinkedIn per avere visibilità mondiale del loro profilo professionale. La nuova frontiera dei social network viene sfruttata a fini di marketing. Le aziende sono interessate nell’analisi di tutti questi dati, dato che gli online social network possono essere particolarmente utili per ricerche di mercato, infatti i social network vengono sfruttati per guadagnare credibilità, incrementare le vendite e raffozare i brand. Inoltre i reclutatori aziendali fanno uso massiccio degli OSN professionali al fine di aver accesso a milioni di curricula. Il presente lavoro è focalizzato sul matching degli utenti di diversi OSN. Questo lavoro di knowledge discovery è molto importante dal punto di vista delle aziende, poichè fare matching degli utenti significa poter accedere ai differenti aspetti dello stesso utente fisico. Il vantaggio di poter associare utenti è evidente per quanto riguarga il marketing, poichè consente alle aziende di accedere a più dati di differente tipologia. Il presente lavoro considera solo quegli aspetti che non violano i termini d’uso degli OSN, infatti noi sfruttiamo solo quelle informazioni che sono pubblicamente accessibili. Le nostre tecniche di mininng sono basate sul contenuto, in altre parole solo il contenuto dei profili viene utilizzato per far corrispondere gli utenti. Potrebbero essere create anche altre tecniche di mining che utilizzano la struttura delle reti sociali per scoprire se due profili sono corrispondenti o meno, in ogni caso questo genere di tecniche richiede un maggior sforzo computazionale. Ogni algoritmo basato sul contenuto dei social network viene presentato in tutti i dettagli con sperimenti commentati, inoltre vengono valutate le performance di ogni tecnica di matching.

Matching users across multiple online social networks

FERRARIS, FILIPPO LORENZO
2011/2012

Abstract

Over the last decade, the popularity of Online Social Networks has been sub- jected to an enormous growth, giving users the opportunity to easily share information with millions of contacts spread all around the world. The most popular OSNs count hundreds of millions of users. The huge amount of information available on these networks has generated interest in many different research fields, such as networking, economy, soci- ology and data mining. In particular there has been a great effort to find out useful pattern and influencer measures to exploit the gathered information for marketing purposes. The data of OSNs are massively needed to accomplish these types of studies, but some issues arise when trying to gather as much information as possible. All the most popular OSNs provide a REST interface to collect data, but there are many difficulties because of limitations such as number of feasible queries and privacy constraints. We will be looking into the details of the main problems proposing solutions and a possible crawling architecture. OSN users are likely to share a huge amount of personal in- formation, such as their profiles or their interests. The most known online social networks are Facebook, LinkedIn and Twitter, not to mention the several social web- sites. Each OSN has its own specific customer segment: in fact, there is wide availability of dating, professional, general, scholastic and gaming so- cial networks. Usually each real user has more than one OSN account: for instance, a Facebook account is commonly used for general purpose com- munications and a LinkedIn account for professional worldwide visibility. This new frontier of social networking is exploited for social media marketing purposes. Companies are interested in the analysis of all these data, since OSNs can be especially exploited for marketing research, whereas social networking is used to gain credibility, create new communication channels towards customers, boost sales and strengthen brands. Moreover, company recruiters make massive use of professional OSNs in order to have access to millions of resumes. Our work focuses on the task of matching users on multiple social networks. This knowledge discovery task is very interesting from a business point of view, since matching profiles means being able of access to different aspects of the same real user. The advantage of matching users is evident from a marketing point of view, since it enables companies to access to more data of different kinds. Our dissertation considers only those aspects which do not violate the OSN terms of use, indeed we exploit only those pieces of information which are publicly accessible. Our mining techniques are content based, in other words they use the content of profiles in order to match users. In order to find out whether two profiles are matching or not, mining methods which use the structure of social networks could also be created, but these techniques require a bigger computational effort. Every content based algorithm is pre- sented in all details with commented experiments; furthermore, each match- ing method is evaluated in terms of performance.
BRUNI, LEONARDO
MERLO, FRANCESCO
CAPPIELLO, CINZIA
ING V - Scuola di Ingegneria dell'Informazione
20-dic-2012
2011/2012
Durante l’ultimo decennio la popolarità degli Online Social Network è stata soggetta a una enorme crescita, dando agli utenti la possibilità di condividere informazioni facilmente con milioni di contatti sparsi per tutto il mondo. Il più popolare OSN conta centiaia di milioni di utenti. La grossa mole di informazioni disponibili in questo tipo di reti ha generato interesse in diversi campi di ricerca, quali networking, economia, sociologia e data mining. In particolare è presente un grande sforzo nello scoprire pattern interessanti e misure di influencing per sfruttare le informazioni raccolte a fini di marketing. I dati degli OSN sono fondamentali per questo tipo di ricerche, alcuni problemi emergono quando si tenta di collezionare quante più informazioni possibili. Tutti gli OSN maggiormente popolari forniscono una interfaccia REST per raccogliere dati, ma sono presenti molti problemi a causa di limitazioni quali il numero di query fattibili e vincoli sulla privacy. Andremo nei dettagli dei principali problemi proponendo soluzioni e illustreremo una possibile architettura di crawling. Gli utenti degli OSN condividono volontariamente o involontariamente un grande ammontare di informazioni personali, tra le quali troviamo i loro profili ed interessi. I social network più conosciuti sono Facebook, LinkedIn e Twitter. In realtà esistono molti OSN. Ogni OSN ha il suo specifico segmeno di clientela, ad esempio sono disponibili OSN di dating, professionali, generici, scolastici e di gaming. Solimanete ogni utente utilizza svariati OSN. Ad esempio, comunemente gli utenti creano un account Facebook per comunicazioni di carattere generico e un account LinkedIn per avere visibilità mondiale del loro profilo professionale. La nuova frontiera dei social network viene sfruttata a fini di marketing. Le aziende sono interessate nell’analisi di tutti questi dati, dato che gli online social network possono essere particolarmente utili per ricerche di mercato, infatti i social network vengono sfruttati per guadagnare credibilità, incrementare le vendite e raffozare i brand. Inoltre i reclutatori aziendali fanno uso massiccio degli OSN professionali al fine di aver accesso a milioni di curricula. Il presente lavoro è focalizzato sul matching degli utenti di diversi OSN. Questo lavoro di knowledge discovery è molto importante dal punto di vista delle aziende, poichè fare matching degli utenti significa poter accedere ai differenti aspetti dello stesso utente fisico. Il vantaggio di poter associare utenti è evidente per quanto riguarga il marketing, poichè consente alle aziende di accedere a più dati di differente tipologia. Il presente lavoro considera solo quegli aspetti che non violano i termini d’uso degli OSN, infatti noi sfruttiamo solo quelle informazioni che sono pubblicamente accessibili. Le nostre tecniche di mininng sono basate sul contenuto, in altre parole solo il contenuto dei profili viene utilizzato per far corrispondere gli utenti. Potrebbero essere create anche altre tecniche di mining che utilizzano la struttura delle reti sociali per scoprire se due profili sono corrispondenti o meno, in ogni caso questo genere di tecniche richiede un maggior sforzo computazionale. Ogni algoritmo basato sul contenuto dei social network viene presentato in tutti i dettagli con sperimenti commentati, inoltre vengono valutate le performance di ogni tecnica di matching.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2012_12_Ferraris.pdf

non accessibile

Descrizione: Contenuto della tesi
Dimensione 6.03 MB
Formato Adobe PDF
6.03 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/72561