Record linkage is a well-known task that attempts to link different representations of the same entity, who happens to be duplicated inside a database; in particular, identity reconciliation is a subfield of record linkage that attempts to connect multiple records belonging to the same person. This work faces the problem in the context of online social networks, with the goal of linking profiles of different online platforms. This work evaluates several machine learning techniques where domain-specific distances are employed (e.g. decision trees and support vector machines). In addition, we evaluate the influence of several post-processing techniques such as breakup of large connected components and of users containing conflicting profiles. The evaluation has been performed on 2 datasets gathered from Facebook, Twitter and LinkedIn, for a total of 34,000 profiles and 2200 real users having more than one profile in the dataset. Precision and recall are in the range of cross-validated 90% depending on the model used, and decision trees are discovered as the most accurate classifier.

Il record linkage è un problema noto che si propone di collegare differenti rappresentazioni di una stessa entità, che risultano essere duplicate in una base di dati; in particolare, la riconciliazione di identità ne è una specializzazione che si propone di riunire differenti record rappresentanti la stessa persona. Questo lavoro affronta il problema nel contesto dei profili utente dei moderni social network. L'obiettivo perseguito è l'allineamento dei profili di diverse piattaforme, ovvero il collegamento di tutti e soli i profili della stessa persona su piattaforme differenti. Questa tesi valuta e confronta alcune tecniche di apprendimento automatico per le quali sono state definite distanze speficiche per il problema (e.g. alberi di decisione e macchine a vettori di supporto). In aggiunta, viene valutata l'influenza di tecniche di post-processing come la separazione di componenti connesse e di utenti contenenti profili in conflitto fra loro. La validazione delle tecniche è stata eseguita sperimentalmente su due dataset estratti da Facebook, Twitter e LinkedIn, per un totale di 34,000 profili e 2200 persone aventi più di un profilo. Precisione e recall sono a livelli di 90\% in cross-validazione a seconda del modello utilizzato, e gli alberi di decisione sono designati come il classificatore più accurato.

Automatic alignment of user identities in heterogeneous social networks

SIRONI, GIORGIO
2011/2012

Abstract

Record linkage is a well-known task that attempts to link different representations of the same entity, who happens to be duplicated inside a database; in particular, identity reconciliation is a subfield of record linkage that attempts to connect multiple records belonging to the same person. This work faces the problem in the context of online social networks, with the goal of linking profiles of different online platforms. This work evaluates several machine learning techniques where domain-specific distances are employed (e.g. decision trees and support vector machines). In addition, we evaluate the influence of several post-processing techniques such as breakup of large connected components and of users containing conflicting profiles. The evaluation has been performed on 2 datasets gathered from Facebook, Twitter and LinkedIn, for a total of 34,000 profiles and 2200 real users having more than one profile in the dataset. Precision and recall are in the range of cross-validated 90% depending on the model used, and decision trees are discovered as the most accurate classifier.
BOZZON, ALESSANDRO
ING V - Scuola di Ingegneria dell'Informazione
4-ott-2012
2011/2012
Il record linkage è un problema noto che si propone di collegare differenti rappresentazioni di una stessa entità, che risultano essere duplicate in una base di dati; in particolare, la riconciliazione di identità ne è una specializzazione che si propone di riunire differenti record rappresentanti la stessa persona. Questo lavoro affronta il problema nel contesto dei profili utente dei moderni social network. L'obiettivo perseguito è l'allineamento dei profili di diverse piattaforme, ovvero il collegamento di tutti e soli i profili della stessa persona su piattaforme differenti. Questa tesi valuta e confronta alcune tecniche di apprendimento automatico per le quali sono state definite distanze speficiche per il problema (e.g. alberi di decisione e macchine a vettori di supporto). In aggiunta, viene valutata l'influenza di tecniche di post-processing come la separazione di componenti connesse e di utenti contenenti profili in conflitto fra loro. La validazione delle tecniche è stata eseguita sperimentalmente su due dataset estratti da Facebook, Twitter e LinkedIn, per un totale di 34,000 profili e 2200 persone aventi più di un profilo. Precisione e recall sono a livelli di 90\% in cross-validazione a seconda del modello utilizzato, e gli alberi di decisione sono designati come il classificatore più accurato.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2012_10_Sironi.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.26 MB
Formato Adobe PDF
1.26 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/64441