With the advent of big data, information is generated, stored, analyzed, and used at an unprecedented scale. In this context, data integration is becoming a crucial activity in many scenarios, such as in research projects where many databases coming from different universities have to interoperate or in companies where the decision-making process has to rely on the analysis of information contained in many data sources. Integrating data is a challenging process, and recently a new difficulty is emerging: data integration must often manage noisy data, also containing attribute values written in natural languages such as product descriptions or book reviews. This new property of the data makes semantic understanding necessary and makes many traditional data integration techniques insufficient. In this thesis, we present two data integration techniques that, differently from the traditional algorithms, aim at capturing the semantic properties of data by means of recent Deep Learning frameworks. We developed an entity resolution and a data fusion method appropriately designed for text-valued attributes. Both methods, in a first phase, exploit recent research on tuple and sentence embeddings to transform the database records into real-valued vectors; in a second phase, clustering algorithms are adopted, in the case of entity resolution, to arrange the similar tuples inside the same block, in the case of data fusion, to select as true the value coming from the largest cluster. Since generally, in the typical data integration scenario, no training data are available, we trained our algorithms on an external, independent corpus, and then, we directly apply them to new datasets in an unsupervised fashion. We tested our systems on multiple real-world datasets, and the test results demonstrated that our solutions outperform traditional data integration techniques.

Con l'avvento dei big data, le informazioni vengono generate, archiviate, analizzate e utilizzate su una scala senza precedenti. In questo contesto l'integrazione dei dati sta diventando un'attività cruciale in molti scenari, come in progetti di ricerca in cui devono interoperare molti database provenienti da diverse università o in aziende in cui il processo decisionale deve fare affidamento sull'analisi delle informazioni contenute in molte fonti di dati . L'integrazione dei dati è un processo impegnativo e recentemente sta emergendo una nuova difficoltà: l'integrazione dei dati deve spesso gestire dati rumorosi, contenenti anche valori scritti in linguaggio naturale come descrizioni di prodotti o recensioni di libri. Questa nuova proprietà dei dati rende necessaria la comprensione semantica e rende insufficienti molte tecniche tradizionali di integrazione dei dati. In questa tesi presentiamo due tecniche di data integration che, a differenza degli algoritmi tradizionali, mirano a catturare le proprietà semantiche dei dati mediante recenti framework di Deep Learning. Abbiamo sviluppato un metodo di entity resolution e un metodo di data fusion opportunamente progettati per attributi contenenti valori testuali. Entrambi i metodi, in una prima fase, sfruttano recenti metodi di embedding su parole e frasi per trasformare i record del database in vettori numerici; in una seconda fase vengono adottati algoritmi di clustering, nel caso di entity resolution, per disporre le tuple simili all'interno dello stesso blocco, nel caso di data fusion, per selezionare come vero il valore proveniente dal cluster più grande. Poiché in genere, nel tipico scenario di integrazione dei dati, non sono disponibili dati per il training, abbiamo addestrato i nostri algoritmi su un corpus esterno e indipendente, quindi li applichiamo direttamente ai nuovi set di dati in modo non supervisionato. Abbiamo testato i nostri sistemi su più dataset del mondo reale, i risultati ottenuti hanno dimostrato che le nostre soluzioni superano le tradizionali tecniche di integrazione dei dati.

Semantics-based approaches for record linkage and data fusion

Jin, Songle
2019/2020

Abstract

With the advent of big data, information is generated, stored, analyzed, and used at an unprecedented scale. In this context, data integration is becoming a crucial activity in many scenarios, such as in research projects where many databases coming from different universities have to interoperate or in companies where the decision-making process has to rely on the analysis of information contained in many data sources. Integrating data is a challenging process, and recently a new difficulty is emerging: data integration must often manage noisy data, also containing attribute values written in natural languages such as product descriptions or book reviews. This new property of the data makes semantic understanding necessary and makes many traditional data integration techniques insufficient. In this thesis, we present two data integration techniques that, differently from the traditional algorithms, aim at capturing the semantic properties of data by means of recent Deep Learning frameworks. We developed an entity resolution and a data fusion method appropriately designed for text-valued attributes. Both methods, in a first phase, exploit recent research on tuple and sentence embeddings to transform the database records into real-valued vectors; in a second phase, clustering algorithms are adopted, in the case of entity resolution, to arrange the similar tuples inside the same block, in the case of data fusion, to select as true the value coming from the largest cluster. Since generally, in the typical data integration scenario, no training data are available, we trained our algorithms on an external, independent corpus, and then, we directly apply them to new datasets in an unsupervised fashion. We tested our systems on multiple real-world datasets, and the test results demonstrated that our solutions outperform traditional data integration techniques.
AZZALINI, FABIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
Con l'avvento dei big data, le informazioni vengono generate, archiviate, analizzate e utilizzate su una scala senza precedenti. In questo contesto l'integrazione dei dati sta diventando un'attività cruciale in molti scenari, come in progetti di ricerca in cui devono interoperare molti database provenienti da diverse università o in aziende in cui il processo decisionale deve fare affidamento sull'analisi delle informazioni contenute in molte fonti di dati . L'integrazione dei dati è un processo impegnativo e recentemente sta emergendo una nuova difficoltà: l'integrazione dei dati deve spesso gestire dati rumorosi, contenenti anche valori scritti in linguaggio naturale come descrizioni di prodotti o recensioni di libri. Questa nuova proprietà dei dati rende necessaria la comprensione semantica e rende insufficienti molte tecniche tradizionali di integrazione dei dati. In questa tesi presentiamo due tecniche di data integration che, a differenza degli algoritmi tradizionali, mirano a catturare le proprietà semantiche dei dati mediante recenti framework di Deep Learning. Abbiamo sviluppato un metodo di entity resolution e un metodo di data fusion opportunamente progettati per attributi contenenti valori testuali. Entrambi i metodi, in una prima fase, sfruttano recenti metodi di embedding su parole e frasi per trasformare i record del database in vettori numerici; in una seconda fase vengono adottati algoritmi di clustering, nel caso di entity resolution, per disporre le tuple simili all'interno dello stesso blocco, nel caso di data fusion, per selezionare come vero il valore proveniente dal cluster più grande. Poiché in genere, nel tipico scenario di integrazione dei dati, non sono disponibili dati per il training, abbiamo addestrato i nostri algoritmi su un corpus esterno e indipendente, quindi li applichiamo direttamente ai nuovi set di dati in modo non supervisionato. Abbiamo testato i nostri sistemi su più dataset del mondo reale, i risultati ottenuti hanno dimostrato che le nostre soluzioni superano le tradizionali tecniche di integrazione dei dati.
File allegati
File Dimensione Formato  
thesisJin.pdf

accessibile in internet per tutti

Dimensione 5.24 MB
Formato Adobe PDF
5.24 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169467