Data Integration is one of the core elements of the overall data management process and its primary objective is to produce consolidated datasets that are clean and consistent and meet the information needs of different end users in an organization. Entity matching (EM) is one of the core stages in data integration and basically, it tries to find data instances referring to the same real-world entity. EM in the era of big data is more challenging and specially when dealing with data which is typically noisy and that contains attribute values written in natural language, such as product descriptions or book reviews. Most EM solutions perform blocking then matching such that the blocking step tries to quickly remove tuple pairs judged likely to be non-matches and the matching step then applies a matcher to the remaining tuple pairs to predict match/no-match. In this paper we examine applying natural language processing (NLP) techniques to EM, to benefit from their ability to extract useful semantics from dirty and textual data. Our aim in this paper is to propose an end-to-end solution that is able to optimize the entire pipeline of the EM problem which is both very fast and highly accurate. Core aspect of the proposed solution in the blocking stage is to convert each tuple into an embedding vector, then quickly find tuple pairs with a high similarity score (e.g., cosine) between their vectors. We are using sentence embeddings models pretrained on external corpus. Once we have our candidate set from the blocking stage, we are applying a very accurate classifier to predict match/no-match. Our solution does not require labeled training data because it exploits the pretrained NLP models and we have the possibilty to apply our our pipeline on new datasets in an unsupervised fashion and fine-tune it if there are available labeled dataset in supervised fashion. We tested our EM pipeline on three popular datasets and compared their performances against traditional algorithm. The test results demonstrated that our EM solution outperform standard algorithms, especially on textual and noisy data.

L’Entity matching (EM) è un’importante componente del processo di Data Integration che cerca di identificare le istanze di dati che corrispondono alla stessa istanza reale. Nell’era dei big data l’EM è spesso un processo non banale, specialmente quando si devono gestire dati rumorosi che contengono parti scritte in linguaggio naturale come, ad esempio, le descrizioni di prodotti e le recensioni di libri. La maggior parte delle soluzioni di Entity Matching sono caratterizzate da un passo di “blocking” seguito da uno di “matching”. Il passo di “blocking” cerca di escludere le coppie di tuple che sono molto probabilmente incompatibili. Nello step di “matching” viene successivamente applicato un algoritmo sulle coppie di tuple rimanenti stabilire se sono a meno compatibili. In questo elaborato viene studiata l’applicazione di tecniche di “natural language processing” (NLP) al processo di Entity Matching per sfruttare la loro capacità di estrarre utili semantiche a partire da dati strutturati rumorosi e dati testuali con l’obiettivo finale di proporre una soluzione end-to-end in grado di ottimizzare l’intera pipeline di Entity Matching garantendo che sia efficiente dal punto di vista computazionale e allo stesso tempo molto accurata. Un aspetto fondamentale della soluzione che viene proposta è la conversione di ciascuna coppia in un vettore di “embedding” e successivamente la ricerca di coppie di tuple caratterizzare da un alta similarità (e.g. cosine-similarity) fra vettori. Vengono utilizzati modelli di embeddings precedentemente addestrati su un corpus. Una volta che l’insieme di tuple candidate viene identificato dalla fase di “blocking”, un classificatore viene applicato per predire la compatibilità di coppie di tuple differenti. La soluzione proposta non necessita di un dataset di training etichettato perché sfrutta modelli NLP pre-addestrati, fornendo la possibilità di applicare la pipeline su nuovi dataset in modalità non-supervisionata, pur non escludendo la possibilità di calibrare la pipeline in caso di diponibilità di dataset etichettati. La pipeline di Entity Matching sviluppata è stata testata su tre noti dataset e i risultati ottenuti sono stati confrontati con quelli di algoritmi tradizionali, sorpassando quest’ultimi in particolare su dati strutturati rumorosi e dati testuali.

NLP for Entity Matching: End-to-End Solution

MAHMOUD, MOHAMED HASSAN MOHAMED MOSTAFA
2021/2022

Abstract

Data Integration is one of the core elements of the overall data management process and its primary objective is to produce consolidated datasets that are clean and consistent and meet the information needs of different end users in an organization. Entity matching (EM) is one of the core stages in data integration and basically, it tries to find data instances referring to the same real-world entity. EM in the era of big data is more challenging and specially when dealing with data which is typically noisy and that contains attribute values written in natural language, such as product descriptions or book reviews. Most EM solutions perform blocking then matching such that the blocking step tries to quickly remove tuple pairs judged likely to be non-matches and the matching step then applies a matcher to the remaining tuple pairs to predict match/no-match. In this paper we examine applying natural language processing (NLP) techniques to EM, to benefit from their ability to extract useful semantics from dirty and textual data. Our aim in this paper is to propose an end-to-end solution that is able to optimize the entire pipeline of the EM problem which is both very fast and highly accurate. Core aspect of the proposed solution in the blocking stage is to convert each tuple into an embedding vector, then quickly find tuple pairs with a high similarity score (e.g., cosine) between their vectors. We are using sentence embeddings models pretrained on external corpus. Once we have our candidate set from the blocking stage, we are applying a very accurate classifier to predict match/no-match. Our solution does not require labeled training data because it exploits the pretrained NLP models and we have the possibilty to apply our our pipeline on new datasets in an unsupervised fashion and fine-tune it if there are available labeled dataset in supervised fashion. We tested our EM pipeline on three popular datasets and compared their performances against traditional algorithm. The test results demonstrated that our EM solution outperform standard algorithms, especially on textual and noisy data.
AZZALINI, FABIO
PIANTELLA, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
L’Entity matching (EM) è un’importante componente del processo di Data Integration che cerca di identificare le istanze di dati che corrispondono alla stessa istanza reale. Nell’era dei big data l’EM è spesso un processo non banale, specialmente quando si devono gestire dati rumorosi che contengono parti scritte in linguaggio naturale come, ad esempio, le descrizioni di prodotti e le recensioni di libri. La maggior parte delle soluzioni di Entity Matching sono caratterizzate da un passo di “blocking” seguito da uno di “matching”. Il passo di “blocking” cerca di escludere le coppie di tuple che sono molto probabilmente incompatibili. Nello step di “matching” viene successivamente applicato un algoritmo sulle coppie di tuple rimanenti stabilire se sono a meno compatibili. In questo elaborato viene studiata l’applicazione di tecniche di “natural language processing” (NLP) al processo di Entity Matching per sfruttare la loro capacità di estrarre utili semantiche a partire da dati strutturati rumorosi e dati testuali con l’obiettivo finale di proporre una soluzione end-to-end in grado di ottimizzare l’intera pipeline di Entity Matching garantendo che sia efficiente dal punto di vista computazionale e allo stesso tempo molto accurata. Un aspetto fondamentale della soluzione che viene proposta è la conversione di ciascuna coppia in un vettore di “embedding” e successivamente la ricerca di coppie di tuple caratterizzare da un alta similarità (e.g. cosine-similarity) fra vettori. Vengono utilizzati modelli di embeddings precedentemente addestrati su un corpus. Una volta che l’insieme di tuple candidate viene identificato dalla fase di “blocking”, un classificatore viene applicato per predire la compatibilità di coppie di tuple differenti. La soluzione proposta non necessita di un dataset di training etichettato perché sfrutta modelli NLP pre-addestrati, fornendo la possibilità di applicare la pipeline su nuovi dataset in modalità non-supervisionata, pur non escludendo la possibilità di calibrare la pipeline in caso di diponibilità di dataset etichettati. La pipeline di Entity Matching sviluppata è stata testata su tre noti dataset e i risultati ottenuti sono stati confrontati con quelli di algoritmi tradizionali, sorpassando quest’ultimi in particolare su dati strutturati rumorosi e dati testuali.
File allegati
File Dimensione Formato  
Thesis_10746714.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.32 MB
Formato Adobe PDF
1.32 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/197476