The aim of this thesis is to integrate artists and artworks data of three art related public datasets by using record linkage and data fusion techniques. The datasets are provided by The Metropolitan Museum of Art (MET), Tate galleries (TATE) and Museum of Modern Art (MOMA). These source datasets are not cleaned. They contain errors, inconsistencies, ambiguities that need to be addressed. Hence, the quality of the data is concerned to improve through integration procedure implementation. Firstly, initial data integration is done with unambiguous data among datasets. Afterwards, the obtained data is used to resolve ambiguities. Finally, resolved data is used as a supplement to improve the previous data integration. Besides the challenges of record linkage and data fusion, an interesting approach is adopted: artworks that are identified as possible duplicates, are compared through their images which obtained from url information. Eventually, a cyclic data integration is implemented by using Python and related libraries. In particular, the approach for this use case provides a usage perspective of record linkage and data fusion techniques. Thus, the results are analyzed in terms of data profiling and quality. Ultimately, through the use case of integrating drawings and paintings of some famous museums/galleries, it is aimed to offer unified, good quality art related data including artists and artworks information. This use case includes improving quality of data and establishing relations among similar and also among related artworks. Also, it includes providing a dictionary metadata for transition between global and local artist identifiers.

Lo scopo di questa tesi è quello di integrare i dati di artisti e opere d’arte di tre set di dati pubblici relativi all’arte utilizzando le tecniche il record linkage e di fusione dei dati. I set di dati sono forniti dal Metropolitan Museum of Art (MET), Tate galleries (TATE) e Museum of Modern Art (MOMA). Queste sorgenti di dati contengono errori, incongruenze e ambiguità che devono essere risolte. Pertanto, con lo scopo di migliorare la qualità dei dataset è stata implementata una procedura di integrazione. Inizialmente è stata eseguita un’integrazione di dati grazie a quelli non ambigui ricavati dai tre set. In seguito, questo risultato intermedio viene utilizzato per appianare e risolvere le ambiguità. Poi, i dati processati sono stati utilizzati come supplemento per il miglioramento della precedente integrazione. Oltre alle sfide legate al record linkage e alla fusione dei dati, è stato adottato un approccio non usuale per la data-disambiguation: le opere identificate come possibili duplicati sono state confrontate tramite le rispettive immagini, ottenute a loro volta grazie all’ URL dell’opera. In ultimo, è stata implementata un’integrazione ciclica dei dati utilizzando Python e alcune librerie correlate. In particolare, l’approccio in questo caso ha fornito una prospettiva per l’utilizzo del record linkage e delle tecniche di fusione dei dati. I risultati ottenuti sono stati analizzati in termini di profilazione e qualità dei dati. Questa tesi si propone quindi, attraverso l’integrazione di opere e dipinti di alcuni famosi musei/gallerie, di elaborare e produrre dati unificati e di buona qualità relativi all’arte, inclusi artisti e informazioni sulle rispettive opere. Ciò ha necessitato il miglioramento della qualità dei dati originari e la creazione di relazioni tra opere simili o che erano correlate tra loro. In conclusione, il lavoro svolto fornisce i metadati necessari per la costruzione di un dizionario di conversione per la transizione da identificativi globali di artisti a identificativi locali.

Record linkage and data fusion : a use case with art related public datasets

CESUR, BURCU
2018/2019

Abstract

The aim of this thesis is to integrate artists and artworks data of three art related public datasets by using record linkage and data fusion techniques. The datasets are provided by The Metropolitan Museum of Art (MET), Tate galleries (TATE) and Museum of Modern Art (MOMA). These source datasets are not cleaned. They contain errors, inconsistencies, ambiguities that need to be addressed. Hence, the quality of the data is concerned to improve through integration procedure implementation. Firstly, initial data integration is done with unambiguous data among datasets. Afterwards, the obtained data is used to resolve ambiguities. Finally, resolved data is used as a supplement to improve the previous data integration. Besides the challenges of record linkage and data fusion, an interesting approach is adopted: artworks that are identified as possible duplicates, are compared through their images which obtained from url information. Eventually, a cyclic data integration is implemented by using Python and related libraries. In particular, the approach for this use case provides a usage perspective of record linkage and data fusion techniques. Thus, the results are analyzed in terms of data profiling and quality. Ultimately, through the use case of integrating drawings and paintings of some famous museums/galleries, it is aimed to offer unified, good quality art related data including artists and artworks information. This use case includes improving quality of data and establishing relations among similar and also among related artworks. Also, it includes providing a dictionary metadata for transition between global and local artist identifiers.
CAPPIELLO, CINZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Lo scopo di questa tesi è quello di integrare i dati di artisti e opere d’arte di tre set di dati pubblici relativi all’arte utilizzando le tecniche il record linkage e di fusione dei dati. I set di dati sono forniti dal Metropolitan Museum of Art (MET), Tate galleries (TATE) e Museum of Modern Art (MOMA). Queste sorgenti di dati contengono errori, incongruenze e ambiguità che devono essere risolte. Pertanto, con lo scopo di migliorare la qualità dei dataset è stata implementata una procedura di integrazione. Inizialmente è stata eseguita un’integrazione di dati grazie a quelli non ambigui ricavati dai tre set. In seguito, questo risultato intermedio viene utilizzato per appianare e risolvere le ambiguità. Poi, i dati processati sono stati utilizzati come supplemento per il miglioramento della precedente integrazione. Oltre alle sfide legate al record linkage e alla fusione dei dati, è stato adottato un approccio non usuale per la data-disambiguation: le opere identificate come possibili duplicati sono state confrontate tramite le rispettive immagini, ottenute a loro volta grazie all’ URL dell’opera. In ultimo, è stata implementata un’integrazione ciclica dei dati utilizzando Python e alcune librerie correlate. In particolare, l’approccio in questo caso ha fornito una prospettiva per l’utilizzo del record linkage e delle tecniche di fusione dei dati. I risultati ottenuti sono stati analizzati in termini di profilazione e qualità dei dati. Questa tesi si propone quindi, attraverso l’integrazione di opere e dipinti di alcuni famosi musei/gallerie, di elaborare e produrre dati unificati e di buona qualità relativi all’arte, inclusi artisti e informazioni sulle rispettive opere. Ciò ha necessitato il miglioramento della qualità dei dati originari e la creazione di relazioni tra opere simili o che erano correlate tra loro. In conclusione, il lavoro svolto fornisce i metadati necessari per la costruzione di un dizionario di conversione per la transizione da identificativi globali di artisti a identificativi locali.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_Cesur.pdf

non accessibile

Descrizione: Thesis text
Dimensione 11.19 MB
Formato Adobe PDF
11.19 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148556