The development and standardization of semantic web technologies have resulted in an unprecedented volume of data being published on the Web as Linked Open Data (LOD). However, we observe widely varying data quality ranging from extensively curated datasets to crowd-sourced and extracted data of relatively low quality. With the rise of the Semantic Web, new data quality issues appear and require deeper consideration. Consequently, a key challenge is to determine the data quality that is a critical factor for all kinds of decision-making and transaction processing. This work presents a systematic review of approaches for assessing the data quality of LOD. For this purpose, it uses the OpenRefine tool for data wrangling : data clean up and transformation from Resource Description Framework (RDF) that allows to describe every resource on the Web using a consistent and unique data model, the triple statement to Comma-Separated Values (CSV) format of Uniform Resource Identifiers (URIs) that make these resources identifiable in LOD. Alongside this transformation, the retrieval system was developed using the Apache Jena Framework and it proposes an innovative algorithm for retrieving for each URI resource the attribute properties using remote parametrized SPARQL queries. The aim of this work is to reduces the effort for data quality management substantially using Semantic Web datasets, thereby encouraging further experimentation and the development of new approaches focused towards data quality. As an use-case, i employ Linked Movie DataBase(LinkedMDB), a publicly available Semantic Web resource for the open linked data dedicated to movies.

Lo sviluppo e la standardizzazione delle tecnologie del web semantico hanno portato alla pubblicazione di un volume di dati senza precedenti sul Web come Linked Open Data (LOD). Tuttavia, osserviamo come questi siano caratterizzati da una diversa qualità dei dati: infatti, si va da dati molto curati a inesattezze e dati con qualità molto bassa. Con la crescita del Web Semantico, appaiono nuovi problemi qualità dei dati che richiedono maggiore considerazione. Di conseguenza, una sfida fondamentale è quella di valutare la qualità dei dati, che è un fattore critico per tutti i tipi di processi sia decisionali che di elaborazione delle transazioni. Questo lavoro presenta una revisione sistematica di approcci per la valutazione della qualità dei dati di LOD. A tale scopo, si utilizza il software OpenRefine per ripulire il dataset e trasformarlo dal formato Resource Description Framework (RDF) che permette di descrivere ogni risorsa sul Web usando un modello consistente ed unico al formato Comma-Separated Values (CSV) di Uniform Resource Identifiers (URIs) che identificano queste risorse nel LOD. I dati trasformati costituiscono l’input di un sistema sviluppato utilizzando il Framework Apache Jena che propone un innovativo algoritmo capace, per ogni URI, di recuperare le proprietà degli attributi utilizzando query SPARQL. Lo scopo di questo lavoro è quello di ridurre lo sforzo per la gestione della qualità dei dati utilizzando sostanzialmente set di dati del Web Semantico, incoraggiando in tal modo ulteriormente la sperimentazione e lo sviluppo di nuovi approcci focalizzati verso la qualità dei dati. Come caso d'uso, ci avvaliamo di LInkedMBD, una risorsa Web Semantico a disposizione del pubblico per i LOD dedicati al cinema.

Linked open data : a semantic retrieval for data quality dimensions and metrics

MEFFE TAKAM, HERMINE FLORE
2015/2016

Abstract

The development and standardization of semantic web technologies have resulted in an unprecedented volume of data being published on the Web as Linked Open Data (LOD). However, we observe widely varying data quality ranging from extensively curated datasets to crowd-sourced and extracted data of relatively low quality. With the rise of the Semantic Web, new data quality issues appear and require deeper consideration. Consequently, a key challenge is to determine the data quality that is a critical factor for all kinds of decision-making and transaction processing. This work presents a systematic review of approaches for assessing the data quality of LOD. For this purpose, it uses the OpenRefine tool for data wrangling : data clean up and transformation from Resource Description Framework (RDF) that allows to describe every resource on the Web using a consistent and unique data model, the triple statement to Comma-Separated Values (CSV) format of Uniform Resource Identifiers (URIs) that make these resources identifiable in LOD. Alongside this transformation, the retrieval system was developed using the Apache Jena Framework and it proposes an innovative algorithm for retrieving for each URI resource the attribute properties using remote parametrized SPARQL queries. The aim of this work is to reduces the effort for data quality management substantially using Semantic Web datasets, thereby encouraging further experimentation and the development of new approaches focused towards data quality. As an use-case, i employ Linked Movie DataBase(LinkedMDB), a publicly available Semantic Web resource for the open linked data dedicated to movies.
MATERA, MARISTELLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2016
2015/2016
Lo sviluppo e la standardizzazione delle tecnologie del web semantico hanno portato alla pubblicazione di un volume di dati senza precedenti sul Web come Linked Open Data (LOD). Tuttavia, osserviamo come questi siano caratterizzati da una diversa qualità dei dati: infatti, si va da dati molto curati a inesattezze e dati con qualità molto bassa. Con la crescita del Web Semantico, appaiono nuovi problemi qualità dei dati che richiedono maggiore considerazione. Di conseguenza, una sfida fondamentale è quella di valutare la qualità dei dati, che è un fattore critico per tutti i tipi di processi sia decisionali che di elaborazione delle transazioni. Questo lavoro presenta una revisione sistematica di approcci per la valutazione della qualità dei dati di LOD. A tale scopo, si utilizza il software OpenRefine per ripulire il dataset e trasformarlo dal formato Resource Description Framework (RDF) che permette di descrivere ogni risorsa sul Web usando un modello consistente ed unico al formato Comma-Separated Values (CSV) di Uniform Resource Identifiers (URIs) che identificano queste risorse nel LOD. I dati trasformati costituiscono l’input di un sistema sviluppato utilizzando il Framework Apache Jena che propone un innovativo algoritmo capace, per ogni URI, di recuperare le proprietà degli attributi utilizzando query SPARQL. Lo scopo di questo lavoro è quello di ridurre lo sforzo per la gestione della qualità dei dati utilizzando sostanzialmente set di dati del Web Semantico, incoraggiando in tal modo ulteriormente la sperimentazione e lo sviluppo di nuovi approcci focalizzati verso la qualità dei dati. Come caso d'uso, ci avvaliamo di LInkedMBD, una risorsa Web Semantico a disposizione del pubblico per i LOD dedicati al cinema.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi sulla qualità dei dati
Dimensione 3.48 MB
Formato Adobe PDF
3.48 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/131939