This work is realized to propose an implementation of a Data Quality Exploration Tool that allows visualization and exploration over results obtained of a Data Quality as a Service module. The module is placed in the architecture of the EuBRA-BIGSEA project where Politecnico di Milano enters as a collaboration partner. In general, the project aims to develop a set of cloud services impowering Big Data Analytics to ease the development of massive data processing applications. Data quality in big data has a huge impact in decision making and so it requires understanding of the quality analysis results. To understand the results of a quality analysis we need to explore them and capture their real quality value. Generating value from big data is probably the most important part of a quality analysis because the user needs to make a final decision if the data quality scores are good enough to be used in next computations and statistics software’s, or the data should pertain a new quality analysis with modified settings. The results of a data quality analysis can change by varying two things: the data object of interest, and the measures that perform the evaluation. The re-definition of the data object leads to variation of the quality results since each aspect of the data source can be evaluated over set of measures, and vice versa, each configuration of the measures gives different scores. In order to help the users in results exploration and decision-making this thesis was proposed. It finds its place as a support component of the Quality Service in the BIGSEA project. The idea is to allow professionals and newcomers in the field of quality analysis in Big Data a way of exploring and learning the process of analysis by a guided User Interface. Besides, the UI will provide a set of features that will allow sorting, searching, custom filtering, and even exporting data. This will save the user iterative usage of the quality service, meaning less processing power.

Questo lavoro è realizzato per proporre un'implementazione di uno strumento di esplorazione della qualità dei dati che consente la visualizzazione e l'esplorazione dei risultati ottenuti da un modulo Data Quality as a Service. Il modulo è inserito nell'architettura del progetto EuBRA-BIGSEA dove il Politecnico di Milano entra come partner di collaborazione. In generale, il progetto mira a sviluppare una serie di servizi cloud che potenziano i Big Data Analytics per facilitare lo sviluppo di enormi applicazioni di elaborazione dati. La qualità dei dati nei Big Data ha un enorme impatto nel processo decisionale e quindi richiede la comprensione dei risultati dell'analisi di qualità. Per comprendere i risultati di un'analisi di qualità, dobbiamo esplorarli e catturare il loro reale valore di qualità. Generare valore da Big Data è probabilmente la parte più importante di un'analisi di qualità perché l'utente deve prendere una decisione definitiva se i punteggi di qualità dei dati sono sufficienti per essere utilizzati nei prossimi calcoli e software di statistica, oppure i dati dovrebbero avere una nuova qualità analisi con impostazioni modificate. I risultati di un'analisi della qualità dei dati possono variare in base a due fattori: l'oggetto dei dati di interesse e le misure che eseguono la valutazione. La ridefinizione dell'oggetto dati porta a una variazione dei risultati di qualità poiché ogni aspetto dell'origine dati può essere valutato su un insieme di misure e viceversa, ciascuna configurazione delle misure fornisce punteggi diversi. Al fine di aiutare gli utenti nell'esplorazione dei risultati e nel processo decisionale, questa tesi è stata proposta. Trova il suo posto come componente di supporto del servizio di qualità nel progetto BIGSEA. L'idea è di consentire ai professionisti e ai neofiti nel campo dell'analisi della qualità nei Big Data un modo di esplorare e apprendere il processo di analisi attraverso un'interfaccia utente guidata. Inoltre, l'interfaccia utente fornirà una serie di funzionalità che consentiranno l'ordinamento, la ricerca, il filtraggio personalizzato e persino l'esportazione dei dati. Ciò salverà l'uso iterativo dell'utente del servizio di qualità, che significa meno potenza di elaborazione.

A flexible approach to data quality exploration for big data analysis results

GICHEVSKI, PAVEL
2016/2017

Abstract

This work is realized to propose an implementation of a Data Quality Exploration Tool that allows visualization and exploration over results obtained of a Data Quality as a Service module. The module is placed in the architecture of the EuBRA-BIGSEA project where Politecnico di Milano enters as a collaboration partner. In general, the project aims to develop a set of cloud services impowering Big Data Analytics to ease the development of massive data processing applications. Data quality in big data has a huge impact in decision making and so it requires understanding of the quality analysis results. To understand the results of a quality analysis we need to explore them and capture their real quality value. Generating value from big data is probably the most important part of a quality analysis because the user needs to make a final decision if the data quality scores are good enough to be used in next computations and statistics software’s, or the data should pertain a new quality analysis with modified settings. The results of a data quality analysis can change by varying two things: the data object of interest, and the measures that perform the evaluation. The re-definition of the data object leads to variation of the quality results since each aspect of the data source can be evaluated over set of measures, and vice versa, each configuration of the measures gives different scores. In order to help the users in results exploration and decision-making this thesis was proposed. It finds its place as a support component of the Quality Service in the BIGSEA project. The idea is to allow professionals and newcomers in the field of quality analysis in Big Data a way of exploring and learning the process of analysis by a guided User Interface. Besides, the UI will provide a set of features that will allow sorting, searching, custom filtering, and even exporting data. This will save the user iterative usage of the quality service, meaning less processing power.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
Questo lavoro è realizzato per proporre un'implementazione di uno strumento di esplorazione della qualità dei dati che consente la visualizzazione e l'esplorazione dei risultati ottenuti da un modulo Data Quality as a Service. Il modulo è inserito nell'architettura del progetto EuBRA-BIGSEA dove il Politecnico di Milano entra come partner di collaborazione. In generale, il progetto mira a sviluppare una serie di servizi cloud che potenziano i Big Data Analytics per facilitare lo sviluppo di enormi applicazioni di elaborazione dati. La qualità dei dati nei Big Data ha un enorme impatto nel processo decisionale e quindi richiede la comprensione dei risultati dell'analisi di qualità. Per comprendere i risultati di un'analisi di qualità, dobbiamo esplorarli e catturare il loro reale valore di qualità. Generare valore da Big Data è probabilmente la parte più importante di un'analisi di qualità perché l'utente deve prendere una decisione definitiva se i punteggi di qualità dei dati sono sufficienti per essere utilizzati nei prossimi calcoli e software di statistica, oppure i dati dovrebbero avere una nuova qualità analisi con impostazioni modificate. I risultati di un'analisi della qualità dei dati possono variare in base a due fattori: l'oggetto dei dati di interesse e le misure che eseguono la valutazione. La ridefinizione dell'oggetto dati porta a una variazione dei risultati di qualità poiché ogni aspetto dell'origine dati può essere valutato su un insieme di misure e viceversa, ciascuna configurazione delle misure fornisce punteggi diversi. Al fine di aiutare gli utenti nell'esplorazione dei risultati e nel processo decisionale, questa tesi è stata proposta. Trova il suo posto come componente di supporto del servizio di qualità nel progetto BIGSEA. L'idea è di consentire ai professionisti e ai neofiti nel campo dell'analisi della qualità nei Big Data un modo di esplorare e apprendere il processo di analisi attraverso un'interfaccia utente guidata. Inoltre, l'interfaccia utente fornirà una serie di funzionalità che consentiranno l'ordinamento, la ricerca, il filtraggio personalizzato e persino l'esportazione dei dati. Ciò salverà l'uso iterativo dell'utente del servizio di qualità, che significa meno potenza di elaborazione.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Pavel Gichevski - A Flexible Approach to Data Quality Exploration for Big Data Analysis Results.pdf

accessibile in internet per tutti

Descrizione: Thesis document
Dimensione 2.41 MB
Formato Adobe PDF
2.41 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140128