In these years the massive use of devices all connected among each other has produced a huge amount of data. Smart phones, personal computers, IoT devices, web sites and many other sources are producing data every day. The generated data can be used to retrieve and generate useful information and the quality of the produced information depends by the quality of the data. If the data contains wrong values and missing values the produced information will be wrong. This situation arises the need of methods that are able to evaluate the quality of the data before use them to produce information. The methods must be adaptive to the application that will use the data that will be evaluated, because the data quality requirements depend on the type of information that will be produced using the analyzed data. So depending on the application that will use the data, the adaptive method will asses different portions of the data quality using different dimensions. In this thesis an adaptive method is proposed for offering a data quality service able to make the users (humans or applications) aware of the quality of the sources on the basis of their goals. This work is realized to propose an implementation of the Data Quality as a Service module that will be placed in the architecture of the EuBRA-BIGSEA project. The project focuses on the analysis of the transportation system of a Brazilian city in order to offer added value services to its citizens. The goal of the proposed methodology is to provide an adaptive approach to set up a quality analysis over a data source, in order to reason if the data source needs to be preprocessed before being used by the applications of the project. This work proposes the description of the adaptive approach to set up the quality analysis, an implementation of the adaptive approach and the experimental results computed over the data sources made available by the EuBRA-BIGSEA project related to the public transportation of the city of Curitiba.

In questi anni l'uso intenso di dispositivi connessi tra loro ha prodotto una enorme quantità di dati. Smart phones, computers, dispositivi IoT, siti web e tante altre sorgenti producono dati ogni giorno. I dati generati possono essere usati per ricavare informazioni utili ma la qualità dell'informazione dipende strettamente dalla qualità dei dati analizzati. Se i dati analizzati contengono valori errati oppure valori mancanti anche l'informazione prodotta sarà affetta da errore. In questo scenario nasce il bisogno di sviluppare metodologie per valutare la qualità dei dati analizzati prima che vengano usati per estrarre informazioni utili. Questi metodi devono adattarsi ai requisiti di qualità richiesti dall'applicazione che utilizzerà i dati. In base all'applicazione che userà i dati, il metodo adattivo dovrà valutare aspetti di qualità differenti utilizzando dimensioni di valutazione diverse. In questa tesi viene proposto un metodo adattativo che offre un servizio di qualità sui dati in modo da rendere consapevole l'utente (o l'applicazione che ne farà uso) del grado di qualità dei dati che andrà ad elaborare. Questo lavoro è stato realizzato per proporre una implementazione del servizio di qualità sui dati che verrà inserito nella architettura del progetto BIGSEA. Uno degli aspetti che riguarda questo progetto è l'analisi dei dati provenienti dal sistema di trasporto pubblico di una città brasiliana in modo da offrire servizi aggiuntivi ai cittadini della città. L'obiettivo della metodologia proposta è quello di aiutare l'utente a costruire una analisi di qualità sui dati per constatare se i dati dovranno essere sottoposti ad una procedura di pre processing prima di essere utilizzati. Questo lavoro contiene la descrizione del metodo adattivo proposto per costruire una analisi di qualità, la descrizione dell'implementazione del metodo adattivo e una descrizione dei risultati di qualità ottenuti sui dati concessi dal progetto BIGSEA sul sistema di trasporto pubblico della città Brasiliana di Curitiba.

A method for raising quality awareness in big data analysis

MACCAGNI, GIACOMO
2015/2016

Abstract

In these years the massive use of devices all connected among each other has produced a huge amount of data. Smart phones, personal computers, IoT devices, web sites and many other sources are producing data every day. The generated data can be used to retrieve and generate useful information and the quality of the produced information depends by the quality of the data. If the data contains wrong values and missing values the produced information will be wrong. This situation arises the need of methods that are able to evaluate the quality of the data before use them to produce information. The methods must be adaptive to the application that will use the data that will be evaluated, because the data quality requirements depend on the type of information that will be produced using the analyzed data. So depending on the application that will use the data, the adaptive method will asses different portions of the data quality using different dimensions. In this thesis an adaptive method is proposed for offering a data quality service able to make the users (humans or applications) aware of the quality of the sources on the basis of their goals. This work is realized to propose an implementation of the Data Quality as a Service module that will be placed in the architecture of the EuBRA-BIGSEA project. The project focuses on the analysis of the transportation system of a Brazilian city in order to offer added value services to its citizens. The goal of the proposed methodology is to provide an adaptive approach to set up a quality analysis over a data source, in order to reason if the data source needs to be preprocessed before being used by the applications of the project. This work proposes the description of the adaptive approach to set up the quality analysis, an implementation of the adaptive approach and the experimental results computed over the data sources made available by the EuBRA-BIGSEA project related to the public transportation of the city of Curitiba.
VITALI, MONICA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2017
2015/2016
In questi anni l'uso intenso di dispositivi connessi tra loro ha prodotto una enorme quantità di dati. Smart phones, computers, dispositivi IoT, siti web e tante altre sorgenti producono dati ogni giorno. I dati generati possono essere usati per ricavare informazioni utili ma la qualità dell'informazione dipende strettamente dalla qualità dei dati analizzati. Se i dati analizzati contengono valori errati oppure valori mancanti anche l'informazione prodotta sarà affetta da errore. In questo scenario nasce il bisogno di sviluppare metodologie per valutare la qualità dei dati analizzati prima che vengano usati per estrarre informazioni utili. Questi metodi devono adattarsi ai requisiti di qualità richiesti dall'applicazione che utilizzerà i dati. In base all'applicazione che userà i dati, il metodo adattivo dovrà valutare aspetti di qualità differenti utilizzando dimensioni di valutazione diverse. In questa tesi viene proposto un metodo adattativo che offre un servizio di qualità sui dati in modo da rendere consapevole l'utente (o l'applicazione che ne farà uso) del grado di qualità dei dati che andrà ad elaborare. Questo lavoro è stato realizzato per proporre una implementazione del servizio di qualità sui dati che verrà inserito nella architettura del progetto BIGSEA. Uno degli aspetti che riguarda questo progetto è l'analisi dei dati provenienti dal sistema di trasporto pubblico di una città brasiliana in modo da offrire servizi aggiuntivi ai cittadini della città. L'obiettivo della metodologia proposta è quello di aiutare l'utente a costruire una analisi di qualità sui dati per constatare se i dati dovranno essere sottoposti ad una procedura di pre processing prima di essere utilizzati. Questo lavoro contiene la descrizione del metodo adattivo proposto per costruire una analisi di qualità, la descrizione dell'implementazione del metodo adattivo e una descrizione dei risultati di qualità ottenuti sui dati concessi dal progetto BIGSEA sul sistema di trasporto pubblico della città Brasiliana di Curitiba.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Maccagni_Thesis.pdf

solo utenti autorizzati dal 11/04/2018

Descrizione: Testo della tesi
Dimensione 7.45 MB
Formato Adobe PDF
7.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/134469