The data collection has always been important, and nowadays, with the advancement of technology, it became even easier and faster. Technology has litterally changed everyone's life, it can either be positive or negative. cutting edge technologies together with data can be used to support and improve everything around. It is certain that the data represents a real value if it is combined with data quality. Even though the data can sometimes be erroneous, unreliable or incomplete. Due to this, it is important to analyze their quality before making any decisions. otherwise the decision can be wrong and vice versa. The services that people use these days can be considered as one of the examples for this. To have high-quality data, it is important to be familiar with the concepts of Data Quality Dimensions and Data Quality Metrics, as well as the concept of the Integration of data sets. It is essential to know which information they contain and how these aspects may help to analyze large amount of data in the most efficient way. This thesis is meant to focus all these characteristics. Data collected from a smart city scenario have been taken as a case and a web application has been developed for this purpose.

NELL’ERA tecnologica attuale, collezionare i dati è diventato più semplice per la disponibilità di macchine e sensori economici ed innovativi, che sono connessi tra loro, e con potenti computer, grazie ad infrastrutture di comunicazione molto veloci ed avanzate. Questa grande quantità di dati disponibile ed analizzabile sta rendendo intelligente tutto il mondo. Tuttavia, questi dati possono creare un valore solo se combinati con la propria qualità: i dati possono essere rumorosi, errati o incompleti qualora un errore, di qualsiasi tipo, avviene, e le buone decisioni ed azioni sono sempre il risultato di dati corretti, affidabili e completi. Un uso corretto di dati di alta qualità può produrre misure quantitative che consentono di migliorare l’efficienza operativa di processi economici ed industriali. Nuovi algoritmi devono essere progettati al fine di affrontare i nuovi requisiti legati ai problemi di Volume, Variabilità e Velocità dei Big Data. In particolare, per analizzare correttamente sorgenti eterogenee sono richiesti approcci adattivi in grado di scegliere i metodi di valutazione di qualità più opportuni in base al tipo ed al contesto in cui i dati devono essere utilizzati. In questa tesi è stato progettato e sviluppato un servizio di qualità dei dati in grado di rendere gli utenti (esseri umani o applicazioni) coscienti della qualità delle sorgenti di Big Data in base ai propri obiettivi. Considerando i dati presi da una "smart city" come caso di studio, questa tesi propone un nuovo e generale modulo in grado di analizzare le sorgenti di Big Data per derivare molteplici indicatori di qualità basati su un set di dimensioni.

A tol for estimating the quality of results of a data integration process

JACOB, GODWIN
2017/2018

Abstract

The data collection has always been important, and nowadays, with the advancement of technology, it became even easier and faster. Technology has litterally changed everyone's life, it can either be positive or negative. cutting edge technologies together with data can be used to support and improve everything around. It is certain that the data represents a real value if it is combined with data quality. Even though the data can sometimes be erroneous, unreliable or incomplete. Due to this, it is important to analyze their quality before making any decisions. otherwise the decision can be wrong and vice versa. The services that people use these days can be considered as one of the examples for this. To have high-quality data, it is important to be familiar with the concepts of Data Quality Dimensions and Data Quality Metrics, as well as the concept of the Integration of data sets. It is essential to know which information they contain and how these aspects may help to analyze large amount of data in the most efficient way. This thesis is meant to focus all these characteristics. Data collected from a smart city scenario have been taken as a case and a web application has been developed for this purpose.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
NELL’ERA tecnologica attuale, collezionare i dati è diventato più semplice per la disponibilità di macchine e sensori economici ed innovativi, che sono connessi tra loro, e con potenti computer, grazie ad infrastrutture di comunicazione molto veloci ed avanzate. Questa grande quantità di dati disponibile ed analizzabile sta rendendo intelligente tutto il mondo. Tuttavia, questi dati possono creare un valore solo se combinati con la propria qualità: i dati possono essere rumorosi, errati o incompleti qualora un errore, di qualsiasi tipo, avviene, e le buone decisioni ed azioni sono sempre il risultato di dati corretti, affidabili e completi. Un uso corretto di dati di alta qualità può produrre misure quantitative che consentono di migliorare l’efficienza operativa di processi economici ed industriali. Nuovi algoritmi devono essere progettati al fine di affrontare i nuovi requisiti legati ai problemi di Volume, Variabilità e Velocità dei Big Data. In particolare, per analizzare correttamente sorgenti eterogenee sono richiesti approcci adattivi in grado di scegliere i metodi di valutazione di qualità più opportuni in base al tipo ed al contesto in cui i dati devono essere utilizzati. In questa tesi è stato progettato e sviluppato un servizio di qualità dei dati in grado di rendere gli utenti (esseri umani o applicazioni) coscienti della qualità delle sorgenti di Big Data in base ai propri obiettivi. Considerando i dati presi da una "smart city" come caso di studio, questa tesi propone un nuovo e generale modulo in grado di analizzare le sorgenti di Big Data per derivare molteplici indicatori di qualità basati su un set di dimensioni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Jacob_Tesi_2018.pdf

non accessibile

Descrizione: Thesis
Dimensione 1.28 MB
Formato Adobe PDF
1.28 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142972