During the last years we have produced an incredible amount of information; with this soaring growth, Data Analysis has become one of the main activities in almost every type of existing business sectors, from healthcare to financial markets. However, data has to be compliant with certain quality standards in order to take advantage of its full potential, therefore industries have put more and more efforts in the Data Cleaning operation, which aims to detect and to correct the anomalies in a dataset in order to improve the quality of the analysis. The aim of this thesis is to evaluate the contribution of the use of "extended Conditional Functional Dependencies (eCFD)" to perform data cleaning. In particular, we developed a technique which looks for dependencies among the attributes of a generic dataset and uses those same dependencies in order to find and to correct inconsistencies in the data to be cleaned. However, the application of this technique still leaves some ambiguity as for the optimal correction. Therefore, in the thesis we discuss the possibility of a "human in the loop" solution in the cleaning process and estimate the effectiveness of the system with and without human intervention. We also evaluated the impact of the proposed suggestions on a classical data analysis pipeline involving a classification task. All the obtained results are compared with trivial operations that are often performed to handle errors in standard data analysis procedures. All the above mentioned operations are performed keeping in mind that it is not only important which type of error is present, but also where the error is located within the dataset. In particular, we evaluated the goodness of a supervised learning model trained on clean data and tested on dirty data and vice versa.
Durante gli ultimi anni abbiamo prodotto una quantità incredibile di informazioni; con la loro enorme crescita, l’Analisi dei Dati è diventata una delle principali attività in quasi tutti i settori economici, da quelli medici a quelli finanziari. Tuttavia, i dati devono rispettare alcuni standard di qualità in modo tale da sfruttare appieno il loro potenziale, di conseguenza le industrie hanno cominciato ad investire sempre più risorse nell’operazione di Data Cleaning, che ha lo scopo di rilevare e di correggere le anomalie presenti in un dataset in modo tale da migliorare la qualità delle analisi. Lo scopo di questa tesi è quello di valutare il contributo delle "extended Conditional Functional Dependencies (eCFD)" sul processo di pulizia dei dati. In particolare, abbiamo sviluppato una metodologia per cercare dipendenze tra gli attributi di un dataset generico e utilizzare tali dipendenze per rilevare e correggere anomalie riscontrate nei dati da pulire. Tuttavia, l’applicazione di questa metodologia lascia un certo grado di ambiguità che in alcuni casi porta ad una correzione diversa da quella ottimale. Per questo motivo durante la tesi abbiamo discusso la possibilità di utilizzare una soluzione "human in the loop" all’interno del processo di pulizia e abbiamo valutato l’efficienza del sistema con e senza un intervento umano. Abbiamo anche valutato l’impatto delle correzioni proposte all’interno di una classica pipeline di analisi dei dati nel contesto di un problema di classificazione. Tutti i risultati ottenuti sono stati confrontati con quelli ottenuti tramite correzioni meno sofisticate delle nostre, spesso utilizzate nelle classiche procedure di data cleaning per gestire la presenza di errori. Tutte le operazioni finora citate sono state effettuate tenendo presente non solo il fatto che è importante riconoscere il tipo di errore presente in un dataset, ma anche in quale parte di esso è presente. Più nello specifico, abbiamo confrontato la bontà di un modello di apprendimento supervisionato allenato su dati puliti e testato su dati sporchi e viceversa.
Using conditional functional dependencies for data cleaning in a data analysis perspective
GILARDI, LUCA
2018/2019
Abstract
During the last years we have produced an incredible amount of information; with this soaring growth, Data Analysis has become one of the main activities in almost every type of existing business sectors, from healthcare to financial markets. However, data has to be compliant with certain quality standards in order to take advantage of its full potential, therefore industries have put more and more efforts in the Data Cleaning operation, which aims to detect and to correct the anomalies in a dataset in order to improve the quality of the analysis. The aim of this thesis is to evaluate the contribution of the use of "extended Conditional Functional Dependencies (eCFD)" to perform data cleaning. In particular, we developed a technique which looks for dependencies among the attributes of a generic dataset and uses those same dependencies in order to find and to correct inconsistencies in the data to be cleaned. However, the application of this technique still leaves some ambiguity as for the optimal correction. Therefore, in the thesis we discuss the possibility of a "human in the loop" solution in the cleaning process and estimate the effectiveness of the system with and without human intervention. We also evaluated the impact of the proposed suggestions on a classical data analysis pipeline involving a classification task. All the obtained results are compared with trivial operations that are often performed to handle errors in standard data analysis procedures. All the above mentioned operations are performed keeping in mind that it is not only important which type of error is present, but also where the error is located within the dataset. In particular, we evaluated the goodness of a supervised learning model trained on clean data and tested on dirty data and vice versa.| File | Dimensione | Formato | |
|---|---|---|---|
|
Master Thesis - Luca Gilardi.pdf
non accessibile
Descrizione: Testo della tesi
Dimensione
697.4 kB
Formato
Adobe PDF
|
697.4 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/153120