Assessing and improving Data Quality using Machine Learning and control charts

Increased data volumes put companies under pressure to systematically manage and control their data assets. In addition, common data management practices lack sufficient scalability and do not have the capacity to manage ever-increasing data volumes. Companies, therefore, need to rethink their data management. Thanks to the substantial progress in Machine Learning in terms of learning from data and automating repetitive tasks, this thesis wants to investigate a methodology that makes use of Machine Learning to improve Data Quality and consequently support companies in data management activities. The main goal is to derive a consistent dataset where outliers are highlighted in order to support and guide the business to track price fluctuation of logistics units and make strategic decisions for asset remarketing. As a prior step, a cleaning process takes place. Columns are profiled and dataset is normalized in order to enhance both schema readability and the quality of data. Then, the conducted analysis evaluates the impact of different imputation methods on the performances of some Machine Learning models when they are asked to predict the price of units. After comparing the models, the best one generates predictions for all the samples in the dataset, and another Machine Learning model identifies outliers based on predictions, while a Statistical Quality Control process refines the results. The whole process in the end proves that improving the quality of data is a fundamental step in data management activities, and it becomes even more crucial when data is used for making strategic decisions.

L'aumento dei volumi di dati mette le aziende sotto pressione per gestire e controllare sistematicamente le loro risorse di dati. Inoltre, le comuni pratiche di gestione dei dati non sono sufficientemente scalabili e non hanno la capacità di gestire volumi di dati sempre maggiori. Le aziende devono quindi ripensare la gestione dei dati. Grazie ai notevoli progressi del Machine Learning in termini di apprendimento dai dati e di automazione di attività ripetitive, questa tesi vuole studiare una metodologia che faccia uso del Machine Learning per migliorare la Data Quality e di conseguenza supportare le aziende nelle attività di gestione dei dati. L'obiettivo principale è quello di ricavare un dataset consistente in cui siano evidenziati gli outlier, al fine di supportare e guidare l'azienda nel tracciare la fluttuazione dei prezzi delle unità logistiche e prendere decisioni strategiche per il remarketing degli asset. Come fase preliminare, viene eseguito un processo di pulizia dei dati. Le colonne vengono profilate e il set di dati viene normalizzato per migliorare la leggibilità dello schema e la qualità dei dati. In seguito, l'analisi condotta valuta l'impatto di diversi metodi di imputazione sulle prestazioni di alcuni modelli di Machine Learning quando viene chiesto loro di prevedere il prezzo delle unità. Dopo aver confrontato i modelli, il migliore genera previsioni per tutti i campioni del set di dati e un altro modello di Machine Learning identifica gli outlier sulla base delle previsioni, mentre un processo di controllo statistico della qualità affina i risultati. L'intero processo dimostra che il miglioramento della qualità dei dati è un passo fondamentale nelle attività di gestione dei dati, e diventa ancora più cruciale quando i dati vengono utilizzati per prendere decisioni strategiche.