Supporting the selection of data imputation methods through profiling data analysis

Nowadays, organizations heavily rely on data analysis to support their business decisions. However, the trustworthiness of information derived from data analysis depends on the quality of the data itself, which often contains errors, inconsistencies, and biases. Data preparation is a mandatory process aimed at improving data quality and is required for every company involved in data mining and machine learning workflows. Being able to clean, transform, and organize raw data in a format suitable for further processing is essential for ensuring the quality, reliability, and usefulness of the dataset and the results of the analysis. However, data preparation activities are time-consuming, and it may not be straightforward, especially for an inexperienced user, to understand which preparation techniques to apply in a specific scenario. Indeed, different preparation pipelines are often possible, depending on the data and the desired analysis to perform. This thesis builds upon previous work, which designed and implemented an architecture able to suggest to a user the optimal preparation pipeline to be applied to the data. In particular, this work focuses on a precise technique of the preparation pipeline, namely the imputation of the missing values of a single column of a dataset, aiming at improving the completeness dimension of the data. Machine learning classifiers are proposed as a solution to assist users in selecting the ideal imputation algorithms for the columns of their datasets. A classifier has as input the characteristics of a column (numerical or categorical) and the type of analysis selected by the user, and predicts the best imputation method to fill the incomplete column values. Data profiling methods are employed to extract the relevant characteristics from the column, such as its type, statistics about the distribution of values, cardinalities, correlations with other columns of the same dataset, and others. The classifiers have been trained and evaluated on a collection of datasets, highlighting which features of a column are the most important to discriminate the most suitable imputation method.

Attualmente le organizzazioni si affidano fortemente all'analisi dei dati per supportare le decisioni aziendali. Tuttavia, l'attendibilità delle informazioni derivate dall'analisi dei dati dipende dalla qualità dei dati stessi, che spesso contengono errori, inconsistenze e bias. La preparazione dei dati è un processo necessario per migliorarne la qualità, richiesto per ogni azienda coinvolta nelle attività di data mining e machine learning. Essere in grado di pulire, trasformare e organizzare i dati grezzi in un formato adatto a successive elaborazioni è essenziale per garantire la qualità, l'affidabilità e l'utilità del dataset e dei risultati dell'analisi. Tuttavia, le attività di preparazione dei dati richiedono molto tempo e potrebbe non essere semplice, soprattutto per un utente inesperto, capire quali tecniche di preparazione applicare in uno scenario specifico. Infatti, diverse procedure sono spesso possibili, a seconda dei dati e dell'analisi da eseguire. Questa tesi si basa su lavori precedenti, che hanno progettato e implementato un'architettura in grado di suggerire ad un utente la procedura di preparazione ottimale da applicare ai dati. In particolare, questo lavoro si focalizza su una tecnica specifica della pipeline di preparazione, ovvero l'imputazione dei valori mancanti di una singola colonna di un dataset, mirando a migliorare la completezza dei dati. Dei classificatori basati sul machine learning sono proposti come soluzione per assistere gli utenti nella selezione dei metodi di imputazione ideali da applicare alle colonne dei loro dataset. Un classificatore ha come input le caratteristiche di una colonna (numerica o categorica) e il tipo di analisi selezionata dall'utente e predice il miglior metodo di imputazione per sostituire i valori mancanti della colonna. Metodi di profilazione dei dati sono adottati per ricavare le adeguate caratteristiche dalla colonna, come il suo tipo, le statistiche sulla distribuzione dei valori, le cardinalità, le correlazioni con altre colonne dello stesso dataset, e altro ancora. I classificatori sono stati addestrati e valutati su una collezione di dataset, evidenziando quali sono le caratteristiche di una colonna più importanti per discriminare il metodo di imputazione più adatto.