A knowledge-driven approach for supporting data preparation

Data-driven management is becoming more and more popular: organizations increasingly rely on collecting and analyzing large volumes of data to support their business decisions. However, the success of the decisions based on data depends greatly on the quality of the data itself. Working with poor quality data introduces the risk of unreliable and erroneous outcomes. Consequently, a thorough data preparation phase aimed to improve data quality is critical. It has been shown that data preparation can take a substantial portion - up to 80 percent - of a data scientist's workload. Data preparation is time-consuming, involving a large and heterogeneous variety of techniques and issues. Moreover, depending on the available data and the desired analyses to perform, different data preparation pipelines may be suitable. For these reasons, a user, especially a non-expert, may find it difficult to navigate the complex journey of data preparation. This thesis addresses this issue by proposing an approach that supports users, guiding them through the preparation process and offering appropriate suggestions for their needs. The methodology presented in this thesis allows users to upload their data and select a Machine Learning Application as the target of their analysis. Subsequently, the methodology guides the users, considering the selected context. A Knowledge Base, designed and implemented during this work, is central to this methodology, containing all the concepts needed for supporting data preparation. The Knowledge Base is constantly queried throughout the process to propose actions appropriate to the specific users' context. To provide tailored suggestions, the proposed methodology relies on classifiers: each classifier takes as input the data uploaded and the application selected by the users and predicts the best method to perform a certain data preparation technique in that context. This thesis focuses specifically on the Imputation technique: two classifiers were developed to predict the best imputation method to fill in the missing values of a dataset or column, considering both the data characteristics and the users' objective analysis. By leveraging the Knowledge Base and the implemented classifiers, the presented methodology is able to support users through the data preparation process, tailoring the proposed preparation pipeline according to the users' needs and offering contextually appropriate suggestions.

Il data-driven management sta diventando sempre più popolare: le organizzazioni si affidano sempre più alla raccolta e all'analisi di grandi volumi di dati per supportare le loro decisioni. Tuttavia, il successo delle decisioni basate sui dati dipende in larga misura dalla qualità dei dati stessi. Utilizzare dati di scarsa qualità può portare a risultati inaffidabili o erronei. Di conseguenza, è essenziale un'accurata fase di preparazione dei dati volta a migliorarne la qualità. È stato dimostrato che la preparazione dei dati può occupare una considerevole porzione - fino all'80% - del lavoro di un data scientist. La preparazione dei dati è un processo lungo, costituito da un'ampia ed eterogenea varietà di attività e problematiche. Inoltre, a seconda dei dati che si hanno a disposizione e delle analisi che si desidera eseguire, diverse procedure di preparazione possono essere appropriate. Per questi motivi, un utente, soprattutto se non esperto, può trovare difficile orientarsi nel complesso procedimento di preparazione dei dati. Questa tesi affronta questo problema proponendo un approccio che supporta gli utenti guidandoli attraverso il processo di preparazione, offrendo suggerimenti opportuni per le loro esigenze specifiche. La metodologia presentata in questa tesi consente agli utenti di caricare i propri dati e di selezionare un'applicazione di machine learning come obiettivo della propria analisi. Da questo punto in poi, la metodologia guida gli utenti tenendo in considerazione il contesto selezionato. Alla base di questa metodologia c'è una Knowledge Base, progettata e implementata durante questo lavoro, contenente tutti i concetti necessari per supportare la preparazione dei dati. Durante la preparazione, la Knowledge Base è costantemente interrogata per proporre azioni appropriate al contesto specifico dell'utente. Per fornire suggerimenti personalizzati, la metodologia proposta fa uso di classificatori: ogni classificatore prende in input i dati caricati e l'applicazione selezionata dagli utenti e predice il metodo migliore per eseguire una certa tecnica di preparazione in quel contesto. Questa tesi si focalizza in particolare sulla tecnica di imputazione: due classificatori sono stati sviluppati per predire il migliore metodo di imputazione per sostituire i valori mancanti di un dataset o di una colonna, considerando sia le caratteristiche dei dati sia l'obiettivo di analisi degli utenti. Sfruttando la Knowledge Base e i classificatori implementati, la metodologia presentata riesce a supportare gli utenti durante il processo di preparazione dei dati, variando la pipeline di preparazione proposta a seconda delle esigenze degli utenti e facendo suggerimenti appropriati.