Enhancing data preparation with adaptive learning

Organizations increasingly rely on data analysis to inform strategic decisions, with the effectiveness of these decisions heavily contingent on the quality of the underlying data. This thesis addresses the complexities of data preparation, focusing on enhancing data quality through efficient and accurate data preprocessing techniques. The core challenge tackled in this work is the imputation of missing values by introducing a contextual multi-armed bandit recommendation system. This system leverages an internal knowl- edge base to recommend the most suitable imputation techniques, balancing the need for automation and explainability. Methodologically, this thesis advances the framework from previous research by incorporating an online learning methodology that adapts based on the user’s specific scenario. The recommendation system is rigorously developed and evaluated, undergoing fine-tuning and a sensitivity analysis of its parameters. It is then benchmarked against state-of-the-art multi-armed-bandit policies, achieving an average 8% improvement in MAP@1 scores and a 20% increase in real-world simulated Leave- One-Dataset-Out scenarios compared to existing literature. Additionally, the application of empirical knowledge has led to a further 7% increase in MAP@1, demonstrating the system’s effectiveness in utilizing contextual and historical data insights for data prepa- ration. In conclusion, this thesis significantly contributes to the data preparation field by presenting a novel recommendation system that effectively utilizes both contextual infor- mation and historical data insights. This system aids users in enhancing the quality of their datasets, thereby improving the trustworthiness and usefulness of subsequent data analyses.

Le organizzazioni si affidano sempre più spesso all’analisi dei dati per informare le de- cisioni strategiche, con l’efficacia di queste decisioni strettamente legata alla qualità dei dati sottostanti. Questa tesi affronta le complessità della preparazione dei dati, concen- trandosi sul miglioramento della qualità dei dati attraverso tecniche di pre-elaborazione efficienti e accurate. La sfida principale affrontata in questo lavoro è l’imputazione dei valori mancanti tramite l’introduzione di un sistema di raccomandazione contestuale con multi-armed-bandit. Questo sistema sfrutta una base di conoscenza interna per racco- mandare le tecniche di imputazione più adatte, bilanciando la necessità di automazione e spiegabilità. Metodologicamente, questa tesi avanza il quadro di riferimento della ricerca precedente incorporando una metodologia di apprendimento online che si adatta in base allo scenario specifico dell’utente. Il sistema di raccomandazione è sviluppato e valutato rigorosamente, subendo una messa a punto e un’analisi di sensibilità dei suoi parametri. Successivamente viene confrontato con le politiche multi-braccio all’avanguardia, otte- nendo un miglioramento medio dell’8% nei punteggi MAP@1 e un aumento del 20% negli scenari simulati reali Leave-One-Dataset-Out rispetto alla letteratura esistente. In- oltre, l’applicazione della conoscenza empirica ha portato a un ulteriore aumento del 7% nei punteggi MAP@1, dimostrando l’efficacia del sistema nell’utilizzare le informazioni contestuali e i dati storici per la preparazione dei dati. In conclusione, questa tesi con- tribuisce significativamente al campo della preparazione dei dati presentando un sistema di raccomandazione innovativo che utilizza efficacemente sia le informazioni contestuali che le conoscenze storiche. Questo sistema aiuta gli utenti a migliorare la qualità dei loro dataset, migliorando così l’affidabilità e l’utilità delle successive analisi dei dati.