Organizations increasingly rely on data analysis to inform strategic decisions, with the effectiveness of these decisions heavily contingent on the quality of the underlying data. This thesis addresses the complexities of data preparation, focusing on enhancing data quality through efficient and accurate data preprocessing techniques. The core challenge tackled in this work is the imputation of missing values by introducing a contextual multi-armed bandit recommendation system. This system leverages an internal knowl- edge base to recommend the most suitable imputation techniques, balancing the need for automation and explainability. Methodologically, this thesis advances the framework from previous research by incorporating an online learning methodology that adapts based on the user’s specific scenario. The recommendation system is rigorously developed and evaluated, undergoing fine-tuning and a sensitivity analysis of its parameters. It is then benchmarked against state-of-the-art multi-armed-bandit policies, achieving an average 8% improvement in MAP@1 scores and a 20% increase in real-world simulated Leave- One-Dataset-Out scenarios compared to existing literature. Additionally, the application of empirical knowledge has led to a further 7% increase in MAP@1, demonstrating the system’s effectiveness in utilizing contextual and historical data insights for data prepa- ration. In conclusion, this thesis significantly contributes to the data preparation field by presenting a novel recommendation system that effectively utilizes both contextual infor- mation and historical data insights. This system aids users in enhancing the quality of their datasets, thereby improving the trustworthiness and usefulness of subsequent data analyses.

Le organizzazioni si affidano sempre più spesso all’analisi dei dati per informare le de- cisioni strategiche, con l’efficacia di queste decisioni strettamente legata alla qualità dei dati sottostanti. Questa tesi affronta le complessità della preparazione dei dati, concen- trandosi sul miglioramento della qualità dei dati attraverso tecniche di pre-elaborazione efficienti e accurate. La sfida principale affrontata in questo lavoro è l’imputazione dei valori mancanti tramite l’introduzione di un sistema di raccomandazione contestuale con multi-armed-bandit. Questo sistema sfrutta una base di conoscenza interna per racco- mandare le tecniche di imputazione più adatte, bilanciando la necessità di automazione e spiegabilità. Metodologicamente, questa tesi avanza il quadro di riferimento della ricerca precedente incorporando una metodologia di apprendimento online che si adatta in base allo scenario specifico dell’utente. Il sistema di raccomandazione è sviluppato e valutato rigorosamente, subendo una messa a punto e un’analisi di sensibilità dei suoi parametri. Successivamente viene confrontato con le politiche multi-braccio all’avanguardia, otte- nendo un miglioramento medio dell’8% nei punteggi MAP@1 e un aumento del 20% negli scenari simulati reali Leave-One-Dataset-Out rispetto alla letteratura esistente. In- oltre, l’applicazione della conoscenza empirica ha portato a un ulteriore aumento del 7% nei punteggi MAP@1, dimostrando l’efficacia del sistema nell’utilizzare le informazioni contestuali e i dati storici per la preparazione dei dati. In conclusione, questa tesi con- tribuisce significativamente al campo della preparazione dei dati presentando un sistema di raccomandazione innovativo che utilizza efficacemente sia le informazioni contestuali che le conoscenze storiche. Questo sistema aiuta gli utenti a migliorare la qualità dei loro dataset, migliorando così l’affidabilità e l’utilità delle successive analisi dei dati.

Enhancing data preparation with adaptive learning

Pancini, Matteo
2023/2024

Abstract

Organizations increasingly rely on data analysis to inform strategic decisions, with the effectiveness of these decisions heavily contingent on the quality of the underlying data. This thesis addresses the complexities of data preparation, focusing on enhancing data quality through efficient and accurate data preprocessing techniques. The core challenge tackled in this work is the imputation of missing values by introducing a contextual multi-armed bandit recommendation system. This system leverages an internal knowl- edge base to recommend the most suitable imputation techniques, balancing the need for automation and explainability. Methodologically, this thesis advances the framework from previous research by incorporating an online learning methodology that adapts based on the user’s specific scenario. The recommendation system is rigorously developed and evaluated, undergoing fine-tuning and a sensitivity analysis of its parameters. It is then benchmarked against state-of-the-art multi-armed-bandit policies, achieving an average 8% improvement in MAP@1 scores and a 20% increase in real-world simulated Leave- One-Dataset-Out scenarios compared to existing literature. Additionally, the application of empirical knowledge has led to a further 7% increase in MAP@1, demonstrating the system’s effectiveness in utilizing contextual and historical data insights for data prepa- ration. In conclusion, this thesis significantly contributes to the data preparation field by presenting a novel recommendation system that effectively utilizes both contextual infor- mation and historical data insights. This system aids users in enhancing the quality of their datasets, thereby improving the trustworthiness and usefulness of subsequent data analyses.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Le organizzazioni si affidano sempre più spesso all’analisi dei dati per informare le de- cisioni strategiche, con l’efficacia di queste decisioni strettamente legata alla qualità dei dati sottostanti. Questa tesi affronta le complessità della preparazione dei dati, concen- trandosi sul miglioramento della qualità dei dati attraverso tecniche di pre-elaborazione efficienti e accurate. La sfida principale affrontata in questo lavoro è l’imputazione dei valori mancanti tramite l’introduzione di un sistema di raccomandazione contestuale con multi-armed-bandit. Questo sistema sfrutta una base di conoscenza interna per racco- mandare le tecniche di imputazione più adatte, bilanciando la necessità di automazione e spiegabilità. Metodologicamente, questa tesi avanza il quadro di riferimento della ricerca precedente incorporando una metodologia di apprendimento online che si adatta in base allo scenario specifico dell’utente. Il sistema di raccomandazione è sviluppato e valutato rigorosamente, subendo una messa a punto e un’analisi di sensibilità dei suoi parametri. Successivamente viene confrontato con le politiche multi-braccio all’avanguardia, otte- nendo un miglioramento medio dell’8% nei punteggi MAP@1 e un aumento del 20% negli scenari simulati reali Leave-One-Dataset-Out rispetto alla letteratura esistente. In- oltre, l’applicazione della conoscenza empirica ha portato a un ulteriore aumento del 7% nei punteggi MAP@1, dimostrando l’efficacia del sistema nell’utilizzare le informazioni contestuali e i dati storici per la preparazione dei dati. In conclusione, questa tesi con- tribuisce significativamente al campo della preparazione dei dati presentando un sistema di raccomandazione innovativo che utilizza efficacemente sia le informazioni contestuali che le conoscenze storiche. Questo sistema aiuta gli utenti a migliorare la qualità dei loro dataset, migliorando così l’affidabilità e l’utilità delle successive analisi dei dati.
File allegati
File Dimensione Formato  
Pancini_Polimi_Final.pdf

accessibile in internet per tutti

Dimensione 4.26 MB
Formato Adobe PDF
4.26 MB Adobe PDF Visualizza/Apri
Pancini_Executive_Final.pdf

accessibile in internet per tutti

Dimensione 608.97 kB
Formato Adobe PDF
608.97 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223607