Data preparation is a critical step in data analysis as it involves collecting, cleaning, transforming, and organizing data to ensure high data quality. It can be challenging and time-consuming due to the need to handle large datasets, integrate data from multiple sources, and perform data cleaning and transformation tasks, which can require technical expertise, which is needed to perform the data preparation tasks efficiently and effectively. Current data preparation tools lack interactive and explainable feedback, making them inaccessible to non-experts. However, data preparation must not be limited to experts since it is increasingly becoming relevant to non-technical users as well. This work addresses the open issue of this lack of interactive and explainable feedback in the data preparation process. Our contribution is a novel approach to simplifying such a process and making it accessible to both technical and non-technical users. In this thesis, we propose a chatbot-based tool that simplifies the data preparation process and provides interactive and explainable feedback to support both experts and non-experts. Our evaluation shows promising results, indicating that the tool's interactive and explainable feedbacks are helpful in supporting users in their data preparation tasks. Future work includes further development of the tool to create a fully functional system that can be used in real-world scenarios.

La preparazione dei dati è una fase cruciale del processor di analisi dei dati, in quanto comporta la raccolta, la pulizia, la trasformazione e l'organizzazione degli stessi per garantirne un'elevata qualità. Questa fase può essere impegnativa e richiedere molto tempo a causa della necessità di gestire insiemi di dati di grandi dimensioni, integrare dati provenienti da più fonti ed eseguire operazioni di pulizia e trasformazione dei dati, il che può richiedere competenze tecniche, necessarie per eseguire quest'attività in modo efficiente ed efficace. Gli attuali strumenti di preparazione dei dati non consentono di avere spiegazioni interattive, rendendoli inaccessibili ai non esperti. Tuttavia, la preparazione dei dati non deve essere limitata agli esperti in quanto sta diventando sempre più importante anche per gli utenti non tecnici. Questo lavoro affronta il problema della mancanza di spiegazioni interattive nel processo di preparazione dei dati. Il nostro contributo è un approccio innovativo per semplificare tale processo e renderlo accessibile sia agli utenti tecnici che a quelli non tecnici. In questa tesi, proponiamo uno strumento basato su un chatbot che semplifica il processo di preparazione dei dati e fornisce spiegazioni interattive per supportare sia gli esperti che i non esperti. La nostra valutazione ha mostrato risultati promettenti, indicando che le spiegazioni interattive dello strumento sono utili per supportare gli utenti nei loro compiti di preparazione dei dati. Un lavoro futuro prevede un ulteriore sviluppo dello strumento per creare un sistema completamente funzionale che possa essere utilizzato in scenari reali.

Explainability and data preparation : a framework to support users in exploring and cleaning datasets

Mohamed, Mohamed Gasmelseed Ibrahim
2022/2023

Abstract

Data preparation is a critical step in data analysis as it involves collecting, cleaning, transforming, and organizing data to ensure high data quality. It can be challenging and time-consuming due to the need to handle large datasets, integrate data from multiple sources, and perform data cleaning and transformation tasks, which can require technical expertise, which is needed to perform the data preparation tasks efficiently and effectively. Current data preparation tools lack interactive and explainable feedback, making them inaccessible to non-experts. However, data preparation must not be limited to experts since it is increasingly becoming relevant to non-technical users as well. This work addresses the open issue of this lack of interactive and explainable feedback in the data preparation process. Our contribution is a novel approach to simplifying such a process and making it accessible to both technical and non-technical users. In this thesis, we propose a chatbot-based tool that simplifies the data preparation process and provides interactive and explainable feedback to support both experts and non-experts. Our evaluation shows promising results, indicating that the tool's interactive and explainable feedbacks are helpful in supporting users in their data preparation tasks. Future work includes further development of the tool to create a fully functional system that can be used in real-world scenarios.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
La preparazione dei dati è una fase cruciale del processor di analisi dei dati, in quanto comporta la raccolta, la pulizia, la trasformazione e l'organizzazione degli stessi per garantirne un'elevata qualità. Questa fase può essere impegnativa e richiedere molto tempo a causa della necessità di gestire insiemi di dati di grandi dimensioni, integrare dati provenienti da più fonti ed eseguire operazioni di pulizia e trasformazione dei dati, il che può richiedere competenze tecniche, necessarie per eseguire quest'attività in modo efficiente ed efficace. Gli attuali strumenti di preparazione dei dati non consentono di avere spiegazioni interattive, rendendoli inaccessibili ai non esperti. Tuttavia, la preparazione dei dati non deve essere limitata agli esperti in quanto sta diventando sempre più importante anche per gli utenti non tecnici. Questo lavoro affronta il problema della mancanza di spiegazioni interattive nel processo di preparazione dei dati. Il nostro contributo è un approccio innovativo per semplificare tale processo e renderlo accessibile sia agli utenti tecnici che a quelli non tecnici. In questa tesi, proponiamo uno strumento basato su un chatbot che semplifica il processo di preparazione dei dati e fornisce spiegazioni interattive per supportare sia gli esperti che i non esperti. La nostra valutazione ha mostrato risultati promettenti, indicando che le spiegazioni interattive dello strumento sono utili per supportare gli utenti nei loro compiti di preparazione dei dati. Un lavoro futuro prevede un ulteriore sviluppo dello strumento per creare un sistema completamente funzionale che possa essere utilizzato in scenari reali.
File allegati
File Dimensione Formato  
2023_5_Mohamed_01.pdf

non accessibile

Descrizione: Thesis
Dimensione 1.92 MB
Formato Adobe PDF
1.92 MB Adobe PDF   Visualizza/Apri
2023_5_Mohamed_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 1.34 MB
Formato Adobe PDF
1.34 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/212692