In the realm of data-driven decision-making, data quality is the cornerstone upon which accurate insights, informed choices and meaningful analysis are built. For this reason, data preparation pipelines are pivotal in preparing the data for further processing and analysis. However, designing a well-structured data preparation pipeline is not a straightforward task. There are several challenges in identifying the right configuration for the pipeline, considering several constraints to achieve the objectives of data preparation. Existing data preparation pipelines lack user-friendly interfaces that provide feedback on the performance of the pipeline with the capabilities to identify areas of improvement to optimise the pipeline. In this thesis, we aim to develop an interactive feedback dashboard to visualise the outcome of a data preparation pipeline. It helps to gain a clear understanding of the performance of the pipeline when executed on a sample data set. The idea is to offer a dynamic platform to adjust the input parameters, fine-tune the pipeline configuration and assess the impact without the need for the actual execution of the pipeline in a time-consuming trial-and-error manner. The idea has been implemented to evaluate and refine the VisualCit data preparation pipeline results through an intuitive web-based feedback dashboard. The dashboard helps to identify the desired pipeline configuration parameters with minimal effort. Experiments have been performed on the dashboard using the VisualCit pipeline output for a sample annotated social media image data set, and the results are presented. We aim to extend the horizon of user-friendly self-service data preparation tools through empirical studies and practical implementation.

Nell’ambito del processo decisionale basato sui dati, la qualità dei dati è la pietra miliare su cui si basano intuizioni accurate, scelte consapevoli e analisi significative. Per questo motivo, le pipeline di preparazione dei dati sono fondamentali per preparare i dati per ulteriori elaborazioni e analisi. Tuttavia, progettare una pipeline di preparazione dei dati ben strutturata non è un compito semplice. Esistono diverse sfide nell'identificazione della giusta configurazione per la pipeline, considerando diversi vincoli per raggiungere gli obiettivi della preparazione dei dati. Le pipeline di preparazione dei dati esistenti mancano di interfacce semplici da usare per l’utente e che forniscano riscontri sulle prestazioni della pipeline con la capacità di identificare aree di miglioramento e di ottimizzazione. In questa tesi, miriamo a sviluppare una dashboard di feedback interattiva per visualizzare il risultato di una pipeline di preparazione dei dati. Aiuta ad acquisire una chiara comprensione delle prestazioni della pipeline quando eseguita su un set di dati di prova. L'idea è quella di offrire una piattaforma dinamica per regolare i parametri di ingresso, mettere a punto la configurazione della pipeline e valutare l'impatto senza la necessità dell'effettiva esecuzione della pipeline, in un processo di tentativi ed errori dispendioso in termini di tempo. L'idea è stata implementata per valutare e perfezionare i risultati della pipeline di preparazione dei dati di VisualCit attraverso un pannello di controllo intuitivo di feedback fondato sul web. La dashboard aiuta a identificare i parametri di configurazione della pipeline desiderati con il minimo sforzo. Sono state eseguite diverse prove sul pannello di controllo utilizzando l'uscita della pipeline VisualCit, in particolare, sono riportati i risultati di un test per un serie di dati di immagini, con annotazioni, di Twitter. Il nostro obiettivo è estendere il panorama degli strumenti di preparazione dei dati self-service che sia di facile utilizzo attraverso studi empirici e implementazioni pratiche.

Interactive feedback dashboard for data preparation pipelines

BONTHU, SIRICHANDANA
2022/2023

Abstract

In the realm of data-driven decision-making, data quality is the cornerstone upon which accurate insights, informed choices and meaningful analysis are built. For this reason, data preparation pipelines are pivotal in preparing the data for further processing and analysis. However, designing a well-structured data preparation pipeline is not a straightforward task. There are several challenges in identifying the right configuration for the pipeline, considering several constraints to achieve the objectives of data preparation. Existing data preparation pipelines lack user-friendly interfaces that provide feedback on the performance of the pipeline with the capabilities to identify areas of improvement to optimise the pipeline. In this thesis, we aim to develop an interactive feedback dashboard to visualise the outcome of a data preparation pipeline. It helps to gain a clear understanding of the performance of the pipeline when executed on a sample data set. The idea is to offer a dynamic platform to adjust the input parameters, fine-tune the pipeline configuration and assess the impact without the need for the actual execution of the pipeline in a time-consuming trial-and-error manner. The idea has been implemented to evaluate and refine the VisualCit data preparation pipeline results through an intuitive web-based feedback dashboard. The dashboard helps to identify the desired pipeline configuration parameters with minimal effort. Experiments have been performed on the dashboard using the VisualCit pipeline output for a sample annotated social media image data set, and the results are presented. We aim to extend the horizon of user-friendly self-service data preparation tools through empirical studies and practical implementation.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Nell’ambito del processo decisionale basato sui dati, la qualità dei dati è la pietra miliare su cui si basano intuizioni accurate, scelte consapevoli e analisi significative. Per questo motivo, le pipeline di preparazione dei dati sono fondamentali per preparare i dati per ulteriori elaborazioni e analisi. Tuttavia, progettare una pipeline di preparazione dei dati ben strutturata non è un compito semplice. Esistono diverse sfide nell'identificazione della giusta configurazione per la pipeline, considerando diversi vincoli per raggiungere gli obiettivi della preparazione dei dati. Le pipeline di preparazione dei dati esistenti mancano di interfacce semplici da usare per l’utente e che forniscano riscontri sulle prestazioni della pipeline con la capacità di identificare aree di miglioramento e di ottimizzazione. In questa tesi, miriamo a sviluppare una dashboard di feedback interattiva per visualizzare il risultato di una pipeline di preparazione dei dati. Aiuta ad acquisire una chiara comprensione delle prestazioni della pipeline quando eseguita su un set di dati di prova. L'idea è quella di offrire una piattaforma dinamica per regolare i parametri di ingresso, mettere a punto la configurazione della pipeline e valutare l'impatto senza la necessità dell'effettiva esecuzione della pipeline, in un processo di tentativi ed errori dispendioso in termini di tempo. L'idea è stata implementata per valutare e perfezionare i risultati della pipeline di preparazione dei dati di VisualCit attraverso un pannello di controllo intuitivo di feedback fondato sul web. La dashboard aiuta a identificare i parametri di configurazione della pipeline desiderati con il minimo sforzo. Sono state eseguite diverse prove sul pannello di controllo utilizzando l'uscita della pipeline VisualCit, in particolare, sono riportati i risultati di un test per un serie di dati di immagini, con annotazioni, di Twitter. Il nostro obiettivo è estendere il panorama degli strumenti di preparazione dei dati self-service che sia di facile utilizzo attraverso studi empirici e implementazioni pratiche.
File allegati
File Dimensione Formato  
2023_12_Bonthu.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: In the realm of data-driven decision-making, data quality is the cornerstone upon which accurate insights, informed choices and meaningful analysis are built. For this reason, data preparation pipelines are pivotal in preparing the data for further processing and analysis. However, designing a well-structured data preparation pipeline is not a straightforward task. There are several challenges in identifying the right configuration for the pipeline, considering several constraints to achieve the objectives of data preparation. Existing data preparation pipelines lack user-friendly interfaces that provide feedback on the performance of the pipeline with the capabilities to identify areas of improvement to optimise the pipeline. In this thesis, we aim to develop an interactive feedback dashboard to visualise the outcome of a data preparation pipeline. It helps to gain a clear understanding of the performance of the pipeline when executed on a sample data set. The idea is to offer a dynamic platform to adjust the input parameters, fine-tune the pipeline configuration and assess the impact without the need for the actual execution of the pipeline in a time-consuming trial-and-error manner. The idea has been implemented to evaluate and refine the VisualCit data preparation pipeline results through an intuitive web-based feedback dashboard. The dashboard helps to identify the desired pipeline configuration parameters with minimal effort. Experiments have been performed on the dashboard using the VisualCit pipeline output for a sample annotated social media image data set, and the results are presented. We aim to extend the horizon of user-friendly self-service data preparation tools through empirical studies and practical implementation.
Dimensione 2.35 MB
Formato Adobe PDF
2.35 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/213986