As data-driven decisions have become an essential part of business’ financial and managerial strategies, the demand for user-friendly data preparation tools has grown exponentially. There exists a direct correlation between high data quality and the trustworthiness of the results of a data analysis. Data preparation operations, i.e. normalization, cleaning, transformation, and integration, are all designed to improve data quality. Data scientists spend most of their time defining a data preparation pipeline able to guarantee reliable results. Users often struggle to design the most effective pipeline due to the complexity and variety of data quality issues, such as outliers, missing data, and inconsistencies. Moreover, what the user did to prepare one dataset might not work for another due to its characteristics, the purpose of the analysis and the Data Quality issues it presents. For this reason, we envision a self-service environment to support the exploration and profiling of the datasets and the selection of the data preparation tasks by recommending the most suitable ones based on the analysis task users want to perform and the dataset features. In this way, our tool aims to facilitate and optimize the design of a data preparation pipeline.

Considerato che le decisioni basate sui dati sono diventate una parte essenziale delle strategie finanziarie e gestionali delle aziende, la richiesta di strumenti di preparazione dei dati di facile utilizzo è cresciuta in modo esponenziale. Esiste una correlazione diretta tra l'elevata qualità dei dati e la validità dei risultati di un'analisi dei dati. Le operazioni di preparazione dei dati, come la normalizzazione, la pulizia, la trasformazione e l'integrazione, sono tutte finalizzate a migliorare la qualità dei dati. I data scientist dedicano la maggior parte del loro tempo a definire una pipeline di azioni mirate alla preparazione dei dati, in grado di garantire risultati affidabili. Gli utenti spesso faticano a delineare la pipeline più efficace a causa della complessità e della varietà dei problemi legati alla qualità dei dati, come ad esempio gli outlier, i dati mancanti e le incoerenze. Inoltre, ciò che l'utente ha fatto per preparare un dataset potrebbe non funzionare per un altro a causa delle loro diverse caratteristiche, dello scopo dell'analisi e dei difetti che presenta. Per questo motivo, proponiamo un ambiente self-service che supporti l'esplorazione e la profilazione dei dataset e la selezione delle attività di preparazione dei dati, consigliando quelle più adatte in base all'attività di analisi che gli utenti vogliono svolgere e alle caratteristiche del dataset. In questo modo, il nostro strumento mira a facilitare e ottimizzare la progettazione di una pipeline di azioni per la preparazione dei dati.

An interactive self-service environment to support data preparation

PUCCI, LAURA
2022/2023

Abstract

As data-driven decisions have become an essential part of business’ financial and managerial strategies, the demand for user-friendly data preparation tools has grown exponentially. There exists a direct correlation between high data quality and the trustworthiness of the results of a data analysis. Data preparation operations, i.e. normalization, cleaning, transformation, and integration, are all designed to improve data quality. Data scientists spend most of their time defining a data preparation pipeline able to guarantee reliable results. Users often struggle to design the most effective pipeline due to the complexity and variety of data quality issues, such as outliers, missing data, and inconsistencies. Moreover, what the user did to prepare one dataset might not work for another due to its characteristics, the purpose of the analysis and the Data Quality issues it presents. For this reason, we envision a self-service environment to support the exploration and profiling of the datasets and the selection of the data preparation tasks by recommending the most suitable ones based on the analysis task users want to perform and the dataset features. In this way, our tool aims to facilitate and optimize the design of a data preparation pipeline.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
Considerato che le decisioni basate sui dati sono diventate una parte essenziale delle strategie finanziarie e gestionali delle aziende, la richiesta di strumenti di preparazione dei dati di facile utilizzo è cresciuta in modo esponenziale. Esiste una correlazione diretta tra l'elevata qualità dei dati e la validità dei risultati di un'analisi dei dati. Le operazioni di preparazione dei dati, come la normalizzazione, la pulizia, la trasformazione e l'integrazione, sono tutte finalizzate a migliorare la qualità dei dati. I data scientist dedicano la maggior parte del loro tempo a definire una pipeline di azioni mirate alla preparazione dei dati, in grado di garantire risultati affidabili. Gli utenti spesso faticano a delineare la pipeline più efficace a causa della complessità e della varietà dei problemi legati alla qualità dei dati, come ad esempio gli outlier, i dati mancanti e le incoerenze. Inoltre, ciò che l'utente ha fatto per preparare un dataset potrebbe non funzionare per un altro a causa delle loro diverse caratteristiche, dello scopo dell'analisi e dei difetti che presenta. Per questo motivo, proponiamo un ambiente self-service che supporti l'esplorazione e la profilazione dei dataset e la selezione delle attività di preparazione dei dati, consigliando quelle più adatte in base all'attività di analisi che gli utenti vogliono svolgere e alle caratteristiche del dataset. In questo modo, il nostro strumento mira a facilitare e ottimizzare la progettazione di una pipeline di azioni per la preparazione dei dati.
File allegati
File Dimensione Formato  
Laura Pucci - An interactive self-service environment to support data preparation.pdf

solo utenti autorizzati a partire dal 17/04/2026

Descrizione: Versione finale
Dimensione 2.13 MB
Formato Adobe PDF
2.13 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/204778