An interactive self-service environment to support data preparation

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

As data-driven decisions have become an essential part of business’ financial and managerial strategies, the demand for user-friendly data preparation tools has grown exponentially. There exists a direct correlation between high data quality and the trustworthiness of the results of a data analysis. Data preparation operations, i.e. normalization, cleaning, transformation, and integration, are all designed to improve data quality. Data scientists spend most of their time defining a data preparation pipeline able to guarantee reliable results. Users often struggle to design the most effective pipeline due to the complexity and variety of data quality issues, such as outliers, missing data, and inconsistencies. Moreover, what the user did to prepare one dataset might not work for another due to its characteristics, the purpose of the analysis and the Data Quality issues it presents. For this reason, we envision a self-service environment to support the exploration and profiling of the datasets and the selection of the data preparation tasks by recommending the most suitable ones based on the analysis task users want to perform and the dataset features. In this way, our tool aims to facilitate and optimize the design of a data preparation pipeline.

Considerato che le decisioni basate sui dati sono diventate una parte essenziale delle strategie finanziarie e gestionali delle aziende, la richiesta di strumenti di preparazione dei dati di facile utilizzo è cresciuta in modo esponenziale. Esiste una correlazione diretta tra l'elevata qualità dei dati e la validità dei risultati di un'analisi dei dati. Le operazioni di preparazione dei dati, come la normalizzazione, la pulizia, la trasformazione e l'integrazione, sono tutte finalizzate a migliorare la qualità dei dati. I data scientist dedicano la maggior parte del loro tempo a definire una pipeline di azioni mirate alla preparazione dei dati, in grado di garantire risultati affidabili. Gli utenti spesso faticano a delineare la pipeline più efficace a causa della complessità e della varietà dei problemi legati alla qualità dei dati, come ad esempio gli outlier, i dati mancanti e le incoerenze. Inoltre, ciò che l'utente ha fatto per preparare un dataset potrebbe non funzionare per un altro a causa delle loro diverse caratteristiche, dello scopo dell'analisi e dei difetti che presenta. Per questo motivo, proponiamo un ambiente self-service che supporti l'esplorazione e la profilazione dei dataset e la selezione delle attività di preparazione dei dati, consigliando quelle più adatte in base all'attività di analisi che gli utenti vogliono svolgere e alle caratteristiche del dataset. In questo modo, il nostro strumento mira a facilitare e ottimizzare la progettazione di una pipeline di azioni per la preparazione dei dati.

An interactive self-service environment to support data preparation

PUCCI, LAURA

2022/2023

Abstract

As data-driven decisions have become an essential part of business’ financial and managerial strategies, the demand for user-friendly data preparation tools has grown exponentially. There exists a direct correlation between high data quality and the trustworthiness of the results of a data analysis. Data preparation operations, i.e. normalization, cleaning, transformation, and integration, are all designed to improve data quality. Data scientists spend most of their time defining a data preparation pipeline able to guarantee reliable results. Users often struggle to design the most effective pipeline due to the complexity and variety of data quality issues, such as outliers, missing data, and inconsistencies. Moreover, what the user did to prepare one dataset might not work for another due to its characteristics, the purpose of the analysis and the Data Quality issues it presents. For this reason, we envision a self-service environment to support the exploration and profiling of the datasets and the selection of the data preparation tasks by recommending the most suitable ones based on the analysis task users want to perform and the dataset features. In this way, our tool aims to facilitate and optimize the design of a data preparation pipeline.

Scheda breve

Scheda completa

	Relatore
	
				CAPPIELLO, CINZIA
			
	Correlatore/i
	
				SANCRICCA, CAMILLA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				4-mag-2023
			
	Anno accademico
	
				2022/2023
			
	Abstract in italiano
	
				Considerato che le decisioni basate sui dati sono diventate una parte essenziale delle strategie finanziarie e gestionali delle aziende, la richiesta di strumenti di preparazione dei dati di facile utilizzo è cresciuta in modo esponenziale. Esiste una correlazione diretta tra l'elevata qualità dei dati e la validità dei risultati di un'analisi dei dati. Le operazioni di preparazione dei dati, come la normalizzazione, la pulizia, la trasformazione e l'integrazione, sono tutte finalizzate a migliorare la qualità dei dati.

I data scientist dedicano la maggior parte del loro tempo a definire una pipeline di azioni mirate alla preparazione dei dati, in grado di garantire risultati affidabili. Gli utenti spesso faticano a delineare la pipeline più efficace a causa della complessità e della varietà dei problemi legati alla qualità dei dati, come ad esempio gli outlier, i dati mancanti e le incoerenze. Inoltre, ciò che l'utente ha fatto per preparare un dataset potrebbe non funzionare per un altro a causa delle loro diverse caratteristiche, dello scopo dell'analisi e dei difetti che presenta. 

Per questo motivo, proponiamo un ambiente self-service che supporti l'esplorazione e la profilazione dei dataset e la selezione delle attività di preparazione dei dati, consigliando quelle più adatte in base all'attività di analisi che gli utenti vogliono svolgere e alle caratteristiche del dataset. In questo modo, il nostro strumento mira a facilitare e ottimizzare la progettazione di una pipeline di azioni per la preparazione dei dati.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Laura Pucci - An interactive self-service environment to support data preparation.pdf solo utenti autorizzati dal 18/04/2026 Descrizione: Versione finale Dimensione 2.13 MB Formato Adobe PDF Visualizza/Apri	2.13 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/204778