a tool to support data exploration and preparation

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Data analysis is becoming increasingly important with the passing of time and represents an important decision factor for strategic and financial choices. Given this key role played by data analysis, its outcome should be more accurate as possible. To this aim, one of the most crucial elements is data preparation, which is the process of preparing the data before analyzing them. Considering that, usually, data preparation takes more or less 80% of the total time of data analysis, the objective of this thesis is to develop a tool to support data preparation and exploration. These phases include different distinct steps: Profiling, Wrangling, Cleaning, and finally duplicate detection and handling. Anyway, the tool implements all the classic data preparation pipeline functionalities. Moreover, the tool is meant to be used by users without any developing experience, so it has been developed to be easy to use and install. The entire design, development, and testing of the tool have been conducted by considering a dataset taken from the database of the Municipality of Milan: it describes personal care sites located within the city. Given that this dataset had quite a poor quality, it has been a very good and strong starting point to assess the tool's potential. Indeed the results obtained with this dataset were very good as the tool solved most of the dataset's issues like the presence of null values, duplicates, and redundancy of information.

Dato il ruolo chiave svolto dall'analisi dei dati, il suo risultato dovrebbe essere il più accurato possibile. Per ottenere questo risultato, uno degli elementi più essenziali è il processo di preparazione dei dati prima della loro analisi. Si consideri che di solito la preparazione dei dati richiede più o meno l'80 percento del tempo totale dell'analisi dei dati. L'obiettivo di questa tesi è stato quello di sviluppare uno strumento di preparazione ed esplorazione dei dati. Queste fasi comprendono tre diversi passaggi: Profilazione, Wrangling e Pulizia. Per ognuna di queste fasi sono state implementate funzionalità specifiche. Inoltre, lo strumento è destinato a essere utilizzato da utenti senza alcuna esperienza di sviluppo, quindi è stato sviluppato con l'obiettivo di essere facile da usare e da installare. L'intero sviluppo e la sperimentazione dello strumento si basano su un dataset tratto dal database del Comune di Milano, che rappresenta i siti di assistenza alla persona situati all'interno della città. Dato che questo dataset aveva una qualità piuttosto scarsa, è stato un ottimo e solido punto di partenza per valutare le potenzialità dello strumento. I risultati ottenuti con questo dataset sono stati infatti molto buoni, in quanto lo strumento è in grado di risolvere la maggior parte dei problemi del dataset, come ad esempio la presenza di valori nulli, duplicati e ridondanza di informazioni.

a tool to support data exploration and preparation

VELA, LORENZO

2021/2022

Abstract

Data analysis is becoming increasingly important with the passing of time and represents an important decision factor for strategic and financial choices. Given this key role played by data analysis, its outcome should be more accurate as possible. To this aim, one of the most crucial elements is data preparation, which is the process of preparing the data before analyzing them. Considering that, usually, data preparation takes more or less 80% of the total time of data analysis, the objective of this thesis is to develop a tool to support data preparation and exploration. These phases include different distinct steps: Profiling, Wrangling, Cleaning, and finally duplicate detection and handling. Anyway, the tool implements all the classic data preparation pipeline functionalities. Moreover, the tool is meant to be used by users without any developing experience, so it has been developed to be easy to use and install. The entire design, development, and testing of the tool have been conducted by considering a dataset taken from the database of the Municipality of Milan: it describes personal care sites located within the city. Given that this dataset had quite a poor quality, it has been a very good and strong starting point to assess the tool's potential. Indeed the results obtained with this dataset were very good as the tool solved most of the dataset's issues like the presence of null values, duplicates, and redundancy of information.

Scheda breve

Scheda completa

	Relatore
	
				CAPPIELLO, CINZIA
			
	Correlatore/i
	
				SANCRICCA, CAMILLA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				4-mag-2023
			
	Anno accademico
	
				2021/2022
			
	Abstract in italiano
	
				Dato il ruolo chiave svolto dall'analisi dei dati, il suo risultato dovrebbe essere il più accurato possibile. Per ottenere questo risultato, uno degli elementi più essenziali è il processo di preparazione dei dati prima della loro analisi. Si consideri che di solito la preparazione dei dati richiede più o meno l'80 percento del tempo totale dell'analisi dei dati. L'obiettivo di questa tesi è stato quello di sviluppare uno strumento di preparazione ed esplorazione dei dati. Queste fasi comprendono tre diversi passaggi: Profilazione, Wrangling e Pulizia. Per ognuna di queste fasi sono state implementate funzionalità specifiche. Inoltre, lo strumento è destinato a essere utilizzato da utenti senza alcuna esperienza di sviluppo, quindi è stato sviluppato con l'obiettivo di essere facile da usare e da installare. L'intero sviluppo e la sperimentazione dello strumento si basano su un dataset tratto dal database del Comune di Milano, che rappresenta i siti di assistenza alla persona situati all'interno della città. Dato che questo dataset aveva una qualità piuttosto scarsa, è stato un ottimo e solido punto di partenza per valutare le potenzialità dello strumento. I risultati ottenuti con questo dataset sono stati infatti molto buoni, in quanto lo strumento è in grado di risolvere la maggior parte dei problemi del dataset, come ad esempio la presenza di valori nulli, duplicati e ridondanza di informazioni.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2023_04_Vela.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 1.47 MB Formato Adobe PDF Visualizza/Apri	1.47 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/206573