Since performing data preparation pipelines can be a demanding task and users often encounter difficulties in executing these processes effectively, the motivation for this thesis is to address these challenges by investigating how different users prepare their data and proposing a method to identify the most common data preparation pipelines across various datasets. This will aid future users in facing similar problems. The goal is to explore how pipelines are performed on different datasets. This thesis presents a comprehensive approach to analyzing and visualizing data preparation operations in Jupyter Notebooks, focusing on identifying the most frequently used techniques and their significance. By using regular expressions and text parsing methods, specific data preparation operations were extracted and quantified, providing a clear picture of common practices in data preparation. Key operations such as data profiling, cleaning, and wrangling were identified and analyzed for their roles in the data preparation process. The study emphasizes the importance of these operations in transforming raw data into a format suitable for analysis. Visualization tools like pie charts and bar charts were used to intuitively display the distribution and frequency of these operations. The analysis further identifies common patterns within these data preparation steps, offering insights into typical workflows and highlighting frequently used sequences.

Poiché l’esecuzione delle pipeline di preparazione dei dati può essere un compito impegnativo e gli utenti spesso incontrano difficoltà nell’eseguire efficacemente questi processi, la motivazione per questa tesi è affrontare queste sfide investigando come diversi utenti preparano i loro dati e proponendo un metodo per identificare le pipeline di preparazione dei dati più comuni tra vari dataset. Questo aiuterà i futuri utenti ad affrontare problemi simili. L’obiettivo è esplorare come le pipeline vengono eseguite su diversi dataset Questa tesi presenta un approccio completo per analizzare e visualizzare le operazioni di preparazione dei dati nei Jupyter Notebooks, concentrandosi sull’identificazione delle tecniche più utilizzate e della loro importanza. Utilizzando espressioni regolari e metodi di analisi del testo, sono state estratte e quantificate specifiche operazioni di preparazione dei dati, fornendo un quadro chiaro delle pratiche comuni nella preparazione dei dati. Operazioni chiave come il profiling dei dati, la pulizia e la ristrutturazione sono state identificate e analizzate per il loro ruolo nel processo di preparazione dei dati. Lo studio sottolinea l’importanza di queste operazioni nella trasformazione dei dati grezzi in un formato adatto per l’analisi. Strumenti di visualizzazione come grafici a torta e a barre sono stati utilizzati per mostrare intuitivamente la distribuzione e la frequenza di queste operazioni. L’analisi identifica inoltre modelli comuni all’interno di questi passaggi di preparazione dei dati, offrendo approfondimenti sui flussi di lavoro tipici e mettendo in evidenza le sequenze più frequentemente utilizzate.

A Framework for Extracting and Analyzing Commonly Used Data Preparation Pipelines

Jiang, Boren
2023/2024

Abstract

Since performing data preparation pipelines can be a demanding task and users often encounter difficulties in executing these processes effectively, the motivation for this thesis is to address these challenges by investigating how different users prepare their data and proposing a method to identify the most common data preparation pipelines across various datasets. This will aid future users in facing similar problems. The goal is to explore how pipelines are performed on different datasets. This thesis presents a comprehensive approach to analyzing and visualizing data preparation operations in Jupyter Notebooks, focusing on identifying the most frequently used techniques and their significance. By using regular expressions and text parsing methods, specific data preparation operations were extracted and quantified, providing a clear picture of common practices in data preparation. Key operations such as data profiling, cleaning, and wrangling were identified and analyzed for their roles in the data preparation process. The study emphasizes the importance of these operations in transforming raw data into a format suitable for analysis. Visualization tools like pie charts and bar charts were used to intuitively display the distribution and frequency of these operations. The analysis further identifies common patterns within these data preparation steps, offering insights into typical workflows and highlighting frequently used sequences.
CAMILLA, SANCRICCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Poiché l’esecuzione delle pipeline di preparazione dei dati può essere un compito impegnativo e gli utenti spesso incontrano difficoltà nell’eseguire efficacemente questi processi, la motivazione per questa tesi è affrontare queste sfide investigando come diversi utenti preparano i loro dati e proponendo un metodo per identificare le pipeline di preparazione dei dati più comuni tra vari dataset. Questo aiuterà i futuri utenti ad affrontare problemi simili. L’obiettivo è esplorare come le pipeline vengono eseguite su diversi dataset Questa tesi presenta un approccio completo per analizzare e visualizzare le operazioni di preparazione dei dati nei Jupyter Notebooks, concentrandosi sull’identificazione delle tecniche più utilizzate e della loro importanza. Utilizzando espressioni regolari e metodi di analisi del testo, sono state estratte e quantificate specifiche operazioni di preparazione dei dati, fornendo un quadro chiaro delle pratiche comuni nella preparazione dei dati. Operazioni chiave come il profiling dei dati, la pulizia e la ristrutturazione sono state identificate e analizzate per il loro ruolo nel processo di preparazione dei dati. Lo studio sottolinea l’importanza di queste operazioni nella trasformazione dei dati grezzi in un formato adatto per l’analisi. Strumenti di visualizzazione come grafici a torta e a barre sono stati utilizzati per mostrare intuitivamente la distribuzione e la frequenza di queste operazioni. L’analisi identifica inoltre modelli comuni all’interno di questi passaggi di preparazione dei dati, offrendo approfondimenti sui flussi di lavoro tipici e mettendo in evidenza le sequenze più frequentemente utilizzate.
File allegati
File Dimensione Formato  
2024_07_JIANG.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Text of the thesis
Dimensione 1.23 MB
Formato Adobe PDF
1.23 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223367