In recent years, the importance of maintaining high-quality datasets cannot be underestimated. Over time, it has become increasingly important, especially due to the growing use of data analysis by companies to support their business decisions. In this context, it is essential for companies that the results of the analysis pipelines are reliable. This becomes impossible if the data used exhibits significant data quality issues. This scenario aligns seamlessly with the significant development of new tools dedicated to data preparation. This thesis intends to introduce a tool developed on Python and Streamlit, which is aimed to simplify the data preparation procedure and make it accessible to a wide range of users, including those with little experience and knowledge in that field. Specifically, the presented tool aims to provide a user-friendly working instrument, guiding users through the initial phases of the data analysis process, such as data exploration, transformation, and, ultimately, constructing a data preparation pipeline. As mentioned earlier, the tool’s contribution is prevalent in the data preparation phase, where it provides direct suggestions to the user on which actions should be performed. All the suggested actions aim to achieve more reliable analysis results. This makes our tool an efficient means for users who want to enhance and refine their data.
In questo periodo, non si può sottovalutare l’importanza di mantenere dataset di alta qualità. Nel tempo, questa importanza cresce costantemente, specialmente a causa dell’ampio utilizzo dell’analisi dei dati da parte delle aziende per supportare le proprie decisioni aziendali. In questo contesto, è essenziale per la dinamica aziendale che i risultati delle analisi siano affidabili. Questo diventa impossibile se i dati utilizzati presentano significativi problemi di qualità. Questo scenario si allinea perfettamente con lo sviluppo significativo di nuovi strumenti dedicati alla preparazione dei dati. Questa tesi si propone di introdurre uno strumento sviluppato in Python e Streamlit, in grado di semplificare la procedura di preparazione dei dati e di essere accessibile a un’ampia gamma di utenti, compresi quelli con poca esperienza e conoscenza in questo campo. In particolare, lo strumento presentato mira a fornire uno strumento di lavoro user-friendly, guidando gli utenti attraverso le fasi iniziali del processo di analisi dei dati, come l’esplorazione, la trasformazione e, ultimamente, la costruzione di una pipeline di preparazione dati. Come accennato in precedenza, il contributo principale dello strumento si concentra nella fase di preparazione dei dati, dove fornisce suggerimenti diretti all’utente su quali azioni eseguire. Tutte le azioni proposte mirano a ottenere risultati di analisi più affidabili. Ciò rende il nostro strumento un mezzo efficiente per gli utenti che desiderano migliorare e perfezionare i loro dati.
Developing a tool for facilitating data preparation through suggestions
IACHINI, STEFANO
2022/2023
Abstract
In recent years, the importance of maintaining high-quality datasets cannot be underestimated. Over time, it has become increasingly important, especially due to the growing use of data analysis by companies to support their business decisions. In this context, it is essential for companies that the results of the analysis pipelines are reliable. This becomes impossible if the data used exhibits significant data quality issues. This scenario aligns seamlessly with the significant development of new tools dedicated to data preparation. This thesis intends to introduce a tool developed on Python and Streamlit, which is aimed to simplify the data preparation procedure and make it accessible to a wide range of users, including those with little experience and knowledge in that field. Specifically, the presented tool aims to provide a user-friendly working instrument, guiding users through the initial phases of the data analysis process, such as data exploration, transformation, and, ultimately, constructing a data preparation pipeline. As mentioned earlier, the tool’s contribution is prevalent in the data preparation phase, where it provides direct suggestions to the user on which actions should be performed. All the suggested actions aim to achieve more reliable analysis results. This makes our tool an efficient means for users who want to enhance and refine their data.File | Dimensione | Formato | |
---|---|---|---|
2023_12_Iachini.pdf
non accessibile
Dimensione
1.1 MB
Formato
Adobe PDF
|
1.1 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/215784