The goal of data science is to extract knowledge from data, it is a complex field that requires a lot of expertise: indeed, the majority of people are lacking the skills needed and cannot access these insights. A tool developed at Politecnico di Milano automates the creation and execution of data science pipelines (sequence of operations performed on the data), enabling inexperienced users to perform data analyses. However, the existing implementation is missing a critical component: the user cannot edit and improve the pipeline created by the system; furthermore, an inexperienced user does not have the necessary knowledge to identify and correct the possible issues in the results. The work of this thesis expands the existing system with a problem-solving module that, given a description of the issue in natural language, highlights the relevant pipeline options in an intuitive way; the user can then tune the pipeline until satisfied with the results. An empirical evaluation of the tool shows encouraging results on its usability and effectiveness.

L'obiettivo dell’analisi dei dati è estrarre conoscenza dai dati, è una scienza complessa che richiede molta competenza: infatti, la maggior parte delle persone non ha le capacità necessarie e conseguentemente non può accedere a queste informazioni. Uno strumento sviluppato al Politecnico di Milano automatizza la creazione e l'esecuzione di sequenze di operazioni di analisi dei dati, permettendo agli utenti inesperti di accedere a tali risultati. Tuttavia, nell'implementazione esistente manca un componente importante: l'utente non può modificare né migliorare la sequenza di operazioni creata dal sistema; inoltre, un utente inesperto non ha le conoscenze necessarie per identificare e correggere i problemi che possono comparire nei risultati dell’analisi. Il lavoro di questa tesi amplia il sistema esistente con un modulo di risoluzione dei problemi che, data una descrizione in linguaggio naturale degli aspetti da risolvere, evidenzia le opzioni rilevanti che l’utente può modificare in modo intuitivo; l'utente può quindi ottimizzare la pipeline fino a quando non è soddisfatto dei risultati. Una valutazione empirica dello strumento mostra risultati incoraggianti sulla sua usabilità ed efficacia.

Conversational problem solving applied to a data science pipeline builder

Abbo, Giulio Antonio
2020/2021

Abstract

The goal of data science is to extract knowledge from data, it is a complex field that requires a lot of expertise: indeed, the majority of people are lacking the skills needed and cannot access these insights. A tool developed at Politecnico di Milano automates the creation and execution of data science pipelines (sequence of operations performed on the data), enabling inexperienced users to perform data analyses. However, the existing implementation is missing a critical component: the user cannot edit and improve the pipeline created by the system; furthermore, an inexperienced user does not have the necessary knowledge to identify and correct the possible issues in the results. The work of this thesis expands the existing system with a problem-solving module that, given a description of the issue in natural language, highlights the relevant pipeline options in an intuitive way; the user can then tune the pipeline until satisfied with the results. An empirical evaluation of the tool shows encouraging results on its usability and effectiveness.
CROVARI, PIETRO
PIDÒ, SARA
PINOLI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
L'obiettivo dell’analisi dei dati è estrarre conoscenza dai dati, è una scienza complessa che richiede molta competenza: infatti, la maggior parte delle persone non ha le capacità necessarie e conseguentemente non può accedere a queste informazioni. Uno strumento sviluppato al Politecnico di Milano automatizza la creazione e l'esecuzione di sequenze di operazioni di analisi dei dati, permettendo agli utenti inesperti di accedere a tali risultati. Tuttavia, nell'implementazione esistente manca un componente importante: l'utente non può modificare né migliorare la sequenza di operazioni creata dal sistema; inoltre, un utente inesperto non ha le conoscenze necessarie per identificare e correggere i problemi che possono comparire nei risultati dell’analisi. Il lavoro di questa tesi amplia il sistema esistente con un modulo di risoluzione dei problemi che, data una descrizione in linguaggio naturale degli aspetti da risolvere, evidenzia le opzioni rilevanti che l’utente può modificare in modo intuitivo; l'utente può quindi ottimizzare la pipeline fino a quando non è soddisfatto dei risultati. Una valutazione empirica dello strumento mostra risultati incoraggianti sulla sua usabilità ed efficacia.
File allegati
File Dimensione Formato  
2021_12_Abbo.pdf

non accessibile

Descrizione: Sommario esteso e tesi
Dimensione 5.05 MB
Formato Adobe PDF
5.05 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183318