In the realm of data preparation and analysis pipelines, the crucial role of providing explanations emerges as the keystone for data analysis. As data-driven decision-making continues to gain significance, instilling confidence in tools that recommend optimal steps and techniques for enhancing datasets becomes dominant. While these tools assist users in improving datasets through automated decision-making processes, they often present enhanced datasets without adequate explanations. This lack of transparency leaves users unaware and uninformed about the changes made, potentially hindering trust in the suggested output. To address this gap, various studies, highlight how incorporating explanations can offer users guidelines, reducing the opacity of automated machine learning processes. Con sequently,our thesis work positions itself as the initial endeavor to provide explanations in data preparation, aiming to furnish users with valid explanations to enhance their understanding of the presented information. The second crucial aspect of our work, connected to the initial point, revolves around the format of explanations. According to additional studies comparing diverse forms of explanation, natural language explanations have proven to be the most effective. For this reason, the thesis work involves delivering textual explanations using the large language model. Thus, in the proposed tool, the structure of explanations will be delegated to a Natural Language Processing (NLP) tool like ChatGPT, proficient in presenting expla nations in a user-friendly format. In addition to researching and assessing a methodology to integrate explanations into a standard data preparation tool, our contribution also encompasses an investigation into ChatGPT and its potential to offer explanations for a data preparation pipeline.

Nel contesto delle pipeline di preparazione e nel campo della preparazione e analisi dei dati, emerge il ruolo cruciale di fornire spiegazioni come la chiave di volta per l’ analisi dei dati. Con l’aumentare dell’importanza delle decisioni basate sui dati, infondere fiducia negli strumenti che raccomandano passaggi ottimali e tecniche per migliorare i set di dati diventa predominante. Sebbene questi strumenti assistano gli utenti nel migliorare i set di dati attraverso processi decisionali automatizzati, spesso presentano set di dati migliorati senza spiegazioni adeguate. Questa mancanza di trasparenza lascia gli utenti all’oscuro e non informati sulle modi fiche apportate, potenzialmente ostacolando la fiducia nell’output suggerito. Per colmare questa lacuna, diversi studi evidenziano come l’inclusione di spiegazioni possa fornire agli utenti linee guida, riducendo l’opacità dei processi automatizzati di apprendimento au tomatico. Di conseguenza, il nostro lavoro di tesi si configura come il primo tentativo di fornire spiegazioni nella preparazione dei dati, con l’obiettivo di fornire agli utenti spiegazioni valide per migliorare la loro comprensione delle informazioni presentate. Il secondo aspetto cruciale del nostro lavoro, collegato al punto iniziale, ruota attorno al formato delle spiegazioni. Secondo ulteriori studi che confrontano diverse forme di spiegazione, le spiegazioni in linguaggio naturale si sono dimostrate le più efficaci. Per questo motivo, il lavoro di tesi prevede la fornitura di spiegazioni testuali utilizzando il modello linguistico di grandi dimensioni. Così, nel tool proposto, la struttura delle spiegazioni sarà affidata a uno strumento di Elaborazione del Linguaggio Naturale (NLP) come ChatGPT, capace di presentare spiegazioni in un formato comprensibile agli utenti. Oltre a studiare e valutare una metodologia per integrare spiegazioni in uno strumento standard di preparazione dati, il nostro contributo include anche un’indagine su ChatGPT e la sua potenziale utilità nell’offrire spiegazioni per una pipeline di preparazione dati.

Large language models in data preparation: opportunities and challenges

BARBERIO, ANNA
2022/2023

Abstract

In the realm of data preparation and analysis pipelines, the crucial role of providing explanations emerges as the keystone for data analysis. As data-driven decision-making continues to gain significance, instilling confidence in tools that recommend optimal steps and techniques for enhancing datasets becomes dominant. While these tools assist users in improving datasets through automated decision-making processes, they often present enhanced datasets without adequate explanations. This lack of transparency leaves users unaware and uninformed about the changes made, potentially hindering trust in the suggested output. To address this gap, various studies, highlight how incorporating explanations can offer users guidelines, reducing the opacity of automated machine learning processes. Con sequently,our thesis work positions itself as the initial endeavor to provide explanations in data preparation, aiming to furnish users with valid explanations to enhance their understanding of the presented information. The second crucial aspect of our work, connected to the initial point, revolves around the format of explanations. According to additional studies comparing diverse forms of explanation, natural language explanations have proven to be the most effective. For this reason, the thesis work involves delivering textual explanations using the large language model. Thus, in the proposed tool, the structure of explanations will be delegated to a Natural Language Processing (NLP) tool like ChatGPT, proficient in presenting expla nations in a user-friendly format. In addition to researching and assessing a methodology to integrate explanations into a standard data preparation tool, our contribution also encompasses an investigation into ChatGPT and its potential to offer explanations for a data preparation pipeline.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Nel contesto delle pipeline di preparazione e nel campo della preparazione e analisi dei dati, emerge il ruolo cruciale di fornire spiegazioni come la chiave di volta per l’ analisi dei dati. Con l’aumentare dell’importanza delle decisioni basate sui dati, infondere fiducia negli strumenti che raccomandano passaggi ottimali e tecniche per migliorare i set di dati diventa predominante. Sebbene questi strumenti assistano gli utenti nel migliorare i set di dati attraverso processi decisionali automatizzati, spesso presentano set di dati migliorati senza spiegazioni adeguate. Questa mancanza di trasparenza lascia gli utenti all’oscuro e non informati sulle modi fiche apportate, potenzialmente ostacolando la fiducia nell’output suggerito. Per colmare questa lacuna, diversi studi evidenziano come l’inclusione di spiegazioni possa fornire agli utenti linee guida, riducendo l’opacità dei processi automatizzati di apprendimento au tomatico. Di conseguenza, il nostro lavoro di tesi si configura come il primo tentativo di fornire spiegazioni nella preparazione dei dati, con l’obiettivo di fornire agli utenti spiegazioni valide per migliorare la loro comprensione delle informazioni presentate. Il secondo aspetto cruciale del nostro lavoro, collegato al punto iniziale, ruota attorno al formato delle spiegazioni. Secondo ulteriori studi che confrontano diverse forme di spiegazione, le spiegazioni in linguaggio naturale si sono dimostrate le più efficaci. Per questo motivo, il lavoro di tesi prevede la fornitura di spiegazioni testuali utilizzando il modello linguistico di grandi dimensioni. Così, nel tool proposto, la struttura delle spiegazioni sarà affidata a uno strumento di Elaborazione del Linguaggio Naturale (NLP) come ChatGPT, capace di presentare spiegazioni in un formato comprensibile agli utenti. Oltre a studiare e valutare una metodologia per integrare spiegazioni in uno strumento standard di preparazione dati, il nostro contributo include anche un’indagine su ChatGPT e la sua potenziale utilità nell’offrire spiegazioni per una pipeline di preparazione dati.
File allegati
File Dimensione Formato  
2023-12_Barberio_Tesi_01_.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 1.15 MB
Formato Adobe PDF
1.15 MB Adobe PDF Visualizza/Apri
2023_12_Barberio_Executive_Summary_02_.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 615.87 kB
Formato Adobe PDF
615.87 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215097