The increasing adoption of Large Language Models (LLMs) has transformed Artificial Intelligence (AI), demonstrating strong abilities in language understanding, problem-solving, and automation. However, their potential application in structured data environments, particularly in Tabular Data Preparation, remains underexplored. Data Preparation—including Data Profiling, Cleaning, and Transformation—is crucial but often labor-intensive in data-driven workflows. This thesis examines whether LLMs can support users in automating these tasks and compares their utility to traditional Data Preparation tools. To this end, we conduct a systematic evaluation of both general-purpose LLMs (GPT-4, Claude, Gemini, Llama) and fine-tuned tabular LLMs (TableGPT2, TableLLM). Our experimental framework evaluates their performance on structured datasets with varying complexity and noise, assessing their ability to handle tasks such as Data Profiling and Cleaning. To ensure rigorous evaluation, we propose a novel methodology based on a custom Quality Model (QM), which leverages structured checklists and quantitative metrics to assess key Data Quality dimensions. This assessment enables the evaluation of LLM output quality. The model includes well-established dimensions like Completeness and Accuracy, along with new ones such as Prescriptivity, Readiness, and Specificity. A user study further validates our framework and explores practitioners’ expectations for LLM-assisted Data Preparation. Results show notable differences between general-purpose and tabular LLMs, revealing their respective strengths and limitations. While LLMs offer potential for automating aspects of Data Preparation, their effectiveness depends on the task and dataset. By examining LLM support in diverse Tabular Data Preparation tasks, this thesis contributes to AI-assisted data management research. Our findings provide a foundation for future research on evaluating and improving LLMs’ handling of tabular data and offer guidance for professionals seeking innovative ways to streamline Data Preparation.

L’adozione crescente dei modelli linguistici di grandi dimensioni (LLM) ha trasformato l’Intelligenza Artificiale (IA), dimostrando capacità eccezionali nella comprensione del linguaggio naturale, nella risoluzione dei problemi e nell’automazione. Tuttavia, la loro applicazione in contesti di dati strutturati, in particolare nella preparazione di dati tabulari, rimane in gran parte inesplorata. La preparazione dei dati, che include profilazione, pulizia e trasformazione dei dati, è cruciale ma onerosa nei flussi di lavoro basati sui dati. La tesi indaga se gli LLM possano supportarne l’automazione e ne valuta l’utilità rispetto agli strumenti tradizionali. A tal fine, valutiamo LLM generali (GPT-4, Claude, Gemini, Llama) e specializzati (TableGPT2, TableLLM) su dataset strutturati con diversi livelli di complessità ed errori. Il nostro framework sperimentale analizza la loro capacità di eseguire attività come la profilazione e la pulizia dei dati. Per garantire rigore, proponiamo un Quality Model (QM) che utilizza checklist strutturate e metriche quantitative per valutare dimensioni chiave della qualità dei dati, includendo dimensioni consolidate come Completezza e Accuratezza, e nuove dimensioni come Prescrittività, Prontezza e Specificità. Questo modello permette la valutazione della qualità degli output degli LLM. Inoltre, abbiamo condotto uno studio con utenti per validare il framework ed esplorare le aspettative dei professionisti sul supporto degli LLM per la preparazione dei dati. I risultati evidenziano differenze tra LLM generali e specializzati, mostrando i rispettivi punti di forza e limiti. Sebbene gli LLM possano automatizzare alcuni aspetti della preparazione dei dati, l’efficacia varia a seconda del compito e delle caratteristiche del dataset. Esplorando il ruolo degli LLM nella preparazione di dati tabulari, la tesi contribuisce alla ricerca sulla gestione dei dati assistita dall’IA. I risultati offrono una base per future ricerche volte a valutare e migliorare la gestione dei dati tabulari da parte degli LLM e raccomandazioni per i professionisti alla ricerca di soluzioni innovative per ottimizzare la preparazione dei dati.

Exploring LLMs for tabular data preparation

SPREAFICO, MATTEO;TASSINI, LUDOVICA
2023/2024

Abstract

The increasing adoption of Large Language Models (LLMs) has transformed Artificial Intelligence (AI), demonstrating strong abilities in language understanding, problem-solving, and automation. However, their potential application in structured data environments, particularly in Tabular Data Preparation, remains underexplored. Data Preparation—including Data Profiling, Cleaning, and Transformation—is crucial but often labor-intensive in data-driven workflows. This thesis examines whether LLMs can support users in automating these tasks and compares their utility to traditional Data Preparation tools. To this end, we conduct a systematic evaluation of both general-purpose LLMs (GPT-4, Claude, Gemini, Llama) and fine-tuned tabular LLMs (TableGPT2, TableLLM). Our experimental framework evaluates their performance on structured datasets with varying complexity and noise, assessing their ability to handle tasks such as Data Profiling and Cleaning. To ensure rigorous evaluation, we propose a novel methodology based on a custom Quality Model (QM), which leverages structured checklists and quantitative metrics to assess key Data Quality dimensions. This assessment enables the evaluation of LLM output quality. The model includes well-established dimensions like Completeness and Accuracy, along with new ones such as Prescriptivity, Readiness, and Specificity. A user study further validates our framework and explores practitioners’ expectations for LLM-assisted Data Preparation. Results show notable differences between general-purpose and tabular LLMs, revealing their respective strengths and limitations. While LLMs offer potential for automating aspects of Data Preparation, their effectiveness depends on the task and dataset. By examining LLM support in diverse Tabular Data Preparation tasks, this thesis contributes to AI-assisted data management research. Our findings provide a foundation for future research on evaluating and improving LLMs’ handling of tabular data and offer guidance for professionals seeking innovative ways to streamline Data Preparation.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
L’adozione crescente dei modelli linguistici di grandi dimensioni (LLM) ha trasformato l’Intelligenza Artificiale (IA), dimostrando capacità eccezionali nella comprensione del linguaggio naturale, nella risoluzione dei problemi e nell’automazione. Tuttavia, la loro applicazione in contesti di dati strutturati, in particolare nella preparazione di dati tabulari, rimane in gran parte inesplorata. La preparazione dei dati, che include profilazione, pulizia e trasformazione dei dati, è cruciale ma onerosa nei flussi di lavoro basati sui dati. La tesi indaga se gli LLM possano supportarne l’automazione e ne valuta l’utilità rispetto agli strumenti tradizionali. A tal fine, valutiamo LLM generali (GPT-4, Claude, Gemini, Llama) e specializzati (TableGPT2, TableLLM) su dataset strutturati con diversi livelli di complessità ed errori. Il nostro framework sperimentale analizza la loro capacità di eseguire attività come la profilazione e la pulizia dei dati. Per garantire rigore, proponiamo un Quality Model (QM) che utilizza checklist strutturate e metriche quantitative per valutare dimensioni chiave della qualità dei dati, includendo dimensioni consolidate come Completezza e Accuratezza, e nuove dimensioni come Prescrittività, Prontezza e Specificità. Questo modello permette la valutazione della qualità degli output degli LLM. Inoltre, abbiamo condotto uno studio con utenti per validare il framework ed esplorare le aspettative dei professionisti sul supporto degli LLM per la preparazione dei dati. I risultati evidenziano differenze tra LLM generali e specializzati, mostrando i rispettivi punti di forza e limiti. Sebbene gli LLM possano automatizzare alcuni aspetti della preparazione dei dati, l’efficacia varia a seconda del compito e delle caratteristiche del dataset. Esplorando il ruolo degli LLM nella preparazione di dati tabulari, la tesi contribuisce alla ricerca sulla gestione dei dati assistita dall’IA. I risultati offrono una base per future ricerche volte a valutare e migliorare la gestione dei dati tabulari da parte degli LLM e raccomandazioni per i professionisti alla ricerca di soluzioni innovative per ottimizzare la preparazione dei dati.
File allegati
File Dimensione Formato  
2025_04_Spreafico_Tassini_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 980.22 kB
Formato Adobe PDF
980.22 kB Adobe PDF Visualizza/Apri
2025_04_Spreafico_Tassini_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 22.89 MB
Formato Adobe PDF
22.89 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236034