In recent years, Large Language Models (LLMs) have demonstrated extraordinary capabilities in structured data analysis, solving tasks such as record linkage, information extraction, and data integration. Among these, Table Question Answering (TQA) plays a role of particular interest, as tables represent one of the most widespread formats for organizing information and they are routinely queried in corporate and scientific contexts. Given that real-world data is frequently affected by errors, it becomes important to assess how LLMs manage these imperfections in order to fully evaluate their applicability. To solve this open issue, this thesis analyzes the stability of LLMs in performing the TQA task, i.e., the ability of models to answer questions in natural language based exclusively on the content of the tables, even when they are affected by data quality errors or anomalies. To achieve this goal, starting from one of the most famous benchmark datasets for TQA, we created multiple polluted versions of its tables, introducing different types of inconsistencies with varying error percentages. These corrupted tables were then employed as input to evaluate the behavior of two reference models: GPT o4-mini and Gemini 2.0 Flash. The answers produced were then analyzed by ad hoc metrics to capture both lexical and semantic aspects of the responses. Experimental results indicate a progressive deterioration in performance as data corruption increases, although the sensitivity of LLMs varies depending on the type of error and the characteristics of the tables. In particular, the column categorical shifts and the high presence of missing data proved to be the most critical factors. The results of this thesis underscore the fragility of LLMs in processing imperfect data and the importance of integrating data quality assessment and cleaning procedures into AI pipelines based on generative models.
Negli ultimi anni, i modelli linguistici di grandi dimensioni (LLM) hanno dimostrato straordinarie capacità nell'analisi strutturata dei dati, risolvendo compiti quali il collegamento di record, l'estrazione di informazioni e l'integrazione dei dati. Tra questi, il Table Question Answering (TQA) riveste un ruolo di particolare interesse, poiché le tabelle rappresentano uno dei formati più diffusi per l'organizzazione delle informazioni e vengono regolarmente interrogate in contesti aziendali e scientifici. Dato che i dati del mondo reale sono spesso soggetti a errori, diventa importante valutare come gli LLM gestiscono queste imperfezioni al fine di valutarne l'applicabilità. Per risolvere questa questione aperta, questa tesi analizza la stabilità degli LLM nell'esecuzione del compito TQA, ovvero la capacità dei modelli di rispondere a domande in linguaggio naturale basandosi esclusivamente sul contenuto delle tabelle, anche quando queste sono affette da errori o anomalie nella qualità dei dati. Per raggiungere questo obiettivo, partendo da uno dei più famosi set di dati di riferimento per il TQA, abbiamo creato diverse versioni inquinate delle sue tabelle, introducendo diversi tipi di incongruenze con percentuali di errore variabili. Queste tabelle danneggiate sono state poi utilizzate come input per valutare il comportamento di due modelli di riferimento: GPT o4-mini e Gemini 2.0 Flash. Le risposte prodotte sono state poi analizzate con metriche ad hoc per cogliere sia gli aspetti lessicali che semantici. I risultati sperimentali indicano un progressivo deterioramento delle prestazioni all'aumentare della corruzione dei dati, sebbene la sensibilità degli LLM vari a seconda del tipo di errore e delle caratteristiche delle tabelle. In particolare, i cambiamenti categorici delle colonne e l'elevata presenza di dati mancanti si sono rivelati i fattori più critici. I risultati di questa tesi sottolineano la fragilità degli LLM nell'elaborazione di dati imperfetti e l'importanza di integrare la valutazione della qualità dei dati e le procedure di pulizia nelle pipeline di IA basate su modelli generativi.
Evaluating stability of LLMs for question answering on noisy tabular data
CESANA, CAMILLA
2024/2025
Abstract
In recent years, Large Language Models (LLMs) have demonstrated extraordinary capabilities in structured data analysis, solving tasks such as record linkage, information extraction, and data integration. Among these, Table Question Answering (TQA) plays a role of particular interest, as tables represent one of the most widespread formats for organizing information and they are routinely queried in corporate and scientific contexts. Given that real-world data is frequently affected by errors, it becomes important to assess how LLMs manage these imperfections in order to fully evaluate their applicability. To solve this open issue, this thesis analyzes the stability of LLMs in performing the TQA task, i.e., the ability of models to answer questions in natural language based exclusively on the content of the tables, even when they are affected by data quality errors or anomalies. To achieve this goal, starting from one of the most famous benchmark datasets for TQA, we created multiple polluted versions of its tables, introducing different types of inconsistencies with varying error percentages. These corrupted tables were then employed as input to evaluate the behavior of two reference models: GPT o4-mini and Gemini 2.0 Flash. The answers produced were then analyzed by ad hoc metrics to capture both lexical and semantic aspects of the responses. Experimental results indicate a progressive deterioration in performance as data corruption increases, although the sensitivity of LLMs varies depending on the type of error and the characteristics of the tables. In particular, the column categorical shifts and the high presence of missing data proved to be the most critical factors. The results of this thesis underscore the fragility of LLMs in processing imperfect data and the importance of integrating data quality assessment and cleaning procedures into AI pipelines based on generative models.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Cesana.pdf
accessibile in internet per tutti
Descrizione: Tesi_Finale
Dimensione
1.29 MB
Formato
Adobe PDF
|
1.29 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243583