Evaluation of LLMs capabilities for table question answering on incomplete structured data

Recent advances in Large Language Models (LLMs) for Table Question Answering (TQA) have demonstrated promising results on established benchmarks such as WikiSQL, Spider, and WikiTableQuestions. However, these datasets operate on a fundamental assumption rarely verified in real-world contexts: the completeness and accuracy of data. In operational practice, information is frequently incomplete, outdated, or subject to privacy constraints, limiting the direct applicability of solutions proposed in the literature. This thesis aims to systematically investigate whether and under what conditions LLMs are capable of performing ordering and ranking operations on incomplete datasets, leveraging their logical inference capabilities and parametric memory acquired during pre-training. To this end, a comprehensive experimental pipeline has been developed that, starting from real and synthetic datasets, automatically generates tests of increasing complexity. The methodology initially involves executing traditional queries on complete data, then progressively hiding or removing key columns to evaluate the models' ability to reconstruct missing information while maintaining logical coherence and structural correctness. Diversified scenarios are proposed, including datasets of varying sizes, queries with different complexity levels (from simple sorting to multi-table JOIN operations and User Defined Functions), and semantic similarity tests. The results reveal marked limitations in applying these strategies: the intrinsic complexity of queries represents a significant obstacle when models operate on partial contexts. Additional critical factors that emerged include dataset size, the prevalence of categorical versus numerical attributes, domain specificity, and language, with systematically superior performance in English and on domains more heavily represented in training corpora. These findings suggest that, despite the advanced capabilities of LLMs, their reliability in realistic operational scenarios still requires substantial developments in terms of robustness, scalability, and uncertainty management.

I recenti progressi nell'ambito dei Large Language Models (LLM) per il Table Question Answering (TQA) hanno dimostrato risultati promettenti su benchmark consolidati come WikiSQL, Spider e WikiTableQuestions. Tuttavia, questi dataset operano su un assunto fondamentale raramente verificato in contesti reali: la completezza e accuratezza dei dati. Nella pratica operativa, le informazioni sono frequentemente incomplete, obsolete o soggette a vincoli di privacy, limitando l'applicabilità diretta delle soluzioni proposte in letteratura. Questa tesi si propone di indagare sistematicamente se e in quali condizioni gli LLM siano in grado di eseguire operazioni di ordinamento e ranking su dataset incompleti, sfruttando le proprie capacità di inferenza logica e la memoria parametrica acquisita durante il pre-training. A tale scopo, è stata sviluppata una pipeline sperimentale completa che, partendo da dataset reali e sintetici, genera automaticamente test di complessità crescente. La metodologia prevede inizialmente l'esecuzione di query tradizionali su dati completi, per poi progressivamente nascondere o rimuovere colonne chiave e valutare la capacità dei modelli di ricostruire le informazioni mancanti mantenendo coerenza logica e correttezza strutturale. Vengono proposti scenari diversificati che includono dataset di dimensioni variabili, query con diversi livelli di complessità (dall'ordinamento semplice a operazioni con JOIN multi-tabella e User Defined Functions), e test di similarità semantica. I risultati evidenziano limiti marcati nell'applicazione di queste strategie: la complessità intrinseca della query rappresenta un ostacolo significativo quando i modelli operano su contesti parziali. Ulteriori fattori critici emersi includono la dimensione del dataset, la prevalenza di attributi categorici rispetto a quelli numerici, il dominio di appartenenza e la lingua utilizzata, con performance sistematicamente superiori in inglese e su domini maggiormente rappresentati nei corpora di training. Questi risultati suggeriscono che, nonostante le capacità avanzate degli LLM, la loro affidabilità in scenari operativi realistici richiede ancora sviluppi sostanziali in termini di robustezza, scalabilità e gestione dell'incertezza.