Improving Text-to-SQL translation with a retrieval-augmented generation approach

Large Language Models (LLMs) are progressively entering every sector, from education to technical and non-technical domains, performing an increasingly wide range of tasks. One area of particular growth is the support of non-technical users in employing software tools, especially in accessing and managing databases. This thesis, carried out at SocialThingum, addresses the text-to-SQL problem with the goal of democratizing database access for all users. It does not aim to develop a system competing with existing state-of-the-art projects but rather builds upon them to answer the following question: in a context characterized by the presence of a data warehouse and generally complex queries, can textual descriptions of the database architecture, provided to LLMs through a Retrieval-Augmented Generation (RAG) phase, maintain state-of-the- art performance? This issue is particularly relevant since most current approaches are designed for smaller databases with simple queries. The first part of the work develops several well-known state-of-the-art solutions and conducts comparative testing, followed by the design and implementation of a RAG system on the best-performing configuration. The final analysis shows that, although the new systems do not achieve state-of-the-art performance, they remain valid: they yield modest improvements over non-RAG systems while enabling significant savings in token usage and, consequently, in computational cost and execution time.

I Large Language Model stanno progressivamente entrando in ogni settore, dall’insegnamento scolastico agli uffici tecnici e non tecnici, eseguendo un numero apparentemente illimitato di compiti. Uno degli ambiti in forte crescita è quello del supporto agli utenti non tecnici nell’utilizzo di strumenti software. Tra questi, un esempio centrale è rappresentato dall’accesso e dalla gestione dei database. La presente tesi si colloca in questo contesto, affrontando il problema del text-to-SQL con l’obiettivo di democratizzare l’accesso ai database per tutti gli utenti. Oggi, infatti, un utente non tecnico senza competenze specifiche non è in grado di estrarre e organizzare autonomamente i dati di interesse. La tesi, realizzata presso SocialThingum, non mira a sviluppare un sistema in grado di competere con progetti già affermati nello stato dell’arte; al contrario, parte dalle soluzioni esistenti per rispondere alla seguente domanda: in un contesto caratterizzato dalla pre- senza di un data warehouse, con query generalmente complesse, le descrizioni testuali dell’architettura, fornite ai LLM attraverso una fase di RAG (Retrieval Augmented Gen- eration), sono in grado di mantenere prestazioni allo stato dell’arte? La questione è rilevante, poiché le tecnologie attuali si riferiscono per lo più a database di dimensioni ridotte con query semplici. La prima parte della tesi è dedicata allo sviluppo di diverse tecnologie note nello stato dell’arte e a una fase iniziale di test comparativi. Successivamente, viene progettato e implementato un sistema RAG sulla soluzione migliore emersa dai test precedenti. L’analisi finale mostra che le prestazioni dei nuovi sistemi non raggiungono i livelli dello stato dell’arte. Tuttavia, le soluzioni sviluppate risultano comunque valide: da un lato, mostrano un miglioramento, seppur modesto, rispetto ai sistemi privi di RAG; dall’altro, consentono un notevole risparmio nei token utilizzati e, di conseguenza, una significativa riduzione dei costi e dei tempi di esecuzione.