Improving data discoverability with LLM: a RAG based method

In today's context, characterized by exponential growth in data production, data spaces are emerging as an innovative paradigm for the flexible management of heterogeneous and decentralized data. However, effective dataset discovery within such architectures remains a critical challenge, mainly due to the reliance on metadata that is often incomplete or non-standardized. This thesis proposes an alternative approach to improve findability in Dataspace environments, leveraging the semantic potential of Large Language Models (LLMs) and Retrieval Augmented Generation (RAG) architecture. The proposed method is divided into an offline and online phases. In the offline phase, a semantic profile is constructed for each dataset, generated using LLM to understand the schema and relationships between columns, and a statistical profile, which summarizes the main quantitative characteristics. From these profiles, representative queries are generated and stored in a vector database. In the online phase, the user enters a query in natural language, which is optimized and broken down into sub-queries using LLM. The sub-queries are compared with those stored in the vector database to retrieve the most relevant datasets, which are then reordered and evaluated using an additional LLM. The approach exploits the capabilities of LLMs both (i) to semantically interpret datasets, making the solution scalable and adaptable to different domains, and (ii) to improve the user experience in the search process, overcoming the limitations of keyword- or metadata-based searches. The thesis thus contributes to enhancing discovery capabilities in data spaces, enabling more natural, effective, and accessible interaction with large data collections.

Nel contesto odierno caratterizzato da una crescita esponenziale nella produzione di dati, i Data Space emergono come paradigma innovativo per la gestione flessibile di dati eterogenei e decentralizzati. Tuttavia, la scoperta efficace dei dataset (Dataset Discovery) all’interno di tali architetture rappresenta ancora una sfida critica, soprattutto a causa della dipendenza da metadati spesso incompleti o non standardizzati. Questa tesi propone un approccio alternativo per migliorare la Findability in ambienti Dataspace, sfruttando le potenzialità semantiche dei Large Language Models (LLM) e l’architettura Retrieval Augmented Generation (RAG). Il metodo proposto è suddiviso in una fase offline ed una online. Nella fase offline, per ogni dataset vengono costruiti un profilo semantico, generato tramite LLM per comprendere schema e relazioni tra colonne, e un profilo statistico, che sintetizza le principali caratteristiche quantitative. Da questi profili si generano query rappresentative memorizzate in un database vettoriale. Nella fase online, l’utente inserisce una query in linguaggio naturale, che viene ottimizzata e scomposta in sotto-query tramite LLM. Le sotto-query vengono confrontate con quelle memorizzate nel database vettoriale per recuperare i dataset più pertinenti, che vengono infine riordinati e valutati tramite un ulteriore LLM. L’approccio sfrutta le capacità degli LLM sia (i) per interpretare semanticamente i dataset, rendendo la soluzione scalabile e adattabile a domini differenti, sia (ii) per migliorare l’esperienza utente nel processo di ricerca, superando le limitazioni delle ricerche basate su parole chiave o metadati. La tesi contribuisce così a potenziare le funzionalità di scoperta nei Dataspace, abilitando un’interazione più naturale, efficace e accessibile con grandi collezioni di dati.