This thesis investigates the design, implementation, and evaluation of an ontology-driven Graph Retrieval-Augmented Generation (GraphRAG) archi- tecture for question answering in the Italian tax domain. While Large Lenguage Models (LLM) exhibit strong natural language capabilities, their deployment in regulatedsettingsrequiresanswersthatareup-to-date,source-grounded,andtrace- able. Standard Retrieval Augmented Generation (RAG) pipelines, typically based on vector similarity over unstructured text chunks, often struggle with legal rea- soning, where relevance depends on document hierarchy, fine-grained normative units, and explicit cross-references. To address these limitations, the proposed system integrates a unified property graph of legislative texts and administrative circulars with a domain ontology (OntoVAT) to guide concept extraction, normalization, and retrieval. Legislative sources are ingested from Akoma Ntoso (AKN) representations, while circulars are processed from PDF through layout-aware document understanding. User queries are mapped to ontology concepts and used to retrieve relevant clauses and para- graphsviaamulti-stagepipelinethatcombinessemanticsimilarity, graphtraversal, and citation-based expansion. Retrieved units are then reassembled into coherent legal contexts aligned with the original document structure to support faithful an- swer generation. The approach is evaluated on a realistic dataset of tax questions derived from au- thoritative sources, using fine-grained recall of referenced legal units and answer faithfulness as primary metrics. Results show that ontology-guided retrieval and citation-aware graph expansion substantially improve the recall of relevant legisla- tive provisions compared to embedding-only baselines, while structured context reconstruction contributes to more faithful generated answers.

Questa tesi indaga la progettazione, l’implementazione e la valutazione di un’architettura GraphRAG basata su ontologie per il question answering nel dominio fiscale italiano. Sebbene i LLMs mostrino solide capacità di linguaggio naturale, il loro utilizzo in contesti regolamentati richiede risposte aggiornate, basate sulla sorgente e tracciabili. Le pipeline RAG, tipicamente basate sulla similarità vettoriale su blocchi di testo non strutturati, spesso presentano difficoltà con il ragionamento giuridico, in cui la pertinenza dipende dalla gerarchia dei documenti, da unità normative a grana fine e da riferimenti incrociati espliciti. Per superare queste limitazioni, ilsistemapropostointegraungrafodiproprietàunificatoditestilegislativiecircolariamministrative conun’ontologiadidominio(OntoVAT)perguidarel’estrazione, lanormalizzazioneeilrecuperodeiconcetti. Le fonti legislative vengono acquisite dalle rappresentazioni di Akoma Ntoso, mentre le circolari vengono elaborate daPDFtramitelacomprensionedeldocumentobasatasullayout. Ledomandedegliutentivengonomappatesui concetti ontologici e utilizzate per recuperare clausole e paragrafi pertinenti tramite una pipeline multifase che combinasimilaritàsemantica, attraversamentodelgrafoedespansionebasatasullecitazioni. Leunitàrecuperate vengono quindi riassemblate in contesti giuridici coerenti, allineati alla struttura del documento originale, per supportare la generazione di risposte fedeli. L’approccio viene valutato su un set di dati realistico di domande fiscali derivate da fonti autorevoli, utilizzando il richiamo dettagliato delle unità giuridiche referenziate e la fedeltà delle risposte come metriche principali. I risultati mostrano che il recupero guidato dall’ontologia e l’espansione del grafo basata sulle citazioni migliorano sostanzialmente il richiamo delle disposizioni legislative pertinenti rispetto alle linee di base basate solo sull’incorporamento, mentre la ricostruzione strutturata del contesto contribuisce a generare risposte più fedeli.

A Graph-RAG architecture for retrieval of tax legislation and administrative circulars based on domain ontology and citation graphs

Bersani, Michele
2024/2025

Abstract

This thesis investigates the design, implementation, and evaluation of an ontology-driven Graph Retrieval-Augmented Generation (GraphRAG) archi- tecture for question answering in the Italian tax domain. While Large Lenguage Models (LLM) exhibit strong natural language capabilities, their deployment in regulatedsettingsrequiresanswersthatareup-to-date,source-grounded,andtrace- able. Standard Retrieval Augmented Generation (RAG) pipelines, typically based on vector similarity over unstructured text chunks, often struggle with legal rea- soning, where relevance depends on document hierarchy, fine-grained normative units, and explicit cross-references. To address these limitations, the proposed system integrates a unified property graph of legislative texts and administrative circulars with a domain ontology (OntoVAT) to guide concept extraction, normalization, and retrieval. Legislative sources are ingested from Akoma Ntoso (AKN) representations, while circulars are processed from PDF through layout-aware document understanding. User queries are mapped to ontology concepts and used to retrieve relevant clauses and para- graphsviaamulti-stagepipelinethatcombinessemanticsimilarity, graphtraversal, and citation-based expansion. Retrieved units are then reassembled into coherent legal contexts aligned with the original document structure to support faithful an- swer generation. The approach is evaluated on a realistic dataset of tax questions derived from au- thoritative sources, using fine-grained recall of referenced legal units and answer faithfulness as primary metrics. Results show that ontology-guided retrieval and citation-aware graph expansion substantially improve the recall of relevant legisla- tive provisions compared to embedding-only baselines, while structured context reconstruction contributes to more faithful generated answers.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2024/2025
Questa tesi indaga la progettazione, l’implementazione e la valutazione di un’architettura GraphRAG basata su ontologie per il question answering nel dominio fiscale italiano. Sebbene i LLMs mostrino solide capacità di linguaggio naturale, il loro utilizzo in contesti regolamentati richiede risposte aggiornate, basate sulla sorgente e tracciabili. Le pipeline RAG, tipicamente basate sulla similarità vettoriale su blocchi di testo non strutturati, spesso presentano difficoltà con il ragionamento giuridico, in cui la pertinenza dipende dalla gerarchia dei documenti, da unità normative a grana fine e da riferimenti incrociati espliciti. Per superare queste limitazioni, ilsistemapropostointegraungrafodiproprietàunificatoditestilegislativiecircolariamministrative conun’ontologiadidominio(OntoVAT)perguidarel’estrazione, lanormalizzazioneeilrecuperodeiconcetti. Le fonti legislative vengono acquisite dalle rappresentazioni di Akoma Ntoso, mentre le circolari vengono elaborate daPDFtramitelacomprensionedeldocumentobasatasullayout. Ledomandedegliutentivengonomappatesui concetti ontologici e utilizzate per recuperare clausole e paragrafi pertinenti tramite una pipeline multifase che combinasimilaritàsemantica, attraversamentodelgrafoedespansionebasatasullecitazioni. Leunitàrecuperate vengono quindi riassemblate in contesti giuridici coerenti, allineati alla struttura del documento originale, per supportare la generazione di risposte fedeli. L’approccio viene valutato su un set di dati realistico di domande fiscali derivate da fonti autorevoli, utilizzando il richiamo dettagliato delle unità giuridiche referenziate e la fedeltà delle risposte come metriche principali. I risultati mostrano che il recupero guidato dall’ontologia e l’espansione del grafo basata sulle citazioni migliorano sostanzialmente il richiamo delle disposizioni legislative pertinenti rispetto alle linee di base basate solo sull’incorporamento, mentre la ricostruzione strutturata del contesto contribuisce a generare risposte più fedeli.
File allegati
File Dimensione Formato  
2026_03_Bersani_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 4.24 MB
Formato Adobe PDF
4.24 MB Adobe PDF   Visualizza/Apri
2026_03_Bersani_Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo dell'Executive Summary
Dimensione 760.71 kB
Formato Adobe PDF
760.71 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/251630