Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, but their opacity poses significant challenges in critical domains where trust, accountability, and factual reliability are essential. Retrieval-Augmented Generation (RAG) architectures address some of these concerns by grounding responses in external documents retrieved at inference time. However, while RAG reduces hallucinations and enhances verifiability, it introduces new explainability challenges: it remains unclear how the retriever and generator jointly contribute to the final output, and which retrieved elements were truly influential. This thesis proposes a modular, post-hoc framework for sentence-level explainability in RAG systems, leveraging embedding-based semantic similarity to estimate the causal influence of specific sentences within both retrieved chunks and generated responses. The retriever module identifies which sentences most affected a chunk’s retrieval given a query, while the generator module maps each sentence in the output to its most semantically aligned context evidence. The framework is model-agnostic, black-box compatible, and supports interchangeable embedding models and distance metrics. To evaluate generalizability and robustness, the system is tested across diverse domains such as legal, medical, scientific, and fictional using domain-specific and general-purpose embedding models. Experimental results show that the framework successfully identifies semantically central sentences, constructs concise pseudo-responses, and enables fine-grained traceability between input and output. The method supports practical use cases such as content auditing, validation, and explainable prompting. Overall, this work contributes a lightweight and domain-portable solution for enhancing transparency in retrieval-augmented pipelines, aligning with broader goals in trustworthy and explainable AI.

I Large Language Models (LLM) hanno dimostrato capacità notevoli in una vasta gamma di compiti, ma la loro opacità rappresenta una sfida significativa in contesti critici, dove fiducia, responsabilità e affidabilità fattuale sono fondamentali. Le architetture Retrieval-Augmented Generation (RAG) affrontano parzialmente questi problemi, ancorando le risposte a documenti esterni recuperati al momento dell’inferenza. Tuttavia, sebbene i sistemi RAG riducano le allucinazioni e migliorino la verificabilità, introducono nuove sfide in termini di spiegabilità: rimane infatti poco chiaro come il retriever e il generatore contribuiscano congiuntamente all’output finale e quali elementi recuperati siano stati davvero influenti. Questa tesi propone un framework modulare e post-hoc per l’analisi della spiegabilità a livello di frase nei sistemi RAG, basato su misure di similarità semantica ottenute tramite modelli di embedding. Il modulo del retriever identifica quali frasi, all’interno dei chunk recuperati, hanno maggiormente influenzato la selezione rispetto alla query; il modulo del generatore mappa ciascuna frase della risposta alle frasi più semanticamente affini nel contesto. L’approccio è agnostico rispetto al modello, compatibile con sistemi black-box e supporta diversi modelli di embedding e metriche di distanza. Il framework è stato valutato su più domini tra cui quelli giuridico, medico, scientifico e narrativo, utilizzando sia modelli generalisti che specializzati. I risultati sperimentali dimostrano che il metodo evidenzia con successo le frasi semanticamente centrali, costruisce pseudo-risposte informative e consente una tracciabilità fine tra input e output. Questo lavoro propone una soluzione leggera, portabile e adattabile per migliorare la trasparenza nei sistemi RAG, offrendo un supporto concreto per attività di auditing, validazione e costruzione della fiducia nei sistemi generativi.

Toward explainability in retrieval-augmented generation: design and development of post-hoc framework

Bosco, Valerio
2024/2025

Abstract

Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide range of tasks, but their opacity poses significant challenges in critical domains where trust, accountability, and factual reliability are essential. Retrieval-Augmented Generation (RAG) architectures address some of these concerns by grounding responses in external documents retrieved at inference time. However, while RAG reduces hallucinations and enhances verifiability, it introduces new explainability challenges: it remains unclear how the retriever and generator jointly contribute to the final output, and which retrieved elements were truly influential. This thesis proposes a modular, post-hoc framework for sentence-level explainability in RAG systems, leveraging embedding-based semantic similarity to estimate the causal influence of specific sentences within both retrieved chunks and generated responses. The retriever module identifies which sentences most affected a chunk’s retrieval given a query, while the generator module maps each sentence in the output to its most semantically aligned context evidence. The framework is model-agnostic, black-box compatible, and supports interchangeable embedding models and distance metrics. To evaluate generalizability and robustness, the system is tested across diverse domains such as legal, medical, scientific, and fictional using domain-specific and general-purpose embedding models. Experimental results show that the framework successfully identifies semantically central sentences, constructs concise pseudo-responses, and enables fine-grained traceability between input and output. The method supports practical use cases such as content auditing, validation, and explainable prompting. Overall, this work contributes a lightweight and domain-portable solution for enhancing transparency in retrieval-augmented pipelines, aligning with broader goals in trustworthy and explainable AI.
MAGNI, STEFANO
TRESOLDI, LORENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
I Large Language Models (LLM) hanno dimostrato capacità notevoli in una vasta gamma di compiti, ma la loro opacità rappresenta una sfida significativa in contesti critici, dove fiducia, responsabilità e affidabilità fattuale sono fondamentali. Le architetture Retrieval-Augmented Generation (RAG) affrontano parzialmente questi problemi, ancorando le risposte a documenti esterni recuperati al momento dell’inferenza. Tuttavia, sebbene i sistemi RAG riducano le allucinazioni e migliorino la verificabilità, introducono nuove sfide in termini di spiegabilità: rimane infatti poco chiaro come il retriever e il generatore contribuiscano congiuntamente all’output finale e quali elementi recuperati siano stati davvero influenti. Questa tesi propone un framework modulare e post-hoc per l’analisi della spiegabilità a livello di frase nei sistemi RAG, basato su misure di similarità semantica ottenute tramite modelli di embedding. Il modulo del retriever identifica quali frasi, all’interno dei chunk recuperati, hanno maggiormente influenzato la selezione rispetto alla query; il modulo del generatore mappa ciascuna frase della risposta alle frasi più semanticamente affini nel contesto. L’approccio è agnostico rispetto al modello, compatibile con sistemi black-box e supporta diversi modelli di embedding e metriche di distanza. Il framework è stato valutato su più domini tra cui quelli giuridico, medico, scientifico e narrativo, utilizzando sia modelli generalisti che specializzati. I risultati sperimentali dimostrano che il metodo evidenzia con successo le frasi semanticamente centrali, costruisce pseudo-risposte informative e consente una tracciabilità fine tra input e output. Questo lavoro propone una soluzione leggera, portabile e adattabile per migliorare la trasparenza nei sistemi RAG, offrendo un supporto concreto per attività di auditing, validazione e costruzione della fiducia nei sistemi generativi.
File allegati
File Dimensione Formato  
2025_07_Bosco_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 1.93 MB
Formato Adobe PDF
1.93 MB Adobe PDF Visualizza/Apri
2025_07_Bosco_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 499.46 kB
Formato Adobe PDF
499.46 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240343