Measuring contextual adherence in LLM-based reasoning over knowledge graphs

Large Language Models (LLMs) combine parametric knowledge acquired during training with contextual knowledge provided within the prompt, yet they often struggle to override incorrect priors when presented with contradictory evidence. This thesis investigates this “tug-of-war” in the context of Knowledge Graph (KG)-based Retrieval-Augmented Generation (RAG). Using a question-answering dataset accompanied by a Knowledge Graph, four progressively altered variants (Slight, Significant, Comical and Uncomprehensible) are constructed introducing controlled contradictions inside the KG. Three KG-based RAG methods, Graph Constrained Reasoning (GCR), Reasoning on Graphs (RoG) and Think on Graph (ToG), are evaluated in terms of reasoning-path quality, answer accuracy, and adherence to contextual knowledge, measured through Prior Bias and Context Bias. Experimental results show that ToG is unreliable due to frequent path-generation failures, while GCR consistently outperforms RoG by producing only valid paths and achieving higher adherence to contextual information. Although KG-based RAG significantly improves factual grounding compared to a no-retrieval baseline, adherence to contradictory context remains partial and degrades as perturbations increase. These findings highlight both the benefits and the limitations of structured retrieval in guiding LLM reasoning under conflicting knowledge.

I Large Language Model (LLM) combinano la conoscenza parametrica acquisita durante l’addestramento con la conoscenza contestuale fornita all’interno del prompt; tuttavia, spesso faticano a sovrascrivere preconcetti errati quando vengono presentate evidenze contraddittorie. Questa tesi indaga questo “tiro alla fune” nel contesto della Retrieval-Augmented Generation (RAG) basata su Knowledge Graph (KG). Utilizzando un dataset di question answering accompagnato da un Knowledge Graph, vengono costruite quattro varianti progressivamente modificate (Slight, Significant, Comical and Uncomprehensible) introducendo contraddizioni controllate all’interno del KG. Tre metodi di RAG basati su KG, Graph Constrained Reasoning (GCR), Reasoning on Graphs (RoG) e Think on Graph (ToG), vengono valutati in termini di qualità dei percorsi di ragionamento, accuratezza delle risposte e aderenza alla conoscenza contestuale, misurata attraverso Prior Bias e Context Bias. I risultati sperimentali mostrano che ToG è inaffidabile a causa di frequenti fallimenti nella generazione dei percorsi, mentre GCR supera costantemente RoG producendo solo percorsi validi e raggiungendo una maggiore aderenza alle informazioni contestuali. Sebbene la RAG basata su KG migliori significativamente la fattualità delle risposte rispetto a una baseline senza recupero di informazioni aggiuntive, l’aderenza al contesto contraddittorio rimane parziale e peggiora con l’aumentare delle perturbazioni. Questi risultati evidenziano sia i benefici sia i limiti del recupero di informazioni strutturate nel guidare il ragionamento degli LLM in presenza di conoscenza conflittuale.