The rapid evolution of Retrieval-Augmented Generation (RAG) as a technique to improve the capabilities of large language models has created the need for reliable and flexible evaluation strategies. We perform a critical analysis of the existing evaluation frameworks and metrics focusing on their shortcomings, then we design and implement a pipeline that handles the whole evaluation process introducing also a novel method for the automatic generation of context relevance ground truth, necessary for the evaluation of retrieval. We test the quality of our evaluation framework on a well-known annotated data set. The analysis of the results, and the comparison with other techniques, show that our framework improves the alignment with human judgment while providing great flexibility and reduced costs in terms of execution time and required resources.

La rapida evoluzione delle tecniche di Retrieval-Augmented Generation (RAG), volte al miglioramento dei modelli per la generazione di linugaggio naturale (Large Language Models), ha portato alla necessità di formulare strategie per valutarne le prestazioni che si adattino alle nuove esigenze. In questa tesi analizziamo i metodi di valuatione esistenti, evidenziandone eventuali mancanze; in seguito, descriviamo la progettazione e implementazione di una procedura in grado di gestire l'intero processo di valuatione, introducendo anche una nuova tecnica per la generazione di dati necessari a esaminare il processo di reperimentdo dell'informazione. L'analisi dei risultati ottenuti su un noto dataset e il confronto con strategie alternative, mettono in luce le qualità della soluzione proposta, che migliora l'allineamento della valuazione automatica con quella umana e fornisce una buona flessibilità con tempi di esecuzione e costi ridotti.

Design of a modular evaluation framework for retrieval-augmented generation systems

MOZZI, DAVIDE
2023/2024

Abstract

The rapid evolution of Retrieval-Augmented Generation (RAG) as a technique to improve the capabilities of large language models has created the need for reliable and flexible evaluation strategies. We perform a critical analysis of the existing evaluation frameworks and metrics focusing on their shortcomings, then we design and implement a pipeline that handles the whole evaluation process introducing also a novel method for the automatic generation of context relevance ground truth, necessary for the evaluation of retrieval. We test the quality of our evaluation framework on a well-known annotated data set. The analysis of the results, and the comparison with other techniques, show that our framework improves the alignment with human judgment while providing great flexibility and reduced costs in terms of execution time and required resources.
CASTELLANI, TOMASO
PEZZOLI, PIERGIUSEPPE
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La rapida evoluzione delle tecniche di Retrieval-Augmented Generation (RAG), volte al miglioramento dei modelli per la generazione di linugaggio naturale (Large Language Models), ha portato alla necessità di formulare strategie per valutarne le prestazioni che si adattino alle nuove esigenze. In questa tesi analizziamo i metodi di valuatione esistenti, evidenziandone eventuali mancanze; in seguito, descriviamo la progettazione e implementazione di una procedura in grado di gestire l'intero processo di valuatione, introducendo anche una nuova tecnica per la generazione di dati necessari a esaminare il processo di reperimentdo dell'informazione. L'analisi dei risultati ottenuti su un noto dataset e il confronto con strategie alternative, mettono in luce le qualità della soluzione proposta, che migliora l'allineamento della valuazione automatica con quella umana e fornisce una buona flessibilità con tempi di esecuzione e costi ridotti.
File allegati
File Dimensione Formato  
2025_04_Mozzi_Thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 1.25 MB
Formato Adobe PDF
1.25 MB Adobe PDF Visualizza/Apri
2025_04_Mozzi_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 647.08 kB
Formato Adobe PDF
647.08 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234872