This study examines the fact-checking capabilities of small and big language models from the Mistral and LLaMA families. Our findings show that, while larger models normally perform better, smaller and more recent models can reach comparable results in our tasks if fed adequate prompting. The findings confirm the importance of examples in LLM task execution, with Chain of Thought reasoning used as a possible booster. We also discovered that enriching information about the labels improves the classification of abstract concepts, like true and false. To assess the effectiveness of LLMs as fact-checkers, we divided the evaluation into three key components: understanding the relationship between claims and articles, determining their accuracy in delivering verdicts using reference documents, and analyzing how contextual information influences their performance. Regarding contextual data, analyses were performed to establish the impact of various sources, Google and Wikipedia, as well as their presentation —whether summaries, whole articles, or snippets— for verifying the integrity of the claims. This investigation employed a curated dataset, Fact-Checking Insights, from which we extracted English claims from various fact-checking sources. Overall, the study emphasizes the importance of context and the quality of supporting material in increasing the usefulness of LLMs for fact-checking tasks.
Questo studio esamina le capacità di fact-checking di alcuni modelli di linguaggio, grandi e piccoli, appartenenti alle famiglie Mistral e LLaMA. La nostra analisi rivela che, sebbene i modelli più grandi dimostrino generalmente prestazioni superiori, i modelli più piccoli e recenti possono raggiungere livelli di accuratezza simili utilizzando adeguati prompt. I risultati sottolineano l'importanza degli esempi per il corretto svolgimento dei compiti da parte dei LLMs, identificando il Chain of Thought come un potenziale fattore che ne aumenta l'efficacia. Abbiamo,inoltre, riscontrato che l'arricchimento delle informazioni facilita l'elaborazione dei concetti astratti, come vero e falso. L'analisi si è concentrata su tre aspetti chiave: la comprensione da parte dei modelli della relazione tra dichiarazioni e articoli, la loro affidabilità nel fornire verdetti basati su documenti che verficano la dichiarazione associata (golden documents), e l'efficacia delle informazioni contestuali nell'aumentare le loro capacità di fact-checking. Sono state condotte analisi per valutare sia l'influenza di diverse fonti, Google e Wikipedia, che la presentazione delle stesse informazioni ( riassunti, articoli completi o estratti). Gli esperimenti hanno utilizzato un dataset, Fact-Checking Insights, progettato per ridurre al minimo i bias e focalizzato su affermazioni in lingua inglese. Abbiamo potuto osservare che le fonti esterne, limitate al periodo precedente le affermazioni, non hanno migliorato significativamente le prestazioni del modello, sottolineando l'importanza della rilevanza e della tempestività nei dati di supporto.
Evaluating the effectiveness of open Large Language Models in fact-checking claims
Zuccolotto, Enrico
2023/2024
Abstract
This study examines the fact-checking capabilities of small and big language models from the Mistral and LLaMA families. Our findings show that, while larger models normally perform better, smaller and more recent models can reach comparable results in our tasks if fed adequate prompting. The findings confirm the importance of examples in LLM task execution, with Chain of Thought reasoning used as a possible booster. We also discovered that enriching information about the labels improves the classification of abstract concepts, like true and false. To assess the effectiveness of LLMs as fact-checkers, we divided the evaluation into three key components: understanding the relationship between claims and articles, determining their accuracy in delivering verdicts using reference documents, and analyzing how contextual information influences their performance. Regarding contextual data, analyses were performed to establish the impact of various sources, Google and Wikipedia, as well as their presentation —whether summaries, whole articles, or snippets— for verifying the integrity of the claims. This investigation employed a curated dataset, Fact-Checking Insights, from which we extracted English claims from various fact-checking sources. Overall, the study emphasizes the importance of context and the quality of supporting material in increasing the usefulness of LLMs for fact-checking tasks.File | Dimensione | Formato | |
---|---|---|---|
Thesis_Zuccolotto.pdf
accessibile in internet per tutti a partire dal 10/09/2025
Dimensione
18 MB
Formato
Adobe PDF
|
18 MB | Adobe PDF | Visualizza/Apri |
Executive_Summary_Thesis_Zuccolotto.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
1.39 MB
Formato
Adobe PDF
|
1.39 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/226534