The spread of fake news is rapidly increasing in our digital era. Social media's interconnectedness has enabled this spread, creating societal challenges. Human fact-checkers struggle to keep pace, prompting the need for AI-powered tools. Researchers are now focusing on automated fact-checking, leveraging Large Language Models. Handling tabular data is pivotal, as these models rely on both structured and unstructured internet data. Our work enhances models' abilities to interact with tables for fact verification. We evaluate GPT-3.5 and Mistral 7B, providing them with tools to address this challenge, focusing on prompt engineering and fine-tuning. We apply these methods to the FEVEROUS and TabFact datasets, noting their differing complexity. Our experiments assess how to improve LLMs' fact-checking abilities over tables. We first address the FEVEROUS challenge with a RAG-inspired system, and, due to limitations in evidence control, develop a new pipeline using LangChain. Results show how RAG is uneffective for this task and how building a pipeline from scratch is a far better approach. We examine how table formats affect LLMs in fact-checking, showing minimal sensitivity. Additionally, we introduce a framework called Chain-of-Table, which significantly improves table structure understanding. Lastly, we fine-tune Mistral 7B on TabFact, achieving accuracy gains despite hardware limitations.

La diffusione di fake news sta aumentando rapidamente nella nostra era digitale. L'interconnessione facilitata dai social media ha reso possibile questa diffusione, creando sfide per la società. I fact-checker umani faticano a tenere il passo, rendendo necessarie nuove soluzioni basate sull'intelligenza artificiale. I ricercatori si stanno ora concentrando sul fact-checking automatizzato, sfruttando i modelli di linguaggio di grandi dimensioni. La gestione dei dati tabulari è fondamentale, poiché questi modelli si basano su dati strutturati e non strutturati provenienti da internet. Il nostro lavoro mira a migliorare la capacità di questi modelli di interagire con le tabelle per verificare i fatti. Valutiamo i modelli GPT-3.5 e Mistral 7B, fornendo loro strumenti per affrontare questa sfida, concentrandoci sull'ingegneria dei prompt e sul fine-tuning. Applichiamo questi metodi ai dataset FEVEROUS e TabFact, sottolineando le loro diverse complessità. I nostri esperimenti valutano come migliorare le capacità di fact-checking dei LLM su dati tabulari. Iniziamo affrontando la sfida FEVEROUS con un sistema ispirato a RAG e, a causa delle limitazioni nel controllo delle prove, sviluppiamo una nuova pipeline utilizzando LangChain. Mostreremo come il RAG non è un metodo efficace per questa challenge e che costruire una pipeline da zero sia l'approccio corretto. Esaminiamo come i formati delle tabelle influenzano i LLM nel fact-checking, dimostrando una sensibilità minima. Inoltre, introduciamo un framework chiamato Chain-of-Table, che migliora significativamente la comprensione della struttura delle tabelle. Infine, eseguiamo il fine-tuning di Mistral 7B su TabFact, ottenendo un aumento di accuratezza nonostante le limitazioni hardware.

Large language models for fact-checking over tables

BARNABÒ, ALBERTO
2023/2024

Abstract

The spread of fake news is rapidly increasing in our digital era. Social media's interconnectedness has enabled this spread, creating societal challenges. Human fact-checkers struggle to keep pace, prompting the need for AI-powered tools. Researchers are now focusing on automated fact-checking, leveraging Large Language Models. Handling tabular data is pivotal, as these models rely on both structured and unstructured internet data. Our work enhances models' abilities to interact with tables for fact verification. We evaluate GPT-3.5 and Mistral 7B, providing them with tools to address this challenge, focusing on prompt engineering and fine-tuning. We apply these methods to the FEVEROUS and TabFact datasets, noting their differing complexity. Our experiments assess how to improve LLMs' fact-checking abilities over tables. We first address the FEVEROUS challenge with a RAG-inspired system, and, due to limitations in evidence control, develop a new pipeline using LangChain. Results show how RAG is uneffective for this task and how building a pipeline from scratch is a far better approach. We examine how table formats affect LLMs in fact-checking, showing minimal sensitivity. Additionally, we introduce a framework called Chain-of-Table, which significantly improves table structure understanding. Lastly, we fine-tune Mistral 7B on TabFact, achieving accuracy gains despite hardware limitations.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
La diffusione di fake news sta aumentando rapidamente nella nostra era digitale. L'interconnessione facilitata dai social media ha reso possibile questa diffusione, creando sfide per la società. I fact-checker umani faticano a tenere il passo, rendendo necessarie nuove soluzioni basate sull'intelligenza artificiale. I ricercatori si stanno ora concentrando sul fact-checking automatizzato, sfruttando i modelli di linguaggio di grandi dimensioni. La gestione dei dati tabulari è fondamentale, poiché questi modelli si basano su dati strutturati e non strutturati provenienti da internet. Il nostro lavoro mira a migliorare la capacità di questi modelli di interagire con le tabelle per verificare i fatti. Valutiamo i modelli GPT-3.5 e Mistral 7B, fornendo loro strumenti per affrontare questa sfida, concentrandoci sull'ingegneria dei prompt e sul fine-tuning. Applichiamo questi metodi ai dataset FEVEROUS e TabFact, sottolineando le loro diverse complessità. I nostri esperimenti valutano come migliorare le capacità di fact-checking dei LLM su dati tabulari. Iniziamo affrontando la sfida FEVEROUS con un sistema ispirato a RAG e, a causa delle limitazioni nel controllo delle prove, sviluppiamo una nuova pipeline utilizzando LangChain. Mostreremo come il RAG non è un metodo efficace per questa challenge e che costruire una pipeline da zero sia l'approccio corretto. Esaminiamo come i formati delle tabelle influenzano i LLM nel fact-checking, dimostrando una sensibilità minima. Inoltre, introduciamo un framework chiamato Chain-of-Table, che migliora significativamente la comprensione della struttura delle tabelle. Infine, eseguiamo il fine-tuning di Mistral 7B su TabFact, ottenendo un aumento di accuratezza nonostante le limitazioni hardware.
File allegati
File Dimensione Formato  
2024_10_Barnabo_Executive_Summary.pdf

accessibile in internet per tutti

Dimensione 935.7 kB
Formato Adobe PDF
935.7 kB Adobe PDF Visualizza/Apri
2024_10_Barnabo_Thesis.pdf

accessibile in internet per tutti

Dimensione 6.6 MB
Formato Adobe PDF
6.6 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226776