Hallucinations present a significant challenge within the domain of large language models (LLMs), necessitating comprehensive investigation into their origins, implications, and effective detection and mitigation strategies. As LLMs evolve in complexity and capability, they occasionally generate outputs that diverge from factual accuracy or logical coherence, resembling perceptual distortions in human cognition. This Thesis focuses on fact-conflicting hallucinations and their detection through automated model-based solutions, particularly leveraging the internal states of LLMs and the use of knowledge to verify the examined statements. Additionally, it explores the concept of checkworthiness in dataset creation for evaluating fact-conflicting hallucination detection, by providing a definition of the notion, manually annotating a dataset to distinguish checkworthy statements from non-checkworthy ones and attempting to create an automated procedure for said classification. Finally, the study evaluates the performance of these solutions in verifying provided samples and their behaviour in classifying the factual correctness of non-checkworthy statements. Results indicate that models utilizing the LLM’s internal states demonstrate superior performance compared to those relying on final generation outputs, while conclusive evidence regarding the effectiveness of relevant knowledge snippets remains elusive. Regarding checkworthiness detection, our automated implementation proved ineffective, and no discernible differences were observed in models when classifying the factual accuracy of non-checkworthy sentences compared to generic ones. Nevertheless, our findings underscore the importance of further research into checkworthiness as a critical area for improving the datasets used for evaluating fact-conflicting hallucination detection.

Le allucinazioni rappresentano una sfida significativa nell’ambito dei large language models (LLM) e richiedono un’indagine completa sulle loro origini, implicazioni e strategie di efficace rilevamento e mitigazione. Man mano che gli LLM si evolvono in complessità e capacità, occasionalmente generano output che si discostano dall’accuratezza dei fatti o dalla coerenza logica, assomigliando alle distorsioni percettive della cognizione umana. Questa Tesi si concentra sulle allucinazioni fact-conflicting e sulla loro individuazione attraverso soluzioni automatizzate model-based, in particolare sfruttando gli stati interni dei LLM e l’utilizzo di conoscenza esterna per verificare le affermazioni esaminate. Inoltre, la tesi esplora il concetto di checkworthiness nella creazione di dataset per la valutazione del rilevamento di allucinazioni fact-conflicting, fornendo una definizione del concetto, annotando manualmente un dataset per distinguere le affermazioni checkworthy da quelle non-checkworthy e tentando di creare una procedura automatizzata per tale classificazione. Infine, lo studio valuta le prestazioni di queste soluzioni nella verifica dei campioni forniti e il loro comportamento nella classificazione della correttezza fattuale delle affermazioni non-checkworthy. I risultati indicano che i modelli che utilizzano gli stati interni dell’LLM dimostrano prestazioni superiori rispetto a quelli che si basano sugli output della generazione finale, mentre le prove conclusive sull’efficacia dell’utilizzo di frammenti di informazione esterna rimangono elusive. Per quanto riguarda il rilevamento della checkworthiness, la nostra implementazione automatizzata ha dimostrato di essere inefficace, e nessuna differenza rilevante è stata osservata durante la classificazione della accuratezza fattuale di frasi non-checkworthy rispetto a frasi generiche. Ciononostante, i nostri risultati sottolineano l’importanza di ulteriore ricerca nel campo della checkworthiness, come area critica per il miglioramento dei dataset utilizzati nella valutazione del rilevamento di allucinazioni fact-conflicting.

Detecting fact-conflicting hallucinations through the use of large language models

Bruni, Marco
2023/2024

Abstract

Hallucinations present a significant challenge within the domain of large language models (LLMs), necessitating comprehensive investigation into their origins, implications, and effective detection and mitigation strategies. As LLMs evolve in complexity and capability, they occasionally generate outputs that diverge from factual accuracy or logical coherence, resembling perceptual distortions in human cognition. This Thesis focuses on fact-conflicting hallucinations and their detection through automated model-based solutions, particularly leveraging the internal states of LLMs and the use of knowledge to verify the examined statements. Additionally, it explores the concept of checkworthiness in dataset creation for evaluating fact-conflicting hallucination detection, by providing a definition of the notion, manually annotating a dataset to distinguish checkworthy statements from non-checkworthy ones and attempting to create an automated procedure for said classification. Finally, the study evaluates the performance of these solutions in verifying provided samples and their behaviour in classifying the factual correctness of non-checkworthy statements. Results indicate that models utilizing the LLM’s internal states demonstrate superior performance compared to those relying on final generation outputs, while conclusive evidence regarding the effectiveness of relevant knowledge snippets remains elusive. Regarding checkworthiness detection, our automated implementation proved ineffective, and no discernible differences were observed in models when classifying the factual accuracy of non-checkworthy sentences compared to generic ones. Nevertheless, our findings underscore the importance of further research into checkworthiness as a critical area for improving the datasets used for evaluating fact-conflicting hallucination detection.
BRUNELLO, NICOLO'
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
Le allucinazioni rappresentano una sfida significativa nell’ambito dei large language models (LLM) e richiedono un’indagine completa sulle loro origini, implicazioni e strategie di efficace rilevamento e mitigazione. Man mano che gli LLM si evolvono in complessità e capacità, occasionalmente generano output che si discostano dall’accuratezza dei fatti o dalla coerenza logica, assomigliando alle distorsioni percettive della cognizione umana. Questa Tesi si concentra sulle allucinazioni fact-conflicting e sulla loro individuazione attraverso soluzioni automatizzate model-based, in particolare sfruttando gli stati interni dei LLM e l’utilizzo di conoscenza esterna per verificare le affermazioni esaminate. Inoltre, la tesi esplora il concetto di checkworthiness nella creazione di dataset per la valutazione del rilevamento di allucinazioni fact-conflicting, fornendo una definizione del concetto, annotando manualmente un dataset per distinguere le affermazioni checkworthy da quelle non-checkworthy e tentando di creare una procedura automatizzata per tale classificazione. Infine, lo studio valuta le prestazioni di queste soluzioni nella verifica dei campioni forniti e il loro comportamento nella classificazione della correttezza fattuale delle affermazioni non-checkworthy. I risultati indicano che i modelli che utilizzano gli stati interni dell’LLM dimostrano prestazioni superiori rispetto a quelli che si basano sugli output della generazione finale, mentre le prove conclusive sull’efficacia dell’utilizzo di frammenti di informazione esterna rimangono elusive. Per quanto riguarda il rilevamento della checkworthiness, la nostra implementazione automatizzata ha dimostrato di essere inefficace, e nessuna differenza rilevante è stata osservata durante la classificazione della accuratezza fattuale di frasi non-checkworthy rispetto a frasi generiche. Ciononostante, i nostri risultati sottolineano l’importanza di ulteriore ricerca nel campo della checkworthiness, come area critica per il miglioramento dei dataset utilizzati nella valutazione del rilevamento di allucinazioni fact-conflicting.
File allegati
File Dimensione Formato  
2024_10_Bruni_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 2.46 MB
Formato Adobe PDF
2.46 MB Adobe PDF Visualizza/Apri
2024_10_Bruni_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Testo Executive Summary
Dimensione 380.93 kB
Formato Adobe PDF
380.93 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/225573