A comparative study of implicit information extraction from natural language by humans and large language models

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.

La comprensione e l’interpretazione condivisa dei significati impliciti è un aspetto essenziale della comunicazione umana. Questo sistema di comprensione, tuttavia, cambia completamente quando una persona interagisce con un modello linguistico di grandi dimensioni (Large Language Model, LLM), un avvenimento sempre più frequente vista la crescita esponenziale della popolarità di questi modelli negli ultimi anni. Sebbene molta ricerca sia dedicata a studiare le capacità di estrazione di informazioni degli LLM, pochissimi lavori si concentrano sul lato implicito di questo problema. Tentando di colmare questa lacuna proponiamo un metodo per l’estrazione di informazioni implicite che genera un grafo di conoscenza strutturato per rappresentare l’informazione che il modello comprende da un breve testo. La metodologia è sviluppata come una pipeline che inizia con una semplice fase di estrazione, seguita da una fase di validazione pensata per esaminare più in dettaglio le affermazioni implicite e, in ultimo, da un’analisi delle affermazioni da un punto di vista temporale. Il risultato è un grafo di conoscenza che unisce dati relazionali e temporali estratti dal testo. In seguito, valutiamo i risultati confrontandoli direttamente con le risposte di soggetti umani riferite agli stessi input, raccolte tramite crowdsourcing. Approfondiamo in questo modo le analogie e le differenze nel processo di estrazione delle informazioni implicite tra umani e modelli, nonché tra diversi LLM.

A comparative study of implicit information extraction from natural language by humans and large language models

Bonetti, Tommaso

2023/2024

Abstract

The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.

Scheda breve

Scheda completa

	Relatore
	
				BRAMBILLA, MARCO
			
	Correlatore/i
	
				DE SANTIS, ANTONIO
TOCCHETTI, ANDREA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				La comprensione e l’interpretazione condivisa dei significati impliciti è un aspetto essenziale della comunicazione umana. Questo sistema di comprensione, tuttavia, cambia completamente quando una persona interagisce con un modello linguistico di grandi dimensioni (Large Language Model, LLM), un avvenimento sempre più frequente vista la crescita esponenziale della popolarità di questi modelli negli ultimi anni. Sebbene molta ricerca sia dedicata a studiare le capacità di estrazione di informazioni degli LLM, pochissimi lavori si concentrano sul lato implicito di questo problema. Tentando di colmare questa lacuna proponiamo un metodo per l’estrazione di informazioni implicite che genera un grafo di conoscenza strutturato per rappresentare l’informazione che il modello comprende da un breve testo. La metodologia è sviluppata come una pipeline che inizia con una semplice fase di estrazione, seguita da una fase di validazione pensata per esaminare più in dettaglio le affermazioni implicite e, in ultimo, da un’analisi delle affermazioni da un punto di vista temporale. Il risultato è un grafo di conoscenza che unisce dati relazionali e temporali estratti dal testo. In seguito, valutiamo i risultati confrontandoli direttamente con le risposte di soggetti umani riferite agli stessi input, raccolte tramite crowdsourcing. Approfondiamo in questo modo le analogie e le differenze nel processo di estrazione delle informazioni implicite tra umani e modelli, nonché tra diversi LLM.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_04_Bonetti_Thesis.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 2.12 MB Formato Adobe PDF Visualizza/Apri	2.12 MB	Adobe PDF	Visualizza/Apri
2025_04_Bonetti_ExecutiveSummary.pdf accessibile in internet per tutti Descrizione: Executive summary Dimensione 487.26 kB Formato Adobe PDF Visualizza/Apri	487.26 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235050