The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.
La comprensione e l’interpretazione condivisa dei significati impliciti è un aspetto essenziale della comunicazione umana. Questo sistema di comprensione, tuttavia, cambia completamente quando una persona interagisce con un modello linguistico di grandi dimensioni (Large Language Model, LLM), un avvenimento sempre più frequente vista la crescita esponenziale della popolarità di questi modelli negli ultimi anni. Sebbene molta ricerca sia dedicata a studiare le capacità di estrazione di informazioni degli LLM, pochissimi lavori si concentrano sul lato implicito di questo problema. Tentando di colmare questa lacuna proponiamo un metodo per l’estrazione di informazioni implicite che genera un grafo di conoscenza strutturato per rappresentare l’informazione che il modello comprende da un breve testo. La metodologia è sviluppata come una pipeline che inizia con una semplice fase di estrazione, seguita da una fase di validazione pensata per esaminare più in dettaglio le affermazioni implicite e, in ultimo, da un’analisi delle affermazioni da un punto di vista temporale. Il risultato è un grafo di conoscenza che unisce dati relazionali e temporali estratti dal testo. In seguito, valutiamo i risultati confrontandoli direttamente con le risposte di soggetti umani riferite agli stessi input, raccolte tramite crowdsourcing. Approfondiamo in questo modo le analogie e le differenze nel processo di estrazione delle informazioni implicite tra umani e modelli, nonché tra diversi LLM.
A comparative study of implicit information extraction from natural language by humans and large language models
Bonetti, Tommaso
2023/2024
Abstract
The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Bonetti_Thesis.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
2.12 MB
Formato
Adobe PDF
|
2.12 MB | Adobe PDF | Visualizza/Apri |
2025_04_Bonetti_ExecutiveSummary.pdf
accessibile in internet per tutti
Descrizione: Executive summary
Dimensione
487.26 kB
Formato
Adobe PDF
|
487.26 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235050