The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.

La comprensione e l’interpretazione condivisa dei significati impliciti è un aspetto essenziale della comunicazione umana. Questo sistema di comprensione, tuttavia, cambia completamente quando una persona interagisce con un modello linguistico di grandi dimensioni (Large Language Model, LLM), un avvenimento sempre più frequente vista la crescita esponenziale della popolarità di questi modelli negli ultimi anni. Sebbene molta ricerca sia dedicata a studiare le capacità di estrazione di informazioni degli LLM, pochissimi lavori si concentrano sul lato implicito di questo problema. Tentando di colmare questa lacuna proponiamo un metodo per l’estrazione di informazioni implicite che genera un grafo di conoscenza strutturato per rappresentare l’informazione che il modello comprende da un breve testo. La metodologia è sviluppata come una pipeline che inizia con una semplice fase di estrazione, seguita da una fase di validazione pensata per esaminare più in dettaglio le affermazioni implicite e, in ultimo, da un’analisi delle affermazioni da un punto di vista temporale. Il risultato è un grafo di conoscenza che unisce dati relazionali e temporali estratti dal testo. In seguito, valutiamo i risultati confrontandoli direttamente con le risposte di soggetti umani riferite agli stessi input, raccolte tramite crowdsourcing. Approfondiamo in questo modo le analogie e le differenze nel processo di estrazione delle informazioni implicite tra umani e modelli, nonché tra diversi LLM.

A comparative study of implicit information extraction from natural language by humans and large language models

Bonetti, Tommaso
2023/2024

Abstract

The shared understanding and interpretation of implicit meanings is an integral aspect of how humans communicate. This framework, however, changes completely when a person interacts with a Large Language Model (LLM), an ever more frequent occurrence with the immense growth in popularity these models enjoyed over the past few years. While much research is dedicated to investigating the information extraction capabilities of LLMs, very few works focus on the implicit aspect of this task. In an effort to bridge this gap, we propose an approach for Implicit Information Extraction that generates a structured knowledge graph to represent the model’s knowledge for a given context sentence. The method is articulated as a pipeline that starts with a simple extraction step, followed by a validation step specifically developed to examine the implicit statements further, and lastly an analysis of the statements from a temporal perspective. The result is a knowledge graph that combines relational and temporal information extracted from the text. We then conduct an evaluation of the results by direct comparison with crowdsourced human answers referring to the same context sentences, delving into the similarities and differences in the Implicit Information Extraction process between humans and models, as well as between different LLMs.
DE SANTIS, ANTONIO
TOCCHETTI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La comprensione e l’interpretazione condivisa dei significati impliciti è un aspetto essenziale della comunicazione umana. Questo sistema di comprensione, tuttavia, cambia completamente quando una persona interagisce con un modello linguistico di grandi dimensioni (Large Language Model, LLM), un avvenimento sempre più frequente vista la crescita esponenziale della popolarità di questi modelli negli ultimi anni. Sebbene molta ricerca sia dedicata a studiare le capacità di estrazione di informazioni degli LLM, pochissimi lavori si concentrano sul lato implicito di questo problema. Tentando di colmare questa lacuna proponiamo un metodo per l’estrazione di informazioni implicite che genera un grafo di conoscenza strutturato per rappresentare l’informazione che il modello comprende da un breve testo. La metodologia è sviluppata come una pipeline che inizia con una semplice fase di estrazione, seguita da una fase di validazione pensata per esaminare più in dettaglio le affermazioni implicite e, in ultimo, da un’analisi delle affermazioni da un punto di vista temporale. Il risultato è un grafo di conoscenza che unisce dati relazionali e temporali estratti dal testo. In seguito, valutiamo i risultati confrontandoli direttamente con le risposte di soggetti umani riferite agli stessi input, raccolte tramite crowdsourcing. Approfondiamo in questo modo le analogie e le differenze nel processo di estrazione delle informazioni implicite tra umani e modelli, nonché tra diversi LLM.
File allegati
File Dimensione Formato  
2025_04_Bonetti_Thesis.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.12 MB
Formato Adobe PDF
2.12 MB Adobe PDF Visualizza/Apri
2025_04_Bonetti_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 487.26 kB
Formato Adobe PDF
487.26 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235050