In today's digital era, knowledge graphs (KGs) provide a solution to manage the abundance of data by organizing information in a structured manner. They represent information by organizing it into "triples", which are relationships between distinct entities or concepts within the domain under consideration. The most common issues plaguing KGs are incompleteness and the presence of noise, often resulting from the integration of data from various sources. Numerous procedures aiming to refine such KGs have been developed in recent years using embeddings, which are low-dimensional numerical representations of the entities and relationships within the KGs. Beyond refining KGs, these embeddings play a pivotal role as they make the data within KGs accessible to algorithms exclusively designed for numerical data processing, including some used in recommendation systems, natural language processing, and text analysis. A significant challenge in the embedding creation process is the use of "negative triples", which represent relationships not contained in the KG. These are essential in KG embedding models, as they enable them to distinguish between relationships that exist within the KG and those that do not. Upon analyzing solutions proposed in the literature and identifying areas for improvement, TransHI was conceived. This approach introduces an iterative method for generating high-quality embeddings. What sets TransHI apart from cutting-edge algorithms is its adoption of a hybrid approach in generating negative triples, amalgamating information from the KG's structure and its related ontologies, which are formal representations that delineate possible relationships within the KG's domain. This approach became necessary as ontologies might not encompass information pertaining to all entities and relationships within the graph. A hybrid approach that combines both ontologies and structure allows for a more uniform utilization of the KG's information. While the iterative training of embeddings has been previously explored in the literature, TransHI offers a novel mode of implementing it and a preprocessing phase that effectively facilitates the pipeline, especially in the case of KGs characterized by significant noise. The preprocessing phase represents the initial step of the TransHI methodology. Leveraging the ontologies associated with KGs, this phase aims to minimize noise within KGs by eliminating potentially erroneous triples and augmenting the number of truthful triples. Subsequently, the method transitions into an iterative phase. In the first iteration, an algorithm is employed to train the embeddings, generating negative triples in a hybrid manner: utilizing both the KG's structure and its related ontology. After this initial training, a classification algorithm is used to pinpoint information that was not adequately learned during training and, therefore, is not well-represented by the generated embeddings. This information is then harnessed in the creation of effective negatives during subsequent training iterations. The use of iterative training steps, combined with the hybrid approach employed during the initial training iteration, has proven to be particularly effective. Additionally, the preprocessing phase has shown to be highly beneficial, especially in refining noisy KGs. The results highlighted better performances of TransHI over two state-of-the-art algorithms, TransE and TransOWL, in the link prediction task. However, a potential risk of overfitting emerged when there is excessive integration of ontological knowledge into the KG during the preprocessing phase. This risk can be mitigated by using a different algorithm exclusively for the initial training iteration, as the overfitting is observed only with the method used during that phase. For subsequent iterations, the embedding algorithm of TransHI remains suitable. In summary, TransHI represents a promising advancement in the field of KG embeddings, offering a robust solution to the challenges characterizing contemporary embedding algorithms.

Nell’odierna epoca digitale, i grafi di conoscenza (KGs) offrono una soluzione per gestire l'abbondanza di dati, organizzando le informazioni in modo strutturato. Essi rappresentano le informazioni organizzandole in “triple”, cioè in relazioni che intercorrono tra entità, individui distinti o concetti del dominio in esame. Un’importante sfida nel processo di creazione degli embeddings è l'utilizzo di 'triple negative', ovvero triple che rappresentano relazioni non appartenenti al KG. Esse sono essenziali nei modelli di embedding di KGs, in quanto permettono loro di rappresentare la distinzione tra relazioni contenute nel KG e non. Analizzando le soluzioni avanzate dalla letteratura e identificando aree di miglioramento, è stato concepito TransHI. Questo approccio introduce un metodo iterativo per generare embeddings di alta qualità. La peculiarità che contraddistingue TransHI rispetto agli algoritmi all'avanguardia è l'adozione di un approccio ibrido nella generazione delle triple negative, amalgamando informazioni provenienti dalla struttura del KG e dalle ontologie ad esso correlate, rappresentazioni formali che circoscrivono le relazioni possibili nel dominio del KG.Tale approccio si è reso necessario in quanto le ontologie possono non contenere informazioni relative a tutte le entità e relazioni all’interno del grafo e un approccio ibrido che combini ontologie e struttura consente un utilizzo più uniforme delle informazioni del KG. Seppure il training iterativo di embeddings sia già stato utilizzato in letteratura, TransHI propone una nuova modalità per implementarlo ed una fase di preprocessing che consente di utilizzare efficacemente la pipeline in caso di KGs caratterizzati da molto rumore. Tale fase di preprocessing rappresenta la tappa iniziale della metodologia TransHI. Avvalendosi delle ontologie associate ai KGs, questa fase mira a minimizzare il rumore nei KGs, estirpando triple potenzialmente errate ed aumentando il numero di triple veritiere. Di seguito, il metodo procede entrando in una fase iterativa. Nella prima iterazione si adopera un algoritmo per addestrare gli embeddings che crea le triple negative in modo ibrido: sfruttando sia la struttura del KG che l’ontologia relativa. Dopo questo training iniziale, si sfrutta un algoritmo di classificazione per individuare le informazioni che non sono state apprese adeguatamente durante il training e pertanto non sono rappresentate bene dagli embeddings generati. Queste informazioni vengono poi impiegate nella creazione di negative efficaci durante iterazioni successive di training. L’utilizzo di steps di training in modo iterativo, combinato con l’approccio ibrido utilizzato durante la prima iterazione del training si è dimostrato particolarmente efficace. Anche la fase di pre-elaborazione si è manifestata assai proficua, in particolar modo nella raffinazione di KGs con molto rumore. I risultati hanno evidenziato prestazioni migliori di TransHI rispetto a due algoritmi all’avanguardia, TransE e TransOWL, nel compito di previsione dei collegamenti. Tuttavia, è emerso un potenziale rischio di overfitting in presenza di un'eccessiva integrazione di conoscenza ontologica nel KG durante la fase di pre-elaborazione. Tale rischio può essere mitigato adottando un algoritmo differente esclusivamente per la prima iterazione dell'addestramento, dal momento che l’overfitting si manifesta soltanto con il metodo impiegato in questo step. Per le iterazioni successive, l’algoritmo di embedding di TransHI risulta efficace. In sintesi, TransHI rappresenta un avanzamento promettente nel campo degli embeddings di KGs, proponendo una soluzione solida alle sfide che caratterizzano gli algoritmi di embedding contemporanei.

A Hybrid Approach for Embedding Knowledge Graphs

Mariani, Elisa
2022/2023

Abstract

In today's digital era, knowledge graphs (KGs) provide a solution to manage the abundance of data by organizing information in a structured manner. They represent information by organizing it into "triples", which are relationships between distinct entities or concepts within the domain under consideration. The most common issues plaguing KGs are incompleteness and the presence of noise, often resulting from the integration of data from various sources. Numerous procedures aiming to refine such KGs have been developed in recent years using embeddings, which are low-dimensional numerical representations of the entities and relationships within the KGs. Beyond refining KGs, these embeddings play a pivotal role as they make the data within KGs accessible to algorithms exclusively designed for numerical data processing, including some used in recommendation systems, natural language processing, and text analysis. A significant challenge in the embedding creation process is the use of "negative triples", which represent relationships not contained in the KG. These are essential in KG embedding models, as they enable them to distinguish between relationships that exist within the KG and those that do not. Upon analyzing solutions proposed in the literature and identifying areas for improvement, TransHI was conceived. This approach introduces an iterative method for generating high-quality embeddings. What sets TransHI apart from cutting-edge algorithms is its adoption of a hybrid approach in generating negative triples, amalgamating information from the KG's structure and its related ontologies, which are formal representations that delineate possible relationships within the KG's domain. This approach became necessary as ontologies might not encompass information pertaining to all entities and relationships within the graph. A hybrid approach that combines both ontologies and structure allows for a more uniform utilization of the KG's information. While the iterative training of embeddings has been previously explored in the literature, TransHI offers a novel mode of implementing it and a preprocessing phase that effectively facilitates the pipeline, especially in the case of KGs characterized by significant noise. The preprocessing phase represents the initial step of the TransHI methodology. Leveraging the ontologies associated with KGs, this phase aims to minimize noise within KGs by eliminating potentially erroneous triples and augmenting the number of truthful triples. Subsequently, the method transitions into an iterative phase. In the first iteration, an algorithm is employed to train the embeddings, generating negative triples in a hybrid manner: utilizing both the KG's structure and its related ontology. After this initial training, a classification algorithm is used to pinpoint information that was not adequately learned during training and, therefore, is not well-represented by the generated embeddings. This information is then harnessed in the creation of effective negatives during subsequent training iterations. The use of iterative training steps, combined with the hybrid approach employed during the initial training iteration, has proven to be particularly effective. Additionally, the preprocessing phase has shown to be highly beneficial, especially in refining noisy KGs. The results highlighted better performances of TransHI over two state-of-the-art algorithms, TransE and TransOWL, in the link prediction task. However, a potential risk of overfitting emerged when there is excessive integration of ontological knowledge into the KG during the preprocessing phase. This risk can be mitigated by using a different algorithm exclusively for the initial training iteration, as the overfitting is observed only with the method used during that phase. For subsequent iterations, the embedding algorithm of TransHI remains suitable. In summary, TransHI represents a promising advancement in the field of KG embeddings, offering a robust solution to the challenges characterizing contemporary embedding algorithms.
MA, YUE
SEGHOUANI, NACÉRA
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Nell’odierna epoca digitale, i grafi di conoscenza (KGs) offrono una soluzione per gestire l'abbondanza di dati, organizzando le informazioni in modo strutturato. Essi rappresentano le informazioni organizzandole in “triple”, cioè in relazioni che intercorrono tra entità, individui distinti o concetti del dominio in esame. Un’importante sfida nel processo di creazione degli embeddings è l'utilizzo di 'triple negative', ovvero triple che rappresentano relazioni non appartenenti al KG. Esse sono essenziali nei modelli di embedding di KGs, in quanto permettono loro di rappresentare la distinzione tra relazioni contenute nel KG e non. Analizzando le soluzioni avanzate dalla letteratura e identificando aree di miglioramento, è stato concepito TransHI. Questo approccio introduce un metodo iterativo per generare embeddings di alta qualità. La peculiarità che contraddistingue TransHI rispetto agli algoritmi all'avanguardia è l'adozione di un approccio ibrido nella generazione delle triple negative, amalgamando informazioni provenienti dalla struttura del KG e dalle ontologie ad esso correlate, rappresentazioni formali che circoscrivono le relazioni possibili nel dominio del KG.Tale approccio si è reso necessario in quanto le ontologie possono non contenere informazioni relative a tutte le entità e relazioni all’interno del grafo e un approccio ibrido che combini ontologie e struttura consente un utilizzo più uniforme delle informazioni del KG. Seppure il training iterativo di embeddings sia già stato utilizzato in letteratura, TransHI propone una nuova modalità per implementarlo ed una fase di preprocessing che consente di utilizzare efficacemente la pipeline in caso di KGs caratterizzati da molto rumore. Tale fase di preprocessing rappresenta la tappa iniziale della metodologia TransHI. Avvalendosi delle ontologie associate ai KGs, questa fase mira a minimizzare il rumore nei KGs, estirpando triple potenzialmente errate ed aumentando il numero di triple veritiere. Di seguito, il metodo procede entrando in una fase iterativa. Nella prima iterazione si adopera un algoritmo per addestrare gli embeddings che crea le triple negative in modo ibrido: sfruttando sia la struttura del KG che l’ontologia relativa. Dopo questo training iniziale, si sfrutta un algoritmo di classificazione per individuare le informazioni che non sono state apprese adeguatamente durante il training e pertanto non sono rappresentate bene dagli embeddings generati. Queste informazioni vengono poi impiegate nella creazione di negative efficaci durante iterazioni successive di training. L’utilizzo di steps di training in modo iterativo, combinato con l’approccio ibrido utilizzato durante la prima iterazione del training si è dimostrato particolarmente efficace. Anche la fase di pre-elaborazione si è manifestata assai proficua, in particolar modo nella raffinazione di KGs con molto rumore. I risultati hanno evidenziato prestazioni migliori di TransHI rispetto a due algoritmi all’avanguardia, TransE e TransOWL, nel compito di previsione dei collegamenti. Tuttavia, è emerso un potenziale rischio di overfitting in presenza di un'eccessiva integrazione di conoscenza ontologica nel KG durante la fase di pre-elaborazione. Tale rischio può essere mitigato adottando un algoritmo differente esclusivamente per la prima iterazione dell'addestramento, dal momento che l’overfitting si manifesta soltanto con il metodo impiegato in questo step. Per le iterazioni successive, l’algoritmo di embedding di TransHI risulta efficace. In sintesi, TransHI rappresenta un avanzamento promettente nel campo degli embeddings di KGs, proponendo una soluzione solida alle sfide che caratterizzano gli algoritmi di embedding contemporanei.
File allegati
File Dimensione Formato  
Executive_Summary_Mariani_Elisa.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary - Mariani Elisa
Dimensione 575 kB
Formato Adobe PDF
575 kB Adobe PDF   Visualizza/Apri
Master_Thesis_Mariani_Elisa.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Master Thesis - Mariani Elisa
Dimensione 2.6 MB
Formato Adobe PDF
2.6 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211057