The field of Topic Modeling has found many useful applications for itself in recent years. The growing number of researches in this field continuously try to improve the accuracy and coherence of the results. Some of the recent papers propose new methods that employ the vector embeddings that capture the semantics of the relations between words into the topic modeling process. \newline This work studies various dimensions of how knowledge graph embeddings affect topic modeling performance on textual content, and improves the state of the art with higher evaluation scores. The objective of the work is to determine which aspects of knowledge graph embedding processes in this context have a significant and positive impact in the accuracy of the extracted topics. In order to obtain a good understanding, all steps of the process are examined, which also include performing experiments with 2 variations of the knowledge base, 7 embedding methods, and 2 methods for incorporation into the topic modeling framework and also variations of topic number and embedding dimension.
La modellazione e l'estrapolazione degli argomenti di discussione (Topic) da testi e contenuti in generale hanno trovato molte utili applicazioni negli ultimi anni. Il crescente numero di ricerche in questo campo cerca continuamente di migliorare l'accuratezza e la coerenza degli argomenti estratti. Alcuni dei lavori recenti propongono nuovi metodi che applicano embeddings vettoriali che catturano la semantica delle relazioni tra le parole nel processo di modellazione dei topic. \newline Questo lavoro di tesi propone uno studio in varie direzioni di come influisce il modo in cui vengono creati gli embeddings sulla qualit\`a dei risultati. In particolare, si propone un metodo misto che sfrutta anche l'uso di grafi di conoscenza nella creazione della rappresentazione vettoriale e si studia il modo migliore per sfruttare questo asset. L'obiettivo è quindi ottimizzare l'uso del grafo della conoscenza in modo che abbia un impatto significativo e positivo sulla accuratezza degli argomenti estratti. Nell'ambito del lavoro vengono esaminate tutte le fasi del processo, che comprendono l'esecuzione di esperimenti con 2 varianti della knowledge base, 7 metodi di embedding e 2 metodi per l'integrazione dell'approccio nel framework di topic modeling.
Improving topic modeling for textual content with knowledge graph embeddings
ALTINEL, BIRANT
2017/2018
Abstract
The field of Topic Modeling has found many useful applications for itself in recent years. The growing number of researches in this field continuously try to improve the accuracy and coherence of the results. Some of the recent papers propose new methods that employ the vector embeddings that capture the semantics of the relations between words into the topic modeling process. \newline This work studies various dimensions of how knowledge graph embeddings affect topic modeling performance on textual content, and improves the state of the art with higher evaluation scores. The objective of the work is to determine which aspects of knowledge graph embedding processes in this context have a significant and positive impact in the accuracy of the extracted topics. In order to obtain a good understanding, all steps of the process are examined, which also include performing experiments with 2 variations of the knowledge base, 7 embedding methods, and 2 methods for incorporation into the topic modeling framework and also variations of topic number and embedding dimension.File | Dimensione | Formato | |
---|---|---|---|
2018_10_Altınel.pdf
accessibile in internet per tutti
Descrizione: Thesis Report
Dimensione
1.14 MB
Formato
Adobe PDF
|
1.14 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/143013