Entity linking via large-scale graph analytics

Entity Linking is the task of mapping words of interest (usually Named Entitys (NEs), e.g. names of persons, locations, companies, etc. . . ) from an input text document to corresponding unique entities in a target Knowledge Base (KB). Entity Linking is a critical step in many elds of application, such as text analysis, recommender systems, semantic search and chatbots, as it allows to obtain a high-level representation of text in which relevant concepts are captured in a structured form (chapter 1). Although deceptively simple, an Entity Linking system has to face many challenges, from ambiguity in text to scalability and performance. Most of the existing research on the topic is based on Natural Language Processing (NLP) and supervised models, which proved to have little flexibility and generalization capabilities. Recent Entity Linking algorithms began to leverage the graph-like structure of large Knowledge Bases like Wikipedia to vastly improve the quality of results. Indeed, analyzing the topology of Knowledge Graphs (KGs) allows extracting information and insights that would not be available through text analysis alone (chapters 2 and 3). In this work, developed in collaboration with Oracle Labs, we implement and extend unsupervised state-of-the-art Entity Linking systems that exploit large Knowledge Graphs. We developed a novel Entity Linking algorithm, called PageRank Linking (PRL), that makes use of variants of PageRank (PR) to quickly analyze input documents and provide high-quality Entity Linking (chapter 4). To provide real-time analysis of large documents, we make use of the Oracle Parallel Graph AnalytiX (PGX) toolkit and of Green-Marl (GM), a highly parallelized Domain-specific Language (DSL) for in-memory graph analytics. We evaluate our Entity Linking algorithm on different datasets to show its effectiveness in analyzing heterogeneous documents that mimic real life queries on news articles and social media posts. We discuss the performances of this work versus state-of-the-art Entity Linking systems and measure significant improvements in many scenarios (chapter 5). Additionally, we briefly introduce a novel Entity Linking algorithm based on neural vertex embeddings, and present preliminary but promising results obtained against PRL and other Entity Linking algorithms (chapter 6).

L'Entity Linking é il compito di collegare parole di interesse (solitamente Named Entitys (NEs), cioé nomi di persone, luoghi, organizzazioni, etc. . . ) da un testo di partenza a entità univoche contenute in una determinata Knowledge Base (KB). L'Entity Linking é un componente critico in molti ambiti applicativi, come l'analisi di testi, i recommender system, la ricerca semantica e i chatbot, in quanto consente di ottenere rappresentazioni di alto livello del testo di partenza in cui concetti rilevanti all'applicazione sono espressi in una forma strutturata (chapter 1). Sebbene questo compito sia in apparenza semplice, un sistema di Entity Linking deve fronteggiare molte diffcoltà, dall'ambiguità dei testi alla scalabilità e alle performance. Gran parte della ricerca sull'argomento é basata su Natural Language Processing (NLP) e modelli supervisionati, che hanno dimostrato di avere scarsa flessibilità e capacità di generalizzazione. Recentemente, i sistemi di Entity Linking hanno iniziato a sfruttare la struttura a grafo di grandi Knowledge Bases come Wikipedia per migliorare drasticamente i propri risultati. Infatti, analizzare la topologia di Knowledge Graphs (KGs) consente di estrarre informazioni che non sarebbe possibile ricavare dalla sola analisi del testo (chapters 2 and 3). In questo lavoro, sviluppato in collaborazione con Oracle Labs, abbiamo implementato ed esteso sistemi allo stato dell'arte che eseguono Entity Linking non supervisionato tramite Knowledge Graphs di grandi dimensioni. Abbiamo inoltre ideato ed sviluppato un nuovo algoritmo di Entity Linking, chiamato PageRank Linking (PRL), che fa uso di varianti di PageRank (PR) per analizzare rapidamente documenti in input ed eseguire Entity Linking di alta qualità (chapter 4). Per analizzare in tempo reale grandi documenti facciamo uso di Oracle Parallel Graph AnalytiX (PGX) e di Green-Marl (GM), un Domain-specific Language (DSL) altamente parallelizzato e specializzato nell'analisi di grafi caricati in memoria. Il nostro algoritmo di Entity Linking é valutato su svariati dataset che dimostrano la sua efficacia nell'analisi di documenti eterogenei, il cui contenuto simula query reali su articoli di giornale e post nei social media. I risultati del nostro lavoro sono confrontati con altri sistemi di Entity Linking allo stato dell'arte, e verifichiamo un miglioramento significativo in molteplici casi (chapter 5). Inoltre, introduciamo brevemente un nuovo algoritmo di Entity Linking basato su embedding neurali di vertici, e presentiamo incoraggianti risultati preliminari, tramite un confronto con PRL e altri sistemi di Entity Linking (chapter 6)