Thanks to recent technological advancements, in the last few years, projects aimed at knowledge organization, like DBpedia and the Google's Knowledge Graph, have been developed, integrating data retrieved from many sources and making it available in both human-friendly and machine-understandable formats. Such resources, despite being quite large, are still far from complete and are not designed to deal with the continuous evolution of the world knowledge. For instance, social media, that could provide near real-time information on new knowledge, have not yet being considered as potential data sources, mainly because their content is difficult to automatically understand and integrate in the knowledge bases. In this work, we present a method to extract new knowledge from social content, representing it in such a way to be suitable for easy integration in the existing knowledge bases. Knowledge retrieved from such content is modeled as a list of triples, each expressing the existence of a given relation between two entities. Our approach implements a procedure that, given a text, applies appropriate pre-processing, then extracts the relations and, eventually, the entities linked by them. We propose a simple rule-based approach as a baseline and improve over that with a method built on top of NLP and machine learning methods. Our approach is designed to work on domain-specific social content, and can optionally exploit expert-provided domain knowledge, to improve the obtained results. Experiments with social content retrieved from Twitter, belonging to different domain-specific application scenarios, like fashion and chess, show promising results, in terms of both precision and recall. Moreover, the system shows good scalability properties with respect to an increase in the amount of available data.

Negli ultimi anni, sono stati realizzati vari progetti tesi all'organizzazione della conoscenza, come DBpedia e il Knowledge Graph di Google, che integrano dati raccolti da numerose sorgenti e li rendono disponibili in formati comprensibili sia per esseri umani che per elaboratori elettronici. Tali risorse, per quanto siano piuttosto ampie, sono ancora lontane dal potersi definire complete, e non sono progettate per gestire la continua evoluzione della conoscenza che si verifica ogni giorno. Tra le altre cose, non si sono ancora considerate come potenziali sorgenti di dati i media sociali, che pure potrebbero fornire informazioni su nuova conoscenza quasi in tempo reale, principalmente perché il loro contenuto è difficile da comprendere e integrare nelle basi di conoscenza in modo automatico. In questa tesi, presentiamo un metodo per estrarre nuova conoscenza dal contenuto presente sui media sociali, rappresentandola in una forma adatta per una facile integrazione nelle basi di conoscenza esistenti. Tale forma è quella della tripla, esprimente l'esistenza di una data relazione tra due entità. Il nostro approccio implementa una procedura che è in grado, dopo un passo di preelaborazione, di estrarre da un testo prima le relazioni e, successivamente, le entità collegate tramite esse. Come punto di partenza, proponiamo un semplice approccio fondato su regole, successivamente migliorato con un metodo basato sulla combinazione dell'elaborazione del linguaggio naturale e dell'apprendimento automatico. Il nostro sistema è progettato per lavorare su contenuto proveniente dai media sociali e appartenente ad un dato dominio, e può, opzionalmente, fare uso di informazioni in merito fornite da un esperto, per migliorare i risultati finali. Gli esperimenti, eseguiti con contenuto recuperato da Twitter facente riferimento a diversi scenari applicativi, come moda e scacchi, mostrano risultati incoraggianti, sia in termini di precisione, che di richiamo. Inoltre, il sistema mostra buone proprietà di scalabilità rispetto all'incremento della quantità di dati disponibili.

Extraction of relations between entities from human-generated content on social networks

ADRIANI, MARCO
2016/2017

Abstract

Thanks to recent technological advancements, in the last few years, projects aimed at knowledge organization, like DBpedia and the Google's Knowledge Graph, have been developed, integrating data retrieved from many sources and making it available in both human-friendly and machine-understandable formats. Such resources, despite being quite large, are still far from complete and are not designed to deal with the continuous evolution of the world knowledge. For instance, social media, that could provide near real-time information on new knowledge, have not yet being considered as potential data sources, mainly because their content is difficult to automatically understand and integrate in the knowledge bases. In this work, we present a method to extract new knowledge from social content, representing it in such a way to be suitable for easy integration in the existing knowledge bases. Knowledge retrieved from such content is modeled as a list of triples, each expressing the existence of a given relation between two entities. Our approach implements a procedure that, given a text, applies appropriate pre-processing, then extracts the relations and, eventually, the entities linked by them. We propose a simple rule-based approach as a baseline and improve over that with a method built on top of NLP and machine learning methods. Our approach is designed to work on domain-specific social content, and can optionally exploit expert-provided domain knowledge, to improve the obtained results. Experiments with social content retrieved from Twitter, belonging to different domain-specific application scenarios, like fashion and chess, show promising results, in terms of both precision and recall. Moreover, the system shows good scalability properties with respect to an increase in the amount of available data.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-apr-2018
2016/2017
Negli ultimi anni, sono stati realizzati vari progetti tesi all'organizzazione della conoscenza, come DBpedia e il Knowledge Graph di Google, che integrano dati raccolti da numerose sorgenti e li rendono disponibili in formati comprensibili sia per esseri umani che per elaboratori elettronici. Tali risorse, per quanto siano piuttosto ampie, sono ancora lontane dal potersi definire complete, e non sono progettate per gestire la continua evoluzione della conoscenza che si verifica ogni giorno. Tra le altre cose, non si sono ancora considerate come potenziali sorgenti di dati i media sociali, che pure potrebbero fornire informazioni su nuova conoscenza quasi in tempo reale, principalmente perché il loro contenuto è difficile da comprendere e integrare nelle basi di conoscenza in modo automatico. In questa tesi, presentiamo un metodo per estrarre nuova conoscenza dal contenuto presente sui media sociali, rappresentandola in una forma adatta per una facile integrazione nelle basi di conoscenza esistenti. Tale forma è quella della tripla, esprimente l'esistenza di una data relazione tra due entità. Il nostro approccio implementa una procedura che è in grado, dopo un passo di preelaborazione, di estrarre da un testo prima le relazioni e, successivamente, le entità collegate tramite esse. Come punto di partenza, proponiamo un semplice approccio fondato su regole, successivamente migliorato con un metodo basato sulla combinazione dell'elaborazione del linguaggio naturale e dell'apprendimento automatico. Il nostro sistema è progettato per lavorare su contenuto proveniente dai media sociali e appartenente ad un dato dominio, e può, opzionalmente, fare uso di informazioni in merito fornite da un esperto, per migliorare i risultati finali. Gli esperimenti, eseguiti con contenuto recuperato da Twitter facente riferimento a diversi scenari applicativi, come moda e scacchi, mostrano risultati incoraggianti, sia in termini di precisione, che di richiamo. Inoltre, il sistema mostra buone proprietà di scalabilità rispetto all'incremento della quantità di dati disponibili.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Adriani.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Text of the thesis
Dimensione 2.37 MB
Formato Adobe PDF
2.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/139038