Scientific publications are growing every year and the quantity of published papers increases the difficulty of finding the relevant works when searching for papers on a specific subject. Through Digital Libraries we can now access a massive amount of informations, but the categorization is often left to the authors and the queries are based on keywords. Citation networks have been used to improve the matches, but they depend on the quality of the reference provided during publication. Semantic search has gathered the attention of the research community for scientific corpora analysis because it overcomes the limitations of citations and meta-data analysis by grouping text based on its semantic meaning. Topic modeling is a semantic approach for recovering the topics by analyzing the word distribution of the documents. This work proposes an implementation of Time Evolving Dynamic Topic Model, a topic model which can describe the evolution of a non parametric number of topics over time, and a comparative analysis of a corpora on Software Engineering. We will give an overview of the state of research over topic models and we will introduce the topic model we developed and the algorithm we used for the comparison. The algorithm we employed for the comparison is an extension of the popular Latent Dirichlet Allocation algorithm. We will produce an analysis of artificial data to assess the quality of the results of the algorithms, then we will apply it to the papers submitted to the ICSE conference.

Il numero di pubblicazioni in ambito scientifico aumenta ogni anno e la quantità di articoli pubblicati rende difficoltosa la ricerca dei lavori più rilevanti. Grazie alle librerie digitali oggigiorno abbiamo accesso ad una enorme quantità di informazioni, ma la categorizzazione è spesso lasciata agli autori, mentre le ricerche sono basate su parole chiave. I grafi delle citazioni sono stati usati per migliorare i risultati, ma essi dipendono dalla qualità dei riferimenti forniti al momento della pubblicazione. L’analisi semantica ha attirato l’attenzione del mondo della ricerca per lo studio dei corpus di documenti scientifici poiché raggruppando i testi in base al proprio significato semantico supera le limitazioni delle analisi basate sulle citazioni e meta-dati. Il topic modeling è un’approcio semantico per identificare gli argomenti di documenti attraverso l’analisi della distribuzione delle parole. Questa tesi propone un’implementazione del Time Evolving Dynamic Topic Model, un topic model che descrive l’evoluzione di un numero non parametrico di topic sul tempo, ed un’analisi delle pubblicazioni nell’ambito di ingegneria del software. Forniremo una panoramica sullo stato della ricerca nell’ambito della modellazione dei topic e introdurremo il modello che abbiamo sviluppato e l’algoritmo che useremo per il confronto. Tale algoritmo di confronto è un’estensione del popolare algoritmo Latent Dirichlet Allocation. Mostreremo i risultati di un’analisi su documenti generati artificialmente per valutare la qualità dei risultati degli algoritmi, quindi li applicheremo alle pubblicazioni della conferenza ICSE.

Topic modeling : an approach to topic evolution discovery and a software engineering study case

ZOFFOLI, FRANCESCO
2014/2015

Abstract

Scientific publications are growing every year and the quantity of published papers increases the difficulty of finding the relevant works when searching for papers on a specific subject. Through Digital Libraries we can now access a massive amount of informations, but the categorization is often left to the authors and the queries are based on keywords. Citation networks have been used to improve the matches, but they depend on the quality of the reference provided during publication. Semantic search has gathered the attention of the research community for scientific corpora analysis because it overcomes the limitations of citations and meta-data analysis by grouping text based on its semantic meaning. Topic modeling is a semantic approach for recovering the topics by analyzing the word distribution of the documents. This work proposes an implementation of Time Evolving Dynamic Topic Model, a topic model which can describe the evolution of a non parametric number of topics over time, and a comparative analysis of a corpora on Software Engineering. We will give an overview of the state of research over topic models and we will introduce the topic model we developed and the algorithm we used for the comparison. The algorithm we employed for the comparison is an extension of the popular Latent Dirichlet Allocation algorithm. We will produce an analysis of artificial data to assess the quality of the results of the algorithms, then we will apply it to the papers submitted to the ICSE conference.
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2014/2015
Il numero di pubblicazioni in ambito scientifico aumenta ogni anno e la quantità di articoli pubblicati rende difficoltosa la ricerca dei lavori più rilevanti. Grazie alle librerie digitali oggigiorno abbiamo accesso ad una enorme quantità di informazioni, ma la categorizzazione è spesso lasciata agli autori, mentre le ricerche sono basate su parole chiave. I grafi delle citazioni sono stati usati per migliorare i risultati, ma essi dipendono dalla qualità dei riferimenti forniti al momento della pubblicazione. L’analisi semantica ha attirato l’attenzione del mondo della ricerca per lo studio dei corpus di documenti scientifici poiché raggruppando i testi in base al proprio significato semantico supera le limitazioni delle analisi basate sulle citazioni e meta-dati. Il topic modeling è un’approcio semantico per identificare gli argomenti di documenti attraverso l’analisi della distribuzione delle parole. Questa tesi propone un’implementazione del Time Evolving Dynamic Topic Model, un topic model che descrive l’evoluzione di un numero non parametrico di topic sul tempo, ed un’analisi delle pubblicazioni nell’ambito di ingegneria del software. Forniremo una panoramica sullo stato della ricerca nell’ambito della modellazione dei topic e introdurremo il modello che abbiamo sviluppato e l’algoritmo che useremo per il confronto. Tale algoritmo di confronto è un’estensione del popolare algoritmo Latent Dirichlet Allocation. Mostreremo i risultati di un’analisi su documenti generati artificialmente per valutare la qualità dei risultati degli algoritmi, quindi li applicheremo alle pubblicazioni della conferenza ICSE.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Francesco_Zoffoli.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis text
Dimensione 9.41 MB
Formato Adobe PDF
9.41 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/120990