Automatic Text Summarization (ATS) is one of the most difficult Natural Language Processing (NLP) tasks. It is commonly divided into two categories: extractive summarization, which selects the most significant sentences, and abstractive summarization, that generates new text. Research on ATS, especially in the abstractive case, still has not found a good solution: a system capable of producing coherent and readable summaries. In this prospective, we propose in this work a method to perform abstractive and extractive summarization with the aim of improving readability and performances in ATS. The abstractive method we propose is based on the Predicate Argument Structure (PAS) of the sentence. We will show that it is possible to extract small units of meaning from a sentence leveraging the relations between each predicate and its arguments. We employ Deep Learning (DL) techniques to train a model to predict a ranking over our sentences (or sub-sentences). To perform this task, we embed the content of each sentence using six statistical and semantic features plus the sentence embeddings, derived using a pretrained model. The presented model can be adapted to different domains by changing the features, to reflect specific characteristic of interest. We trained our model using news articles from DUC and NYT datasets; we obtained good results in terms of ROUGE recall metric compared with state-of-the-art ATS algorithms.

La generazione automatica del riassunto è uno dei problemi più complessi nell’Elaborazione del Linguaggio Naturale. È comunemente divisa in due categorie: generazione di riassunti estrattivi, che seleziona le frasi più significative, e generazione di riassunti astrattivi, che produce testo nuovo. La ricerca in questo campo, specialmente per la realizzazione dei riassunti astrattivi, non ha ancora trovato una buona soluzione, cioè un sistema che produca riassunti coerenti e leggibili. In questa prospettiva, il presente lavoro vuole proporre un metodo per eseguire riassunti astrattivi ed estrattivi, con lo scopo di ottenere migliori performance e leggibilità rispetto ai sistemi attuali. Il metodo astrattivo proposto è basato sulla Struttura Predicato Argomento della frase. Si mostra la possibilità di estrarre brevi unità semantiche da una frase, facendo uso delle relazioni che intercorrono tra ogni predicato e i suoi argomenti. Sono state impiegate tecniche di Deep Learning per addestrare un modello a predire una classifica delle frasi (o sotto frasi). Per fare ciò viene incorporato il contenuto di ogni frase in sei caratteristiche numeriche, sintattiche e semantiche, insieme a sentence embedding derivati da un modello pre-addestrato. Il modello che viene presentato può essere adattato a diversi domini, cambiandone le caratteristiche per riflettere aspetti del testo particolarmente significativi. Il nostro modello è stato addestrato usando articoli di giornale dai corpora DUC e NYT. Abbiamo ottenuto buoni risultati riguardo alla metrica ROUGE recall, in confronto allo stato dell’arte degli algoritmi per la generazione automatica del riassunto.

DeepSumm : a deep learning approach to text summarization

CAMPO, RICCARDO
2017/2018

Abstract

Automatic Text Summarization (ATS) is one of the most difficult Natural Language Processing (NLP) tasks. It is commonly divided into two categories: extractive summarization, which selects the most significant sentences, and abstractive summarization, that generates new text. Research on ATS, especially in the abstractive case, still has not found a good solution: a system capable of producing coherent and readable summaries. In this prospective, we propose in this work a method to perform abstractive and extractive summarization with the aim of improving readability and performances in ATS. The abstractive method we propose is based on the Predicate Argument Structure (PAS) of the sentence. We will show that it is possible to extract small units of meaning from a sentence leveraging the relations between each predicate and its arguments. We employ Deep Learning (DL) techniques to train a model to predict a ranking over our sentences (or sub-sentences). To perform this task, we embed the content of each sentence using six statistical and semantic features plus the sentence embeddings, derived using a pretrained model. The presented model can be adapted to different domains by changing the features, to reflect specific characteristic of interest. We trained our model using news articles from DUC and NYT datasets; we obtained good results in terms of ROUGE recall metric compared with state-of-the-art ATS algorithms.
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
La generazione automatica del riassunto è uno dei problemi più complessi nell’Elaborazione del Linguaggio Naturale. È comunemente divisa in due categorie: generazione di riassunti estrattivi, che seleziona le frasi più significative, e generazione di riassunti astrattivi, che produce testo nuovo. La ricerca in questo campo, specialmente per la realizzazione dei riassunti astrattivi, non ha ancora trovato una buona soluzione, cioè un sistema che produca riassunti coerenti e leggibili. In questa prospettiva, il presente lavoro vuole proporre un metodo per eseguire riassunti astrattivi ed estrattivi, con lo scopo di ottenere migliori performance e leggibilità rispetto ai sistemi attuali. Il metodo astrattivo proposto è basato sulla Struttura Predicato Argomento della frase. Si mostra la possibilità di estrarre brevi unità semantiche da una frase, facendo uso delle relazioni che intercorrono tra ogni predicato e i suoi argomenti. Sono state impiegate tecniche di Deep Learning per addestrare un modello a predire una classifica delle frasi (o sotto frasi). Per fare ciò viene incorporato il contenuto di ogni frase in sei caratteristiche numeriche, sintattiche e semantiche, insieme a sentence embedding derivati da un modello pre-addestrato. Il modello che viene presentato può essere adattato a diversi domini, cambiandone le caratteristiche per riflettere aspetti del testo particolarmente significativi. Il nostro modello è stato addestrato usando articoli di giornale dai corpora DUC e NYT. Abbiamo ottenuto buoni risultati riguardo alla metrica ROUGE recall, in confronto allo stato dell’arte degli algoritmi per la generazione automatica del riassunto.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_Campo_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 1.22 MB
Formato Adobe PDF
1.22 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144801