Abstractive text summarization with neural sequence-to-sequence models

Nowadays, we face a permanent increase in the amount of unstructured information in text form. That calls for methods of automatic text summarization. In this thesis, we concentrate on the task of single-document neural networks-based abstractive text summarization, obtaining major scientific contributions. First of all, we explored to what extent knowledge from a pre-trained language model can be beneficial for the task of abstractive summarization. To this end, we experimented with conditioning the encoder, the decoder and the generator of a Transformer-based neural model on the BERT language model. The BERT conditioning showed huge improvement when used in encoder and decoder, but was not useful for generator conditioning. Then, to alleviate the BERT`s input size limitation we proposed a method of BERT-windowing. It allows chunk-wise processing of texts longer than the 512 tokens and respectively extends the BERT applicability. We also explored how locality modeling, i.e., the explicit restriction of calculations to the local context, can affect the summarization ability of the Transformer. This was done by introducing a 2-dimensional convolutional self-attention into the first layers of the encoder. Our abstractive models were evaluated and compared with state-of-the-art models on the CNN/Daily Mail dataset using ROUGE scores. We additionally trained our models on the German SwissText dataset to demonstrate the suitability of our model to languages other than English. All our final models outperformed the Transformer-based baseline and showed their superiority in manual qualitative analysis. Based on the results achieved we developed a summarization system. As the BERT-based model showed better results than convolutional self-attention-based we decided to use it in the release version of our summarization system. Finally, we developed the extractive sentence-level summarization module to be able to handle significantly long documents that can not be efficiently processed by neural networks. This module is based on the TF-IDF sentence-level summarization, but uses BERT`s next sentence prediction capability to increase the consistency of the result summaries. In our summarization system, it is used as the first step of the summarization process before applying the abstractive model.

In questa tesi abbiamo esplorato fino a che punto la conoscenza di un modello linguistico pre-addestrato può essere utile per ottenere un sintesi astratta di un documento. A tal fine, abbiamo sperimentato il condizionamento dell'encoder, del decoder e del generatore di un modello neurale basato su Transformer utilizzando il modello di linguaggio noto come BERT. Il condizionamento attraverso BERT ha mostrato enormi miglioramenti se usato sull'encoder e sul decoder, ma non si è rivelato utile per il condizionamento del generatore. Successivamente, per ovviare alla limitazione sulle dimensioni di input per il modello BERT, abbiamo proposto un metodo basato su finestratura. Tale metodo, consente l'elaborazione di testi più lunghi dei 512 token tipici di BERT ed estende quindi l'applicabilità BERT. Abbiamo anche esplorato il modo in cui la località, cioè la limitazione dei calcoli al contesto locale, può influenzare la capacità di riepilogo del Transformer. Ciò è stato fatto introducendo un modello di attenzione convoluzionale bidimensionale nei primi strati dell'encoder. I vari modelli sono stati valutati e confrontati con modelli oggi stato dell'arte sui dataset CNN / Daily Mail utilizzando come metrica ROUGE. Abbiamo inoltre addestrato i nostri modelli sul dataset SwissText tedesco per dimostrare l'idoneità del nostro modello a lingue diverse dall'inglese. Tutti i nostri modelli finali hanno dimostrato un miglioramento notevole rispetto all'algoritmo di riferimento basato su Transformer e hanno mostrato la loro superiorità ad una analisi qualitativa manuale. Sulla base dei risultati raggiunti abbiamo sviluppato un sistema completo di sintesi astratta. Poiché il modello basato su BERT ha mostrato risultati migliori rispetto a quello locale basto su attenzione, abbiamo deciso di utilizzarlo nella versione di rilascio del nostro sistema di riepilogo. Infine, abbiamo sviluppato il modulo di riepilogo a livello di frase per gestire documenti significativamente lunghi che non possono essere elaborati in modo efficiente dai modelli neurali precedentemente descritti. Questo modulo si basa sul riepilogo a livello di frase tramite feature TF-IDF e utilizza la capacità di previsione della frase successiva di BERT per aumentare la coerenza nella sintesi finale. Nel nostro sistema di riepilogo, tal metodo viene utilizzato come primo passo del processo di riepilogo prima di applicare il modello neurale di sintesi.