A text segmentation technique based on language models

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In an era in which huge amounts of data are generated every day, it becomes necessary to be able to manipulate them in order to obtain valid and usable information. Processing natural language has always been a central topic of artificial intelligence, both for the fundamental role that covers language in everyday life and for the enormous potential it offers. This thesis aims to analyze the potential of a recent model of language representation called BERT, in particular in a subset of the so-called Natural Language Processing, called Text Segmentation. Text Segmentation covers a fundamental role in Natural Language Processing since it can be integrated with a vast multitude of other functions belonging to Natural Language Processing, such as Text Summarization or image analysis. BERT has proved to be a very powerful tool that allows obtaining discrete results even with a small amount of data for medium segments, while, for rather large and generic segments, the results are scarce. For this reason, the approach of this thesis is based on the use of BERT to be able to segment the text according to two different scenarios: data coming from news articles, characterized by segments of average length, and data coming from books, whose chapters appear to be segments of considerable size.

In un’era in cui ogni giorno vengono generate ingenti quantità di dati, diventa necessario riuscire a manipolarli in modo da ottenere delle informazioni valide e utilizzabili. Processare il linguaggio naturale è sempre stato un argomento di centrale interesse dell’intelligenza artificiale, sia per il ruolo fondamentale che copre il linguaggio nella vita di tutti i giorni, sia per le enormi potenzialità che offre. Questa tesi si pone come obiettivo quello di analizzare le potenzialità di un recente modello di rappresentazione del linguaggio chiamato BERT, in particolare in un sottoinsieme del cosiddetto Natural Language Processing (elaborazione del linguaggio naturale), chiamato Segmentazione del Testo. La Segmentazione del Testo copre un ruolo fondamentale nel Natural Language Processing, poiché può essere integrata a una vasta moltitudine di altre funzioni appartenenti al Natural Language Processing, come al Text Summarization (riassunto del testo) o all’analisi di immagini. BERT si è dimostrato essere uno strumento molto potente che permette di ottenere discreti risultati anche con un’esigua quantità di dati per segmenti medi, mentre, per segmenti piuttosto grandi e generici, i risultati sono scarsi. Per questo motivo, l’approccio di questa tesi si basa sull’utilizzo di BERT per poter segmentare il testo secondo due diversi scenari: dati provenienti da articoli di news, caratterizzato da segmenti di lunghezza media, e dati provenienti da libri, i cui capitoli risultano essere segmenti di dimensione notevole.

A text segmentation technique based on language models

RANZATO, PHIL LODOVICO RICCARDO

2018/2019

Abstract

In an era in which huge amounts of data are generated every day, it becomes necessary to be able to manipulate them in order to obtain valid and usable information. Processing natural language has always been a central topic of artificial intelligence, both for the fundamental role that covers language in everyday life and for the enormous potential it offers. This thesis aims to analyze the potential of a recent model of language representation called BERT, in particular in a subset of the so-called Natural Language Processing, called Text Segmentation. Text Segmentation covers a fundamental role in Natural Language Processing since it can be integrated with a vast multitude of other functions belonging to Natural Language Processing, such as Text Summarization or image analysis. BERT has proved to be a very powerful tool that allows obtaining discrete results even with a small amount of data for medium segments, while, for rather large and generic segments, the results are scarce. For this reason, the approach of this thesis is based on the use of BERT to be able to segment the text according to two different scenarios: data coming from news articles, characterized by segments of average length, and data coming from books, whose chapters appear to be segments of considerable size.

Scheda breve

Scheda completa

	Relatore
	
				BRAMBILLA, MARCO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				17-dic-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				In un’era in cui ogni giorno vengono generate ingenti quantità di dati, diventa necessario riuscire a manipolarli in modo da ottenere delle informazioni valide e utilizzabili. Processare il linguaggio naturale è sempre stato un argomento di centrale interesse dell’intelligenza artificiale, sia per il ruolo fondamentale che copre il linguaggio nella vita di tutti i giorni, sia per le enormi potenzialità che offre. 
Questa tesi si pone come obiettivo quello di analizzare le potenzialità di un recente modello di rappresentazione del linguaggio chiamato BERT, in particolare in un sottoinsieme del cosiddetto Natural Language Processing (elaborazione del linguaggio naturale), chiamato Segmentazione del Testo. La Segmentazione del Testo copre un ruolo fondamentale nel Natural Language Processing, poiché può essere integrata a una vasta moltitudine di altre funzioni appartenenti al Natural Language Processing, come al Text Summarization (riassunto del testo) o all’analisi di immagini. 
BERT si è dimostrato essere uno strumento molto potente che permette di ottenere discreti risultati anche con un’esigua quantità di dati per segmenti medi, mentre, per segmenti piuttosto grandi e generici, i risultati sono scarsi. Per questo motivo, l’approccio di questa tesi si basa sull’utilizzo di BERT per poter segmentare il testo secondo due diversi scenari: dati provenienti da articoli di news, caratterizzato da segmenti di lunghezza media, e dati provenienti da libri, i cui capitoli risultano essere segmenti di dimensione notevole.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Thesis_PhilRanzato.pdf accessibile in internet per tutti Descrizione: Testo della Tesi Dimensione 2.14 MB Formato Adobe PDF Visualizza/Apri	2.14 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150632