Emotron : an expressive text-to-speech

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The goal of this work is the design of a Text-To-Speech (TTS) tool, able to express emotions. In the thesis, we will present the various methodologies for the development of a classical speech synthesis. We will continue by analyzing the new models of TTS based on Neural Networks. We will see how elements such as prosody and intonation can be integrated within a Neural Network and which results can be obtained. Then, we will dive into expressive speech analysis and will justify several approaches through which we can influence expressiveness into neutral speech. We will continue with the presentation of our model created for the transfer of prosody able to make the spoken text very fluent and with some hints of emotion. The result obtained therefore makes us understand how one of the possible solutions for the implementation of a Text-To-Speech with emotions is through the transfer of these rhythmic elements of the accents. The model obtained can generate, given the input the sentence to be pronounced and the type of emotion, a very fluent and expressive voice.

L'obiettivo di questo lavoro è la progettazione di uno strumento Text-To-Speech (TTS), in grado di esprimere emozioni. Nella tesi presenteremo le varie metodologie per lo sviluppo di un Text-To-Speech classico. Proseguiremo analizzando i nuovi modelli di Text-To-Speech basati sulle Reti Neurali.Vedremo come elementi come la prosodia e l'intonazione possono essere integrati all'interno di una rete neurale e quali risultati possono essere ottenuti. Quindi, in particolare faremo un analisi espressiva del discorso e giustificheremo i diversi approcci attraverso i quali è possibile influenzare l'espressività in un discorso neutro. Proseguiremo con la presentazione di un nostro modello creato per il trasferimento della prosodia in grado di rendere il testo parlato molto fluente e con qualche accenno di emozione. Il risultato ottenuto quindi ci fa capire come una delle possibili soluzioni per l'implementazione di un Text-To-Speech con le emozioni sia attraverso il trasferimento di questi elementi ritmici degli accenti. Il modello ottenuto è in grado di generare, dato in input la frase da pronunciare e il tipo di emozione, della voce molto fluente ed espressiva.

Emotron : an expressive text-to-speech

SUKHOV, ALEXANDER;Regna, Cristian

2020/2021

Abstract

The goal of this work is the design of a Text-To-Speech (TTS) tool, able to express emotions. In the thesis, we will present the various methodologies for the development of a classical speech synthesis. We will continue by analyzing the new models of TTS based on Neural Networks. We will see how elements such as prosody and intonation can be integrated within a Neural Network and which results can be obtained. Then, we will dive into expressive speech analysis and will justify several approaches through which we can influence expressiveness into neutral speech. We will continue with the presentation of our model created for the transfer of prosody able to make the spoken text very fluent and with some hints of emotion. The result obtained therefore makes us understand how one of the possible solutions for the implementation of a Text-To-Speech with emotions is through the transfer of these rhythmic elements of the accents. The model obtained can generate, given the input the sentence to be pronounced and the type of emotion, a very fluent and expressive voice.

Scheda breve

Scheda completa

	Relatore
	
				SBATTELLA, LICIA
			
	Correlatore/i
	
				SCOTTI, VINCENZO
TEDESCO, ROBERTO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				9-giu-2021
			
	Anno accademico
	
				2020/2021
			
	Abstract in italiano
	
				L'obiettivo di questo lavoro è la progettazione di uno strumento Text-To-Speech (TTS), in grado di esprimere emozioni. Nella tesi presenteremo le varie metodologie per lo sviluppo di un Text-To-Speech classico. Proseguiremo analizzando  i nuovi modelli di Text-To-Speech basati sulle Reti Neurali.Vedremo come elementi come la prosodia e l'intonazione possono essere integrati all'interno di una rete neurale e quali risultati possono essere ottenuti. Quindi, in particolare faremo un analisi espressiva del discorso e giustificheremo i diversi approcci attraverso i quali è possibile influenzare l'espressività in un discorso neutro. Proseguiremo con la presentazione di un nostro modello creato per il trasferimento della prosodia in grado di rendere il testo parlato molto fluente e con qualche accenno di emozione. Il risultato ottenuto quindi ci fa capire come una delle possibili soluzioni per l'implementazione di un Text-To-Speech con le emozioni sia attraverso il trasferimento di questi elementi ritmici degli accenti. Il modello ottenuto è in grado di generare, dato in input la frase da pronunciare e il tipo di emozione, della voce molto fluente ed espressiva.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Thesis.pdf accessibile in internet per tutti Descrizione: EMOTRON: an expressive TTS Dimensione 11.44 MB Formato Adobe PDF Visualizza/Apri	11.44 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174916