The goal of this work is the design of a Text-To-Speech (TTS) tool, able to express emotions. In the thesis, we will present the various methodologies for the development of a classical speech synthesis. We will continue by analyzing the new models of TTS based on Neural Networks. We will see how elements such as prosody and intonation can be integrated within a Neural Network and which results can be obtained. Then, we will dive into expressive speech analysis and will justify several approaches through which we can influence expressiveness into neutral speech. We will continue with the presentation of our model created for the transfer of prosody able to make the spoken text very fluent and with some hints of emotion. The result obtained therefore makes us understand how one of the possible solutions for the implementation of a Text-To-Speech with emotions is through the transfer of these rhythmic elements of the accents. The model obtained can generate, given the input the sentence to be pronounced and the type of emotion, a very fluent and expressive voice.

L'obiettivo di questo lavoro è la progettazione di uno strumento Text-To-Speech (TTS), in grado di esprimere emozioni. Nella tesi presenteremo le varie metodologie per lo sviluppo di un Text-To-Speech classico. Proseguiremo analizzando i nuovi modelli di Text-To-Speech basati sulle Reti Neurali.Vedremo come elementi come la prosodia e l'intonazione possono essere integrati all'interno di una rete neurale e quali risultati possono essere ottenuti. Quindi, in particolare faremo un analisi espressiva del discorso e giustificheremo i diversi approcci attraverso i quali è possibile influenzare l'espressività in un discorso neutro. Proseguiremo con la presentazione di un nostro modello creato per il trasferimento della prosodia in grado di rendere il testo parlato molto fluente e con qualche accenno di emozione. Il risultato ottenuto quindi ci fa capire come una delle possibili soluzioni per l'implementazione di un Text-To-Speech con le emozioni sia attraverso il trasferimento di questi elementi ritmici degli accenti. Il modello ottenuto è in grado di generare, dato in input la frase da pronunciare e il tipo di emozione, della voce molto fluente ed espressiva.

Emotron : an expressive text-to-speech

SUKHOV, ALEXANDER;Regna, Cristian
2020/2021

Abstract

The goal of this work is the design of a Text-To-Speech (TTS) tool, able to express emotions. In the thesis, we will present the various methodologies for the development of a classical speech synthesis. We will continue by analyzing the new models of TTS based on Neural Networks. We will see how elements such as prosody and intonation can be integrated within a Neural Network and which results can be obtained. Then, we will dive into expressive speech analysis and will justify several approaches through which we can influence expressiveness into neutral speech. We will continue with the presentation of our model created for the transfer of prosody able to make the spoken text very fluent and with some hints of emotion. The result obtained therefore makes us understand how one of the possible solutions for the implementation of a Text-To-Speech with emotions is through the transfer of these rhythmic elements of the accents. The model obtained can generate, given the input the sentence to be pronounced and the type of emotion, a very fluent and expressive voice.
SCOTTI, VINCENZO
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-giu-2021
2020/2021
L'obiettivo di questo lavoro è la progettazione di uno strumento Text-To-Speech (TTS), in grado di esprimere emozioni. Nella tesi presenteremo le varie metodologie per lo sviluppo di un Text-To-Speech classico. Proseguiremo analizzando i nuovi modelli di Text-To-Speech basati sulle Reti Neurali.Vedremo come elementi come la prosodia e l'intonazione possono essere integrati all'interno di una rete neurale e quali risultati possono essere ottenuti. Quindi, in particolare faremo un analisi espressiva del discorso e giustificheremo i diversi approcci attraverso i quali è possibile influenzare l'espressività in un discorso neutro. Proseguiremo con la presentazione di un nostro modello creato per il trasferimento della prosodia in grado di rendere il testo parlato molto fluente e con qualche accenno di emozione. Il risultato ottenuto quindi ci fa capire come una delle possibili soluzioni per l'implementazione di un Text-To-Speech con le emozioni sia attraverso il trasferimento di questi elementi ritmici degli accenti. Il modello ottenuto è in grado di generare, dato in input la frase da pronunciare e il tipo di emozione, della voce molto fluente ed espressiva.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet per tutti

Descrizione: EMOTRON: an expressive TTS
Dimensione 11.44 MB
Formato Adobe PDF
11.44 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174916