Duration modelling for expressive text to speech

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.

Con i progressi del deep learning, sono state proposte molte nuove soluzioni basate sui neuroni nelle tecnologie di sintesi vocale. Recentemente, le tecniche neurali non autoregressive sono diventate sempre più popolari grazie alla loro velocità di inferenza e alla loro robustezza. Tuttavia, sebbene questi modelli abbiano iniziato a generare un parlato realistico, presentano ancora molte lacune nella generazione di un parlato naturale nello scenario espressivo. In questa tesi, per migliorare l’espressività dei modelli di sintesi vocale non autoregressivi, abbiamo studiato l’effetto della modellazione della durata, una componente essenziale dei modelli di sintesi vocale non autoregressivi. Abbiamo identificato e risolto le carenze dei modelli di durata esistenti in termini di espressività e controllabilità con due diversi modelli da noi proposti. In primo luogo, abbiamo aumentato la capacità di espressività e controllabilità del modello di base con la frequenza del parlato, lo stile, l’emozione e le informazioni semantiche. Poi abbiamo proposto un approccio gerarchico per migliorarlo ulteriormente. Infine, abbiamo proposto un nuovo metodo di analisi del testo per facilitare i compiti dei modelli text-to-speech e aumentare la capacità di apprendimento tra lingue diverse.

Duration modelling for expressive text to speech

TURKMEN, TALIP

2021/2022

Abstract

With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.

Scheda breve

Scheda completa

	Relatore
	
				CARMAN, MARK JAMES
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				6-ott-2022
			
	Anno accademico
	
				2021/2022
			
	Abstract in italiano
	
				Con i progressi del deep learning, sono state proposte molte nuove soluzioni
basate sui neuroni nelle tecnologie di sintesi vocale. Recentemente, le
tecniche neurali non autoregressive sono diventate sempre più popolari
grazie alla loro velocità di inferenza e alla loro robustezza. Tuttavia,
sebbene questi modelli abbiano iniziato a generare un parlato realistico,
presentano ancora molte lacune nella generazione di un parlato naturale
nello scenario espressivo. In questa tesi, per migliorare l’espressività dei
modelli di sintesi vocale non autoregressivi, abbiamo studiato l’effetto
della modellazione della durata, una componente essenziale dei modelli di
sintesi vocale non autoregressivi. Abbiamo identificato e risolto le carenze
dei modelli di durata esistenti in termini di espressività e controllabilità
con due diversi modelli da noi proposti. In primo luogo, abbiamo aumentato la capacità di espressività e controllabilità del modello di base con la
frequenza del parlato, lo stile, l’emozione e le informazioni semantiche.
Poi abbiamo proposto un approccio gerarchico per migliorarlo ulteriormente. Infine, abbiamo proposto un nuovo metodo di analisi del testo per
facilitare i compiti dei modelli text-to-speech e aumentare la capacità di
apprendimento tra lingue diverse.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Duration_Modelling_for_Expressive_TTS.pdf Open Access dal 20/09/2023 Descrizione: Thesis Dimensione 7.21 MB Formato Adobe PDF Visualizza/Apri	7.21 MB	Adobe PDF	Visualizza/Apri
Executive_Summary_Duration_Modelling_for_Expressive_TTS.pdf Open Access dal 20/09/2023 Descrizione: Executive Summary Dimensione 549.63 kB Formato Adobe PDF Visualizza/Apri	549.63 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/192048