With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.

Con i progressi del deep learning, sono state proposte molte nuove soluzioni basate sui neuroni nelle tecnologie di sintesi vocale. Recentemente, le tecniche neurali non autoregressive sono diventate sempre più popolari grazie alla loro velocità di inferenza e alla loro robustezza. Tuttavia, sebbene questi modelli abbiano iniziato a generare un parlato realistico, presentano ancora molte lacune nella generazione di un parlato naturale nello scenario espressivo. In questa tesi, per migliorare l’espressività dei modelli di sintesi vocale non autoregressivi, abbiamo studiato l’effetto della modellazione della durata, una componente essenziale dei modelli di sintesi vocale non autoregressivi. Abbiamo identificato e risolto le carenze dei modelli di durata esistenti in termini di espressività e controllabilità con due diversi modelli da noi proposti. In primo luogo, abbiamo aumentato la capacità di espressività e controllabilità del modello di base con la frequenza del parlato, lo stile, l’emozione e le informazioni semantiche. Poi abbiamo proposto un approccio gerarchico per migliorarlo ulteriormente. Infine, abbiamo proposto un nuovo metodo di analisi del testo per facilitare i compiti dei modelli text-to-speech e aumentare la capacità di apprendimento tra lingue diverse.

Duration modelling for expressive text to speech

TURKMEN, TALIP
2021/2022

Abstract

With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-ott-2022
2021/2022
Con i progressi del deep learning, sono state proposte molte nuove soluzioni basate sui neuroni nelle tecnologie di sintesi vocale. Recentemente, le tecniche neurali non autoregressive sono diventate sempre più popolari grazie alla loro velocità di inferenza e alla loro robustezza. Tuttavia, sebbene questi modelli abbiano iniziato a generare un parlato realistico, presentano ancora molte lacune nella generazione di un parlato naturale nello scenario espressivo. In questa tesi, per migliorare l’espressività dei modelli di sintesi vocale non autoregressivi, abbiamo studiato l’effetto della modellazione della durata, una componente essenziale dei modelli di sintesi vocale non autoregressivi. Abbiamo identificato e risolto le carenze dei modelli di durata esistenti in termini di espressività e controllabilità con due diversi modelli da noi proposti. In primo luogo, abbiamo aumentato la capacità di espressività e controllabilità del modello di base con la frequenza del parlato, lo stile, l’emozione e le informazioni semantiche. Poi abbiamo proposto un approccio gerarchico per migliorarlo ulteriormente. Infine, abbiamo proposto un nuovo metodo di analisi del testo per facilitare i compiti dei modelli text-to-speech e aumentare la capacità di apprendimento tra lingue diverse.
File allegati
File Dimensione Formato  
Duration_Modelling_for_Expressive_TTS.pdf

Open Access dal 20/09/2023

Descrizione: Thesis
Dimensione 7.21 MB
Formato Adobe PDF
7.21 MB Adobe PDF Visualizza/Apri
Executive_Summary_Duration_Modelling_for_Expressive_TTS.pdf

Open Access dal 20/09/2023

Descrizione: Executive Summary
Dimensione 549.63 kB
Formato Adobe PDF
549.63 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/192048