With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.
Con i progressi del deep learning, sono state proposte molte nuove soluzioni basate sui neuroni nelle tecnologie di sintesi vocale. Recentemente, le tecniche neurali non autoregressive sono diventate sempre più popolari grazie alla loro velocità di inferenza e alla loro robustezza. Tuttavia, sebbene questi modelli abbiano iniziato a generare un parlato realistico, presentano ancora molte lacune nella generazione di un parlato naturale nello scenario espressivo. In questa tesi, per migliorare l’espressività dei modelli di sintesi vocale non autoregressivi, abbiamo studiato l’effetto della modellazione della durata, una componente essenziale dei modelli di sintesi vocale non autoregressivi. Abbiamo identificato e risolto le carenze dei modelli di durata esistenti in termini di espressività e controllabilità con due diversi modelli da noi proposti. In primo luogo, abbiamo aumentato la capacità di espressività e controllabilità del modello di base con la frequenza del parlato, lo stile, l’emozione e le informazioni semantiche. Poi abbiamo proposto un approccio gerarchico per migliorarlo ulteriormente. Infine, abbiamo proposto un nuovo metodo di analisi del testo per facilitare i compiti dei modelli text-to-speech e aumentare la capacità di apprendimento tra lingue diverse.
Duration modelling for expressive text to speech
TURKMEN, TALIP
2021/2022
Abstract
With the advances in deep learning, many new neural-based solutions have been proposed in speech-synthesis technologies. Recently, nonautoregressive neural techniques have become increasingly popular due to their fast inference and robustness. However, although these models have started to generate realistic speech, they still have many shortcomings in generating natural speech in the expressive scenario. In this thesis, to improve the expressivity of Non-Autoregressive speech synthesis models, we have investigated the effect of duration modelling, an essential component of Non-Autoregressive text-to-speech models. We have identified and solved the shortcomings of existing duration models in expressivity and controllability with two different models that we have proposed. Firstly, we increased the expressivity and controllability capacity of the baseline model with speech rate, style, emotion, and semantic information. Then, we proposed a hierarchical approach to improving it further. Finally, we have proposed a novel text analysis method to ease text-to-speech models’ tasks and increase the transfer learning capacity between different languages.File | Dimensione | Formato | |
---|---|---|---|
Duration_Modelling_for_Expressive_TTS.pdf
Open Access dal 20/09/2023
Descrizione: Thesis
Dimensione
7.21 MB
Formato
Adobe PDF
|
7.21 MB | Adobe PDF | Visualizza/Apri |
Executive_Summary_Duration_Modelling_for_Expressive_TTS.pdf
Open Access dal 20/09/2023
Descrizione: Executive Summary
Dimensione
549.63 kB
Formato
Adobe PDF
|
549.63 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/192048