Acoustic-to-Articulatory Inversion (AAI) refers to the task of converting acoustic features into variables of a speech articulatory model. This kind of problem is generally approached in the literature with black-box methods that heavily rely on large datasets. In this work, we introduce and evaluate a white-box approach for AAI. Our method leverages a physically interpretable one-dimensional vocal tract acoustic Lumped Element Model (LEM), combined with an Automatic Differentiation (AD) framework, which allows the optimization of its parameters through gradient descent. The lumped model is defined entirely by the cross-sectional area function controlled by a specific vocal tract parametrization method. In our framework, we explore two different vocal tract parametrizations, each one having a specific vocal tract control parameters set, including the vocal tract length. We validate the framework for different test configurations: first, we verify whether the model is able to successfully predict partially or fully self-generated ground truth data. Finally, we perform AAI on real speech vowels applying a Linear Predictive Coding-based technique to extract acoustic features to be used as ground truth. These experiments highlight the potential of this approach, while also identifying its limitations.

L'Acoustic-to-Articulatory Inversion (AAI) si riferisce alla conversione delle caratteristiche acustiche di un parlato in variabili di un modello articolatorio di un tratto vocale. Questo tipo di problema è generalmente affrontato nella letteratura con metodi di tipo black-box che si basano su una grande mole di dati. In questo lavoro, introduciamo e valutiamo un approccio white-box per l'AAI. Il nostro metodo sfrutta un modello acustico a elementi concentrati (Lumped Element Model, LEM) del tratto vocale 1D, fisicamente interpretabile, combinato con un framework di differenziazione automatica (Automatic Differentiation, AD), che consente l'ottimizzazione dei suoi parametri tramite discesa del gradiente (Gradient Descent). Il LEM è interamente definito dalla funzione dell'area della sezione trasversale del tratto vocale, controllata da un metodo specifico di parametrizzazione. Nel nostro framework esploriamo due diverse parametrizzazioni del tratto vocale, ciascuna caratterizzata da un proprio set di parametri di controllo, inclusa la lunghezza del tratto vocale. Il framework è stato validato in diverse configurazioni: innanzitutto, verifichiamo se il modello è in grado di prevedere con successo dati di riferimento generati parzialmente o completamente dallo stesso modello. Infine, applichiamo l'AAI su vocali prodotte da speacker reali utilizzando una tecnica basata su Linear Predictive Coding per estrarre caratteristiche acustiche da utilizzare come dati di riferimento. Questi esperimenti mettono in evidenza il potenziale di questo approccio, evidenziandone al contempo i limiti.

Evaluation of lumped-elements acoustic model of vocal tract in acoustic-to-articulatory inversion framework through automatic differentiation

SECHI, SIMONE
2023/2024

Abstract

Acoustic-to-Articulatory Inversion (AAI) refers to the task of converting acoustic features into variables of a speech articulatory model. This kind of problem is generally approached in the literature with black-box methods that heavily rely on large datasets. In this work, we introduce and evaluate a white-box approach for AAI. Our method leverages a physically interpretable one-dimensional vocal tract acoustic Lumped Element Model (LEM), combined with an Automatic Differentiation (AD) framework, which allows the optimization of its parameters through gradient descent. The lumped model is defined entirely by the cross-sectional area function controlled by a specific vocal tract parametrization method. In our framework, we explore two different vocal tract parametrizations, each one having a specific vocal tract control parameters set, including the vocal tract length. We validate the framework for different test configurations: first, we verify whether the model is able to successfully predict partially or fully self-generated ground truth data. Finally, we perform AAI on real speech vowels applying a Linear Predictive Coding-based technique to extract acoustic features to be used as ground truth. These experiments highlight the potential of this approach, while also identifying its limitations.
LONGO, GIACOMO
MASSI, OLIVIERO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2024
2023/2024
L'Acoustic-to-Articulatory Inversion (AAI) si riferisce alla conversione delle caratteristiche acustiche di un parlato in variabili di un modello articolatorio di un tratto vocale. Questo tipo di problema è generalmente affrontato nella letteratura con metodi di tipo black-box che si basano su una grande mole di dati. In questo lavoro, introduciamo e valutiamo un approccio white-box per l'AAI. Il nostro metodo sfrutta un modello acustico a elementi concentrati (Lumped Element Model, LEM) del tratto vocale 1D, fisicamente interpretabile, combinato con un framework di differenziazione automatica (Automatic Differentiation, AD), che consente l'ottimizzazione dei suoi parametri tramite discesa del gradiente (Gradient Descent). Il LEM è interamente definito dalla funzione dell'area della sezione trasversale del tratto vocale, controllata da un metodo specifico di parametrizzazione. Nel nostro framework esploriamo due diverse parametrizzazioni del tratto vocale, ciascuna caratterizzata da un proprio set di parametri di controllo, inclusa la lunghezza del tratto vocale. Il framework è stato validato in diverse configurazioni: innanzitutto, verifichiamo se il modello è in grado di prevedere con successo dati di riferimento generati parzialmente o completamente dallo stesso modello. Infine, applichiamo l'AAI su vocali prodotte da speacker reali utilizzando una tecnica basata su Linear Predictive Coding per estrarre caratteristiche acustiche da utilizzare come dati di riferimento. Questi esperimenti mettono in evidenza il potenziale di questo approccio, evidenziandone al contempo i limiti.
File allegati
File Dimensione Formato  
Simone_Sechi__Thesis .pdf

non accessibile

Dimensione 4.25 MB
Formato Adobe PDF
4.25 MB Adobe PDF   Visualizza/Apri
Simone_Sechi_Executive_Summary.pdf

non accessibile

Dimensione 1.59 MB
Formato Adobe PDF
1.59 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231519