This thesis presents an investigation on the Cross-Lingual Transferability within Voice Analysis Models. In particular, we want to evaluate how audio features can be transferred from one language to another, with a focus on deep extracted features. In the study we carry on we selected the use case of Parkinson’s Disease detection. When speaking of domain languages, we are talking about a set word that can be univocally associated with the language. In Domain Adaptation, which is a technique that allows adapting an algorithm trained for a particular domain to another one, we want to select a "source domain" (that we want to adapt) and a "target domain" (the target language of the adaptation). We selected as source the English, and as target language Telugu. Our data consists of voice recordings of people with and without Parkinson’s disease. We decide to build a Deep Learning model to make both classification and domain adaptation. Our experimental pipeline includes data preparation and preprocessing (including denoising and record splitting steps), feature extraction, and vectorization. In order to further investigate our work, we decide to do 4 types of feature extraction and train the model on each one of those. We select 3 sets of deep extractors (VGGish, Wav2Vec, and SoundNet) and a fourth set of classical acoustic and spectral features. Besides, we apply 3 different pooling approaches. To make domain adaptation we use the DeepCoral technique, integrating our deep learning classifier with the adaptation loss. Our experiments were carried out both with and without adaptation, testing the model trained on the source language dataset on the target language records. We also decide to repeat the experiment swapping the source and target languages. From the results of domain adaptation, we noticed that when the zero- shot behavior of the unadapted classifier produced low scores on the target language, adaptation helped improve the performances, lowering the scores on the source language though. The results of adaptation are mixed, and a more extensive analysis of these techniques is necessary to understand how to achieve the best from these approaches. As for now re-training and zero-shot model transfer seem to be the most effective solution.

Questo lavoro di tesi presenta una ricerca/uno studio riguardo la Cross-Lingual Transferability within Voice Analysis Models, ovvero la Trasferibilità Interlinguistica all’interno di Modelli di Analisi Vocale. In particolare, vogliamo valutare come le features audio possano essere trasferite da una lingua all’altra, con particolare attenzione su features profonde. In questo studio abbiamo scelto il caso d’uso del riconoscimento della malattia di Parkinson. Con l’espressione "dominio linguistico" parliamo di un set di vocaboli che viene associato univocamente alla lingua. Nella Domain Adaptation, tecnica che consente a un algoritmo allenato per un certo dominio di adattarsi ad un altro, selezioniamo un "dominio sorgente" (quello che vogliamo adattare) e un "dominio obiettivo" (la lingua a cui ci adattiamo). Come lingua di partenza abbiamo scelto l’Inglese, e come lingua d’arrivo il Telugu. Il nostro dataset è composto da registrazioni vocali di persone affette da Parkinson e non. Abbiamo realizzato un modello di Deep Learning per fare sia la classificazione che la Domain Adaptation. La nostra pipeline include preparazione e pre-elaborazione (tra cui eliminazione del rumore e divisione delle registrazioni), estrazione delle feature e vettorializzazione. Per approfondire il nostro studio, abbiamo eseguito 4 tipi di estrazione di feature e allenato il modello su ciascuno di questi. Abbiamo selezionato 3 set di estrattori profondi (VGGish, Wav2Vec e SoundNet) e un quarto set di feature classiche acustiche e spettrali. Inoltre, abbiamo applicato tre approcci di pooling diversi. Per la Domain Adaptation abbiamo usato la tecnica DeepCoral, integrando il nostro classificatore di Deep Learning con la loss di adattamento. Abbiamo condotto i nostri esperimenti sia con che senza adattamento, testando sulla lingua d’arrivo il modello allenato sulla lingua di partenza. Abbiamo anche replicato l’esperimento invertendo la lingua sorgente quella obiettivo. Dai risultati della Domain Adaptation notiamo che quando testiamo con il classificatore non adattato, ed esso produce punteggi bassi sulla lingua d’arrivo, l’adattamento migliora le performance, diminuendo però i punteggi sulla lingua di partenza. I risultati dell’adattamento sono contrastanti, e c’è bisogno di una più approfondita analisi di questa tecniche per capire come sfruttare al meglio questi approcci. Per il momento, il ri-allenamento e il trasferimento del modello zero-shot sembrano essere la soluzione più efficace.

Cross-lingual transferability of voice analysis models

FERRANTE, CLAUDIO
2022/2023

Abstract

This thesis presents an investigation on the Cross-Lingual Transferability within Voice Analysis Models. In particular, we want to evaluate how audio features can be transferred from one language to another, with a focus on deep extracted features. In the study we carry on we selected the use case of Parkinson’s Disease detection. When speaking of domain languages, we are talking about a set word that can be univocally associated with the language. In Domain Adaptation, which is a technique that allows adapting an algorithm trained for a particular domain to another one, we want to select a "source domain" (that we want to adapt) and a "target domain" (the target language of the adaptation). We selected as source the English, and as target language Telugu. Our data consists of voice recordings of people with and without Parkinson’s disease. We decide to build a Deep Learning model to make both classification and domain adaptation. Our experimental pipeline includes data preparation and preprocessing (including denoising and record splitting steps), feature extraction, and vectorization. In order to further investigate our work, we decide to do 4 types of feature extraction and train the model on each one of those. We select 3 sets of deep extractors (VGGish, Wav2Vec, and SoundNet) and a fourth set of classical acoustic and spectral features. Besides, we apply 3 different pooling approaches. To make domain adaptation we use the DeepCoral technique, integrating our deep learning classifier with the adaptation loss. Our experiments were carried out both with and without adaptation, testing the model trained on the source language dataset on the target language records. We also decide to repeat the experiment swapping the source and target languages. From the results of domain adaptation, we noticed that when the zero- shot behavior of the unadapted classifier produced low scores on the target language, adaptation helped improve the performances, lowering the scores on the source language though. The results of adaptation are mixed, and a more extensive analysis of these techniques is necessary to understand how to achieve the best from these approaches. As for now re-training and zero-shot model transfer seem to be the most effective solution.
SCOTTI, VINCENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
Questo lavoro di tesi presenta una ricerca/uno studio riguardo la Cross-Lingual Transferability within Voice Analysis Models, ovvero la Trasferibilità Interlinguistica all’interno di Modelli di Analisi Vocale. In particolare, vogliamo valutare come le features audio possano essere trasferite da una lingua all’altra, con particolare attenzione su features profonde. In questo studio abbiamo scelto il caso d’uso del riconoscimento della malattia di Parkinson. Con l’espressione "dominio linguistico" parliamo di un set di vocaboli che viene associato univocamente alla lingua. Nella Domain Adaptation, tecnica che consente a un algoritmo allenato per un certo dominio di adattarsi ad un altro, selezioniamo un "dominio sorgente" (quello che vogliamo adattare) e un "dominio obiettivo" (la lingua a cui ci adattiamo). Come lingua di partenza abbiamo scelto l’Inglese, e come lingua d’arrivo il Telugu. Il nostro dataset è composto da registrazioni vocali di persone affette da Parkinson e non. Abbiamo realizzato un modello di Deep Learning per fare sia la classificazione che la Domain Adaptation. La nostra pipeline include preparazione e pre-elaborazione (tra cui eliminazione del rumore e divisione delle registrazioni), estrazione delle feature e vettorializzazione. Per approfondire il nostro studio, abbiamo eseguito 4 tipi di estrazione di feature e allenato il modello su ciascuno di questi. Abbiamo selezionato 3 set di estrattori profondi (VGGish, Wav2Vec e SoundNet) e un quarto set di feature classiche acustiche e spettrali. Inoltre, abbiamo applicato tre approcci di pooling diversi. Per la Domain Adaptation abbiamo usato la tecnica DeepCoral, integrando il nostro classificatore di Deep Learning con la loss di adattamento. Abbiamo condotto i nostri esperimenti sia con che senza adattamento, testando sulla lingua d’arrivo il modello allenato sulla lingua di partenza. Abbiamo anche replicato l’esperimento invertendo la lingua sorgente quella obiettivo. Dai risultati della Domain Adaptation notiamo che quando testiamo con il classificatore non adattato, ed esso produce punteggi bassi sulla lingua d’arrivo, l’adattamento migliora le performance, diminuendo però i punteggi sulla lingua di partenza. I risultati dell’adattamento sono contrastanti, e c’è bisogno di una più approfondita analisi di questa tecniche per capire come sfruttare al meglio questi approcci. Per il momento, il ri-allenamento e il trasferimento del modello zero-shot sembrano essere la soluzione più efficace.
File allegati
File Dimensione Formato  
Tesi_Claudio_Ferrante.pdf

solo utenti autorizzati dal 11/04/2024

Descrizione: Tesi
Dimensione 1.83 MB
Formato Adobe PDF
1.83 MB Adobe PDF   Visualizza/Apri
Riassunto_Tesi_Claudio_Ferrante.pdf

solo utenti autorizzati dal 11/04/2024

Descrizione: Executive summary
Dimensione 405.83 kB
Formato Adobe PDF
405.83 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/204774