This thesis aims to train an Automatic Speech Recognition (ASR) system, whichcan transcribe Italian speech into text. Traditional ASR systems require a lexiconand aligned input output, in order to train the acoustic model; this happens for bothGaussian mixed/hidden Markov models and deep neural network/hidden Markovmodels. Therefore, a lot of time is spent on the data preprocessing phase. Currentstate-of-art ASR systems are based on end-to-end neural network models, which foldsthe acoustic model, the pronunciation model, and the language model into one bignetwork; such approach doesn’t require input/output alignment, permitting flexibleand fast train of the model with multiple languages of different origins, withoutchanging the internal structure of the ASR system. During our experiments, weused a slightly modified version of the wav2letter model, proposed by the FacebookAI research Team. Instead of adopting recurrent neural networks, which is still theprevalent approach for acoustic model learning, wav2letter is completely based onconvolutional neural networks. Our trained model achieved very interesting resultson our test set —composed of 338 hours of audio— reaching a WER of 4.58%

Questa tesi mira a costruire un sistema di riconoscimento vocale automatico(ASR), in grado di trascrivere il discorso italiano in testo scritto. I sistemi ASRtradizionali richiedono un lessico e un input output allineato, al fine di addestrareil modello acustico; questo accade sia per i modelli di Gaussian mixed/hiddenMarkov che per i modelli di deep neural network/hidden Markov. Pertanto, vienededicato molto tempo alla fase di pre-elaborazione dei dati. Gli attuali sistemi ASRall’avanguardia si basano su modelli di rete neurale end-to-end, che riuniscono ilmodello acustico, il modello di pronuncia e il modello linguistico in un’unica granderete; tale approccio non richiede l’allineamento input / output, consentendo untraining flessibile e veloce del modello con più linguaggi di diversa origine, senzamodificare la struttura interna del sistema ASR. Durante i nostri esperimenti,abbiamo utilizzato una versione leggermente modificata del modello wav2letter,proposta dal team di ricerca AI di Facebook. Invece di adottare reti neuraliricorrenti, che è ancora l’approccio prevalente per l’apprendimento dei modelliacustici, wav2letter è completamente basato su reti neurali convoluzionali. Il nostromodello addestrato ha ottenuto risultati molto interessanti sul nostro set di test,composto da 338 ore di audio, raggiungendo un WER del 4,58%

Wav2letter based speech recognition model for Italian language

Huang, Gaoheng
2019/2020

Abstract

This thesis aims to train an Automatic Speech Recognition (ASR) system, whichcan transcribe Italian speech into text. Traditional ASR systems require a lexiconand aligned input output, in order to train the acoustic model; this happens for bothGaussian mixed/hidden Markov models and deep neural network/hidden Markovmodels. Therefore, a lot of time is spent on the data preprocessing phase. Currentstate-of-art ASR systems are based on end-to-end neural network models, which foldsthe acoustic model, the pronunciation model, and the language model into one bignetwork; such approach doesn’t require input/output alignment, permitting flexibleand fast train of the model with multiple languages of different origins, withoutchanging the internal structure of the ASR system. During our experiments, weused a slightly modified version of the wav2letter model, proposed by the FacebookAI research Team. Instead of adopting recurrent neural networks, which is still theprevalent approach for acoustic model learning, wav2letter is completely based onconvolutional neural networks. Our trained model achieved very interesting resultson our test set —composed of 338 hours of audio— reaching a WER of 4.58%
SCOTTI , VINCENZO
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
Questa tesi mira a costruire un sistema di riconoscimento vocale automatico(ASR), in grado di trascrivere il discorso italiano in testo scritto. I sistemi ASRtradizionali richiedono un lessico e un input output allineato, al fine di addestrareil modello acustico; questo accade sia per i modelli di Gaussian mixed/hiddenMarkov che per i modelli di deep neural network/hidden Markov. Pertanto, vienededicato molto tempo alla fase di pre-elaborazione dei dati. Gli attuali sistemi ASRall’avanguardia si basano su modelli di rete neurale end-to-end, che riuniscono ilmodello acustico, il modello di pronuncia e il modello linguistico in un’unica granderete; tale approccio non richiede l’allineamento input / output, consentendo untraining flessibile e veloce del modello con più linguaggi di diversa origine, senzamodificare la struttura interna del sistema ASR. Durante i nostri esperimenti,abbiamo utilizzato una versione leggermente modificata del modello wav2letter,proposta dal team di ricerca AI di Facebook. Invece di adottare reti neuraliricorrenti, che è ancora l’approccio prevalente per l’apprendimento dei modelliacustici, wav2letter è completamente basato su reti neurali convoluzionali. Il nostromodello addestrato ha ottenuto risultati molto interessanti sul nostro set di test,composto da 338 ore di audio, raggiungendo un WER del 4,58%
File allegati
File Dimensione Formato  
master thesis Gaoheng Huang final version .pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: versione finale della tesi
Dimensione 7.78 MB
Formato Adobe PDF
7.78 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/170865