The work presented in this thesis is part of the KaSPAR project, which is aimed at providing Italian speakers, in particular Italian speakers with dyslexia, with a computer-assisted tool for English pronunciation and prosody improvement. The topic is an especially sensitive one, because of the existing tools in the field of automatic phonetic alignment of a speech waveform with the corresponding transcription and automatic speech recognition, that is, the ability to generate automatically the orthographic transcription from a speech audio recording. More specifically, our work involves the modeling and partial implementation of a system able to evaluate the English pronunciation of an Italian speaker. The approach that was adopted leverages some pre-existing tools for phonetic alignment and automatic speech reognition, in order to evaluate how Italian speak- ers perform in the pronunciation of English words, whose transcription is known. Although the results are visibly affected by a noisy and too small training corpus, they show how the idea behind our work is promising: the system behaves coherently with respect to the expectations and it is sufficiently robust to speakers variability. Moreover, the experiments highlight how, in addition to the global evaluation measure on which our work focused, it might be possible in the future to find a way to leverage the ASR results to obtain a local evaluation at a phone level on the speaker’s pronunciation.

Il lavoro presentato in questa tesi si occupa di una componente del progetto KaSPAR, il cui scopo è di offrire a parlatori italiani, in particolar modo parlatori affetti da problemi di dislessia, uno strumento software che serva da supporto per migliorare la pronuncia e la prosodia nella lingua inglese. La tematica risulta particolarmente interessante grazie alle risorse esistenti nel campo dell’allineamento fonetico tra un audio e la sua trascrizione e del riconoscimento vocale automatico, ovvero la possibilità di generare automaticamente la trascrizione ortografica di un testo partendo da una registrazione audio. Nello specifico, questo lavoro si focalizza sulla modellizzazione e parziale imple- mentazione di un sistema che possa valutare la pronuncia inglese di un soggetto italiano. L’approccio adottato si è avvalso di strumenti preesistenti, per l’allineamento fonetico e per il riconoscimento vocale automatico, con lo scopo di utilizzarli per va- lutare la pronuncia inglese da parte di parlatori italiani di parole la cui trascrizione è nota a priori. I risultati, sebbene visibilmente affetti da un dataset di training rumoroso e di dimensioni ridotte, mostrano che l’idea di fondo è promettente, poiché il sistema si comporta coerentemente rispetto alle aspettative ed è sufficientemente robusto rispetto alla variabilità tra i parlatori. Inoltre, gli esperimenti evidenziano come sia presente, oltre alla misura di valutazione globale su cui ci siamo focalizzati, la possibilità di lavori futuri allo scopo di estrapolare una valutazione sulla qualità della pronuncia dei singoli fonemi.

Evaluating English pronunciation of Italian speakers : the KaSPAR model

MARCHI, CECILIA
2015/2016

Abstract

The work presented in this thesis is part of the KaSPAR project, which is aimed at providing Italian speakers, in particular Italian speakers with dyslexia, with a computer-assisted tool for English pronunciation and prosody improvement. The topic is an especially sensitive one, because of the existing tools in the field of automatic phonetic alignment of a speech waveform with the corresponding transcription and automatic speech recognition, that is, the ability to generate automatically the orthographic transcription from a speech audio recording. More specifically, our work involves the modeling and partial implementation of a system able to evaluate the English pronunciation of an Italian speaker. The approach that was adopted leverages some pre-existing tools for phonetic alignment and automatic speech reognition, in order to evaluate how Italian speak- ers perform in the pronunciation of English words, whose transcription is known. Although the results are visibly affected by a noisy and too small training corpus, they show how the idea behind our work is promising: the system behaves coherently with respect to the expectations and it is sufficiently robust to speakers variability. Moreover, the experiments highlight how, in addition to the global evaluation measure on which our work focused, it might be possible in the future to find a way to leverage the ASR results to obtain a local evaluation at a phone level on the speaker’s pronunciation.
TEDESCO, ROBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2017
2015/2016
Il lavoro presentato in questa tesi si occupa di una componente del progetto KaSPAR, il cui scopo è di offrire a parlatori italiani, in particolar modo parlatori affetti da problemi di dislessia, uno strumento software che serva da supporto per migliorare la pronuncia e la prosodia nella lingua inglese. La tematica risulta particolarmente interessante grazie alle risorse esistenti nel campo dell’allineamento fonetico tra un audio e la sua trascrizione e del riconoscimento vocale automatico, ovvero la possibilità di generare automaticamente la trascrizione ortografica di un testo partendo da una registrazione audio. Nello specifico, questo lavoro si focalizza sulla modellizzazione e parziale imple- mentazione di un sistema che possa valutare la pronuncia inglese di un soggetto italiano. L’approccio adottato si è avvalso di strumenti preesistenti, per l’allineamento fonetico e per il riconoscimento vocale automatico, con lo scopo di utilizzarli per va- lutare la pronuncia inglese da parte di parlatori italiani di parole la cui trascrizione è nota a priori. I risultati, sebbene visibilmente affetti da un dataset di training rumoroso e di dimensioni ridotte, mostrano che l’idea di fondo è promettente, poiché il sistema si comporta coerentemente rispetto alle aspettative ed è sufficientemente robusto rispetto alla variabilità tra i parlatori. Inoltre, gli esperimenti evidenziano come sia presente, oltre alla misura di valutazione globale su cui ci siamo focalizzati, la possibilità di lavori futuri allo scopo di estrapolare una valutazione sulla qualità della pronuncia dei singoli fonemi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2017_04_Marchi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 6.98 MB
Formato Adobe PDF
6.98 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/132727