Spontaneous speech contains a high rate of so called “speech disfluencies”. These particular expressions, alter a speech by lengthening the duration without adding a semantic content. Such idiosyncrasies impact the correctness of Automatic Speech Recognition’s software (ASR) output. In this thesis will be presented a pre-processing algorithm to spot and remove Filled Pauses (FP), which are the speech disfluencies that occur more often in spontaneous speech, before the file is given as input to an ASR. The algorithm is designed to work in noisy condition and to be speaker independent. The goal is to achieve a high precision given that removing a non FP segment can be more harmful than the presence of a disfluency. The steps are: signal segmentation, prosodic feature extraction and classification using a Gaussian Mixture Model first and then a MLP. The performance of the algorithm is assessed in terms of Precision (83.33% achieved) and Recall (55.94% achieved) whereas the effects on the ASR output are measured computing the Word Error Rate (WER) gain (0.5% achieved) between the transcribed original file and the elaborated one.

Il parlato spontaneo contiene un elevato numero di cosiddette “speech disfluencies”. Queste particolari espressioni alterano un discorso allungandone la durata senza però aggiungere un contenuto semantico. Tali idiosincrasie hanno quindi un impatto sulla correttezza dell’output di un software di Automatic Speech Recognition (ASR). In questo lavoro di tesi viene presentato un algoritmo di pre-processing per l’individuazione e l’eliminazione da un file audio delle Filled Pause(FP) che sono le disfluenze che ricorrono con maggior frequenza nel parlato spontaneo, prima che questo sia elaborato da un ASR. L’algoritmo è stato studiato per funzionare su file audio contenente parlato spontaneo, per essere efficiente in condizioni di rumorosità e per essere indipendente dal parlatore. L’obiettivo ultimo è di ottenere un elevato tasso di precisione poiché rimuovere un segmento che non è una FP può rivelarsi più dannoso che non l’effettiva presenza di una disfluency. I passi fondamentali sono segmentazione del segnale, estrazione di caratteristiche prosodiche dai frammenti individuati e classificazione degli stessi mediante un Gaussian Mixture Model prima e un Multi layer perceptron (MLP) poi. L’efficienza dell’algoritmo viene valutata in termini di Precision (83.33% sul totale) e Recall (55.94% sul totale) mentre l’impatto sull’output dell’ ASR è misurato calcolando il guadagno in Word Error Rate (WER)(0.5%) tra la trascrizione del file audio senza elaborazione e del file audio elaborato.

Algoritmo per l'individuazione e la rimozione di filled pause dal parlato spontaneo

CITTERIO, LUCA
2011/2012

Abstract

Spontaneous speech contains a high rate of so called “speech disfluencies”. These particular expressions, alter a speech by lengthening the duration without adding a semantic content. Such idiosyncrasies impact the correctness of Automatic Speech Recognition’s software (ASR) output. In this thesis will be presented a pre-processing algorithm to spot and remove Filled Pauses (FP), which are the speech disfluencies that occur more often in spontaneous speech, before the file is given as input to an ASR. The algorithm is designed to work in noisy condition and to be speaker independent. The goal is to achieve a high precision given that removing a non FP segment can be more harmful than the presence of a disfluency. The steps are: signal segmentation, prosodic feature extraction and classification using a Gaussian Mixture Model first and then a MLP. The performance of the algorithm is assessed in terms of Precision (83.33% achieved) and Recall (55.94% achieved) whereas the effects on the ASR output are measured computing the Word Error Rate (WER) gain (0.5% achieved) between the transcribed original file and the elaborated one.
CAZZANIGA, STEFANO
ING V - Scuola di Ingegneria dell'Informazione
4-ott-2012
2011/2012
Il parlato spontaneo contiene un elevato numero di cosiddette “speech disfluencies”. Queste particolari espressioni alterano un discorso allungandone la durata senza però aggiungere un contenuto semantico. Tali idiosincrasie hanno quindi un impatto sulla correttezza dell’output di un software di Automatic Speech Recognition (ASR). In questo lavoro di tesi viene presentato un algoritmo di pre-processing per l’individuazione e l’eliminazione da un file audio delle Filled Pause(FP) che sono le disfluenze che ricorrono con maggior frequenza nel parlato spontaneo, prima che questo sia elaborato da un ASR. L’algoritmo è stato studiato per funzionare su file audio contenente parlato spontaneo, per essere efficiente in condizioni di rumorosità e per essere indipendente dal parlatore. L’obiettivo ultimo è di ottenere un elevato tasso di precisione poiché rimuovere un segmento che non è una FP può rivelarsi più dannoso che non l’effettiva presenza di una disfluency. I passi fondamentali sono segmentazione del segnale, estrazione di caratteristiche prosodiche dai frammenti individuati e classificazione degli stessi mediante un Gaussian Mixture Model prima e un Multi layer perceptron (MLP) poi. L’efficienza dell’algoritmo viene valutata in termini di Precision (83.33% sul totale) e Recall (55.94% sul totale) mentre l’impatto sull’output dell’ ASR è misurato calcolando il guadagno in Word Error Rate (WER)(0.5%) tra la trascrizione del file audio senza elaborazione e del file audio elaborato.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2012_10_Citterio.pdf

solo utenti autorizzati dal 20/09/2013

Descrizione: Testo della tesi
Dimensione 11.83 MB
Formato Adobe PDF
11.83 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/64301