DNN based post-filtering for quality improvement of AMR-WB decoded speech

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Adaptive Multi-rate Wideband (AMR-WB) is a speech coding standard widely used in digital communication based on Algebraic Code-Excited Linear Prediction (ACELP). It operates at multiple bit rates ranging from 6.6kbps to 23.85kbps, depending on the application. At low bit rates, strong quantization noise degrading the perceptual quality of the decoded speech is introduced. To compensate for this undesired effect, heuristic post-filtering techniques have been proposed in the literature. These are based on processing operations applied to a low pass version of the decoded speech signal to enhance the perceived perceptual quality. In this thesis, we propose a post-filtering technique based on a Feed-Forward Neural Network (FNN) to enhance AMR-WB speech quality when low bit rates are used (i.e., from 6.6kbps to 15.85kbps). The proposed post-filter is compared with the baseline one standardized in G.718 audio codec working in inter-operable mode with AMR-WB. Through subjective MUSHRA listening test and objective PESQ and POLQA measures, we show that the proposed post-filter significantly improves the quality of the decoded speech, outperforming current standardized techniques. However, such a good performance comes with the increase in complexity and delay of the proposed post-filter in comparison to traditional ones.

Adaptive Multi-rate Wideband (AMR-WB) è uno standard di codifica vocale ampiamente utilizzato in comunicazione digitale basata su Algebraic Code-Excited Linear Prediction (ACELP). Funziona a più bit rate che vanno da 6.6kbps a 23.85kbps, a seconda di l'applicazione. A basse velocità in bit, un forte rumore di quantizzazione riduce la percezione viene introdotta la qualità del discorso decodificato. Per compensare questo effetto indesiderato, tecniche di post-filtraggio euristiche sono state proposte in letteratura. Questi sono in base alle operazioni di elaborazione applicate a una versione a basso passaggio del parlato decodificato segnale per migliorare la percezione della percezione percettiva. In questa tesi, proponiamo una tecnica di post-filtraggio basata su un feed-forward Rete neurale (FNN) per migliorare la qualità del parlato AMR-WB quando sono bassi i bit rate utilizzato (vale a dire, da 6,6 kbps a 15,85 kbps). Il post-filtro proposto viene confrontato con quello di riferimento standardizzato nel codec audio G.718 che funziona in modalità inter-operabile con AMR-WB. Attraverso test di ascolto soggettivo MUSHRA e PESQ obiettivo e misure POLQA, mostriamo che il post-filtro proposto migliora in modo significativo la qualità del parlato decodificato, sovra performando le attuali tecniche standardizzate. Tuttavia, una prestazione così buona arriva con l'aumento della complessità e del ritardo del post-filtro proposto rispetto a quelli tradizionali.

DNN based post-filtering for quality improvement of AMR-WB decoded speech

GUPTA, KISHAN

2018/2019

Abstract

Adaptive Multi-rate Wideband (AMR-WB) is a speech coding standard widely used in digital communication based on Algebraic Code-Excited Linear Prediction (ACELP). It operates at multiple bit rates ranging from 6.6kbps to 23.85kbps, depending on the application. At low bit rates, strong quantization noise degrading the perceptual quality of the decoded speech is introduced. To compensate for this undesired effect, heuristic post-filtering techniques have been proposed in the literature. These are based on processing operations applied to a low pass version of the decoded speech signal to enhance the perceived perceptual quality. In this thesis, we propose a post-filtering technique based on a Feed-Forward Neural Network (FNN) to enhance AMR-WB speech quality when low bit rates are used (i.e., from 6.6kbps to 15.85kbps). The proposed post-filter is compared with the baseline one standardized in G.718 audio codec working in inter-operable mode with AMR-WB. Through subjective MUSHRA listening test and objective PESQ and POLQA measures, we show that the proposed post-filter significantly improves the quality of the decoded speech, outperforming current standardized techniques. However, such a good performance comes with the increase in complexity and delay of the proposed post-filter in comparison to traditional ones.

Scheda breve

Scheda completa

	Relatore
	
				BESTAGINI, PAOLO
			
	Correlatore/i
	
				FUCHS, GUILLAUME
KORSE, SRIKANTH
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				25-lug-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				Adaptive Multi-rate Wideband (AMR-WB) è uno standard di codifica vocale ampiamente utilizzato in
comunicazione digitale basata su Algebraic Code-Excited Linear Prediction (ACELP).
Funziona a più bit rate che vanno da 6.6kbps a 23.85kbps, a seconda di
l'applicazione. A basse velocità in bit, un forte rumore di quantizzazione riduce la percezione
viene introdotta la qualità del discorso decodificato. Per compensare questo effetto indesiderato,
tecniche di post-filtraggio euristiche sono state proposte in letteratura. Questi sono
in base alle operazioni di elaborazione applicate a una versione a basso passaggio del parlato decodificato
segnale per migliorare la percezione della percezione percettiva.
In questa tesi, proponiamo una tecnica di post-filtraggio basata su un feed-forward
Rete neurale (FNN) per migliorare la qualità del parlato AMR-WB quando sono bassi i bit rate
utilizzato (vale a dire, da 6,6 kbps a 15,85 kbps). Il post-filtro proposto viene confrontato con
quello di riferimento standardizzato nel codec audio G.718 che funziona in modalità inter-operabile
con AMR-WB. Attraverso test di ascolto soggettivo MUSHRA e PESQ obiettivo
e misure POLQA, mostriamo che il post-filtro proposto migliora in modo significativo
la qualità del parlato decodificato, sovra performando le attuali tecniche standardizzate.
Tuttavia, una prestazione così buona arriva con l'aumento della complessità e del ritardo
del post-filtro proposto rispetto a quelli tradizionali.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2019_07_Gupta.pdf non accessibile Descrizione: Final Submission Dimensione 4.2 MB Formato Adobe PDF Visualizza/Apri	4.2 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/151000