Adaptive Multi-rate Wideband (AMR-WB) is a speech coding standard widely used in digital communication based on Algebraic Code-Excited Linear Prediction (ACELP). It operates at multiple bit rates ranging from 6.6kbps to 23.85kbps, depending on the application. At low bit rates, strong quantization noise degrading the perceptual quality of the decoded speech is introduced. To compensate for this undesired effect, heuristic post-filtering techniques have been proposed in the literature. These are based on processing operations applied to a low pass version of the decoded speech signal to enhance the perceived perceptual quality. In this thesis, we propose a post-filtering technique based on a Feed-Forward Neural Network (FNN) to enhance AMR-WB speech quality when low bit rates are used (i.e., from 6.6kbps to 15.85kbps). The proposed post-filter is compared with the baseline one standardized in G.718 audio codec working in inter-operable mode with AMR-WB. Through subjective MUSHRA listening test and objective PESQ and POLQA measures, we show that the proposed post-filter significantly improves the quality of the decoded speech, outperforming current standardized techniques. However, such a good performance comes with the increase in complexity and delay of the proposed post-filter in comparison to traditional ones.

Adaptive Multi-rate Wideband (AMR-WB) è uno standard di codifica vocale ampiamente utilizzato in comunicazione digitale basata su Algebraic Code-Excited Linear Prediction (ACELP). Funziona a più bit rate che vanno da 6.6kbps a 23.85kbps, a seconda di l'applicazione. A basse velocità in bit, un forte rumore di quantizzazione riduce la percezione viene introdotta la qualità del discorso decodificato. Per compensare questo effetto indesiderato, tecniche di post-filtraggio euristiche sono state proposte in letteratura. Questi sono in base alle operazioni di elaborazione applicate a una versione a basso passaggio del parlato decodificato segnale per migliorare la percezione della percezione percettiva. In questa tesi, proponiamo una tecnica di post-filtraggio basata su un feed-forward Rete neurale (FNN) per migliorare la qualità del parlato AMR-WB quando sono bassi i bit rate utilizzato (vale a dire, da 6,6 kbps a 15,85 kbps). Il post-filtro proposto viene confrontato con quello di riferimento standardizzato nel codec audio G.718 che funziona in modalità inter-operabile con AMR-WB. Attraverso test di ascolto soggettivo MUSHRA e PESQ obiettivo e misure POLQA, mostriamo che il post-filtro proposto migliora in modo significativo la qualità del parlato decodificato, sovra performando le attuali tecniche standardizzate. Tuttavia, una prestazione così buona arriva con l'aumento della complessità e del ritardo del post-filtro proposto rispetto a quelli tradizionali.

DNN based post-filtering for quality improvement of AMR-WB decoded speech

GUPTA, KISHAN
2018/2019

Abstract

Adaptive Multi-rate Wideband (AMR-WB) is a speech coding standard widely used in digital communication based on Algebraic Code-Excited Linear Prediction (ACELP). It operates at multiple bit rates ranging from 6.6kbps to 23.85kbps, depending on the application. At low bit rates, strong quantization noise degrading the perceptual quality of the decoded speech is introduced. To compensate for this undesired effect, heuristic post-filtering techniques have been proposed in the literature. These are based on processing operations applied to a low pass version of the decoded speech signal to enhance the perceived perceptual quality. In this thesis, we propose a post-filtering technique based on a Feed-Forward Neural Network (FNN) to enhance AMR-WB speech quality when low bit rates are used (i.e., from 6.6kbps to 15.85kbps). The proposed post-filter is compared with the baseline one standardized in G.718 audio codec working in inter-operable mode with AMR-WB. Through subjective MUSHRA listening test and objective PESQ and POLQA measures, we show that the proposed post-filter significantly improves the quality of the decoded speech, outperforming current standardized techniques. However, such a good performance comes with the increase in complexity and delay of the proposed post-filter in comparison to traditional ones.
FUCHS, GUILLAUME
KORSE, SRIKANTH
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Adaptive Multi-rate Wideband (AMR-WB) è uno standard di codifica vocale ampiamente utilizzato in comunicazione digitale basata su Algebraic Code-Excited Linear Prediction (ACELP). Funziona a più bit rate che vanno da 6.6kbps a 23.85kbps, a seconda di l'applicazione. A basse velocità in bit, un forte rumore di quantizzazione riduce la percezione viene introdotta la qualità del discorso decodificato. Per compensare questo effetto indesiderato, tecniche di post-filtraggio euristiche sono state proposte in letteratura. Questi sono in base alle operazioni di elaborazione applicate a una versione a basso passaggio del parlato decodificato segnale per migliorare la percezione della percezione percettiva. In questa tesi, proponiamo una tecnica di post-filtraggio basata su un feed-forward Rete neurale (FNN) per migliorare la qualità del parlato AMR-WB quando sono bassi i bit rate utilizzato (vale a dire, da 6,6 kbps a 15,85 kbps). Il post-filtro proposto viene confrontato con quello di riferimento standardizzato nel codec audio G.718 che funziona in modalità inter-operabile con AMR-WB. Attraverso test di ascolto soggettivo MUSHRA e PESQ obiettivo e misure POLQA, mostriamo che il post-filtro proposto migliora in modo significativo la qualità del parlato decodificato, sovra performando le attuali tecniche standardizzate. Tuttavia, una prestazione così buona arriva con l'aumento della complessità e del ritardo del post-filtro proposto rispetto a quelli tradizionali.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_Gupta.pdf

non accessibile

Descrizione: Final Submission
Dimensione 4.2 MB
Formato Adobe PDF
4.2 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/151000