Enhancing a stationary noise suppressor with artificial neural networks for non-stationary noise removal

Despite artificial neural networks (ANNs) making rapid progress in the field of noise removal for audio signals, the problems of computational complexity and behavior on unseen noise types remain relevant to the present day. Noise suppression systems often need to be adopted in low-resource communications systems such as mobile phones, webcams, and micro-controller units (MCUs), that cannot meet the requirements of most deep learning models and that require both real-time and causal processing. Additionally, these systems have to be used in a wide variety of noise situations, which can be a problematic aspect in the case of purely data-driven deep learning methods. To overcome these limitations, we propose a system for noise removal in speech signals that combines the robustness of a traditional stationary noise suppressor with the generalization capabilities of artificial neural networks. Unlike most end-to-end models, which employ ANNs for a direct enhancement of the noisy spectrogram or raw waveform, the scope of the ANN in our system is limited to enhancing gain filters that are computed by the stationary noise suppressor, with the goal of removing residual non-stationary noise, which is notoriously difficult to eliminate without complex heuristics. This gives us greater control on the denoising process and limits artifacts that can arise from direct short-time spectral manipulation. Our evaluation shows that the proposed system is able to perform effective real-time denoising on unseen noise types, while retaining a lower complexity than the vast majority of state of the art deep learning techniques.

Nonostante i rapidi sviluppi delle reti neurali artificiali nel campo della rimozione del rumore in segnali audio, le criticità relative all'onere computazionale e al comportamento di fronte a tipologie di rumore diverse rimangono tutt'ora attuali. I sistemi di riduzione del rumore devono essere spesso utilizzati all'interno di dispositivi con scarse risorse computazionali, come telefoni cellulari, telecamere per il web, o microcontrollori, che non possiedono i requisiti richiesti dalla maggior parte dei modelli basati su reti neurali artificiali, e che necessitano un'elaborazione causale e in tempo reale del segnale in entrata. Inoltre, questi sistemi devono essere utilizzati in un'ampia varietà di situazioni, il che può essere un aspetto problematico nel caso di metodi basati puramente su reti neurali. Per ovviare a queste limitazioni, proponiamo un sistema di rimozione del rumore per segnali di parlato che combina la robustezza di un soppressore del rumore tradizione con le capacità di generalizzazione delle reti neurali artificiali. A differenza della maggior parte dei cosiddetti modelli "end-to-end", i quali impiegano una rete neurale per effettuare un restauro diretto dello spettrogramma o della forma d'onda rumorosi, l'ambito di applicazione della rete neurale nel nostro sistema è limitato al miglioramento di un filtro di guadagno, che regola l'attenuazione delle singole componenti dello spettrogramma rumoroso, con l'obiettivo di rimuovere i residui di rumore non stazionario, i quali sono notoriamente difficili da eliminare senza ricorrere a sofisticati algoritmi euristici. Ciò ci permette di ottenere un maggiore controllo sul processo di rimozione del rumore e di limitare gli artefatti che possono derivare da una manipolazione diretta dello spettro. La nostra valutazione mostra che il sistema proposto è capace di eseguire un'efficace rimozione del rumore anche nel caso di tipi di rumore non trattati durante l'allenamento, mantenendo allo stesso tempo una complessità computazionale molto più bassa della maggior parte delle tecniche di apprendimento profondo nello stato dell'arte.