In the last year, the world has experienced a deep change with the use of audio and video teleconferencing platforms and voice-enabled technologies. These types of applications benefit from reducing the impact of environmental noise on the quality of the speech signal by means of Speech Enhancement algorithms. Several approaches have been developed to perform this task. Recently, the best results have been achieved employing Deep Learning techniques, due to their ability to generalize against various noise scenarios. The main drawback encountered in applications based on Deep Neural Networks is their high computational complexity and memory requirement. These issues represent an obstacle to the deployment of DNN-based speech enhancement techniques on devices with limited resources. In this work, we propose a speech enhancement solution based on Deep Neural Networks that withstands the strict requirements imposed by embedded devices in terms of memory footprint and processing power. The proposed approach operates in real-time without look-ahead, extracting perceptually-relevant features in an efficient fashion. The solution proposed in this work is implemented using a convolutional neural network. This network exploits a perceptually-motivated feature representation that has proven more beneficial to the task compared to the Mel frequency scale. Our technique exploits the increased receptive field granted by the time-dilated convolutional layers that compose the network. This solution meets the real-time requirement by processing the input in a causal fashion. The employed Deep Neural Network is designed to be compatible with common deep learning frameworks for microcontrollers. We test our approach on various noise scenarios comparing the results with some of the state-of-the-art techniques. The achieved results are comparable to those of the compared baselines also considering the strict constraints our approach has to withstand. The effectiveness of our proposed solution achieves state-of-the-art levels with a considerably smaller model, thus needing a fraction of the computational complexity.

Nell'ultimo anno, il mondo ha vissuto un profondo cambiamento nell'uso di piattaforme di teleconferenza e le tecnologie di attivazione vocale. Questi tipi di applicazione beneficiano di una riduzione dell'impatto del rumore ambientale sulla qualità del segnale vocale tramite l'uso di algoritmi di Speech Enhancement. Sono stati sviluppati diversi approcci per eseguire questa operazione. Recentemente, i risultati migliori sono stati ottenuti utilizzando tecniche di Deep Learning, grazie alla loro capacità di generalizzare sui vari scenari di rumore. Lo svantaggio principale riscontrato nelle applicazioni basate sulle reti neurali è la loro elevata complessità computazionale e di memoria. Queste caratteristiche rappresentano un ostacolo all'implementazione di queste tecniche su dispositivi con risorse limitate. In questo lavoro proponiamo una soluzione per speech enhancement basata su Deep Neural Networks che sia in grado di rispettare i requisiti stringenti imposti dai sistemi integrati in termini di memoria e potenza di calcolo. L'approccio proposto opera in tempo reale senza look-ahead, estraendo in modo efficiente le caratteristiche con maggiore rilevanza percettiva del segnale vocale. La soluzione proposta in questo lavoro è implementata utilizzando una rete neurale convoluzionale. Questa rete sfrutta una rappresentazione ad alta rilevanza percettiva dell'audio che si è dimostrata più vantaggiosa rispetto alla scala Mel. La tecnica sfrutta l'aumento del campo recettivo dovuto ai layer convoluzionali dilatati nel tempo che compongono la rete. Questa soluzione soddisfa il requisito del processamento in tempo reale elaborando l'input in modo causale. La Deep Neural Network impiegata nel nostro approccio è concepita per essere compatibile con i comuni framework di deep learning per microcontrollori. Testiamo il nostro approccio su vari scenari di rumore confrontando i risultati con alcune delle tecniche di cancellazione del rumore d'avanguardia. I risultati ottenuti sono paragonabili a quelli delle tecniche più avanzate incluse nel confronto, considerando anche i severi vincoli cui il nostro approccio deve sottostare. L'efficacia della nostra soluzione raggiunge livelli da stato dell'arte con un modello considerevolmente più piccolo, richiedendo quindi una frazione della complessità computazionale.

A real-time solution for speech enhancement using dilated convolutional neural networks

Segato, Fabio
2020/2021

Abstract

In the last year, the world has experienced a deep change with the use of audio and video teleconferencing platforms and voice-enabled technologies. These types of applications benefit from reducing the impact of environmental noise on the quality of the speech signal by means of Speech Enhancement algorithms. Several approaches have been developed to perform this task. Recently, the best results have been achieved employing Deep Learning techniques, due to their ability to generalize against various noise scenarios. The main drawback encountered in applications based on Deep Neural Networks is their high computational complexity and memory requirement. These issues represent an obstacle to the deployment of DNN-based speech enhancement techniques on devices with limited resources. In this work, we propose a speech enhancement solution based on Deep Neural Networks that withstands the strict requirements imposed by embedded devices in terms of memory footprint and processing power. The proposed approach operates in real-time without look-ahead, extracting perceptually-relevant features in an efficient fashion. The solution proposed in this work is implemented using a convolutional neural network. This network exploits a perceptually-motivated feature representation that has proven more beneficial to the task compared to the Mel frequency scale. Our technique exploits the increased receptive field granted by the time-dilated convolutional layers that compose the network. This solution meets the real-time requirement by processing the input in a causal fashion. The employed Deep Neural Network is designed to be compatible with common deep learning frameworks for microcontrollers. We test our approach on various noise scenarios comparing the results with some of the state-of-the-art techniques. The achieved results are comparable to those of the compared baselines also considering the strict constraints our approach has to withstand. The effectiveness of our proposed solution achieves state-of-the-art levels with a considerably smaller model, thus needing a fraction of the computational complexity.
BUCCOLI, MICHELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2021
2020/2021
Nell'ultimo anno, il mondo ha vissuto un profondo cambiamento nell'uso di piattaforme di teleconferenza e le tecnologie di attivazione vocale. Questi tipi di applicazione beneficiano di una riduzione dell'impatto del rumore ambientale sulla qualità del segnale vocale tramite l'uso di algoritmi di Speech Enhancement. Sono stati sviluppati diversi approcci per eseguire questa operazione. Recentemente, i risultati migliori sono stati ottenuti utilizzando tecniche di Deep Learning, grazie alla loro capacità di generalizzare sui vari scenari di rumore. Lo svantaggio principale riscontrato nelle applicazioni basate sulle reti neurali è la loro elevata complessità computazionale e di memoria. Queste caratteristiche rappresentano un ostacolo all'implementazione di queste tecniche su dispositivi con risorse limitate. In questo lavoro proponiamo una soluzione per speech enhancement basata su Deep Neural Networks che sia in grado di rispettare i requisiti stringenti imposti dai sistemi integrati in termini di memoria e potenza di calcolo. L'approccio proposto opera in tempo reale senza look-ahead, estraendo in modo efficiente le caratteristiche con maggiore rilevanza percettiva del segnale vocale. La soluzione proposta in questo lavoro è implementata utilizzando una rete neurale convoluzionale. Questa rete sfrutta una rappresentazione ad alta rilevanza percettiva dell'audio che si è dimostrata più vantaggiosa rispetto alla scala Mel. La tecnica sfrutta l'aumento del campo recettivo dovuto ai layer convoluzionali dilatati nel tempo che compongono la rete. Questa soluzione soddisfa il requisito del processamento in tempo reale elaborando l'input in modo causale. La Deep Neural Network impiegata nel nostro approccio è concepita per essere compatibile con i comuni framework di deep learning per microcontrollori. Testiamo il nostro approccio su vari scenari di rumore confrontando i risultati con alcune delle tecniche di cancellazione del rumore d'avanguardia. I risultati ottenuti sono paragonabili a quelli delle tecniche più avanzate incluse nel confronto, considerando anche i severi vincoli cui il nostro approccio deve sottostare. L'efficacia della nostra soluzione raggiunge livelli da stato dell'arte con un modello considerevolmente più piccolo, richiedendo quindi una frazione della complessità computazionale.
File allegati
File Dimensione Formato  
thesis_928084.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 3.11 MB
Formato Adobe PDF
3.11 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/178087