Speech intelligibility parameters estimation through convolutional neural networks

In recent years, due to the widespread diffusion of portable devices with audio recording capabilities, speech and audio processing has received significant attention for multiple applications. As an example, bio-metric voice-based authentication methods are becoming more and more popular. Additionally, voice interfaces for command and control of assisting devices are at the base of modern domotic solutions. In these contexts, speech is usually captured in a noisy and reverberant environment. Therefore, acquired speech signals may often suffer from different kinds of degradation. For this reason, the ability of estimating speech quality and intelligibility is paramount. In this work, we propose a set of solutions to estimate five different properties of the environment that describe the perceived speech intelligibility starting from the analysis of an audio recording. Given the complexity of the task, we adopt a data-driven approach, a choice that has become popular in the last years for speech analysis tasks. We exploit the potential of multi-task learning to jointly estimate the aforementioned parameters. We implement and train two state-of-the-art convolutional neural networks using as input an appropriate time-frequency audio representation. In addition, we adopt a siamese configuration to estimate the acoustic similarity between the recording environments of different audio tracks. We test both configurations on a large custom-made dataset simulating a large amount of noisy and reverberant rooms. The experiments show the effectiveness of the adopted strategy. In particular, we observe that there is a strong interplay between acoustic parameters and speech clarity indicators.

Negli ultimi anni, grazie alla diffusione di dispositivi portatili con capacità di registrazione audio, l'elaborazione dello speech e dell’audio ha ricevuto un significativo interesse per più applicazioni. Ad esempio, i metodi di autenticazione basati sulla voce biometrica stanno diventando sempre più popolari. Inoltre, le interfacce vocali per il comando e il controllo dei dispositivi di assistenza sono alla base delle moderne soluzioni domotiche. In questi contesti, lo speech viene solitamente registrato in un ambiente rumoroso e riverberante. Pertanto, i segnali vocali acquisiti possono spesso soffrire di diversi tipi di degrado. Per questo motivo, la capacità di stimare la qualità dello speech e l'intelligibilità è fondamentale. In questo lavoro, proponiamo una serie di soluzioni per stimare cinque diversi parametri proprio dell'ambiente che descrivono l'intelligibilità del parlato percepita a partire dall'analisi di una registrazione audio. Data la complessità del compito, adottiamo un approccio data-driven, una scelta che è diventata molto popolare negli ultimi anni per le attività di analisi dello speech. Sfruttiamo il potenziale dell'apprendimento multi-task per stimare congiuntamente i suddetti parametri. Implementiamo e alleniamo due reti neurali convoluzionali all'avanguardia utilizzando come input una rappresentazione audio in tempo e frequenza. Inoltre, adottiamo una configurazione siamese per stimare la somiglianza acustica tra gli ambienti di registrazione di diverse tracce audio. Testiamo entrambe le configurazioni su un grande set di dati su misura simulando una grande quantità di stanze rumorose e riverberanti. Gli esperimenti dimostrano l'efficacia della strategia adottata. In particolare, osserviamo che c'è una forte interazione tra parametri acustici e indicatori di chiarezza dello speech.