Sound source localization is a fundamental requirement of many modern technologies including teleconferencing systems, surveillance systems, spatial audio rendering and smart speakers. Recent DOA (Direction Of Arrival) estimators exploit sound field decomposition in Spherical Harmonics Domain. In particular, recordings obtained from Spherical Microphone Arrays (SMAs) can be combined to obtain specialized descriptors of the sound field, known as Spherical Harmonics Coefficients (SHCs). Recent studies have introduced a novel audio descriptor derived from SHCs, known as Relative Harmonic Coefficients (RHCs). RHCs exhibit unique theoretical properties including sole dependence on the sound source's DOA. However, this property is compromised in reverberant and noisy conditions. In this work, we propose RH-CED (Relative Harmonics - Convolutional Encoder Decoder), a neural architecture capable of processing RHCs extracted in noisy and reverberant conditions and reconstructing them to closely match their ideal counterparts. Thanks to the use of stacked Convolutional Neural Networks (CNNs), RH-CED is able to compress information discarding reverberation and noise contributions. By applying the inverse process, the information is then extended to achieve a full reconstruction of features closely resembling the ideal ones. We will show that this framework allows for the partial reestablishment of the ideal properties of RHCs. This will be accomplished by testing different model-based DOA estimators using both non-ideal RHCs and RH-CED processed ones. We tested RH-CED denoising and dereverberating capabilities considering various acoustic environments with different Signal To Noise ratio (SNR) and T60. We present Mean Absolute Estimation Error (MAEE°) and Angular Distance (AD°) results for two different localization methods. The experiments confirm the beneficial influence of RH-CED on DOA estimators under consideration. Finally, we present a comparison with a recent deep learning-based technique for DOA estimation, demonstrating that our approach outperforms the latest state-of-the-art classification-based methods.

La localizzazione delle sorgenti sonore è un requisito fondamentale per molte tecnologie moderne, come i sistemi di teleconferenza e di sorveglianza, il rendering di audio spaziale e gli assistenti vocali. Di particolare interesse sono i metodi di stima della Direction of Arrival (DOA) basati sulla decomposizione del campo sonoro nel dominio degli Armonici Sferici. In particolare, le registrazioni derivanti da Spherical Microphones Arrays (SMAs) possono essere combinate per ottenere gli Spherical Harmonics Coefficients (SHCs). Studi recenti hanno derivato dagli SHCs un nuovo descrittore audio, noto come Relative Harmonics Coefficients (RHCs). Questi coefficienti teoricamente dipendono solo dalla DOA, e perciò sono stati sfruttati ampliamente nel campo della localizzatione delle fonti sonore. Tuttavia, questa proprietà si indebolisce in condizioni riverberanti e rumorose. Per affrontare questo problema, proponiamo RH-CED (Relative Harmonics - Convolutional Encoder Decoder), un'architettura neurale capace di rendere gli RHCs estratti in condizioni rumorose e riverberanti più simili ai correspondenti coefficienti provenienti da ambienti acustici ideali. Grazie all'uso di Convolutional Neural Networks (CNN) consecutivi, RH-CED è in grado di comprimere l'informazione, eliminando il contributo della riverberazione e del rumore. Il risultato viene quindi esteso applicando il processo inverso, per ottenere una ricostruzione completa dei RHCs in condizioni ideali. Questo studio dimostra che diversi metodi di localizzazione diventano più accurati quando utilizzano RHCs processati da RH-CED. Per valutare le capacità di denoising e dereverberation di RH-CED, si considerano RHCs estratti da ambienti acustici con diversi Signal-to-Noise Ratio (SNR) e T60. A tal proposito, vengono mostrati i risultati del Mean Absolute Estiamation Error (MAEE°) e dell'Angular Distance (AD°) per due diversi metodi di stima di DOA. Gli esperimenti confermano l'influenza positiva di RH-CED sui risultati dei due metodi di localizzazione considerati. Infine, viene discusso il confronto con una recente tecnica basata sul deep learning, considerata allo stato dell'arte per la stima della DOA.

CNN-based estimation of dereverberated relative harmonics coefficients for localization of acoustic sources

MESSANA, SILVIA
2023/2024

Abstract

Sound source localization is a fundamental requirement of many modern technologies including teleconferencing systems, surveillance systems, spatial audio rendering and smart speakers. Recent DOA (Direction Of Arrival) estimators exploit sound field decomposition in Spherical Harmonics Domain. In particular, recordings obtained from Spherical Microphone Arrays (SMAs) can be combined to obtain specialized descriptors of the sound field, known as Spherical Harmonics Coefficients (SHCs). Recent studies have introduced a novel audio descriptor derived from SHCs, known as Relative Harmonic Coefficients (RHCs). RHCs exhibit unique theoretical properties including sole dependence on the sound source's DOA. However, this property is compromised in reverberant and noisy conditions. In this work, we propose RH-CED (Relative Harmonics - Convolutional Encoder Decoder), a neural architecture capable of processing RHCs extracted in noisy and reverberant conditions and reconstructing them to closely match their ideal counterparts. Thanks to the use of stacked Convolutional Neural Networks (CNNs), RH-CED is able to compress information discarding reverberation and noise contributions. By applying the inverse process, the information is then extended to achieve a full reconstruction of features closely resembling the ideal ones. We will show that this framework allows for the partial reestablishment of the ideal properties of RHCs. This will be accomplished by testing different model-based DOA estimators using both non-ideal RHCs and RH-CED processed ones. We tested RH-CED denoising and dereverberating capabilities considering various acoustic environments with different Signal To Noise ratio (SNR) and T60. We present Mean Absolute Estimation Error (MAEE°) and Angular Distance (AD°) results for two different localization methods. The experiments confirm the beneficial influence of RH-CED on DOA estimators under consideration. Finally, we present a comparison with a recent deep learning-based technique for DOA estimation, demonstrating that our approach outperforms the latest state-of-the-art classification-based methods.
GRECO, GIOELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2024
2023/2024
La localizzazione delle sorgenti sonore è un requisito fondamentale per molte tecnologie moderne, come i sistemi di teleconferenza e di sorveglianza, il rendering di audio spaziale e gli assistenti vocali. Di particolare interesse sono i metodi di stima della Direction of Arrival (DOA) basati sulla decomposizione del campo sonoro nel dominio degli Armonici Sferici. In particolare, le registrazioni derivanti da Spherical Microphones Arrays (SMAs) possono essere combinate per ottenere gli Spherical Harmonics Coefficients (SHCs). Studi recenti hanno derivato dagli SHCs un nuovo descrittore audio, noto come Relative Harmonics Coefficients (RHCs). Questi coefficienti teoricamente dipendono solo dalla DOA, e perciò sono stati sfruttati ampliamente nel campo della localizzatione delle fonti sonore. Tuttavia, questa proprietà si indebolisce in condizioni riverberanti e rumorose. Per affrontare questo problema, proponiamo RH-CED (Relative Harmonics - Convolutional Encoder Decoder), un'architettura neurale capace di rendere gli RHCs estratti in condizioni rumorose e riverberanti più simili ai correspondenti coefficienti provenienti da ambienti acustici ideali. Grazie all'uso di Convolutional Neural Networks (CNN) consecutivi, RH-CED è in grado di comprimere l'informazione, eliminando il contributo della riverberazione e del rumore. Il risultato viene quindi esteso applicando il processo inverso, per ottenere una ricostruzione completa dei RHCs in condizioni ideali. Questo studio dimostra che diversi metodi di localizzazione diventano più accurati quando utilizzano RHCs processati da RH-CED. Per valutare le capacità di denoising e dereverberation di RH-CED, si considerano RHCs estratti da ambienti acustici con diversi Signal-to-Noise Ratio (SNR) e T60. A tal proposito, vengono mostrati i risultati del Mean Absolute Estiamation Error (MAEE°) e dell'Angular Distance (AD°) per due diversi metodi di stima di DOA. Gli esperimenti confermano l'influenza positiva di RH-CED sui risultati dei due metodi di localizzazione considerati. Infine, viene discusso il confronto con una recente tecnica basata sul deep learning, considerata allo stato dell'arte per la stima della DOA.
File allegati
File Dimensione Formato  
2024_12_Messana_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 1.66 MB
Formato Adobe PDF
1.66 MB Adobe PDF Visualizza/Apri
2024_12_Messana_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 672.66 kB
Formato Adobe PDF
672.66 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231433