The problem of source localization in noisy and reverberating envi- ronments is still an open and challenging problem in the signal processing field. Typically, the identification of the so-called direction of arrival (DOA) concerns the estimation of the position of acoustic sources from a multichannel recording. The localization of a sound source can be fundamental in various applications, such as speech and speaker recognition, audio surveillance, and virtual and augmented reality. Recent model-based approaches try to overcome this problem using a spherical harmonics domain (SHD) source feature named relative harmonics coefficients (RHC). Other solutions, use deep learning techniques to address DOA estimation by learning features through artificial networks. In this work, we propose a new method for DOA classification exploring the convolutional recurrent neural network (CRNN) with RHC as input features. In order to classify simultaneously the azimuth and the elevation, the final section of the proposed CRNN is composed of two independent fully connected (FC) networks. Then, we present a siamese neural network trained with the technique known as triplet loss. The main ad vantage of the proposed training technique is that the network learns a structured feature representation that organizes samples from the same class closer to each other while keeping samples from different classes apart. We demonstrated that the use of triplet loss training to obtain feature embeddings results in a good DOA estimation performance on simulations at various signal-to-noise (SNR) ratios and reverberation time RT60. For the evaluation of the proposed method, we considered the gross error (GE), the localization error (LR), and the mean absolute estimated error (MAEE/°). Experiments confirm that the triplet loss approach produces a more structured and meaningful features embedding, implying superior features space interpretability. Finally, the DOA estimation performance of the proposed approach is compared with conventional subspace methods, demonstrating a more robust performance in noisy and reverberant acoustic scenarios, and higher localization accuracy.

La localizzazione di sorgenti sonore in ambienti rumorosi e riverberanti è ancora un problema aperto e complesso nel campo dell'elaborazione dei segnali. Tipicamente, l'identificazione della direzione di arrivo di un suono viene eseguita a partire da una registrazione multicanale. L'informazione della posizione di una sorgente sonora può essere fondamentale in diverse applicazioni, come il riconscimento di una voce o di un altoparlante, sorveglianza audio, realtà virtuale e aumentata. Recenti approcci al problema sono basati su modelli che sfruttano una particolare trasformazione dei segnali nel dominio delle armoniche sferiche, chiamati coefficienti armonici relativi. Altri recenti approcci propongono tecniche di deep learning per affrontare la stima della posizione della sorgente sonora, apprendendo le sue caratteristiche da reti neurali. In questo elaborato, proponiamo un nuovo metodo per la classificazione della direzione di arrivo esplorando la rete neurale convoluzionale ricorrente attraverso l'impiego dei coefficienti armonici relativi. In modo da classificare simultaneamente orientamento e ed elevazione, la parte finale della rete convoluzionale ricorrente è composta da due reti fully connected indipendenti. Successivamente, presentiamo una rete neurale siamese allenata con la tecnica nota come triplet loss. Il principale vantaggio dell'allenamento con triplet loss è che la rete apprende un rappresentazione strutturata dei dati, organnizzando i campioni della stessa classe vicini tra loro e allo stesso tempo separando i campioni di classi diverse. A tal proposito, abbiamo dimostrato che impiegando la triplet loss nell'allenamento della rete neurale, la rete è capace di localizzare la sorgente acustica in modo efficace anche in simulazioni con un basso rapporto segnale-rumore e un alto tempo di riverberazione. Gli esperimenti effettuati confermano che l'approccio proposto in questo elaborato producono una rappresentazione dei dati meno sparsa, implicandone una superiore interpretabilità. Infine, le prestazioni del metodo proposto nella localizzazione della sorgente sono confrontati con i risultati di metodi convenzionali, esibendo una maggiore robustezza in presenza di riverbero e rumore.

Direction of arrival estimation using convolutional recurrent neural network with relative harmonic coefficients and triplet loss in noisy and reverberating environments

Cattaneo, Luca
2022/2023

Abstract

The problem of source localization in noisy and reverberating envi- ronments is still an open and challenging problem in the signal processing field. Typically, the identification of the so-called direction of arrival (DOA) concerns the estimation of the position of acoustic sources from a multichannel recording. The localization of a sound source can be fundamental in various applications, such as speech and speaker recognition, audio surveillance, and virtual and augmented reality. Recent model-based approaches try to overcome this problem using a spherical harmonics domain (SHD) source feature named relative harmonics coefficients (RHC). Other solutions, use deep learning techniques to address DOA estimation by learning features through artificial networks. In this work, we propose a new method for DOA classification exploring the convolutional recurrent neural network (CRNN) with RHC as input features. In order to classify simultaneously the azimuth and the elevation, the final section of the proposed CRNN is composed of two independent fully connected (FC) networks. Then, we present a siamese neural network trained with the technique known as triplet loss. The main ad vantage of the proposed training technique is that the network learns a structured feature representation that organizes samples from the same class closer to each other while keeping samples from different classes apart. We demonstrated that the use of triplet loss training to obtain feature embeddings results in a good DOA estimation performance on simulations at various signal-to-noise (SNR) ratios and reverberation time RT60. For the evaluation of the proposed method, we considered the gross error (GE), the localization error (LR), and the mean absolute estimated error (MAEE/°). Experiments confirm that the triplet loss approach produces a more structured and meaningful features embedding, implying superior features space interpretability. Finally, the DOA estimation performance of the proposed approach is compared with conventional subspace methods, demonstrating a more robust performance in noisy and reverberant acoustic scenarios, and higher localization accuracy.
PEZZOLI, MIRCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-mag-2023
2022/2023
La localizzazione di sorgenti sonore in ambienti rumorosi e riverberanti è ancora un problema aperto e complesso nel campo dell'elaborazione dei segnali. Tipicamente, l'identificazione della direzione di arrivo di un suono viene eseguita a partire da una registrazione multicanale. L'informazione della posizione di una sorgente sonora può essere fondamentale in diverse applicazioni, come il riconscimento di una voce o di un altoparlante, sorveglianza audio, realtà virtuale e aumentata. Recenti approcci al problema sono basati su modelli che sfruttano una particolare trasformazione dei segnali nel dominio delle armoniche sferiche, chiamati coefficienti armonici relativi. Altri recenti approcci propongono tecniche di deep learning per affrontare la stima della posizione della sorgente sonora, apprendendo le sue caratteristiche da reti neurali. In questo elaborato, proponiamo un nuovo metodo per la classificazione della direzione di arrivo esplorando la rete neurale convoluzionale ricorrente attraverso l'impiego dei coefficienti armonici relativi. In modo da classificare simultaneamente orientamento e ed elevazione, la parte finale della rete convoluzionale ricorrente è composta da due reti fully connected indipendenti. Successivamente, presentiamo una rete neurale siamese allenata con la tecnica nota come triplet loss. Il principale vantaggio dell'allenamento con triplet loss è che la rete apprende un rappresentazione strutturata dei dati, organnizzando i campioni della stessa classe vicini tra loro e allo stesso tempo separando i campioni di classi diverse. A tal proposito, abbiamo dimostrato che impiegando la triplet loss nell'allenamento della rete neurale, la rete è capace di localizzare la sorgente acustica in modo efficace anche in simulazioni con un basso rapporto segnale-rumore e un alto tempo di riverberazione. Gli esperimenti effettuati confermano che l'approccio proposto in questo elaborato producono una rappresentazione dei dati meno sparsa, implicandone una superiore interpretabilità. Infine, le prestazioni del metodo proposto nella localizzazione della sorgente sono confrontati con i risultati di metodi convenzionali, esibendo una maggiore robustezza in presenza di riverbero e rumore.
File allegati
File Dimensione Formato  
CattaneoLucaTesi.pdf

Open Access dal 15/04/2024

Dimensione 1.74 MB
Formato Adobe PDF
1.74 MB Adobe PDF Visualizza/Apri
ExecutiveSummary_CattaneoLuca.pdf

accessibile in internet per tutti

Dimensione 863.82 kB
Formato Adobe PDF
863.82 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208311