Interpreting deep neural networks models for acoustic source localization using layer-wise relevance propagation

The application of deep learning techniques to space-time audio processing problems has grown steadily over the years, allowing to obtain excellent performances. However, deep learning methods are generally treated as black box models with respect to their input-output relationship. In order to interpret them and take advantage of such knowledge, interest has grown towards the understanding of how models derive their output decisions. In particular, the objective of this thesis is to explore the interpretability of deep neural networks models for Sound Source Localization and Direction of Arrival estimation, by using the analysis method named as Layer-wise Relevance Propagation. We propose an approach based on this technique for relevant input features manipulation, in order to provide an insight into the learning process of two existing models for Sound Source Localization and Direction of Arrival estimation. The considered architectures process respectively raw-audio signals and phase components of the Short-Time Fourier Transform coefficients of the received microphones signals, providing as output the estimated three cartesian coordinates or the Direction of Arrival of the emitting sources. Based on the relevant input features manipulation approach, which consists in modifying the input signals according to the relevance scores and computing the network prediction, hypotheses about the learning process of the neural networks are derived according to different environment and signals conditions. The results suggest that, receiving as input directly the raw-audio signals, only few samples turn out to be more relevant than others in providing an accurate localization and the remaining parts of the signal contribute almost in the same way to the prediction of the network. This aspect seems to be more evident considering the microphones positioned far from the sources for high reverberation and low noise conditions. If the input-output relationship has a more evident and less forced physical meaning, such as for the Direction of Arrival estimation model, instead, the network seems to rely on more input components.

L'applicazione delle tecniche di apprendimento profondo a problemi di elaborazione spazio-temporale del suono è cresciuta regolarmente nel corso degli anni, permettendo di ottenere ottime prestazioni. Tuttavia, i metodi basati sull'apprendimento profondo sono generalmente trattati come modelli a scatola chiusa rispettivamente alla loro relazione tra ingresso e uscita. Per interpretarli e trarre vantaggio dalla loro conoscenza, è cresciuto l'interesse verso la comprensione di come questi modelli derivino le decisioni finali. In particolare, l'obiettivo di questa tesi è quello di esplorare l'interpretabilità di modelli di reti neurali profonde per localizzazione di sorgenti e stima della direzione di arrivo, usando la tecnica della propagazione della rilevanza attraverso gli strati della rete. Proponiamo una strategia basata su questa tecnica per manipolare le componenti dell'ingresso più rilevanti, in modo da fornire una visione all'interno del processo di apprendimento di due modelli esistenti per localizzazione di sorgenti e stima della direzione di arrivo. Le architetture considerate processano rispettivamente segnali audio puri e componenti della fase della trasformata di Fourier a tempo breve dei segnali ricevuti ai microfoni, fornendo come uscita la stima delle tre coordinate cartesiane o della direzione di arrivo delle sorgenti. Basandoci sul metodo della manipolazione delle componenti dell'ingresso più rilevanti, che consiste nel modificare i valori significativi del segnale in ingresso e calcolare la predizione della rete, deriviamo delle ipotesi sul processo di apprendimento delle reti neurali in base a diverse condizioni di ambiente e segnali. I risultati suggeriscono che, ricevendo in ingresso direttamente i segnali puri, solo alcuni campioni risultano più rilevanti di altri nel fornire una localizzazione accurata e le restanti parti del segnale contribuiscono quasi allo stesso modo alla predizione della rete. Questo aspetto sembra essere più evidente considerando microfoni posizionati lontano dalle sorgenti per condizioni di alto riverbero e basso rumore. Se la relazione tra ingresso e uscita ha un significato fisico meno forzato e più evidente, come per il modello per la stima della direzione di arrivo, invece, la rete sembra fare affidamento a più componenti dell'ingresso.