A deep prior approach to room impulse response interpolation

Modeling a room as a linear acoustic system, a Room Impulse Response (RIR) fully describes the point-to-point propagation of sound signals from a source to a receiver. In addition to embedding essential information of the acoustic field, RIRs are widely exploited in many classes of spatial audio algorithms, including beamforming, echo cancellation, auralization, virtual miking, and augmented acoustic reality. Some of these techniques require to sample the acoustic space at different points. Microphone arrays are typically used for this purpose, but the required number of sensing channels can easily become too high and unmanageable. For this reason, it would be desirable to dispose of effective interpolation techniques that allow us to estimate acoustic measurements in points of the room where microphones are not physically present. This thesis presents a novel approach to RIR reconstruction based on a generic linear array with a finite number of microphones. Such an approach is fully data-driven as it does not exploit any information on the room geometry, the position of the source, or the source model. Through the Deep Image Prior (DIP) paradigm, we use a Convolutional Neural Network (CNN) to perform interpolation on the available measured data that are collected in an image. We thus obtain estimates of RIRs referred to points on the line of the linear microphone array where no physical sensors are placed. In particular, according to the DIP paradigm, the CNN is not trained on sample datasets, as is common in traditional deep learning-based techniques. Conversely, it reconstructs the missing data solely using the RIRs that have been measured. The proposed methodology exploits the architecture of a randomly initialized multi-res U-Net as prior knowledge to solve the interpolation problem. Tests carried out on both experimental and simulated data show the effectiveness of the proposed approach in reconstructing RIRs with different amounts of missing data, demonstrating to be effective when applied in different scenarios characterized by various types of subsampling. We also show that the proposed RIR interpolation method is suitable to be included in more advanced spatial audio techniques, such as beamforming algorithms, in order to increase their performance.

Modellando una stanza come un sistema acustico lineare, la risposta all’impulso della stanza (RIR) descrive interamente la propagazione punto a punto dei segnali sonori da una sorgente a un ricevitore. Oltre a incorporare informazioni essenziali relative al campo acustico, le RIR sono ampiamente sfruttate in molte classi di algoritmi audio spaziali, tra cui il beamforming, la cancellazione dell’eco, l’auralizzazione, il microfonaggio virtuale e la realtà acustica aumentata. Alcune di queste tecniche richiedono di campionare lo spazio acustico in diversi punti. Gli array di microfoni vengono generalmente utilizzati per questo scopo, ma il numero di canali di rilevamento richiesto può facilmente diventare troppo grande e ingestibile. Per questo motivo sarebbe auspicabile disporre di tecniche di interpolazione efficaci, che ci permettano di stimare le misurazioni acustiche nei punti della stanza dove non sono fisicamente presenti dei microfoni. Questa tesi presenta un nuovo approccio alla ricostruzione delle RIR, basato su un generico array lineare con un numero finito di microfoni. Tale approccio è completamente basato sui dati, in quanto non sfrutta alcuna informazione riguardo la geometria della stanza, la posizione della sorgente o il modello sorgente. Attraverso il paradigma del DIP (Deep Image Prior), utilizziamo una rete neurale convoluzionale per eseguire l’interpolazione sui dati misurati disponibili, i quali vengono raccolti in un’immagine. Otteniamo così stime di RIR riferite a punti sulla linea dell’array lineare di microfoni dove non è fisicamente posizionato alcun sensore. In particolare, secondo il paradigma del DIP, la rete neurale convoluzionale non viene addestrata su dei set di dati campione, come è comune nelle tecniche tradizionali basate sul deep learning. Al contrario, ricostruisce i dati mancanti utilizzando esclusivamente le RIR che sono state misurate. La metodologia proposta sfrutta l’architettura di una rete multi-res U-Net inizializzata in modo randomico come conoscenza preliminare per risolvere il problema dell’interpolazione. Test effettuati su dati sia sperimentali che simulati mostrano l’efficacia dell’approccio proposto nel ricostruire RIR con differenti quantità di dati mancanti, dimostrandosi efficace quando applicato in differenti scenari caratterizzati da vari tipi di sottocampionamento. Mostriamo anche che il metodo di interpolazione delle RIR proposto è adatto per essere incluso in tecniche audio spaziali più avanzate, come algoritmi di beamforming, al fine di migliorare le loro prestazioni.