Robust parametric spatial audio processing using beamforming techniques

In this thesis we propose a robust spatial audio processing approach combining non-linear parametric processing with linear beamforming techniques. We focus on Directional Audio Coding(DirAC), which is a well-know perceptually motivated technique for parametric spatial audio processing. DirAC provides significant flexibility both on the recording side, i.e. employed microphone configuration, and on the reproduction side, allowing the use of arbitrary reproduction systems. DirAC relies on a single-wave sound field model, which assumes that for each time and frequency, the sound field can be decomposed into a direct sound component and diffuse sound component. The non-linear DirAC employs the well-known Vector Base Amplitude Panning (VBAP) for reproducing the direct sound. When multiple sources are active simultaneously and their spectra overlap in the time-frequency domain, the single-wave sound field model in DirAC is violated causing a considerable degradation of the spatial audio reproduction quality. In this thesis, we focus on reducing the impact of model violations in parametric spatial sound processing. For this purpose, we combine the non-linear DirAC processing with linear beamforming techniques that allow us to reduce the required amount of non-linear parametric panning. More precisely, we aim at approximating the VBAP panning functions used in DirAC by means of spatial filtering such that a linear DirAC processing is achieved when the panning functions are accurately approximated. Specifically we use a constrained Least-Squares beamformer approach to approximate the VBAP gains while forcing the mean White Noise Gain(WNG) to be above a certain minimum threshold. With this constrained approach, we can control the trade-off between robustness against noise and accuracy of the achieved beampattern. As a matter of fact, acceptable the mean WNG thresholds correspond to a deviation of the achieved directional pattern from the desired one. To improve the accuracy we introduce a correction factor designed such that it compensates for inaccurate approximations of the desired panning functions such that a correct direct sound reproduction is achieved. To assess the improvements of the proposed solution we performed simulations for many scenarios, i.e. considering different number of sources and assuming exclusively the direct sound field or including the diffuse sound. From both the objective and the subjective point of view the amount of model violations is reduced compared to the state-of-the-art DirAC and thus improving the spatial audio reproduction, as it was verified through a listening test.

In questa tesi proponiamo un approccio che combina sistemi parametrici e non lineari di elaborazione del suono spaziale con tecniche di beamforming lineari. Tra le diverse tecniche per il suono spaziale presenti in letteratura, ci siamo focalizzati sul Directional Audio Coding(DirAC), che è un nota tecnica che si fonda sugli aspetti percettivi del suono. DirAC offre una significativa flessibilità sia dal punto di vista delle configurazioni dei microfoni utilizzate per acquisire il suono sia dal punto di vista della riproduzione permettendo l'utilizzo di sistemi di riproduzione arbitrari. DirAC si basa su un modello del campo acustico che ammette un signola onda per ogni istante di tempo e per ogni frequenza e che può essere scomposto in due componenti, ovvero il suono diretto e il suono diffuso. Per riprodurre il suono diretto viene utilizzato una conosciuta tecnica per il posizionamento delle sorgenti virtuali, ovvero il Vector Base Amplitude Panning (VBAP). Quando molteplici sorgenti sono attive contemporaneamente e i loro spettri sono sovrapposti nel dominio tempo-frequenza, il modello del campo acustico basato su una singola onda viene violato causando una considerevole degradazione della qualità della riproduzione del suono e della sua spazialità. In questa tesi, intendiamo ridurre l'impatto delle violazioni del modello nei sistemi di processing dell' audio spaziale combinando questi ultimi con tecniche lineari di beamforming che ci permettono di ridurre il panning parametrico non lineare. Più precisamente, intediamo approssimare le funzioni di panning del VBAP attraverso sistemi di filtraggio spaziale affinchè DirAC diventi un sistema di elaborazione del suono lineare a patto che le funzioni di panning siano approssimate accuratamente. Nello specifico, usiamo un beamfomer Least-Squares(LS) che approssima le funzioni di panning del VBAP ma allo stesso tempo consente di limitare il White Noise Gain (WNG) medio al di sopra di una soglia minima. Con questo approccio, possiamo controllare il trade-off tra robustezza contro il rumore e l'accuratezza del beampattern ottenuto. Nella pratica, valori accettabile del WNG medio corrispondono solitamente a deviazioni del beampattern ottenuto rispetto a quello desiderato. Per migliorare l'accuratezza della soluzione proposta, introduciamo un fattore di correzione che è stato progettato per compensare le approssimazioni inaccurate delle funzioni di panning e che permette quindi di ottenere una corretta riproduzione del suono diretto. Per valutare i miglioramenti apportati dal soluzione proposta, abbiamo svolto simulazioni per diversi scenari considerando un numero diverso di sorgenti e di segnali. Sia dal punto di vista oggettivo che soggettivo l'impatto delle violazioni del modello è stato ridotto rispetto allo stato dell'arte comporando un miglioramento della riproduzione del suono e della sua spazialità, come è stato riscontrato dal listening test effettuato.