Towards soundfield rendering with distributed loudspeaker arrays using convolutional neural networks applied to the ray space transform

The problem of Sound field Rendering (SFR) has been of crucial interest to research for years, due to its various application domains. The goal of this thesis is the reproduction, inside a listening region, of the sound field generated by acoustic virtual sources through a setup consisting of a Uniform Linear Array (ULA) of loudspeakers where some of them are missing, i.e. resulting in an array with irregular spacing between the loudspeakers. To address the problem, we want to derive the loudspeakers’ rendering coefficients exploiting an intermediate representation of the sound field given by the Ray Space Transform (RST): it maps information acquired by a previously placed ULA of microphones at the same position of the ULA of loudspeakers, onto the ray space domain. In this domain, a point source corresponds to a ray in the Euclidean space, i.e. an oriented line on which the acoustic energy is carried. Along with it, we choose as a guide an SFR method based on the Plane Wave Decomposition (PWD) aided by beamforming, in order to compute the loudspeakers’ rendering coefficients and the resulting fields. In order to do so, we use a data-driven approach using a Deep Convolutional Neural Network on a Regression problem. We split this problem into two steps: in the first, the CNN must learn a mapping between the input RST image and the loudspeakers’ rendering coefficients in order to reconstruct the sound field in the case of a full ULA of loudspeakers. In the second, due to the missing loudspeakers and of the previously placed microphones, the degraded version of the RST is used in the Network, which has to exploit the Transfer Learning technique to compensate for the absence of those loudspeakers, to account for accurate reproduction of the final sound field. We provide simulations, showing the conditions in which our method outperforms the PWD one, while accounting for a minimum error with respect to the sound field reproduced by a given real source in the room. The results of this work can be seen as an exploratory step towards an SFR problem with distributed loudspeaker arrays, using Deep Learning techniques combined with the Ray Space representation.

Il problema della riproduzione di campi acustici è stato di fondamentale interesse di ricerca per anni, grazie ai suoi vari campi applicativi. L’obiettivo della tesi è la riproduzione, all’interno di un’area d’ ascolto, del campo acustico generato da sorgenti acustiche virtuali attraverso un setup costituito da una schiera lineare uniforme di altoparlanti con alcuni di essi mancanti, risultandone in uno spaziamento irregolare. Per affrontare il problema, vogliamo derivare i coefficienti di riproduzione degli altoparlanti usando una rappresentazione intermedia del campo acustico, quale la Trasformata Ray Space RST. Essa mappa le informazioni acquisite da una schiera di microfoni precedentemente posizionato nella stessa posizione della schiera di altoparlanti, nel dominio dello spazio dei raggi: qui una sorgente puntiforme corrisponde a un raggio nello spazio euclideo, ossia una linea orientata sulla quale viene trasportata l’energia acustica. Inoltre, scegliamo come guida un metodo di riproduzione basato sulla decomposizione in onde piane PWD con tecniche di filtraggio spaziale per calcolare i coefficienti di riproduzione e i campi risultanti. In questo lavoro, utilizziamo un approccio basato sulle Reti Neurali Convoluzionali su un problema di regressione. Abbiamo diviso il problema in due fasi: nella prima, la rete deve imparare una corrispondenza tra l’immagine della RST in ingresso e i coefficienti di riproduzione per ricostruire il campo acustico nel caso di una schiera completa. Nella seconda, a causa della mancanza di altoparlanti e dei microfoni precedentemente posizionati, viene utilizzata la versione degradata della RST; si sfrutta quindi il Transfer Learning per compensare l’assenza di tali altoparlanti per una riproduzione accurata del campo finale. Per dimostrarne l’efficacia, mostriamo le condizioni in cui il nostro metodo supera quello basato su PWD, contando di minimizzare l’errore rispetto al campo riprodotto da una data sorgente reale nella stanza. I risultati di questo lavoro possono essere visti come un primo passo versoun problema con schiere di altoparlanti distribuiti, utilizzando il Deep Learning combinato con la Trasformata Ray Space.