The use of spatial audio technologies has become essential in various contexts like entertainment and teleconferencing to enhance the user experience. Accurate sound field reproduction is critical to the creation of high-quality virtual environments in applications including navigable audio, virtual reality and augmented reality. When capturing a sound field, one essential tool to consider is the microphone. To this end, higher-order microphones are versatile devices specifically designed to capture the spatial characteristics of a sound field. Precise placement of the microphone arrays is critical during the acquisition process, and employing spatial calibration based on acoustic measurements offers an effective alternative to traditional methods in most spatial audio tasks. Initially, the raw signals coming from the microphones are encoded in a sound field representation, such as the Spherical Harmonics Decomposition (SHD), which is then rendered to provide an immersive experience for the listener. In particular, binaural rendering techniques are employed to reproduce sounds at the listener's ears. This thesis presents a framework for spatial calibration and real-time binaural rendering of a distribution of multiple microphone arrays. The calibration algorithm uses the microphone array geometry as a constraint. Later the geometry is exploited as a source for computing coefficients for the decomposition of the acquired sound field into spherical harmonics. The encoded signals are processed in the spherical harmonic domain using the Head Related Transfer Function to obtain the desired binaural signal. The framework allows a flexible configuration of the parallel processing of the arrays and real-time control of processing parameters. The developed functionalities are evaluated in a test session. First, the calibration algorithm is tested by comparing the acoustic measurements with the geometric ones, and later a perceptual evaluation session is conducted to evaluate the rendering framework.
L'utilizzo di tecnologie legate all'audio spaziale è diventato essenziale in diversi contesti, quali l’intrattenimento e la teleconferenza per migliorare la qualità dell'esperienza utente. L'accurata riproduzione del campo sonoro risulta sempre più importante per l'elaborazione di ambienti virtuali in applicazioni come audio navigabile, realtà virtuale e realtà aumentata. Durante l’acquisizione del campo acustico, il microfono è uno strumento essenziale. A questo fine, gli array microfonici di ordine superiore sono dispositivi versatili progettati per l’acquisizione delle caratteristiche spaziali della scena sonora. Il preciso posizionamento degli array è un aspetto rilevante durante il processo di acquisizione. Per fare ciò, la calibrazione spaziale tramite misure acustiche offre una valida alternativa a metodi tradizionali nella maggior parte delle applicazioni legate all'audio spaziale. Inizialmente, i segnali grezzi provenienti dai microfoni sono codificati attraverso una rappresentazione del campo acustico, come la Decomposizione in Armoniche Sferiche (DAS). Essa è poi riprodotta per restituire alle orecchie dell' ascoltatore un'esperienza immersiva, tramite tecniche di rendering binaurale. Questa tesi presenta un framework per la calibrazione spaziale e il rendering binaurale di una serie di array microfonici in tempo reale. L'algoritmo di calibrazione utilizza la geometria degli array microfonici come vincolo. Successivamente la geometria è utilizzata come fonte per il calcolo dei coefficienti per la DAS del campo sonoro acquisito. I segnali codificati sono processati nel dominio delle armoniche sferiche tramite Head Related Transfer Function per ottenere il segnale binaurale desiderato. Il framework consente una configurazione flessibile degli strumenti di elaborazione parallela dei segnali e il controllo in tempo reale dei parametri di processazione. Le funzionalità sviluppate sono state valutate in una sessione di test, effettuando prima un test dell'algoritmo di calibrazione, comparando le misure acustiche con quelle geometriche. Successivamente è stata condotta una valutazione percettiva del framework di rendering.
Real-time binaural rendering and spatial calibration framework for multiple higher order microphones
Ostan, Paolo
2022/2023
Abstract
The use of spatial audio technologies has become essential in various contexts like entertainment and teleconferencing to enhance the user experience. Accurate sound field reproduction is critical to the creation of high-quality virtual environments in applications including navigable audio, virtual reality and augmented reality. When capturing a sound field, one essential tool to consider is the microphone. To this end, higher-order microphones are versatile devices specifically designed to capture the spatial characteristics of a sound field. Precise placement of the microphone arrays is critical during the acquisition process, and employing spatial calibration based on acoustic measurements offers an effective alternative to traditional methods in most spatial audio tasks. Initially, the raw signals coming from the microphones are encoded in a sound field representation, such as the Spherical Harmonics Decomposition (SHD), which is then rendered to provide an immersive experience for the listener. In particular, binaural rendering techniques are employed to reproduce sounds at the listener's ears. This thesis presents a framework for spatial calibration and real-time binaural rendering of a distribution of multiple microphone arrays. The calibration algorithm uses the microphone array geometry as a constraint. Later the geometry is exploited as a source for computing coefficients for the decomposition of the acquired sound field into spherical harmonics. The encoded signals are processed in the spherical harmonic domain using the Head Related Transfer Function to obtain the desired binaural signal. The framework allows a flexible configuration of the parallel processing of the arrays and real-time control of processing parameters. The developed functionalities are evaluated in a test session. First, the calibration algorithm is tested by comparing the acoustic measurements with the geometric ones, and later a perceptual evaluation session is conducted to evaluate the rendering framework.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Ostan_Tesi_01.pdf
non accessibile
Descrizione: Testo tesi
Dimensione
4.28 MB
Formato
Adobe PDF
|
4.28 MB | Adobe PDF | Visualizza/Apri |
2024_04_Ostan_Executive_Summary_02.pdf
non accessibile
Descrizione: Executive summary
Dimensione
224.06 kB
Formato
Adobe PDF
|
224.06 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/219829