This thesis proposes novel techniques for sound field reconstruction and analysis. The sound field reconstruction is here conceived as the problem of estimating the sound field at points arbitrarily placed in the space starting from the signals acquired by one or multiple microphone arrays. This problem is strictly related to the analysis of the sound field that concerns the extraction of relevant information such as, for example, the location of the sources and/or the geometry of the room from microphone array signals. In particular, as far as the sound field reconstruction is concerned, spatial distributions of microphones enable to capture and record acoustic scene from different points of view. With proper processing algorithms it is possible to estimate the sound field at points in space that differ from where it was measured. This enables the navigation of a recorded acoustic scene independently of the position of the spatially distributed microphones. This problem has been recently addressed using two different approaches: parametric (model based) and non-parametric. In this thesis, we propose novel techniques for both these paradigms. On one hand, for parametric methods, we propose new approaches that keep into account the directivity of the sources in both anechoic and reverberant environments. On the other hand, for non-parametric methods, we exploit room impulse response measurements in order to find a direct relationship between the field emitted by the sources and the resulting reverberant field and consequently reduce the requirements in terms of computational costs and hardware. As far as the sound field analysis is concerned, we propose different representations of the sound field for both source localization and geometry inference. In particular, as regards the source localization, we extend an approach that proposes to represent the sound field in a domain, known as ray space, where each point is a ray. In this domain acoustic primitives, such as point sources, are mapped onto linear patterns thus enabling the localization of the sources to be tackled with the help of pattern recognition algorithms. This thesis extends such an approach in order to accommodate different microphone array distributions in both 2D and 3D geometries. Furthermore we developed a new beamforming system based on multiple differential microphones that can be possibly employed to improve the mapping in the ray space domain. Moreover, we propose a novel representation of the room impulse response measurements acquired from a linear array of loudspeakers/microphones and a single microphone/loudspeaker in order to estimate the geometry of a room. More precisely, this representation consists of a 2D polar-coordinate map, on which the direct path and early reflections appear as distinct peaks, described by their propagation distance and direction of arrival. Through a proper analysis of such a map, a set of candidates geometries is obtained. The evaluation of a cost function determines the best candidate. The solutions proposed in this thesis find potential applications in a wide range of fields, such as virtual/augmented reality, teleconference systems, gaming and smart home sensors.

In questa tesi si propongono nuove tecniche per la ricostruzione e l'analisi del campo sonoro. La ricostruzione del campo sonoro riguarda il problema della stima dello stesso in punti arbitrariamente collocati nello spazio a partire dai segnali acquisiti da una o più schiere microfoniche. Questo problema è strettamente collegato all'analisi del campo sonoro che riguarda l'estrazione di informazioni rilevanti come, ad esempio, la posizione delle sorgenti acustiche e/o la geometria della stanza, dai segnali ottenuti da schiere microfoniche. In particolare, per quanto riguarda la ricostruzione del campo sonoro, distribuzioni spaziali dei microfoni consentono di catturare e registrare scene acustiche da diversi punti di vista. Con algoritmi di elaborazione adeguati è possibile stimare il campo sonoro in punti nello spazio che differiscono rispetto a quelli in cui è stato misurato. Ciò consente la navigazione di una scena acustica registrata indipendentemente dalla posizione dei microfoni distribuiti nello spazio. Questo problema è stato recentemente affrontato utilizzando due approcci diversi: parametrici (basati su modelli) e non parametrici. In questa tesi proponiamo nuove tecniche per entrambi questi paradigmi. Da un lato, per i metodi parametrici, proponiamo nuovi approcci che tengono conto della direttività delle sorgenti acustiche in ambienti sia anecoici che riverberanti. D'altra, per i metodi non parametrici, sfruttiamo le misurazioni delle risposte all'impulso dell'ambiente al fine di trovare una relazione diretta tra il campo emesso dalle sorgenti sonore e il risultante campo riverberante riducendo così i requisiti in termini di costi computazionali e di hardware. Per quanto riguarda l'analisi del campo sonoro, proponiamo diverse rappresentazioni dei segnali acustici che veranno utilizzate sia per la localizzazione della sorgenti acustiche che per l'inferenza della geometria. In particolare, per quanto riguarda la localizzazione della sorgenti, estendiamo un approccio che propone di rappresentare il campo sonoro in un dominio, noto come spazio dei raggi, in cui ogni punto rappresenta un raggio. In questo dominio, le primitive acustiche, come le sorgenti puntiformi, vengono mappate su pattern lineari permettendo così di utilizzare algoritmi di analisi dei pattern al fine di localizzare le sorgenti. In questa tesi estendiamo tale approccio al fine di adattarsi a diverse distribuzioni di schiere microfoniche in geometrie sia 2D che 3D. Inoltre abbiamo sviluppato un nuovo sistema di beamforming, basato su più microfoni differenziali, che può essere eventualmente impiegato per migliorare la mappatura nello spazio dei raggi. Proponiamo anche una nuova rappresentazione delle misure di risposta all'impulso ambientali acquisite da una schiera lineare di altoparlanti/microfoni e un singolo microfono/altoparlante al fine di stimare la geometria di una stanza. Più precisamente, questa rappresentazione consiste in una mappa di coordinate polari 2D, sulla quale il percorso diretto e le prime riflessioni appaiono come picchi distinti, descritti dalla loro distanza di propagazione e dalla direzione di arrivo. Attraverso una analisi di tale mappa si ottiene un insieme di geometrie candidate. La valutazione di una funzione di costo determina la miglior candidata. Le soluzioni proposte in questa tesi trovano potenziali applicazioni in una vasta gamma di campi, come la realtà virtuale/aumentata, sistemi di teleconferenza, videogiochi e sensori smart per la casa.

Space-Time Processing for Sound Field Reconstruction (SENSE)

BORRA, FEDERICO

Abstract

This thesis proposes novel techniques for sound field reconstruction and analysis. The sound field reconstruction is here conceived as the problem of estimating the sound field at points arbitrarily placed in the space starting from the signals acquired by one or multiple microphone arrays. This problem is strictly related to the analysis of the sound field that concerns the extraction of relevant information such as, for example, the location of the sources and/or the geometry of the room from microphone array signals. In particular, as far as the sound field reconstruction is concerned, spatial distributions of microphones enable to capture and record acoustic scene from different points of view. With proper processing algorithms it is possible to estimate the sound field at points in space that differ from where it was measured. This enables the navigation of a recorded acoustic scene independently of the position of the spatially distributed microphones. This problem has been recently addressed using two different approaches: parametric (model based) and non-parametric. In this thesis, we propose novel techniques for both these paradigms. On one hand, for parametric methods, we propose new approaches that keep into account the directivity of the sources in both anechoic and reverberant environments. On the other hand, for non-parametric methods, we exploit room impulse response measurements in order to find a direct relationship between the field emitted by the sources and the resulting reverberant field and consequently reduce the requirements in terms of computational costs and hardware. As far as the sound field analysis is concerned, we propose different representations of the sound field for both source localization and geometry inference. In particular, as regards the source localization, we extend an approach that proposes to represent the sound field in a domain, known as ray space, where each point is a ray. In this domain acoustic primitives, such as point sources, are mapped onto linear patterns thus enabling the localization of the sources to be tackled with the help of pattern recognition algorithms. This thesis extends such an approach in order to accommodate different microphone array distributions in both 2D and 3D geometries. Furthermore we developed a new beamforming system based on multiple differential microphones that can be possibly employed to improve the mapping in the ray space domain. Moreover, we propose a novel representation of the room impulse response measurements acquired from a linear array of loudspeakers/microphones and a single microphone/loudspeaker in order to estimate the geometry of a room. More precisely, this representation consists of a 2D polar-coordinate map, on which the direct path and early reflections appear as distinct peaks, described by their propagation distance and direction of arrival. Through a proper analysis of such a map, a set of candidates geometries is obtained. The evaluation of a cost function determines the best candidate. The solutions proposed in this thesis find potential applications in a wide range of fields, such as virtual/augmented reality, teleconference systems, gaming and smart home sensors.
PERNICI, BARBARA
MONTI-GUARNIERI, ANDREA VIRGILIO
28-feb-2020
Space-Time Processing for Sound Field Reconstruction (SENSE)
In questa tesi si propongono nuove tecniche per la ricostruzione e l'analisi del campo sonoro. La ricostruzione del campo sonoro riguarda il problema della stima dello stesso in punti arbitrariamente collocati nello spazio a partire dai segnali acquisiti da una o più schiere microfoniche. Questo problema è strettamente collegato all'analisi del campo sonoro che riguarda l'estrazione di informazioni rilevanti come, ad esempio, la posizione delle sorgenti acustiche e/o la geometria della stanza, dai segnali ottenuti da schiere microfoniche. In particolare, per quanto riguarda la ricostruzione del campo sonoro, distribuzioni spaziali dei microfoni consentono di catturare e registrare scene acustiche da diversi punti di vista. Con algoritmi di elaborazione adeguati è possibile stimare il campo sonoro in punti nello spazio che differiscono rispetto a quelli in cui è stato misurato. Ciò consente la navigazione di una scena acustica registrata indipendentemente dalla posizione dei microfoni distribuiti nello spazio. Questo problema è stato recentemente affrontato utilizzando due approcci diversi: parametrici (basati su modelli) e non parametrici. In questa tesi proponiamo nuove tecniche per entrambi questi paradigmi. Da un lato, per i metodi parametrici, proponiamo nuovi approcci che tengono conto della direttività delle sorgenti acustiche in ambienti sia anecoici che riverberanti. D'altra, per i metodi non parametrici, sfruttiamo le misurazioni delle risposte all'impulso dell'ambiente al fine di trovare una relazione diretta tra il campo emesso dalle sorgenti sonore e il risultante campo riverberante riducendo così i requisiti in termini di costi computazionali e di hardware. Per quanto riguarda l'analisi del campo sonoro, proponiamo diverse rappresentazioni dei segnali acustici che veranno utilizzate sia per la localizzazione della sorgenti acustiche che per l'inferenza della geometria. In particolare, per quanto riguarda la localizzazione della sorgenti, estendiamo un approccio che propone di rappresentare il campo sonoro in un dominio, noto come spazio dei raggi, in cui ogni punto rappresenta un raggio. In questo dominio, le primitive acustiche, come le sorgenti puntiformi, vengono mappate su pattern lineari permettendo così di utilizzare algoritmi di analisi dei pattern al fine di localizzare le sorgenti. In questa tesi estendiamo tale approccio al fine di adattarsi a diverse distribuzioni di schiere microfoniche in geometrie sia 2D che 3D. Inoltre abbiamo sviluppato un nuovo sistema di beamforming, basato su più microfoni differenziali, che può essere eventualmente impiegato per migliorare la mappatura nello spazio dei raggi. Proponiamo anche una nuova rappresentazione delle misure di risposta all'impulso ambientali acquisite da una schiera lineare di altoparlanti/microfoni e un singolo microfono/altoparlante al fine di stimare la geometria di una stanza. Più precisamente, questa rappresentazione consiste in una mappa di coordinate polari 2D, sulla quale il percorso diretto e le prime riflessioni appaiono come picchi distinti, descritti dalla loro distanza di propagazione e dalla direzione di arrivo. Attraverso una analisi di tale mappa si ottiene un insieme di geometrie candidate. La valutazione di una funzione di costo determina la miglior candidata. Le soluzioni proposte in questa tesi trovano potenziali applicazioni in una vasta gamma di campi, come la realtà virtuale/aumentata, sistemi di teleconferenza, videogiochi e sensori smart per la casa.
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis.pdf

non accessibile

Descrizione: phd_thesis
Dimensione 13.42 MB
Formato Adobe PDF
13.42 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169287