Acoustic scene analysis is the process of acquiring and interpreting from different perspective the soundfield in the environment. Among the problems that need to be investigated in order to characterize an acoustic scene, we focus on multiple near field source localization, noise reduction and source separation using a spatially extended microphone array. Instead of adopting, among the approaches there exists in the literature, ad hoc solutions for the specific problems, we take advantage of the flexibility of a novel parametrization of the plenacoustic function, the Ray Space. The key advantage is that the information acquired by the sensors can be displayed as plenacoustic images, in which acoustic primitives, such as sources, are mapped onto rectilinear regions. Each region exhibits peaks that tend to cluster on lines, whose parameters provide an estimate of the source location. In this way, space time processing problems, such as source localization, can be addressed with methods from the pattern analysis and multidimensional signal processing communities. In this thesis, we adopt this powerful analysis framework, aiming at demonstrating that the plenacoustic representation is suitable both for source separation and source localization purposes. The plenacoustic image generation, in fact, is used as a pre-processing step to address the problems under analysis through the study of plenacoustic images. At this purpose, we developed a system able to process, in a frame by frame fashion, the signals acquired with a microphone array, construct a plenacoustic image for each frame, and extract the location estimates and the signal content of a given source. In order to speedup the computation of the plenacoustic images a novel approach is proposed, which is based on a linear transformation of the acquired data. The linear operator that acts this transformation is independent on data and therefore can be precomputed, thus enabling a relevant saving in computational burden. As far as the extraction of the signal content related on a single source is concerned, instead, an approach based on the definition and application of windowing functions to the plenacoustic images is adopted. Simulations and experiments conducted in reverberant rooms show good results in terms of localization accuracy and quality of separation. As far as the separation algorithm is concerned, the experimental results do not exhibit critical degradations in terms of quality of separation when dealing with worst case scenarios, such as reverberant environments.

L'analisi di scene acustiche può essere definita come il processo di acquisizione ed interpretazione sotto diversi punti di vista del campo sonoro diffuso in un ambiente. Tra le problematiche da affrontare per poter caratterizzare una scena acustica, ci si è focalizzati su localizzazione di sorgenti in campo vicino, attenuazione del rumore e separazione di segnali sorgente basate su schiere estese di microfoni. Più che l'adozione di soluzioni ad hoc per i singoli problemi in analisi, l'approccio seguito sfrutta la duttilità offerta da una innovativa parametrizzazione della funzione plenacustica, lo Spazio dei Raggi. Questa consente di organizzare le informazioni acquisite dalla schiera in strutture dati rappresentabili in forma di immagini plenacustiche, in cui primitive acustiche quali sorgenti e riflettori vengono mappate su regioni rettilinee. Ogni regione presenta picchi di ampiezza che tendono a concentrarsi su rette, i cui parametri forniscono una stima della posizione sorgente. L'analisi della scena acustica quindi è affrontata con un uso sinergico di elaborazione spazio-temporale e tecniche di pattern analysis. L'adozione di questo framework d'analisi è volta a dimostrare che la rappresentazione plenacustica del campo sonoro è adatta sia a scopi di localizzazione, sia di separazione di segnali sorgente. La generazione di immagini plenacustiche del campo sonoro è utilizzata come primo step di elaborazione, per affrontare poi i problemi in esame attraverso l'analisi delle informazioni contenute in ogni immagine. Il sistema sviluppato consente di elaborare i segnali acquisiti, costruire per ogni segmento di segnale estratto un'immagine plenacustica, estrarre da essa una stima della posizione sorgente e il relativo contenuto di segnale. Al fine di rendere più efficiente il calcolo delle immagini plenacustiche, si è proposto un nuovo approccio basato su trasformazione lineare applicata ai dati acquisiti. L'operatore lineare su cui è basata la trasformazione è indipendente dai dati e, pertanto, può essere precalcolato consentendo una considerevole riduzione in termini di carico computazionale. Dal punto di vista dell'estrazione del contenuto di segnale relativo ad una sorgente, inoltre, si è adottato un approccio basato sulla definizione e applicazione di funzioni di finestratura alle immagini plenacustiche. Simulazioni ed esperimenti condotti in ambienti riverberanti mostrano buoni risultati in termini di accuratezza nella localizzazione e qualità di separazione. In particolare, dai risultati sperimentali si osserva come le performance di separazione non subiscano eccessiva degradazione, in termini di qualità di separazione, in scenari avversi come ambienti riverberanti.

Acoustic scene analysis in the ray space

BALDINI ANASTASIO, VINCENZO
2013/2014

Abstract

Acoustic scene analysis is the process of acquiring and interpreting from different perspective the soundfield in the environment. Among the problems that need to be investigated in order to characterize an acoustic scene, we focus on multiple near field source localization, noise reduction and source separation using a spatially extended microphone array. Instead of adopting, among the approaches there exists in the literature, ad hoc solutions for the specific problems, we take advantage of the flexibility of a novel parametrization of the plenacoustic function, the Ray Space. The key advantage is that the information acquired by the sensors can be displayed as plenacoustic images, in which acoustic primitives, such as sources, are mapped onto rectilinear regions. Each region exhibits peaks that tend to cluster on lines, whose parameters provide an estimate of the source location. In this way, space time processing problems, such as source localization, can be addressed with methods from the pattern analysis and multidimensional signal processing communities. In this thesis, we adopt this powerful analysis framework, aiming at demonstrating that the plenacoustic representation is suitable both for source separation and source localization purposes. The plenacoustic image generation, in fact, is used as a pre-processing step to address the problems under analysis through the study of plenacoustic images. At this purpose, we developed a system able to process, in a frame by frame fashion, the signals acquired with a microphone array, construct a plenacoustic image for each frame, and extract the location estimates and the signal content of a given source. In order to speedup the computation of the plenacoustic images a novel approach is proposed, which is based on a linear transformation of the acquired data. The linear operator that acts this transformation is independent on data and therefore can be precomputed, thus enabling a relevant saving in computational burden. As far as the extraction of the signal content related on a single source is concerned, instead, an approach based on the definition and application of windowing functions to the plenacoustic images is adopted. Simulations and experiments conducted in reverberant rooms show good results in terms of localization accuracy and quality of separation. As far as the separation algorithm is concerned, the experimental results do not exhibit critical degradations in terms of quality of separation when dealing with worst case scenarios, such as reverberant environments.
BIANCHI, LUCIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2015
2013/2014
L'analisi di scene acustiche può essere definita come il processo di acquisizione ed interpretazione sotto diversi punti di vista del campo sonoro diffuso in un ambiente. Tra le problematiche da affrontare per poter caratterizzare una scena acustica, ci si è focalizzati su localizzazione di sorgenti in campo vicino, attenuazione del rumore e separazione di segnali sorgente basate su schiere estese di microfoni. Più che l'adozione di soluzioni ad hoc per i singoli problemi in analisi, l'approccio seguito sfrutta la duttilità offerta da una innovativa parametrizzazione della funzione plenacustica, lo Spazio dei Raggi. Questa consente di organizzare le informazioni acquisite dalla schiera in strutture dati rappresentabili in forma di immagini plenacustiche, in cui primitive acustiche quali sorgenti e riflettori vengono mappate su regioni rettilinee. Ogni regione presenta picchi di ampiezza che tendono a concentrarsi su rette, i cui parametri forniscono una stima della posizione sorgente. L'analisi della scena acustica quindi è affrontata con un uso sinergico di elaborazione spazio-temporale e tecniche di pattern analysis. L'adozione di questo framework d'analisi è volta a dimostrare che la rappresentazione plenacustica del campo sonoro è adatta sia a scopi di localizzazione, sia di separazione di segnali sorgente. La generazione di immagini plenacustiche del campo sonoro è utilizzata come primo step di elaborazione, per affrontare poi i problemi in esame attraverso l'analisi delle informazioni contenute in ogni immagine. Il sistema sviluppato consente di elaborare i segnali acquisiti, costruire per ogni segmento di segnale estratto un'immagine plenacustica, estrarre da essa una stima della posizione sorgente e il relativo contenuto di segnale. Al fine di rendere più efficiente il calcolo delle immagini plenacustiche, si è proposto un nuovo approccio basato su trasformazione lineare applicata ai dati acquisiti. L'operatore lineare su cui è basata la trasformazione è indipendente dai dati e, pertanto, può essere precalcolato consentendo una considerevole riduzione in termini di carico computazionale. Dal punto di vista dell'estrazione del contenuto di segnale relativo ad una sorgente, inoltre, si è adottato un approccio basato sulla definizione e applicazione di funzioni di finestratura alle immagini plenacustiche. Simulazioni ed esperimenti condotti in ambienti riverberanti mostrano buoni risultati in termini di accuratezza nella localizzazione e qualità di separazione. In particolare, dai risultati sperimentali si osserva come le performance di separazione non subiscano eccessiva degradazione, in termini di qualità di separazione, in scenari avversi come ambienti riverberanti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi-Vincenzo Baldini Anastasio.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 2.78 MB
Formato Adobe PDF
2.78 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/103428