Speech processing is a main interest in the research scenario nowadays. This is due to its several outstanding applications, aimed at increasing the quality of many every day devices. Among the different applications, that of speech separation is crucial for enabling many services. Often in real world applications, speech separation methods have to cope with the lack of a priori information on the number of speakers and their positions in the sound scene. This challenging separation problem is known as Blind Source Separation (BSS) in the literature. Our work proposes an approach to BSS based on a plenacoustic representation. This approach encodes the plenacoustic function information, sampled in several points, in a data structure defined in the literature as ray-space image. The ray space image consists in a measurement of the directional components of the sound field in several points along an Observation Window. This can be easily done by using a Uniform Linear Array (ULA) of microphones subdivided into smaller sub-arrays. In order to achieve responsiveness of the system, a fast algorithm to measure the directional components of the sound field at each sub-array has been devised. The algorithm exploits the fact that the directional components of the sound field at each sub-array can be estimated through a precomputed linear transformation of the acquired signals. Starting from the directional components at each sub-array, a wideband ray-space image is obtained. An accuracy issue emerges when the wideband pseudospectra are calculated for speech signals because of speech energy distribution, and resolution limits of the ULA. We propose an accurate algorithm, based on the peculiar frequency content of speech signals, which is also robust to spatial aliasing errors. The ray-space image obtained permits to intuitively visualize the active speakers in the sound scene as lines. Consequently, well-known pattern analysis methods are employed to detect these lines and estimate the position of the related sources in the sound scene. This way the blind source separation is turned into an informed problem. The plenacoustic approach adopted to localize speakers is then applied to perform speech separation. Accordingly, Linearly Constrained Minimum Variance (LCMV) beamforming filters are implemented at each sub-array to extract multiple estimations, from different points of view, of the speech signals. The multiple-view approach is essential to obtain satisfactory speech separation results when speakers are aligned with respect to one microphone of the array. In fact, LCMV filters provide the best performances in terms of interference rejection, but present also the important drawback of failing in separating sources when their angular displacement is too small. Thus, the unfeasible separation of sources in case of source overlap is compensated by the other sub-array contributions, from which a larger angular displacement is attained. Furthermore, the knowledge of the exact position, up to an estimation error, allows to back-propagate the estimated signals. The final speech signal emulates a virtual microphone placed near the speaker. Results obtained with simulation sessions have confirmed the validity of the proposed method in case of source overlap and large angular displacements. Interestingly enough, the separation performances measured with objective metrics have been confirmed by Mean Opinion Scores collected with a campaign of perceptive tests. The results achieved also show that the plenacoustic approach outperforms the LCMV method in the majority of the situations. Finally, promising results have been obtained in real world reverberant environments.

L’elaborazione di segnali di parlato è un ambito di ricerca di grande interesse oggigiorno. Questo è dovuto alle sue eccezionali applicazioni, volte a migliorare la qualità di molti dispositivi. I metodi di separazione di segnali di tipo parlato sono impiegati in sistemi di elaborazione del parlato. In applicazioni reali, i metodi di separazione devono far fronte alla mancanza di informazioni a priori sul numero di sorgenti e sulla loro posizione nella scena acustica. Questo problema è noto in letteratura come Blind Source Separation (BSS). Noi proponiamo un approccio al BSS basato su una rappresentazione plenacustica. Questo approccio codifica l’informazione della funzione plenacustica, campionata in diversi punti, in una struttura dati definita come ray-space image. Campionare la funzione plenacustica significa stimare gli pseudospettri in svariati punti lungo la Observation Window. Ciò può essere realizzato utilizzando un Uniform Linear Array (ULA) di microfoni suddiviso in sotto array. Al fine di ottenere un sistema reattivo, è stato sviluppato un algoritmo efficiente per calcolare gli pseudospettri a ogni sotto array. L’algoritmo permette di precalcolare una matrice di trasformazione per ottenere gli pseudospettri con una sola moltiplicazione di matrici. Partendo dagli pseudospettri, la wideband ray-space image è composta combinando i corrispettivi pseudospettri. Una defezione di accuratezza è stata riscontrata quando gli spettri su più frequenze sono calcolati per i segnali di parlato a causa della distribuzione energetica del segnale e dei limiti di risoluzione dell’ULA. Proponiamo un nuovo e accurato algoritmo, basato sul contenuto frequenziale dei segnali di parlato, che è anche robusto agli errori di aliasing spaziale. La ray-space image ottenuta permette di rappresentare come linee i soggetti parlanti. Di conseguenza, metodi di pattern analysis possono essere impiegati per individuare queste linee e stimare la posizione delle rispettive sorgenti nella scena acustica. In questo modo il BSS viene trasformato in un problema informed. L’approccio plenacustico, usato in precedenza, viene quindi applicato per realizzare la separazione. I filtri di beamforming Linearly Constrained Minimum Variance (LCMV) sono implementati per ciascun sotto array, per ottenere stime multiple da diversi punti di vista. L’approccio multi vista è essenziale al fine di ottenere risultati soddisfacenti di separazione del parlato, quando i soggetti parlanti sono allineati rispetto a un microfono dell’array. Infatti, i filtri LCMV garantiscono le migliori prestazioni in termini di soppressione delle sorgenti interferenti, ma presentano anche l’inconveniente di fallire nella separazione quando la loro differenza angolare è irrisoria. Quindi, l’infattibilità della separazione delle sorgenti in caso di sovrapposizione delle stesse è compensata dagli apporti degli altri sotto array, dai quali le sorgenti sono viste con una differenza angolare maggiore. Inoltre, la conoscenza dell’esatta posizione, nei limiti dell’errore di stima, permette di ricostruire i segnali stimati come se fossero stati acquisiti da un microfono virtuale posto vicino al soggetto parlante. I risultati ottenuti dalle simulazioni hanno confermato la validità del metodo proposto in caso di sovrapposizione delle sorgenti e in caso di differenze angolari elevate. Notiamo che le prestazioni misurate con metriche oggettive sono state confermante da Mean Opinion Score raccolti durante sessioni di test percettivi. I risultati ottenuti dimostrano che l’approccio plenacustico supera il metodo LCMV in prestazioni nella maggior parte dei casi sottoposti. In conclusione, risultati promettenti sono stati ottenuti in ambienti reali riverberanti.

An approach to source separation with microphone arrays based on a plenacoustic representation of the sound field

D'AMELIO, FABRIZIO ANDREA
2014/2015

Abstract

Speech processing is a main interest in the research scenario nowadays. This is due to its several outstanding applications, aimed at increasing the quality of many every day devices. Among the different applications, that of speech separation is crucial for enabling many services. Often in real world applications, speech separation methods have to cope with the lack of a priori information on the number of speakers and their positions in the sound scene. This challenging separation problem is known as Blind Source Separation (BSS) in the literature. Our work proposes an approach to BSS based on a plenacoustic representation. This approach encodes the plenacoustic function information, sampled in several points, in a data structure defined in the literature as ray-space image. The ray space image consists in a measurement of the directional components of the sound field in several points along an Observation Window. This can be easily done by using a Uniform Linear Array (ULA) of microphones subdivided into smaller sub-arrays. In order to achieve responsiveness of the system, a fast algorithm to measure the directional components of the sound field at each sub-array has been devised. The algorithm exploits the fact that the directional components of the sound field at each sub-array can be estimated through a precomputed linear transformation of the acquired signals. Starting from the directional components at each sub-array, a wideband ray-space image is obtained. An accuracy issue emerges when the wideband pseudospectra are calculated for speech signals because of speech energy distribution, and resolution limits of the ULA. We propose an accurate algorithm, based on the peculiar frequency content of speech signals, which is also robust to spatial aliasing errors. The ray-space image obtained permits to intuitively visualize the active speakers in the sound scene as lines. Consequently, well-known pattern analysis methods are employed to detect these lines and estimate the position of the related sources in the sound scene. This way the blind source separation is turned into an informed problem. The plenacoustic approach adopted to localize speakers is then applied to perform speech separation. Accordingly, Linearly Constrained Minimum Variance (LCMV) beamforming filters are implemented at each sub-array to extract multiple estimations, from different points of view, of the speech signals. The multiple-view approach is essential to obtain satisfactory speech separation results when speakers are aligned with respect to one microphone of the array. In fact, LCMV filters provide the best performances in terms of interference rejection, but present also the important drawback of failing in separating sources when their angular displacement is too small. Thus, the unfeasible separation of sources in case of source overlap is compensated by the other sub-array contributions, from which a larger angular displacement is attained. Furthermore, the knowledge of the exact position, up to an estimation error, allows to back-propagate the estimated signals. The final speech signal emulates a virtual microphone placed near the speaker. Results obtained with simulation sessions have confirmed the validity of the proposed method in case of source overlap and large angular displacements. Interestingly enough, the separation performances measured with objective metrics have been confirmed by Mean Opinion Scores collected with a campaign of perceptive tests. The results achieved also show that the plenacoustic approach outperforms the LCMV method in the majority of the situations. Finally, promising results have been obtained in real world reverberant environments.
BIANCHI, LUCIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2015
2014/2015
L’elaborazione di segnali di parlato è un ambito di ricerca di grande interesse oggigiorno. Questo è dovuto alle sue eccezionali applicazioni, volte a migliorare la qualità di molti dispositivi. I metodi di separazione di segnali di tipo parlato sono impiegati in sistemi di elaborazione del parlato. In applicazioni reali, i metodi di separazione devono far fronte alla mancanza di informazioni a priori sul numero di sorgenti e sulla loro posizione nella scena acustica. Questo problema è noto in letteratura come Blind Source Separation (BSS). Noi proponiamo un approccio al BSS basato su una rappresentazione plenacustica. Questo approccio codifica l’informazione della funzione plenacustica, campionata in diversi punti, in una struttura dati definita come ray-space image. Campionare la funzione plenacustica significa stimare gli pseudospettri in svariati punti lungo la Observation Window. Ciò può essere realizzato utilizzando un Uniform Linear Array (ULA) di microfoni suddiviso in sotto array. Al fine di ottenere un sistema reattivo, è stato sviluppato un algoritmo efficiente per calcolare gli pseudospettri a ogni sotto array. L’algoritmo permette di precalcolare una matrice di trasformazione per ottenere gli pseudospettri con una sola moltiplicazione di matrici. Partendo dagli pseudospettri, la wideband ray-space image è composta combinando i corrispettivi pseudospettri. Una defezione di accuratezza è stata riscontrata quando gli spettri su più frequenze sono calcolati per i segnali di parlato a causa della distribuzione energetica del segnale e dei limiti di risoluzione dell’ULA. Proponiamo un nuovo e accurato algoritmo, basato sul contenuto frequenziale dei segnali di parlato, che è anche robusto agli errori di aliasing spaziale. La ray-space image ottenuta permette di rappresentare come linee i soggetti parlanti. Di conseguenza, metodi di pattern analysis possono essere impiegati per individuare queste linee e stimare la posizione delle rispettive sorgenti nella scena acustica. In questo modo il BSS viene trasformato in un problema informed. L’approccio plenacustico, usato in precedenza, viene quindi applicato per realizzare la separazione. I filtri di beamforming Linearly Constrained Minimum Variance (LCMV) sono implementati per ciascun sotto array, per ottenere stime multiple da diversi punti di vista. L’approccio multi vista è essenziale al fine di ottenere risultati soddisfacenti di separazione del parlato, quando i soggetti parlanti sono allineati rispetto a un microfono dell’array. Infatti, i filtri LCMV garantiscono le migliori prestazioni in termini di soppressione delle sorgenti interferenti, ma presentano anche l’inconveniente di fallire nella separazione quando la loro differenza angolare è irrisoria. Quindi, l’infattibilità della separazione delle sorgenti in caso di sovrapposizione delle stesse è compensata dagli apporti degli altri sotto array, dai quali le sorgenti sono viste con una differenza angolare maggiore. Inoltre, la conoscenza dell’esatta posizione, nei limiti dell’errore di stima, permette di ricostruire i segnali stimati come se fossero stati acquisiti da un microfono virtuale posto vicino al soggetto parlante. I risultati ottenuti dalle simulazioni hanno confermato la validità del metodo proposto in caso di sovrapposizione delle sorgenti e in caso di differenze angolari elevate. Notiamo che le prestazioni misurate con metriche oggettive sono state confermante da Mean Opinion Score raccolti durante sessioni di test percettivi. I risultati ottenuti dimostrano che l’approccio plenacustico supera il metodo LCMV in prestazioni nella maggior parte dei casi sottoposti. In conclusione, risultati promettenti sono stati ottenuti in ambienti reali riverberanti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2015_04_DAmelio.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 4.63 MB
Formato Adobe PDF
4.63 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/103501