Blind audio source separation aims at extracting a certain number of acoustic source signals from a set of observation signals; the term "blind" comes from the fact that in the separation process no (or very little) information about the sources or the mixing system is available. The interaction of the acoustic signals with the surrounding environment causes time delays and reverberations which involve long filter lengths to be estimated in the time domain. Although the convolutive mixtures can be separated efficiently by Frequency Domain Independent Component Analysis (FDICA) algorithms, all ICA based algorithms suffer from a permutation ambiguity, which for FDICA algorithms is present at every frequency bin. To solve this problem, the independent vector analysis (IVA), which employs a multivariate dependency model to capture inter-frequency dependencies, has been proposed. In this thesis we focus on an extension of IVA, called Supervised Independent Vector Analysis, in which the multidimensional source model of IVA is extended by adding pilot components which are statistically dependent on the desired sources. These pilot component signals act as a prior knowledge which enforces the natural gradient to converge in a limited solution space: thanks to this property, we are able to perform Audio Source Extraction, i.e. separating and extracting one particular desired audio source. We investigate the Supervised IVA and the influence of the pilot components on the convergence of the algorithm, starting by some simple oracle models for the pilot components and, after assessing the improvement provided to the IVA by adding the pilots, we implement a version in which a Convolutional Neural Network (CNN) Localizer is used to detect the Direction-of-Arrival (DOA) and to track the activity of the sources so that the correspondent pilot component can be added to the basic IVA. We name this algorithm Informed Independent Vector Analysis (IIVA). Our model is simple and flexible: we are able to improve the extraction of a speech signal which direction-of-arrival is approximately known. We simulate realistic scenarios to asses the performances of the proposed method: the experimental results show that the convergence is stable with respect to the IVA and the objective performances are in line with those of an existing source extraction algorithm in the literature. We also show that the frequency components are separated and included in the solution with high fidelity. Furthermore, we prove that our algorithm is able to rapidly converge, allowing a real-time implementation and thus it can be used for several real world applications.

La separazione alla cieca di sorgenti audio mira a estrarre un certo numero di segnali sorgente da un insieme di segnali di osservazione; il termine "alla cieca" è utilizzato perché nessuna (o poca) informazione a riguardo delle sorgenti o del sistema di mescolamento è disponibile. L'interazione del segnale sonoro con l'ambiente circostante causa ritardi temporali e riverberazione che richiedono la stima nel dominio temporale di filtri le cui dimensioni sono molto grandi. Nonostante le miscelazioni convolutive possano essere separate efficientemente da algoritmi di analisi delle componenti indipendenti (ICA) nel dominio della frequenza, tutti gli algoritmi ICA soffrono della ambiguità delle permutazioni delle soluzioni che nel caso di ICA nel dominio della frequenza si presenta ad ogni banda di frequenze. Per risolvere questo problema, è stata proposta l’analisi dei vettori indipendenti (IVA) che utilizza un modello di dipendenza multivariata per catturare dipendenze inter-frequenziali. In questa tesi ci concentriamo su un’estensione di IVA, chiamata IVA supervisionata (SIVA), nella quale il modello multidimensionale delle sorgenti viene esteso aggiungendo i cosiddetti componenti piloti che sono statisticamente dipendenti dalle sorgenti acustiche desiderate. I segnali dei piloti attuano come conoscenza a priori e forzano il gradiente naturale a convergere in uno spazio di soluzioni limitate: grazie a ciò, siamo in grado di eseguire l'estrazione di sorgente, cioè estrarre una particolare sorgente desiderata. Investighiamo SIVA e l'influenza dei piloti sulla convergenza dell'algoritmo, iniziando da semplici modelli oracolo e, verificato il miglioramento rispetto all'IVA basico, implementiamo una versione che chiamiamo analisi informata dei vettori indipendenti (IIVA), in cui un localizzatore basato su rete neurale convolutiva viene utilizzato per rilevare la direzione d'arrivo delle sorgenti, tracciandone l'attività in modo che il pilota corrispondente possa essere aggiunto al basico IVA. Il nostro modello è semplice e flessibile: siamo in grado di migliorare l'estrazione di un segnale vocale la cui direzione di arrivo è approssimativamente nota. Nel nostro lavoro, simuliamo scenari realistici per verificare le prestazioni del metodo proposto: i risultati sperimentali mostrano che la convergenza è stabile rispetto a quella dell'algoritmo basico e le prestazioni oggettive sono in linea con quelle di un altro algoritmo presente in letteratura. Mostriamo anche che le componenti frequenziali vengono separate ed incluse nella soluzione con alta fedeltà. Inoltre l'algoritmo è in grado di convergere rapidamente, permettendo un'implementazione in tempo reale e può quindi essere utilizzato per diverse applicazioni nel mondo reale.

Source extraction using informed independent vector analysis

ARANGO, LUIS GERMAIN
2016/2017

Abstract

Blind audio source separation aims at extracting a certain number of acoustic source signals from a set of observation signals; the term "blind" comes from the fact that in the separation process no (or very little) information about the sources or the mixing system is available. The interaction of the acoustic signals with the surrounding environment causes time delays and reverberations which involve long filter lengths to be estimated in the time domain. Although the convolutive mixtures can be separated efficiently by Frequency Domain Independent Component Analysis (FDICA) algorithms, all ICA based algorithms suffer from a permutation ambiguity, which for FDICA algorithms is present at every frequency bin. To solve this problem, the independent vector analysis (IVA), which employs a multivariate dependency model to capture inter-frequency dependencies, has been proposed. In this thesis we focus on an extension of IVA, called Supervised Independent Vector Analysis, in which the multidimensional source model of IVA is extended by adding pilot components which are statistically dependent on the desired sources. These pilot component signals act as a prior knowledge which enforces the natural gradient to converge in a limited solution space: thanks to this property, we are able to perform Audio Source Extraction, i.e. separating and extracting one particular desired audio source. We investigate the Supervised IVA and the influence of the pilot components on the convergence of the algorithm, starting by some simple oracle models for the pilot components and, after assessing the improvement provided to the IVA by adding the pilots, we implement a version in which a Convolutional Neural Network (CNN) Localizer is used to detect the Direction-of-Arrival (DOA) and to track the activity of the sources so that the correspondent pilot component can be added to the basic IVA. We name this algorithm Informed Independent Vector Analysis (IIVA). Our model is simple and flexible: we are able to improve the extraction of a speech signal which direction-of-arrival is approximately known. We simulate realistic scenarios to asses the performances of the proposed method: the experimental results show that the convergence is stable with respect to the IVA and the objective performances are in line with those of an existing source extraction algorithm in the literature. We also show that the frequency components are separated and included in the solution with high fidelity. Furthermore, we prove that our algorithm is able to rapidly converge, allowing a real-time implementation and thus it can be used for several real world applications.
HABETS, EMANUËL A.P.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-apr-2018
2016/2017
La separazione alla cieca di sorgenti audio mira a estrarre un certo numero di segnali sorgente da un insieme di segnali di osservazione; il termine "alla cieca" è utilizzato perché nessuna (o poca) informazione a riguardo delle sorgenti o del sistema di mescolamento è disponibile. L'interazione del segnale sonoro con l'ambiente circostante causa ritardi temporali e riverberazione che richiedono la stima nel dominio temporale di filtri le cui dimensioni sono molto grandi. Nonostante le miscelazioni convolutive possano essere separate efficientemente da algoritmi di analisi delle componenti indipendenti (ICA) nel dominio della frequenza, tutti gli algoritmi ICA soffrono della ambiguità delle permutazioni delle soluzioni che nel caso di ICA nel dominio della frequenza si presenta ad ogni banda di frequenze. Per risolvere questo problema, è stata proposta l’analisi dei vettori indipendenti (IVA) che utilizza un modello di dipendenza multivariata per catturare dipendenze inter-frequenziali. In questa tesi ci concentriamo su un’estensione di IVA, chiamata IVA supervisionata (SIVA), nella quale il modello multidimensionale delle sorgenti viene esteso aggiungendo i cosiddetti componenti piloti che sono statisticamente dipendenti dalle sorgenti acustiche desiderate. I segnali dei piloti attuano come conoscenza a priori e forzano il gradiente naturale a convergere in uno spazio di soluzioni limitate: grazie a ciò, siamo in grado di eseguire l'estrazione di sorgente, cioè estrarre una particolare sorgente desiderata. Investighiamo SIVA e l'influenza dei piloti sulla convergenza dell'algoritmo, iniziando da semplici modelli oracolo e, verificato il miglioramento rispetto all'IVA basico, implementiamo una versione che chiamiamo analisi informata dei vettori indipendenti (IIVA), in cui un localizzatore basato su rete neurale convolutiva viene utilizzato per rilevare la direzione d'arrivo delle sorgenti, tracciandone l'attività in modo che il pilota corrispondente possa essere aggiunto al basico IVA. Il nostro modello è semplice e flessibile: siamo in grado di migliorare l'estrazione di un segnale vocale la cui direzione di arrivo è approssimativamente nota. Nel nostro lavoro, simuliamo scenari realistici per verificare le prestazioni del metodo proposto: i risultati sperimentali mostrano che la convergenza è stabile rispetto a quella dell'algoritmo basico e le prestazioni oggettive sono in linea con quelle di un altro algoritmo presente in letteratura. Mostriamo anche che le componenti frequenziali vengono separate ed incluse nella soluzione con alta fedeltà. Inoltre l'algoritmo è in grado di convergere rapidamente, permettendo un'implementazione in tempo reale e può quindi essere utilizzato per diverse applicazioni nel mondo reale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Arango.pdf

accessibile in internet per tutti

Descrizione: Arango Master Thesis
Dimensione 8.59 MB
Formato Adobe PDF
8.59 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/139046