Speech separation and diarization with microphone arrays : integrating tasks to improve performance

In recent years, great progress has been made in the fields of Diarization and Speech Separation. In particular, many works have proposed new ways to exploit the shared aspects of these tasks for the advantage of both research areas. The goal of this thesis is to further investigate the integration of the mentioned fields. This was tackled by training a unified Deep Neural Network to extract clean speech features, useful towards separation as well as identification. Our system for combined diarization and separation of speakers is composed of three independent modules. First, a microphone array is used to profit from spatial information in the sound signals, and a combination of direction-of-arrival estimation and beamforming achieves a preliminary isolation of each concurrently active speaker. The beamformed signals are then individually processed by a Deep Neural Network that jointly produces two outputs: a set of embeddings that characterize the target speaker, and a separation mask to be applied to the beamformed signal. Lastly, clustering is performed on the speaker embeddings to identify the speaker related to each embedding. The masked signals are assigned to identity-exclusive output channels based on the identification clustering. We designed the Neural Network with feature sharing in mind. We chose a U-Net architecture, with the speaker embeddings being extracted from the bottleneck and the separation masks being the result of the decoder branch. For the purpose of validating the proposed method, as well as training the designed network, we created a dataset of simulated conversations in reverberant rooms. Results showed excellent diarization accuracy and significantly higher separation quality with respect to the unprocessed beamformer signal.

I campi di Diarization --- determinare chi ha parlato quando, in una conversazione --- e Speech Separation --- isolare una voce da rumori e altre voci --- hanno visto grandi progressi negli anni recenti. In particolare, molte pubblicazioni hanno proposto nuovi modi di sfruttare gli aspetti condivisi di queste applicazioni, avanzando entrambi i campi di ricerca. Lo scopo di questa tesi è realizzare una completa integrazione di tali campi. Per questo scopo, abbiamo progettato e allenato una singola rete neurale che si occupi di ambo i compiti, estraendo dal segnale sonoro caratteristiche del parlato utili per l'identificazione come per l'estrazione. Il nostro sistema, che effettua simultaneamente separazione e identificazione vocale, è composto da tre moduli indipendenti. Per prima cosa, tramite un array di microfoni, viene stimata la direzione d'arrivo delle voci di ogni interlocutore attivo in un determinato istante. Viene quindi applicato un beamformer verso ognuno di essi, compiendo una separazione preliminare. I segnali dei beamformer sono successivamente processati da una rete neurale, la quale produce due output: un embedding che caratterizza l'identità dell'interlocutore, e una maschera di separazione da applicare al segnale del beamformer per isolarne la voce. Infine, viene eseguito un clustering degli embedding per associare ognuno alla relativa identità, e i segnali mascherati sono assegnati a canali di output diversi in base all'identificazione. La rete neurale è stata progettata tenendo a mente la condivisione delle feature tra i due compiti, e per questo è stata scelta un'architettura di tipo U-Net. Gli embedding vengono estratti dal collo di bottiglia, mentre le maschere di separazione sono l'output del decoder. Inoltre è stato prodotto un dataset di conversazioni simulate in stanze riverberanti, con il quale è stato allenato e testato il sistema. I risultati mostrano efficacia di identificazione eccellente e qualità di separazione significativamente superiore rispetto al segnale del beamformer.