Multi-channel multi-modal target speech extraction for video collaboration

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.

La seguente tesi presenta un framework di deep learning per l'estrazione del parlato di un partecipante target in contesti di collaborazione video, sfruttando dati multimodali e multicanale. L'approccio proposto affronta la sfida di isolare singoli oratori da discorsi sovrapposti utilizzando sia dati audio che visivi. I metodi tradizionali basati solo sull'audio spesso falliscono in scenari con caratteristiche vocali simili o con alti livelli di rumore. Per superare queste limitazioni, integriamo indizi visivi, come i movimenti delle labbra, per migliorare la separazione del parlato e le prestazioni in ambienti acustici difficili. Il nostro framework sfrutta un modello di separazione del parlato multicanale come front-end audio, progettato per utilizzare le informazioni spaziali catturate da più microfoni. Inoltre, viene introdotta una nuova strategia di fusione delle modalità in ingresso, che combina dati audio e video per sfruttarne le caratteristiche complementari. Estendiamo ulteriormente questo modello incorporando caratteristiche direzionali, derivate dal flusso video, per determinare con precisione la direzione di arrivo del parlato target. Le soluzioni proposte dimostrano risultati significativi nell'estrazione degli oratori target, anche in ambienti acustici complessi, migliorando così le capacità degli strumenti di collaborazione video consentendo trascrizioni delle riunioni più accurate, miglioramenti audio personalizzati e mastering automatizzato dei flussi audio.

Multi-channel multi-modal target speech extraction for video collaboration

FAINELLO, FRANCESCO

2023/2024

Abstract

This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.

Scheda breve

Scheda completa

	Relatore
	
				BORACCHI, GIACOMO
			
	Correlatore/i
	
				SALZMANN, MATHIEU
Harper, Andrew
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				10-ott-2024
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				La seguente tesi presenta un framework di deep learning per l'estrazione del parlato di un partecipante target in contesti di collaborazione video, sfruttando dati multimodali e multicanale. L'approccio proposto affronta la sfida di isolare singoli oratori da discorsi sovrapposti utilizzando sia dati audio che visivi. I metodi tradizionali basati solo sull'audio spesso falliscono in scenari con caratteristiche vocali simili o con alti livelli di rumore. Per superare queste limitazioni, integriamo indizi visivi, come i movimenti delle labbra, per migliorare la separazione del parlato e le prestazioni in ambienti acustici difficili.

Il nostro framework sfrutta un modello di separazione del parlato multicanale come front-end audio, progettato per utilizzare le informazioni spaziali catturate da più microfoni. Inoltre, viene introdotta una nuova strategia di fusione delle modalità in ingresso, che combina dati audio e video per sfruttarne le caratteristiche complementari. Estendiamo ulteriormente questo modello incorporando caratteristiche direzionali, derivate dal flusso video, per determinare con precisione la direzione di arrivo del parlato target.

Le soluzioni proposte dimostrano risultati significativi nell'estrazione degli oratori target, anche in ambienti acustici complessi, migliorando così le capacità degli strumenti di collaborazione video consentendo trascrizioni delle riunioni più accurate, miglioramenti audio personalizzati e mastering automatizzato dei flussi audio.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2024_10_Fainello_Executive_Summary.pdf accessibile in internet per tutti Descrizione: Executive summary Dimensione 934.04 kB Formato Adobe PDF Visualizza/Apri	934.04 kB	Adobe PDF	Visualizza/Apri
2024_10_Fainello_Thesis.pdf accessibile in internet per tutti Descrizione: Elaborato tesi Dimensione 2.77 MB Formato Adobe PDF Visualizza/Apri	2.77 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227718