This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.

La seguente tesi presenta un framework di deep learning per l'estrazione del parlato di un partecipante target in contesti di collaborazione video, sfruttando dati multimodali e multicanale. L'approccio proposto affronta la sfida di isolare singoli oratori da discorsi sovrapposti utilizzando sia dati audio che visivi. I metodi tradizionali basati solo sull'audio spesso falliscono in scenari con caratteristiche vocali simili o con alti livelli di rumore. Per superare queste limitazioni, integriamo indizi visivi, come i movimenti delle labbra, per migliorare la separazione del parlato e le prestazioni in ambienti acustici difficili. Il nostro framework sfrutta un modello di separazione del parlato multicanale come front-end audio, progettato per utilizzare le informazioni spaziali catturate da più microfoni. Inoltre, viene introdotta una nuova strategia di fusione delle modalità in ingresso, che combina dati audio e video per sfruttarne le caratteristiche complementari. Estendiamo ulteriormente questo modello incorporando caratteristiche direzionali, derivate dal flusso video, per determinare con precisione la direzione di arrivo del parlato target. Le soluzioni proposte dimostrano risultati significativi nell'estrazione degli oratori target, anche in ambienti acustici complessi, migliorando così le capacità degli strumenti di collaborazione video consentendo trascrizioni delle riunioni più accurate, miglioramenti audio personalizzati e mastering automatizzato dei flussi audio.

Multi-channel multi-modal target speech extraction for video collaboration

FAINELLO, FRANCESCO
2023/2024

Abstract

This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.
SALZMANN, MATHIEU
Harper, Andrew
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
La seguente tesi presenta un framework di deep learning per l'estrazione del parlato di un partecipante target in contesti di collaborazione video, sfruttando dati multimodali e multicanale. L'approccio proposto affronta la sfida di isolare singoli oratori da discorsi sovrapposti utilizzando sia dati audio che visivi. I metodi tradizionali basati solo sull'audio spesso falliscono in scenari con caratteristiche vocali simili o con alti livelli di rumore. Per superare queste limitazioni, integriamo indizi visivi, come i movimenti delle labbra, per migliorare la separazione del parlato e le prestazioni in ambienti acustici difficili. Il nostro framework sfrutta un modello di separazione del parlato multicanale come front-end audio, progettato per utilizzare le informazioni spaziali catturate da più microfoni. Inoltre, viene introdotta una nuova strategia di fusione delle modalità in ingresso, che combina dati audio e video per sfruttarne le caratteristiche complementari. Estendiamo ulteriormente questo modello incorporando caratteristiche direzionali, derivate dal flusso video, per determinare con precisione la direzione di arrivo del parlato target. Le soluzioni proposte dimostrano risultati significativi nell'estrazione degli oratori target, anche in ambienti acustici complessi, migliorando così le capacità degli strumenti di collaborazione video consentendo trascrizioni delle riunioni più accurate, miglioramenti audio personalizzati e mastering automatizzato dei flussi audio.
File allegati
File Dimensione Formato  
2024_10_Fainello_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 934.04 kB
Formato Adobe PDF
934.04 kB Adobe PDF Visualizza/Apri
2024_10_Fainello_Thesis.pdf

accessibile in internet per tutti

Descrizione: Elaborato tesi
Dimensione 2.77 MB
Formato Adobe PDF
2.77 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227718