This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.
La seguente tesi presenta un framework di deep learning per l'estrazione del parlato di un partecipante target in contesti di collaborazione video, sfruttando dati multimodali e multicanale. L'approccio proposto affronta la sfida di isolare singoli oratori da discorsi sovrapposti utilizzando sia dati audio che visivi. I metodi tradizionali basati solo sull'audio spesso falliscono in scenari con caratteristiche vocali simili o con alti livelli di rumore. Per superare queste limitazioni, integriamo indizi visivi, come i movimenti delle labbra, per migliorare la separazione del parlato e le prestazioni in ambienti acustici difficili. Il nostro framework sfrutta un modello di separazione del parlato multicanale come front-end audio, progettato per utilizzare le informazioni spaziali catturate da più microfoni. Inoltre, viene introdotta una nuova strategia di fusione delle modalità in ingresso, che combina dati audio e video per sfruttarne le caratteristiche complementari. Estendiamo ulteriormente questo modello incorporando caratteristiche direzionali, derivate dal flusso video, per determinare con precisione la direzione di arrivo del parlato target. Le soluzioni proposte dimostrano risultati significativi nell'estrazione degli oratori target, anche in ambienti acustici complessi, migliorando così le capacità degli strumenti di collaborazione video consentendo trascrizioni delle riunioni più accurate, miglioramenti audio personalizzati e mastering automatizzato dei flussi audio.
Multi-channel multi-modal target speech extraction for video collaboration
FAINELLO, FRANCESCO
2023/2024
Abstract
This master thesis presents a deep learning framework for multi-channel, multimodal target speaker extraction in video collaboration settings. The proposed approach addresses the challenge of isolating individual speakers from overlapping speech using both audio and visual data. Traditional audio-only methods often fail in scenarios with similar voice characteristics or low signal-to-noise ratios (SNRs). To overcome these limitations, we integrate visual cues, such as lip movements, to enhance speaker separation and improve performance in challenging acoustic environments. Our framework leverages a multi-channel speech separation model as an audio front-end, designed to exploit spatial information captured by multiple microphones. Additionally, a novel modality fusion strategy is introduced, combining audio and video data to utilize their complementary strengths. We further extend this model by incorporating directional features, inferred from the video stream, to accurately determine the direction of arrival for target speech. The proposed solutions demonstrate significant results in extracting target speakers, even in complex acoustic settings, thereby advancing the capabilities of video collaboration tools by enabling more accurate meeting transcriptions, personalized audio enhancements, and automated mastering of audio streams.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Fainello_Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: Executive summary
Dimensione
934.04 kB
Formato
Adobe PDF
|
934.04 kB | Adobe PDF | Visualizza/Apri |
2024_10_Fainello_Thesis.pdf
accessibile in internet per tutti
Descrizione: Elaborato tesi
Dimensione
2.77 MB
Formato
Adobe PDF
|
2.77 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/227718