This study explores an advanced method for Sound Event Localization and Detection (SELD) by introducing Mel-Frequency Sliding Generalized Cross-Correlation (Mel-FSGCC), an extension of Frequency-Sliding Generalized Cross-Correlation (FS-GCC). The research aims to improve time delay estimation (TDE) by leveraging mel-scale frequency decomposition, which enhances spectral weighting based on human auditory perception. Unlike conventional Generalized Cross-Correlation (GCC) approaches, Mel-FSGCC adapts frequency processing to emphasize the most reliable spectral components, improving localization accuracy and robustness in reverberant and noisy environments. The study evaluates the impact of replacing GCC with Mel-FSGCC within the SELDnet framework, a deep learning-based SELD system, using datasets generated under varying noise levels, reverberation times (T60), and microphone array configurations. Performance is assessed following DCASE 2024 Task 3 challenge metrics, focusing on sound event detection accuracy (F-score), direction of arrival estimation error (DOAE), and relative distance estimation error (RDE). Results demonstrate that Mel-FSGCC enhances sound event detection performance, particularly in setups with larger microphone spacings, while maintaining comparable localization and distance estimation accuracy to GCC. Future work could explore more efficient ways to integrate this technique into deep learning networks, optimizing its computational feasibility for large-scale applications. Additionally, testing Mel-FSGCC on new datasets may provide further insights or lead to unexpected findings and valuable advancements, refining its applicability in acoustic scene analysis, spatial audio processing, and human-machine interaction.
Questo studio esplora un metodo avanzato per la Localizzazione e Rilevamento di Eventi Sonori (SELD) introducendo la Mel-Frequency Sliding Generalized Cross-Correlation (Mel-FSGCC), un'estensione della Frequency-Sliding Generalized Cross-Correlation (FS-GCC). La ricerca mira a migliorare la stima del ritardo temporale (TDE) sfruttando la decomposizione in frequenze sulla scala mel, che ottimizza la ponderazione spettrale basandosi sulla percezione uditiva umana. A differenza degli approcci convenzionali di Generalized Cross-Correlation (GCC), Mel-FSGCC adatta l'elaborazione delle frequenze per enfatizzare le componenti spettrali più affidabili, migliorando la precisione della localizzazione e la robustezza in ambienti riverberanti e rumorosi. Lo studio valuta l'impatto della sostituzione di GCC con Mel-FSGCC all'interno del framework SELDnet, un sistema SELD basato su deep learning, utilizzando dataset generati con diversi livelli di rumore, tempi di riverberazione (T60) e configurazioni di array di microfoni. Le prestazioni vengono valutate secondo le metriche della DCASE 2024 Task 3 Challenge, concentrandosi sulla precisione del rilevamento degli eventi sonori (F-score), sull'errore nella stima della direzione di arrivo (DOAE) e sull'errore relativo nella stima della distanza (RDE). I risultati dimostrano che Mel-FSGCC migliora le prestazioni nel rilevamento degli eventi sonori, in particolare in configurazioni con spaziature maggiori tra i microfoni, mantenendo al contempo una precisione comparabile alla GCC nella localizzazione e nella stima della distanza. I lavori futuri potrebbero esplorare modi più efficienti per integrare questa tecnica nelle reti di deep learning, ottimizzandone la fattibilità computazionale per applicazioni su larga scala. Inoltre, testare Mel-FSGCC su nuovi dataset potrebbe fornire ulteriori approfondimenti o portare a scoperte inattese e progressi significativi, affinando la sua applicabilità nell'analisi delle scene acustiche, nell'elaborazione dell'audio spaziale e nell'interazione uomo-macchina.
Sound event localization and detection with mel-scaled frequency-sliding generalized cross-correlation
Ferreri, Federico Angelo Luigi
2023/2024
Abstract
This study explores an advanced method for Sound Event Localization and Detection (SELD) by introducing Mel-Frequency Sliding Generalized Cross-Correlation (Mel-FSGCC), an extension of Frequency-Sliding Generalized Cross-Correlation (FS-GCC). The research aims to improve time delay estimation (TDE) by leveraging mel-scale frequency decomposition, which enhances spectral weighting based on human auditory perception. Unlike conventional Generalized Cross-Correlation (GCC) approaches, Mel-FSGCC adapts frequency processing to emphasize the most reliable spectral components, improving localization accuracy and robustness in reverberant and noisy environments. The study evaluates the impact of replacing GCC with Mel-FSGCC within the SELDnet framework, a deep learning-based SELD system, using datasets generated under varying noise levels, reverberation times (T60), and microphone array configurations. Performance is assessed following DCASE 2024 Task 3 challenge metrics, focusing on sound event detection accuracy (F-score), direction of arrival estimation error (DOAE), and relative distance estimation error (RDE). Results demonstrate that Mel-FSGCC enhances sound event detection performance, particularly in setups with larger microphone spacings, while maintaining comparable localization and distance estimation accuracy to GCC. Future work could explore more efficient ways to integrate this technique into deep learning networks, optimizing its computational feasibility for large-scale applications. Additionally, testing Mel-FSGCC on new datasets may provide further insights or lead to unexpected findings and valuable advancements, refining its applicability in acoustic scene analysis, spatial audio processing, and human-machine interaction.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Ferreri_Tesi.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Tesi
Dimensione
11.79 MB
Formato
Adobe PDF
|
11.79 MB | Adobe PDF | Visualizza/Apri |
2025_04_Ferreri_Executive Summary.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive Summary
Dimensione
10.83 MB
Formato
Adobe PDF
|
10.83 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/236105