Underwater soundscapes hold crucial information about marine ecosystems and human activity, yet analysing spectrograms manually remains time-consuming and resource-intensive. This thesis proposes an automated system that transforms raw audio recordings into spectrogram images using FFmpeg and employs YOLOv11 for object detection to identify acoustic events. A human-in-the-loop (HITL) annotation process refined the system over four iterative cycles, enabling efficient dataset construction and continual performance improvements. The final model reliably detects six sound classes, including dolphin vocalisations (whistles, clicks, buzzes), vessel noise, echosounder pulses, and alpheid shrimp clicks. On an independent Mediterranean test set, it achieved a macro-averaged precision of 85.0% and recall of 90.5%. The weighted F₀.₈ score—designed to prioritise dolphin detections while limiting false positives—reached 84.8%. Both unweighted macro and conservation-weighted F₀.₈ metrics are reported, highlighting the ecological importance of different acoustic sources. This approach supports scalable acoustic monitoring of bottlenose dolphins and anthropogenic activity in the Mediterranean Sea, with potential applications in marine protected areas and research platforms. Developed in close collaboration with marine biologists, the system ensures alignment with conservation priorities and practical fieldwork requirements.

Il paesaggio sonoro subacqueo offre preziose informazioni sugli ecosistemi marini e sulle attività antropiche, ma l’analisi manuale degli spettrogrammi risulta lenta e impegnativa. In questa tesi viene presentata una pipeline automatica che trasforma l’audio grezzo in spettrogrammi tramite FFmpeg e utilizza YOLOv11 per il rilevamento degli eventi acustici. Il modello è stato perfezionato attraverso una strategia di annotazione assistita dall’esperto (human-in-the-loop) articolata in quattro iterazioni, che ha permesso una curazione efficiente dei dati e un miglioramento progressivo delle prestazioni. Il sistema finale riconosce sei classi acustiche, tra cui le vocalizzazioni dei delfini (fischi, click, buzz), il rumore delle imbarcazioni, i segnali di ecoscandaglio e i suoni dei gamberetti alpheidi, raggiungendo una precisione media (macro) dell’85,0% e una sensibilità (recall) del 90,5%. Il punteggio F₀,₈, pesato secondo la rilevanza ecologica, è pari all’84,8%, privilegiando i suoni dei delfini e limitando i falsi positivi. Il sistema riporta sia il punteggio F₀,₈ non pesato sia quello pesato per la conservazione, riflettendo l’importanza ecologica delle diverse classi acustiche. Questo approccio consente il monitoraggio su larga scala delle popolazioni di tursiope mediterraneo e degli impatti antropici, supportando la conservazione marina tramite una sorveglianza acustica automatizzata. La metodologia proposta dimostra inoltre il potenziale per applicazioni di monitoraggio in tempo reale in aree marine protette e su unità di ricerca. Il lavoro è stato sviluppato in stretta collaborazione con biologi marini, garantendo che il sistema di rilevamento sia allineato con le priorità di conservazione e le esigenze di monitoraggio ecologico.

Automated underwater bioacoustic event detection via spectrogram object analysis

Pisanu, Nicolo'
2024/2025

Abstract

Underwater soundscapes hold crucial information about marine ecosystems and human activity, yet analysing spectrograms manually remains time-consuming and resource-intensive. This thesis proposes an automated system that transforms raw audio recordings into spectrogram images using FFmpeg and employs YOLOv11 for object detection to identify acoustic events. A human-in-the-loop (HITL) annotation process refined the system over four iterative cycles, enabling efficient dataset construction and continual performance improvements. The final model reliably detects six sound classes, including dolphin vocalisations (whistles, clicks, buzzes), vessel noise, echosounder pulses, and alpheid shrimp clicks. On an independent Mediterranean test set, it achieved a macro-averaged precision of 85.0% and recall of 90.5%. The weighted F₀.₈ score—designed to prioritise dolphin detections while limiting false positives—reached 84.8%. Both unweighted macro and conservation-weighted F₀.₈ metrics are reported, highlighting the ecological importance of different acoustic sources. This approach supports scalable acoustic monitoring of bottlenose dolphins and anthropogenic activity in the Mediterranean Sea, with potential applications in marine protected areas and research platforms. Developed in close collaboration with marine biologists, the system ensures alignment with conservation priorities and practical fieldwork requirements.
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2025
2024/2025
Il paesaggio sonoro subacqueo offre preziose informazioni sugli ecosistemi marini e sulle attività antropiche, ma l’analisi manuale degli spettrogrammi risulta lenta e impegnativa. In questa tesi viene presentata una pipeline automatica che trasforma l’audio grezzo in spettrogrammi tramite FFmpeg e utilizza YOLOv11 per il rilevamento degli eventi acustici. Il modello è stato perfezionato attraverso una strategia di annotazione assistita dall’esperto (human-in-the-loop) articolata in quattro iterazioni, che ha permesso una curazione efficiente dei dati e un miglioramento progressivo delle prestazioni. Il sistema finale riconosce sei classi acustiche, tra cui le vocalizzazioni dei delfini (fischi, click, buzz), il rumore delle imbarcazioni, i segnali di ecoscandaglio e i suoni dei gamberetti alpheidi, raggiungendo una precisione media (macro) dell’85,0% e una sensibilità (recall) del 90,5%. Il punteggio F₀,₈, pesato secondo la rilevanza ecologica, è pari all’84,8%, privilegiando i suoni dei delfini e limitando i falsi positivi. Il sistema riporta sia il punteggio F₀,₈ non pesato sia quello pesato per la conservazione, riflettendo l’importanza ecologica delle diverse classi acustiche. Questo approccio consente il monitoraggio su larga scala delle popolazioni di tursiope mediterraneo e degli impatti antropici, supportando la conservazione marina tramite una sorveglianza acustica automatizzata. La metodologia proposta dimostra inoltre il potenziale per applicazioni di monitoraggio in tempo reale in aree marine protette e su unità di ricerca. Il lavoro è stato sviluppato in stretta collaborazione con biologi marini, garantendo che il sistema di rilevamento sia allineato con le priorità di conservazione e le esigenze di monitoraggio ecologico.
File allegati
File Dimensione Formato  
2025_07_Pisanu.pdf

accessibile in internet per tutti a partire dal 26/06/2026

Dimensione 33.75 MB
Formato Adobe PDF
33.75 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/241017