The fetal abdomen plays a critical role in prenatal screening, providing essential information about development and potential congenital anomalies. However, segmenting internal abdominal structures in ultrasound (US) images remains a challenging task due to anatomical variability, overlapping organs, and low contrast. While convolutional neural networks (CNNs) have demonstrated strong performance in fetal head analysis and biometric measurements (e.g. head and abdomen circumference), the segmentation of internal abdominal organs is still largely underexplored. In parallel, the emergence of foundation models like the Segment Anything Model (SAM) has introduced new opportunities for flexible segmentation through zero- or few-shot learning, although their effectiveness to fetal US imaging remains uncertain. This study investigates and compares two segmentation strategies: (1) task-specific CNNs—including UNet, UNet++, U2-Net, DeepLabv3+, Attention UNet, and nnUNet, along with focal-loss variants—and (2) SAM-based models, including the original zero-shot SAM, the medical-pretrained SAM-Med2D, and a version of SAM-Med2D fine-tuned specifically for fetal abdominal segmentation. Experiments were conducted on a curated dataset of fetal US images with manual segmentations of the liver, stomach, abdominal aorta, and umbilical vein. Evaluation was performed using Dice Similarity Coefficient (DSC), Intersection over Union (IoU), and precision, supported by statistical analysis to assess differences between models. Results show that CNNs are effective on large and distinct organs but struggle on smaller structures with ill-defined boundaries. Zero-shot SAM performs poorly across all classes, while SAM-Med2D, pretrained on medical images, brings notable improvements. However, only the fine-tuned SAM-Med2D achieves segmentation performance comparable or superior to CNNs, reaching a median DSC of 0.90 on the liver and 0.85 on the stomach. These findings underscore the necessity of task-specific adaptation for foundation models like SAM-Med2D. Their interactive segmentation capabilities make them promising candidates for semi-automated, human-in-the-loop systems, supporting their potential integration into clinical workflows.

L’addome fetale ricopre un ruolo chiave nello screening prenatale, fornendo informazioni essenziali sullo sviluppo e su potenziali anomalie congenite. Tuttavia, la segmentazione delle strutture addominali interne fetali nelle immagini ecografiche (US) è complessa, a causa della variabilità anatomica, della sovrapposizione tra organi e del basso contrasto. Sebbene le reti neurali convoluzionali (CNN) abbiano mostrato buone prestazioni nell’analisi del capo fetale e nelle misure biometriche (e.g. circonferenza della testa e addome), la segmentazione di organi interni addominali è ancora poco esplorata. Parallelamente, i modelli di fondazione come il Segment Anything Model (SAM) hanno introdotto nuove opportunità per una segmentazione flessibile tramite apprendimento zero- o few-shot, ma la loro efficacia in ambito US fetale rimane incerta. Questo studio confronta (1) CNN specifiche per il compito — UNet, UNet++, U2-Net, DeepLabv3+, Attention UNet e nnUNet, e le loro varianti focal loss — con (2) modelli basati su SAM: il modello SAM zero-shot, una versione preaddestrata su immagini mediche cioè SAM-Med2D, e una versione SAM-Med2D adattata tramite affinamento (fine-tuning). Gli esperimenti sono stati condotti su un dataset curato di immagini US fetali con segmentazione manuale del fegato, dello stomaco, dell’aorta addominale e della vena ombelicale. La valutazione è stata effettuata tramite Dice Similarity Coefficient (DSC), Intersection over Union (IoU) e precisione, supportata da un’analisi statistica sulle differenze tra modelli. I risultati mostrano che le CNN sono efficaci per organi grandi e distinti, ma in difficoltà su strutture più piccole e dai contorni poco definiti. Le varianti zero-shot di SAM si sono rivelate inadeguate per tutte le classi anatomiche, mentre SAM-Med2D, preaddestrato su immagini mediche, ha mostrato miglioramenti. Tuttavia, il modello SAM-Med2D affinato ha raggiunto prestazioni comparabili o superiori a quelle delle CNN, con valori mediani di DSC pari a 0.90 sul fegato e 0.85 sullo stomaco. Questi risultati sottolineano l’importanza dell’adattamento specifico al compito per modelli di fondazione come SAM-Med2D. Le loro capacità di segmentazione interattiva li rendono candidati promettenti per sistemi semi-automatici con interazione umana, sostenendone la potenziale integrazione nei flussi di lavoro clinici.

Task-Specific CNNs vs. adapted versions of SAM: a comprehensive evaluation in fetal abdominal ultrasound segmentation

La CAMERA, ALESSANDRO PIETRO
2024/2025

Abstract

The fetal abdomen plays a critical role in prenatal screening, providing essential information about development and potential congenital anomalies. However, segmenting internal abdominal structures in ultrasound (US) images remains a challenging task due to anatomical variability, overlapping organs, and low contrast. While convolutional neural networks (CNNs) have demonstrated strong performance in fetal head analysis and biometric measurements (e.g. head and abdomen circumference), the segmentation of internal abdominal organs is still largely underexplored. In parallel, the emergence of foundation models like the Segment Anything Model (SAM) has introduced new opportunities for flexible segmentation through zero- or few-shot learning, although their effectiveness to fetal US imaging remains uncertain. This study investigates and compares two segmentation strategies: (1) task-specific CNNs—including UNet, UNet++, U2-Net, DeepLabv3+, Attention UNet, and nnUNet, along with focal-loss variants—and (2) SAM-based models, including the original zero-shot SAM, the medical-pretrained SAM-Med2D, and a version of SAM-Med2D fine-tuned specifically for fetal abdominal segmentation. Experiments were conducted on a curated dataset of fetal US images with manual segmentations of the liver, stomach, abdominal aorta, and umbilical vein. Evaluation was performed using Dice Similarity Coefficient (DSC), Intersection over Union (IoU), and precision, supported by statistical analysis to assess differences between models. Results show that CNNs are effective on large and distinct organs but struggle on smaller structures with ill-defined boundaries. Zero-shot SAM performs poorly across all classes, while SAM-Med2D, pretrained on medical images, brings notable improvements. However, only the fine-tuned SAM-Med2D achieves segmentation performance comparable or superior to CNNs, reaching a median DSC of 0.90 on the liver and 0.85 on the stomach. These findings underscore the necessity of task-specific adaptation for foundation models like SAM-Med2D. Their interactive segmentation capabilities make them promising candidates for semi-automated, human-in-the-loop systems, supporting their potential integration into clinical workflows.
FIORENTINO, MARIA CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
L’addome fetale ricopre un ruolo chiave nello screening prenatale, fornendo informazioni essenziali sullo sviluppo e su potenziali anomalie congenite. Tuttavia, la segmentazione delle strutture addominali interne fetali nelle immagini ecografiche (US) è complessa, a causa della variabilità anatomica, della sovrapposizione tra organi e del basso contrasto. Sebbene le reti neurali convoluzionali (CNN) abbiano mostrato buone prestazioni nell’analisi del capo fetale e nelle misure biometriche (e.g. circonferenza della testa e addome), la segmentazione di organi interni addominali è ancora poco esplorata. Parallelamente, i modelli di fondazione come il Segment Anything Model (SAM) hanno introdotto nuove opportunità per una segmentazione flessibile tramite apprendimento zero- o few-shot, ma la loro efficacia in ambito US fetale rimane incerta. Questo studio confronta (1) CNN specifiche per il compito — UNet, UNet++, U2-Net, DeepLabv3+, Attention UNet e nnUNet, e le loro varianti focal loss — con (2) modelli basati su SAM: il modello SAM zero-shot, una versione preaddestrata su immagini mediche cioè SAM-Med2D, e una versione SAM-Med2D adattata tramite affinamento (fine-tuning). Gli esperimenti sono stati condotti su un dataset curato di immagini US fetali con segmentazione manuale del fegato, dello stomaco, dell’aorta addominale e della vena ombelicale. La valutazione è stata effettuata tramite Dice Similarity Coefficient (DSC), Intersection over Union (IoU) e precisione, supportata da un’analisi statistica sulle differenze tra modelli. I risultati mostrano che le CNN sono efficaci per organi grandi e distinti, ma in difficoltà su strutture più piccole e dai contorni poco definiti. Le varianti zero-shot di SAM si sono rivelate inadeguate per tutte le classi anatomiche, mentre SAM-Med2D, preaddestrato su immagini mediche, ha mostrato miglioramenti. Tuttavia, il modello SAM-Med2D affinato ha raggiunto prestazioni comparabili o superiori a quelle delle CNN, con valori mediani di DSC pari a 0.90 sul fegato e 0.85 sullo stomaco. Questi risultati sottolineano l’importanza dell’adattamento specifico al compito per modelli di fondazione come SAM-Med2D. Le loro capacità di segmentazione interattiva li rendono candidati promettenti per sistemi semi-automatici con interazione umana, sostenendone la potenziale integrazione nei flussi di lavoro clinici.
File allegati
File Dimensione Formato  
2025_07_La Camera_Executive Summary_02.pdf

non accessibile

Descrizione: Documento executive summary
Dimensione 990.65 kB
Formato Adobe PDF
990.65 kB Adobe PDF   Visualizza/Apri
2025_07_La Camera_Tesi_01.pdf

non accessibile

Descrizione: Documento elaborato tesi
Dimensione 6.11 MB
Formato Adobe PDF
6.11 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240220