In recent years, deep learning has demonstrated remarkable performance in medical image segmentation tasks. However, most state-of-the-art models provide deterministic predictions without accounting for uncertainty, which is a critical aspect in clinical decision-making. This thesis focuses on the estimation and visualization of uncertainty in medical image segmentation using neural networks. The work is based on the nnUNet framework, a robust and self-configuring pipeline for medical segmentation, which has been extended with probabilistic methods to quantify both aleatoric and epistemic uncertainty. The experimental evaluation was conducted on a private dataset of 45 full-body CT scans. Several uncertainty estimation and calibration approaches were implemented, including Temperature Scaling, Deep Ensembles, Checkpoint Ensembles, and Test-Time Augmentation. Each method was integrated into the nnUNet v2 pipeline and evaluated using standard segmentation metrics (such as Dice Similarity Coefficient, DSC) and uncertainty-specific metrics (such as Expected Calibration Error, ECE). The results show that models calibrated with temperature scaling T=3.0 achieve a significant reduction in ECE from 5.45% to 2.39%, without compromising segmentation quality (average DSC remained above 0.81). Deep Ensembles and Checkpoint Ensembles further improved uncertainty estimation, capturing epistemic variability across folds or training snapshots. Moreover, Test-Time Augmentation proved effective in identifying aleatoric uncertainty, highlighting ambiguous regions caused by poor contrast or anatomical complexity. A key contribution of this work is the development of advanced entropy-based uncertainty visualizations, which were integrated into an interactive tool. These visual cues enable clinicians to inspect segmentation predictions alongside their confidence maps, revealing potentially unreliable regions in real time. In conclusion, this thesis demonstrates that uncertainty-aware models can provide more trustworthy and interpretable predictions while maintaining high segmentation performance. By combining multiple estimation strategies with intuitive visualization tools, the proposed pipeline contributes to bridging the gap between AI models and clinical adoption.

Negli ultimi anni, il deep learning ha dimostrato prestazioni straordinarie nei compiti di segmentazione di immagini mediche. Tuttavia, la maggior parte dei modelli allo stato dell’arte produce predizioni deterministiche, senza tenere conto dell’incertezza, un aspetto cruciale nel processo decisionale clinico. Questa tesi si concentra sulla stima e visualizzazione dell’incertezza nella segmentazione di immagini mediche mediante reti neurali. Il lavoro si basa sul framework nnUNet, una pipeline robusta e auto-configurante per la segmentazione medica, estesa con metodi probabilistici per quantificare sia l’incertezza aleatoria che quella epistemica. La valutazione sperimentale è stata condotta su un dataset privato costituito da 45 scansioni TC del corpo intero. Sono stati implementati diversi approcci per la stima dell’incertezza e la calibrazione, tra cui Temperature Scaling, Deep Ensembles, Checkpoint Ensembles e Test-Time Augmentation. Ogni metodo è stato integrato nella pipeline di nnUNet v2 ed è stato valutato sia tramite metriche standard di segmentazione (come il Dice Similarity Coefficient, DSC) sia con metriche specifiche per l’incertezza (come l’Expected Calibration Error, ECE). I risultati mostrano che i modelli calibrati con temperature scaling (T = 3.0) ottengono una riduzione significativa dell’ECE, passando dal 5.45% al 2.39%, senza compromettere la qualità della segmentazione (il DSC medio è rimasto superiore a 0.81). I Deep Ensemble e i Checkpoint Ensemble hanno ulteriormente migliorato la stima dell’incertezza,catturando la variabilità epistemica tra fold o durante le fasi di training. Inoltre, il Test-Time Augmentation si è dimostrato efficace nell’identificare l’incertezza aleatoria, evidenziando regioni ambigue dovute a scarso contrasto o complessità anatomica. Un contributo chiave di questo lavoro è lo sviluppo di visualizzazioni avanzate dell’incertezza basate sull’entropia, integrate in uno strumento interattivo. Queste rappresentazioni grafiche permettono ai medici di ispezionare le predizioni del modello insieme alle mappe di confidenza, rivelando in tempo reale le aree potenzialmente inaffidabili. In conclusione, questa tesi dimostra che modelli consapevoli dell’incertezza possono offrire predizioni più affidabili e interpretabili, mantenendo al contempo elevate prestazioni di segmentazione. Combinando diverse strategie di stima con strumenti di visualizzazione intuitivi, la pipeline proposta contribuisce a colmare il divario tra i modelli di intelligenza artificiale e la loro effettiva adozione clinica.

Uncertainty estimation in medical image segmentation with deep learning

MONDO, LORENZO
2024/2025

Abstract

In recent years, deep learning has demonstrated remarkable performance in medical image segmentation tasks. However, most state-of-the-art models provide deterministic predictions without accounting for uncertainty, which is a critical aspect in clinical decision-making. This thesis focuses on the estimation and visualization of uncertainty in medical image segmentation using neural networks. The work is based on the nnUNet framework, a robust and self-configuring pipeline for medical segmentation, which has been extended with probabilistic methods to quantify both aleatoric and epistemic uncertainty. The experimental evaluation was conducted on a private dataset of 45 full-body CT scans. Several uncertainty estimation and calibration approaches were implemented, including Temperature Scaling, Deep Ensembles, Checkpoint Ensembles, and Test-Time Augmentation. Each method was integrated into the nnUNet v2 pipeline and evaluated using standard segmentation metrics (such as Dice Similarity Coefficient, DSC) and uncertainty-specific metrics (such as Expected Calibration Error, ECE). The results show that models calibrated with temperature scaling T=3.0 achieve a significant reduction in ECE from 5.45% to 2.39%, without compromising segmentation quality (average DSC remained above 0.81). Deep Ensembles and Checkpoint Ensembles further improved uncertainty estimation, capturing epistemic variability across folds or training snapshots. Moreover, Test-Time Augmentation proved effective in identifying aleatoric uncertainty, highlighting ambiguous regions caused by poor contrast or anatomical complexity. A key contribution of this work is the development of advanced entropy-based uncertainty visualizations, which were integrated into an interactive tool. These visual cues enable clinicians to inspect segmentation predictions alongside their confidence maps, revealing potentially unreliable regions in real time. In conclusion, this thesis demonstrates that uncertainty-aware models can provide more trustworthy and interpretable predictions while maintaining high segmentation performance. By combining multiple estimation strategies with intuitive visualization tools, the proposed pipeline contributes to bridging the gap between AI models and clinical adoption.
COIMBRA QUINTAS BRIOSO, EMANUEL RICARDO
CRESPI, LEONARDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Negli ultimi anni, il deep learning ha dimostrato prestazioni straordinarie nei compiti di segmentazione di immagini mediche. Tuttavia, la maggior parte dei modelli allo stato dell’arte produce predizioni deterministiche, senza tenere conto dell’incertezza, un aspetto cruciale nel processo decisionale clinico. Questa tesi si concentra sulla stima e visualizzazione dell’incertezza nella segmentazione di immagini mediche mediante reti neurali. Il lavoro si basa sul framework nnUNet, una pipeline robusta e auto-configurante per la segmentazione medica, estesa con metodi probabilistici per quantificare sia l’incertezza aleatoria che quella epistemica. La valutazione sperimentale è stata condotta su un dataset privato costituito da 45 scansioni TC del corpo intero. Sono stati implementati diversi approcci per la stima dell’incertezza e la calibrazione, tra cui Temperature Scaling, Deep Ensembles, Checkpoint Ensembles e Test-Time Augmentation. Ogni metodo è stato integrato nella pipeline di nnUNet v2 ed è stato valutato sia tramite metriche standard di segmentazione (come il Dice Similarity Coefficient, DSC) sia con metriche specifiche per l’incertezza (come l’Expected Calibration Error, ECE). I risultati mostrano che i modelli calibrati con temperature scaling (T = 3.0) ottengono una riduzione significativa dell’ECE, passando dal 5.45% al 2.39%, senza compromettere la qualità della segmentazione (il DSC medio è rimasto superiore a 0.81). I Deep Ensemble e i Checkpoint Ensemble hanno ulteriormente migliorato la stima dell’incertezza,catturando la variabilità epistemica tra fold o durante le fasi di training. Inoltre, il Test-Time Augmentation si è dimostrato efficace nell’identificare l’incertezza aleatoria, evidenziando regioni ambigue dovute a scarso contrasto o complessità anatomica. Un contributo chiave di questo lavoro è lo sviluppo di visualizzazioni avanzate dell’incertezza basate sull’entropia, integrate in uno strumento interattivo. Queste rappresentazioni grafiche permettono ai medici di ispezionare le predizioni del modello insieme alle mappe di confidenza, rivelando in tempo reale le aree potenzialmente inaffidabili. In conclusione, questa tesi dimostra che modelli consapevoli dell’incertezza possono offrire predizioni più affidabili e interpretabili, mantenendo al contempo elevate prestazioni di segmentazione. Combinando diverse strategie di stima con strumenti di visualizzazione intuitivi, la pipeline proposta contribuisce a colmare il divario tra i modelli di intelligenza artificiale e la loro effettiva adozione clinica.
File allegati
File Dimensione Formato  
2025_07_Mondo_Lorenzo_executive summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary Completo
Dimensione 2.46 MB
Formato Adobe PDF
2.46 MB Adobe PDF Visualizza/Apri
2025_07_Mondo_Lorenzo_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Tesi Completa, rimosse undefined references
Dimensione 6.51 MB
Formato Adobe PDF
6.51 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240159