Patch-based 3D segmentation underpins diverse domains, from medical imaging and microscopy to industrial inspection and remote sensing. Despite impressive accuracy, these models remain opaque: practitioners often lack clear explanations of why a region is labeled, how contextual structures influence predictions, and when spurious activations emerge. This thesis introduces a model-agnostic framework for post-hoc explainability tailored to sliding-window inference in 3D. The approach defines interpretable features at multiple granularities (from regular tessellations to semantic masks such as organs), restricts attribution to user-defined regions of interest, and integrates execution-level optimizations that make perturbation-based explanations feasible at volumetric scale. The framework adapts KernelSHAP to volumetric predictors by combining: (i) multi-scale interpretable features that capture both geometric and semantic aspects of the data, including a novel class of isotropic supervoxels defined in physical space (Regular FCC), which provide clinicians with anatomically consistent units, and a hybrid design that aligns organ borders with higher internal granularity and regularity; (ii) region-focused attribution that separates stabilizing from destabilizing evidence; and (iii) convergence checks and standardized perturbation-curve metrics for stable, comparable results. Computational efficiency is ensured through receptive-field–aware cropping, patch-level caching, and vectorized perturbation handling, which jointly reduce the cost of explanation while preserving fidelity. Experiments demonstrate that the method yields faithful and reproducible explanations under realistic sampling budgets, with attribution signals stable across different feature granularities. The optimization stack proves decisive for scalability: cache hit rates above 30% and residual overheads of about 3% enable thousands of perturbations to be processed in practical runtimes. Together, these results show that the framework not only broadens the spectrum of possible attribution strategies but also makes them computationally viable at 3D scale. While radiology provides the primary validation domain—highlighting the need for anatomy-aware interpretability in clinical practice—the framework is applicable to any patch-based 3D segmentation model and supports semantic masks beyond organs, such as parts, materials, or instances in other imaging domains.
La segmentazione tridimensionale basata su patch è oggi uno strumento fondamentale in numerosi ambiti: dalla radiologia alla microscopia, dall’ispezione industriale al telerilevamento. Questi modelli garantiscono prestazioni molto elevate, ma restano in larga misura opachi. Spesso manca infatti la possibilità di capire perché una regione riceva una certa etichetta, quale ruolo svolgano le strutture circostanti nelle previsioni o in che modo si generino attivazioni spurie. Da questa esigenza nasce il lavoro di tesi, che propone un framework di interpretabilità post-hoc, indipendente dal modello, capace di adattarsi alla natura patch-wise dell’inferenza in 3D e di rendere praticabili spiegazioni basate su perturbazioni anche su volumi complessi. Il contributo principale è l’estensione di KernelSHAP alla segmentazione volumetrica, con tre innovazioni chiave. Anzitutto, l’introduzione di feature interpretabili a più livelli di granularità, che comprendono sia unità geometriche regolari sia maschere semantiche derivate da strutture anatomiche. Fra queste si distinguono due proposte originali: i supervoxel isotropici nello spazio fisico (Regular FCC), più coerenti dal punto di vista clinico rispetto a una suddivisione voxel-based, e una variante ibrida che combina i confini degli organi con una tessellazione regolare interna, coniugando dettaglio e leggibilità. In secondo luogo, l’attribuzione è limitata a regioni di interesse, così da distinguere segnali che rafforzano la previsione da quelli che la destabilizzano. Infine, il framework integra controlli di convergenza e metriche standardizzate, garantendo confrontabilità e stabilità dei risultati. Dal punto di vista prestazionale, il sistema introduce ottimizzazioni mirate alla natura a finestra scorrevole dei segmentatori 3D. L’uso del ritaglio basato sul campo recettivo, del caching delle patch non modificate e della generazione vettorializzata delle perturbazioni permette di ridurre drasticamente i tempi di calcolo, mantenendo costante la fedeltà delle spiegazioni. Lo stack di ottimizzazioni si dimostra decisivo per la scalabilità: tassi di riuso in cache superiori al 30% e overhead residui intorno al 3% consentono di gestire migliaia di perturbazioni con tempi di elaborazione compatibili con applicazioni reali. Sebbene la radiologia costituisca il principale banco di prova — con applicazioni alla segmentazione dei linfonodi in pianificazione radioterapica — il framework non è vincolato al dominio medico. La sua natura agnostica rispetto al modello e al tipo di maschere semantiche lo rende applicabile a qualsiasi compito di segmentazione 3D patch-based, dalla microscopia all’analisi di materiali o componenti industriali.
Scalable SHAP-based explainability for nnU-Net: a case study on 3D lymph node segmentation
Sichili, Giulio
2025/2026
Abstract
Patch-based 3D segmentation underpins diverse domains, from medical imaging and microscopy to industrial inspection and remote sensing. Despite impressive accuracy, these models remain opaque: practitioners often lack clear explanations of why a region is labeled, how contextual structures influence predictions, and when spurious activations emerge. This thesis introduces a model-agnostic framework for post-hoc explainability tailored to sliding-window inference in 3D. The approach defines interpretable features at multiple granularities (from regular tessellations to semantic masks such as organs), restricts attribution to user-defined regions of interest, and integrates execution-level optimizations that make perturbation-based explanations feasible at volumetric scale. The framework adapts KernelSHAP to volumetric predictors by combining: (i) multi-scale interpretable features that capture both geometric and semantic aspects of the data, including a novel class of isotropic supervoxels defined in physical space (Regular FCC), which provide clinicians with anatomically consistent units, and a hybrid design that aligns organ borders with higher internal granularity and regularity; (ii) region-focused attribution that separates stabilizing from destabilizing evidence; and (iii) convergence checks and standardized perturbation-curve metrics for stable, comparable results. Computational efficiency is ensured through receptive-field–aware cropping, patch-level caching, and vectorized perturbation handling, which jointly reduce the cost of explanation while preserving fidelity. Experiments demonstrate that the method yields faithful and reproducible explanations under realistic sampling budgets, with attribution signals stable across different feature granularities. The optimization stack proves decisive for scalability: cache hit rates above 30% and residual overheads of about 3% enable thousands of perturbations to be processed in practical runtimes. Together, these results show that the framework not only broadens the spectrum of possible attribution strategies but also makes them computationally viable at 3D scale. While radiology provides the primary validation domain—highlighting the need for anatomy-aware interpretability in clinical practice—the framework is applicable to any patch-based 3D segmentation model and supports semantic masks beyond organs, such as parts, materials, or instances in other imaging domains.| File | Dimensione | Formato | |
|---|---|---|---|
|
Executive_Summary_Sichili.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
1.57 MB
Formato
Adobe PDF
|
1.57 MB | Adobe PDF | Visualizza/Apri |
|
Thesis.pdf
accessibile in internet per tutti
Descrizione: Thesis
Dimensione
13.65 MB
Formato
Adobe PDF
|
13.65 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/244006