Lymphoma remains one of the most prevalent hematologic malignancies worldwide, with early and accurate diagnosis being essential to improve patient outcomes and reduce long-term complications. Medical imaging, particularly PET-CT, plays a critical role in lymphoma assessment, yet accurate segmentation of lymph nodes remains a complex task due to inter-institutional variability in image quality and annotation protocols. Training deep learning models for medical image segmentation typically requires large, well-annotated datasets. However, the sensitive nature of medical data makes centralized training approaches difficult to apply in real-world clinical settings. As a result, federated learning (FL) has emerged as a promising alternative that enables collaborative model development across institutions without compromising patient privacy. This thesis, carried out at the Division of Biomedical Imaging of KTH Royal Institute of Technology, investigates how \textbf{\textsf{preprocessing harmonization strategies}} impact the performance of \textbf{\textsf{federated learning}} models for \textbf{\textsf{lymphoma segmentation in PET-CT imaging}}, with a particular focus on generalization across institutions. A standardized nnU-Net pipeline was applied to three datasets: AutoPET, Indolent Lymphoma 1, and Indolent Lymphoma 2. Baseline models were trained on each dataset individually and on a centralized combination of all datasets (LymphoFusion configuration). Cross-site validation experiments simulated real-world deployment scenarios, while FL was implemented using NVIDIA NVFlare with harmonized preprocessing at each site. Results demonstrated that FL consistently outperformed cross-site validation across all datasets. On AutoPET, FL achieved a Dice of 0.73, approaching the LymphoFusion score of 0.78. On Indolent Lymphoma 2, FL reached 0.61, slightly exceeding the centralized score of 0.57. On Indolent Lymphoma 1, FL scored 0.48, compared to 0.44 in the centralized setting. These results confirm the robustness of FL and its ability to deliver high performance even without data sharing. Paired t-tests showed statistically significant improvements of FL over cross-site validation in terms of Dice and ASD for AutoPET and Indolent Lymphoma 1. Nonetheless, challenges such as annotation variability and lack of harmonization in the Indolent datasets likely affected the overall segmentation quality. Although the ideal training scenario would involve combining all datasets through centralized training, as done in LymphoFusion, this is often infeasible due to privacy regulations. FL therefore stands out as a practical and effective alternative, capable of achieving comparable performance while preserving data privacy.

Il linfoma è ancora oggi una delle neoplasie ematologiche più diffuse a livello globale, e una diagnosi precoce e accurata è fondamentale per migliorare gli esiti clinici dei pazienti e ridurre le complicanze a lungo termine. L’imaging medico, in particolare la PET-CT, svolge un ruolo cruciale nella valutazione del linfoma; tuttavia, la segmentazione accurata dei linfonodi rimane un compito complesso, a causa della variabilità tra istituzioni nella qualità delle immagini e nei protocolli di annotazione. L’addestramento di modelli di deep learning per la segmentazione di immagini mediche richiede tipicamente dataset ampi e ben annotati. Tuttavia, la natura sensibile dei dati medici rende difficile adottare approcci di training centralizzato (centralized training) nei contesti clinici reali. Per questo motivo, il Federated Learning (FL) si è affermato come un’alternativa promettente, consentendo lo sviluppo collaborativo dei modelli tra istituzioni, senza compromettere la privacy dei pazienti. Questa tesi analizza l’impatto delle \textbf{\textsf{strategie di armonizzazione del preprocessing}} sulle prestazioni del \textbf{\textsf{FL}} per la \textbf{\textsf{segmentazione del linfoma in immagini PET-CT}}, con particolare attenzione alla capacità di generalizzazione tra istituzioni diverse. Una pipeline standardizzata basata su nnU-Net è stata applicata a tre dataset: AutoPET, Indolent Lymphoma 1 e Indolent Lymphoma 2. I modelli di riferimento (baseline) sono stati addestrati sia su ciascun dataset singolarmente (single-site) sia su una combinazione centralizzata di tutti i dataset (configurazione LymphoFusion). Esperimenti di validazione cross-site hanno simulato scenari reali di deploy multi-istituzionale, mentre il FL è stato implementato utilizzando NVIDIA NVFlare, con preprocessing armonizzato in ciascun sito. I risultati hanno mostrato che il FL ha superato costantemente la validazione cross-site su tutti i dataset. Su AutoPET, il FL ha raggiunto un Dice di 0.73, avvicinandosi al valore della configurazione LymphoFusion (0.78). Su Indolent Lymphoma 2, il FL ha ottenuto un Dice di 0.61, superando leggermente il risultato centralizzato (0.57). Su Indolent Lymphoma 1, il FL ha raggiunto 0.48, contro lo 0.44 della configurazione centralizzata. Questi risultati confermano la solidità del FL e la sua capacità di garantire alte prestazioni anche in assenza di condivisione diretta dei dati. I test t appaiati hanno evidenziato miglioramenti statisticamente significativi del FL rispetto alla validazione cross-site, in termini di Dice e ASD, per i dataset AutoPET e Indolent Lymphoma 1. Tuttavia, criticità come la variabilità nelle annotazioni e la mancanza di armonizzazione nei dataset Indolent hanno probabilmente influito sulla qualità complessiva della segmentazione. Sebbene lo scenario ideale per l’addestramento preveda la combinazione centralizzata di tutti i dataset, come realizzato nella configurazione LymphoFusion, ciò risulta spesso irrealizzabile a causa delle normative sulla privacy. Il FL rappresenta dunque un’alternativa concreta ed efficace, capace di raggiungere prestazioni comparabili pur preservando la riservatezza dei dati.

Deep learning-based lymphoma segmentation in PET-CT images using federated learning

BRUNORI, SOFIA
2024/2025

Abstract

Lymphoma remains one of the most prevalent hematologic malignancies worldwide, with early and accurate diagnosis being essential to improve patient outcomes and reduce long-term complications. Medical imaging, particularly PET-CT, plays a critical role in lymphoma assessment, yet accurate segmentation of lymph nodes remains a complex task due to inter-institutional variability in image quality and annotation protocols. Training deep learning models for medical image segmentation typically requires large, well-annotated datasets. However, the sensitive nature of medical data makes centralized training approaches difficult to apply in real-world clinical settings. As a result, federated learning (FL) has emerged as a promising alternative that enables collaborative model development across institutions without compromising patient privacy. This thesis, carried out at the Division of Biomedical Imaging of KTH Royal Institute of Technology, investigates how \textbf{\textsf{preprocessing harmonization strategies}} impact the performance of \textbf{\textsf{federated learning}} models for \textbf{\textsf{lymphoma segmentation in PET-CT imaging}}, with a particular focus on generalization across institutions. A standardized nnU-Net pipeline was applied to three datasets: AutoPET, Indolent Lymphoma 1, and Indolent Lymphoma 2. Baseline models were trained on each dataset individually and on a centralized combination of all datasets (LymphoFusion configuration). Cross-site validation experiments simulated real-world deployment scenarios, while FL was implemented using NVIDIA NVFlare with harmonized preprocessing at each site. Results demonstrated that FL consistently outperformed cross-site validation across all datasets. On AutoPET, FL achieved a Dice of 0.73, approaching the LymphoFusion score of 0.78. On Indolent Lymphoma 2, FL reached 0.61, slightly exceeding the centralized score of 0.57. On Indolent Lymphoma 1, FL scored 0.48, compared to 0.44 in the centralized setting. These results confirm the robustness of FL and its ability to deliver high performance even without data sharing. Paired t-tests showed statistically significant improvements of FL over cross-site validation in terms of Dice and ASD for AutoPET and Indolent Lymphoma 1. Nonetheless, challenges such as annotation variability and lack of harmonization in the Indolent datasets likely affected the overall segmentation quality. Although the ideal training scenario would involve combining all datasets through centralized training, as done in LymphoFusion, this is often infeasible due to privacy regulations. FL therefore stands out as a practical and effective alternative, capable of achieving comparable performance while preserving data privacy.
BENDAZZOLI, SIMONE
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il linfoma è ancora oggi una delle neoplasie ematologiche più diffuse a livello globale, e una diagnosi precoce e accurata è fondamentale per migliorare gli esiti clinici dei pazienti e ridurre le complicanze a lungo termine. L’imaging medico, in particolare la PET-CT, svolge un ruolo cruciale nella valutazione del linfoma; tuttavia, la segmentazione accurata dei linfonodi rimane un compito complesso, a causa della variabilità tra istituzioni nella qualità delle immagini e nei protocolli di annotazione. L’addestramento di modelli di deep learning per la segmentazione di immagini mediche richiede tipicamente dataset ampi e ben annotati. Tuttavia, la natura sensibile dei dati medici rende difficile adottare approcci di training centralizzato (centralized training) nei contesti clinici reali. Per questo motivo, il Federated Learning (FL) si è affermato come un’alternativa promettente, consentendo lo sviluppo collaborativo dei modelli tra istituzioni, senza compromettere la privacy dei pazienti. Questa tesi analizza l’impatto delle \textbf{\textsf{strategie di armonizzazione del preprocessing}} sulle prestazioni del \textbf{\textsf{FL}} per la \textbf{\textsf{segmentazione del linfoma in immagini PET-CT}}, con particolare attenzione alla capacità di generalizzazione tra istituzioni diverse. Una pipeline standardizzata basata su nnU-Net è stata applicata a tre dataset: AutoPET, Indolent Lymphoma 1 e Indolent Lymphoma 2. I modelli di riferimento (baseline) sono stati addestrati sia su ciascun dataset singolarmente (single-site) sia su una combinazione centralizzata di tutti i dataset (configurazione LymphoFusion). Esperimenti di validazione cross-site hanno simulato scenari reali di deploy multi-istituzionale, mentre il FL è stato implementato utilizzando NVIDIA NVFlare, con preprocessing armonizzato in ciascun sito. I risultati hanno mostrato che il FL ha superato costantemente la validazione cross-site su tutti i dataset. Su AutoPET, il FL ha raggiunto un Dice di 0.73, avvicinandosi al valore della configurazione LymphoFusion (0.78). Su Indolent Lymphoma 2, il FL ha ottenuto un Dice di 0.61, superando leggermente il risultato centralizzato (0.57). Su Indolent Lymphoma 1, il FL ha raggiunto 0.48, contro lo 0.44 della configurazione centralizzata. Questi risultati confermano la solidità del FL e la sua capacità di garantire alte prestazioni anche in assenza di condivisione diretta dei dati. I test t appaiati hanno evidenziato miglioramenti statisticamente significativi del FL rispetto alla validazione cross-site, in termini di Dice e ASD, per i dataset AutoPET e Indolent Lymphoma 1. Tuttavia, criticità come la variabilità nelle annotazioni e la mancanza di armonizzazione nei dataset Indolent hanno probabilmente influito sulla qualità complessiva della segmentazione. Sebbene lo scenario ideale per l’addestramento preveda la combinazione centralizzata di tutti i dataset, come realizzato nella configurazione LymphoFusion, ciò risulta spesso irrealizzabile a causa delle normative sulla privacy. Il FL rappresenta dunque un’alternativa concreta ed efficace, capace di raggiungere prestazioni comparabili pur preservando la riservatezza dei dati.
File allegati
File Dimensione Formato  
2025_10_Brunori_ExecutiveSummary_02.pdf

accessibile in internet per tutti

Descrizione: executive summary
Dimensione 891 kB
Formato Adobe PDF
891 kB Adobe PDF Visualizza/Apri
2025_10_Brunori_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: tesi
Dimensione 2.95 MB
Formato Adobe PDF
2.95 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243300