A generalizable and automated framework for multimodal imaging and clinical integration in glioblastoma overall survival analysis

Glioblastoma overall survival (OS) prognosis from multi-parametric structural MRI, often studied in combination with non-imaging patient information such as clinical variables and molecular biomarkers, has been explored through heterogeneous paradigms, including radiomics, supervised deep learning, and, more recently, foundation-model embeddings, often under inconsistent preprocessing, modality handling, and evaluation protocols. This methodological fragmentation hinders fair comparison and makes reported performance differences difficult to attribute to representation quality rather than pipeline choices. In this thesis, we propose a modular and dataset-agnostic toolkit that standardizes the end-to-end workflow for reproducible neuroimaging representation benchmarking. Starting from a manifest-driven interface (patient identifiers, modality paths, and optional clinical covariates), a single orchestrated pipeline performs fail-soft validation, clinical cleaning, model-specific preprocessing with hash-indexed caching, adapter-driven quality-control export, frozen embedding extraction (per-modality and fused variants), and leakage-safe downstream evaluation with cross-validation and out-of-fold (OOF) prediction logging. We validate the framework on the public UPenn-GBM cohort, using a MGMT-filtered subset with fully observed overall survival outcomes. Two supervised settings are benchmarked: OS regression and one-year OS classification (τ = 365 days), comparing radiomics, MedicalNet-initialized 3D ResNet encoders, and multiple pretrained foundation models (BrainIAC, UniBrain, 3DINO, MedicoSAM). Under a unified protocol, the best regression configuration is obtained by 3DINO with leakage-safe late-fusion ensembling and clinical concatenation (MAE = 263.78 days, RMSE = 377.09, R2= 0.229), while the best classification performance is achieved by MedicoSAM with late-fusion ensembling and clinical concatenation (ROC-AUC = 0.773, bACC= 0.714, F1= 0.782), results that are comparable with the ones found in the literature. Overall, the proposed toolkit transforms a fragmented methodological landscape into a coherent, extensible, and scientifically comparable and competitive benchmarking process for neuroimaging representation learning, enabling systematic selection of the most effective combinations of data sources (MRI modalities, clinical variables, and molecular biomarkers) and fusion strategies for glioblastoma OS prediction.

La prognosi della sopravvivenza globale (OS) nel glioblastoma a partire da risonanza magnetica strutturale multiparametrica, spesso studiata in combinazione con informazioni cliniche e biomarcatori molecolari, è stata esplorata tramite paradigmi eterogenei, tra cui radiomica, apprendimento profondo supervisionato e, più recentemente, embedding di foundation model, spesso con fasi di preprocessamento, gestione delle modalità e protocolli di valutazione non uniformi. Questa frammentazione metodologica ostacola un confronto equo e rende difficile attribuire le differenze di performance riportate alla qualità della rappresentazione piuttosto che alle scelte di pipeline. In questa tesi proponiamo un toolkit modulare e indipendente dal dataset che standardizza il flusso di lavoro end-to-end per un benchmarking riproducibile delle rappresentazioni neuroimaging. A partire da un’interfaccia guidata da manifest (identificativi dei pazienti, percorsi delle modalità e covariate cliniche opzionali), un’unica pipeline orchestrata esegue validazione “fail-soft”, pulizia clinica, preprocessamento specifico per modello con caching indicizzato da hash, esportazione per il controllo di qualità tramite adapter, estrazione di embedding congelati (per singola modalità e varianti fuse) e valutazione a valle sicura rispetto al leakage, con crossvalidazione e logging delle predizioni out-of-fold (OOF). Validiamo il framework sulla coorte pubblica UPenn-GBM, utilizzando un sottoinsieme filtrato per lo stato MGMT con esiti di sopravvivenza globale completamente osservati. Vengono confrontate due impostazioni supervisionate: regressione di OS e classificazione della OS a un anno (τ = 365 giorni), comparando radiomica, encoder ResNet 3D inizializzati con MedicalNet e molteplici foundation model pre-addestrati (BrainIAC, UniBrain, 3DINO, MedicoSAM). Sotto un protocollo unificato, la migliore configurazione di regressione è ottenuta da 3DINO con ensembling a fusione tardiva sicuro rispetto al leakage e concatenazione clinica (MAE = 263,78 giorni, RMSE = 377,09, R2= 0,229), mentre le migliori prestazioni di classificazione sono ottenute da MedicoSAM con ensembling a fusione tardiva e concatenazione clinica (ROC-AUC = 0,773, bACC= 0,714, F1= 0,782), risultati confrontabili con quelli presenti in letteratura. Complessivamente, il toolkit proposto trasforma un panorama metodologico frammentato in un processo di benchmarking coerente, estensibile e scientificamente comparabile e competitivo per l’apprendimento di rappresentazioni neuroimaging, consentendo una selezione sistematica delle combinazioni più efficaci di fonti di dati (modalità MRI, variabili cliniche e biomarcatori molecolari) e strategie di fusione per la predizione della OS nel glioblastoma.