A multimodal framework for survival analysis integrating clinical, genomic, histopathological and textual data

Modern cancer centers collect an enormous wealth of diverse data that describe individual patients in great detail, leading to comprehensive, multi- modal datasets that can potentially pave the way towards an holistic framework for medical predictive modeling. However, such datasets are often characterized by very high dimensionality and low sample size, posing significant challenges to neural models in learning a discriminative representation without compromising generalization. In this thesis, we present a novel multimodal framework for sur- vival analysis in the medical field. To address the above challenges, the proposed method deploys a combination of intermediate and late fusion, integrating data that originates from clinical observations, textual medical reports, whole slide images of tissue samples, and genomic information. We also propose a modular train- ing strategy, where each modality undergoes separate training into an individual submodel, and is later merged into a joint network, whose training is focused on learning fusion weights. In addition, the presence of attention-based fusion modules positively contributes to model interpretability, allowing the visualization of atten- tion maps. Experimental results on four cancer datasets highlight state-of-the-art performance, supporting the effectiveness of our fusion and training methods.

I moderni centri oncologici raccolgono un’enorme mole di dati eterogenei che descrivono ogni paziente in modo esaustivo, dando origine a dataset multimodali completi, che hanno il potenziale di promuovere un approccio olistico nei modelli predittivi in medicina. Tuttavia, tali dataset sono spesso caratterizzati da un’elevata dimensionalità e da una ridotta numerosità campionaria, il che pone notevoli sfide ai modelli neurali nel riuscire a imparare rappresentazioni discriminative senza compromettere la capacità di generalizzazione. In questa tesi presentiamo un nuovo framework multimodale per analisi di sopravvivenza in ambito medico. Per affrontare le sfide sopra menzionate, il metodo proposto adotta una combinazione di fusione intermedia e fusione tardiva, integrando dati provenienti da osservazioni cliniche, referti medici testuali, immagini istologiche digitali (whole slide images) e informazioni genomiche. Proponiamo inoltre una strategia di training modulare, in cui ogni modalità viene prima addestrata separatamente in una sotto-rete dedicata, le quali sono poi fuse in una rete congiunta, il cui addestramento è focalizzato sull’apprendimento dei pesi di fusione. In aggiunta, la presenza di moduli di fusione basati su meccanismi di attenzione contribuisce positivamente all’interpretabilità del modello, consentendo la visualizzazione delle mappe di attenzione. I risultati sperimentali su quattro dataset oncologici evidenziano prestazioni allo stato dell’arte, confermando l’efficacia delle strategie di fusione e di addestramento proposte.