Generating ovarian cancer CT volumes via multimodal conditioning

Text-conditioned generation of 3D CT volumes has recently shown promising results, but most existing pipelines and benchmarks focus on chest CT and rely on large datasets paired with detailed radiology reports. In ovarian cancer, accurate abdomino-pelvic assessment is crucial for staging and treatment planning, yet the domain remains underexplored in text-to-CT research and is typically characterized by limited data availability and heterogeneous reporting practices across institutions. This thesis addresses two main challenges. The clinical challenge is to support ovarian-cancer imaging research with realistic, controllable 3D CT synthesis in a setting where data sharing and annotation are difficult. The technical challenge is to enable text conditioning when long, highly descriptive radiology reports are not consistently available, while still obtaining stable 3D generation with limited paired cases. To tackle these challenges, we propose a standardized report-generation strategy that builds report-like prompts from available clinical metadata and CT-derived descriptors. This design reduces dependence on institution-specific report style and provides a consistent conditioning interface that can be reused across clinical contexts. Starting from these prompts, we adopt a text-to-CT pipeline composed of two main modules: a 3D vision--language encoder that maps the prompt to an embedding and a diffusion-based generator that synthesizes a 3D CT volume conditioned on that embedding. We adapt the full pipeline to our ovarian-cancer cohort and evaluate both vision--language alignment and image fidelity with complementary quantitative metrics computed on paired real/generated volumes. Experiments on a cohort of 493 ovarian-cancer patients show that the best-performing configuration produces stable and realistic 3D generations in a limited-data regime, achieving a close match to real volumes in intensity statistics and feature-based distributional metrics. Under the same evaluation protocol, the proposed approach also outperforms a recent state-of-the-art baseline retrained on the same cohort, with statistically significant improvements on intensity-based measures across the test set. Overall, this work provides an end-to-end experimental study of text-conditioned 3D CT generation for ovarian cancer and introduces a standardized report-generation approach that makes conditioning more transferable across institutions, laying the groundwork for future research on richer conditioning, larger datasets, and clinically grounded evaluation in an underexplored anatomical and disease setting.

La generazione di volumi TC 3D condizionata da testo ha mostrato di recente risultati promettenti, ma la maggior parte delle pipeline e dei benchmark disponibili si concentra sulla TC del torace e sfrutta grandi dataset abbinati a referti radiologici molto dettagliati. Nel carcinoma ovarico, una valutazione accurata dell’addome e della pelvi è fondamentale per determinarne lo stadio e per la pianificazione del trattamento; tuttavia, questo dominio è ancora poco esplorato nell’ambito text-to-CT ed è spesso caratterizzato da una disponibilità limitata di dati e da modalità di refertazione eterogenee tra istituzioni. Questa tesi affronta due sfide principali. Dal punto di vista clinico, l’obiettivo è supportare la ricerca di imaging nel carcinoma ovarico con una sintesi di TC 3D realistica e controllabile, in un contesto in cui la condivisione dei dati e l’annotazione sono complesse. Dal punto di vista tecnico, la sfida è rendere possibile il condizionamento testuale anche quando non sono disponibili in modo sistematico referti lunghi e ricchi di descrizioni, ottenendo al contempo una generazione 3D stabile a partire da un numero limitato di casi disponibili. Per rispondere a queste esigenze, proponiamo una strategia standardizzata di “report generation” che costruisce prompt in stile referto a partire da metadati clinici e da descrittori estratti dalla TC. Questa scelta riduce la dipendenza dallo stile di refertazione specifico di un singolo centro e fornisce un’interfaccia di condizionamento coerente, riutilizzabile in contesti clinici differenti. A partire da tali prompt, adottiamo una pipeline text-to-CT composta da due moduli principali: un encoder vision–language 3D che mappa il prompt in un embedding e un generatore basato su diffusione che sintetizza un volume TC 3D condizionato su tale embedding. Adattiamo l’intera pipeline alla nostra coorte di carcinoma ovarico e valutiamo sia l’allineamento tra testo e immagini, sia la fedeltà delle immagini generate tramite metriche quantitative complementari calcolate su coppie reale/generato. Gli esperimenti condotti su una coorte di 493 pazienti con carcinoma ovarico mostrano che la configurazione migliore produce generazioni 3D stabili e realistiche pur in un regime di dati limitati, con una buona corrispondenza rispetto ai volumi reali sia nelle statistiche di intensità sia nelle metriche di similarità distribuzionale basate su feature. A parità di protocollo di valutazione, l’approccio proposto supera inoltre un baseline recente dello stato dell’arte riaddestrato sulla stessa coorte, con miglioramenti statisticamente significativi sulle misure basate sulle intensità lungo il test set. Nel complesso, questo lavoro fornisce uno studio sperimentale end-to-end sulla generazione di TC 3D condizionata dal testo nel carcinoma ovarico e introduce un approccio standardizzato di generazione dei prompt che rende il condizionamento più trasferibile tra istituzioni, ponendo le basi per ricerche future su condizionamenti più ricchi, dataset più ampi e valutazioni clinicamente fondate in un contesto anatomico e patologico ancora poco esplorato.