A multi-modal framework integrating radiomics and visual features via masked autoencoders and vision transformers for ovarian cancer resectability prediction

Ovarian cancer remains the leading cause of mortality among gynecological malignancies, ranking 8th as the most frequent cancer in women. Within this category, High-Grade Serous Ovarian Carcinoma is the most common and aggressive histological subtype, characterized by abnormal cells originating from the serous epithelium. The extent of the malignancy is measured by the International Federation of Gynecology and Obstetrics system, which classifies Ovarian Cancer based on its anatomical spread. The current standard of care for treating FIGO Stage III and IV High-Grade Serous Ovarian Carcinoma typically involves Primary Cytoreductive Surgery, where all visible cancerous tumor tissue is removed. When complete cytoreduction is deemed unlikely, patients may undergo Neoadjuvant Chemotherapy, with the goal of reducing the tumor's volume and therefore increase the success of a complete tumor resection. Accurately assessing resectability at diagnosis remains challenging and subject to inter-observer variability. This thesis proposes a Deep Learning, multi-modal framework to predict Ovarian Cancer resectability of a given Thoraco-Abdomino-Pelvic Computed Tomography complemented by clinical variables of the specific patient through the use of Masked Autoencoders and Vision Transformers. The proposed model employs a multi-modal architecture, integrating information from three distinct data streams, with each data stream producing a numerical representation of Computed Tomography volumes, radiomics features and clinical variables. Then, the model fuses the three components, enriching the visual features with additional context information, and predicts Ovarian Cancer resectability formulated as a binary classification problem. The dataset utilized in this study comprised 495 preoperative Thoraco-Abdomino-Pelvic Computed Tomography scans of patients who underwent Primary Cytoreductive Surgery at the European Institute of Oncology in Milan. Additionally, corresponding clinical variables were provided and associated with each patient. Because of the highly imbalanced distribution of the dataset's labels, a contrastive learning approach was implemented to improve the model's robustness and representational power. The proposed model achieved a median Area Under Curve of 0.88, alongside a precision of 0.55 and a recall of 0.85, outperforming standard Machine Learning approaches found in the literature.

Il cancro ovarico rimane la principale causa di mortalità tra i tumori ginecologici maligni, classificandosi all’ottavo posto tra i tumori più frequenti nelle donne. All’interno di questa categoria, il carcinoma ovarico sieroso di alto grado è il sottotipo istologico più comune e aggressivo, caratterizzato da cellule anomale origi- nate dall’epitelio sieroso. L’estensione della neoplasia è misurata dal sistema della Federazione Internazionale di Ginecologia e Ostetricia, che classifica il carcinoma ovarico in base alla sua diffusione anatomica. L’attuale standard di cura per il trattamento del carcinoma ovarico sieroso di alto grado in stadio FIGO III e IV prevede tipicamente la chirurgia citoriduttiva primaria, in cui viene rimosso tutto il tessuto tumorale canceroso visibile. Quando la citoriduzione completa è ritenuta improbabile, le pazienti possono essere sottoposte a chemioterapia neoadiuvante, con l’obiettivo di ridurre il volume del tumore e quindi aumentare il successo di una resezione completa del tumore. Valutare con precisione la resecabilità al momento della diagnosi rimane difficile e soggetto a variabilità tra gli osservatori. Questa tesi propone un framework multimodale di deep learning per prevedere la resecabilità del carcinoma ovarico di una data tomografia computerizzata toraco-addomino-pelvica, integrata da variabili cliniche della paziente specifica attraverso l’uso di Masked Autoencoders e Vision Transformers. Il modello proposto impiega un’architettura multimodale, integrando informazioni provenienti da tre distinti flussi di dati, ciascuno dei quali produce una rappresentazione numerica dei volumi della tomografia computerizzata, delle caratteristiche radiomiche e delle variabili cliniche. Il modello fonde quindi le tre componenti, arricchendo le caratteristiche visive con ulteriori informazioni contestuali, e prevede la resecabilità del carcinoma ovarico formulata come un problema di classificazione binaria. Il set di dati utilizzato in questo studio comprende 495 scansioni tomografiche computerizzate toraco-addomino-pelviche preoperatorie di pazienti sottoposti a chirurgia citoriduttiva primaria presso l’Istituto Europeo di Oncologia di Milano. Inoltre, sono state fornite le variabili cliniche corrispondenti e associate a ciascun paziente. A causa della distribuzione altamente squilibrata delle classi del set di dati, è stato implementato un approccio di Contrastive Learning per migliorare la robustezza e la capacità rappresentativa del modello. Il modello proposto ha raggiunto un Area Under Curve mediana di 0.88, insieme a una Precision di 0.55 e un Recall di 0.85, superando gli approcci standard di apprendimento automatico presenti in letteratura.