A synthetic data-augmented machine learning pipeline for platinum sensitivity prediction in ovarian cancer patients

Platinum resistance is the primary driver of treatment failure and mortality in high-grade serous ovarian carcinoma, yet reliably identifying resistant patients in the post-surgical period remains an open clinical problem. Existing cohort-based prediction models are hampered by two structural constraints: the small size of single-institution datasets and the severe class imbalance between platinum-sensitive and platinum-resistant patients, both of which limit statistical power and inflate the variance of trained classifiers. This thesis proposes a synthetic data-augmented machine learning pipeline designed to address these constraints. Five state-of-the-art tabular generative models are systematically evaluated on a cohort of 934 HGSOC patients from the Istituto Europeo di Oncologia (IEO, Milan) using a multi-axis quality framework that jointly assesses marginal distribution fidelity, inter-feature correlation preservation, and authenticity. TabSyn, a latent-space diffusion model, consistently achieves the best scores across all axes and is selected as the augmentation engine for downstream experiments. Six classifier families are trained under three regimes (real-only, augmented, and synthetic-only) across a range of augmentation ratios and evaluated with bootstrap confidence intervals and DeLong’s test. After comparing results against the study identified as the state of the art, we show that moderate augmentation (ratio = 0.25 on a compact six-variable feature set, ratio = 0.50 on an expanded feature set) yields consistent gains (until +0.027 AUC) across all model families on both AUC and balanced accuracy. Synthetic-only training demonstrates that synthetically generated data preserves sufficient predictive structure to generalise to real patients at the cost of a small performance margin, a relevant finding for privacy-constrained multi-institutional research. Statistical significance of improvement is confirmed for the best-performing model configurations. The findings demonstrate that carefully calibrated synthetic augmentation can improve platinum sensitivity prediction without compromising clinical plausibility or patient privacy, offering a reproducible, configurable pipeline directly applicable to other oncological prediction tasks.

La resistenza al platino è la principale causa di fallimento terapeutico e di mortalità nel carcinoma sieroso di alto grado dell’ovaio, eppure identificare con affidabilità le pazienti resistenti nel periodo post-chirurgico rimane un problema clinico aperto. I modelli predittivi basati su casistiche mono-istituzionali sono ostacolati da due vincoli strutturali: la ridotta dimensione dei dataset e lo sbilanciamento severo tra pazienti platino-sensibili e platino-resistenti, entrambi fattori che limitano la potenza statistica e aumentano la varianza dei classificatori addestrati. Questa tesi propone una pipeline di machine learning con augmentazione di dati sintetici progettata per affrontare questi vincoli. Cinque modelli generativi per dati tabulari allo stato dell’arte vengono valutati sistematicamente su una coorte di 934 pazienti dell’Istituto Europeo di Oncologia (IEO, Milano) attraverso un framework di qualità multi-asse che valuta congiuntamente la fedeltà delle distribuzioni marginali, la preservazione delle correlazioni tra feature e l’autenticità. TabSyn, un diffusion model nello spazio latente, ottiene costantemente i migliori risultati su tutti gli assi ed è selezionato come motore di augmentazione per gli esperimenti a valle. Sei famiglie di classificatori vengono addestrate in tre regimi (solo dati reali, dati augmentati e solo dati sintetici) su diversi rapporti di augmentazione, e valutate con intervalli di confidenza e il test di DeLong. Confrontando i risultati con lo studio identificato come stato dell’arte, mostriamo che un’augmentazione moderata (rapporto = 0.25 su un set di feature compatto a sei variabili, rapporto = 0.50 su un set di feature espanso) produce miglioramenti consistenti in tutte le famiglie di modelli sia su AUC ROC che su accuracy bilanciata. L’addestramento con soli dati sintetici dimostra che i dati generati sinteticamente preservano una struttura predittiva sufficiente a generalizzare su pazienti reali al costo di un margine prestazionale ridotto, un risultato rilevante per la ricerca multi-istituzionale in contesti vincolati dalla privacy. La significatività statistica del miglioramento è confermata per le configurazioni di modello con le migliori prestazioni. I risultati dimostrano che un’augmentazione sintetica calibrata con cura può migliorare la predizione della sensibilità al platino senza compromettere la plausibilità clinica né la privacy delle pazienti, offrendo una pipeline riproducibile e configurabile direttamente applicabile ad altri compiti di predizione oncologica.