Ovarian cancer, especially its high-grade serous subtype, remains a major challenge in oncology due to late diagnosis, tumor heterogeneity, and frequent resistance to chemotherapy. Recent advancements in genomics and Next-Generation Sequencing (NGS) technologies have revealed the intricate web of genetic mutations and alterations present in ovarian cancer. These findings underscore the urgent need for computational strategies to improve diagnostic accuracy and therapeutic decision-making. This thesis focuses on two critical topics in oncogenomics. First, it focuses on detecting somatic variants at low fractions, a critical bottleneck for clinical applications such as circulating tumor DNA (ctDNA) analysis. A novel computational approach was developed to generate realistic synthetic tumor datasets as a general‐purpose resource for developing and benchmarking computational methods in oncogenomics. Leveraging tools like BAMSurgeon and Nextflow, we created ultra-deep, low-fraction sequencing samples with a complete ground-truth catalogue of mutations. These datasets support a range of computational and analytical applications, including the development and evaluation of bioinformatic tools. Benchmarking and evaluation of state-of- the-art variant callers is presented here as a showcase, revealing concrete strategies to raise sensitivity and specificity at allele fractions below 1%. The same approach can be extended to other analytic tasks, including quality-control pipelines and machine-learning model training, thereby reducing experimental costs and enhancing reproducibility across laboratories. Second, the thesis introduces Homologous Recombination-Signature Classifier (HR-SC), a new developed machine learning-based framework that predicts Homologous Recombination Deficiency (HRD). By integrating Copy Number signatures and BRCA mutation status, HR-SC distinguishes tumors as either HRD or Homologous Recombination Proficient (HRP). Its performance has been validated in two independent clinical trial datasets (PAOLA-1 and MITO16A/MaNGO-OV2), revealing a robust predictive value for response to Parp-inhibitors and a prognostic role under standard platinum-based therapy. This dual utility underscores the impact of Copy Number signatures and Machine Learning in refining the molecular characterization of ovarian cancer. This work explores two distinct yet complementary research directions: enhancing low-fraction variant detection and improving HRD classification. Both areas leverage genomics, bioinformatics and computational approaches, with the latter also using machine learning to refine patient stratification for targeted therapies, highlighting the significant impact of data-driven innovation in precision oncology.

Il carcinoma ovarico, in particolare il sottotipo sieroso di alto grado, rimane una delle sfide più ardue in ambito oncologico a causa della diagnosi tardiva, dell’eterogeneità tumorale e della frequente insorgenza di fenomeni di resistenza alla chemioterapia. I recenti progressi nella genomica e nelle tecnologie di Next Generation Sequencing (NGS) hanno svelato la complessa rete di mutazioni e alterazioni genetiche che caratterizza questa neoplasia, evidenziando la necessità di strategie computazionali per migliorare l’accuratezza diagnostica e le decisioni terapeutiche. Questa tesi si concentra su due temi chiave dell’oncogenomica. In primo luogo, affronta l’individuazione di varianti somatiche a bassa frazione, un collo di bottiglia fondamentale per applicazioni cliniche quali l’analisi del DNA tumorale circolante (ctDNA). In uno dei lavori da cui scaturisce questa tesi, è stato sviluppato un nuovo approccio computazionale in grado di generare dataset tumorali sintetici realistici, concepiti come risorsa per lo sviluppo e il benchmarking di metodi computazionali in oncogenomica. Sfruttando strumenti quali BAMSurgeon e Nextflow, abbiamo creato campioni di sequenziamento ad alta profondità e a bassa frazione tumorale, corredati da un catalogo completo di mutazioni. Questi dataset supportano un’ampia gamma di applicazioni computazionali e analitiche, tra cui lo sviluppo e la valutazione di strumenti bioinformatici. Come caso d’uso viene presentato il benchmarking dei variant caller più utilizzati, che ha messo in evidenza strategie concrete per aumentare sensibilità e specificità a frequenze alleliche inferiori all’1%. Lo stesso approccio può essere esteso ad altri compiti analitici, tra cui pipeline di controllo qualità e l’addestramento di modelli di Machine Learning riducendo così i costi sperimentali e migliorando la riproducibilità tra laboratori. In secondo luogo, la tesi introduce Homologous Recombination Signature Classifier (HR-SC), un nuovo framework basato sul machine learning che predice l'Homologous Recombination Deficiency (HRD). Integrando le Copy Number (CN) signatures e lo stato mutazionale di BRCA, HR-SC classifica i tumori come HRD o Homologous Recombination Proficient (HRP). Le sue prestazioni sono state validate in due coorti indipendenti di trial clinici (PAOLA-1 e MITO16A/MaNGO-OV2), evidenziando sia un solido valore predittivo sulla risposta agli inibitori Poly(ADP-Ribose) Polymerase (PARP), sia un ruolo prognostico nella terapia standard a base di platino. Questa duplice utilità mette in luce l’impatto delle CN signatures e del Machine Learning nel perfezionare la caratterizzazione molecolare del carcinoma ovarico. Questo lavoro esplora due direzioni di ricerca distinte ma complementari: il potenziamento del rilevamento di varianti a bassa frazione e il miglioramento della classificazione dell'HRD. Entrambi gli ambiti si avvalgono di genomica, bioinformatica e approcci computazionali; il secondo utilizza inoltre il Machine Learning per affinare la stratificazione dei pazienti nelle terapie mirate, evidenziando il notevole impatto dell’innovazione data-driven nell’oncologia di precisione.

Computational approaches in oncogenomics: from synthetic tumor data generation to machine-learning classification for ovarian cancer

Sergi, Aldo
2024/2025

Abstract

Ovarian cancer, especially its high-grade serous subtype, remains a major challenge in oncology due to late diagnosis, tumor heterogeneity, and frequent resistance to chemotherapy. Recent advancements in genomics and Next-Generation Sequencing (NGS) technologies have revealed the intricate web of genetic mutations and alterations present in ovarian cancer. These findings underscore the urgent need for computational strategies to improve diagnostic accuracy and therapeutic decision-making. This thesis focuses on two critical topics in oncogenomics. First, it focuses on detecting somatic variants at low fractions, a critical bottleneck for clinical applications such as circulating tumor DNA (ctDNA) analysis. A novel computational approach was developed to generate realistic synthetic tumor datasets as a general‐purpose resource for developing and benchmarking computational methods in oncogenomics. Leveraging tools like BAMSurgeon and Nextflow, we created ultra-deep, low-fraction sequencing samples with a complete ground-truth catalogue of mutations. These datasets support a range of computational and analytical applications, including the development and evaluation of bioinformatic tools. Benchmarking and evaluation of state-of- the-art variant callers is presented here as a showcase, revealing concrete strategies to raise sensitivity and specificity at allele fractions below 1%. The same approach can be extended to other analytic tasks, including quality-control pipelines and machine-learning model training, thereby reducing experimental costs and enhancing reproducibility across laboratories. Second, the thesis introduces Homologous Recombination-Signature Classifier (HR-SC), a new developed machine learning-based framework that predicts Homologous Recombination Deficiency (HRD). By integrating Copy Number signatures and BRCA mutation status, HR-SC distinguishes tumors as either HRD or Homologous Recombination Proficient (HRP). Its performance has been validated in two independent clinical trial datasets (PAOLA-1 and MITO16A/MaNGO-OV2), revealing a robust predictive value for response to Parp-inhibitors and a prognostic role under standard platinum-based therapy. This dual utility underscores the impact of Copy Number signatures and Machine Learning in refining the molecular characterization of ovarian cancer. This work explores two distinct yet complementary research directions: enhancing low-fraction variant detection and improving HRD classification. Both areas leverage genomics, bioinformatics and computational approaches, with the latter also using machine learning to refine patient stratification for targeted therapies, highlighting the significant impact of data-driven innovation in precision oncology.
PIRODDI, LUIGI
AMIGONI, FRANCESCO
D’Incalci, Maurizio
27-ott-2025
Il carcinoma ovarico, in particolare il sottotipo sieroso di alto grado, rimane una delle sfide più ardue in ambito oncologico a causa della diagnosi tardiva, dell’eterogeneità tumorale e della frequente insorgenza di fenomeni di resistenza alla chemioterapia. I recenti progressi nella genomica e nelle tecnologie di Next Generation Sequencing (NGS) hanno svelato la complessa rete di mutazioni e alterazioni genetiche che caratterizza questa neoplasia, evidenziando la necessità di strategie computazionali per migliorare l’accuratezza diagnostica e le decisioni terapeutiche. Questa tesi si concentra su due temi chiave dell’oncogenomica. In primo luogo, affronta l’individuazione di varianti somatiche a bassa frazione, un collo di bottiglia fondamentale per applicazioni cliniche quali l’analisi del DNA tumorale circolante (ctDNA). In uno dei lavori da cui scaturisce questa tesi, è stato sviluppato un nuovo approccio computazionale in grado di generare dataset tumorali sintetici realistici, concepiti come risorsa per lo sviluppo e il benchmarking di metodi computazionali in oncogenomica. Sfruttando strumenti quali BAMSurgeon e Nextflow, abbiamo creato campioni di sequenziamento ad alta profondità e a bassa frazione tumorale, corredati da un catalogo completo di mutazioni. Questi dataset supportano un’ampia gamma di applicazioni computazionali e analitiche, tra cui lo sviluppo e la valutazione di strumenti bioinformatici. Come caso d’uso viene presentato il benchmarking dei variant caller più utilizzati, che ha messo in evidenza strategie concrete per aumentare sensibilità e specificità a frequenze alleliche inferiori all’1%. Lo stesso approccio può essere esteso ad altri compiti analitici, tra cui pipeline di controllo qualità e l’addestramento di modelli di Machine Learning riducendo così i costi sperimentali e migliorando la riproducibilità tra laboratori. In secondo luogo, la tesi introduce Homologous Recombination Signature Classifier (HR-SC), un nuovo framework basato sul machine learning che predice l'Homologous Recombination Deficiency (HRD). Integrando le Copy Number (CN) signatures e lo stato mutazionale di BRCA, HR-SC classifica i tumori come HRD o Homologous Recombination Proficient (HRP). Le sue prestazioni sono state validate in due coorti indipendenti di trial clinici (PAOLA-1 e MITO16A/MaNGO-OV2), evidenziando sia un solido valore predittivo sulla risposta agli inibitori Poly(ADP-Ribose) Polymerase (PARP), sia un ruolo prognostico nella terapia standard a base di platino. Questa duplice utilità mette in luce l’impatto delle CN signatures e del Machine Learning nel perfezionare la caratterizzazione molecolare del carcinoma ovarico. Questo lavoro esplora due direzioni di ricerca distinte ma complementari: il potenziamento del rilevamento di varianti a bassa frazione e il miglioramento della classificazione dell'HRD. Entrambi gli ambiti si avvalgono di genomica, bioinformatica e approcci computazionali; il secondo utilizza inoltre il Machine Learning per affinare la stratificazione dei pazienti nelle terapie mirate, evidenziando il notevole impatto dell’innovazione data-driven nell’oncologia di precisione.
File allegati
File Dimensione Formato  
PhD_Thesis_Sergi.pdf

accessibile in internet per tutti a partire dal 13/10/2026

Dimensione 4.98 MB
Formato Adobe PDF
4.98 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/244817