Cancer is driven by genetic changes and it vary significantly across tissues, progression rates, and treatment responses; researchers focus on decoding these genetic alterations to enable more targeted therapies. One promising approach is the study of mutational signatures—distinct patterns of mutations left by specific processes (e.g., UV exposure or smoking). These "genetic fingerprints" offer insights into cancer’s causes and development, with higher exposure to a signature indicating a greater contribution to genetic alterations. Advancements in next-generation sequencing (NGS) have enabled the identification of more than 86 mutational signatures, many linked to specific causes. Although Whole Genome Sequencing (WGS) allows accurate mutational signature identification and exposure estimation, it is costly and time-intensive, limiting clinical use. Instead, clinicians often rely on Whole Exome Sequencing (WES) or gene panels, which are more practical but offer only partial genomic coverage. Tools for mutational signature identification and exposure estimation are less effective on WES data, as it contains fewer mutations. Improving WES-based methods could integrate mutational analysis into routine clinical practice, enhancing personalized cancer treatment. This thesis proposes a novel neural network based approach using an encoder-decoder model to improve mutational signature exposure estimation. Designed to better transfer probability distributions from WES to WGS data, the model’s encoder incorporates DenseNet blocks to optimize parameter use and enhance feature sharing, creating a more generalized feature space. Multiple variants of the model were developed and trained, all of which demonstrated improved performance over the current gold-standard tool for exposure assignment (SigProfilerAssignment). These models showed better alignment of predicted exposure distributions to WGS data and achieved higher precision in predictions. A rigorous 50-fold cross-validation process further validated the robustness and stability of each model variant, reinforcing the reliability and consistency of the proposed approach across different data splits.

Il cancro è causato da mutazioni genetiche e mostra variazioni significative in quanto a tessuti colpiti, tassi di progressione e risposte ai trattamenti; la ricerca si è quindi focalizzata sulla decodifica di queste alterazioni genetiche, nella speranza che conducano allo sviluppo di terapia più focalizzate ed efficaci. Un approccio promettente è lo studio delle mutational signatures, distinti patterns di mutazioni lasciate dagli specifici processi mutazionali (ad esempio, esposizione ai raggi UV o fumo). Queste "impronte genetiche" offrono indizi sulle cause e sullo sviluppo del cancro, con una maggiore esposizione a una signature che indica un maggiore contributo di quest’ultima alle alterazioni nel genoma. I progressi nel sequenziamento di nuova generazione (NGS) hanno consentito l’identificazione di oltre 86 mutational signatures, molte delle quali collegate a cause specifiche. Sebbene il sequenziamento del genoma intero (WGS) consenta un’identificazione accurata della mutational signature e una stima della sua esposizione, è costoso e richiede molto tempo, limitandone l’uso clinico. Invece, i medici spesso si affidano al sequenziamento del solo esoma (WES) o gruppi di geni (gene panels), che sono più pratici ma offrono solo una copertura del genoma parziale. Gli strumenti per l’identificazione delle mutational signatures e la stima delle relative esposizioni sono meno efficaci sui dati WES, poiché contengono meno mutazioni. Il miglioramento dei metodi basati su WES potrebbe integrare l’analisi mutazionale nella pratica clinica di routine, migliorando il trattamento personalizzato del cancro. Questa tesi propone un nuovo approccio basato sulle reti neurali che utilizza un modello di encoder-decoder per migliorare la stima dell’esposizione alla firma mutazionale. Progettato per mappare meglio le distribuzioni di probabilità dai dati WES a quelli WGS, l’encoder del modello incorpora DenseNet Blocks per ottimizzare l’uso dei parametri e migliorare la condivisione delle features, creando un features space più generalizzato. Sono state sviluppate e addestrate più varianti del modello, di queste, tutte hanno dimostrato prestazioni migliorate rispetto all’attuale strumento gold standard per l’assegnazione dell’esposizione (SigProfilerAssignment). Questi modelli hanno mostrato un migliore allineamento ai dati WGS delle distribuzioni di esposizione predette e hanno ottenuto una maggiore precisione nelle previsioni. Un rigoroso processo di cross validation a 50 folds ha ulteriormente convalidato la robustezza e la stabilità di ciascuna variante del modello, rafforzando l’affidabilità e la coerenza dell’approccio proposto tra diverse split.

An encoderdecoder-based approach for correcting mutational signature exposures in WES Data

Perini, Annalisa
2023/2024

Abstract

Cancer is driven by genetic changes and it vary significantly across tissues, progression rates, and treatment responses; researchers focus on decoding these genetic alterations to enable more targeted therapies. One promising approach is the study of mutational signatures—distinct patterns of mutations left by specific processes (e.g., UV exposure or smoking). These "genetic fingerprints" offer insights into cancer’s causes and development, with higher exposure to a signature indicating a greater contribution to genetic alterations. Advancements in next-generation sequencing (NGS) have enabled the identification of more than 86 mutational signatures, many linked to specific causes. Although Whole Genome Sequencing (WGS) allows accurate mutational signature identification and exposure estimation, it is costly and time-intensive, limiting clinical use. Instead, clinicians often rely on Whole Exome Sequencing (WES) or gene panels, which are more practical but offer only partial genomic coverage. Tools for mutational signature identification and exposure estimation are less effective on WES data, as it contains fewer mutations. Improving WES-based methods could integrate mutational analysis into routine clinical practice, enhancing personalized cancer treatment. This thesis proposes a novel neural network based approach using an encoder-decoder model to improve mutational signature exposure estimation. Designed to better transfer probability distributions from WES to WGS data, the model’s encoder incorporates DenseNet blocks to optimize parameter use and enhance feature sharing, creating a more generalized feature space. Multiple variants of the model were developed and trained, all of which demonstrated improved performance over the current gold-standard tool for exposure assignment (SigProfilerAssignment). These models showed better alignment of predicted exposure distributions to WGS data and achieved higher precision in predictions. A rigorous 50-fold cross-validation process further validated the robustness and stability of each model variant, reinforcing the reliability and consistency of the proposed approach across different data splits.
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Il cancro è causato da mutazioni genetiche e mostra variazioni significative in quanto a tessuti colpiti, tassi di progressione e risposte ai trattamenti; la ricerca si è quindi focalizzata sulla decodifica di queste alterazioni genetiche, nella speranza che conducano allo sviluppo di terapia più focalizzate ed efficaci. Un approccio promettente è lo studio delle mutational signatures, distinti patterns di mutazioni lasciate dagli specifici processi mutazionali (ad esempio, esposizione ai raggi UV o fumo). Queste "impronte genetiche" offrono indizi sulle cause e sullo sviluppo del cancro, con una maggiore esposizione a una signature che indica un maggiore contributo di quest’ultima alle alterazioni nel genoma. I progressi nel sequenziamento di nuova generazione (NGS) hanno consentito l’identificazione di oltre 86 mutational signatures, molte delle quali collegate a cause specifiche. Sebbene il sequenziamento del genoma intero (WGS) consenta un’identificazione accurata della mutational signature e una stima della sua esposizione, è costoso e richiede molto tempo, limitandone l’uso clinico. Invece, i medici spesso si affidano al sequenziamento del solo esoma (WES) o gruppi di geni (gene panels), che sono più pratici ma offrono solo una copertura del genoma parziale. Gli strumenti per l’identificazione delle mutational signatures e la stima delle relative esposizioni sono meno efficaci sui dati WES, poiché contengono meno mutazioni. Il miglioramento dei metodi basati su WES potrebbe integrare l’analisi mutazionale nella pratica clinica di routine, migliorando il trattamento personalizzato del cancro. Questa tesi propone un nuovo approccio basato sulle reti neurali che utilizza un modello di encoder-decoder per migliorare la stima dell’esposizione alla firma mutazionale. Progettato per mappare meglio le distribuzioni di probabilità dai dati WES a quelli WGS, l’encoder del modello incorpora DenseNet Blocks per ottimizzare l’uso dei parametri e migliorare la condivisione delle features, creando un features space più generalizzato. Sono state sviluppate e addestrate più varianti del modello, di queste, tutte hanno dimostrato prestazioni migliorate rispetto all’attuale strumento gold standard per l’assegnazione dell’esposizione (SigProfilerAssignment). Questi modelli hanno mostrato un migliore allineamento ai dati WGS delle distribuzioni di esposizione predette e hanno ottenuto una maggiore precisione nelle previsioni. Un rigoroso processo di cross validation a 50 folds ha ulteriormente convalidato la robustezza e la stabilità di ciascuna variante del modello, rafforzando l’affidabilità e la coerenza dell’approccio proposto tra diverse split.
File allegati
File Dimensione Formato  
2024_12_Perini_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 863.53 kB
Formato Adobe PDF
863.53 kB Adobe PDF Visualizza/Apri
2024_12_Perini_Tesi.pdf

accessibile in internet per tutti

Descrizione: Master Thesis
Dimensione 3.24 MB
Formato Adobe PDF
3.24 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230360