DNA methylation is a critical epigenetic mechanism that occurs at CpG sites as a chemical modification of DNA. Alteration levels of methylation are present for genetic, environmental and aging factors. Several studies demonstrated a correlation of methylation with cancer risk, but it is still uncertain which altered CpG sites are relevant risk indicators. Thanks to the Italian part of the EPIC project, we wish to discover new evidence on how to detect breast cancer appearance likelihood, in order to conduct targeted interventions on patients. This is a unique chance, since this prospective study has been designed to collect whole-blood DNA samples several years before the appearance of the disease. Investigating data science techniques in this context is complex: the high dimensionality, small sample size, non-linear interactions and abundant noise are tough challenges to deal with. In order to overcome these problems and achieve our purpose, we introduce a novel deep learning methodology. First, we employ a feature clustering algorithm to reduce the dimensionality of the data, aggregating biologically similar features. Afterwards, we construct a deep survival model, that exploits both autoencoders and survival analysis. We adopt layer-wise pre-training as a regularization technique, after which we fine-tune the parameters for the survival task. Finally, we employ a feature importance ranking technique, applicable both from a global and a local perspective, that uses a method based on Shapley values (SHAP) to detect the relevant variables in a fast and automatized way. Our proposal outperforms the competitor Cox model methodology and provides meaningful insights on the DNA methylation relation with breast cancer risk.

La metilazione del DNA è un meccanismo epigenetico critico che si verifica nei siti CpG attraverso una modifica chimica del DNA. Alterazioni dei livelli della metilazione sono dovuti a fattori genetici, ambientali e di invecchiamento. Diversi studi hanno dimostrato una correlazione tra la metilazione e il rischio di cancro, ma è ancora incerto quali siti CpG alterati siano indicatori rilevanti di rischio. Grazie alla componente Italiana del progetto EPIC, ci poniamo l'obiettivo di trovare nuovi indicatori per rilevare la probabilità di comparsa del cancro al seno, al fine di condurre interventi mirati sui pazienti. Questa è un'occasione unica, dal momento che si tratta di uno studio prospettico progettato per raccogliere campioni di DNA di sangue intero diversi anni prima della comparsa della malattia. Applicare le tecniche di data science in questo contesto è complesso: l'elevata dimensionalità, la piccola grandezza del campione, le interazioni non lineari e l'abbondante rumore sono sfide difficili da affrontare. Al fine di superare questi problemi, introduciamo una nuova metodologia basata sul deep learning. In primo luogo, utilizziamo un algoritmo di clustering delle variabili per ridurre la dimensionalità dei dati, aggregando covariate biologicamente simili. Successivamente, costruiamo un modello profondo di predizione del rischio, che sfrutta sia gli autoencoder che l'analisi di sopravvivenza. Adottiamo il pre-training a strati come tecnica di regolarizzazione, dopodiché ottimizziamo i parametri per la predizione dei tempi all'evento. Infine, utilizziamo una tecnica per classificare l'importanza delle variabili, applicabile sia con una prospettiva globale sia locale, basata sui valori di Shapley (SHAP) per rilevare le covariate rilevanti in modo rapido e automatizzato. La nostra proposta presenta performance migliori rispetto a quelle ottenute con la metodologia basata sul modello di Cox e fornisce risultati significativi sulla relazione tra la metilazione del DNA e il rischio di cancro al seno.

Deep learning-based feature importance ranking for DNA methylation data in breast cancer risk stratification

DOMINONI, LORENZO
2020/2021

Abstract

DNA methylation is a critical epigenetic mechanism that occurs at CpG sites as a chemical modification of DNA. Alteration levels of methylation are present for genetic, environmental and aging factors. Several studies demonstrated a correlation of methylation with cancer risk, but it is still uncertain which altered CpG sites are relevant risk indicators. Thanks to the Italian part of the EPIC project, we wish to discover new evidence on how to detect breast cancer appearance likelihood, in order to conduct targeted interventions on patients. This is a unique chance, since this prospective study has been designed to collect whole-blood DNA samples several years before the appearance of the disease. Investigating data science techniques in this context is complex: the high dimensionality, small sample size, non-linear interactions and abundant noise are tough challenges to deal with. In order to overcome these problems and achieve our purpose, we introduce a novel deep learning methodology. First, we employ a feature clustering algorithm to reduce the dimensionality of the data, aggregating biologically similar features. Afterwards, we construct a deep survival model, that exploits both autoencoders and survival analysis. We adopt layer-wise pre-training as a regularization technique, after which we fine-tune the parameters for the survival task. Finally, we employ a feature importance ranking technique, applicable both from a global and a local perspective, that uses a method based on Shapley values (SHAP) to detect the relevant variables in a fast and automatized way. Our proposal outperforms the competitor Cox model methodology and provides meaningful insights on the DNA methylation relation with breast cancer risk.
MASSI, MICHELA CARLOTTA
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
La metilazione del DNA è un meccanismo epigenetico critico che si verifica nei siti CpG attraverso una modifica chimica del DNA. Alterazioni dei livelli della metilazione sono dovuti a fattori genetici, ambientali e di invecchiamento. Diversi studi hanno dimostrato una correlazione tra la metilazione e il rischio di cancro, ma è ancora incerto quali siti CpG alterati siano indicatori rilevanti di rischio. Grazie alla componente Italiana del progetto EPIC, ci poniamo l'obiettivo di trovare nuovi indicatori per rilevare la probabilità di comparsa del cancro al seno, al fine di condurre interventi mirati sui pazienti. Questa è un'occasione unica, dal momento che si tratta di uno studio prospettico progettato per raccogliere campioni di DNA di sangue intero diversi anni prima della comparsa della malattia. Applicare le tecniche di data science in questo contesto è complesso: l'elevata dimensionalità, la piccola grandezza del campione, le interazioni non lineari e l'abbondante rumore sono sfide difficili da affrontare. Al fine di superare questi problemi, introduciamo una nuova metodologia basata sul deep learning. In primo luogo, utilizziamo un algoritmo di clustering delle variabili per ridurre la dimensionalità dei dati, aggregando covariate biologicamente simili. Successivamente, costruiamo un modello profondo di predizione del rischio, che sfrutta sia gli autoencoder che l'analisi di sopravvivenza. Adottiamo il pre-training a strati come tecnica di regolarizzazione, dopodiché ottimizziamo i parametri per la predizione dei tempi all'evento. Infine, utilizziamo una tecnica per classificare l'importanza delle variabili, applicabile sia con una prospettiva globale sia locale, basata sui valori di Shapley (SHAP) per rilevare le covariate rilevanti in modo rapido e automatizzato. La nostra proposta presenta performance migliori rispetto a quelle ottenute con la metodologia basata sul modello di Cox e fornisce risultati significativi sulla relazione tra la metilazione del DNA e il rischio di cancro al seno.
File allegati
File Dimensione Formato  
2021_12_Dominoni.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 15.93 MB
Formato Adobe PDF
15.93 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182124