Predicting the risk of being affected by cardiovascular diseases is a challenging goal which recent research is focusing on. The use of biomarkers for this purpose is increasingly popular, and it has been demonstrated that it is possible to create valid biomarkers surrogates from DNA methylation values. Specifically, more importance is given to CpG sites, DNA regions mostly related to gene expression, which can be isolated in the DNA sequence or grouped in high density areas called CpG Islands. The main purpose of this thesis is to explore the hypothesis that incorporating the information regarding the inclusion of a site within an island can improve the identification of the most relevant CpG sites for risk prediction. To address this hypothesis, we propose the employement of Multivariate Sparse Group Lasso penalty in a Multivariate Random Effect Penalized model. This specific penalty type allows for the incorporation of grouping structures within the covariates, facilitating comprehensive shrinkage for non-relevant groups. Moreover, the random effects permits to take into account the groupings among samples, while the use of a multivariate response is aimed to take advantage of the correlation between the risk factors. By comparing our proposed model against existing state-of-the-art methods, we aim to demonstrate its superiority in accurately detecting important CpG sites and improving the biomarker prediction. Both the results obtained from the simulations on synthetic data and the application to real data show that the addition of the proposed penalty can lead to a more accurate detection of the important groups of covariates, and to better performances in terms of estimation of the responses in a hierarchical data setting.

Prevedere il rischio di sviluppare malattie cardiovascolari rappresenta una sfida importante su cui la ricerca è sempre più focalizzata. A questo scopo, l'uso di biomarcatori è sempre più diffuso, ed è stato dimostrato che è possibile creare surrogati validi a partire dai valori di metilazione del DNA. In particolare, viene data maggiore importanza ai siti CpG, regioni del DNA maggiormente correlate all'espressione genica, che possono essere isolati nella sequenza del DNA o raggruppati in aree ad alta densità chiamate isole CpG. Lo scopo principale di questa tesi è quello di esplorare l'ipotesi che incorporare le informazioni riguardanti l'inclusione di un sito all'interno di un'isola possa migliorare l'identificazione dei siti CpG più rilevanti per la previsione del rischio. Per rispondere a questa ipotesi, proponiamo l'impiego della penalità Multivariate Sparse Group Lasso in un modello multivariato penalizzato a effetti casuali. Questo specifico tipo di penalità consente di incorporare delle strutture di raggruppamento all'interno delle covariate, facilitando il restringimento globale per i gruppi non rilevanti. Inoltre, l'introduzione degli effetti misti permette di tenere in considerazione i raggruppamenti tra i campioni, mentre l'uso di una risposta multivariata è introdotto per sfruttare la correlazione tra i fattori di rischio. Confrontando il modello proposto con i metodi più avanzati esistenti, ci poniamo come obiettivo il dimostrare la sua superiorità nell'individuare accuratamente i siti CpG importanti e nel migliorare la stima dei biomarcatori. Sia i risultati ottenuti dalle simulazioni su dati sintetici che l'applicazione a dati reali mostrano che l'aggiunta della penalità proposta può portare a una più accurata individuazione dei gruppi importanti in questo particolare caso di covariate raggruppate, e a migliori prestazioni in termini di stima delle risposte.

Application of multivariate sparse group lasso mixed effects model to create DNA-biomarkers surrogates for cardiovascular risk prediction

SALVADORE, FRANCESCA
2022/2023

Abstract

Predicting the risk of being affected by cardiovascular diseases is a challenging goal which recent research is focusing on. The use of biomarkers for this purpose is increasingly popular, and it has been demonstrated that it is possible to create valid biomarkers surrogates from DNA methylation values. Specifically, more importance is given to CpG sites, DNA regions mostly related to gene expression, which can be isolated in the DNA sequence or grouped in high density areas called CpG Islands. The main purpose of this thesis is to explore the hypothesis that incorporating the information regarding the inclusion of a site within an island can improve the identification of the most relevant CpG sites for risk prediction. To address this hypothesis, we propose the employement of Multivariate Sparse Group Lasso penalty in a Multivariate Random Effect Penalized model. This specific penalty type allows for the incorporation of grouping structures within the covariates, facilitating comprehensive shrinkage for non-relevant groups. Moreover, the random effects permits to take into account the groupings among samples, while the use of a multivariate response is aimed to take advantage of the correlation between the risk factors. By comparing our proposed model against existing state-of-the-art methods, we aim to demonstrate its superiority in accurately detecting important CpG sites and improving the biomarker prediction. Both the results obtained from the simulations on synthetic data and the application to real data show that the addition of the proposed penalty can lead to a more accurate detection of the important groups of covariates, and to better performances in terms of estimation of the responses in a hierarchical data setting.
CAPPOZZO, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Prevedere il rischio di sviluppare malattie cardiovascolari rappresenta una sfida importante su cui la ricerca è sempre più focalizzata. A questo scopo, l'uso di biomarcatori è sempre più diffuso, ed è stato dimostrato che è possibile creare surrogati validi a partire dai valori di metilazione del DNA. In particolare, viene data maggiore importanza ai siti CpG, regioni del DNA maggiormente correlate all'espressione genica, che possono essere isolati nella sequenza del DNA o raggruppati in aree ad alta densità chiamate isole CpG. Lo scopo principale di questa tesi è quello di esplorare l'ipotesi che incorporare le informazioni riguardanti l'inclusione di un sito all'interno di un'isola possa migliorare l'identificazione dei siti CpG più rilevanti per la previsione del rischio. Per rispondere a questa ipotesi, proponiamo l'impiego della penalità Multivariate Sparse Group Lasso in un modello multivariato penalizzato a effetti casuali. Questo specifico tipo di penalità consente di incorporare delle strutture di raggruppamento all'interno delle covariate, facilitando il restringimento globale per i gruppi non rilevanti. Inoltre, l'introduzione degli effetti misti permette di tenere in considerazione i raggruppamenti tra i campioni, mentre l'uso di una risposta multivariata è introdotto per sfruttare la correlazione tra i fattori di rischio. Confrontando il modello proposto con i metodi più avanzati esistenti, ci poniamo come obiettivo il dimostrare la sua superiorità nell'individuare accuratamente i siti CpG importanti e nel migliorare la stima dei biomarcatori. Sia i risultati ottenuti dalle simulazioni su dati sintetici che l'applicazione a dati reali mostrano che l'aggiunta della penalità proposta può portare a una più accurata individuazione dei gruppi importanti in questo particolare caso di covariate raggruppate, e a migliori prestazioni in termini di stima delle risposte.
File allegati
File Dimensione Formato  
executive_summary_francesca_salvadore.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 484.34 kB
Formato Adobe PDF
484.34 kB Adobe PDF   Visualizza/Apri
tesi_salvadore_francesca.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 1.22 MB
Formato Adobe PDF
1.22 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218121