COVID-19 has shown notable variation in behavior across distinct patients, presenting differences not only in the severity of symptoms but also in the involvement of different organs/systems. Understanding the influence of host genetics becomes therefore essential in order to be able to identify and describe the factors that are more relevant in determining the clinical course of COVID-19. This study represents a first step towards a deeper understanding of the relationships between host genetics and symptoms due to SARS-CoV-2 infection. We applied quantitative methods in order to be able to obtain a descriptive model capable of identifying which sets of mutated genes have the highest impact on determining severe or mild COVID-19 symptoms. In particular we started by replicating the results obtained by Picchiotti et al. via a LASSO penalized Logistic Regression, utilized as feature selection technique for the identification of those genes with the highest influence on the mildness or severity of symptoms. Starting from the so obtained subset of genes, we then performed association rules mining, in order to understand how these mutated genes grouped together influenced positively or negatively the course of COVID-19, shifting the focus from single genes to sets of genes. Association rules also gave us the chance to assess the quality of the feature selection performed, and in particular of the weights assigned by Lasso Logistic Regression to the selected genes. The same pipeline was then used to understand the influence of host genetics on the involvement of different organs/systems. Despite data from a cohort of over 1300 patients was available for the research, the problem faced is highly complex as the relationship between genetics and COVID-19 uses as input thousands of genes with different mutational profiles. The results of the thesis can therefore be considered as a starting point for a better comprehension of the problem and for future research.

Il COVID-19 ha presentato una notevole variabilità nei sintomi mostrati da diversi pazienti, presentando differenze non soltanto rispetto alla severità, ma anche rispetto al coinvolgimento di vari organi e sistemi. Comprendere l'influenza del patrimonio genetico del paziente diventa, quindi, essenziale per essere in grado di identificare e descrivere i fattori che sono più rilevanti nella determinazione del decorso clinico del COVID-19. Questo studio rappresenta un primo passo verso una comprensione più approfondita delle relazioni tra la genetica dell'ospite e i sintomi dovuti all'infezione da SARS-CoV-2. Si sono impiegati dei metodi quantitativi in modo da essere in grado di ottenere un modello descrittivo capace di identificare quali insiemi di geni mutati siano di maggiore impatto nella determinazione di sintomi più o meno gravi da COVID-19. In particolare abbiamo iniziato replicando i risultati ottenuti da Picchiotti et al. tramite una LASSO logistic regression, utilizzata come tecnica di feature selection per l'identificazione dei geni aventi la maggiore influenza sulla leggerezza o severità dei sintomi. Partendo dal suddetto sottoinsieme di geni, si è poi proseguito eseguendo association rules mining, con l'obiettivo di comprendere come raggruppamenti di geni mutati influenzino positivamente o negativamente il decorso del COVID-19, spostando quindi la nostra attenzione dai singoli geni a gruppi di geni. Le regole di associazione ci hanno anche dato la possibilità di valutare qualitativamente la feature selection eseguita ed in particolare di valutare i pesi assegnati ai geni dalla LASSO logistic regression. La stessa pipeline è stata poi utilizzata per comprendere l'influenza della genetica dell'ospite sul coinvolgimento di diversi organi e sistemi. Tuttavia, nonostante avessimo a disposizione dati relativi ad una coorte di oltre 1300 pazienti, il problema affrontato rimane altamente complesso in quanto utilizza in input decine di migliaia di geni con profili mutazionali diversi I risultati della tesi, possono quindi essere considerati come un punto di partenza per una migliore comprensione del problema e per future ricerche.

Associations of mutated genes explain the clinical course of COVID-19

ESPOSITO, ANTONIO
2020/2021

Abstract

COVID-19 has shown notable variation in behavior across distinct patients, presenting differences not only in the severity of symptoms but also in the involvement of different organs/systems. Understanding the influence of host genetics becomes therefore essential in order to be able to identify and describe the factors that are more relevant in determining the clinical course of COVID-19. This study represents a first step towards a deeper understanding of the relationships between host genetics and symptoms due to SARS-CoV-2 infection. We applied quantitative methods in order to be able to obtain a descriptive model capable of identifying which sets of mutated genes have the highest impact on determining severe or mild COVID-19 symptoms. In particular we started by replicating the results obtained by Picchiotti et al. via a LASSO penalized Logistic Regression, utilized as feature selection technique for the identification of those genes with the highest influence on the mildness or severity of symptoms. Starting from the so obtained subset of genes, we then performed association rules mining, in order to understand how these mutated genes grouped together influenced positively or negatively the course of COVID-19, shifting the focus from single genes to sets of genes. Association rules also gave us the chance to assess the quality of the feature selection performed, and in particular of the weights assigned by Lasso Logistic Regression to the selected genes. The same pipeline was then used to understand the influence of host genetics on the involvement of different organs/systems. Despite data from a cohort of over 1300 patients was available for the research, the problem faced is highly complex as the relationship between genetics and COVID-19 uses as input thousands of genes with different mutational profiles. The results of the thesis can therefore be considered as a starting point for a better comprehension of the problem and for future research.
FURINI, SIMONE
PINOLI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2020/2021
Il COVID-19 ha presentato una notevole variabilità nei sintomi mostrati da diversi pazienti, presentando differenze non soltanto rispetto alla severità, ma anche rispetto al coinvolgimento di vari organi e sistemi. Comprendere l'influenza del patrimonio genetico del paziente diventa, quindi, essenziale per essere in grado di identificare e descrivere i fattori che sono più rilevanti nella determinazione del decorso clinico del COVID-19. Questo studio rappresenta un primo passo verso una comprensione più approfondita delle relazioni tra la genetica dell'ospite e i sintomi dovuti all'infezione da SARS-CoV-2. Si sono impiegati dei metodi quantitativi in modo da essere in grado di ottenere un modello descrittivo capace di identificare quali insiemi di geni mutati siano di maggiore impatto nella determinazione di sintomi più o meno gravi da COVID-19. In particolare abbiamo iniziato replicando i risultati ottenuti da Picchiotti et al. tramite una LASSO logistic regression, utilizzata come tecnica di feature selection per l'identificazione dei geni aventi la maggiore influenza sulla leggerezza o severità dei sintomi. Partendo dal suddetto sottoinsieme di geni, si è poi proseguito eseguendo association rules mining, con l'obiettivo di comprendere come raggruppamenti di geni mutati influenzino positivamente o negativamente il decorso del COVID-19, spostando quindi la nostra attenzione dai singoli geni a gruppi di geni. Le regole di associazione ci hanno anche dato la possibilità di valutare qualitativamente la feature selection eseguita ed in particolare di valutare i pesi assegnati ai geni dalla LASSO logistic regression. La stessa pipeline è stata poi utilizzata per comprendere l'influenza della genetica dell'ospite sul coinvolgimento di diversi organi e sistemi. Tuttavia, nonostante avessimo a disposizione dati relativi ad una coorte di oltre 1300 pazienti, il problema affrontato rimane altamente complesso in quanto utilizza in input decine di migliaia di geni con profili mutazionali diversi I risultati della tesi, possono quindi essere considerati come un punto di partenza per una migliore comprensione del problema e per future ricerche.
File allegati
File Dimensione Formato  
Esposito_2021_04.pdf

solo utenti autorizzati dal 07/04/2022

Dimensione 19.45 MB
Formato Adobe PDF
19.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175199