On 30 January 2020, the World Health Organization (WHO) declared the spread of the COVID-19 pandemic as a cause of concern and called for raising the level of health emergencies. Since then, the pandemic has spread dramatically, causing a large number of human losses and havoc in the economic, social, societal, and health systems around the world; although the vaccination process and the genomic evolution of the virus have reduced the impact of the pandemic, we still need to improve our understanding of the disease. An important aspect in clinical research is to understand how the characteristics of the SARS-CoV-2 virus, which is responsible for the disease, may influence the course of the disease of each individual patient, in addition to the other patient’s conditions at hospital admission. My thesis project took place in the context of a collaboration between the group of bioinformatics within DEIB at Politecnico di Milano and the 'Dipartimento di Malattie Infettive, ASST-FBF-Sacco', a major hospital in Milano, primarily focused on fighting infectious diseases; my role in this project has been very significant, as I have been involved in all phases of the project, including the fusion of clinical and virological data and its organization within a single normalized database, and then the statistical study to determine how the various variables in the database can determine the clinical outcome. We have found that a positive SARS-CoV-2 viremia (viral charge) at hospital admission is associated with increased odds of death in subjects hospitalized for COVID-19. This finding confirms what was known for the first and second wave of the pandemics, but extends also to the third and fourth wave - characterized by the rise of different viral variants and by the impact of the vaccination process. The main clinical result is that viremia can still nowadays be used as a significant factor to anticipate the prognosis of COVID-19 hospitalized patients. While this process was driven by the hypothesis made by the clinicians and virologists, we then considered if the same input dataset could be used to infer different knowledge, with an unsupervised approach. Then, we developed a method that requires a clinician to define the target variable (in our case, death) but can explain the target variable using other arbitrary variables within the available dataset. This second contribution of my thesis can be considered as a step towards Data Science democratization, a process that tries to reduce the entry barriers to the use of Data Science by delivering user-friendly methods, where the domain expert can obtain results even when she has limited computer science or statistical skills.

Il 30 gennaio 2020 l'Organizzazione Mondiale della Sanità (OMS) ha dichiarato il focolaio da SARS-CoV-19 un'emergenza sanitaria di pubblica rilevanza internazionale. Da allora, la pandemia si è diffusa in modo drammatico, causando scompiglio nei sistemi economici, sociali, societari e sanitari di tutto il mondo ma soprattutto la perdita di numero rilevante di vite. Sebbene il processo di vaccinazione e l'evoluzione genomica del virus abbiano ridotto l'impatto della pandemia, è ancora necessario investire tempo e denaro nello studio della malattia. Un aspetto importante nella ricerca clinica è capire come le caratteristiche del virus SARS-CoV-2, responsabile della malattia, possano influenzarne il decorso in ogni singolo paziente già al momento del ricovero e nell'evoluzione del morbo. Il mio progetto di tesi si è svolto nell'ambito di una collaborazione tra il gruppo di bioinformatica del DEIB del Politecnico di Milano e il "Dipartimento di Malattie Infettive, ASST-FBF-Sacco", importante ospedale di Milano, focalizzato principalmente sulla lotta contro le malattie infettive. Il mio ruolo in questo progetto è stato molto significativo, in quanto ho partecipato a tutte le fasi del progetto, compresa l'estrapolazione dei dati clinici e virologici nonchè alla loro organizzazione all'interno di un unico database normalizzato; in seguito ho portato avanti uno studio statistico per determinare come le diverse variabili presenti nel database possano aver determinato l'esito clinico. Abbiamo verificato che, una viremia positiva per la SARS-CoV-2 (carica virale) al momento del ricovero in ospedale, è associata ad un aumento delle probabilità di morte nei soggetti ricoverati per COVID-19. Infatti il risultato conferma quanto già noto in relazione alla prima e la seconda ondata pandemica, ma si estende anche alla terza e alla quarta, caratterizzate dall'insorgenza di diverse varianti virali e dall'avvenuto processo di vaccinazione. Il principale risultato clinico è che la viremia può ancora oggi essere utilizzata come fattore significativo per anticipare la prognosi dei pazienti ricoverati in ospedale con il COVID-19. Questo processo era guidato dalle ipotesi formulate da clinici e virologi, tuttaviaabbiamo poi considerato se lo stesso set di dati potesse essere utilizzato per dedurre conoscenze diverse, con un approccio non supervisionato. Abbiamo quindi sviluppato un metodo che richiede al clinico di definire la variabile target (nel nostro caso, la morte) in maniera da determinare come altre variabili arbitrarie all'interno del dataset possano determinare la variabile stessa. Questo secondo contributo della mia tesi può essere considerato come un passo verso la democratizzazione della Data Science, un processo che cerca di dare anche a chi abbia limitate competenze informatiche o statistiche la possibilità di impiegare questo tipo di metodi Data Science.

A Data Science method for explaining a target variable from multi-variable observations and its application to Covid-19

Righini, Elena
2022/2023

Abstract

On 30 January 2020, the World Health Organization (WHO) declared the spread of the COVID-19 pandemic as a cause of concern and called for raising the level of health emergencies. Since then, the pandemic has spread dramatically, causing a large number of human losses and havoc in the economic, social, societal, and health systems around the world; although the vaccination process and the genomic evolution of the virus have reduced the impact of the pandemic, we still need to improve our understanding of the disease. An important aspect in clinical research is to understand how the characteristics of the SARS-CoV-2 virus, which is responsible for the disease, may influence the course of the disease of each individual patient, in addition to the other patient’s conditions at hospital admission. My thesis project took place in the context of a collaboration between the group of bioinformatics within DEIB at Politecnico di Milano and the 'Dipartimento di Malattie Infettive, ASST-FBF-Sacco', a major hospital in Milano, primarily focused on fighting infectious diseases; my role in this project has been very significant, as I have been involved in all phases of the project, including the fusion of clinical and virological data and its organization within a single normalized database, and then the statistical study to determine how the various variables in the database can determine the clinical outcome. We have found that a positive SARS-CoV-2 viremia (viral charge) at hospital admission is associated with increased odds of death in subjects hospitalized for COVID-19. This finding confirms what was known for the first and second wave of the pandemics, but extends also to the third and fourth wave - characterized by the rise of different viral variants and by the impact of the vaccination process. The main clinical result is that viremia can still nowadays be used as a significant factor to anticipate the prognosis of COVID-19 hospitalized patients. While this process was driven by the hypothesis made by the clinicians and virologists, we then considered if the same input dataset could be used to infer different knowledge, with an unsupervised approach. Then, we developed a method that requires a clinician to define the target variable (in our case, death) but can explain the target variable using other arbitrary variables within the available dataset. This second contribution of my thesis can be considered as a step towards Data Science democratization, a process that tries to reduce the entry barriers to the use of Data Science by delivering user-friendly methods, where the domain expert can obtain results even when she has limited computer science or statistical skills.
CERI, STEFANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2022/2023
Il 30 gennaio 2020 l'Organizzazione Mondiale della Sanità (OMS) ha dichiarato il focolaio da SARS-CoV-19 un'emergenza sanitaria di pubblica rilevanza internazionale. Da allora, la pandemia si è diffusa in modo drammatico, causando scompiglio nei sistemi economici, sociali, societari e sanitari di tutto il mondo ma soprattutto la perdita di numero rilevante di vite. Sebbene il processo di vaccinazione e l'evoluzione genomica del virus abbiano ridotto l'impatto della pandemia, è ancora necessario investire tempo e denaro nello studio della malattia. Un aspetto importante nella ricerca clinica è capire come le caratteristiche del virus SARS-CoV-2, responsabile della malattia, possano influenzarne il decorso in ogni singolo paziente già al momento del ricovero e nell'evoluzione del morbo. Il mio progetto di tesi si è svolto nell'ambito di una collaborazione tra il gruppo di bioinformatica del DEIB del Politecnico di Milano e il "Dipartimento di Malattie Infettive, ASST-FBF-Sacco", importante ospedale di Milano, focalizzato principalmente sulla lotta contro le malattie infettive. Il mio ruolo in questo progetto è stato molto significativo, in quanto ho partecipato a tutte le fasi del progetto, compresa l'estrapolazione dei dati clinici e virologici nonchè alla loro organizzazione all'interno di un unico database normalizzato; in seguito ho portato avanti uno studio statistico per determinare come le diverse variabili presenti nel database possano aver determinato l'esito clinico. Abbiamo verificato che, una viremia positiva per la SARS-CoV-2 (carica virale) al momento del ricovero in ospedale, è associata ad un aumento delle probabilità di morte nei soggetti ricoverati per COVID-19. Infatti il risultato conferma quanto già noto in relazione alla prima e la seconda ondata pandemica, ma si estende anche alla terza e alla quarta, caratterizzate dall'insorgenza di diverse varianti virali e dall'avvenuto processo di vaccinazione. Il principale risultato clinico è che la viremia può ancora oggi essere utilizzata come fattore significativo per anticipare la prognosi dei pazienti ricoverati in ospedale con il COVID-19. Questo processo era guidato dalle ipotesi formulate da clinici e virologi, tuttaviaabbiamo poi considerato se lo stesso set di dati potesse essere utilizzato per dedurre conoscenze diverse, con un approccio non supervisionato. Abbiamo quindi sviluppato un metodo che richiede al clinico di definire la variabile target (nel nostro caso, la morte) in maniera da determinare come altre variabili arbitrarie all'interno del dataset possano determinare la variabile stessa. Questo secondo contributo della mia tesi può essere considerato come un passo verso la democratizzazione della Data Science, un processo che cerca di dare anche a chi abbia limitate competenze informatiche o statistiche la possibilità di impiegare questo tipo di metodi Data Science.
File allegati
File Dimensione Formato  
Classical_Format_Thesis___Scuola_di_Ingegneria_Industriale_e_dell_Informazione___Politecnico_di_Milano(4).pdf

Open Access dal 24/11/2023

Descrizione: Tesi
Dimensione 4.18 MB
Formato Adobe PDF
4.18 MB Adobe PDF Visualizza/Apri
Executive_Summary___Scuola_di_Ingegneria_Industriale_e_dell_Informazione___Politecnico_di_Milano.pdf

Open Access dal 24/11/2023

Descrizione: Executive summary
Dimensione 475.36 kB
Formato Adobe PDF
475.36 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/198557