The aim of this thesis is to discover possible causal relationships between depression condition and clinically relevant data extracted from Electronic Medical Records (EMRs) in the Canadian Primary Care Sentinel Surveillance Network (CPCSSN) database. To better understand the mental disease “depression”, it is important understand which are the possible causal connections within the disease itself. An improvement of knowledge about depression’s causal factors could be the key to enhance the diagnosis of depression and avoid the worst consequences (including the suicide act). In this study, 11 features were considered, i.e., age, sex, body mass index, systolic blood pressure, fasting glucose, total cholesterol, high-density lipoprotein, low-density lipoprotein, triglycerides, and previous diagnosis of physical disease, grouped by 12 clusters (Respiratory Problems, Hypertension, Eating Disorder Problems, Infection Diseases, Osteoarthritis, Cancer, Diabetes, Headache, Cardiovascular Problems, Sleep Problems, Parkinson’s disease and epilepsy, Gastritis). The clinical data were observed within a temporal window up to 13 years before the possible onset of depression. Two groups were identified: Depressed patient, that presented a depression diagnosis, and Not-Depressed patients, that did not present a depression diagnosis. Consequently, causal analysis was implemented referring to recorded data within a not-delimited temporal window (13 years, between 2002 and 2015) and considering recorded data within a temporal window from maximum 1 year before the possible onset of depression. The Causal Inference method has been chosen to implement causal models and to estimate possible causal relationships between the features of the datasets and the onset of depression. In both datasets, possible causal dependence between clinical data and depression are tested considering both continuous values of biomarkers as well as binary classes of low and high level as a function of the cut-off value. Within 1-year time window observed records, possible causal effects from depression (cause/treatment) to biomarkers (effect/outcome) have been investigated, considering both continuous values as well as binary values for low and high levels. For each causal estimation, two Causal Models were implemented: a complete model considering all the available features and a simplified model considering only one treatment feature and one outcome feature. A causal effect between the tested feature was determined when both models indicated a possible causal relationship. The main causal effects were found between the presence of Headache, Sleep Problems, Gastritis and the onset of Depression. Furthermore, a causal effect of sex was observed, suggesting that being female it is easier to develop depression. Vice versa, for other conditions such as Diabetes, Osteoarthritis and Hypertension the model suggested a causal relationship with no onset of depression. Among the biomarkers here considered, hhigh levels of systolic blood pressure (sBP>140mmHg), both from the whole observation window and from the 1-year window, were associated with a causal effect on depression in a similar way as Hypertension: the higher systolic blood pressure, the stronger the causal effect. Specific causal effects were observed from the 1-year time window records in terms of low-density lipoprotein (LDL). Specifically, both low (LDL<1.5mmol/L) and high levels (LDL>5.0mmol/L) returned a causal effect on the onset of depression. The results about Causal model with Headache, Sleep problems, Gastritis and abnormal values of LDL are in line with the medical literature. On the contrary, causal relationships from Diabetes to Depression and Osteoarthritis to Depression are not fully supported by medical literature as previous studies have found a connection between these two physical diseases and the onset of depression. A deeper analysis of these features is necessary to explain the resulting trend, with the support of clinical experts.

Lo scopo dell’elaborato è scoprire possibili relazioni causali tra la condizione di depressione e dati appartenenti a cartelle cliniche elettroniche, prelevati dal database Canadian Primary Care Sentinel Surveillance Network (CPCSSN). Per comprendere meglio la “depressione” come malattia mentale, è importante capire quali sono le possibili connessioni causali che portano a tale malattia e quali effetti potrebbe invece avere la depressione stessa sull’organismo. Un miglioramento della conoscenza dei fattori scatenanti la depressione potrebbe essere la chiave per migliorare la diagnosi di depressione ed evitare le sue dannose conseguenze (compreso l'atto di suicidio). In questo studio sono state considerate 11 features, ovvero età, sesso, 7 biomarkers (indice di massa corporea, pressione sanguigna sistolica, glucosio a digiuno, colesterolo, lipoproteine ad alta densità, lipoproteine a bassa densità, trigliceridi) e la presenza di malattie fisiche con diagnosi antecedente a quella della depressione, raggruppate in 12 gruppi (problemi respiratori, ipertensione, disturbi alimentari, malattie infettive, artrosi, cancro, diabete, emicrania, problemi cardiovascolari, disturbi del sonno, morbo di Parkinson ed epilessia, gastrite). I dati clinici sono stati osservati entro una finestra temporale fino a 13 anni prima della possibile insorgenza della depressione. Sono stati identificati due gruppi: pazienti depressi, che hanno presentato una diagnosi di depressione, e pazienti non depressi, che non hanno presentato tale diagnosi. È stata implementata l'analisi causale, facendo riferimento sia a dati registrati all'interno di una finestra temporale non delimitata (13 anni, tra il 2002 e il 2015), sia considerando i dati registrati all'interno di una finestra temporale da massimo 1 anno prima dell'eventuale insorgenza della depressione. È stato selezionato il metodo di Inferenza Causale per implementare modelli causali e per stimare possibili relazioni causali tra le features selezionate e l’insorgenza della depressione. In entrambi le finestre temporali considerate, viene testata la possibile dipendenza causale tra i dati clinici e la depressione, considerando sia i valori continui dei biomarkers che le classi binarie rappresentative di concentrazioni basse e alte, in funzione del valore di cut-offs selezionati nello studio. Entro la finestra temporale di 1 anno delle registrazioni osservate, sono stati studiati inoltre i possibili effetti causali della depressione (causa / trattamento) sui biomarkers (effetto / esito), considerando sia i valori continui che i valori binari per concentrazioni basse e alte. Per ciascuna stima causale, sono stati implementati due modelli causali: un modello completo, che considera tutte le features disponibili nel dataset, e un modello semplificato, che considera solo le features associate alle variabili trattamento e outcome. Un effetto causale tra le features testate è stato determinato quando entrambi i modelli indicavano una possibile relazione causale. I principali effetti causali sono stati riscontrati tra la presenza di emicrania, disturbi del sonno, gastrite e insorgenza di depressione: queste malattie sono state identificate a livello statistico come possibile causa di depressione. Inoltre, è stato osservato un effetto causale con la feature sesso, suggerendo che una persona di sesso femminile è più portata a sviluppare la depressione. Viceversa, per altre condizioni come diabete, osteoartrite e ipertensione il modello ha suggerito una relazione causale senza insorgenza di depressione: la presenza di tali malattie fisiche potrebbe causare a livello statistico una non insorgenza della depressione. Tra i biomarkers qui considerati, alte concentrazioni di pressione sanguigna sistolica (sBP> 140 mmHg), sia dall'intera finestra temporale di osservazione che dalla finestra di 1 anno, sono state associate a un effetto causale sulla depressione in modo simile all'ipertensione: a livello statistico, più alta è la pressione sanguigna sistolica, più forte è l'effetto causale. Specifici effetti causali sono stati osservati dalle registrazioni della finestra temporale di 1 anno in termini di lipoproteine a bassa densità (LDL). In particolare, sia i livelli bassi (LDL <1,5 mmol / L) che quelli alti (LDL> 5,0 mmol / L) hanno restituito un effetto causale sull'insorgenza della depressione. I risultati del modello causale con emicrania, disturbi del sonno, gastrite e valori anormali di LDL sono in linea con la letteratura medica. Al contrario, le relazioni causali considerando diabete e osteoartrite come cause, e depressione come effetto, non sono pienamente supportate dalla letteratura medica poiché studi precedenti hanno trovato una connessione tra queste due malattie fisiche e l'insorgenza della depressione. Un'analisi più approfondita di queste caratteristiche è necessaria per spiegare la tendenza risultante, con il supporto dell’opinione di esperti del settore medico-psichiatrico.

Analysis of the causal relationships between data from electronic medical records and depression using causal inference

MOSCONI, ARIANNA
2019/2020

Abstract

The aim of this thesis is to discover possible causal relationships between depression condition and clinically relevant data extracted from Electronic Medical Records (EMRs) in the Canadian Primary Care Sentinel Surveillance Network (CPCSSN) database. To better understand the mental disease “depression”, it is important understand which are the possible causal connections within the disease itself. An improvement of knowledge about depression’s causal factors could be the key to enhance the diagnosis of depression and avoid the worst consequences (including the suicide act). In this study, 11 features were considered, i.e., age, sex, body mass index, systolic blood pressure, fasting glucose, total cholesterol, high-density lipoprotein, low-density lipoprotein, triglycerides, and previous diagnosis of physical disease, grouped by 12 clusters (Respiratory Problems, Hypertension, Eating Disorder Problems, Infection Diseases, Osteoarthritis, Cancer, Diabetes, Headache, Cardiovascular Problems, Sleep Problems, Parkinson’s disease and epilepsy, Gastritis). The clinical data were observed within a temporal window up to 13 years before the possible onset of depression. Two groups were identified: Depressed patient, that presented a depression diagnosis, and Not-Depressed patients, that did not present a depression diagnosis. Consequently, causal analysis was implemented referring to recorded data within a not-delimited temporal window (13 years, between 2002 and 2015) and considering recorded data within a temporal window from maximum 1 year before the possible onset of depression. The Causal Inference method has been chosen to implement causal models and to estimate possible causal relationships between the features of the datasets and the onset of depression. In both datasets, possible causal dependence between clinical data and depression are tested considering both continuous values of biomarkers as well as binary classes of low and high level as a function of the cut-off value. Within 1-year time window observed records, possible causal effects from depression (cause/treatment) to biomarkers (effect/outcome) have been investigated, considering both continuous values as well as binary values for low and high levels. For each causal estimation, two Causal Models were implemented: a complete model considering all the available features and a simplified model considering only one treatment feature and one outcome feature. A causal effect between the tested feature was determined when both models indicated a possible causal relationship. The main causal effects were found between the presence of Headache, Sleep Problems, Gastritis and the onset of Depression. Furthermore, a causal effect of sex was observed, suggesting that being female it is easier to develop depression. Vice versa, for other conditions such as Diabetes, Osteoarthritis and Hypertension the model suggested a causal relationship with no onset of depression. Among the biomarkers here considered, hhigh levels of systolic blood pressure (sBP>140mmHg), both from the whole observation window and from the 1-year window, were associated with a causal effect on depression in a similar way as Hypertension: the higher systolic blood pressure, the stronger the causal effect. Specific causal effects were observed from the 1-year time window records in terms of low-density lipoprotein (LDL). Specifically, both low (LDL<1.5mmol/L) and high levels (LDL>5.0mmol/L) returned a causal effect on the onset of depression. The results about Causal model with Headache, Sleep problems, Gastritis and abnormal values of LDL are in line with the medical literature. On the contrary, causal relationships from Diabetes to Depression and Osteoarthritis to Depression are not fully supported by medical literature as previous studies have found a connection between these two physical diseases and the onset of depression. A deeper analysis of these features is necessary to explain the resulting trend, with the support of clinical experts.
GUERGACHI, AZIZ
KESHAVJEE, KARIM
ZANET, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
Lo scopo dell’elaborato è scoprire possibili relazioni causali tra la condizione di depressione e dati appartenenti a cartelle cliniche elettroniche, prelevati dal database Canadian Primary Care Sentinel Surveillance Network (CPCSSN). Per comprendere meglio la “depressione” come malattia mentale, è importante capire quali sono le possibili connessioni causali che portano a tale malattia e quali effetti potrebbe invece avere la depressione stessa sull’organismo. Un miglioramento della conoscenza dei fattori scatenanti la depressione potrebbe essere la chiave per migliorare la diagnosi di depressione ed evitare le sue dannose conseguenze (compreso l'atto di suicidio). In questo studio sono state considerate 11 features, ovvero età, sesso, 7 biomarkers (indice di massa corporea, pressione sanguigna sistolica, glucosio a digiuno, colesterolo, lipoproteine ad alta densità, lipoproteine a bassa densità, trigliceridi) e la presenza di malattie fisiche con diagnosi antecedente a quella della depressione, raggruppate in 12 gruppi (problemi respiratori, ipertensione, disturbi alimentari, malattie infettive, artrosi, cancro, diabete, emicrania, problemi cardiovascolari, disturbi del sonno, morbo di Parkinson ed epilessia, gastrite). I dati clinici sono stati osservati entro una finestra temporale fino a 13 anni prima della possibile insorgenza della depressione. Sono stati identificati due gruppi: pazienti depressi, che hanno presentato una diagnosi di depressione, e pazienti non depressi, che non hanno presentato tale diagnosi. È stata implementata l'analisi causale, facendo riferimento sia a dati registrati all'interno di una finestra temporale non delimitata (13 anni, tra il 2002 e il 2015), sia considerando i dati registrati all'interno di una finestra temporale da massimo 1 anno prima dell'eventuale insorgenza della depressione. È stato selezionato il metodo di Inferenza Causale per implementare modelli causali e per stimare possibili relazioni causali tra le features selezionate e l’insorgenza della depressione. In entrambi le finestre temporali considerate, viene testata la possibile dipendenza causale tra i dati clinici e la depressione, considerando sia i valori continui dei biomarkers che le classi binarie rappresentative di concentrazioni basse e alte, in funzione del valore di cut-offs selezionati nello studio. Entro la finestra temporale di 1 anno delle registrazioni osservate, sono stati studiati inoltre i possibili effetti causali della depressione (causa / trattamento) sui biomarkers (effetto / esito), considerando sia i valori continui che i valori binari per concentrazioni basse e alte. Per ciascuna stima causale, sono stati implementati due modelli causali: un modello completo, che considera tutte le features disponibili nel dataset, e un modello semplificato, che considera solo le features associate alle variabili trattamento e outcome. Un effetto causale tra le features testate è stato determinato quando entrambi i modelli indicavano una possibile relazione causale. I principali effetti causali sono stati riscontrati tra la presenza di emicrania, disturbi del sonno, gastrite e insorgenza di depressione: queste malattie sono state identificate a livello statistico come possibile causa di depressione. Inoltre, è stato osservato un effetto causale con la feature sesso, suggerendo che una persona di sesso femminile è più portata a sviluppare la depressione. Viceversa, per altre condizioni come diabete, osteoartrite e ipertensione il modello ha suggerito una relazione causale senza insorgenza di depressione: la presenza di tali malattie fisiche potrebbe causare a livello statistico una non insorgenza della depressione. Tra i biomarkers qui considerati, alte concentrazioni di pressione sanguigna sistolica (sBP&gt; 140 mmHg), sia dall'intera finestra temporale di osservazione che dalla finestra di 1 anno, sono state associate a un effetto causale sulla depressione in modo simile all'ipertensione: a livello statistico, più alta è la pressione sanguigna sistolica, più forte è l'effetto causale. Specifici effetti causali sono stati osservati dalle registrazioni della finestra temporale di 1 anno in termini di lipoproteine a bassa densità (LDL). In particolare, sia i livelli bassi (LDL &lt;1,5 mmol / L) che quelli alti (LDL&gt; 5,0 mmol / L) hanno restituito un effetto causale sull'insorgenza della depressione. I risultati del modello causale con emicrania, disturbi del sonno, gastrite e valori anormali di LDL sono in linea con la letteratura medica. Al contrario, le relazioni causali considerando diabete e osteoartrite come cause, e depressione come effetto, non sono pienamente supportate dalla letteratura medica poiché studi precedenti hanno trovato una connessione tra queste due malattie fisiche e l'insorgenza della depressione. Un'analisi più approfondita di queste caratteristiche è necessaria per spiegare la tendenza risultante, con il supporto dell’opinione di esperti del settore medico-psichiatrico.
File allegati
File Dimensione Formato  
2021_Aprile_Mosconi.pdf

accessibile in internet per tutti

Descrizione: Tesi Laurea Magistrale
Dimensione 2.03 MB
Formato Adobe PDF
2.03 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175245