The aim of this study was to develop machine learning models able to predict the onset of Chronic Kidney Disease (CKD) from the observation of routinely collected clinical data extracted from electronic medical records (EMRs) in the Canadian Primary Care Sentinel Surveillance Network (CPCSSN) database. CKD is a chronic clinical condition, characterized by a gradual loss of the functionality of the kidney, that in its final stages severely impairs the life of the person affected. In this study, 13 features were considered, i.e. sex, age, systolic blood pressure, diastolic blood pressure, body mass index, triglycerides, low-density lipoprotein, high-density lipoprotein, fasting blood sugar, smoking, previous diagnosis of diabetes mellitus, previous diagnosis of hypertension and previous diagnosis of chronic obstructive pulmonary disease. The clinical data were observed within a temporal window from 7 years before up to one year before the possible onset of the disease. The predicted classes could be: (i) CKD class, i.e. individuals who will develop CKD and (ii) NON-CKD, i.e. individuals who will not develop CKD nor other renal diseases. Three algorithms were applied. First, Decision Tree (DT) was considered due to its inherent intelligibility and the ability to generate self-explanatory rules that can assist medical decisions. Then, the results obtained with the DT were compared with ensemble methods based on DTs, specifically Random Forest (RF) and Random Forest++ (RF++) , which is an extension of RF able to handle longitudinal data (i.e., multiple measures in time for the same biomarker). For each algorithm, two different classification tasks were performed: (i) in the ‘matched’ condition, i.e. with CKD and NON-CKD patients matched on the base of sex and age; (ii) in the ‘not matched’ condition, considering NON-CKD subjects randomly chosen in the set. The highest performance was obtained using RF with 25 trees, the maximum number of features considered at each split equal to 4, the minimum number of samples in a leaf equal to 10, and the maximum depth of each tree equal to 4. The obtained accuracy was 78%. The most important features were age, diabetes, systolic blood pressure, diagnosis of hypertension and body mass index. With a similar but slightly lower performance than RF, DT can be considered the most suitable method thanks to its self-explanatory nature. The best result was obtained with a tree of depth 4 and a minimum number of samples in the leaves equal to 10. In this case, the accuracy was about 72%. For both the best forest and the best tree the ratio of false negatives was lower than 20%, meaning that at least 8 out of 10 CKD patients were recognized as diseased. Concerning DT, interesting values of cut-off were found, i.e. 120.7 mmHg for systolic blood pressure (i.e., in the acceptable range) and 27.6 kg/m2 for body mass index (i.e., overweight range, below the obesity threshold). These values would not normally generate concern, since they do not fall in critical ranges. The primary advantage of the proposed approach is that it enables prediction of the possible onset of CKD on the general population and, as such, it is potentially applicable to a variety of settings, not limited to the Canadian healthcare system. Moreover, knowing the risk of developing CKD based on widely used biomarkers (e.g., body mass index, high-density lipoprotein) and lifestyle-related risk factors (e.g., smoking) opens the possibility of preventing or delaying the onset of CKD through control of abnormal biomarkers and therefore reduction of risk.

L’obiettivo di questo studio è stato quello di sviluppare modelli machine learning in grafo di predire la comparsa di l’insufficienza renale cronica (CKD) dall’oservazione di dati clinici di routine estratti dalle cartelle cliniche elettroniche (EMR) presenti nel database Canadian Primary Care Sentinel Surveillance Network (CPCSSN). La CKD è una condizione cronica caratterizzata da una graduale Perdita della funzionalità del rene che nei suoi stadi finale ha un impatto molto negativo sulla vita delle persone affette. In questo studio dono stati considerati 13 attributi, ovvero sesso, età, pressione sanguigna sistolica, pressione sanguigna diastolica, indice di massa corporea, trigliceridi, lipoproteine a bassa densità, lipoproteine ad alta densità, glicemia a digiuno, il fumo, diagnosi precedente di diabete mellito, diagnosi precedente di ipertensione e diagnosi precedente di malattia polmonare cronica ostruttiva. I dati clinici sono stati osservati all'interno di una finestra temporale da 7 anni prima fino a un anno prima della possibile insorgenza della malattia. Le classi previste potevano essere: (i) classe CKD, cioè individui che svilupperanno CKD e (ii) NON-CKD, cioè individui che non svilupperanno CKD né altre malattie renali. Sono stati applicati tre algoritmi. Innanzitutto, è stato preso in considerazione il Decision Tree (DT) per la sua intelligibilità intrinseca e la capacità di generare regole auto-esplicative che possono aiutare le decisioni mediche. Quindi, i risultati ottenuti con il DT sono stati confrontati con metodi ensemble basati su DT, in particolare Random Forest (RF) e Random Forest ++ (RF ++), che è un'estensione di RF in grado di gestire dati longitudinali (cioè, misure multiple nel tempo per lo stesso biomarker). Per ogni algoritmo, sono state eseguite due diverse attività di classificazione: (i) nella condizione “matched” cioè con pazienti con CKD e NON-CKD abbinati sulla base del sesso e dell'età; (ii) nella condizione “not matched”, considerando soggetti NON-CKD scelti a caso nel set. La performance più alta è stata ottenuta utilizzando RF con 25 alberi, il numero massimo di caratteristiche considerate ad ogni split pari a 4, il numero minimo di campioni in una foglia pari a 10 e la profondità massima di ogni albero pari a 4. È stata ottenuta un’accuratezza del 78%. Le caratteristiche più importanti sono risultate essere l'età, il diabete, la pressione arteriosa sistolica, la diagnosi di ipertensione e l'indice di massa corporea. Con prestazioni simili ma leggermente inferiori a RF, DT può essere considerato il metodo più adatto grazie alla sua natura auto-esplicativa. Il miglior risultato è stato ottenuto con un albero di profondità 4 e un numero minimo di campioni nelle foglie pari a 10. In questo caso l’accuratezza è stata di circa il 72%. Sia per la foresta migliore che per l'albero migliore il rapporto di falsi negativi era inferiore al 20%, il che significa che almeno 8 pazienti su 10 CKD sono stati riconosciuti come malati. Per quanto riguarda DT, sono stati trovati valori interessanti di cut-off, ovvero 120,7 mmHg per la pressione arteriosa sistolica (cioè nell'intervallo accettabile) e 27,6 kg / m2 per l'indice di massa corporea (cioè, intervallo di sovrappeso, al di sotto della soglia di obesità). Questi valori normalmente non genererebbero preoccupazione, poiché non rientrano in intervalli critici. Il vantaggio principale dell'approccio proposto è che consente di prevedere la possibile insorgenza di CKD nella popolazione generale e, come tale, è potenzialmente applicabile a una varietà di contesti, non limitato al sistema sanitario canadese. Inoltre, conoscere il rischio di sviluppare CKD sulla base di biomarker ampiamente utilizzati (p. Es., Indice di massa corporea, lipoproteine ad alta densità) e fattori di rischio legati allo stile di vita (p. Es., Il fumo) apre la possibilità di prevenire o ritardare l'insorgenza di CKD attraverso il controllo di biomarker anomali e quindi riduzione del rischio.

Predicting the onset of chronic kidney disease from the observation of routinely collected clinical data. Innovative applications of machine learning methods

Faccioni, Adele
2019/2020

Abstract

The aim of this study was to develop machine learning models able to predict the onset of Chronic Kidney Disease (CKD) from the observation of routinely collected clinical data extracted from electronic medical records (EMRs) in the Canadian Primary Care Sentinel Surveillance Network (CPCSSN) database. CKD is a chronic clinical condition, characterized by a gradual loss of the functionality of the kidney, that in its final stages severely impairs the life of the person affected. In this study, 13 features were considered, i.e. sex, age, systolic blood pressure, diastolic blood pressure, body mass index, triglycerides, low-density lipoprotein, high-density lipoprotein, fasting blood sugar, smoking, previous diagnosis of diabetes mellitus, previous diagnosis of hypertension and previous diagnosis of chronic obstructive pulmonary disease. The clinical data were observed within a temporal window from 7 years before up to one year before the possible onset of the disease. The predicted classes could be: (i) CKD class, i.e. individuals who will develop CKD and (ii) NON-CKD, i.e. individuals who will not develop CKD nor other renal diseases. Three algorithms were applied. First, Decision Tree (DT) was considered due to its inherent intelligibility and the ability to generate self-explanatory rules that can assist medical decisions. Then, the results obtained with the DT were compared with ensemble methods based on DTs, specifically Random Forest (RF) and Random Forest++ (RF++) , which is an extension of RF able to handle longitudinal data (i.e., multiple measures in time for the same biomarker). For each algorithm, two different classification tasks were performed: (i) in the ‘matched’ condition, i.e. with CKD and NON-CKD patients matched on the base of sex and age; (ii) in the ‘not matched’ condition, considering NON-CKD subjects randomly chosen in the set. The highest performance was obtained using RF with 25 trees, the maximum number of features considered at each split equal to 4, the minimum number of samples in a leaf equal to 10, and the maximum depth of each tree equal to 4. The obtained accuracy was 78%. The most important features were age, diabetes, systolic blood pressure, diagnosis of hypertension and body mass index. With a similar but slightly lower performance than RF, DT can be considered the most suitable method thanks to its self-explanatory nature. The best result was obtained with a tree of depth 4 and a minimum number of samples in the leaves equal to 10. In this case, the accuracy was about 72%. For both the best forest and the best tree the ratio of false negatives was lower than 20%, meaning that at least 8 out of 10 CKD patients were recognized as diseased. Concerning DT, interesting values of cut-off were found, i.e. 120.7 mmHg for systolic blood pressure (i.e., in the acceptable range) and 27.6 kg/m2 for body mass index (i.e., overweight range, below the obesity threshold). These values would not normally generate concern, since they do not fall in critical ranges. The primary advantage of the proposed approach is that it enables prediction of the possible onset of CKD on the general population and, as such, it is potentially applicable to a variety of settings, not limited to the Canadian healthcare system. Moreover, knowing the risk of developing CKD based on widely used biomarkers (e.g., body mass index, high-density lipoprotein) and lifestyle-related risk factors (e.g., smoking) opens the possibility of preventing or delaying the onset of CKD through control of abnormal biomarkers and therefore reduction of risk.
PAGLIALONGA, ALESSIA
GUERGACHI, AZIZ
KESHAVJEE, KARIM
ZANET, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
L’obiettivo di questo studio è stato quello di sviluppare modelli machine learning in grafo di predire la comparsa di l’insufficienza renale cronica (CKD) dall’oservazione di dati clinici di routine estratti dalle cartelle cliniche elettroniche (EMR) presenti nel database Canadian Primary Care Sentinel Surveillance Network (CPCSSN). La CKD è una condizione cronica caratterizzata da una graduale Perdita della funzionalità del rene che nei suoi stadi finale ha un impatto molto negativo sulla vita delle persone affette. In questo studio dono stati considerati 13 attributi, ovvero sesso, età, pressione sanguigna sistolica, pressione sanguigna diastolica, indice di massa corporea, trigliceridi, lipoproteine a bassa densità, lipoproteine ad alta densità, glicemia a digiuno, il fumo, diagnosi precedente di diabete mellito, diagnosi precedente di ipertensione e diagnosi precedente di malattia polmonare cronica ostruttiva. I dati clinici sono stati osservati all'interno di una finestra temporale da 7 anni prima fino a un anno prima della possibile insorgenza della malattia. Le classi previste potevano essere: (i) classe CKD, cioè individui che svilupperanno CKD e (ii) NON-CKD, cioè individui che non svilupperanno CKD né altre malattie renali. Sono stati applicati tre algoritmi. Innanzitutto, è stato preso in considerazione il Decision Tree (DT) per la sua intelligibilità intrinseca e la capacità di generare regole auto-esplicative che possono aiutare le decisioni mediche. Quindi, i risultati ottenuti con il DT sono stati confrontati con metodi ensemble basati su DT, in particolare Random Forest (RF) e Random Forest ++ (RF ++), che è un'estensione di RF in grado di gestire dati longitudinali (cioè, misure multiple nel tempo per lo stesso biomarker). Per ogni algoritmo, sono state eseguite due diverse attività di classificazione: (i) nella condizione “matched” cioè con pazienti con CKD e NON-CKD abbinati sulla base del sesso e dell'età; (ii) nella condizione “not matched”, considerando soggetti NON-CKD scelti a caso nel set. La performance più alta è stata ottenuta utilizzando RF con 25 alberi, il numero massimo di caratteristiche considerate ad ogni split pari a 4, il numero minimo di campioni in una foglia pari a 10 e la profondità massima di ogni albero pari a 4. È stata ottenuta un’accuratezza del 78%. Le caratteristiche più importanti sono risultate essere l'età, il diabete, la pressione arteriosa sistolica, la diagnosi di ipertensione e l'indice di massa corporea. Con prestazioni simili ma leggermente inferiori a RF, DT può essere considerato il metodo più adatto grazie alla sua natura auto-esplicativa. Il miglior risultato è stato ottenuto con un albero di profondità 4 e un numero minimo di campioni nelle foglie pari a 10. In questo caso l’accuratezza è stata di circa il 72%. Sia per la foresta migliore che per l'albero migliore il rapporto di falsi negativi era inferiore al 20%, il che significa che almeno 8 pazienti su 10 CKD sono stati riconosciuti come malati. Per quanto riguarda DT, sono stati trovati valori interessanti di cut-off, ovvero 120,7 mmHg per la pressione arteriosa sistolica (cioè nell'intervallo accettabile) e 27,6 kg / m2 per l'indice di massa corporea (cioè, intervallo di sovrappeso, al di sotto della soglia di obesità). Questi valori normalmente non genererebbero preoccupazione, poiché non rientrano in intervalli critici. Il vantaggio principale dell'approccio proposto è che consente di prevedere la possibile insorgenza di CKD nella popolazione generale e, come tale, è potenzialmente applicabile a una varietà di contesti, non limitato al sistema sanitario canadese. Inoltre, conoscere il rischio di sviluppare CKD sulla base di biomarker ampiamente utilizzati (p. Es., Indice di massa corporea, lipoproteine ad alta densità) e fattori di rischio legati allo stile di vita (p. Es., Il fumo) apre la possibilità di prevenire o ritardare l'insorgenza di CKD attraverso il controllo di biomarker anomali e quindi riduzione del rischio.
File allegati
File Dimensione Formato  
ADELE FACCIONI TESI FINALE.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 5.53 MB
Formato Adobe PDF
5.53 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169184