Patients affected by chronic kidney diseases, and therefore treated with dialysis therapy to survive, are much more likely to be affected by cardiovascular (CV) diseases. Cardiovascular risk is higher in the first months of the dialysis and the yearly mortality rate is around 20%. The understanding of the main phenomena underlying CV events insurgence, is one of the primary current goals of nephrology. In the last 10 years EuCliD system, developed by Fresenius Medical Care company, has become a standard in the clinical procedure for the collection of dialysis treatment and patients data. The availability of a large amount of data allows the application of machine learning techniques useful to identify specific patterns or particular relations among medical variables and the patients patho-physiological status. For this reason, a dataset of 47 variables and almost 16000 patients treated three times per week for 18 months by hemodialysis have been extracted. Specifically, chronic incident patients, i.e. patients under dialysis therapy for the first time in their life, have been selected. The period of interest has been divided into 3 different time windows, 6 months long each. The analyses were performed by developing models which predict the patient outcome (i.e. CV events) in the successive time window by using the variables extracted in the current time window. The employed machine learning techniques are: Lasso Logistic Regression, Random Forest and Support Vector Machines. Specifically, the application of Support Vector Machines (SVM) is absolutely new in this field of research and produced the best predictive performance. The development of SVM models has been integrated with a feature selection technique based on a wrapper strategy. Thanks to this procedure, the predictive capability of the models based on SVM has increased and it exceeds the value of 72% of the area under the ROC curve in both the time windows. This has allowed to obtain more efficient, also from a computational point of view, and better interpretable models. The found risk factors can be useful to make timely diagnosis as well as personalized and effective therapies.

I pazienti affetti da disfunzioni renali e per questo sottoposti a terapia di dialisi sono soggetti ad un maggior rischio cardiovascolare. L’insorgenza di eventi cardiovascolari è massima nei primi mesi di trattamento dialitico ed il tasso di mortalità annuale è del 20% circa. La comprensione dei fattori coinvolti è dunque uno degli obiettivi primari in nefrologia. Negli ultimi 10 anni il sistema EuCliD, proprietà dell’azienda Fresenius Medical Care, è entrato nella routine clinica per la raccolta di dati di pazienti e trattamenti dialitici. La disponibilità di una gran quantità di dati permette l’applicazione di tecniche di machine learning utili per individuare la presenza di pattern specifici o particolari relazioni presenti tra le variabili mediche e lo stato pato-fisiologico del paziente. A questo scopo è stato estratto un dataset di 47 variabili e quasi 16000 pazienti sottoposti a trattamento dialitico tre volte a settimana per 18 mesi; in particolare sono stati scelti pazienti cronici e incidenti il trattamento dialitico, cioè sottoposti a dialisi per la prima volta nella loro vita. Il periodo in analisi è stato suddiviso in finestre temporali di 6 mesi; sulla base delle variabili estratte della finestra temporale corrente, sono stati sviluppati modelli predittivi dell’insorgenza di eventi cardiovascolari nella finestra successiva. Sono state utilizzate le seguenti tecniche di machine learning: Lasso Logistic Regression, Random Forest e Support Vector Machines. L’applicazione delle Support Vector Machines è una novità in questo ambito e ha permesso di ottenere le migliori performance predittive. La costruzione dei modelli è stata inoltre integrata con una tecnica di feature selection basata su strategia wrapper; grazie a tale procedura la capacità predittiva dei modelli basati su Support Vector Machines è stata ottimizzata, raggiungendo un valore superiore al 72% di area sotto la curva ROC in entrambe le finestre temporali. Sono stati così ottenuti modelli più efficienti anche dal punto di vista computazionale e di interpretabilità, evidenziando fattori di rischio utili per formulare diagnosi tempestive e strategie di cura personalizzate ed efficaci.

Tecniche di machine learning per la predizione del rischio cardio-vascolare in pazienti uremici

DI MARCO, VALERIA
2012/2013

Abstract

Patients affected by chronic kidney diseases, and therefore treated with dialysis therapy to survive, are much more likely to be affected by cardiovascular (CV) diseases. Cardiovascular risk is higher in the first months of the dialysis and the yearly mortality rate is around 20%. The understanding of the main phenomena underlying CV events insurgence, is one of the primary current goals of nephrology. In the last 10 years EuCliD system, developed by Fresenius Medical Care company, has become a standard in the clinical procedure for the collection of dialysis treatment and patients data. The availability of a large amount of data allows the application of machine learning techniques useful to identify specific patterns or particular relations among medical variables and the patients patho-physiological status. For this reason, a dataset of 47 variables and almost 16000 patients treated three times per week for 18 months by hemodialysis have been extracted. Specifically, chronic incident patients, i.e. patients under dialysis therapy for the first time in their life, have been selected. The period of interest has been divided into 3 different time windows, 6 months long each. The analyses were performed by developing models which predict the patient outcome (i.e. CV events) in the successive time window by using the variables extracted in the current time window. The employed machine learning techniques are: Lasso Logistic Regression, Random Forest and Support Vector Machines. Specifically, the application of Support Vector Machines (SVM) is absolutely new in this field of research and produced the best predictive performance. The development of SVM models has been integrated with a feature selection technique based on a wrapper strategy. Thanks to this procedure, the predictive capability of the models based on SVM has increased and it exceeds the value of 72% of the area under the ROC curve in both the time windows. This has allowed to obtain more efficient, also from a computational point of view, and better interpretable models. The found risk factors can be useful to make timely diagnosis as well as personalized and effective therapies.
JON TITAPICCOLO, JASMINE
FERRARIO, MANUELA
BARBIERI, CARLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2014
2012/2013
I pazienti affetti da disfunzioni renali e per questo sottoposti a terapia di dialisi sono soggetti ad un maggior rischio cardiovascolare. L’insorgenza di eventi cardiovascolari è massima nei primi mesi di trattamento dialitico ed il tasso di mortalità annuale è del 20% circa. La comprensione dei fattori coinvolti è dunque uno degli obiettivi primari in nefrologia. Negli ultimi 10 anni il sistema EuCliD, proprietà dell’azienda Fresenius Medical Care, è entrato nella routine clinica per la raccolta di dati di pazienti e trattamenti dialitici. La disponibilità di una gran quantità di dati permette l’applicazione di tecniche di machine learning utili per individuare la presenza di pattern specifici o particolari relazioni presenti tra le variabili mediche e lo stato pato-fisiologico del paziente. A questo scopo è stato estratto un dataset di 47 variabili e quasi 16000 pazienti sottoposti a trattamento dialitico tre volte a settimana per 18 mesi; in particolare sono stati scelti pazienti cronici e incidenti il trattamento dialitico, cioè sottoposti a dialisi per la prima volta nella loro vita. Il periodo in analisi è stato suddiviso in finestre temporali di 6 mesi; sulla base delle variabili estratte della finestra temporale corrente, sono stati sviluppati modelli predittivi dell’insorgenza di eventi cardiovascolari nella finestra successiva. Sono state utilizzate le seguenti tecniche di machine learning: Lasso Logistic Regression, Random Forest e Support Vector Machines. L’applicazione delle Support Vector Machines è una novità in questo ambito e ha permesso di ottenere le migliori performance predittive. La costruzione dei modelli è stata inoltre integrata con una tecnica di feature selection basata su strategia wrapper; grazie a tale procedura la capacità predittiva dei modelli basati su Support Vector Machines è stata ottimizzata, raggiungendo un valore superiore al 72% di area sotto la curva ROC in entrambe le finestre temporali. Sono stati così ottenuti modelli più efficienti anche dal punto di vista computazionale e di interpretabilità, evidenziando fattori di rischio utili per formulare diagnosi tempestive e strategie di cura personalizzate ed efficaci.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_04_DiMarco.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 3.41 MB
Formato Adobe PDF
3.41 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/92528