During the last few decades the habit of recording electronic medical data has greatly spread, thus machine learning is likely to play an increasingly larger role in clinical settings. The possibility to storage huge quantity of medical data and so the growth of medical databases is really crucial since it allows to search for interesting information hidden in the data. Machine learning techniques can be very useful to search for patterns and relationships between medical variables and patients patho-physiological states, thus computer scientists are increasingly applying these techniques to clinical data. Prediction of events is one of the goals of machine learning: the application of machine learning techniques in preventive medicine can lead up to the identification of some factors that can be predictive of risky situations. Chronic hemodialysis patients experience a very high mortality, which is about 20% per year, and chronic renal failure has recently been defined as a “vasculopathic state” since cardiovascular deaths among dialysis patients are approximately 30 times higher than in the general population. The understanding of factors involved in cardiovascular events insurgence among these patients is right now a clinical target of nephrology care. Some attempts have been recently made to predict outcomes in dialysis patients but the involved phenomena are very complex: an accurate prediction of patient course is still very challenging. Purpose of this thesis is to predict hemodialysis course in terms of cardiovascular events using a real dataset extracted from EuCliD system, collecting dialysis treatment and patients data routinely collected in the clinical practice. Information about more than 4500 patients treated for 18 months, three times per week by hemodialysis was inspected. Incident hemodialysis patients, i.e. patients in their first 18 months of hemodialysis treatment, were examined for the high prevalence of cardiovascular diseases during the dialysis starting period. Six months temporal windows were identified and predictive models of cardiovascular events in the next temporal window based on variables extracted from the current six months temporal window were built. Chosen machine learning techniques were Lasso logistic regression, random forest, support vector machines and supervised self organizing maps. Random forests were selected because they are able to identify and exploit in the prediction the non-linear patterns hidden in the data. Known the complexity of the underlying physiological phenomena and the presence of strong non-linear relationships among the involved variables and cardiovascular outcome, the random forest method was chosen. The best predictive performance was obtained through random forests which showed an AUC of the ROC curve equal to 73% and sensitivity higher than 70% in both the temporal windows, proving that they are able to exploit non-linear patterns retrieved in the feature space. The dissertation also deals with feature selection since two wrapper strategies were embedded in the built models to identify effective subsets of features: in this way the predictive capability of random forest and self organizing maps models was increased and more interpretable models were obtained. Getting insights in the implemented models and through the analysis of the identified nested subsets of features it was possible to notice that the presence of an inflammation status, malnutrition or a not proper ultrafiltration of the patient are significant predictors of cardiovascular events insurgence in incident HD patients. These factors highlight an increased risk of cardiovascular system disruption: personalized therapy strategies can be devised to lower the cardiovascular risk in incident HD patients.

Durante gli ultimi trent’anni si sono sempre più diffuse sia la possibilità che la consuetudine di immagazzinare dati medicali in formato elettronico. La possibilità di immagazzinare grandi quantità di dati medicali ha reso di dimensioni sempre maggiori i database medicali. Per questo motivo le tecniche di machine learning hanno acquisito un ruolo sempre più importante in ambiente clinico. Questo fattore è di fondamentale importanza in quanto ha reso possibile l’esplorazione dei dati per estrarre utili ed interessanti informazioni celate in essi. Informatici e statistici stanno sempre più applicando le tecniche di machine learning a database medicali proprio perché un loro corretto impiego può essere utile per individuare la presenza di pattern specifici o particolari relazioni presenti tra le variabili mediche e lo stato pato-fisiologico del paziente. La predizione di eventi è uno degli obiettivi più diffusi nel machine learning: l’applicazione di tali tecniche nell’ambito della medicina preventiva può portare all’identificazione di fattori predittivi di situazioni di rischio. I pazienti con patologia renale cronica trattati con emodialisi sono soggetti ad un rischio di mortalità molto alta. Il tasso di mortalità annuale è di circa il 20% e lo stato pato-fisiologico dei pazienti con patologie renali croniche è stato recentemente definito “vasculopatico” dal momento che l’insorgenza di morte cardiovascolare è approssimativamente 30 volte più alta che nella popolazione generale. La comprensione dei fattori coinvolti nell’insorgenza di eventi cardiovascolari nei pazienti in dialisi è uno degli obiettivi attuali e primari in nefrologia. Recentemente sono stati compiuti da parte di diversi gruppi di ricerca diversi tentativi per predire l’outcome cardiovascolare dei pazienti dialitici. Purtroppo però i fenomeni pato-fisiologici coinvolti sono molto complessi e una predizione accurata del decorso dello stato cardio-renale in questi pazienti rimane una sfida molto attuale. Lo scopo di questa tesi di dottorato è lo sviluppo di strumenti e modelli basati su tecniche di machine learning per la predizione di eventi cardiovascolari in pazienti nefropatici trattati con trattamento emodialitico. A tale scopo è stato utilizzato un dataset di dati reali estratto dal sistema EuCliD, proprietà dell’azienda Fresenius Medical Care. Tale sistema è utilizzato nella routine clinica per la raccolta di dati di pazienti e trattamenti emodialitici. Sono stati analizzati i dati di più di 4500 pazienti sottoposti a trattamento emodialitico tre volte a settimana per 18 mesi. In particolare sono stati selezionati i pazienti incidenti il trattamento emodialitico, cioè pazienti trattati per la prima volta nella loro vita con trattamento emodialitico. Quindi i 18 mesi di trattamento in analisi sono i primi 18 mesi di trattamento per i pazienti in analisi. Tale categoria di pazienti è stata selezionata per l’alta insorgenza di malattie cardiovascolari durante il periodo iniziale di dialisi. Il periodo in analisi è stato suddiviso in finestre temporali di sei mesi e sono stati sviluppati modelli predittivi l’insorgenza di eventi cardiovascolari nella finestra temporale successiva sulla base di variabili estratte dalla finestra temporale corrente. Le tecniche di machine learning scelte per lo sviluppo di tali modelli sono state regressione logistica basata sull’algoritmo di Lasso, random forests, support vector machines e self organizing maps. Le random forests sono state scelte per la loro capacità di identificare e sfruttare nella predizione le relazioni non-lineari presenti nei dati. Infatti la complessità dei meccanismi fisiologici coinvolti e la presenza di relazioni fortemente non lineari tra le variabili considerate e l’outcome cardiovascolare ha suggerito l’impiego di un metodo non lineare come le random forests. La migliore performance predittiva è stata ottenuta proprio con l’impiego di tale modello: è stata ottenuta una area sotto la curva (AUC) ROC pari a 73% con sensitività maggiore del 70% in entrambe le finestre temporali, dimostrando l’abilità delle random forests di sfruttare le relazioni non lineari identificate nello spazio delle features. Nella tesi viene affrontata anche l’applicazione di tecniche di feature selection. In particolare due differenti metodi di feature selection basati entrambi su strategia wrapper sono stati integrati nella costruzione dei modelli per identificare sottogruppi di features efficaci nella predizione: tramite procedura wrapper la capacità predittiva dei modelli basati su random forests e self organizing map è stata incrementata e sono stati ottenuti modelli computazionalmente meno pesanti e più facilmente interpretabili. Dall’analisi dei modelli implementati e dall’analisi dei sottogruppi di features identificati è stato possibile notare che la presenza di uno stato infiammatorio, di malnutrizione e di una non corretta ultrafiltrazione del paziente sono predittori significativi dell’insorgenza di eventi cardiovascolari in pazienti incidenti il trattamento emodialitico. Tali fattori evidenziano un maggiore rischio di peggioramento repentino nelle condizioni del sistema cardiovascolare: strategie di cura personalizzate possono essere escogitate per diminuire il rischio cardiovascolare in pazienti incidenti il trattamento dialitico ed identificati come a maggior rischio cardiovascolare.

Mining medical data to develop clinical decision making tools in hemodialysis: prediction of cardiovascular events

ION TITAPICCOLO, JASMINE

Abstract

During the last few decades the habit of recording electronic medical data has greatly spread, thus machine learning is likely to play an increasingly larger role in clinical settings. The possibility to storage huge quantity of medical data and so the growth of medical databases is really crucial since it allows to search for interesting information hidden in the data. Machine learning techniques can be very useful to search for patterns and relationships between medical variables and patients patho-physiological states, thus computer scientists are increasingly applying these techniques to clinical data. Prediction of events is one of the goals of machine learning: the application of machine learning techniques in preventive medicine can lead up to the identification of some factors that can be predictive of risky situations. Chronic hemodialysis patients experience a very high mortality, which is about 20% per year, and chronic renal failure has recently been defined as a “vasculopathic state” since cardiovascular deaths among dialysis patients are approximately 30 times higher than in the general population. The understanding of factors involved in cardiovascular events insurgence among these patients is right now a clinical target of nephrology care. Some attempts have been recently made to predict outcomes in dialysis patients but the involved phenomena are very complex: an accurate prediction of patient course is still very challenging. Purpose of this thesis is to predict hemodialysis course in terms of cardiovascular events using a real dataset extracted from EuCliD system, collecting dialysis treatment and patients data routinely collected in the clinical practice. Information about more than 4500 patients treated for 18 months, three times per week by hemodialysis was inspected. Incident hemodialysis patients, i.e. patients in their first 18 months of hemodialysis treatment, were examined for the high prevalence of cardiovascular diseases during the dialysis starting period. Six months temporal windows were identified and predictive models of cardiovascular events in the next temporal window based on variables extracted from the current six months temporal window were built. Chosen machine learning techniques were Lasso logistic regression, random forest, support vector machines and supervised self organizing maps. Random forests were selected because they are able to identify and exploit in the prediction the non-linear patterns hidden in the data. Known the complexity of the underlying physiological phenomena and the presence of strong non-linear relationships among the involved variables and cardiovascular outcome, the random forest method was chosen. The best predictive performance was obtained through random forests which showed an AUC of the ROC curve equal to 73% and sensitivity higher than 70% in both the temporal windows, proving that they are able to exploit non-linear patterns retrieved in the feature space. The dissertation also deals with feature selection since two wrapper strategies were embedded in the built models to identify effective subsets of features: in this way the predictive capability of random forest and self organizing maps models was increased and more interpretable models were obtained. Getting insights in the implemented models and through the analysis of the identified nested subsets of features it was possible to notice that the presence of an inflammation status, malnutrition or a not proper ultrafiltration of the patient are significant predictors of cardiovascular events insurgence in incident HD patients. These factors highlight an increased risk of cardiovascular system disruption: personalized therapy strategies can be devised to lower the cardiovascular risk in incident HD patients.
SIGNORINI, MARIA GABRIELLA
CERUTTI, SERGIO
FERRARIO, MANUELA
22-ott-2013
Durante gli ultimi trent’anni si sono sempre più diffuse sia la possibilità che la consuetudine di immagazzinare dati medicali in formato elettronico. La possibilità di immagazzinare grandi quantità di dati medicali ha reso di dimensioni sempre maggiori i database medicali. Per questo motivo le tecniche di machine learning hanno acquisito un ruolo sempre più importante in ambiente clinico. Questo fattore è di fondamentale importanza in quanto ha reso possibile l’esplorazione dei dati per estrarre utili ed interessanti informazioni celate in essi. Informatici e statistici stanno sempre più applicando le tecniche di machine learning a database medicali proprio perché un loro corretto impiego può essere utile per individuare la presenza di pattern specifici o particolari relazioni presenti tra le variabili mediche e lo stato pato-fisiologico del paziente. La predizione di eventi è uno degli obiettivi più diffusi nel machine learning: l’applicazione di tali tecniche nell’ambito della medicina preventiva può portare all’identificazione di fattori predittivi di situazioni di rischio. I pazienti con patologia renale cronica trattati con emodialisi sono soggetti ad un rischio di mortalità molto alta. Il tasso di mortalità annuale è di circa il 20% e lo stato pato-fisiologico dei pazienti con patologie renali croniche è stato recentemente definito “vasculopatico” dal momento che l’insorgenza di morte cardiovascolare è approssimativamente 30 volte più alta che nella popolazione generale. La comprensione dei fattori coinvolti nell’insorgenza di eventi cardiovascolari nei pazienti in dialisi è uno degli obiettivi attuali e primari in nefrologia. Recentemente sono stati compiuti da parte di diversi gruppi di ricerca diversi tentativi per predire l’outcome cardiovascolare dei pazienti dialitici. Purtroppo però i fenomeni pato-fisiologici coinvolti sono molto complessi e una predizione accurata del decorso dello stato cardio-renale in questi pazienti rimane una sfida molto attuale. Lo scopo di questa tesi di dottorato è lo sviluppo di strumenti e modelli basati su tecniche di machine learning per la predizione di eventi cardiovascolari in pazienti nefropatici trattati con trattamento emodialitico. A tale scopo è stato utilizzato un dataset di dati reali estratto dal sistema EuCliD, proprietà dell’azienda Fresenius Medical Care. Tale sistema è utilizzato nella routine clinica per la raccolta di dati di pazienti e trattamenti emodialitici. Sono stati analizzati i dati di più di 4500 pazienti sottoposti a trattamento emodialitico tre volte a settimana per 18 mesi. In particolare sono stati selezionati i pazienti incidenti il trattamento emodialitico, cioè pazienti trattati per la prima volta nella loro vita con trattamento emodialitico. Quindi i 18 mesi di trattamento in analisi sono i primi 18 mesi di trattamento per i pazienti in analisi. Tale categoria di pazienti è stata selezionata per l’alta insorgenza di malattie cardiovascolari durante il periodo iniziale di dialisi. Il periodo in analisi è stato suddiviso in finestre temporali di sei mesi e sono stati sviluppati modelli predittivi l’insorgenza di eventi cardiovascolari nella finestra temporale successiva sulla base di variabili estratte dalla finestra temporale corrente. Le tecniche di machine learning scelte per lo sviluppo di tali modelli sono state regressione logistica basata sull’algoritmo di Lasso, random forests, support vector machines e self organizing maps. Le random forests sono state scelte per la loro capacità di identificare e sfruttare nella predizione le relazioni non-lineari presenti nei dati. Infatti la complessità dei meccanismi fisiologici coinvolti e la presenza di relazioni fortemente non lineari tra le variabili considerate e l’outcome cardiovascolare ha suggerito l’impiego di un metodo non lineare come le random forests. La migliore performance predittiva è stata ottenuta proprio con l’impiego di tale modello: è stata ottenuta una area sotto la curva (AUC) ROC pari a 73% con sensitività maggiore del 70% in entrambe le finestre temporali, dimostrando l’abilità delle random forests di sfruttare le relazioni non lineari identificate nello spazio delle features. Nella tesi viene affrontata anche l’applicazione di tecniche di feature selection. In particolare due differenti metodi di feature selection basati entrambi su strategia wrapper sono stati integrati nella costruzione dei modelli per identificare sottogruppi di features efficaci nella predizione: tramite procedura wrapper la capacità predittiva dei modelli basati su random forests e self organizing map è stata incrementata e sono stati ottenuti modelli computazionalmente meno pesanti e più facilmente interpretabili. Dall’analisi dei modelli implementati e dall’analisi dei sottogruppi di features identificati è stato possibile notare che la presenza di uno stato infiammatorio, di malnutrizione e di una non corretta ultrafiltrazione del paziente sono predittori significativi dell’insorgenza di eventi cardiovascolari in pazienti incidenti il trattamento emodialitico. Tali fattori evidenziano un maggiore rischio di peggioramento repentino nelle condizioni del sistema cardiovascolare: strategie di cura personalizzate possono essere escogitate per diminuire il rischio cardiovascolare in pazienti incidenti il trattamento dialitico ed identificati come a maggior rischio cardiovascolare.
Tesi di dottorato
File allegati
File Dimensione Formato  
2013_OTTOBRE_PhD_IONTITAPICCOLO.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 6.36 MB
Formato Adobe PDF
6.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/83083