Machine Learning (ML) is widely supposed to be able to discover complex interactions from the data and to account for non-linear relationships between a multitude of variables. This strength may potentially lead to improved predictive models and a variety of applications for which algorithms are designed. Relatedly, machine learning techniques have recently obtained considerable success in healthcare and medicine. This was certainly supported by the increased availability of electronic clinical data assisted by the digital revolution. In this clinical context, one of the areas that is gaining significant interest is chronic diseases. Accordingly, this study is focused on heart failure (HF), a complex condition which represents a growing healthcare burden and one of the leading causes of hospitalization and readmission. Avoidable hospital readmissions not only contribute to the high costs of healthcare, but also have an impact on the quality of care for patients. The adoption of Electronic Medical Records by the Vimercate Hospital has given the opportunity to proactively identify patients with high risk of hospital readmission, and apply effective interventions to mitigate that risk. In the past, several attempts have addressed the efficacy of different programs and approaches for reducing readmissions in HF patients. Those programs may be prohibitively expensive and even superfluous when applied to an entire patient cohort, but become cost-effective if selectively applied to patients at high risk for readmission. Therefore, different predictive models were developed to identify patients at high risk for hospital readmissions, and to enable direct specific interventions toward those who might benefit most. However, the need for an accurate predictive model, suitable for hospital setting applications, still exists. The goal of this study was to assess the ability of ML algorithms for predicting unplanned readmissions within 30 days and one year after an acute hospitalization for heart failure, in elderly patients. In addition, for both outcomes we have distinguished the leading cause of readmission in all-cause and heart failure-only, thus arriving to construct four distinct datasets, each with its own target variable. In classifying the patients according to their risk of readmission, we extracted various features to finally propose the study of their predictivity in a supervised learning setting. We built and tested several models including decision trees, multi-layer pereptron, support vector machines and tree-based ensemble methods like bagging and boosting. Through comparison with the traditional statistical approach by the logistic regression model and a conventional predictive tool, the LACE index, we demonstrated that XGBoost, a novel implementation of gradient boosting, is a great candidate to capture the complexity and interdependency of various data collected in the electronic medical records. Our outcomes reinforce the hypothesis that ML methods can improve the prediction of unplanned readmission in HF patients. However, before a clinical use our models need to achieve better discriminatory capacity, suggesting that further research is required. In conclusion, we believe that predictive analytics by means of modern machine learning solutions are powerful tools that have to be fully exploited in this field as well as in other clinical areas.

Tra le tecnologie che stanno riscuotendo un notevole successo nell'era dei big data e dell'intelligenza artificiale si colloca senz’altro il Machine Learning (ML), le cui potenzialità risiedono nell'apprendimento di complesse interazioni nei dati e nella capacità di spiegare relazioni non lineari tra una moltitudine di variabili. Questa peculiarità può portare allo sviluppo di modelli predittivi in diversi settori applicativi, dove molteplici algoritmi vengono utilizzati per i più disparati scopi. Di conseguenza, le tecniche di machine learning hanno recentemente ottenuto un notevole successo anche in sanità e in medicina. E' infatti innegabile che, dai primi albori ad oggi, il machine learning abbia mostrato la sua validità nelle applicazioni diagnostiche in ambito medico, dall’elaborazione di dati biometrici ai più recenti utilizzi nell’analisi delle immagini medicali. Ciò è stato certamente supportato dalla maggiore disponibilità di dati clinici in formato elettronico, assistita dalla rivoluzione digitale che ha investito anche il settore clinico. In questo contesto, una delle aree che sta riscuotendo un sempre maggiore interesse riguarda le malattie croniche e la loro gestione. In riferimento a ciò, il presente studio si concentra sull'insufficienza cardiaca, o scompenso cardiaco, una condizione complessa che rappresenta un crescente onere sanitario e una delle principali cause di ricovero e riammissione. Le riammissioni ospedaliere evitabili non solo contribuiscono agli elevati costi della sanità, ma hanno anche un notevole impatto sulla qualità delle cure offerte ai pazienti. L'adozione della cartella clinica elettronica da parte dell'ospedale di Vimercate ha offerto l'opportunità di valorizzare il contenuto informativo della grande mole di dati digitalizzati quotidianamente raccolti. Tramite il machine learning è quindi possibile estrarre conoscenza e mettere in pratica analisi innovative che, in questo lavoro, sono volte a identificare in modo proattivo i pazienti ad alto rischio di riammissione in ospedale con lo scopo di applicare interventi efficaci per mitigare tale rischio. In passato, numerosi tentativi hanno trattato l'efficacia di diversi programmi e approcci per ridurre le riammissioni nei pazienti con scompenso cardiaco. Tali programmi possono essere proibitivi in termini economici se applicati all'intera popolazione dei pazienti dimessi, ma possono diventare redditizi se applicati in modo selettivo a pazienti ad alto rischio di riammissione. Pertanto, sono state condotte diverse analisi predittive per identificare i pazienti ad alto rischio di riammissione in ospedale e per consentire interventi specifici diretti verso coloro che potrebbero trarne maggiori benefici. Tuttavia, esiste tuttora la necessità di un modello predittivo accurato, adatto per una effettiva applicazione in ambito ospedaliero. L'obiettivo di questo studio è perciò quello di valutare la capacità delle tecniche di machine learning nel predire riammissioni non pianificate entro 30 giorni e un anno dopo un ricovero per insufficienza cardiaca, in pazienti anziani. Inoltre, per entrambi gli intervalli temporali definiti, abbiamo distinto le riammissioni avvenute per una qualsiasi causa e quelle dovute esclusivamente all'insufficienza cardiaca, arrivando così a costruire quattro dataset distinti, ognuno con la propria variabile target da predire. Nel classificare i pazienti in base al loro rischio di riammissione, abbiamo estratto e utilizzato varie caratteristiche studiando la loro importanza e predittività mediante un approccio di supervised learning (apprendimento supervisionato). Abbiamo implementato e testato diversi modelli tra cui alberi decisionali, una rete neurale, support vector machines e metodi di ensemble basati su alberi, tra i quali Random Forest e boosting. Attraverso il confronto con il tradizionale approccio statistico, mediante il modello di regressione logistica, e uno strumento predittivo convenzionale, l'indice LACE, abbiamo dimostrato che XGBoost, un'efficiente implementazione del gradient boosting, è risultato essere un ottimo candidato per catturare la complessità e l'interdipendenza dei vari dati raccolti nella cartella clinica elettronica. I nostri risultati rafforzano l'ipotesi che le tecniche di machine learning possano migliorare la previsione di riammissione non pianificata nei pazienti con scompenso cardiaco. Tuttavia, prima di un uso clinico, i modelli proposti dovranno raggiungere una migliore capacità discriminatoria, suggerendo quindi la necessità di effettuare ulteriori ricerche.

A machine learning approach for predicting hospital readmission in heart failure elderly patients

BELLINGERI, FILIPPO
2018/2019

Abstract

Machine Learning (ML) is widely supposed to be able to discover complex interactions from the data and to account for non-linear relationships between a multitude of variables. This strength may potentially lead to improved predictive models and a variety of applications for which algorithms are designed. Relatedly, machine learning techniques have recently obtained considerable success in healthcare and medicine. This was certainly supported by the increased availability of electronic clinical data assisted by the digital revolution. In this clinical context, one of the areas that is gaining significant interest is chronic diseases. Accordingly, this study is focused on heart failure (HF), a complex condition which represents a growing healthcare burden and one of the leading causes of hospitalization and readmission. Avoidable hospital readmissions not only contribute to the high costs of healthcare, but also have an impact on the quality of care for patients. The adoption of Electronic Medical Records by the Vimercate Hospital has given the opportunity to proactively identify patients with high risk of hospital readmission, and apply effective interventions to mitigate that risk. In the past, several attempts have addressed the efficacy of different programs and approaches for reducing readmissions in HF patients. Those programs may be prohibitively expensive and even superfluous when applied to an entire patient cohort, but become cost-effective if selectively applied to patients at high risk for readmission. Therefore, different predictive models were developed to identify patients at high risk for hospital readmissions, and to enable direct specific interventions toward those who might benefit most. However, the need for an accurate predictive model, suitable for hospital setting applications, still exists. The goal of this study was to assess the ability of ML algorithms for predicting unplanned readmissions within 30 days and one year after an acute hospitalization for heart failure, in elderly patients. In addition, for both outcomes we have distinguished the leading cause of readmission in all-cause and heart failure-only, thus arriving to construct four distinct datasets, each with its own target variable. In classifying the patients according to their risk of readmission, we extracted various features to finally propose the study of their predictivity in a supervised learning setting. We built and tested several models including decision trees, multi-layer pereptron, support vector machines and tree-based ensemble methods like bagging and boosting. Through comparison with the traditional statistical approach by the logistic regression model and a conventional predictive tool, the LACE index, we demonstrated that XGBoost, a novel implementation of gradient boosting, is a great candidate to capture the complexity and interdependency of various data collected in the electronic medical records. Our outcomes reinforce the hypothesis that ML methods can improve the prediction of unplanned readmission in HF patients. However, before a clinical use our models need to achieve better discriminatory capacity, suggesting that further research is required. In conclusion, we believe that predictive analytics by means of modern machine learning solutions are powerful tools that have to be fully exploited in this field as well as in other clinical areas.
DELGROSSI, GIOVANNI
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Tra le tecnologie che stanno riscuotendo un notevole successo nell'era dei big data e dell'intelligenza artificiale si colloca senz’altro il Machine Learning (ML), le cui potenzialità risiedono nell'apprendimento di complesse interazioni nei dati e nella capacità di spiegare relazioni non lineari tra una moltitudine di variabili. Questa peculiarità può portare allo sviluppo di modelli predittivi in diversi settori applicativi, dove molteplici algoritmi vengono utilizzati per i più disparati scopi. Di conseguenza, le tecniche di machine learning hanno recentemente ottenuto un notevole successo anche in sanità e in medicina. E' infatti innegabile che, dai primi albori ad oggi, il machine learning abbia mostrato la sua validità nelle applicazioni diagnostiche in ambito medico, dall’elaborazione di dati biometrici ai più recenti utilizzi nell’analisi delle immagini medicali. Ciò è stato certamente supportato dalla maggiore disponibilità di dati clinici in formato elettronico, assistita dalla rivoluzione digitale che ha investito anche il settore clinico. In questo contesto, una delle aree che sta riscuotendo un sempre maggiore interesse riguarda le malattie croniche e la loro gestione. In riferimento a ciò, il presente studio si concentra sull'insufficienza cardiaca, o scompenso cardiaco, una condizione complessa che rappresenta un crescente onere sanitario e una delle principali cause di ricovero e riammissione. Le riammissioni ospedaliere evitabili non solo contribuiscono agli elevati costi della sanità, ma hanno anche un notevole impatto sulla qualità delle cure offerte ai pazienti. L'adozione della cartella clinica elettronica da parte dell'ospedale di Vimercate ha offerto l'opportunità di valorizzare il contenuto informativo della grande mole di dati digitalizzati quotidianamente raccolti. Tramite il machine learning è quindi possibile estrarre conoscenza e mettere in pratica analisi innovative che, in questo lavoro, sono volte a identificare in modo proattivo i pazienti ad alto rischio di riammissione in ospedale con lo scopo di applicare interventi efficaci per mitigare tale rischio. In passato, numerosi tentativi hanno trattato l'efficacia di diversi programmi e approcci per ridurre le riammissioni nei pazienti con scompenso cardiaco. Tali programmi possono essere proibitivi in termini economici se applicati all'intera popolazione dei pazienti dimessi, ma possono diventare redditizi se applicati in modo selettivo a pazienti ad alto rischio di riammissione. Pertanto, sono state condotte diverse analisi predittive per identificare i pazienti ad alto rischio di riammissione in ospedale e per consentire interventi specifici diretti verso coloro che potrebbero trarne maggiori benefici. Tuttavia, esiste tuttora la necessità di un modello predittivo accurato, adatto per una effettiva applicazione in ambito ospedaliero. L'obiettivo di questo studio è perciò quello di valutare la capacità delle tecniche di machine learning nel predire riammissioni non pianificate entro 30 giorni e un anno dopo un ricovero per insufficienza cardiaca, in pazienti anziani. Inoltre, per entrambi gli intervalli temporali definiti, abbiamo distinto le riammissioni avvenute per una qualsiasi causa e quelle dovute esclusivamente all'insufficienza cardiaca, arrivando così a costruire quattro dataset distinti, ognuno con la propria variabile target da predire. Nel classificare i pazienti in base al loro rischio di riammissione, abbiamo estratto e utilizzato varie caratteristiche studiando la loro importanza e predittività mediante un approccio di supervised learning (apprendimento supervisionato). Abbiamo implementato e testato diversi modelli tra cui alberi decisionali, una rete neurale, support vector machines e metodi di ensemble basati su alberi, tra i quali Random Forest e boosting. Attraverso il confronto con il tradizionale approccio statistico, mediante il modello di regressione logistica, e uno strumento predittivo convenzionale, l'indice LACE, abbiamo dimostrato che XGBoost, un'efficiente implementazione del gradient boosting, è risultato essere un ottimo candidato per catturare la complessità e l'interdipendenza dei vari dati raccolti nella cartella clinica elettronica. I nostri risultati rafforzano l'ipotesi che le tecniche di machine learning possano migliorare la previsione di riammissione non pianificata nei pazienti con scompenso cardiaco. Tuttavia, prima di un uso clinico, i modelli proposti dovranno raggiungere una migliore capacità discriminatoria, suggerendo quindi la necessità di effettuare ulteriori ricerche.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_Bellingeri.pdf

solo utenti autorizzati dal 27/03/2021

Descrizione: Testo della tesi
Dimensione 1.66 MB
Formato Adobe PDF
1.66 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166696