Introduction: Since the outbreak of the COVID-19 pandemic, several studies have highlighted the association between the disease and cardiovascular alterations observed in electrocardiogram (ECG) recordings. These alterations have proven to be valuable predictors for evaluating the mortality risk in hospitalized patients. The aim of this work is to develop a novel Machine Learning (ML) pipeline capable of predicting all-cause mortality in COVID-19 patients after 30 days of hospital admission, based on their ECG signal. Additionally, the study aims to identify the relevant ECG-derived parameters that contribute to the predictions. Methods: The dataset consists of 12-lead ECG signals along with demographic data collected at IRCCS Policlinico San Matteo in Pavia, Italy, between June 2020 and September 2021. The proposed ML pipeline encompasses a comprehensive range of features and ML algorithms, as well as tailored ensemble models to address the imbalanced classification. The pipeline incorporates data pre-processing, feature selection, model tuning, and cross-validation delivery in order to maximize performance. The chosen metric for optimization is the geometric mean of sensitivity and specificity (G-mean). Results: Two separate experiments were conducted: one utilizing the ECG-derived features, while the other deriving Principal Components from these features. The fine-tuned Logistic Regression Majority Voting ensemble model achieved, respectively, a G-mean of 72.53% and 74.16% for each approach when evaluated on the test set. Further analysis regarding explainability highlights that age contributes the most to the predictions, although it is also possible to achieve reasonable performance only using ECG-derived parameters, with a G-mean of 70.71%. Conclusion: ML algorithms can effectively detect COVID-related alterations in ECG signals in order to predict the associated mortality risk. The model performance obtained in this work outperformed the state-of-the-art models presented in the literature for the same task. These findings may help the development of a trustworthy decision support system for healthcare professionals.

Introduzione: Dall'inizio della pandemia di COVID-19, diversi studi hanno evidenziato l'associazione tra la malattia e le alterazioni cardiovascolari osservate nei tracciati dell'elettrocardiogramma (ECG). Queste alterazioni si sono dimostrate utili nel predire il rischio di mortalità nei pazienti ricoverati. L'obiettivo di questo lavoro è sviluppare una nuova pipeline di Machine Learning (ML) in grado di prevedere la mortalità nei pazienti con COVID-19 30 giorni dopo l'acquisizione dell'ECG. Inoltre, lo studio prevede di identificare i parametri rilevanti derivati dall'ECG che contribuiscono alle previsioni. Metodi: Il set di dati è costituito da segnali ECG a 12 derivazioni insieme a dati demografici raccolti presso l'IRCCS Policlinico San Matteo di Pavia, Italia, tra giugno 2020 e settembre 2021. La pipeline ML proposta include un'ampia gamma di feature e algoritmi ML, nonché combinazioni di ensemble personalizzate per affrontare la classificazione sbilanciata. La pipeline comprende l'analisi dei dati, la preelaborazione, la selezione delle caratteristiche, l'ottimizzazione degli iperparametri e la calibrazione del modello al fine di massimizzare le performance. La metrica scelta per l'ottimizzazione è la media geometrica di sensibilità e specificità (G-mean). Risultati: Sono stati condotti due esperimenti separati: uno utilizzando i parametri derivate dall'ECG e l'altro derivando le Componenti Principali (PC) da queste caratteristiche. Il modello ensemble Logistic Regression Majority Voting, opportunamente ottimizzato, ha ottenuto una G-mean del 72.53% e del 74.16% per ciascun approccio, valutato sul set di test. Un'ulteriore analisi sull'interpretazione evidenzia che l'età contribuisce maggiormente alle previsioni, sebbene sia possibile ottenere prestazioni ragionevoli anche utilizzando solo parametri derivati dall'ECG, con una G-mean del 70.71%. Conclusioni: Gli algoritmi di ML possono rilevare efficacemente le alterazioni legate alla COVID-19 nei segnali ECG per prevedere il rischio di mortalità associato. Le prestazioni del modello ottenute in questo lavoro hanno superato lo stato dell'arte presentato in letteratura per lo stesso scopo. Questi risultati possono contribuire allo sviluppo di un sistema di supporto decisionale affidabile per gli operatori sanitari.

Automatic computation of cardiovascular arrhythmic risk from ECG data of COVID-19 patients

Gianjoppe Dos Santos, Pedro Henrique;Martins Pascutti, Felipe Augusto
2022/2023

Abstract

Introduction: Since the outbreak of the COVID-19 pandemic, several studies have highlighted the association between the disease and cardiovascular alterations observed in electrocardiogram (ECG) recordings. These alterations have proven to be valuable predictors for evaluating the mortality risk in hospitalized patients. The aim of this work is to develop a novel Machine Learning (ML) pipeline capable of predicting all-cause mortality in COVID-19 patients after 30 days of hospital admission, based on their ECG signal. Additionally, the study aims to identify the relevant ECG-derived parameters that contribute to the predictions. Methods: The dataset consists of 12-lead ECG signals along with demographic data collected at IRCCS Policlinico San Matteo in Pavia, Italy, between June 2020 and September 2021. The proposed ML pipeline encompasses a comprehensive range of features and ML algorithms, as well as tailored ensemble models to address the imbalanced classification. The pipeline incorporates data pre-processing, feature selection, model tuning, and cross-validation delivery in order to maximize performance. The chosen metric for optimization is the geometric mean of sensitivity and specificity (G-mean). Results: Two separate experiments were conducted: one utilizing the ECG-derived features, while the other deriving Principal Components from these features. The fine-tuned Logistic Regression Majority Voting ensemble model achieved, respectively, a G-mean of 72.53% and 74.16% for each approach when evaluated on the test set. Further analysis regarding explainability highlights that age contributes the most to the predictions, although it is also possible to achieve reasonable performance only using ECG-derived parameters, with a G-mean of 70.71%. Conclusion: ML algorithms can effectively detect COVID-related alterations in ECG signals in order to predict the associated mortality risk. The model performance obtained in this work outperformed the state-of-the-art models presented in the literature for the same task. These findings may help the development of a trustworthy decision support system for healthcare professionals.
GARCIA-ISLA, GUADALUPE
MAINARDI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
Introduzione: Dall'inizio della pandemia di COVID-19, diversi studi hanno evidenziato l'associazione tra la malattia e le alterazioni cardiovascolari osservate nei tracciati dell'elettrocardiogramma (ECG). Queste alterazioni si sono dimostrate utili nel predire il rischio di mortalità nei pazienti ricoverati. L'obiettivo di questo lavoro è sviluppare una nuova pipeline di Machine Learning (ML) in grado di prevedere la mortalità nei pazienti con COVID-19 30 giorni dopo l'acquisizione dell'ECG. Inoltre, lo studio prevede di identificare i parametri rilevanti derivati dall'ECG che contribuiscono alle previsioni. Metodi: Il set di dati è costituito da segnali ECG a 12 derivazioni insieme a dati demografici raccolti presso l'IRCCS Policlinico San Matteo di Pavia, Italia, tra giugno 2020 e settembre 2021. La pipeline ML proposta include un'ampia gamma di feature e algoritmi ML, nonché combinazioni di ensemble personalizzate per affrontare la classificazione sbilanciata. La pipeline comprende l'analisi dei dati, la preelaborazione, la selezione delle caratteristiche, l'ottimizzazione degli iperparametri e la calibrazione del modello al fine di massimizzare le performance. La metrica scelta per l'ottimizzazione è la media geometrica di sensibilità e specificità (G-mean). Risultati: Sono stati condotti due esperimenti separati: uno utilizzando i parametri derivate dall'ECG e l'altro derivando le Componenti Principali (PC) da queste caratteristiche. Il modello ensemble Logistic Regression Majority Voting, opportunamente ottimizzato, ha ottenuto una G-mean del 72.53% e del 74.16% per ciascun approccio, valutato sul set di test. Un'ulteriore analisi sull'interpretazione evidenzia che l'età contribuisce maggiormente alle previsioni, sebbene sia possibile ottenere prestazioni ragionevoli anche utilizzando solo parametri derivati dall'ECG, con una G-mean del 70.71%. Conclusioni: Gli algoritmi di ML possono rilevare efficacemente le alterazioni legate alla COVID-19 nei segnali ECG per prevedere il rischio di mortalità associato. Le prestazioni del modello ottenute in questo lavoro hanno superato lo stato dell'arte presentato in letteratura per lo stesso scopo. Questi risultati possono contribuire allo sviluppo di un sistema di supporto decisionale affidabile per gli operatori sanitari.
File allegati
File Dimensione Formato  
Executive_Summary_Thesis_COVIDSQR_Pedro_Felipe.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF Visualizza/Apri
Thesis_Manuscript_COVIDSQR_Pedro_Felipe.pdf

accessibile in internet per tutti

Descrizione: Thesis Manuscript
Dimensione 11.92 MB
Formato Adobe PDF
11.92 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208230