Atrial Fibrillation is the most common type of arrhythmia worldwide, it is prevalent on different populations, new onsets can progress to a stroke or death, as this fast-paced episodes can last from a couple of minutes up to several days and they are diagnosed alongside other diseases, which usually are not the main cause for patients to be seeking medical assistance. Different risk scores have been defined for AF prediction, which are usually based on common biomarkers and on features derived from Electrocardiographic records from cohort studies and are used in medical practice. Now there is a tendency for researching the capabilities of Machine Learning for AF prediction. The development of a Machine Learning model to predict new AF onsets on a population of 2445 patients from the Monzino Hospital of the Metropolitan City of Milan was carried out. An Age-AF stratification strategy was applied as part of the training strategy on a dataset with low number of observations, as well as monotonic constrains. For Addressing the 11:1 imbalance Geometric Mean of the Specificity and the Sensitivity for optimization was used, and for evaluation purposes the Adjusted Geometric Mean score was used. In total two cross validated pipelines were used, one with Random Forest as Base Model and another one with XGBoost. Each pipeline has 5 Model types: a Voting Ensemble, two Stacking Ensembles, a model balanced with KMedoids Clustering, and a Model that was trained with a fully imbalanced Dataset. The first three models are based on 9 balanced models, all positive observations available and under sampled negative observations. The best performing model from each pipeline was then selected. For Random Forest the fully imbalanced model outperformed the other four while for the XGBoost case a Stacking Ensemble using only the base models’ predictions got the upper hand. SHAP Values were used to highlight explainability, and the importance assigned by each model fitted on data was collected. The obtained cross validated Importance values propose an unbiased representation on which variables were deemed as more important. Both pipelines agreed on: Age, Left Ventricle Ejection Fraction, and Acute Pulmonary Edema. Variables commonly used in risk scores but as it was not possible to calculate any score there cannot be a direct comparison of a risk score and a final model. The variables suggested by the pipelines are coherent to the domain. A final XGBoost Ensemble was selected it has an AUROC value of 0.780 on Training, 0.808 on Validation, and 0.838 on Testing. It predicted correctly 92% of the positive cases and 76% of the negative ones.

La fibrillazione atriale (FA) è il tipo di aritmia più comune al mondo, è prevalente in diverse popolazioni, episodi di FA possono durare da un paio di minuti fino a diversi giorni e vengono spesso diagnosticati insieme ad altre malattie, che di solito non rappresentano la causa principale per cui i pazienti cercano assistenza medica. Sono stati definiti diversi Risk Scores per la predizione della FA, si basano su biomarcatori comuni e su caratteristiche derivate da registrazioni elettrocardiografiche di studi di coorte e sono utilizzati nella pratica medica. In questo studio è stato allenato un modello di Machine Learning per predire nuove insorgenze di FA su una popolazione di 2445 pazienti dell’Ospedale Cardiologico Monzino di Milano. È stata applicata una strategia di stratificazione FA-èta come parte della strategia di addestramento. Per affrontare lo sbilanciamento (rapporto 11:1 tra pazienti che non hanno/hanno sviluppato FA). È stata utilizzata la media geometrica della specificità e della sensibilità per l’ottimizzazione. Mentre che per la valutazione, è stata utilizzata la media geometrica aggiustata. Sono state utilizzate due pipeline con cross-validation, una con Random Forest come modello base e un’altra con XGBoost. Ogni pipeline ha 5 modelli: un Vote Ensemble, due Stacking Ensemble, un modello bilanciato con l’algoritmo di clustering KMedoids, e un modello addestrato con un set di dati completamente sbilanciato. I primi tre si basano su 9 modelli bilanciati, tutte le osservazioni positive disponibili e osservazioni negative sottocampionate. È stato quindi selezionato il modello con la miglior valutazione per ciascuna pipeline. Per Random Forest il modello completamente sbilanciato ha avuto performance migliori degli altri quattro mentre per il caso di XGBoost è stato scelto lo Stacking Ensemble che utilizza solo le previsioni dei modelli base. I valori SHAP sono stati utilizzati per spiegare i modelli ed è stata raccolta anche l’importanza assegnata a ciascun modello addestrato con dei dati. I valori di importanza ottenuti con cross-validation propongono una rappresentazione imparziale in base alla quale le variabili sono state ritenute più importanti. Entrambe pipeline hanno concordato su 3 variabili: Età, Frazione di Eiezione del Ventricolo Sinistro ed Edema Polmonare Acuto. Variabili comunemente utilizzate nei punteggi di rischio ma poichè non è stato possibile calcolare alcun punteggio, non può esserci un confronto diretto tra un Risk Score e un modello finale. Le variabili suggerite dalle pipeline sono coerenti al dominio. Il modello finale è stato un XGBoost Ensemble che ha ottenuto un valore AUROC di 0,780 in Training, 0,808 in Validation e 0,838 in Testing. Ha previsto correttamente il 92% dei casi positivi e il 76% di quelli negativi.

AF risk prediction in Mediterranean population

Sanchez, Francisco Dario
2022/2023

Abstract

Atrial Fibrillation is the most common type of arrhythmia worldwide, it is prevalent on different populations, new onsets can progress to a stroke or death, as this fast-paced episodes can last from a couple of minutes up to several days and they are diagnosed alongside other diseases, which usually are not the main cause for patients to be seeking medical assistance. Different risk scores have been defined for AF prediction, which are usually based on common biomarkers and on features derived from Electrocardiographic records from cohort studies and are used in medical practice. Now there is a tendency for researching the capabilities of Machine Learning for AF prediction. The development of a Machine Learning model to predict new AF onsets on a population of 2445 patients from the Monzino Hospital of the Metropolitan City of Milan was carried out. An Age-AF stratification strategy was applied as part of the training strategy on a dataset with low number of observations, as well as monotonic constrains. For Addressing the 11:1 imbalance Geometric Mean of the Specificity and the Sensitivity for optimization was used, and for evaluation purposes the Adjusted Geometric Mean score was used. In total two cross validated pipelines were used, one with Random Forest as Base Model and another one with XGBoost. Each pipeline has 5 Model types: a Voting Ensemble, two Stacking Ensembles, a model balanced with KMedoids Clustering, and a Model that was trained with a fully imbalanced Dataset. The first three models are based on 9 balanced models, all positive observations available and under sampled negative observations. The best performing model from each pipeline was then selected. For Random Forest the fully imbalanced model outperformed the other four while for the XGBoost case a Stacking Ensemble using only the base models’ predictions got the upper hand. SHAP Values were used to highlight explainability, and the importance assigned by each model fitted on data was collected. The obtained cross validated Importance values propose an unbiased representation on which variables were deemed as more important. Both pipelines agreed on: Age, Left Ventricle Ejection Fraction, and Acute Pulmonary Edema. Variables commonly used in risk scores but as it was not possible to calculate any score there cannot be a direct comparison of a risk score and a final model. The variables suggested by the pipelines are coherent to the domain. A final XGBoost Ensemble was selected it has an AUROC value of 0.780 on Training, 0.808 on Validation, and 0.838 on Testing. It predicted correctly 92% of the positive cases and 76% of the negative ones.
GARCIA ISLA, GUADALUPE
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
La fibrillazione atriale (FA) è il tipo di aritmia più comune al mondo, è prevalente in diverse popolazioni, episodi di FA possono durare da un paio di minuti fino a diversi giorni e vengono spesso diagnosticati insieme ad altre malattie, che di solito non rappresentano la causa principale per cui i pazienti cercano assistenza medica. Sono stati definiti diversi Risk Scores per la predizione della FA, si basano su biomarcatori comuni e su caratteristiche derivate da registrazioni elettrocardiografiche di studi di coorte e sono utilizzati nella pratica medica. In questo studio è stato allenato un modello di Machine Learning per predire nuove insorgenze di FA su una popolazione di 2445 pazienti dell’Ospedale Cardiologico Monzino di Milano. È stata applicata una strategia di stratificazione FA-èta come parte della strategia di addestramento. Per affrontare lo sbilanciamento (rapporto 11:1 tra pazienti che non hanno/hanno sviluppato FA). È stata utilizzata la media geometrica della specificità e della sensibilità per l’ottimizzazione. Mentre che per la valutazione, è stata utilizzata la media geometrica aggiustata. Sono state utilizzate due pipeline con cross-validation, una con Random Forest come modello base e un’altra con XGBoost. Ogni pipeline ha 5 modelli: un Vote Ensemble, due Stacking Ensemble, un modello bilanciato con l’algoritmo di clustering KMedoids, e un modello addestrato con un set di dati completamente sbilanciato. I primi tre si basano su 9 modelli bilanciati, tutte le osservazioni positive disponibili e osservazioni negative sottocampionate. È stato quindi selezionato il modello con la miglior valutazione per ciascuna pipeline. Per Random Forest il modello completamente sbilanciato ha avuto performance migliori degli altri quattro mentre per il caso di XGBoost è stato scelto lo Stacking Ensemble che utilizza solo le previsioni dei modelli base. I valori SHAP sono stati utilizzati per spiegare i modelli ed è stata raccolta anche l’importanza assegnata a ciascun modello addestrato con dei dati. I valori di importanza ottenuti con cross-validation propongono una rappresentazione imparziale in base alla quale le variabili sono state ritenute più importanti. Entrambe pipeline hanno concordato su 3 variabili: Età, Frazione di Eiezione del Ventricolo Sinistro ed Edema Polmonare Acuto. Variabili comunemente utilizzate nei punteggi di rischio ma poichè non è stato possibile calcolare alcun punteggio, non può esserci un confronto diretto tra un Risk Score e un modello finale. Le variabili suggerite dalle pipeline sono coerenti al dominio. Il modello finale è stato un XGBoost Ensemble che ha ottenuto un valore AUROC di 0,780 in Training, 0,808 in Validation e 0,838 in Testing. Ha previsto correttamente il 92% dei casi positivi e il 76% di quelli negativi.
File allegati
File Dimensione Formato  
2024_04_Sanchez.pdf

solo utenti autorizzati dal 20/03/2025

Dimensione 9.46 MB
Formato Adobe PDF
9.46 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219722