This study, divided into two phases, addresses the challenge of extracting electrocardiographic (ECG) biomarkers from digitized paper tracings to predict Atrial Fibrillation (AF). The dataset comprises 542 ECGs, divided into a retrospective set (n=315, AF prevalence 34%) for model development and a prospective set (n=227, AF prevalence 6.6%) for validation. In the first phase, the ECG signals were initially preprocessed in MATLAB. Biomarkers were extracted using two techniques that generate a representative "median beat" (employing fixed or adaptive windows), and one technique that calculates parameters on each individual beat and then derives their median value. In the second phase, the extracted biomarkers were used to develop a machine learning predictive model in Python. Among the tested algorithms, the Bernoulli Naïve Bayes, trained on the biomarkers from the Adaptive Method and whose results were aggregated across five different balanced sets, achieved the best performance. On the retrospective data, the model achieved an F1 score of 0.571 and an Area Under the Curve (AUC) of 0.713. Prospective validation confirmed its diagnostic reliability (AUC 0.760, Sensitivity 0.800), although a reduced Precision (0.164) was observed, attributable to the low prevalence of AF in the validation sample and the consequent generation of false positives. In conclusion, the created pipeline demonstrates concrete potential in supporting the clinical decision-making process.

Questo studio, distinto in due fasi, affronta la sfida di estrarre biomarcatori elettrocardiografici (ECG) da tracciati cartacei digitalizzati per predire la Fibrillazione Atriale (FA). Il dataset comprende 542 ECG, suddivisi in un insieme retrospettivo (n=315, prevalenza FA 34%) per lo sviluppo del modello e uno prospettico (n=227, prevalenza FA 6.6%) per la validazione. Nella prima fase, i segnali ECG sono stati inizialmente preprocessati in MATLAB. I biomarcatori sono stati estratti attraverso due tecniche generanti un "battito mediano" rappresentativo (impiegando finestre fisse o adattive), ed una calcolante i parametri su ogni singolo battito per poi derivarne il valore mediano. Nella seconda fase, i biomarcatori estratti sono stati utilizzati per sviluppare un modello predittivo di machine learning in Python. Tra gli algoritmi testati, il Bernoulli Naïve Bayes, addestrato sui biomarcatori del Metodo Adattivo e i cui risultati sono stati aggregati su cinque diversi set bilanciati, ha ottenuto le prestazioni migliori. Sui dati retrospettivi, il modello ha raggiunto un F1 score di 0.571 e un'area sotto la curva (AUC) di 0.713. La validazione prospettica ne ha confermato l'affidabilità diagnostica (AUC 0.760, Sensibilità 0.800), sebbene sia emersa una Precisione ridotta (0.164), attribuibile alla bassa prevalenza di FA nel campione di validazione e alla conseguente generazione di falsi positivi. In conclusione, la pipeline creata dimostra un concreto potenziale nel supportare il processo decisionale clinico.

Predicting atrial fibrillation from digitized ECGs: a MATLAB-Python framework for biomarker extraction and analysis

Mazzotti, Federico
2024/2025

Abstract

This study, divided into two phases, addresses the challenge of extracting electrocardiographic (ECG) biomarkers from digitized paper tracings to predict Atrial Fibrillation (AF). The dataset comprises 542 ECGs, divided into a retrospective set (n=315, AF prevalence 34%) for model development and a prospective set (n=227, AF prevalence 6.6%) for validation. In the first phase, the ECG signals were initially preprocessed in MATLAB. Biomarkers were extracted using two techniques that generate a representative "median beat" (employing fixed or adaptive windows), and one technique that calculates parameters on each individual beat and then derives their median value. In the second phase, the extracted biomarkers were used to develop a machine learning predictive model in Python. Among the tested algorithms, the Bernoulli Naïve Bayes, trained on the biomarkers from the Adaptive Method and whose results were aggregated across five different balanced sets, achieved the best performance. On the retrospective data, the model achieved an F1 score of 0.571 and an Area Under the Curve (AUC) of 0.713. Prospective validation confirmed its diagnostic reliability (AUC 0.760, Sensitivity 0.800), although a reduced Precision (0.164) was observed, attributable to the low prevalence of AF in the validation sample and the consequent generation of false positives. In conclusion, the created pipeline demonstrates concrete potential in supporting the clinical decision-making process.
TACONNÉ, MARION
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Questo studio, distinto in due fasi, affronta la sfida di estrarre biomarcatori elettrocardiografici (ECG) da tracciati cartacei digitalizzati per predire la Fibrillazione Atriale (FA). Il dataset comprende 542 ECG, suddivisi in un insieme retrospettivo (n=315, prevalenza FA 34%) per lo sviluppo del modello e uno prospettico (n=227, prevalenza FA 6.6%) per la validazione. Nella prima fase, i segnali ECG sono stati inizialmente preprocessati in MATLAB. I biomarcatori sono stati estratti attraverso due tecniche generanti un "battito mediano" rappresentativo (impiegando finestre fisse o adattive), ed una calcolante i parametri su ogni singolo battito per poi derivarne il valore mediano. Nella seconda fase, i biomarcatori estratti sono stati utilizzati per sviluppare un modello predittivo di machine learning in Python. Tra gli algoritmi testati, il Bernoulli Naïve Bayes, addestrato sui biomarcatori del Metodo Adattivo e i cui risultati sono stati aggregati su cinque diversi set bilanciati, ha ottenuto le prestazioni migliori. Sui dati retrospettivi, il modello ha raggiunto un F1 score di 0.571 e un'area sotto la curva (AUC) di 0.713. La validazione prospettica ne ha confermato l'affidabilità diagnostica (AUC 0.760, Sensibilità 0.800), sebbene sia emersa una Precisione ridotta (0.164), attribuibile alla bassa prevalenza di FA nel campione di validazione e alla conseguente generazione di falsi positivi. In conclusione, la pipeline creata dimostra un concreto potenziale nel supportare il processo decisionale clinico.
File allegati
File Dimensione Formato  
2025_10_Mazzotti_Tesi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 5.29 MB
Formato Adobe PDF
5.29 MB Adobe PDF   Visualizza/Apri
2025_10_Mazzotti_Executive_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 1.2 MB
Formato Adobe PDF
1.2 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243534