Congenital heart diseases (CHDs) are the world's most widespread congenital defect, with severity ranging from mild forms to clinical conditions requiring prompt intervention. Early diagnosis, based on conventional auscultation, is of fundamental importance, but is nevertheless influenced by practitioner's subjective interpretation. In this work, an automatic classification system for neonatal heart sounds has been developed using Machine Learning, with the aim of assisting the primary care physician in the objective interpretation of phonocardiograms (PCGs). Following an analysis of the characteristics of neonatal PCGs, two feature sets have been extracted: spectral-domain Band Power Ratios (BPRs) and Mel-frequency Cepstral Coefficients (MFCCs) in the cepstral domain. Features were extracted first from the whole signal and then from the most critical points of the cardiac cycle. Specifically, BPRs were computed on critical subintervals of the S1-S1 cycle, divided into six parts of equal duration; MFCCs were derived directly from the S1-S1 segments without further subdivision, since they inherently encode temporal information, belonging to the time-frequency domain. Before training and evaluating the classifiers, the input variables were subjected to feature selection using L1 regularization, SHAP value analysis and correlation matrices, with the aim of reducing dimensionality, redundancy and noise. On the extracted feature vectors, three classifiers have been trained and tested: logistic regressor, Random Forest and XGBoost. Experimental results highlighted the superiority of the Random Forest, which achieved performance comparable to that of expert cardiologists. The proposed system therefore proves to be a suitable tool for supporting the early diagnosis of congenital heart diseases in neonates, that can enable rapid screening and proper referral of the patient to a paediatric cardiologist.
Le cardiopatie congenite (CHD) rappresentano il difetto congenito più diffuso a livello mondiale, con gravità variabile da forme lievi a quadri clinici che richiedono un intervento tempestivo. La diagnosi precoce, basata sull'auscultazione classica, risulta essere di fondamentale importanza, ma è tuttavia influenzata dalla soggettività dell'operatore. In questo lavoro è stato sviluppato un sistema di classificazione automatica dei suoni cardiaci neonatali basato sul Machine Learning, volto a supportare il medico di base nell'interpretazione oggettiva dei fonocardiogrammi (PCG). A seguito di un'analisi delle peculiarità del PCG neonatale, sono stati estratti due insiemi di feature: rapporti di potenza di banda nel dominio spettrale e coefficienti cepstrali di Mel frequency (MFCC) nel dominio cepstrale. Le feature sono state estratte prima dal segnale intero e poi da punti più critici del ciclo cardiaco. In particolare, i rapporti di potenza di banda sono stati calcolati su sotto-intervalli critici del ciclo S1-S1, suddiviso in sei parti di uguale durata; gli MFCC sono stati derivati direttamente dai segmenti S1-S1, senza ulteriore suddivisione, in quanto contengono già intrinsecamente l'informazione temporale, appartenendo al dominio tempo-frequenza. Prima di addestrare e valutare i classificatori, le variabili di ingresso sono state sottoposte a feature selection utilizzando regolarizzazione L1, analisi dei valori SHAP e matrici di correlazione, con l'obiettivo di ridurne la dimensionalità, la ridondanza e il contenuto di rumore. Sui vettori di feature estratti sono stati addestrati e testati tre modelli di classificazione: regressione logistica, Random Forest e XGBoost. I risultati sperimentali hanno evidenziato la superiorità del Random Forest, il quale ha raggiunto performance confrontabili con quelle di cardiologi esperti. Il sistema proposto dimostra dunque di essere un adeguato strumento di supporto alla diagnosi precoce delle cardiopatie congenite in ambito neonatale, che possa consentire un rapido screening e un corretto indirizzamento del paziente verso il cardiologo pediatra.
Sviluppo e validazione di un sistema di machine learning per la classificazione di segnali fonocardiografici neonatali
D'AVERSA, ANGELA
2024/2025
Abstract
Congenital heart diseases (CHDs) are the world's most widespread congenital defect, with severity ranging from mild forms to clinical conditions requiring prompt intervention. Early diagnosis, based on conventional auscultation, is of fundamental importance, but is nevertheless influenced by practitioner's subjective interpretation. In this work, an automatic classification system for neonatal heart sounds has been developed using Machine Learning, with the aim of assisting the primary care physician in the objective interpretation of phonocardiograms (PCGs). Following an analysis of the characteristics of neonatal PCGs, two feature sets have been extracted: spectral-domain Band Power Ratios (BPRs) and Mel-frequency Cepstral Coefficients (MFCCs) in the cepstral domain. Features were extracted first from the whole signal and then from the most critical points of the cardiac cycle. Specifically, BPRs were computed on critical subintervals of the S1-S1 cycle, divided into six parts of equal duration; MFCCs were derived directly from the S1-S1 segments without further subdivision, since they inherently encode temporal information, belonging to the time-frequency domain. Before training and evaluating the classifiers, the input variables were subjected to feature selection using L1 regularization, SHAP value analysis and correlation matrices, with the aim of reducing dimensionality, redundancy and noise. On the extracted feature vectors, three classifiers have been trained and tested: logistic regressor, Random Forest and XGBoost. Experimental results highlighted the superiority of the Random Forest, which achieved performance comparable to that of expert cardiologists. The proposed system therefore proves to be a suitable tool for supporting the early diagnosis of congenital heart diseases in neonates, that can enable rapid screening and proper referral of the patient to a paediatric cardiologist.File | Dimensione | Formato | |
---|---|---|---|
2025_07_D_Aversa_Tesi_01.pdf
non accessibile
Descrizione: testo tesi
Dimensione
26.36 MB
Formato
Adobe PDF
|
26.36 MB | Adobe PDF | Visualizza/Apri |
2025_07_D_Aversa_Executive_Summary_02.pdf
non accessibile
Descrizione: testo executive summary
Dimensione
786.12 kB
Formato
Adobe PDF
|
786.12 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/239868