Ventilatory disorders represent a high-priority group of diseases affecting the respiratory system of million people every year. Spirometry is currently considered the gold standard to evaluate lung function, even though it requires forced expiratory efforts from the patients, the guidance of an expert and its use is limited to the lung function laboratories. A valid alternative to spirometry is represented by the forced oscillation technique (FOT), which can be easily performed by people of every age and in different contexts as it just requires a small-amplitude and high-frequency pressure forcing superimposed to normal breathing to probe the mechanical response of the respiratory system. However, the presence of artefacts, such as leaks, glottic closures and tongue misplacements, can reduce the quality of the FOT measurements and the clinical relevance of the test. In the latest years, several solutions have been proposed to provide simpler and more accurate automated artefact detectors, but the current gold standard is still based on the time-laborious and operator-dependent visual inspection. The present study wants to improve the quality control of oscillating diagnostic tests by a machine learning approach. Particularly, several classifiers and feature selection algorithms are tested to identify the best combination of features and the best predictive strategy to detect artefacts in patients stimulated at both 8Hz and 5-11-19Hz frequencies. Training and test data have been collected on 185 subjects, 100 children from 3 to 17 years old and 85 adults, pre-recorded by the Restech S.r.l collaborating with clinical centres in Florence, Bergamo and Burlington. The 19762 total breaths have been manually evaluated by an expert to provide a gold standard of reference and, to describe the detected artefacts, 65 features have been extracted from 8Hz FOT data and 67 from 5-11-19Hz FOT data, regarding with respiratory impedance, volumetric and pressure parameters and proper indexes about the intra-breath variability. Models have been trained considering both the totality of the extracted features and four subgroups of the same, selecting the 10 best attributes with four different selection algorithms. The best classifiers of breaths are obtained when all the features are considered in the training and they are an AdaBoost trees for 8Hz data and a quadratic SVM model for 5-11-19Hz data. Both of them reached an overall accuracy of 88.6%, against the 82.3% and 79% reached by the existing device. The robustness of the models to the training approach has been evaluated by retraining them with a lower number of samples, providing performances similar to the first ones and highlighting the AdaBoost trees as the best candidate to unify the algorithms for both datasets. Moreover, considering the gold standard, the current FOT system and the models as three different methods of breath selection, the impedance parameters of each FOT test have been computed with respect to each selection and the obtained distributions have been compared each other with statistical tests. From the statistical results and, particularly, the histograms of the differences of gold standard-device and gold standard-models it has been seen a potential reduction of the errors larger than 0.5cmH2O/(L/s) in total and expiratory FOT parameters at 50% for 8Hz models and from 39% to 53% for 5-11-19Hz models, with respect to the existing device. Finally, a further validation on a second 5-11-19Hz FOT dataset provides a model accuracy lower than 70%, whereas the existing device reached a 92%, considering a second expert visual evaluation as gold standard. As the second dataset came from schools, probably introducing a wider variability of artefacts, the AdaBoost model has been retrained adding some of the new samples, resulting in a new algorithm accurate at 86% on the new dataset and 89% on the old dataset, proving the possibility to overcome the context variability whether it is properly considered in the problem task. Generally, the machine learning techniques have improved the performances of the current FOT device, they get closer to the current gold standard evaluation, they can potentially half the larger errors and adapt to different acquisition contexts.

I disturbi della ventilazione rappresentano un gruppo importante di patologie che colpiscono il sistema respiratorio di milioni di persone ogni anno. La spirometria, nonostante richieda sforzi espiratori notevoli da parte dei pazienti, l’assistenza guidata di un esperto e l’applicazione sia limitata ai laboratori di funzionalità respiratoria, è ancora considerata il gold standard per valutare la funzionalità polmonare. Un'alternativa valida è rappresentata dalla tecnica delle oscillazioni forzate (FOT), che può essere facilmente eseguita da persone di ogni età e in contesti diversi in quanto richiede solo una piccola pressione ad alta frequenza sovrapposta alla respirazione normale per sondare la risposta meccanica del sistema respiratorio. Tuttavia, la presenza di artefatti, come perdite, chiusure irregolari della glottide e posizioni innaturali della lingua, possono ridurre la qualità delle misurazioni FOT e la rilevanza clinica del test. Negli ultimi anni, sono state proposte diverse soluzioni che consentissero di realizzare un rilevatore di artefatti automatico e più accurato per rimuovere queste anomalie, ma l'attuale gold standard si basa ancora sull'ispezione visiva, che richiede un notevole consumo di tempo e coinvolge la variabilità del singolo operatore. Il presente studio si pone l’obiettivo migliorare il controllo di qualità dei test diagnostici FOT introducendo un approccio basato sul machine learning. Per fare questo, sono stati testati diversi classificatori e algoritmi di selezione delle features per identificare la migliore combinazione di attributi e la migliore strategia predittiva per rilevare artefatti su pazienti stimolati sia a 8 Hz che a 5, 11, 19 Hz. I dati di addestramento e test dei modelli sono raccolti su 185 soggetti, 100 di età compresa tra i 3 ai 17 anni e 85 pazienti adulti, pre-acquisiti Restech S.r.l in collaborazione con alcuni centri clinici di Firenze, Bergamo e Burlington. I 19762 respiri totali sono stati valutati manualmente da un esperto per fornire un gold standard di riferimento e sulla base degli artefatti rilevati sono state estratte 65 features per i dati 8Hz e 67 features per i dati a 5-11-19Hz, riguardanti parametri di impedenza respiratoria, volumetrici, pressori e opportuni indici di variabilità intrinseca dei singoli respiri. I modelli sono stati addestrati considerando sia la totalità delle features sia quattro diversi sottoinsiemi di dati composti dai primi 10 attributi scelti da quattro diversi metodi di feature selection. I migliori classificatori di respiri sono stati ottenuti considerando tutte le features estratte durante l’addestramento e sono risultati essere un modello AdaBoost trees per i dati a 8Hz e un modello SVM quadratico per dati 5-11-19Hz. Entrambi i modelli hanno raggiunto un’accuratezza complessiva dell'88,6%, contro l'82,3% e il 79% raggiunti dal sistema di acquisizione di riferimento. La robustezza dei modelli all'approccio di training è stata valutata riaddestrandoli con un minore numero di osservazioni, riscontrando performance simili alle prime e facendo emergere il modello AdaBoost trees come il miglior candidato per l’identificazione di un unico modello per entrambi i dataset. Inoltre, considerando il gold standard, l’attuale dispositivo e i modelli come tre diversi metodi di selezione dei respiri, sono stati calcolati i parametri di impedenza di ogni test FOT rispetto a ciascuna selezione dei respiri e le distribuzioni ottenute sono state confrontate mediante test statistici. Dagli esiti dei test statistici e, soprattutto, dagli istogrammi delle differenze di gold standard-dispositivo e gold standard-modelli è emersa una potenziale riduzione degli errori maggiori di 0.5cmH2O/(L/s) per i parametri FOT totali ed espiratori al 50% per i modelli 8Hz e dal 39% al 53% per i modelli 5-11-19Hz rispetto all’attuale sistema FOT. Infine, un'ulteriore validazione con nuovi dati 5-11-19Hz fornisce un’accuratezza del modello AdaBoost trees inferiore al 70%, mentre il sistema FOT ha raggiunto il 92%, considerando l’ispezione visiva di un secondo esperto come gold standard. Poiché il secondo set di dati proveniva dalle scuole, probabilmente introducendo una più ampia variabilità degli artefatti, il modello AdaBoost è stato addestrato nuovamente aggiungendo alcuni dei nuovi campioni, conseguendo un nuovo algoritmo accurato all'86% sul secondo set di dati e all'89% sul primo set di dati, dimostrando la possibilità di superare la variabilità del contesto se quest’ultimo è adeguatamente considerato nel task in analisi. In generale, si può dire che l’uso delle tecniche di machine learning può migliorare le performance dell’attuale sistema di acquisizione FOT, può avvicinarsi alla valutazione basata sull’attuale gold standard, può potenzialmente dimezzare gli errori commessi e può adattarsi a contesti di acquisizione differenti.

Improving quality control of oscillometric diagnostic tests by a machine learning approach

Acciarito, Andrea
2019/2020

Abstract

Ventilatory disorders represent a high-priority group of diseases affecting the respiratory system of million people every year. Spirometry is currently considered the gold standard to evaluate lung function, even though it requires forced expiratory efforts from the patients, the guidance of an expert and its use is limited to the lung function laboratories. A valid alternative to spirometry is represented by the forced oscillation technique (FOT), which can be easily performed by people of every age and in different contexts as it just requires a small-amplitude and high-frequency pressure forcing superimposed to normal breathing to probe the mechanical response of the respiratory system. However, the presence of artefacts, such as leaks, glottic closures and tongue misplacements, can reduce the quality of the FOT measurements and the clinical relevance of the test. In the latest years, several solutions have been proposed to provide simpler and more accurate automated artefact detectors, but the current gold standard is still based on the time-laborious and operator-dependent visual inspection. The present study wants to improve the quality control of oscillating diagnostic tests by a machine learning approach. Particularly, several classifiers and feature selection algorithms are tested to identify the best combination of features and the best predictive strategy to detect artefacts in patients stimulated at both 8Hz and 5-11-19Hz frequencies. Training and test data have been collected on 185 subjects, 100 children from 3 to 17 years old and 85 adults, pre-recorded by the Restech S.r.l collaborating with clinical centres in Florence, Bergamo and Burlington. The 19762 total breaths have been manually evaluated by an expert to provide a gold standard of reference and, to describe the detected artefacts, 65 features have been extracted from 8Hz FOT data and 67 from 5-11-19Hz FOT data, regarding with respiratory impedance, volumetric and pressure parameters and proper indexes about the intra-breath variability. Models have been trained considering both the totality of the extracted features and four subgroups of the same, selecting the 10 best attributes with four different selection algorithms. The best classifiers of breaths are obtained when all the features are considered in the training and they are an AdaBoost trees for 8Hz data and a quadratic SVM model for 5-11-19Hz data. Both of them reached an overall accuracy of 88.6%, against the 82.3% and 79% reached by the existing device. The robustness of the models to the training approach has been evaluated by retraining them with a lower number of samples, providing performances similar to the first ones and highlighting the AdaBoost trees as the best candidate to unify the algorithms for both datasets. Moreover, considering the gold standard, the current FOT system and the models as three different methods of breath selection, the impedance parameters of each FOT test have been computed with respect to each selection and the obtained distributions have been compared each other with statistical tests. From the statistical results and, particularly, the histograms of the differences of gold standard-device and gold standard-models it has been seen a potential reduction of the errors larger than 0.5cmH2O/(L/s) in total and expiratory FOT parameters at 50% for 8Hz models and from 39% to 53% for 5-11-19Hz models, with respect to the existing device. Finally, a further validation on a second 5-11-19Hz FOT dataset provides a model accuracy lower than 70%, whereas the existing device reached a 92%, considering a second expert visual evaluation as gold standard. As the second dataset came from schools, probably introducing a wider variability of artefacts, the AdaBoost model has been retrained adding some of the new samples, resulting in a new algorithm accurate at 86% on the new dataset and 89% on the old dataset, proving the possibility to overcome the context variability whether it is properly considered in the problem task. Generally, the machine learning techniques have improved the performances of the current FOT device, they get closer to the current gold standard evaluation, they can potentially half the larger errors and adapt to different acquisition contexts.
GOBBI, ALESSANDRO
POMPILIO, PASQUALE
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
I disturbi della ventilazione rappresentano un gruppo importante di patologie che colpiscono il sistema respiratorio di milioni di persone ogni anno. La spirometria, nonostante richieda sforzi espiratori notevoli da parte dei pazienti, l’assistenza guidata di un esperto e l’applicazione sia limitata ai laboratori di funzionalità respiratoria, è ancora considerata il gold standard per valutare la funzionalità polmonare. Un'alternativa valida è rappresentata dalla tecnica delle oscillazioni forzate (FOT), che può essere facilmente eseguita da persone di ogni età e in contesti diversi in quanto richiede solo una piccola pressione ad alta frequenza sovrapposta alla respirazione normale per sondare la risposta meccanica del sistema respiratorio. Tuttavia, la presenza di artefatti, come perdite, chiusure irregolari della glottide e posizioni innaturali della lingua, possono ridurre la qualità delle misurazioni FOT e la rilevanza clinica del test. Negli ultimi anni, sono state proposte diverse soluzioni che consentissero di realizzare un rilevatore di artefatti automatico e più accurato per rimuovere queste anomalie, ma l'attuale gold standard si basa ancora sull'ispezione visiva, che richiede un notevole consumo di tempo e coinvolge la variabilità del singolo operatore. Il presente studio si pone l’obiettivo migliorare il controllo di qualità dei test diagnostici FOT introducendo un approccio basato sul machine learning. Per fare questo, sono stati testati diversi classificatori e algoritmi di selezione delle features per identificare la migliore combinazione di attributi e la migliore strategia predittiva per rilevare artefatti su pazienti stimolati sia a 8 Hz che a 5, 11, 19 Hz. I dati di addestramento e test dei modelli sono raccolti su 185 soggetti, 100 di età compresa tra i 3 ai 17 anni e 85 pazienti adulti, pre-acquisiti Restech S.r.l in collaborazione con alcuni centri clinici di Firenze, Bergamo e Burlington. I 19762 respiri totali sono stati valutati manualmente da un esperto per fornire un gold standard di riferimento e sulla base degli artefatti rilevati sono state estratte 65 features per i dati 8Hz e 67 features per i dati a 5-11-19Hz, riguardanti parametri di impedenza respiratoria, volumetrici, pressori e opportuni indici di variabilità intrinseca dei singoli respiri. I modelli sono stati addestrati considerando sia la totalità delle features sia quattro diversi sottoinsiemi di dati composti dai primi 10 attributi scelti da quattro diversi metodi di feature selection. I migliori classificatori di respiri sono stati ottenuti considerando tutte le features estratte durante l’addestramento e sono risultati essere un modello AdaBoost trees per i dati a 8Hz e un modello SVM quadratico per dati 5-11-19Hz. Entrambi i modelli hanno raggiunto un’accuratezza complessiva dell'88,6%, contro l'82,3% e il 79% raggiunti dal sistema di acquisizione di riferimento. La robustezza dei modelli all'approccio di training è stata valutata riaddestrandoli con un minore numero di osservazioni, riscontrando performance simili alle prime e facendo emergere il modello AdaBoost trees come il miglior candidato per l’identificazione di un unico modello per entrambi i dataset. Inoltre, considerando il gold standard, l’attuale dispositivo e i modelli come tre diversi metodi di selezione dei respiri, sono stati calcolati i parametri di impedenza di ogni test FOT rispetto a ciascuna selezione dei respiri e le distribuzioni ottenute sono state confrontate mediante test statistici. Dagli esiti dei test statistici e, soprattutto, dagli istogrammi delle differenze di gold standard-dispositivo e gold standard-modelli è emersa una potenziale riduzione degli errori maggiori di 0.5cmH2O/(L/s) per i parametri FOT totali ed espiratori al 50% per i modelli 8Hz e dal 39% al 53% per i modelli 5-11-19Hz rispetto all’attuale sistema FOT. Infine, un'ulteriore validazione con nuovi dati 5-11-19Hz fornisce un’accuratezza del modello AdaBoost trees inferiore al 70%, mentre il sistema FOT ha raggiunto il 92%, considerando l’ispezione visiva di un secondo esperto come gold standard. Poiché il secondo set di dati proveniva dalle scuole, probabilmente introducendo una più ampia variabilità degli artefatti, il modello AdaBoost è stato addestrato nuovamente aggiungendo alcuni dei nuovi campioni, conseguendo un nuovo algoritmo accurato all'86% sul secondo set di dati e all'89% sul primo set di dati, dimostrando la possibilità di superare la variabilità del contesto se quest’ultimo è adeguatamente considerato nel task in analisi. In generale, si può dire che l’uso delle tecniche di machine learning può migliorare le performance dell’attuale sistema di acquisizione FOT, può avvicinarsi alla valutazione basata sull’attuale gold standard, può potenzialmente dimezzare gli errori commessi e può adattarsi a contesti di acquisizione differenti.
File allegati
File Dimensione Formato  
2020_12_Acciarito.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 7.32 MB
Formato Adobe PDF
7.32 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/171334