Chest X-Rays, due to their simplicity and non-invasive nature, are one of the most common tools used for the detection of many diseases. During the last years the scientific community published different datasets containing CXR images, along with side information related to the presence or absence of different pathologies. This work studies the problem of analyzing them, with the aim of building an automatic system able to check whether a patient suffer from a given disease or not. Moreover, it tries to overcome the so called black-box problem, an issue connected to many machine learning applications, related to the fact that they are able to provide a decision but they’re not capable of giving an explanation behind such decision. This work tries to solve it by producing, along with the prediction, a heatmap highlighting the region that most probably is affected by the disease and a bounding box surrounding it. In particular, in this work we investigate different approaches, ranging from Convolutional Neural Network, widely employed in other related works, to the less used Random Forest, trained using a low dimension representation of the input, the so called embeddings. We also propose a novel technique to combine different predictions, that exploit the uncertainty of the single model to assign it a proper weight during the aggregation phase. Although we weren’t able to surpass the performance of some related works, we obtained a mean AUROC of 0.902 over five different pathologies, showing that good results can be achieved also by models that are computationally more efficient and require much less time to be trained with respect to CNNs.

Le radiografie del torace, data la loro semplicità e natura non invasiva, sono uno degli strumenti più comunemente utilizzati per la rilevazione di molte malattie. Negli ultimi anni la comunità scientifica ha pubblicato diversi dataset contenenti radiografie toraciche, accompagnate da informazioni aggiuntive riguardo la presenza o l’assenza di diverse patologie. Questo lavoro si pone il problema di analizzarle, con l’obiettivo di costruire un sistema in grado di verificare automaticamente se un paziente soffra o meno di una determinata patologia. Inoltre, cerca di risolvere il cosiddetto problema della scatola nera, relativo a molte applicazioni di Machine Learning, legato al fatto che spesso queste ultime sono in grado di prendere una decisione ma non sono in grado di fornire una spiegazione riguardante i motivi che hanno guidato quella scelta. Questo lavoro cerca di risolvere questo problema, producendo, in aggiunta alla previsione, una mappa di calore che evidenzi la regione affetta dalla malattia, insieme ad un riquadro che la circondi. In particolare, in questo studio indaghiamo diversi approcci, partendo dalle reti neurali di convoluzione, ampiamente impiegate in altre opere correlate a questa, sino alle meno utilizzate Random Forests, addestrate utilizzando i cosiddetti embedding, una rappresentazione dell’input di dimensioni ridotte. Proponiamo inoltre una nuova tecnica per combinare le diverse previsioni, che sfrutta l’incertezza del singolo modello per assegnargli un peso adeguato durante la fase di aggregazione. Sebbene non siamo stati in grado di superare le prestazioni di alcuni lavori simili a questo, abbiamo ottenuto un AUROC medio di 0.902 calcolato su cinque diverse patologie, dimostrando che si possono ottenere buoni risultati anche con modelli che sono computazionalmente più efficienti e che richiedono molto meno tempo per essere addestrati rispetto alle reti neurali di convoluzione.

A machine learning approach for automatic disease detection in chest X-rays

NASSANO, LUCA
2018/2019

Abstract

Chest X-Rays, due to their simplicity and non-invasive nature, are one of the most common tools used for the detection of many diseases. During the last years the scientific community published different datasets containing CXR images, along with side information related to the presence or absence of different pathologies. This work studies the problem of analyzing them, with the aim of building an automatic system able to check whether a patient suffer from a given disease or not. Moreover, it tries to overcome the so called black-box problem, an issue connected to many machine learning applications, related to the fact that they are able to provide a decision but they’re not capable of giving an explanation behind such decision. This work tries to solve it by producing, along with the prediction, a heatmap highlighting the region that most probably is affected by the disease and a bounding box surrounding it. In particular, in this work we investigate different approaches, ranging from Convolutional Neural Network, widely employed in other related works, to the less used Random Forest, trained using a low dimension representation of the input, the so called embeddings. We also propose a novel technique to combine different predictions, that exploit the uncertainty of the single model to assign it a proper weight during the aggregation phase. Although we weren’t able to surpass the performance of some related works, we obtained a mean AUROC of 0.902 over five different pathologies, showing that good results can be achieved also by models that are computationally more efficient and require much less time to be trained with respect to CNNs.
GIACOMELLO, EDOARDO
LOIACONO, DANIELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Le radiografie del torace, data la loro semplicità e natura non invasiva, sono uno degli strumenti più comunemente utilizzati per la rilevazione di molte malattie. Negli ultimi anni la comunità scientifica ha pubblicato diversi dataset contenenti radiografie toraciche, accompagnate da informazioni aggiuntive riguardo la presenza o l’assenza di diverse patologie. Questo lavoro si pone il problema di analizzarle, con l’obiettivo di costruire un sistema in grado di verificare automaticamente se un paziente soffra o meno di una determinata patologia. Inoltre, cerca di risolvere il cosiddetto problema della scatola nera, relativo a molte applicazioni di Machine Learning, legato al fatto che spesso queste ultime sono in grado di prendere una decisione ma non sono in grado di fornire una spiegazione riguardante i motivi che hanno guidato quella scelta. Questo lavoro cerca di risolvere questo problema, producendo, in aggiunta alla previsione, una mappa di calore che evidenzi la regione affetta dalla malattia, insieme ad un riquadro che la circondi. In particolare, in questo studio indaghiamo diversi approcci, partendo dalle reti neurali di convoluzione, ampiamente impiegate in altre opere correlate a questa, sino alle meno utilizzate Random Forests, addestrate utilizzando i cosiddetti embedding, una rappresentazione dell’input di dimensioni ridotte. Proponiamo inoltre una nuova tecnica per combinare le diverse previsioni, che sfrutta l’incertezza del singolo modello per assegnargli un peso adeguato durante la fase di aggregazione. Sebbene non siamo stati in grado di superare le prestazioni di alcuni lavori simili a questo, abbiamo ottenuto un AUROC medio di 0.902 calcolato su cinque diverse patologie, dimostrando che si possono ottenere buoni risultati anche con modelli che sono computazionalmente più efficienti e che richiedono molto meno tempo per essere addestrati rispetto alle reti neurali di convoluzione.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della Tesi
Dimensione 6.56 MB
Formato Adobe PDF
6.56 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154466