Cardiovascular disease is a major cause of death in women. Up to 20% of all cardiovascular events in women occur without the attendance of conventional risk factors, highlighting a lack in currently cardiovascular risk stratification methods. Breast Arterial Calcifications (BACs), detected on mammograms for breast cancer screening, though extraneous to this primary aim, have attracted the attention of researchers involved in cardiovascular disease prevention. BACs have been suggested as a “potential women-specific cardiovascular risk marker” providing the possibility of transforming the already widespread breast cancer screening program into a double test. The major obstacles to this goal, however, is the lack of a robust method to quantify BACs in mammograms for cardiovascular risk quantification and also adequate automatic support to the further workload asked to radiologists. In this thesis work, we tackled the latter issue and implemented a deep learning model capable of classifying full breast images according to BACs presence (〖BACs〗^+) or absence (〖BACs〗^-). We developed a 16-layer convolutional neural network (CNN) using a transfer learning approach. We selected one of the most famous CNN classifiers trained on low resolution natural images, VGG16 net, and customized it in order to classify high-resolution mammograms. We maintained the structure and filters of the original convolutional base and replaced the fully connected part with three new fully connected layers. We selected the optimal number of hidden units of the fully connected layers and the number of convolutional layers to fine-tune. This structure and the relevant hyperparameters were optimized to learn the high-level task-related features while avoiding overfitting. Then, we trained from scratches the fully connected layers, composed by 256, 256 and 1 neurons each, and fine-tuned the last five convolutional layers. To account for class imbalance in the dataset (〖BACs〗^+prevalence of 10%), we randomly down sampled the majority 〖BACs〗^- class until reaching a prevalence of 30%. In addition, a weighted training approach was used. Data-augmentation was carried out avoid overfitting and also the training epochs were stopped as soon as the validation loss function reached its minimum. We evaluated the resulting architecture and learning strategy performing a 7-fold cross validation using precision, recall, and F1 score as performance metrics. The models showed good performance in terms of precision (range = [0.842-0.950], mean = 0.864 and SD = 0.040) while showing lower recall values (range = [0.433 -0.772], mean = 0.667, SD = 0.132), resulting in a F1 score ranging from 0.653 to 0.840 with mean and standard deviation values equal to 0.744 ± 0.094. The observation of saliency maps proved the reliability of BAC detection highlighting the ROI of the single BAC or of the most evident BAC of several ones. This allowed us to ascertain the feasibility of transforming global information, such as an image-level annotation, into a local one. Hence, we foresee that the CNN will support the radiologist both by sorting out the few 〖BACs〗^+cases and indicating the ROI or ROIs to be closely examined for a future BACs ranking. Further investigations are needed in order to reduce the number of false negatives before testing the BACs classifier performance on a new independent testing dataset. Despite the obvious need to further improve the model, the results are encouraging and legitimate future studies on the potential role of deep learning automatic BACs detection in the prevention of cardiovascular disease in women.

Le malattie cardiovascolari sono una delle principali cause di morte nelle donne. Fino al 20% di tutti gli eventi cardiovascolari nelle donne si verificano senza che si presentino i principali fattori di rischio cardiovascolare convenzionali, evidenziando una mancanza negli attuali metodi di stratificazione di rischio cardiovascolare. Le calcificazioni arteriose del seno (BAC), rilevabili in mammografia e considerate irrilevanti per la diagnosi del carcinoma mammario, hanno attirato l’attenzione dei ricercatori coinvolti nella prevenzione delle malattie cardiovascolari. È stato proposto di utilizzare le BAC come marker sesso-specifico del rischio cardiovascolare e di trasformare il già largamente diffuso programma di screening del cancro al seno in un doppio test. L’ostacolo maggiore al raggiungimento di questo obiettivo è l’attuale mancanza di un metodo robusto in grado di quantificare le BAC presenti nelle mammografie, indispensabile per stratificare le donne in livelli di rischio cardiovascolare. In questo lavoro di tesi, abbiamo intrapreso il primo passo verso un metodo accurato di quantificazione delle BAC presenti in mammografia. A tal fine, utilizzando il deep learning, abbiamo implementato un modello capace di classificare l’intera immagine mammografica in base alla presenzaassenza di BAC al suo interno. Abbiamo sviluppato una rete neurale convoluzionale a 16 strati usando un approccio basato sul transfer learning. Abbiamo selezionato uno dei più famosi classificatori di immagini naturali a bassa risoluzione, la rete VGG16, e l’abbiamo adattato ottenendo un classificatore di immagini mammografiche ad alta risoluzione. Abbiamo mantenuto la struttura ed i filtri della base convoluzionale originale ed abbiamo sostituito la parte fully connected con tre nuovi strati. Abbiamo selezionato il numero ottimale di hidden units degli strati fully connected ed il numero di strati convoluzionali da allenare, in modo da consentire al modello di apprendere features di altro livello legate al task, cercando di evitare al tempo stesso il verificarsi di overfitting. Gli strati fully connected sono stati allenati da zero ed abbiamo riallenato, inizializzandoli con i valori della VGG16 originale, i pesi degli ultimi cinque strati convoluzionali. Per tenere conto dello sbilanciamento delle classi all’interno del database, abbiamo sottocampionato la classe più presente rimuovendo immagini senza BAC fino a raggiungere una prevalenza ad immagine della classe positiva pari al 30%. Inoltre, durante l’allenamento dei pesi, abbiamo utilizzato un approccio pesato. Per evitare il verificarsi di overfitting, durante l’allenamento della rete, abbiamo applicato una data-augmentation online ed abbiamo interrotto il processo d’apprendimento quando la funzione di costo dei dati di validazione ha raggiunto il suo minimo. Abbiamo valutato l’architettura risultante e la strategia d’apprendimento messa a punto, mediante una 7-fold cross validation, usando precision, recall e F1 score come metriche di valutazione. I modelli hanno mostrato buone prestazioni in termini di precisione (range = [0.842-0.950], media = 0.864 and deviazione standard = 0.040) mentre hanno ottenuto valori più bassi per quanto riguarda il recall (range = [0.433 -0.772], media = 0.667, deviazione standard = 0.132), risultando in valori di F1 score compresi fra 0.653 e 0.840 con media e deviazione standard pari a 0.744 ± 0.094. L’osservazione delle saliency map ci ha dato modo di constatare l’affidabilità delle predizioni, evidenziando i pixel appartenenti alle BAC nel caso di mammella con arterie calcificate classificata correttamente. Questo ci ha permesso di accertare l’effettiva fattibilità, usando il deep learning e le reti neurali convoluzionali, di trasformare un’informazione globale come un’annotazione a livello di immagine, in un’informazione locale, consentendo la localizzazione delle BAC nell’area della mammella. Sono necessarie ulteriori indagini al fine di ridurre il numero di falsi negativi prima di testare le prestazioni del classificatore su un nuovo seti di dati di testing indipendenti. Nonostante l’evidente necessità di migliorare il modello, i risultati sono incoraggianti e legittimano studi futuri sul potenziale ruolo del deep learning per la detection automatica delle BAC da applicare per la prevenzione delle malattie cardiovascolari nelle donne.

Breast arterial calcifications on mammograms : deep learning detection for women's cardiovascular risk stratification

IENCO, MARIA GIOVANNA
2019/2020

Abstract

Cardiovascular disease is a major cause of death in women. Up to 20% of all cardiovascular events in women occur without the attendance of conventional risk factors, highlighting a lack in currently cardiovascular risk stratification methods. Breast Arterial Calcifications (BACs), detected on mammograms for breast cancer screening, though extraneous to this primary aim, have attracted the attention of researchers involved in cardiovascular disease prevention. BACs have been suggested as a “potential women-specific cardiovascular risk marker” providing the possibility of transforming the already widespread breast cancer screening program into a double test. The major obstacles to this goal, however, is the lack of a robust method to quantify BACs in mammograms for cardiovascular risk quantification and also adequate automatic support to the further workload asked to radiologists. In this thesis work, we tackled the latter issue and implemented a deep learning model capable of classifying full breast images according to BACs presence (〖BACs〗^+) or absence (〖BACs〗^-). We developed a 16-layer convolutional neural network (CNN) using a transfer learning approach. We selected one of the most famous CNN classifiers trained on low resolution natural images, VGG16 net, and customized it in order to classify high-resolution mammograms. We maintained the structure and filters of the original convolutional base and replaced the fully connected part with three new fully connected layers. We selected the optimal number of hidden units of the fully connected layers and the number of convolutional layers to fine-tune. This structure and the relevant hyperparameters were optimized to learn the high-level task-related features while avoiding overfitting. Then, we trained from scratches the fully connected layers, composed by 256, 256 and 1 neurons each, and fine-tuned the last five convolutional layers. To account for class imbalance in the dataset (〖BACs〗^+prevalence of 10%), we randomly down sampled the majority 〖BACs〗^- class until reaching a prevalence of 30%. In addition, a weighted training approach was used. Data-augmentation was carried out avoid overfitting and also the training epochs were stopped as soon as the validation loss function reached its minimum. We evaluated the resulting architecture and learning strategy performing a 7-fold cross validation using precision, recall, and F1 score as performance metrics. The models showed good performance in terms of precision (range = [0.842-0.950], mean = 0.864 and SD = 0.040) while showing lower recall values (range = [0.433 -0.772], mean = 0.667, SD = 0.132), resulting in a F1 score ranging from 0.653 to 0.840 with mean and standard deviation values equal to 0.744 ± 0.094. The observation of saliency maps proved the reliability of BAC detection highlighting the ROI of the single BAC or of the most evident BAC of several ones. This allowed us to ascertain the feasibility of transforming global information, such as an image-level annotation, into a local one. Hence, we foresee that the CNN will support the radiologist both by sorting out the few 〖BACs〗^+cases and indicating the ROI or ROIs to be closely examined for a future BACs ranking. Further investigations are needed in order to reduce the number of false negatives before testing the BACs classifier performance on a new independent testing dataset. Despite the obvious need to further improve the model, the results are encouraging and legitimate future studies on the potential role of deep learning automatic BACs detection in the prevention of cardiovascular disease in women.
CODARI, MARINA
SARDANELLI, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Le malattie cardiovascolari sono una delle principali cause di morte nelle donne. Fino al 20% di tutti gli eventi cardiovascolari nelle donne si verificano senza che si presentino i principali fattori di rischio cardiovascolare convenzionali, evidenziando una mancanza negli attuali metodi di stratificazione di rischio cardiovascolare. Le calcificazioni arteriose del seno (BAC), rilevabili in mammografia e considerate irrilevanti per la diagnosi del carcinoma mammario, hanno attirato l’attenzione dei ricercatori coinvolti nella prevenzione delle malattie cardiovascolari. È stato proposto di utilizzare le BAC come marker sesso-specifico del rischio cardiovascolare e di trasformare il già largamente diffuso programma di screening del cancro al seno in un doppio test. L’ostacolo maggiore al raggiungimento di questo obiettivo è l’attuale mancanza di un metodo robusto in grado di quantificare le BAC presenti nelle mammografie, indispensabile per stratificare le donne in livelli di rischio cardiovascolare. In questo lavoro di tesi, abbiamo intrapreso il primo passo verso un metodo accurato di quantificazione delle BAC presenti in mammografia. A tal fine, utilizzando il deep learning, abbiamo implementato un modello capace di classificare l’intera immagine mammografica in base alla presenzaassenza di BAC al suo interno. Abbiamo sviluppato una rete neurale convoluzionale a 16 strati usando un approccio basato sul transfer learning. Abbiamo selezionato uno dei più famosi classificatori di immagini naturali a bassa risoluzione, la rete VGG16, e l’abbiamo adattato ottenendo un classificatore di immagini mammografiche ad alta risoluzione. Abbiamo mantenuto la struttura ed i filtri della base convoluzionale originale ed abbiamo sostituito la parte fully connected con tre nuovi strati. Abbiamo selezionato il numero ottimale di hidden units degli strati fully connected ed il numero di strati convoluzionali da allenare, in modo da consentire al modello di apprendere features di altro livello legate al task, cercando di evitare al tempo stesso il verificarsi di overfitting. Gli strati fully connected sono stati allenati da zero ed abbiamo riallenato, inizializzandoli con i valori della VGG16 originale, i pesi degli ultimi cinque strati convoluzionali. Per tenere conto dello sbilanciamento delle classi all’interno del database, abbiamo sottocampionato la classe più presente rimuovendo immagini senza BAC fino a raggiungere una prevalenza ad immagine della classe positiva pari al 30%. Inoltre, durante l’allenamento dei pesi, abbiamo utilizzato un approccio pesato. Per evitare il verificarsi di overfitting, durante l’allenamento della rete, abbiamo applicato una data-augmentation online ed abbiamo interrotto il processo d’apprendimento quando la funzione di costo dei dati di validazione ha raggiunto il suo minimo. Abbiamo valutato l’architettura risultante e la strategia d’apprendimento messa a punto, mediante una 7-fold cross validation, usando precision, recall e F1 score come metriche di valutazione. I modelli hanno mostrato buone prestazioni in termini di precisione (range = [0.842-0.950], media = 0.864 and deviazione standard = 0.040) mentre hanno ottenuto valori più bassi per quanto riguarda il recall (range = [0.433 -0.772], media = 0.667, deviazione standard = 0.132), risultando in valori di F1 score compresi fra 0.653 e 0.840 con media e deviazione standard pari a 0.744 ± 0.094. L’osservazione delle saliency map ci ha dato modo di constatare l’affidabilità delle predizioni, evidenziando i pixel appartenenti alle BAC nel caso di mammella con arterie calcificate classificata correttamente. Questo ci ha permesso di accertare l’effettiva fattibilità, usando il deep learning e le reti neurali convoluzionali, di trasformare un’informazione globale come un’annotazione a livello di immagine, in un’informazione locale, consentendo la localizzazione delle BAC nell’area della mammella. Sono necessarie ulteriori indagini al fine di ridurre il numero di falsi negativi prima di testare le prestazioni del classificatore su un nuovo seti di dati di testing indipendenti. Nonostante l’evidente necessità di migliorare il modello, i risultati sono incoraggianti e legittimano studi futuri sul potenziale ruolo del deep learning per la detection automatica delle BAC da applicare per la prevenzione delle malattie cardiovascolari nelle donne.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
IencoMariaGiovanna_29Aprile_2020.pdf

accessibile in internet per tutti

Dimensione 2.83 MB
Formato Adobe PDF
2.83 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154343