Colorectal cancer (CRC) is one of the most frequent cancers worldwide, accounting for 1.8 million diagnoses and over 880,000 deaths in 2018. Because to advancements in prevention, diagnosis, and screening, the mortality rate associated with this condition has decreased dramatically, falling by 53% in men and 57% in women in 2017 [1]. Among the different investigation procedures employed, colonoscopy is undoubtedly one of the most common, as well as the natural follow-up in cases of earlier screening positivity [2]. Colonoscopy uses an endoscope (colonoscope) to provide the doctor with an image of the colon or rectum tissues on which the specialist must visually identify any lesions [3]. The ability to identify adenomas and polyps is therefore closely related to the doctor's experience as well as to his level of attention during the execution of the examination. These circumstances have prompted research towards the development of CAD (Computer Aided Diagnosis) systems capable of processing the digital images produced by the endoscope and supporting the doctor in clinical decisions [4], thus reducing the probability of errors. A lot of the CAD systems proposed in the literature mostly leverage machine learning techniques such as convolutional neural networks (CNN) [5,6], which are deep learning models inspired by the visual cortex and used as feature extractors for tumor classification, localization, and segmentation [7]. One of the most difficult aspects of developing these models is associated with their size in terms of trainable parameters, which necessitates symmetrically large datasets containing hundreds of thousands of images, each of which must be accompanied by both its class (lesion vs non-lesion) and the coordinates of the region in which the tumor is located (bounding box) [8]. This type of dataset requires a significant amount of effort to develop because the labels and coordinates must be identified by the expert opinion. The aim of this work is to use classification models to gather information about tumor location without using coordinates during the training phase. To achieve this outcome, the explainable AI (Artificial Intelligence) technique "GradCAM" is used, which allows the network to extract the regions of the image on which it bases its predictions in a weakly supervised training manner. Three prominent classification models (VGG16, ResNet50, and EfficientNET B0) has been trained on a subset of colonoscopic images collected from public datasets (SUN [9], HyperKvasir Seg [10]) using the transfer learning technique. GradCAM has been used to obtain the activation map for each image after the training and classification results evaluation. The bounding boxes has been constructed, after the map had been interpolated, by thresholding it. Finally, to stabilize the bounding boxes presented on the screen and leverage the temporal correlation of the frames, a moving average technique based on the Structural Similarity Index Measure (SSIM) has been applied to the video frames. The results obtained shown that, despite a minor performance loss, this strategy can achieve similar outcomes to models currently defined as the gold standard in localization, such as Faster RCNN trained using a classic supervised approach.

Il carcinoma del colon retto (CRC) è uno dei tumori più diffusi al mondo, con 1,8 milioni di casi e più di 880.000 morti solamente nel 2018. Grazie ai miglioramenti nella prevenzione, diagnosi e screening la mortalità associata a questa patologia è scesa drasticamente: del 53% negli uomini e 57% nelle donne nel 2017 [1]. Tra le varie tecniche di indagine usate, la colonscopia è sicuramente una delle più diffuse oltre che ad essere il naturale follow-up in caso di positività a screening precedenti [2]. La colonscopia sfrutta un endoscopio (colonoscopio) per poter fornire al medico l’immagine dei tessuti di colon e retto sulle quali lo specialista sarà quindi tenuto a identificare visivamente eventuali lesioni [3]. La capacità di identificazione di adenomi e polipi è quindi strettamente correlata all’esperienza del medico nonché al suo livello di concentrazione durante l’esecuzione dell’esame. Queste circostanze hanno spinto la ricerca verso lo sviluppo di sistemi CAD (Computer Aided Diagnosis) in grado di elaborare le immagini digitali prodotte dall’endoscopio [4] e supportare il medico nelle decisioni cliniche riducendo quindi la probabilità di errori. I sistemi CAD proposti in letteratura sfruttano principalmente tecniche di machine learning come le reti neurali convoluzionali (CNN) [5,6], ossia modelli di deep learning ispirati alla corteccia visiva ed impiegati come estrattori di features per la classificazione, localizzazione e segmentazione di eventuali lesioni tumorali. Uno dei principali problemi nella creazione di questi modelli è legato alla loro dimensione in termini di parametri allenabili che richiedono in modo simmetrico grandi dataset con centinaia di migliaia di immagini che devono essere accompagnate sia dalla loro classe di appartenenza (lesione oppure non lesione) che dalle coordinate della regione nella quale si trova il tumore (bounding box) [8]. Dataset di questo tipo richiedono lo sforzo congiunto da parte di svariati specialisti che dovranno determinare le annotazioni per ciascuna immagine in essi contenuta. L’obbiettivo di questo lavoro è stato quindi quello di usare modelli di classificazione per ottenere informazioni relative alla localizzazione dei tumori senza l’ausilio delle coordinate durante la fase di allenamento. Per ottenere questo risultato è stata sfruttata la tecnica di explainable AI (Artificial Intelligence) nota come GradCAM, che consente di estrarre le regioni dell’immagine sulle quali la rete basa la sua decisione in un approccio di training definito debolmente supervisionato. Tre diffusi modelli di classificazione (VGG16, ResNet50, EfficientNETB0) sono stati allenati mediante la tecnica di “transfer learning” su un sottogruppo di immagini colonoscopiche estratte da dataset pubblici (SUN [9], HyperKvasir Seg [10]). Una volta concluso il training e valutate le perfromance di classificazione, per ciascuna immagine è stata estratta la mappa di attivazione mediante GradCAM. Una volta interpolata, le bounding box sono state generate attraverso il processo di sogliatura della mappa stessa. Infine un algoritmo a media mobile basato sul Structural Similarity Index Measure (SSIM) è stato applicato ai frame dei video in modo da poter stabilizzare le bounding box visualizzate a schermo e sfruttare la correlazione temporale tra frames. I risultati hanno mostrato come questo approccio sia in grado (a fronte di una piccola perdita di performance) di ottenere risultati comparabili con modelli ritenuti ad oggi gold standard nella localizzazione come Faster RCNN, allenati usando un approccio supervisionato tradizionale.

Weakly supervised polyp detection using gradients activation maps

KASSEM, KARIM
2022/2023

Abstract

Colorectal cancer (CRC) is one of the most frequent cancers worldwide, accounting for 1.8 million diagnoses and over 880,000 deaths in 2018. Because to advancements in prevention, diagnosis, and screening, the mortality rate associated with this condition has decreased dramatically, falling by 53% in men and 57% in women in 2017 [1]. Among the different investigation procedures employed, colonoscopy is undoubtedly one of the most common, as well as the natural follow-up in cases of earlier screening positivity [2]. Colonoscopy uses an endoscope (colonoscope) to provide the doctor with an image of the colon or rectum tissues on which the specialist must visually identify any lesions [3]. The ability to identify adenomas and polyps is therefore closely related to the doctor's experience as well as to his level of attention during the execution of the examination. These circumstances have prompted research towards the development of CAD (Computer Aided Diagnosis) systems capable of processing the digital images produced by the endoscope and supporting the doctor in clinical decisions [4], thus reducing the probability of errors. A lot of the CAD systems proposed in the literature mostly leverage machine learning techniques such as convolutional neural networks (CNN) [5,6], which are deep learning models inspired by the visual cortex and used as feature extractors for tumor classification, localization, and segmentation [7]. One of the most difficult aspects of developing these models is associated with their size in terms of trainable parameters, which necessitates symmetrically large datasets containing hundreds of thousands of images, each of which must be accompanied by both its class (lesion vs non-lesion) and the coordinates of the region in which the tumor is located (bounding box) [8]. This type of dataset requires a significant amount of effort to develop because the labels and coordinates must be identified by the expert opinion. The aim of this work is to use classification models to gather information about tumor location without using coordinates during the training phase. To achieve this outcome, the explainable AI (Artificial Intelligence) technique "GradCAM" is used, which allows the network to extract the regions of the image on which it bases its predictions in a weakly supervised training manner. Three prominent classification models (VGG16, ResNet50, and EfficientNET B0) has been trained on a subset of colonoscopic images collected from public datasets (SUN [9], HyperKvasir Seg [10]) using the transfer learning technique. GradCAM has been used to obtain the activation map for each image after the training and classification results evaluation. The bounding boxes has been constructed, after the map had been interpolated, by thresholding it. Finally, to stabilize the bounding boxes presented on the screen and leverage the temporal correlation of the frames, a moving average technique based on the Structural Similarity Index Measure (SSIM) has been applied to the video frames. The results obtained shown that, despite a minor performance loss, this strategy can achieve similar outcomes to models currently defined as the gold standard in localization, such as Faster RCNN trained using a classic supervised approach.
CASELLA, ALESSANDRO
LAZO SANCHEZ, JORGE FRANCISCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
Il carcinoma del colon retto (CRC) è uno dei tumori più diffusi al mondo, con 1,8 milioni di casi e più di 880.000 morti solamente nel 2018. Grazie ai miglioramenti nella prevenzione, diagnosi e screening la mortalità associata a questa patologia è scesa drasticamente: del 53% negli uomini e 57% nelle donne nel 2017 [1]. Tra le varie tecniche di indagine usate, la colonscopia è sicuramente una delle più diffuse oltre che ad essere il naturale follow-up in caso di positività a screening precedenti [2]. La colonscopia sfrutta un endoscopio (colonoscopio) per poter fornire al medico l’immagine dei tessuti di colon e retto sulle quali lo specialista sarà quindi tenuto a identificare visivamente eventuali lesioni [3]. La capacità di identificazione di adenomi e polipi è quindi strettamente correlata all’esperienza del medico nonché al suo livello di concentrazione durante l’esecuzione dell’esame. Queste circostanze hanno spinto la ricerca verso lo sviluppo di sistemi CAD (Computer Aided Diagnosis) in grado di elaborare le immagini digitali prodotte dall’endoscopio [4] e supportare il medico nelle decisioni cliniche riducendo quindi la probabilità di errori. I sistemi CAD proposti in letteratura sfruttano principalmente tecniche di machine learning come le reti neurali convoluzionali (CNN) [5,6], ossia modelli di deep learning ispirati alla corteccia visiva ed impiegati come estrattori di features per la classificazione, localizzazione e segmentazione di eventuali lesioni tumorali. Uno dei principali problemi nella creazione di questi modelli è legato alla loro dimensione in termini di parametri allenabili che richiedono in modo simmetrico grandi dataset con centinaia di migliaia di immagini che devono essere accompagnate sia dalla loro classe di appartenenza (lesione oppure non lesione) che dalle coordinate della regione nella quale si trova il tumore (bounding box) [8]. Dataset di questo tipo richiedono lo sforzo congiunto da parte di svariati specialisti che dovranno determinare le annotazioni per ciascuna immagine in essi contenuta. L’obbiettivo di questo lavoro è stato quindi quello di usare modelli di classificazione per ottenere informazioni relative alla localizzazione dei tumori senza l’ausilio delle coordinate durante la fase di allenamento. Per ottenere questo risultato è stata sfruttata la tecnica di explainable AI (Artificial Intelligence) nota come GradCAM, che consente di estrarre le regioni dell’immagine sulle quali la rete basa la sua decisione in un approccio di training definito debolmente supervisionato. Tre diffusi modelli di classificazione (VGG16, ResNet50, EfficientNETB0) sono stati allenati mediante la tecnica di “transfer learning” su un sottogruppo di immagini colonoscopiche estratte da dataset pubblici (SUN [9], HyperKvasir Seg [10]). Una volta concluso il training e valutate le perfromance di classificazione, per ciascuna immagine è stata estratta la mappa di attivazione mediante GradCAM. Una volta interpolata, le bounding box sono state generate attraverso il processo di sogliatura della mappa stessa. Infine un algoritmo a media mobile basato sul Structural Similarity Index Measure (SSIM) è stato applicato ai frame dei video in modo da poter stabilizzare le bounding box visualizzate a schermo e sfruttare la correlazione temporale tra frames. I risultati hanno mostrato come questo approccio sia in grado (a fronte di una piccola perdita di performance) di ottenere risultati comparabili con modelli ritenuti ad oggi gold standard nella localizzazione come Faster RCNN, allenati usando un approccio supervisionato tradizionale.
File allegati
File Dimensione Formato  
2023_07_Karim_Kassem_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 11.64 MB
Formato Adobe PDF
11.64 MB Adobe PDF Visualizza/Apri
2023_07_Karim_Kassem.pdf

accessibile in internet per tutti

Descrizione: Master Thesis
Dimensione 77.47 MB
Formato Adobe PDF
77.47 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208848