Endoscopy is a minimally invasive procedure used for the detection, diagnosis, and treatment of diseases in hollow organs such as the bladder, the colon the esophagus, etc. In the specific case of the urinary system, it consists of the passage of a ureteroscope through the urethra and bladder, and in case of being necessary, up to the ureter and the kidneys. The visual information obtained from the endoscopic camera helps clinicians with two main tasks: navigation and diagnosis. In recent years, with the rapid development and success of Deep Learning (DL)-based computer vision systems in other vision tasks, the endoscopic imaging community has been focusing on the development of DL methods that could handle, the specific conditions of the endoscopic scenarios. However, this implies different technical obstacles that hinder its translation to clinical practice. The development of a robust and reliable endoscopic vision system is not a trivial task considering the specific challenges of endoscopic data such as the low quality of images, high levels of noise, the appearance of image artifacts, blood and debris floating around occluding the field of view, the inter- and intra-patient tissue variability, among others. It is also important to take into account that different imaging modalities such as Narrow Band Imaging (NBI), and White Light Imaging (WLI) are used since they provide different visual information to surgeons, and the labeled data on either image domain is limited or in many cases, or not available at all. In this regard, the goal of this Ph.D. project is the development of computer vision systems suitable to be used in endoscopic urology with a focus on the two main purposes for which endoscopic information is used during this procedure: visual information useful for navigation and tissue information necessary for diagnosis. In particular, the contributions of this Ph.D. work can be summarized as: 1. A new method for bladder tissue classification with a focus on bladder cancer identification, in scenarios where labeled data is limited to only one domain of the two which are usually used in the procedure (NBI and WLI), and there is no identical equivalent pairs for every image on each domain. The method makes use of a semi-surprised Generative Adversarial Network (GAN)-based method composed of three main components: a teacher network trained on the labeled WLI data; a cycle-consistency GAN to perform unpaired image-to-image translation, and a multi-input student network. The overall average classification accuracy, precision, and recall obtained with the proposed method for tissue classification are 0.90, 0.88, and 0.89 respectively, while the same metrics obtained in the unlabeled domain (NBI) are 0.92, 0.64, and 0.94 respectively The quality of the synthetically generated images is good enough to deceive specialists. 2. A lumen segmentation based on the use of spatial-temporal ensembles. The proposed method is based on an ensemble of 4 parallel CNNs to simultaneously process single and multi-frame information. The proposed method was evaluated using a custom dataset obtaining a Dice similarity coefficient of 0.80, outperforming previous state-of-the-art methods. The obtained results show that spatial-temporal information can be effectively exploited by the ensemble model to improve hollow lumen segmentation in ureteroscopic images. Furthermore, we show that method was effective also in presence of poor visibility conditions, caused by sporadic bleeding, or specular reflections. 3. The integration of the lumen segmentation method in a flexible robot for the task of autonomous intraluminal navigation. A synergic solution for intraluminal navigation was proposed. It consisted of a 3D-printed endoscopic soft robot and a visual servoing control method based on a lighter version of the segmentation previously proposed. The implementation was carried out with a focus on performing autonomous intraluminal navigation in narrow luminal structures. The proposed robot is validated in anatomical phantoms in different path configurations. We analyze the movement of the robot using different metrics. We show that our method is suitable to navigate safely in hollow environments and conditions which are different than the ones the network was originally trained on. The methodologies presented in this thesis work highlight the potential of using diverse DL-based computer vision methods to support not only surgeons but also robotic devices during minimally invasive procedures during diagnostical and interventional medical procedures. Additionally, we will also release the datasets collected during the development of this thesis work.

L'endoscopia è una procedura minimamente invasiva utilizzata per l'individuazione, la diagnosi e il trattamento di malattie in organi cavi come la vescica, il colon, l'esofago, ecc. Nel caso specifico del sistema urinario, consiste nel passaggio di un ureteroscopio attraverso l'uretra e la vescica e, se necessario, fino all'uretere e ai reni. Le informazioni visive ottenute dalla telecamera endoscopica aiutano i medici in due compiti principali: la navigazione e la diagnosi. Negli ultimi anni, con il rapido sviluppo e il successo dei sistemi di visione artificiale basati sul Deep Learning (DL) in altri compiti di visione, la comunità dell'imaging endoscopico si è concentrata sullo sviluppo di metodi DL in grado di gestire le condizioni specifiche degli scenari endoscopici. Tuttavia, ciò implica diversi ostacoli tecnici che ne impediscono la traduzione nella pratica clinica. Lo sviluppo di un sistema di visione endoscopico robusto e affidabile non è un compito banale, considerando le sfide specifiche dei dati endoscopici, come la bassa qualità delle immagini, gli alti livelli di rumore, la comparsa di artefatti dell'immagine, il sangue e i detriti che fluttuano occludendo il campo visivo, la variabilità tissutale inter- e intra-paziente, tra gli altri. È inoltre importante tenere conto del fatto che vengono utilizzate diverse modalità di imaging, come l'imaging a banda stretta (NBI) e l'imaging a luce bianca (WLI), che forniscono informazioni visive diverse al chirurgo, e che i dati etichettati su entrambi i domini di immagine sono limitati o, in molti casi, non disponibili affatto. A questo proposito, l'obiettivo di questo progetto di dottorato è lo sviluppo di sistemi di visione computerizzata adatti a essere utilizzati in urologia endoscopica, con particolare attenzione ai due scopi principali per i quali le informazioni endoscopiche vengono utilizzate durante questa procedura: informazioni visive utili per la navigazione e informazioni sui tessuti necessarie per la diagnosi. In particolare, i contributi di questo lavoro di dottorato possono essere riassunti come segue: 1. Un nuovo metodo per la classificazione del tessuto vescicale, con particolare attenzione all'identificazione del cancro alla vescica, in scenari in cui i dati etichettati sono limitati a un solo dominio dei due solitamente utilizzati nella procedura (NBI e WLI) e non esistono coppie equivalenti identiche per ogni immagine in ciascun dominio. Il metodo si avvale di una rete generativa avversaria (GAN) semi-sorvegliata, composta da tre componenti principali: una rete insegnante addestrata sui dati WLI etichettati; una GAN a coerenza ciclica per eseguire la traduzione da immagine a immagine non accoppiata e una rete studente a più ingressi. L'accuratezza media complessiva della classificazione, la precisione e il richiamo ottenuti con il metodo proposto per la classificazione dei tessuti sono rispettivamente 0,90, 0,88 e 0,89, mentre le stesse metriche ottenute nel dominio non etichettato (NBI) sono rispettivamente 0,92, 0,64 e 0,94. La qualità delle immagini generate sinteticamente è abbastanza buona da ingannare gli specialisti. 2. Una segmentazione del lume basata sull'uso di ensemble spazio-temporali. Il metodo proposto si basa su un ensemble di 4 CNN parallele per elaborare simultaneamente informazioni a singolo e multi-frame. Il metodo proposto è stato valutato utilizzando un set di dati personalizzato, ottenendo un coefficiente di somiglianza Dice di 0,80, superando i precedenti metodi allo stato dell'arte. I risultati ottenuti dimostrano che le informazioni spazio-temporali possono essere efficacemente sfruttate dal modello ensemble per migliorare la segmentazione del lume cavo nelle immagini ureteroscopiche. Inoltre, abbiamo dimostrato che il metodo si è rivelato efficace anche in presenza di condizioni di scarsa visibilità, causate da emorragie sporadiche o da riflessi speculari. 3. L'integrazione del metodo di segmentazione del lume in un robot flessibile per la navigazione intraluminale autonoma. È stata proposta una soluzione sinergica per la navigazione intraluminale. Si tratta di un robot endoscopico morbido stampato in 3D e di un metodo di controllo visivo servoassistito basato su una versione più leggera della segmentazione precedentemente proposta. L'implementazione è stata effettuata con l'obiettivo di eseguire una navigazione intraluminale autonoma in strutture luminali strette. Il robot proposto è stato convalidato su fantocci anatomici in diverse configurazioni di percorso. Analizziamo il movimento del robot utilizzando diverse metriche. Dimostriamo che il nostro metodo è adatto a navigare in sicurezza in ambienti cavi e in condizioni diverse da quelle su cui la rete è stata originariamente addestrata. Le metodologie presentate in questo lavoro di tesi evidenziano il potenziale dell'uso di diversi metodi di computer vision basati su DL per supportare non solo i chirurghi ma anche i dispositivi robotici durante le procedure minimamente invasive durante le procedure mediche diagnostiche e interventistiche. Inoltre, verranno rilasciati i set di dati raccolti durante lo sviluppo di questo lavoro di tesi.

Computer vision aided diagnosis and guidance in endoscopic urology

Lazo Sanchez, Jorge Francisco
2022/2023

Abstract

Endoscopy is a minimally invasive procedure used for the detection, diagnosis, and treatment of diseases in hollow organs such as the bladder, the colon the esophagus, etc. In the specific case of the urinary system, it consists of the passage of a ureteroscope through the urethra and bladder, and in case of being necessary, up to the ureter and the kidneys. The visual information obtained from the endoscopic camera helps clinicians with two main tasks: navigation and diagnosis. In recent years, with the rapid development and success of Deep Learning (DL)-based computer vision systems in other vision tasks, the endoscopic imaging community has been focusing on the development of DL methods that could handle, the specific conditions of the endoscopic scenarios. However, this implies different technical obstacles that hinder its translation to clinical practice. The development of a robust and reliable endoscopic vision system is not a trivial task considering the specific challenges of endoscopic data such as the low quality of images, high levels of noise, the appearance of image artifacts, blood and debris floating around occluding the field of view, the inter- and intra-patient tissue variability, among others. It is also important to take into account that different imaging modalities such as Narrow Band Imaging (NBI), and White Light Imaging (WLI) are used since they provide different visual information to surgeons, and the labeled data on either image domain is limited or in many cases, or not available at all. In this regard, the goal of this Ph.D. project is the development of computer vision systems suitable to be used in endoscopic urology with a focus on the two main purposes for which endoscopic information is used during this procedure: visual information useful for navigation and tissue information necessary for diagnosis. In particular, the contributions of this Ph.D. work can be summarized as: 1. A new method for bladder tissue classification with a focus on bladder cancer identification, in scenarios where labeled data is limited to only one domain of the two which are usually used in the procedure (NBI and WLI), and there is no identical equivalent pairs for every image on each domain. The method makes use of a semi-surprised Generative Adversarial Network (GAN)-based method composed of three main components: a teacher network trained on the labeled WLI data; a cycle-consistency GAN to perform unpaired image-to-image translation, and a multi-input student network. The overall average classification accuracy, precision, and recall obtained with the proposed method for tissue classification are 0.90, 0.88, and 0.89 respectively, while the same metrics obtained in the unlabeled domain (NBI) are 0.92, 0.64, and 0.94 respectively The quality of the synthetically generated images is good enough to deceive specialists. 2. A lumen segmentation based on the use of spatial-temporal ensembles. The proposed method is based on an ensemble of 4 parallel CNNs to simultaneously process single and multi-frame information. The proposed method was evaluated using a custom dataset obtaining a Dice similarity coefficient of 0.80, outperforming previous state-of-the-art methods. The obtained results show that spatial-temporal information can be effectively exploited by the ensemble model to improve hollow lumen segmentation in ureteroscopic images. Furthermore, we show that method was effective also in presence of poor visibility conditions, caused by sporadic bleeding, or specular reflections. 3. The integration of the lumen segmentation method in a flexible robot for the task of autonomous intraluminal navigation. A synergic solution for intraluminal navigation was proposed. It consisted of a 3D-printed endoscopic soft robot and a visual servoing control method based on a lighter version of the segmentation previously proposed. The implementation was carried out with a focus on performing autonomous intraluminal navigation in narrow luminal structures. The proposed robot is validated in anatomical phantoms in different path configurations. We analyze the movement of the robot using different metrics. We show that our method is suitable to navigate safely in hollow environments and conditions which are different than the ones the network was originally trained on. The methodologies presented in this thesis work highlight the potential of using diverse DL-based computer vision methods to support not only surgeons but also robotic devices during minimally invasive procedures during diagnostical and interventional medical procedures. Additionally, we will also release the datasets collected during the development of this thesis work.
DUBINI, GABRIELE ANGELO
DELLACA', RAFFAELE
FERRIGNO, GIANCARLO
20-feb-2023
Computer vision aided diagnosis and guidance in endoscopic urology
L'endoscopia è una procedura minimamente invasiva utilizzata per l'individuazione, la diagnosi e il trattamento di malattie in organi cavi come la vescica, il colon, l'esofago, ecc. Nel caso specifico del sistema urinario, consiste nel passaggio di un ureteroscopio attraverso l'uretra e la vescica e, se necessario, fino all'uretere e ai reni. Le informazioni visive ottenute dalla telecamera endoscopica aiutano i medici in due compiti principali: la navigazione e la diagnosi. Negli ultimi anni, con il rapido sviluppo e il successo dei sistemi di visione artificiale basati sul Deep Learning (DL) in altri compiti di visione, la comunità dell'imaging endoscopico si è concentrata sullo sviluppo di metodi DL in grado di gestire le condizioni specifiche degli scenari endoscopici. Tuttavia, ciò implica diversi ostacoli tecnici che ne impediscono la traduzione nella pratica clinica. Lo sviluppo di un sistema di visione endoscopico robusto e affidabile non è un compito banale, considerando le sfide specifiche dei dati endoscopici, come la bassa qualità delle immagini, gli alti livelli di rumore, la comparsa di artefatti dell'immagine, il sangue e i detriti che fluttuano occludendo il campo visivo, la variabilità tissutale inter- e intra-paziente, tra gli altri. È inoltre importante tenere conto del fatto che vengono utilizzate diverse modalità di imaging, come l'imaging a banda stretta (NBI) e l'imaging a luce bianca (WLI), che forniscono informazioni visive diverse al chirurgo, e che i dati etichettati su entrambi i domini di immagine sono limitati o, in molti casi, non disponibili affatto. A questo proposito, l'obiettivo di questo progetto di dottorato è lo sviluppo di sistemi di visione computerizzata adatti a essere utilizzati in urologia endoscopica, con particolare attenzione ai due scopi principali per i quali le informazioni endoscopiche vengono utilizzate durante questa procedura: informazioni visive utili per la navigazione e informazioni sui tessuti necessarie per la diagnosi. In particolare, i contributi di questo lavoro di dottorato possono essere riassunti come segue: 1. Un nuovo metodo per la classificazione del tessuto vescicale, con particolare attenzione all'identificazione del cancro alla vescica, in scenari in cui i dati etichettati sono limitati a un solo dominio dei due solitamente utilizzati nella procedura (NBI e WLI) e non esistono coppie equivalenti identiche per ogni immagine in ciascun dominio. Il metodo si avvale di una rete generativa avversaria (GAN) semi-sorvegliata, composta da tre componenti principali: una rete insegnante addestrata sui dati WLI etichettati; una GAN a coerenza ciclica per eseguire la traduzione da immagine a immagine non accoppiata e una rete studente a più ingressi. L'accuratezza media complessiva della classificazione, la precisione e il richiamo ottenuti con il metodo proposto per la classificazione dei tessuti sono rispettivamente 0,90, 0,88 e 0,89, mentre le stesse metriche ottenute nel dominio non etichettato (NBI) sono rispettivamente 0,92, 0,64 e 0,94. La qualità delle immagini generate sinteticamente è abbastanza buona da ingannare gli specialisti. 2. Una segmentazione del lume basata sull'uso di ensemble spazio-temporali. Il metodo proposto si basa su un ensemble di 4 CNN parallele per elaborare simultaneamente informazioni a singolo e multi-frame. Il metodo proposto è stato valutato utilizzando un set di dati personalizzato, ottenendo un coefficiente di somiglianza Dice di 0,80, superando i precedenti metodi allo stato dell'arte. I risultati ottenuti dimostrano che le informazioni spazio-temporali possono essere efficacemente sfruttate dal modello ensemble per migliorare la segmentazione del lume cavo nelle immagini ureteroscopiche. Inoltre, abbiamo dimostrato che il metodo si è rivelato efficace anche in presenza di condizioni di scarsa visibilità, causate da emorragie sporadiche o da riflessi speculari. 3. L'integrazione del metodo di segmentazione del lume in un robot flessibile per la navigazione intraluminale autonoma. È stata proposta una soluzione sinergica per la navigazione intraluminale. Si tratta di un robot endoscopico morbido stampato in 3D e di un metodo di controllo visivo servoassistito basato su una versione più leggera della segmentazione precedentemente proposta. L'implementazione è stata effettuata con l'obiettivo di eseguire una navigazione intraluminale autonoma in strutture luminali strette. Il robot proposto è stato convalidato su fantocci anatomici in diverse configurazioni di percorso. Analizziamo il movimento del robot utilizzando diverse metriche. Dimostriamo che il nostro metodo è adatto a navigare in sicurezza in ambienti cavi e in condizioni diverse da quelle su cui la rete è stata originariamente addestrata. Le metodologie presentate in questo lavoro di tesi evidenziano il potenziale dell'uso di diversi metodi di computer vision basati su DL per supportare non solo i chirurghi ma anche i dispositivi robotici durante le procedure minimamente invasive durante le procedure mediche diagnostiche e interventistiche. Inoltre, verranno rilasciati i set di dati raccolti durante lo sviluppo di questo lavoro di tesi.
File allegati
File Dimensione Formato  
Thesis_Jorge.pdf

solo utenti autorizzati dal 02/02/2024

Dimensione 17.01 MB
Formato Adobe PDF
17.01 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196385