Colorectal cancer (CRC) is the second most lethal cancer, as it is responsible for 9-10% of all cancer-related deaths worldwide, and is estimated to cause more than 900'000 deaths in 2020. The carcinogenesis starts from benign precursor lesions, which grow on the inner surface of the large intestine, up to the intestinal lumen. Colonoscopy is the gold standard procedure for CRC screening, as using a flexible endoscope clinicians can examine the inner surface of the colon and remove abnormal lesions. Endoscopist’s skills in detecting precursor CRC lesions are inversely associated with risk of CRC death, also colonoscopy has proved to be a highly operator-dependent procedure with regard to detection. This underlines the importance of improving endoscopist's skills with computer assistance, like using 3D reconstruction. A 3D model of the colon could allow an exact localization of lesions, by storing camera positions with respect to the 3D model, assisting surgeons in the pre-operative phase but also helping in identify missed regions during the exploratory phase. In this context, this thesis proposes the study of depth prediction from colonoscopy sequences, by adapting an original framework proposed for automotive to colonoscopy, which exploit depth cues from apparent colon displacement due to camera movement. In particular, depth cues are extracted from 2D optical flow, i.e. the pixel displacement among subsequent frames, using the optical expansion theory, which allows the extraction of information about the change in depth of an object acquired by the camera, just from its 2D displacement. This thesis investigates both optical flow estimation and depth prediction methods, comparing learning-based state-of-the-art models with our method. The recently released Colonoscopy 3D Video Dataset is studied in order to train and test the framework. The proposed framework outperforms other tested models, predicting depth maps with an Absolute Relative Error of 27.2% and Root Mean Squared Error of 5.27mm. The obtained results show a promising approach to predict depth from colonoscopy video frames, capable of providing a starting point for the 3D reconstruction of the colon.

Il cancro al colon-retto (CRC) è la seconda patologia oncologica per mortalità, poiché responsabile del 9-10% di tutte le morti per cancro e si stima che sia stata la causa di più di 900'000 morti nel 2020. La carcinogenesi si sviluppa a partire da lesioni benigne, che crescono dalla superficie interna del colon fino al lume intestinale. La colonscopia è la procedura di screening più accurata per la prevenzione del CRC, poiché permette di esaminare la superficie interna del colon e di rimuovere le lesioni attraverso un endoscopio flessibile. L'abilità dell'endoscopista di individuare precursori delle lesioni è inversamente proporzionale al rischio di morte per CRC, inoltre diversi studi mostrano che l'esito di un esame di colonscopia dipende fortemente dall'abilità dell'endoscopista. Questa evidenza rende interessante studiare metodologie per migliorare la capacità dell'endoscopista e una di queste consiste nel supporto fornito da strumenti digitali, come la ricostruzione 3D. Disporre del modello 3D del colon, potrebbe consentire una più precisa localizzazione delle lesioni, registrandone le posizioni rispetto al modello 3D per assistere il chirurgo nella fase preoperatoria, ma anche segnalando regioni del colon non esplorate. Questa tesi presenta lo studio della predizione della profondità di immagini di colonscopia, adattando un approccio basato su deep learning che sfrutta il movimento apparente del colon durante una colonscopia, dato dal movimento della camera. In particolare, l'informazione di profondità è estratta a partire dal flusso ottico, vale a dire lo spostamento dei pixel tra i vari fotogrammi, utilizzando la teoria dell'espansione ottica, che permette di comprendere come varia la profondità di oggetto rispetto alla camera, valutando il suo spostamento tra una coppia di fotogrammi. Per questa ragione, questa tesi approfondisce sia il problema della stima del flusso ottico, che quello della stima della profondità di un'immagine, confrontando il nostro metodo con altri presenti in letteratura. La tesi propone anche l'analisi del recente dataset Colonoscopy 3D Video Dataset (C3VD), utilizzato per addestrare i modelli. Il metodo proposto in questa tesi permette di superare i risultati ottenuti con gli altri modelli, garantendo un Absolute Relative Error pari a 27.2% e un Root Mean Squared Error di 5.27mm. I risultati ottenuti, dimostrano quindi che questo promettente approccio è in grado di stimare la profondità di fotogrammi ottenuti tramite colonscopia, fornendo un punto di partenza per future ricerche e applicazioni di ricostruzione 3D del colon.

Evaluating Optical Expansion for Depth Estimation in Colonoscopy

Milesi, Davide
2022/2023

Abstract

Colorectal cancer (CRC) is the second most lethal cancer, as it is responsible for 9-10% of all cancer-related deaths worldwide, and is estimated to cause more than 900'000 deaths in 2020. The carcinogenesis starts from benign precursor lesions, which grow on the inner surface of the large intestine, up to the intestinal lumen. Colonoscopy is the gold standard procedure for CRC screening, as using a flexible endoscope clinicians can examine the inner surface of the colon and remove abnormal lesions. Endoscopist’s skills in detecting precursor CRC lesions are inversely associated with risk of CRC death, also colonoscopy has proved to be a highly operator-dependent procedure with regard to detection. This underlines the importance of improving endoscopist's skills with computer assistance, like using 3D reconstruction. A 3D model of the colon could allow an exact localization of lesions, by storing camera positions with respect to the 3D model, assisting surgeons in the pre-operative phase but also helping in identify missed regions during the exploratory phase. In this context, this thesis proposes the study of depth prediction from colonoscopy sequences, by adapting an original framework proposed for automotive to colonoscopy, which exploit depth cues from apparent colon displacement due to camera movement. In particular, depth cues are extracted from 2D optical flow, i.e. the pixel displacement among subsequent frames, using the optical expansion theory, which allows the extraction of information about the change in depth of an object acquired by the camera, just from its 2D displacement. This thesis investigates both optical flow estimation and depth prediction methods, comparing learning-based state-of-the-art models with our method. The recently released Colonoscopy 3D Video Dataset is studied in order to train and test the framework. The proposed framework outperforms other tested models, predicting depth maps with an Absolute Relative Error of 27.2% and Root Mean Squared Error of 5.27mm. The obtained results show a promising approach to predict depth from colonoscopy video frames, capable of providing a starting point for the 3D reconstruction of the colon.
CASELLA, ALESSANDRO
LENA, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Il cancro al colon-retto (CRC) è la seconda patologia oncologica per mortalità, poiché responsabile del 9-10% di tutte le morti per cancro e si stima che sia stata la causa di più di 900'000 morti nel 2020. La carcinogenesi si sviluppa a partire da lesioni benigne, che crescono dalla superficie interna del colon fino al lume intestinale. La colonscopia è la procedura di screening più accurata per la prevenzione del CRC, poiché permette di esaminare la superficie interna del colon e di rimuovere le lesioni attraverso un endoscopio flessibile. L'abilità dell'endoscopista di individuare precursori delle lesioni è inversamente proporzionale al rischio di morte per CRC, inoltre diversi studi mostrano che l'esito di un esame di colonscopia dipende fortemente dall'abilità dell'endoscopista. Questa evidenza rende interessante studiare metodologie per migliorare la capacità dell'endoscopista e una di queste consiste nel supporto fornito da strumenti digitali, come la ricostruzione 3D. Disporre del modello 3D del colon, potrebbe consentire una più precisa localizzazione delle lesioni, registrandone le posizioni rispetto al modello 3D per assistere il chirurgo nella fase preoperatoria, ma anche segnalando regioni del colon non esplorate. Questa tesi presenta lo studio della predizione della profondità di immagini di colonscopia, adattando un approccio basato su deep learning che sfrutta il movimento apparente del colon durante una colonscopia, dato dal movimento della camera. In particolare, l'informazione di profondità è estratta a partire dal flusso ottico, vale a dire lo spostamento dei pixel tra i vari fotogrammi, utilizzando la teoria dell'espansione ottica, che permette di comprendere come varia la profondità di oggetto rispetto alla camera, valutando il suo spostamento tra una coppia di fotogrammi. Per questa ragione, questa tesi approfondisce sia il problema della stima del flusso ottico, che quello della stima della profondità di un'immagine, confrontando il nostro metodo con altri presenti in letteratura. La tesi propone anche l'analisi del recente dataset Colonoscopy 3D Video Dataset (C3VD), utilizzato per addestrare i modelli. Il metodo proposto in questa tesi permette di superare i risultati ottenuti con gli altri modelli, garantendo un Absolute Relative Error pari a 27.2% e un Root Mean Squared Error di 5.27mm. I risultati ottenuti, dimostrano quindi che questo promettente approccio è in grado di stimare la profondità di fotogrammi ottenuti tramite colonscopia, fornendo un punto di partenza per future ricerche e applicazioni di ricostruzione 3D del colon.
File allegati
File Dimensione Formato  
2023_12_Milesi_Tesi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: MSc Thesis
Dimensione 22.24 MB
Formato Adobe PDF
22.24 MB Adobe PDF   Visualizza/Apri
2023_12_Milesi_Executive_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 1.9 MB
Formato Adobe PDF
1.9 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215914