In the last few decades, Minimally Invasive Surgery (MIS) has responded to the demand for procedures that reduce traditional open surgery operation trauma by inserting an endoscope and specific surgical instruments in the patient's body through small incisions on the skin. The main advantages of these procedures include the decrease in the risk of wound infection and consequent reduction of hospital stay. However, the small size of incisions limits the surgeon's dexterity, and the surgeon's potential tremors can be easily transmitted to the patient through the used rigid instruments. In this regard, Robot-Assisted Minimally Invasive Surgery (RAMIS) allows overcoming these and other limits by employing operating robots remotely controlled by a surgeon. Since the introduction of the known da Vinci Surgical System (dVSS) developed by Intuitive Surgical Inc., numerous surgical operations were performed by teleoperating robots. Moreover, Robot-Assisted MIS research experienced a significant increase, especially after the development of the da Vinci Research Kit (dVRK) open-source platform. Nevertheless, in RAMIS, the surgeon still needs to operate the robot at a distance, thus causing possible human error and surgeons' cognitive fatigue and tediousness. In this context, the automation of technically complex and repetitive surgical sub-tasks is gaining increasing relevance due to the possible solutions it offers to the mentioned RAMIS challenges. This work arises from the observation that visual data represent a powerful and appealing source of information for robot automation, given their simple acquisition and the possibility to identify and locate objects whose pose is unknown beforehand. Numerous vision-based automation methods have been implemented. However, most of them require reconstructing 3D positions from 2D frames or extracting handcrafted features (relevant visual elements) from images. Thus, applying these approaches to MIS may be challenging, and possible reconstruction inaccuracies can lead to increased probabilities of following a wrong path and damaging tissues or organs. The aim of this work is to approach the automation of surgical sub-tasks for robotic assistance in the operative phase using a method that exploits visual information directly without manually extracting a defined set of features. It can also acquire a generalisation capability during a training phase, ensuring optimal functioning on unseen data without estimating the 3D pose of the environment objects. The developed system focuses on automating a fundamental phase common to all sub-tasks: reaching a target position. To achieve this purpose, the method employs a Deep Q-Network (DQN) vision-based Deep Reinforcement Learning (DRL) approach that was first applied to train a convolutional neural network to play simple 2D Atari games autonomously. The proposed approach has been implemented and evaluated in 2D and 3D simulation environments to test its feasibility in a simplified world (2D) and later validate it in a realistic and more complex one (3D). The use of simulators, indeed, has become a common practice in state-of-the-art Reinforcement Learning research mainly because they are efficient and cost-effective in collecting the extensive data needed for the training phase. The created three-dimensional environment mimics the sterile area of the operating room, and it comprises a da Vinci Research Kit Patient Side Manipulator equipped with a Large Needle Driver, an Endoscope Camera Manipulator with a single vision sensor attached, Setup Joints supporting the manipulators, and a target object. A deep neural network is trained to learn an optimal reaching strategy from the vision sensor raw images through the employed vision-based DRL approach. Thus, given the current environment image, the robotic arm will move towards its target position following the learned strategy. The described method has been tested in 2D against different reward functions and in 3D against other DRL state-of-the-art approaches. The reward function (i.e. scalar signal designed to express how good or bad is the robot movement given the environment state and the final goal) is used during the training phase to learn the optimal strategy. According to the evaluation metrics commonly used in Reinforcement Learning literature, performances were evaluated in terms of success rates and reward sums. Overall, results in the 2D case show that changing the reward function can lead to statistically different outcomes for the proposed DQN vision-based DRL method. Thus, carefully implementing this function is fundamental to find an optimal strategy. Additionally, results in the 3D case show comparability between the presented approach and another state-of-the-art DRL method (Proximal Policy Optimization) applied, in this work, to images. At the same time, these vision-based approaches have proven to be competitive compared to a non-vision-based DRL method (Hindsight Experience Replay + Deep Deterministic Policy Gradient).

Negli ultimi anni la chirurgia mininvasiva (MIS) ha fornito risposte alla richiesta di procedure in grado di ridurre il trauma delle operazioni chirurgiche a cielo aperto, mediante l’introduzione, attraverso piccole incisioni, di una sonda endoscopica e di appositi strumenti chirurgici nel corpo del paziente. Tra i principali vantaggi di queste procedure vi è la riduzione del rischio di infezione delle ferite chirurgiche con conseguente diminuzione dei tempi stessi di degenza. Tuttavia, la dimensione ridotta delle incisioni limita la destrezza dei movimenti del chirurgo i cui tremori fisiologici possono essere potenzialmente trasmessi al paziente attraverso gli strumenti rigidi utilizzati. In questo senso, le nuove procedure di chirurgia robot-assistita mininvasiva (RAMIS) consentono il superamento di tali e altri limiti, impiegando sistemi robotici controllati a distanza dal chirurgo. Dall’introduzione del noto da Vinci Surgical System (sviluppato da Intuitive Surgical Inc.), infatti, numerose operazioni chirurgiche sono state eseguite teleoperando dei robot. La ricerca in ambito RAMIS ha poi riscontrato un aumento significativo, soprattutto a seguito dello sviluppo di una piattaforma open source nota come da Vinci Research Kit (dVRK). Tuttavia, la chirurgia robot-assistita prevede che sia comunque il chirurgo a guidare a distanza i movimenti del robot, comportando possibile errore umano e affaticamento e tedio del chirurgo stesso. In questo contesto, l’automazione di sotto-compiti chirurgici (sub-task) ripetitivi e complessi dal punto di vista tecnico assume rilevanza maggiore in quanto offre possibili soluzioni alle limitazioni del RAMIS. Questo lavoro nasce dalla constatazione che i dati visivi rappresentano una potente fonte di informazione per l’automazione di robot, considerata la loro semplice acquisizione e la possibilità, tramite questi, di identificare e localizzare oggetti la cui posa non è nota a priori. In questo senso, sono stati implementati numerosi metodi di automazione basati su immagini. Tuttavia, per molti di questi si rende necessaria la ricostruzione di posizioni tridimensionali a partire da immagini bidimensionali, oppure l’estrazione di caratteristiche rilevanti dei fotogrammi (features) mediante l’impiego di particolari algoritmi di calcolo ed analisi. Questo rende più complessa l'applicazione di tali approcci nel campo della chirurgia mininvasiva e possibili inesattezze nella ricostruzione possono aumentare le probabilità di seguire traiettorie sbagliate e danneggiare organi o tessuti. L’obiettivo di questo lavoro è approcciare l’automazione di sub-task chirurgici per l’assistenza robotica in fase operatoria attraverso un metodo che sfrutta direttamente l’informazione visiva senza estrarre manualmente un insieme di features predefinite. Il metodo è anche in grado di acquisire capacità di generalizzazione durante una fase di addestramento che ne assicurerà il funzionamento ottimale su dati nuovi, senza che sia necessario stimare la posa tridimensionale degli oggetti che compongono l’ambiente. Il sistema sviluppato è incentrato sull’automazione di una fase fondamentale comune a tutti i sub-task: il raggiungimento di una posizione target. A questo scopo, il metodo impiega un approccio di Deep Reinforcement Learning (DRL) basato su immagini chiamato Deep Q-Network (DQN), che è stato inizialmente implementato per addestrare una rete neurale convoluzionale a giocare autonomamente a semplici giochi Atari 2D. Il metodo proposto è stato implementato e sviluppato in ambienti di simulazione 2D e 3D, al fine di testarne il funzionamento in un contesto semplificato (2D) per poi validarlo in un altro più complesso e realistico (3D). L’uso di simulatori, infatti, è diventato una pratica comune nella ricerca allo stato dell’arte sul Reinforcement Learning (RL), principalmente perché efficiente ed economicamente vantaggioso per la raccolta dei numerosi dati necessari alla fase di apprendimento. L’ambiente tridimensionale utilizzato riproduce i principali elementi dell’area sterile della sala operatoria e comprende: un manipolatore robotico (Patient Side Manipulator) del dVRK dotato di uno strumento chirurgico chiamato Large Needle Driver; un manipolatore per endoscopio (Endoscope Camera Manipulator) a cui è stato collegato un singolo sensore di visione; una base di supporto per i manipolatori; un oggetto target. Una rete neurale profonda è addestrata, attraverso l’approccio di DRL descritto, per imparare una strategia ottima di raggiungimento di un punto a partire dai fotogrammi non elaborati del sensore. Pertanto, data l’immagine corrente dell’ambiente, il braccio robotico si muoverà verso la posizione del suo target seguendo la strategia appresa. Il metodo descritto è stato testato nel caso 2D sulla base di diverse funzioni di ricompensa (reward) e confrontato nel caso 3D con altri approcci, attualmente in uso, che impiegano il DRL. La funzione di reward (i.e. segnale scalare che esprime quanto sia vantaggioso il movimento del robot dato lo stato dell’ambiente e l’obiettivo da raggiungere) è stata utilizzata durante la fase di apprendimento della strategia ottima. In accordo con le metriche di valutazione comunemente usate nella letteratura sul RL, le prestazioni sono state valutate in termini di percentuali di successo e somme di reward. Nel complesso, i risultati nel caso 2D mostrano che funzioni di ricompensa diverse portano a differenti risultati statistici, sebbene applicate allo stesso metodo di DRL proposto. Pertanto, implementare attentamente questa funzione è fondamentale per trovare una strategia ottimale. Inoltre, i risultati nel caso 3D hanno evidenziato la comparabilità tra l’approccio scelto e un altro metodo di DRL utilizzato allo stato dell’arte (Proximal Policy Optimization) e applicato, in questo lavoro, alle immagini. Allo stesso tempo, i due approcci che usano l’informazione visiva si sono dimostrati competitivi se confrontati con un metodo di DRL non basato su immagini (Hindsight Experience Replay + Deep Deterministic Policy Gradient).

Vision-based deep reinforcement learning for autonomous target reaching in minimally invasive robotic surgery

Zirino, Silvia
2019/2020

Abstract

In the last few decades, Minimally Invasive Surgery (MIS) has responded to the demand for procedures that reduce traditional open surgery operation trauma by inserting an endoscope and specific surgical instruments in the patient's body through small incisions on the skin. The main advantages of these procedures include the decrease in the risk of wound infection and consequent reduction of hospital stay. However, the small size of incisions limits the surgeon's dexterity, and the surgeon's potential tremors can be easily transmitted to the patient through the used rigid instruments. In this regard, Robot-Assisted Minimally Invasive Surgery (RAMIS) allows overcoming these and other limits by employing operating robots remotely controlled by a surgeon. Since the introduction of the known da Vinci Surgical System (dVSS) developed by Intuitive Surgical Inc., numerous surgical operations were performed by teleoperating robots. Moreover, Robot-Assisted MIS research experienced a significant increase, especially after the development of the da Vinci Research Kit (dVRK) open-source platform. Nevertheless, in RAMIS, the surgeon still needs to operate the robot at a distance, thus causing possible human error and surgeons' cognitive fatigue and tediousness. In this context, the automation of technically complex and repetitive surgical sub-tasks is gaining increasing relevance due to the possible solutions it offers to the mentioned RAMIS challenges. This work arises from the observation that visual data represent a powerful and appealing source of information for robot automation, given their simple acquisition and the possibility to identify and locate objects whose pose is unknown beforehand. Numerous vision-based automation methods have been implemented. However, most of them require reconstructing 3D positions from 2D frames or extracting handcrafted features (relevant visual elements) from images. Thus, applying these approaches to MIS may be challenging, and possible reconstruction inaccuracies can lead to increased probabilities of following a wrong path and damaging tissues or organs. The aim of this work is to approach the automation of surgical sub-tasks for robotic assistance in the operative phase using a method that exploits visual information directly without manually extracting a defined set of features. It can also acquire a generalisation capability during a training phase, ensuring optimal functioning on unseen data without estimating the 3D pose of the environment objects. The developed system focuses on automating a fundamental phase common to all sub-tasks: reaching a target position. To achieve this purpose, the method employs a Deep Q-Network (DQN) vision-based Deep Reinforcement Learning (DRL) approach that was first applied to train a convolutional neural network to play simple 2D Atari games autonomously. The proposed approach has been implemented and evaluated in 2D and 3D simulation environments to test its feasibility in a simplified world (2D) and later validate it in a realistic and more complex one (3D). The use of simulators, indeed, has become a common practice in state-of-the-art Reinforcement Learning research mainly because they are efficient and cost-effective in collecting the extensive data needed for the training phase. The created three-dimensional environment mimics the sterile area of the operating room, and it comprises a da Vinci Research Kit Patient Side Manipulator equipped with a Large Needle Driver, an Endoscope Camera Manipulator with a single vision sensor attached, Setup Joints supporting the manipulators, and a target object. A deep neural network is trained to learn an optimal reaching strategy from the vision sensor raw images through the employed vision-based DRL approach. Thus, given the current environment image, the robotic arm will move towards its target position following the learned strategy. The described method has been tested in 2D against different reward functions and in 3D against other DRL state-of-the-art approaches. The reward function (i.e. scalar signal designed to express how good or bad is the robot movement given the environment state and the final goal) is used during the training phase to learn the optimal strategy. According to the evaluation metrics commonly used in Reinforcement Learning literature, performances were evaluated in terms of success rates and reward sums. Overall, results in the 2D case show that changing the reward function can lead to statistically different outcomes for the proposed DQN vision-based DRL method. Thus, carefully implementing this function is fundamental to find an optimal strategy. Additionally, results in the 3D case show comparability between the presented approach and another state-of-the-art DRL method (Proximal Policy Optimization) applied, in this work, to images. At the same time, these vision-based approaches have proven to be competitive compared to a non-vision-based DRL method (Hindsight Experience Replay + Deep Deterministic Policy Gradient).
D'ETTORRE, CLAUDIA
STOYANOV, DANAIL
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
Negli ultimi anni la chirurgia mininvasiva (MIS) ha fornito risposte alla richiesta di procedure in grado di ridurre il trauma delle operazioni chirurgiche a cielo aperto, mediante l’introduzione, attraverso piccole incisioni, di una sonda endoscopica e di appositi strumenti chirurgici nel corpo del paziente. Tra i principali vantaggi di queste procedure vi è la riduzione del rischio di infezione delle ferite chirurgiche con conseguente diminuzione dei tempi stessi di degenza. Tuttavia, la dimensione ridotta delle incisioni limita la destrezza dei movimenti del chirurgo i cui tremori fisiologici possono essere potenzialmente trasmessi al paziente attraverso gli strumenti rigidi utilizzati. In questo senso, le nuove procedure di chirurgia robot-assistita mininvasiva (RAMIS) consentono il superamento di tali e altri limiti, impiegando sistemi robotici controllati a distanza dal chirurgo. Dall’introduzione del noto da Vinci Surgical System (sviluppato da Intuitive Surgical Inc.), infatti, numerose operazioni chirurgiche sono state eseguite teleoperando dei robot. La ricerca in ambito RAMIS ha poi riscontrato un aumento significativo, soprattutto a seguito dello sviluppo di una piattaforma open source nota come da Vinci Research Kit (dVRK). Tuttavia, la chirurgia robot-assistita prevede che sia comunque il chirurgo a guidare a distanza i movimenti del robot, comportando possibile errore umano e affaticamento e tedio del chirurgo stesso. In questo contesto, l’automazione di sotto-compiti chirurgici (sub-task) ripetitivi e complessi dal punto di vista tecnico assume rilevanza maggiore in quanto offre possibili soluzioni alle limitazioni del RAMIS. Questo lavoro nasce dalla constatazione che i dati visivi rappresentano una potente fonte di informazione per l’automazione di robot, considerata la loro semplice acquisizione e la possibilità, tramite questi, di identificare e localizzare oggetti la cui posa non è nota a priori. In questo senso, sono stati implementati numerosi metodi di automazione basati su immagini. Tuttavia, per molti di questi si rende necessaria la ricostruzione di posizioni tridimensionali a partire da immagini bidimensionali, oppure l’estrazione di caratteristiche rilevanti dei fotogrammi (features) mediante l’impiego di particolari algoritmi di calcolo ed analisi. Questo rende più complessa l'applicazione di tali approcci nel campo della chirurgia mininvasiva e possibili inesattezze nella ricostruzione possono aumentare le probabilità di seguire traiettorie sbagliate e danneggiare organi o tessuti. L’obiettivo di questo lavoro è approcciare l’automazione di sub-task chirurgici per l’assistenza robotica in fase operatoria attraverso un metodo che sfrutta direttamente l’informazione visiva senza estrarre manualmente un insieme di features predefinite. Il metodo è anche in grado di acquisire capacità di generalizzazione durante una fase di addestramento che ne assicurerà il funzionamento ottimale su dati nuovi, senza che sia necessario stimare la posa tridimensionale degli oggetti che compongono l’ambiente. Il sistema sviluppato è incentrato sull’automazione di una fase fondamentale comune a tutti i sub-task: il raggiungimento di una posizione target. A questo scopo, il metodo impiega un approccio di Deep Reinforcement Learning (DRL) basato su immagini chiamato Deep Q-Network (DQN), che è stato inizialmente implementato per addestrare una rete neurale convoluzionale a giocare autonomamente a semplici giochi Atari 2D. Il metodo proposto è stato implementato e sviluppato in ambienti di simulazione 2D e 3D, al fine di testarne il funzionamento in un contesto semplificato (2D) per poi validarlo in un altro più complesso e realistico (3D). L’uso di simulatori, infatti, è diventato una pratica comune nella ricerca allo stato dell’arte sul Reinforcement Learning (RL), principalmente perché efficiente ed economicamente vantaggioso per la raccolta dei numerosi dati necessari alla fase di apprendimento. L’ambiente tridimensionale utilizzato riproduce i principali elementi dell’area sterile della sala operatoria e comprende: un manipolatore robotico (Patient Side Manipulator) del dVRK dotato di uno strumento chirurgico chiamato Large Needle Driver; un manipolatore per endoscopio (Endoscope Camera Manipulator) a cui è stato collegato un singolo sensore di visione; una base di supporto per i manipolatori; un oggetto target. Una rete neurale profonda è addestrata, attraverso l’approccio di DRL descritto, per imparare una strategia ottima di raggiungimento di un punto a partire dai fotogrammi non elaborati del sensore. Pertanto, data l’immagine corrente dell’ambiente, il braccio robotico si muoverà verso la posizione del suo target seguendo la strategia appresa. Il metodo descritto è stato testato nel caso 2D sulla base di diverse funzioni di ricompensa (reward) e confrontato nel caso 3D con altri approcci, attualmente in uso, che impiegano il DRL. La funzione di reward (i.e. segnale scalare che esprime quanto sia vantaggioso il movimento del robot dato lo stato dell’ambiente e l’obiettivo da raggiungere) è stata utilizzata durante la fase di apprendimento della strategia ottima. In accordo con le metriche di valutazione comunemente usate nella letteratura sul RL, le prestazioni sono state valutate in termini di percentuali di successo e somme di reward. Nel complesso, i risultati nel caso 2D mostrano che funzioni di ricompensa diverse portano a differenti risultati statistici, sebbene applicate allo stesso metodo di DRL proposto. Pertanto, implementare attentamente questa funzione è fondamentale per trovare una strategia ottimale. Inoltre, i risultati nel caso 3D hanno evidenziato la comparabilità tra l’approccio scelto e un altro metodo di DRL utilizzato allo stato dell’arte (Proximal Policy Optimization) e applicato, in questo lavoro, alle immagini. Allo stesso tempo, i due approcci che usano l’informazione visiva si sono dimostrati competitivi se confrontati con un metodo di DRL non basato su immagini (Hindsight Experience Replay + Deep Deterministic Policy Gradient).
File allegati
File Dimensione Formato  
2021_04_Zirino.pdf

solo utenti autorizzati dal 01/04/2022

Descrizione: Testo della tesi
Dimensione 5.25 MB
Formato Adobe PDF
5.25 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/173421