Minimal Invasive Surgery (MIS) has introduced a new and more efficient way of performing many surgical procedures; accessing the surgical site through tiny incisions leads to less pain, less tissue damage, and reduced hospitalization time. MIS has faced skepticism from clinicians due to confined workspace, compromised hand-eye coordination, extended learning curves, and procedure duration. The introduction of Robotic-Assisted instrumentation has helped with instrument manipulation. However, when dealing with complex procedures where the interested area is very deep and the path to follow is tortuous instrumentation with higher dexterity and flexibility is needed. Multi-segmented arms with high degrees of freedom (DOF) like Concentric Tube Robot(CTR) are one of the most investigated technologies to solve those issues. CTRs are made of multiple pre-curved telescopic tubes, which actuation mechanism is based on independent axial translation and rotation of each tube making kinematics and control challenging. Ablation procedures like Fetoscopic Laser Coagulation for Twin Twin Transfusion Syndrome are eligible for CTRs employment. CTRs learning-based control strategies have been demonstrated to outperform the classical model-based approach. In this thesis, a model-free Deep Reinforcement Learning(DRL) method has been investigated as a control strategy to be involved in a loop control where the surgeon selects a Cartesian point or trajectory through a haptic device and the controller computes the inverse kinematics to achieve the target. The controller is represented by the trained policy obtained from a DRL problem solution where an agent interacts with a CTR simulation environment learning to choose the correct joint values to perform a targeting task. Two DRL algorithm has been tested, PPO and A2C, and compared with previous work DDPG algorithm and a Jacobian-based model. Observing training metrics as well as policy evaluation test, performed through targeting and path-following tasks, PPO turns out to outperform both A2C and Jacobian-based methods for tracking error and computational time, while reaching the same DDPG tracking error in a significantly inferior number of training steps.

La Chirurgia Mininvasiva (CM) ha introdotto una nuova e più efficiente strategia per svolgere molte procedure chirurgiche, accedendo alla zona da operare tramite piccole incisioni cutanee che riducono il danno ai tessuti, provocano meno dolore e minimizzano il tempo di ospedalizzazione.La CM ha generato alcuni scetticismi nel mondo della medicina a causa di un ridotto spazio di lavoro, una compromessa cordinazione occhio mano, estese curve di apprendimento e per la durata delle procedure. L'introduzione di strumentazione robotica ha aiutato nella manipolazione degli strumenti, ma comunque in caso di procedure complesse, dove l'area interessata è molto in profondità e il percorso per raggiungerla tortuoso, una strumentazione con maggiore destrezza e flessibilità è necessaria. Bracci robotici multisegmentati con elevati gradi di libertà (GDL) come i Robot a Tubi Concentrici(RTC) sono tra le tecnologie più esaminate per risolvere queste problematiche. I RTC sono composti da multipli tubi precurvati e disposti telescopicamente, il cui meccanismo di attuazione è basato sulla traslazione e rotazione assiale relativa di ogni tubo, rendendo impegnativi la formulazione della cinematica e il controllo. I RTC possono essere sfruttati per procedure di ablazione come la Coagulazione Fetoscopica con Laser per curare la sindrome da trasfusione feto-fetale. Le strategie di controllo dei RTC basate su insiemi di dati risultano essere più performanti rispetto a quelle basate su modelli cinematici. In questa tesi, una strategia model-free Deep Reinforcement Learning (DRL) è stata studiata come metodo da includere in un processo di controllo in cui idealmente un chirurgo seleziona un punto o una traiettoria Cartesiani attraverso un dispositivo aptico e il controllore risolve la cinematica inversa per raggiungere il target. Il controllore in questo caso è rappresentato dalla rete neurale allenata tramite DRL. La fase di allenamento prevede l'interazione di un agente con un ambiente di simulazione del RTC, e la selezione dello stesso di valori dei giunti necessari per raggiungere il punto selezionato. Due algoritmi DRL sono stati testati, PPO e A2C, e comparati con il metodo del precendente lavoro, DDPG, e con un modello di controllo. Osservando i risultati degli allenamenti così come quelli dei test di valutazione, PPO risulta avere performance migliori rispetto a A2C e al modello Jacobiano per quanto riguarda l'errore di tracciamento e il tempo computazionale, mentre raggiunge lo stesso errore di tracciamento di DDPG ma in un numero significativamente inferiore di passi durante la fase di allenamento.

Deep reinforcement learning for concentric tube robot control

Valente, Lorenzo
2021/2022

Abstract

Minimal Invasive Surgery (MIS) has introduced a new and more efficient way of performing many surgical procedures; accessing the surgical site through tiny incisions leads to less pain, less tissue damage, and reduced hospitalization time. MIS has faced skepticism from clinicians due to confined workspace, compromised hand-eye coordination, extended learning curves, and procedure duration. The introduction of Robotic-Assisted instrumentation has helped with instrument manipulation. However, when dealing with complex procedures where the interested area is very deep and the path to follow is tortuous instrumentation with higher dexterity and flexibility is needed. Multi-segmented arms with high degrees of freedom (DOF) like Concentric Tube Robot(CTR) are one of the most investigated technologies to solve those issues. CTRs are made of multiple pre-curved telescopic tubes, which actuation mechanism is based on independent axial translation and rotation of each tube making kinematics and control challenging. Ablation procedures like Fetoscopic Laser Coagulation for Twin Twin Transfusion Syndrome are eligible for CTRs employment. CTRs learning-based control strategies have been demonstrated to outperform the classical model-based approach. In this thesis, a model-free Deep Reinforcement Learning(DRL) method has been investigated as a control strategy to be involved in a loop control where the surgeon selects a Cartesian point or trajectory through a haptic device and the controller computes the inverse kinematics to achieve the target. The controller is represented by the trained policy obtained from a DRL problem solution where an agent interacts with a CTR simulation environment learning to choose the correct joint values to perform a targeting task. Two DRL algorithm has been tested, PPO and A2C, and compared with previous work DDPG algorithm and a Jacobian-based model. Observing training metrics as well as policy evaluation test, performed through targeting and path-following tasks, PPO turns out to outperform both A2C and Jacobian-based methods for tracking error and computational time, while reaching the same DDPG tracking error in a significantly inferior number of training steps.
IYENGAR, KESHAV
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
La Chirurgia Mininvasiva (CM) ha introdotto una nuova e più efficiente strategia per svolgere molte procedure chirurgiche, accedendo alla zona da operare tramite piccole incisioni cutanee che riducono il danno ai tessuti, provocano meno dolore e minimizzano il tempo di ospedalizzazione.La CM ha generato alcuni scetticismi nel mondo della medicina a causa di un ridotto spazio di lavoro, una compromessa cordinazione occhio mano, estese curve di apprendimento e per la durata delle procedure. L'introduzione di strumentazione robotica ha aiutato nella manipolazione degli strumenti, ma comunque in caso di procedure complesse, dove l'area interessata è molto in profondità e il percorso per raggiungerla tortuoso, una strumentazione con maggiore destrezza e flessibilità è necessaria. Bracci robotici multisegmentati con elevati gradi di libertà (GDL) come i Robot a Tubi Concentrici(RTC) sono tra le tecnologie più esaminate per risolvere queste problematiche. I RTC sono composti da multipli tubi precurvati e disposti telescopicamente, il cui meccanismo di attuazione è basato sulla traslazione e rotazione assiale relativa di ogni tubo, rendendo impegnativi la formulazione della cinematica e il controllo. I RTC possono essere sfruttati per procedure di ablazione come la Coagulazione Fetoscopica con Laser per curare la sindrome da trasfusione feto-fetale. Le strategie di controllo dei RTC basate su insiemi di dati risultano essere più performanti rispetto a quelle basate su modelli cinematici. In questa tesi, una strategia model-free Deep Reinforcement Learning (DRL) è stata studiata come metodo da includere in un processo di controllo in cui idealmente un chirurgo seleziona un punto o una traiettoria Cartesiani attraverso un dispositivo aptico e il controllore risolve la cinematica inversa per raggiungere il target. Il controllore in questo caso è rappresentato dalla rete neurale allenata tramite DRL. La fase di allenamento prevede l'interazione di un agente con un ambiente di simulazione del RTC, e la selezione dello stesso di valori dei giunti necessari per raggiungere il punto selezionato. Due algoritmi DRL sono stati testati, PPO e A2C, e comparati con il metodo del precendente lavoro, DDPG, e con un modello di controllo. Osservando i risultati degli allenamenti così come quelli dei test di valutazione, PPO risulta avere performance migliori rispetto a A2C e al modello Jacobiano per quanto riguarda l'errore di tracciamento e il tempo computazionale, mentre raggiunge lo stesso errore di tracciamento di DDPG ma in un numero significativamente inferiore di passi durante la fase di allenamento.
File allegati
File Dimensione Formato  
2023_05_Valente_Tesi_01.pdf

accessibile in internet per tutti

Dimensione 3.27 MB
Formato Adobe PDF
3.27 MB Adobe PDF Visualizza/Apri
2023_05_Valente_Executive_Summary_02.pdf

accessibile in internet per tutti

Dimensione 744.38 kB
Formato Adobe PDF
744.38 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208881