Deep learning-based robotic-tool detection with spatio-temporal layers

In the last decade, minimally invasive surgery has become the most successful family of surgical procedures in general surgery. Reduced recovery time, surgical wound extension, patient post-surgical pain and cosmetic damages are all motivations that encourage surgeons to operate using minimally invasive surgery methodologies. However, such benefits come at the cost of a reduced field of view and surgeon movements constraint. Robotic surgical systems were specifically developed to overcome these and other constraints, such as surgeon physiological tremor. In particular, da Vinci® (Intuitive Surgical Inc, CA) surgical system provides three robotic arms for surgical tool handling and a robotic laparoscope for surgical stereo-vision. Nowadays there are almost 44.000 trained surgeons and up to five millions robotic operations were performed in the world. However, such system still requires improvements regarding the information provided by the surgical system to the surgeons. The extraction and elaboration of increasingly sophisticated information from the stereo images, such as tissue identification and tracking, 3D surgical tool pose reconstruction and surgical tool detection and tracking, on which this work is focused, are all major challenges of biomedical engineering. In particular, surgical-tool detection from laparoscopic images is an important but challenging task in computer-assisted minimally invasive surgery. Illumination levels, variations in background and the different number of tools in the field of view, all pose difficulties to algorithm and model training. Yet, such challenges could be potentially tackled by exploiting the temporal information in laparoscopic videos to avoid per frame handling of the problem. In this work, a novel encoder-decoder architecture for surgical instrument detection and articulation joint segmentation that uses 3D convolutional layers to exploit spatio-temporal features from laparoscopic videos is proposed. The proposed model is composed by two branches for surgical instrument joints and joint-connections separate processing. For each surgical tool joint and joint-pair connection, a binary mask is produced, highlighting the regions where such joints and joint-connections lie. Finally the model is augmented using two skip connections in the middle layers. In order to produce a high quality model, two experiments were conducted. The first experiment focuses on the identification of the best dataset upon which train the model. The proposed model is trained on three datasets produced using different generation parameters. The best obtained model is then employed in the second experiment, where its performances are evaluated in comparison with the state-of-the-art 2D model. Due to the reduced availability of labelled data, an additional dataset filmed using a da Vinci research kit was produced in addition to already existing one. The whole capacity of the employed dataset was 4915 frames, split into training (65%), validation (15%) and test (20%) sets. The results obtained in the first experiment suggest that the best 3D dataset upon which train the proposed network must be balanced between the data number and their inter-similarity, in order to avoid overfitting and underfitting respectively. Regarding the comparison experiment, the proposed 3D model scored a median Dice similarity coefficient of 85.1% with an interquartile range of 4.6%, highlighting performances better than the state of the art based on single-frame processing. Alongside the novelty of the network architecture, the idea for inclusion of temporal information appears to be particularly useful when processing images with unseen backgrounds during the training phase, which indicates that spatio-temporal features for joint detection help to generalize the solution.

Nell'ultimo decennio, la chirurgia mini-invasiva è diventata la famiglia di procedure di maggior successo in chirurgia generale. I ridotti tempi di guarigione, le ferite chirurgiche e il dolore contenuti ed il minore impatto estetico, sono tutte motivazioni che spingono i chirurghi ad adottare tali metodologie mini-invasive. Tuttavia questi benefici sono pagati con una minore libertà di movimento per il chirurgo e con una ridotta visibilità del sito chirurgico. I sistemi robotici chirurgici furono sviluppati appositamente al fine di porre rimedio a tali e ad ulteriori problemi, come ad esempio il tremore fisiologico del chirurgo. In particolare, il sistema robotico da Vinci® (Intuitive Surgical Inc, CA) consente l'utilizzo di tre bracci robotici per la manipolazione di strumenti chirurgici ed un quarto braccio, dove è posto un laparoscopio, per consentire la visione tramite stereo-camere. Oggigiorno sono presenti circa 44.000 chirurghi abilitati all'utilizzo di sistemi tele-robotici e più di cinque milioni di operazioni chirurgiche sono state portate a termine tramite l'utilizzo di tali macchine, le quali, tuttavia, necessitano ancora un perfezionamento e di un incremento dell'informazione fornita al chirurgo. Infatti, l'estrazione e l'elaborazione di un sempre maggior numero di informazioni dalle stereo-camere, come l'identificazione e la localizzazione dei tessuti e degli strumenti chirurgici e la stima della posa 3D di tali strumenti, sono tutti ambiti di una ricerca ancora aperta nell'ingegneria biomedica. In particolare, la localizzazione nello spazio e nel tempo dei punti articolari degli strumenti chirurgici presenti nelle immagini prelevate dalle stereo-camere, su cui si basa questo lavoro, è un compito di primaria importanza e rappresenta una sfida della chirurgia mini-invasiva computerizzata odierna. Sebbene i video di chirurgia laparoscopica siano caratterizzati da un'elevata variabilità in termini di condizioni di illuminazione e di ambiente chirurgico, oltre a presentare di volta in volta diversi strumenti chirurgici, l'utilizzo dell'informazione spazio-temporale contenuta nei video potrebbe aiutare nello svolgimento di questo compito. In questo lavoro verrà presentata una nuova architettura di rete neurale convoluzionale che utilizza layers 3D al fine di estrarre un'informazione spazio-temporale dai video di chirurgia laparoscopica tele-robotica. Questa verrà utilizzata per la segmentazione e la localizzazione dei punti articolari e delle relative connessioni degli strumenti chirurgici presenti in tali video. La struttura proposta è basata su un modello encoder-decoder ed è composta da due bracci per l'elaborazione separata dei punti articolari e delle relative connessioni. Per ogni punto e connessione verrà generata una maschera binaria in grado di evidenziare la regione dell'immagine dove tali strutture giacciono. Il modello è stato migliorato tramite l'aggiunta di due skip connections negli strati mediali della rete. Al fine di generare un modello di elevata qualità, due esperimenti sono stati condotti. Il primo mirava all'identificazione del miglior dataset per l'allenamento della rete neurale: la rete proposta è stata allenata su tre dataset prodotti utilizzando diversi parametri di generazione. Il modello risultato migliore è stato poi utilizzato per il secondo esperimento, dove le sue prestazioni sono state valutate e comparate con quelle del modello 2D dello stato dell'arte. A causa della ridotta disponibilità di dati, un ulteriore dataset è stato filmato utilizzando un kit di ricerca da Vinci. La quantità di dati finale è risultata essere di 4915 immagini, divise in training (65%), validation (15%) e test (20%) sets. I risultati ottenuti nel primo esperimento suggeriscono che il dataset migliore sul quale allenare la rete neurale debba essere bilanciato fra numero di dati ed il grado di similarità fra di essi, al fine di evitare overfitting e underfitting, rispettivamente. Nell'esperimento di comparazione, invece, la rete 3D proposta ha ottenuto un coefficiente di similarità di 85.1%, associato ad un range interquartile di 4.6%. Tale risultato ha evidenziato peformances notevolmente migliori rispetto al modello 2D proposto nello stato dell'arte, basato sull'elaborazione di singole immagini. Oltre alla novità introdotta dall'architettura proposta, l'idea di includere l'informazione temporale in tale elaborazione si è rivelata particolarmente utile nel momento in cui è stata applicata su video con uno sfondo non visto durante la fase di allenamento della rete. Ciò indica che tale informazione è stata correttamente utilizzata per migliorare la capacità di generalizzazione del modello nello stimare la posizione dei punti articolari degli strumenti chirurgici.