Action recognition in robot-assisted minimally invasive surgery

In the last decades, surgical field has been characterized by an increasing amount of innovations. Starting from how the Operating Room (OR) is structured, in terms of instruments and devices used during a surgical procedure, as well as surgical techniques applied. Laparosocopic surgery, for example, was introduced in the 80s and the promising results in terms of surgical outcomes and reduction in patient invasiveness brought to an increasing effort in developing new instruments and improving the surgical techniques applied until that moment. In the end of the 20th century then the first robots were introduced in medical field in applications ranging from the neurological field to the orthopaedic field and finally their application in robot-assisted minimally invasive surgery (RAMIS). Thanks to all these innovations, modern OR are thus provided with a wide amount of imaging and monitoring devices, sensors and cameras providing information both to the medical staff and to the surgeon. Because of this, there is nowadays a growing interest combining all this information to create an intelligent system, a context-aware system, able to support medical staff pre-operatively and mostly intra-operatively, for example providing the staff information about the instrument to be used, the next action to be performed or generating alarms in case of danger for the patient. This thesis aims at performing action recognition during robot-assisted minimally invasive surgery. The purpose is to use the automatically recognized actions as a possible context-aware tool to aid in surgical training and in intraoperative decision-making. In the case of study the considered procedure was robotically assisted partial nephrectomy (RAPN) performed with the use of the da Vinci robot. The available data to fulfil this task were 8 annotated procedural videos. The actions considered in this study were five: cut, dissect, mark, resect and suture. Since nobody before ever faced up the problem of action recognition performed only with the use laparoscopic videos, we approached the problem implementing two different neural networks and applied them in two different experimental protocols. The choice over the use of neural network was driven by their ability to automatically extract the relevant features from images. In the first implementation, called "Single-stream", the video is fed to a convolutional neural network (CNN), which extracts the characteristic features from the frames, followed by a recurrent architecture aiming at learning the specific features succession in time. The second implementation, called "Double-stream", instead introduces as input also the optical flow, in the form of image, which provides spatio-temporal information generated between successive frames. This double stream of information (RGB and flow images) is thus generated and fed to two parallel CNNs and the extracted features are combined before being fed to recurrent units. In order to avoid the inclusion of the motion generated by the organs in the flow images, the tip of the instrument performing the action was detected and flow was extracted only in the specific section of the image containing it. In the first experimental protocol, the "Single-stream" architecture was applied to perform action recognition over the previously defined five classes. In the second protocol the original class dissection was subdivided into two subclasses, each one characterized by a specific motion. Both "Single-stream" and "Double-stream" architectures were in this case exploited and their results where then compared. The use of the "Single-stream" architecture on the original dataset provided an accuracy of 89,4%, an average precision of 92,4% and an average recall of 86,6%. Results obtained from the second protocol show that the combination of optical flow and RGB images in this case provided a much greater accuracy than with the only use of RGB images. The use of the "Double-stream" provided in fact an average accuracy of 86,7% while the use of the "Single-stream" provided an average accuracy of 73,3%.

Negli ultimi decenni, il campo della chirurgia è stato caratterizzato da una sempre maggiore quantità di innovazioni. Partendo innanzitutto da come la sala operatoria è strutturata, in termini di strumenti utilizzati e apparecchiature elettroniche, e considerando poi le tecniche chirurgiche applicate. La chirurgia laparoscopica fu introdotta negli anni '80 e i promettenti risultati, sia a livello della qualità dell'operazione sia a livello di riduzione dell'invasività verso il paziente, hanno spinto a sviluppare una sempre più innovativa strumentazione chirurgica e a modificare le tecniche chirurgiche applicate sino a quel momento. La fine del ventesimo secolo ha visto anche l'introduzione dei robot in ambito chirurgico, utilizzati dalla neurologia, all'ortopedia e, in fine, per la chirurgia mininvasiva. Grazie alle suddette innovazioni, le sale operatorie moderne sono provviste di apparecchiature per imaging e monitoraggio, sensori e telecamere che forniscono una vasta quantità di informazioni sia al chirurgo che allo staff di sala. Per questo motivo oggi vi è un sempre maggiore interesse nel combinare queste informazioni e creare un sistema intelligente conscio di quello che sta succedendo in sala operatoria. Tale sistema non solo supporta lo staff in fase pre-operatoria ma soprattutto in fase intra-operatoria fornendo, ad esempio, informazioni sullo strumento che deve essere utilizzato, l'azione successiva che deve essere eseguita e fornendo allarmi in caso di pericolo per il paziente. Il fine di questa tesi è quello di fornire il riconoscimento delle azioni eseguite durante operazioni di chirurgia mininvasiva, effettuate con l'ausilio di un robot. Lo scopo è quello di utilizzare le azioni riconosciute automaticamente come un possibile elemento di context-awareness per facilitare il processo decisionale sull'azione da compiere in fase intraoperatoria e facilitare il training chirurgico. In questo lavoro è stata considerata la nefrectomia parziale effettuata con il robot chirurgico da Vinci e i dati a disposizione erano 8 video annotati di procedure chirurgiche. Il lavoro si è basato sul riconoscimento di 5 azioni diverse: cut, dissect, mark, resect e suture. Il problema del riconoscimento delle azioni effettuato con il solo utilizzo di video laparoscopici non è mai stato affrontato in letteratura, per questo motivo abbiamo implementato due differenti reti neurali e le abbiamo successivamente applicate in due protocolli sperimentali. La scelta dell'utilizzo delle reti neurali è stata dettata dalla loro capacità di estrarre automaticamente le features significative dalle immagini. Nella prima implementazione, chiamata "Single-stream", i video delle azioni vengono passati a una rete convoluzionale per estrarne le features caratteristiche e successivamente queste svolgono da input a una struttura ricorrente il cui scopo è apprendere la sequenza delle features nel tempo. Nella seconda implementazione, chiamata "Double-stream", invece le informazioni fornite alla rete sono duali; vi è infatti l'introduzione del flusso ottico, sotto forma di immagine, che codifica al suo interno informazioni spaziotemporali. I due input in questo caso (video e flusso ottico tra immagini successive), vengono passati a due reti convoluzionali parallele e le features estratte da queste vengono combinate prima di arrivare alla parte ricorsiva della struttura. Al fine di evitare l'inclusione del movimento degli organi nelle immagini contenenti il flusso ottico, è stata utilizzata una rete che riconosce la punta dello strumento e il flusso ottico è stato considerato solo in questa area dell'immagine. Nel primo protocollo sperimentale, l'architettura "Single-stream", è stata utilizzata per effettuare il riconoscimento delle cinque azioni precedentemente definite. Nel secondo protocollo invece, la classe dissection del dataset originale è stata suddivisa in due sottoclassi, ognuna caratterizzata da un movimento specifico. In questo caso sia l'architettura "Single-stream" che quella "Double-stream" sono state utilizzate e i rispettivi risultati sono stati confrontati. L'utilizzo dell'architettura "Single-stream" sul dataset originale ha fornito un'accuratezza dell'89,4%, una precisione media pari a 92,4% e un recall medio pari a 86,6%. I risultati ottenuti col secondo protocollo mostrano invece che l'utilizzo di immagini RGB e flusso ottico, in questo caso garantiscono un'accuratezza maggiore rispetto al solo uso delle immagini RGB. L'utilizzo della rete "Double-stream" infatti ha fornito un'accuratezza media del 86,7%, mentre l'utilizzo della "Single-stream" ha fornito un'accuratezza media del 73,3%.