Weakly supervised segmentation and recognition of surgical gestures

Robot-Assisted Minimally Invasive Surgery (RAMIS) is now an established practice across a range of surgical specialties, which helps improving the precision of surgical manipulation and the ergonomic comfort of the surgeon during laparoscopic surgery. With RAMIS a large dataset of video and kinematic signals can be recorded from the robotic platform during an intervention, which can be used for a range of purposes ranging from surgical skill assessment to surgical automation. However all of these functionalities are difficult to implement robustly due to the complexity of surgical tasks and the variability in users' actions. A number of researchers addressed the situation by decomposing surgical demonstrations into action-units that characterise specific surgical tasks. Automatic segmentation of these demonstrations into meaningful units can indeed help to develop new metrics for surgical skill assessment as well as simplify surgical automation. A number of approaches have been proposed to analyse robot kinematic data and video in order to obtain surgical gesture recognition. Classical approaches are based on different statistical models such as Gaussian Mixture Models (GMM), Hidden Markov Models (HMM) and Conditional Random Fields (CRF). More recently, deep learning techniques have also been employed, providing the current state-of-the-art results. These methods, however, rely on manual annotation of large datasets, which is time consuming and prone to errors. Furthermore, transitions between different sub-tasks are often not clearly defined and it is difficult to even manually generate a perfectly consistent segmentation throughout the full dataset, especially when performed by multiple people that may employ slightly different segmentation criteria. Unsupervised methods have been developed to overcome these limitations: GMM-based methods cluster trajectory samples into action classes by fitting a GMM onto the available samples; HMM-based methods represent each action class as a hidden state, or mode, of a Markov Chain and learn both the observation and the transition probabilities from unlabelled data; Bottom-up clustering approaches merge neighbouring segments according to different merging and stopping criteria; Other recognition approaches include spectral clustering variations and segmentation based on position and velocity signals. Unsupervised methods, however, often rely on tedious parameter tuning and typically perform less well than the supervised approaches, especially with data characterized by very high variability such as surgical trajectories. Hence, the potential of weak supervision to boost unsupervised methods while avoiding manual annotation of large datasets. We assume that a minor supervision is always necessary for action recognition in order to pair each identified action cluster with its physically meaningful label. This information could then be exploited in the identification process itself. The aim of this thesis is to propose a new weakly supervised approach for surgical gesture recognition. In particular we propose to use at a minimum one expert demonstration and its ground truth annotations to generate an appropriate initialization for a GMM-based recognition algorithm. We also explored the contribution of feature selection on the kinematic data and action definition on the recognition accuracy. We validated our algorithm using the kinematic data of the JIGSAWS dataset, featuring demonstrations of the suturing task collected from eight surgeons with different skill levels (expert, intermediate and novice) using the da Vinci surgical system. We evaluated the recognition performance using both extrinsic metrics, comparing the segmentation result to the ground truth annotations, and intrinsic metrics, measuring the compactness of the generated transition point clusters. We also proposed a new score, the Relative Silhouette Index (RSI), to compare the actual performance of the recognition algorithm to the expected performance in terms of cluster compactness. We showed that supervised GMM initialization significantly outperforms standard task-agnostic initialization methods, leading to 13% improvement of Normalized Mutual Information score. This demonstrates that exploiting prior information to model the initial location, shape and size of the clusters, leads to more robust identification of the actions of interest. We also demonstrated how the recognition accuracy can be further improved by carefully designing optimal feature selection and selecting the appropriate action granularity for the specific task at hand, reaching up to 85% Accuracy on expert surgeons' demonstrations. We extended our algorithm validation to intermediate and novice demonstrations, in order to test the robustness of our method against increased data variability and presence of spurious motions. We obtain 58% recognition accuracy on the full dataset. Finally we tested the potentiality of our method as online recognition tool through Leave-One-Supertrial-Out (LOSO) and Leave-One-User-Out (LOUO) cross-validation. All extrinsic and intrinsic metrics decrease when performing online segmentation of new unseen demonstrations, rather than including them in the GMM fitting phase. We obtain 56% and 54% recognition accuracy with LOSO and LOUO set-up respectively. Experimental results on real surgical kinematic trajectories therefore confirm the effectiveness of weak supervision in boosting unsupervised methods while avoiding manual annotation of large datasets. Simple GMM approaches, however, do not exploit temporal constraints such as transition probabilities between actions. This constitutes a major limitation in the analysis of sequential information such as kinematic trajectories, resulting in limited performance as the data variability increases.

La chirurgia robotica mini-invasiva è una pratica ormai ben consolidata in diverse specializzazioni chirurgiche, in quanto conferisce maggiore precisione di esecuzione e aiuta ad aumentare il benessere ergonomico del chirurgo durante interventi di laparoscopia. Grazie all'impiego di sistemi robotici è possibile raccogliere registrazioni di variabili cinematiche e video durante operazioni chirurgiche, dati che possono essere sfruttati per diverse applicazioni, che vanno dal training chirurgico all'automazione. E' tuttavia molto difficile implementare queste funzionalità in modo robusto, a causa della complessità e variabilità delle traiettorie chirurgiche. Numerosi studi hanno affrontato il problema segmentando dimostrazioni di task chirurgici in sotto-azioni caratteristiche per ogni procedura. Lo sviluppo di metodi per il riconoscimento automatico di queste unità potrebbe infatti aiutare lo sviluppo di nuove metriche di valutazione dell'abilità tecnica del chirurgo, e anche semplificare il processo di automatizzazione di alcune fasi operatorie. Numerosi approcci sono stati proposti per analizzare informazioni cinematiche e video registrati durante operazioni di chirurgia robotica al fine di effettuare il riconoscimento automatico di unità d'azione. Approcci più tradizionali sono basati su variazioni di modelli statistici come Gaussian Mixture Models (GMM), Hidden Markov Models (HMM) e Conditional Random Fields (CRF). Recentemente hanno preso piede modelli fondati su tecniche di deep learning, che forniscono i migliori risultati nello stato dell'arte attuale. Questi metodi, tuttavia, fanno affidamento su annotazioni manuali di grandi dataset, costose da generare e non totalmente affidabili. Inoltre il punto di transizione tra diverse unità non è sempre ben definito e risulta difficile generare una classificazione perfettamente coerente in tutto il dataset, soprattutto quando le annotazioni manuali sono generate da più persone che potrebbero utilizzare criteri di classificazione leggermente diversi. Diversi metodi non supervisionati sono stati sviluppati per aggirare questi limiti: gli approcci basati su GMM provano a raggruppare i campioni disponibili in cluster di azioni aventi distribuzione gaussiana; i metodi basati su HMM rappresentano ogni classe d'azione come uno stato nascosto di una Catena di Markov, e provano a stimare i modelli di osservazione e transizione da dati non annotati; i metodi di bottom-up clustering si differenziano per il criterio secondo cui uniscono segmenti adiacenti; altri approcci per il riconoscimento d'azione includono variazioni dello spectral clustering e segmentazione basata sui segnali di posizione e velocità. I metodi non supervisionati, tuttavia, fanno spesso affidamento sul tuning di parametri di soglia e generalmente hanno un livello di accuratezza inferiore rispetto agli approcci supervisionati, soprattutto con dati caratterizzati da grande variabilità come le traiettorie chirurgiche; l'introduzione di una leggera supervisione potrebbe quindi aiutare a migliorare la prestazione di tali algoritmi, pur evitando annotazioni manuali di grandi dataset. Assumendo che una leggera supervisione sia sempre necessaria per il riconoscimento d'azione, al fine di associare ad ogni classe identificata un significato fisico, dovrebbe risultare vantaggioso sfruttare questa informazione nel processo di segmentazione stesso. Lo scopo di questo lavoro è quello di proporre un nuovo approccio debolmente supervisionato per il riconoscimento di azioni chirurgiche. In particolare proponiamo di sfruttare almeno una dimostrazione di un chirurgo esperto e le corrispondenti annotazioni manuali per generare un'inizializzazione appropriata per un algoritmo di GMM clustering. Inoltre esploriamo l'influenza del dizionario d'azioni e delle grandezze cinematiche selezionate sull' accuratezza finale. Validiamo il nostro algoritmo sui dati di cinematica raccolti nel JIGSAWS dataset, che include dimostrazioni di procedure di sutura effettuate da otto chirughi con diverso livello di esperienza (principiante, intermedio o esperto) utilizzando il sistema robotico da Vinci. Valutiamo la prestazione ottenuta tramite metriche supervisionate, che comparano la segmentazione generata dal nostro algoritmo alle annotazioni manuali, e metriche non supervisionate, che misurano la compattezza dei cluster di punti di transizione identificati. Inoltre proponiamo un nuovo indice, il Relative Silhouette Index (RSI), per confrontare la prestazione ottenuata dal nostro algoritmo a quella attesa in termini di compattezza dei cluster. I risultati ottenuti dimostrano che l'inizializzazione supervisionata da noi proposta permette di raggiungere livelli di accuratezza significativamente migliori rispetto agli standard metodi di inizializzazione per GMM, presentando un incremento del 13% dell'indice di Mutua Informazione normalizzato. Dimostriamo inoltre che l'accuratezza finale può essere ulteriormente migliorata tramite un'attenta selezione dei segnali utilizzati e della granularità delle unità d'azione analizzate, raggiungendo livelli di accuratezza dell' 85% sulle dimostrazioni di chirurghi esperti. Estendiamo anche la validazione del nostro algoritmo a dimonstrazioni di chirurghi intermedi e principianti, al fine di valutare la robustezza del nostro metodo rispetto ad una maggiore variabilità dei dati e alla presenza di movimenti spurii. Otteniamo un'accuratezza del 58% sul dataset completo. Infine testiamo la potenzialità del nostro metodo come classificatore online tramite due schemi di cross-validazione, Leave-One-Supertrial-Out (LOSO) e Leave-One-User-Out (LOUO). Quando nuove traiettorie vengono segmentate tramite procedura online, tutti gli indici di valutazione presentano un leggero calo: otteniamo accuratezze del 56% e 54% con gli schemi LOSO e LOUO rispettivamente. I risultati sperimentali ottenuti analizzando dimostrazioni di chirurgia robotica quindi confermano l'efficacia di una leggera supervisione nel migliorare la prestazione di algoritmi di riconoscimento non supervisionati, evitando annotazioni manuali di grandi dataset. Semplici approcci basati su GMM, tuttavia, non sfruttano alcun tipo di vincolo temporale; ciò costituisce un limite considerevole nell'analisi di informazioni sequenziali come video e traiettorie cinematiche, limite che si manifesta in prestazioni ridotte all'aumentare della variabilità dei dati.