Achieving high accuracy and computational efficiency in the segmentation of surgical instruments during surgical procedures is becoming fundamental to enabling a high level of autonomy and safety in robot-assisted surgery. Foundation models such as the Segment Anything Model (SAM) are widely available and exhibit strong generalization but remain impractical for real-life applications due to the high computational cost, latency, and reliance on manual prompts. For these reasons researchers are trying to develop methods in order to obtain all the potential of these models and reduce the drawbacks that make them impractical to use. This work proposes a lightweight model that provides prompt-free instrument segmentation and classification, suitable for real-time applications. The segmentation model is obtained through a two-stage knowledge distillation framework that transfers the segmentation capabilities of SAM to a lightweight convolutional-transformer network, composed of a CMT image encoder and pure CNN mask decoder, thereby enabling fully automatic prompt-free inference. In the first stage the encoder of the lightweight network was aligned with the output of SAM’s encoder. Subsequently, the decoder was aligned with the same strategy. Finally, supervised fine-tuning was performed to optimize end-to-end performance of the model using surgical annotations. Two versions of the student network are proposed: large and small, differentiated by the size of its CMT encoder. The proposed model was trained on a combination of the MICCAI EndoVis 2017 and CholecSeg8k datasets, two publicly available datasets of robot-assisted and manual procedures. An extensive evaluation through these datasets demonstrates that the large model achieves competitive accuracy (IoU: 0.8919 ± 0.1347) with 21.78 ± 2.31 ms of inference time, which is over 70 times faster than SAM. While the small version reaches an IoU of 0.8703 ± 0.1199 with 15.48 ± 1.99 ms of inference time. The classification task is exploited by an additional head optimized in the fine-tuning phase, composed of a pre-trained EfficientNet-B0 network. The model reaches a maximum accuracy of 0.9505 ± 0.043 across all instruments and a great balance between precision and recall that leads to an F1-score of 0.8648 ± 0.104. Overall, this framework delivers accurate, real-time surgical tool segmentation and classification with minimal computational overhead, opening the possibility for integration into resource-constrained clinical systems.

Raggiungere un’elevata accuratezza e un’elevata efficienza computazionale nella segmentazione degli strumenti chirurgici durante le procedure chirurgiche sta diventando fondamentale per garantire un alto livello di autonomia e sicurezza nella chirurgia robot-assistita. I foundation models, come Segment Anything Model (SAM), sono oggi largamente disponibili e mostrano una forte capacità di generalizzazione ma non possono essere impiegati in applicazioni reali a causa del loro elevato costo computazionale, della latenza e della dipendenza da prompt manuali. Per queste ragioni, la ricerca si sta concentrando sullo sviluppo di metodi in grado di mantenere tutto il potenziale di tali modelli riducendone al contempo gli svantaggi che ne rendono impraticabile l’uso. Questo lavoro propone un modello leggero che consente la segmentazione e classificazione degli strumenti chirurgici senza l’uso di prompt, adatto ad applicazioni in tempo reale. Il modello di segmentazione è ottenuto mediante un architettura di knowledge distillation a due stadi, che trasferisce le capacità di segmentazione di SAM a una rete neurale transformer-convoluzionale leggera, composta da un encoder CMT e da un decoder basato interamente su CNN, permettendo così un’inferenza completamente automatica e priva di prompt. Nella prima fase, l’encoder della rete leggera viene allineato con l’output dell’encoder di SAM. Successivamente, il decoder viene addestrato con la stessa strategia. Infine, viene eseguito un fine-tuning supervisionato per ottimizzare le prestazioni complessive del modello in modalità end-to-end utilizzando annotazioni chirurgiche. Vengono proposte due versioni della rete student: una grande e una piccola, differenziate in base alla dimensione dell’encoder CMT. Il modello proposto è stato addestrato su una combinazione dei dataset pubblici EndoVis 2017 e CholecSeg8k, relativi a procedure chirurgiche robot-assistite e manuali. Un’estesa valutazione condotta su questi dataset ha dimostrato che il modello nella versione large raggiunge un’accuratezza competitiva (IoU: 0.8919 ± 0.1347), con un tempo d'inferenza di 21.78 ± 2.31 ms, risultando oltre 70 volte più veloce di SAM. La versione small ottiene invece un IoU di 0.8703 ± 0.1199, con un tempo d'inferenza di 15.48 ± 1.99 ms. La classificazione degli strumenti chirurgici è ottenuta mediante una componente aggiuntiva, composta da una rete EfficientNet-B0 pre-addestrata, che viene ottimizzata nella fase di fine-tuning. Dopo un’ampia valutazione, il classificatore ha raggiunto un’accuratezza massima di 0.9505 ± 0.04 considerando tutti gli strumenti, con buon equilibrio tra precisone e sensitività ottenendo un valore di F1 pari a 0.8648 ± 0.104. Nel complesso, questi modelli forniscono segmentazione e classificazione degli strumenti chirurgici accurate e in tempo reale, con un minimo consumo computazionale, aprendo la possibilità d'integrazione in sistemi clinici con risorse limitate.

Efficient prompt-free surgical tools segmentation and classification via knowledge distillation

De Zen, Marco
2024/2025

Abstract

Achieving high accuracy and computational efficiency in the segmentation of surgical instruments during surgical procedures is becoming fundamental to enabling a high level of autonomy and safety in robot-assisted surgery. Foundation models such as the Segment Anything Model (SAM) are widely available and exhibit strong generalization but remain impractical for real-life applications due to the high computational cost, latency, and reliance on manual prompts. For these reasons researchers are trying to develop methods in order to obtain all the potential of these models and reduce the drawbacks that make them impractical to use. This work proposes a lightweight model that provides prompt-free instrument segmentation and classification, suitable for real-time applications. The segmentation model is obtained through a two-stage knowledge distillation framework that transfers the segmentation capabilities of SAM to a lightweight convolutional-transformer network, composed of a CMT image encoder and pure CNN mask decoder, thereby enabling fully automatic prompt-free inference. In the first stage the encoder of the lightweight network was aligned with the output of SAM’s encoder. Subsequently, the decoder was aligned with the same strategy. Finally, supervised fine-tuning was performed to optimize end-to-end performance of the model using surgical annotations. Two versions of the student network are proposed: large and small, differentiated by the size of its CMT encoder. The proposed model was trained on a combination of the MICCAI EndoVis 2017 and CholecSeg8k datasets, two publicly available datasets of robot-assisted and manual procedures. An extensive evaluation through these datasets demonstrates that the large model achieves competitive accuracy (IoU: 0.8919 ± 0.1347) with 21.78 ± 2.31 ms of inference time, which is over 70 times faster than SAM. While the small version reaches an IoU of 0.8703 ± 0.1199 with 15.48 ± 1.99 ms of inference time. The classification task is exploited by an additional head optimized in the fine-tuning phase, composed of a pre-trained EfficientNet-B0 network. The model reaches a maximum accuracy of 0.9505 ± 0.043 across all instruments and a great balance between precision and recall that leads to an F1-score of 0.8648 ± 0.104. Overall, this framework delivers accurate, real-time surgical tool segmentation and classification with minimal computational overhead, opening the possibility for integration into resource-constrained clinical systems.
MAGRO, MATTIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Raggiungere un’elevata accuratezza e un’elevata efficienza computazionale nella segmentazione degli strumenti chirurgici durante le procedure chirurgiche sta diventando fondamentale per garantire un alto livello di autonomia e sicurezza nella chirurgia robot-assistita. I foundation models, come Segment Anything Model (SAM), sono oggi largamente disponibili e mostrano una forte capacità di generalizzazione ma non possono essere impiegati in applicazioni reali a causa del loro elevato costo computazionale, della latenza e della dipendenza da prompt manuali. Per queste ragioni, la ricerca si sta concentrando sullo sviluppo di metodi in grado di mantenere tutto il potenziale di tali modelli riducendone al contempo gli svantaggi che ne rendono impraticabile l’uso. Questo lavoro propone un modello leggero che consente la segmentazione e classificazione degli strumenti chirurgici senza l’uso di prompt, adatto ad applicazioni in tempo reale. Il modello di segmentazione è ottenuto mediante un architettura di knowledge distillation a due stadi, che trasferisce le capacità di segmentazione di SAM a una rete neurale transformer-convoluzionale leggera, composta da un encoder CMT e da un decoder basato interamente su CNN, permettendo così un’inferenza completamente automatica e priva di prompt. Nella prima fase, l’encoder della rete leggera viene allineato con l’output dell’encoder di SAM. Successivamente, il decoder viene addestrato con la stessa strategia. Infine, viene eseguito un fine-tuning supervisionato per ottimizzare le prestazioni complessive del modello in modalità end-to-end utilizzando annotazioni chirurgiche. Vengono proposte due versioni della rete student: una grande e una piccola, differenziate in base alla dimensione dell’encoder CMT. Il modello proposto è stato addestrato su una combinazione dei dataset pubblici EndoVis 2017 e CholecSeg8k, relativi a procedure chirurgiche robot-assistite e manuali. Un’estesa valutazione condotta su questi dataset ha dimostrato che il modello nella versione large raggiunge un’accuratezza competitiva (IoU: 0.8919 ± 0.1347), con un tempo d'inferenza di 21.78 ± 2.31 ms, risultando oltre 70 volte più veloce di SAM. La versione small ottiene invece un IoU di 0.8703 ± 0.1199, con un tempo d'inferenza di 15.48 ± 1.99 ms. La classificazione degli strumenti chirurgici è ottenuta mediante una componente aggiuntiva, composta da una rete EfficientNet-B0 pre-addestrata, che viene ottimizzata nella fase di fine-tuning. Dopo un’ampia valutazione, il classificatore ha raggiunto un’accuratezza massima di 0.9505 ± 0.04 considerando tutti gli strumenti, con buon equilibrio tra precisone e sensitività ottenendo un valore di F1 pari a 0.8648 ± 0.104. Nel complesso, questi modelli forniscono segmentazione e classificazione degli strumenti chirurgici accurate e in tempo reale, con un minimo consumo computazionale, aprendo la possibilità d'integrazione in sistemi clinici con risorse limitate.
File allegati
File Dimensione Formato  
2025_12_DeZen_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive summary
Dimensione 4.99 MB
Formato Adobe PDF
4.99 MB Adobe PDF   Visualizza/Apri
2025_12_DeZen_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo tesi
Dimensione 46.73 MB
Formato Adobe PDF
46.73 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247346