Monocular depth estimation for endoscopy: exploiting temporal consistency with a transformer-based architecture

The main limitation of minimally invasive surgery (MIS) is the lack of accurate, real-time depth information provided by standard monocular endoscopes. This deficiency critically hinders the surgeon's spatial perception, limiting precise control of instruments and preventing the use of advanced computer-assisted navigation and robotic systems. This thesis addresses the problem by introducing a new dynamic multiframe deep learning framework, specifically designed to generate temporally stable and geometrically consistent depth maps from endoscopic image sequences. The proposed architecture improves upon a basic dynamic model used in the automotive industry by integrating the cutting-edge capabilities of a self-supervised Vision Transformer, leveraged for robust, pre-trained feature extraction, and a dense prediction network, used for high-resolution spatial mapping. This integrative design is critical for ensuring multi-view and temporal consistency, which is essential for reliably modeling the complex, texture-poor scenes and non-rigid tissue deformations inherent in surgical environments. When evaluated against baselines established on a reference surgical dataset, the improved framework demonstrated superior qualitative and quantitative performance. The resulting depth maps showed significantly improved spatial consistency and temporal stability compared to currently available models, effectively generating clear anatomical boundaries and mitigating the frame-to-frame inconsistency often associated with monocular depth prediction. This research successfully validates a method for obtaining dense, reliable, and stable 3D information from conventional endoscopes. The developed system provides a fundamental spatial component for computer-assisted surgery and next-generation robotics, representing a step forward toward safer, more precise, and more effective surgical procedures.

Il limite principale della chirurgia mininvasiva è la mancanza di informazioni accurate e in tempo reale sulla profondità fornite dagli endoscopi monoculari standard. Questa carenza ostacola in modo critico la percezione spaziale del chirurgo, limitando il controllo preciso degli strumenti e impedendo l'utilizzo di sistemi avanzati di navigazione assistita da computer e robotica. Questa tesi affronta il problema introducendo un nuovo framework di deep learning dinamico multiframe, progettato specificamente per generare mappe di profondità temporalmente stabili e geometricamente coerenti a partire da sequenze di immagini endoscopiche. L'architettura proposta migliora un modello dinamico di base, utilizzato nel settore automobilistico, integrando le funzionalità all'avanguardia di un Vision Transformer auto-supervisionato, sfruttato per un'estrazione robusta e pre-addestrata delle caratteristiche, e una rete di previsione densa, utilizzata per la mappatura spaziale ad alta risoluzione. Questo design integrativo è fondamentale per garantire la coerenza multi-vista e temporale, essenziale per modellare in modo affidabile le scene complesse e povere di texture e le deformazioni dei tessuti non rigidi inerenti agli ambienti chirurgici. Valutato rispetto a linee di base stabilite su un set di dati chirurgici di riferimento, il framework migliorato ha dimostrato prestazioni qualitative e quantitative superiori. Le mappe di profondità risultanti hanno mostrato una coerenza spaziale e una stabilità temporale notevolmente migliorate rispetto anche ai modelli attualmente disponibili, generando efficacemente confini anatomici chiari e mitigando l'inconsistenza frame-to-frame spesso associata alla previsione della profondità monoculare. Questa ricerca convalida con successo un metodo per ottenere informazioni 3D affidabili dagli endoscopi convenzionali. Il sistema sviluppato fornisce una componente spaziale fondamentale per la chirurgia assistita da computer e la robotica di nuova generazione, rappresentando un passo avanti verso procedure chirurgiche più sicure, precise ed efficaci.