Realistic online 3D reconstruction and robust tracking from endoscopic video are crucial for intraoperative inspection and navigation. However, existing methods often neglect realistic light modeling, rely on offline optimization, or depend solely on fragile photometric tracking, limiting physically plausible rendering and stable localization during live procedures. To address these limitations, we propose LumenGSLAM, the first fully online SLAM framework that integrates physically based rendering (PBR) within a 3D Gaussian representation for endoscopic scenes. The system couples a SuperPoint/LightGlue-based keypoint tracker with Perspective-n-Point (PnP) pose estimation, ensuring robust localization under rapid motion and challenging illumination. Furthermore, surface-aligned Gaussian initialization and per-parameter gradient scaling enhance anatomical fidelity and stabilize optimization. Evaluated on the C3VD and SCARED datasets, LumenGSLAM achieves state-of-the-art (SOTA) online reconstruction and tracking performance, attaining PSNR = 30.6, SSIM = 0.89, and LPIPS = 0.23 on C3VD, outperforming all online baselines and approaching the quality of the offline SOTA PR-ENDO model. It also yields the lowest Absolute Trajectory Error (ATE = 0.93 mm) and Rotational Error (ARE = 0.98°), demonstrating robustness even under large inter-frame motions. Overall, LumenGSLAM establishes a new benchmark for online endoscopic reconstruction, achieving photometrically consistent and anatomically accurate mapping through explicit light modeling and geometry-aware Gaussian optimization, making it a strong candidate for intraoperative navigation and future dynamic tissue modeling.
La ricostruzione 3D realistica in tempo reale ed il tracking robusto da video endoscopici sono elementi fondamentali per l’ispezione e la navigazione intraoperatoria. Tuttavia, gli approcci esistenti spesso trascurano una modellazione realistica della luce, si basano su ottimizzazioni offline oppure dipendono esclusivamente da un tracking fotometrico fragile, limitando così la coerenza fisica del rendering e la stabilità della localizzazione durante le procedure in tempo reale. Per superare tali limitazioni, proponiamo LumenGSLAM, il primo framework SLAM completamente online che integra un modello di "Physical Based Rendering" (PBR) all’interno di una rappresentazione tridimensionale a Gaussiane (3D Gaussian Splatting) per scene endoscopiche. Il sistema combina un tracking keypoint-based utilizzando SuperPoint/LightGlue con una stima della posa tramite Perspective-n-Point (PnP), garantendo una localizzazione robusta anche in presenza di movimenti rapidi e condizioni di illuminazione complesse. Inoltre, l’inizializzazione "surface-aligned" delle Gaussiane e lo scaling per parametro del gradiente migliorano la fedeltà anatomica e stabilizzano l’ottimizzazione. Valutato sui dataset C3VD e SCARED, LumenGSLAM raggiunge prestazioni di ricostruzione e tracking allo stato dell’arte in modalità online, ottenendo PSNR = 30.6, SSIM = 0.89 e LPIPS = 0.23 su C3VD, superando tutte le baseline online e avvicinandosi alla qualità del modello offline PR-ENDO. Inoltre, ottiene il più basso errore di traiettoria assoluto (ATE = 0.93 mm) e di rotazione (ARE = 0.98°), dimostrando robustezza anche in presenza di ampi spostamenti tra frame consecutivi. Nel complesso, LumenGSLAM stabilisce un nuovo benchmark per la ricostruzione endoscopica online, garantendo una mappatura fotometricamente coerente e anatomicamente accurata grazie alla modellazione esplicita della luce e a un’ottimizzazione geometrico-consapevole delle Gaussiane, configurandosi come un candidato promettente per la navigazione intraoperatoria e future estensioni verso la modellazione dinamica dei tessuti.
LumenGSLAM: online physically based rendering with Gaussian Splatting for robust endoscopic reconstruction and tracking
LENI, FRANCESCO
2024/2025
Abstract
Realistic online 3D reconstruction and robust tracking from endoscopic video are crucial for intraoperative inspection and navigation. However, existing methods often neglect realistic light modeling, rely on offline optimization, or depend solely on fragile photometric tracking, limiting physically plausible rendering and stable localization during live procedures. To address these limitations, we propose LumenGSLAM, the first fully online SLAM framework that integrates physically based rendering (PBR) within a 3D Gaussian representation for endoscopic scenes. The system couples a SuperPoint/LightGlue-based keypoint tracker with Perspective-n-Point (PnP) pose estimation, ensuring robust localization under rapid motion and challenging illumination. Furthermore, surface-aligned Gaussian initialization and per-parameter gradient scaling enhance anatomical fidelity and stabilize optimization. Evaluated on the C3VD and SCARED datasets, LumenGSLAM achieves state-of-the-art (SOTA) online reconstruction and tracking performance, attaining PSNR = 30.6, SSIM = 0.89, and LPIPS = 0.23 on C3VD, outperforming all online baselines and approaching the quality of the offline SOTA PR-ENDO model. It also yields the lowest Absolute Trajectory Error (ATE = 0.93 mm) and Rotational Error (ARE = 0.98°), demonstrating robustness even under large inter-frame motions. Overall, LumenGSLAM establishes a new benchmark for online endoscopic reconstruction, achieving photometrically consistent and anatomically accurate mapping through explicit light modeling and geometry-aware Gaussian optimization, making it a strong candidate for intraoperative navigation and future dynamic tissue modeling.| File | Dimensione | Formato | |
|---|---|---|---|
|
MSc_Thesis___Francesco_Leni.pdf
accessibile in internet per tutti
Descrizione: Manoscritto di Tesi
Dimensione
95.3 MB
Formato
Adobe PDF
|
95.3 MB | Adobe PDF | Visualizza/Apri |
|
MSc_Francesco___Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
41.37 MB
Formato
Adobe PDF
|
41.37 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/247170