Ocular Proton Therapy (OPT) treats ocular melanomas with high precision, requiring constant eye monitoring to prevent damage to healthy tissues. At the National Centre for Oncological Hadrontherapy (CNAO, Pavia), the Eye-Tracking System (ETS) allows operators to supervise irradiation and halt the beam if misalignments occur. This study aims to automate this process by developing a Deep Learning-based model for real-time segmentation of ETS frames. A total of 1,683 frames were extracted from videos of 172 patients treated at CNAO. The training set included 1,349 frames, augmented to 3,902; 110 and 224 frames were used for validation and testing respectively. Unlike previous methods using Region of Interest (ROI) extraction and cascaded U-Net models, the proposed approach directly segments full images into iris, pupil, and background, streamlining the workflow. The study integrates Vision Transformers, evolving from hybrid CNN-Transformer architectures to the fully Transformer-based MedFormer model. Evaluation metrics (IoU, DSC, SSC) demonstrated high segmentation performance. Additionally, patient-specific fine-tuning further improved results. Moreover, the total inference time was found to be sufficiently low to achieve real-time processing. To evaluate clinical suitability, the model’s segmentations were compared to four sets of manual annotations, showing that the MedFormer in certain cases outperforms manual pupil segmentation while matching human performance for the iris. These findings support deep learning integration into OPT, reducing operator-induced errors and delays in beam termination, ultimately enhancing treatment precision and patient outcomes.

La Protonterapia Oculare (OPT) tratta i melanomi oculari con alta precisione, richiedendo un monitoraggio costante dell’occhio per prevenire danni ai tessuti sani. Presso il Centro Nazionale di Adroterapia Oncologica (CNAO, Pavia), il sistema di Eye-Tracking (ETS) consente agli operatori di supervisionare l'irradiazione e interrompere il fascio in caso di disallineamenti. Questo studio mira ad automatizzare tale processo sviluppando un modello basato su Deep Learning per la segmentazione in tempo reale dei frame acquisiti tramite l’ETS. Sono stati estratti un totale di 1,683 frame da video di 172 pazienti trattati al CNAO. Il set di training comprende 1,349 frame, aumentati a 3,902; 110 e 224 frame sono stati utilizzati rispettivamente per la validazione e il test. A differenza di metodi precedenti che utilizzano l'estrazione della Regione di Interesse (ROI) e modelli U-Net a cascata, l'approccio proposto semplifica il flusso di lavoro, effettuando la segmentazione direttamente sulle immagini complete ed assegnando ciascun pixel a una delle tre classi: iride, pupilla o background. Lo studio integra Vision Transformers, evolvendo da architetture ibride CNN-Transformer fino al modello MedFormer, completamente basato su Transformer. Le metriche di valutazione (IoU, DSC, SSC) hanno dimostrato elevate prestazioni di segmentazione. Inoltre, un fine-tuning paziente specifico ha ulteriormente migliorato i risultati. Il tempo di inferenza totale è risultato sufficientemente basso da consentire l'elaborazione in tempo reale. Per valutare l'idoneità clinica, le segmentazioni del modello sono state confrontate con quattro set di annotazioni manuali, mostrando che il MedFormer a volte supera la segmentazione manuale della pupilla e raggiunge le prestazioni degli operatori umani per l’iride. Questi risultati supportano l’integrazione del Deep Learning nella OPT, riducendo errori indotti dagli operatori e ritardi nell'interruzione del fascio, migliorando così la precisione del trattamento e gli esiti per i pazienti.

Ocular Proton Therapy at CNAO: a deep learning-based apporach for eye segmentation

Pinori, Celeste;ARIATA, GABRIELE
2023/2024

Abstract

Ocular Proton Therapy (OPT) treats ocular melanomas with high precision, requiring constant eye monitoring to prevent damage to healthy tissues. At the National Centre for Oncological Hadrontherapy (CNAO, Pavia), the Eye-Tracking System (ETS) allows operators to supervise irradiation and halt the beam if misalignments occur. This study aims to automate this process by developing a Deep Learning-based model for real-time segmentation of ETS frames. A total of 1,683 frames were extracted from videos of 172 patients treated at CNAO. The training set included 1,349 frames, augmented to 3,902; 110 and 224 frames were used for validation and testing respectively. Unlike previous methods using Region of Interest (ROI) extraction and cascaded U-Net models, the proposed approach directly segments full images into iris, pupil, and background, streamlining the workflow. The study integrates Vision Transformers, evolving from hybrid CNN-Transformer architectures to the fully Transformer-based MedFormer model. Evaluation metrics (IoU, DSC, SSC) demonstrated high segmentation performance. Additionally, patient-specific fine-tuning further improved results. Moreover, the total inference time was found to be sufficiently low to achieve real-time processing. To evaluate clinical suitability, the model’s segmentations were compared to four sets of manual annotations, showing that the MedFormer in certain cases outperforms manual pupil segmentation while matching human performance for the iris. These findings support deep learning integration into OPT, reducing operator-induced errors and delays in beam termination, ultimately enhancing treatment precision and patient outcomes.
HLADCHUCK, MAKSYM
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La Protonterapia Oculare (OPT) tratta i melanomi oculari con alta precisione, richiedendo un monitoraggio costante dell’occhio per prevenire danni ai tessuti sani. Presso il Centro Nazionale di Adroterapia Oncologica (CNAO, Pavia), il sistema di Eye-Tracking (ETS) consente agli operatori di supervisionare l'irradiazione e interrompere il fascio in caso di disallineamenti. Questo studio mira ad automatizzare tale processo sviluppando un modello basato su Deep Learning per la segmentazione in tempo reale dei frame acquisiti tramite l’ETS. Sono stati estratti un totale di 1,683 frame da video di 172 pazienti trattati al CNAO. Il set di training comprende 1,349 frame, aumentati a 3,902; 110 e 224 frame sono stati utilizzati rispettivamente per la validazione e il test. A differenza di metodi precedenti che utilizzano l'estrazione della Regione di Interesse (ROI) e modelli U-Net a cascata, l'approccio proposto semplifica il flusso di lavoro, effettuando la segmentazione direttamente sulle immagini complete ed assegnando ciascun pixel a una delle tre classi: iride, pupilla o background. Lo studio integra Vision Transformers, evolvendo da architetture ibride CNN-Transformer fino al modello MedFormer, completamente basato su Transformer. Le metriche di valutazione (IoU, DSC, SSC) hanno dimostrato elevate prestazioni di segmentazione. Inoltre, un fine-tuning paziente specifico ha ulteriormente migliorato i risultati. Il tempo di inferenza totale è risultato sufficientemente basso da consentire l'elaborazione in tempo reale. Per valutare l'idoneità clinica, le segmentazioni del modello sono state confrontate con quattro set di annotazioni manuali, mostrando che il MedFormer a volte supera la segmentazione manuale della pupilla e raggiunge le prestazioni degli operatori umani per l’iride. Questi risultati supportano l’integrazione del Deep Learning nella OPT, riducendo errori indotti dagli operatori e ritardi nell'interruzione del fascio, migliorando così la precisione del trattamento e gli esiti per i pazienti.
File allegati
File Dimensione Formato  
2025_04_Ariata_Pinori_Tesi.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Dimensione 6.35 MB
Formato Adobe PDF
6.35 MB Adobe PDF   Visualizza/Apri
2025_04_Ariata_Pinori_Executive Summary.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Dimensione 1.37 MB
Formato Adobe PDF
1.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235599