This thesis focuses on the development of deep learning models for predicting postoperative visual acuity (VA) after epiretinal membrane surgery. The motivation of the study arise from the clinical variability of visual recovery, which remains difficult to predict despite standardized surgical procedures. Previous studies have explored the use of deep learning to predict postoperative outcomes, mainly employing convolutional or multimodal fusion networks. However, their clinical applicability has remained limited due to small cohorts, reliance on manual feature extraction, and insufficient predictive accuracy for reliable decision support. A dataset of in total 1324 patients treated for idiopathic ERM at University Hospitals Leuven was analysed, including preoperative OCT scans and clinical variables such as age, sex, diabetes status, lens condition, and preoperative VA. Three main modelling strategies were investigated: (1) machine learning models trained exclusively on clinical data; (2) image-based convolutional and transformer architectures using OCT scans; and (3) multimodal networks combining imaging and clinical features. Visual explanation techniques were employed to enhance interpretability and giving visual insights of the networks reasoning. Models relying only on clinical data achieved limited predictive performance, while image-based networks provided substantially higher accuracy. The transformer-based foundation model RETFound, outperformed the convolutional ResNet101, achieving a coefficient of determination above 0.9. The multimodal fusion approach did not improve performance, suggesting that OCT-derived structural information carries the most significant prognostic signal. Grad-CAM visualizations confirmed that the networks focused on clinically relevant regions consistent with known biomarkers. These findings highlight the potential of deep learning, and especially domain-specific foundation models, to support ophthalmologists in predicting surgical outcomes. Future work should include external validation across different imaging devices and the extension of multimodal fusion using transformer-based architectures.

Questa tesi si concentra sullo sviluppo di modelli di deep learning per la previsione dell’acuità visiva (VA) dopo l’intervento chirurgico di membrana epiretinica (ERM). La motivazione nasce dalla grande variabilità clinica del recupero visivo a seguito dell’operazione, che rimane difficile da prevedere nonostante procedure chirurgiche ormai standardizzate. Studi precedenti hanno esplorato l’uso del deep learning per prevedere gli esiti post- operatori, impiegando reti convoluzionali o approcci multimodali. Tuttavia, la loro applicabilità clinica è rimasta limitata a causa di coorti ridotte, della necessità di estrazione manuale di features e di un’accuratezza predittiva bassa. È stato analizzato un dataset di 1324 pazienti trattati per ERM presso l’ospedale di Leuven (Belgio), che comprendeva scansioni OCT pre-operatorie e variabili cliniche quali età, sesso, diabete, condizione del cristallino e VA pre-operatoria. Sono state esplorate tre strategie: (1) modelli di machine learning basati su dati clinici; (2) reti convoluzionali e transformer applicate a OCT; e (3) architetture multimodali combinando informazioni cliniche e morfologiche. Sono stati inoltre impiegati interpretability tools, per interpretare il processo decisionale della rete. I modelli basati unicamente su dati clinici presentano prestazioni limitate, mentre le reti addestrate su immagini OCT raggiungono un’accuratezza significativamente superiore. Il modello RETFound, ha superato la rete convoluzionale ResNet101, ottenendo un coefficiente di determinazione superiore a 0,9. L’approccio multimodale non ha migliorato ulteriormente le prestazioni, suggerendo che le informazioni strutturali derivate dalle OCT costituiscono il principale segnale prognostico. Le Grad-CAM hanno confermato che le reti si concentrano su regioni clinicamente rilevanti coerenti con biomarcatori noti. Questi risultati evidenziano il potenziale del deep learning nel supportare gli oftalmologi nella previsione degli esiti chirurgici. Gli sviluppi futuri dovranno includere una validazione esterna su dati provenienti da diversi dispositivi OCT e l’estensione del framework multimodale a reti transformer.

Deep learning approaches for predicting postoperative visual acuity after epiretinal membrane surgery

Galvan, Giulia
2024/2025

Abstract

This thesis focuses on the development of deep learning models for predicting postoperative visual acuity (VA) after epiretinal membrane surgery. The motivation of the study arise from the clinical variability of visual recovery, which remains difficult to predict despite standardized surgical procedures. Previous studies have explored the use of deep learning to predict postoperative outcomes, mainly employing convolutional or multimodal fusion networks. However, their clinical applicability has remained limited due to small cohorts, reliance on manual feature extraction, and insufficient predictive accuracy for reliable decision support. A dataset of in total 1324 patients treated for idiopathic ERM at University Hospitals Leuven was analysed, including preoperative OCT scans and clinical variables such as age, sex, diabetes status, lens condition, and preoperative VA. Three main modelling strategies were investigated: (1) machine learning models trained exclusively on clinical data; (2) image-based convolutional and transformer architectures using OCT scans; and (3) multimodal networks combining imaging and clinical features. Visual explanation techniques were employed to enhance interpretability and giving visual insights of the networks reasoning. Models relying only on clinical data achieved limited predictive performance, while image-based networks provided substantially higher accuracy. The transformer-based foundation model RETFound, outperformed the convolutional ResNet101, achieving a coefficient of determination above 0.9. The multimodal fusion approach did not improve performance, suggesting that OCT-derived structural information carries the most significant prognostic signal. Grad-CAM visualizations confirmed that the networks focused on clinically relevant regions consistent with known biomarkers. These findings highlight the potential of deep learning, and especially domain-specific foundation models, to support ophthalmologists in predicting surgical outcomes. Future work should include external validation across different imaging devices and the extension of multimodal fusion using transformer-based architectures.
DE CLERCK, IVO
OURAK, MOULOUD
VANDER POORTEN, EMMANUEL
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Questa tesi si concentra sullo sviluppo di modelli di deep learning per la previsione dell’acuità visiva (VA) dopo l’intervento chirurgico di membrana epiretinica (ERM). La motivazione nasce dalla grande variabilità clinica del recupero visivo a seguito dell’operazione, che rimane difficile da prevedere nonostante procedure chirurgiche ormai standardizzate. Studi precedenti hanno esplorato l’uso del deep learning per prevedere gli esiti post- operatori, impiegando reti convoluzionali o approcci multimodali. Tuttavia, la loro applicabilità clinica è rimasta limitata a causa di coorti ridotte, della necessità di estrazione manuale di features e di un’accuratezza predittiva bassa. È stato analizzato un dataset di 1324 pazienti trattati per ERM presso l’ospedale di Leuven (Belgio), che comprendeva scansioni OCT pre-operatorie e variabili cliniche quali età, sesso, diabete, condizione del cristallino e VA pre-operatoria. Sono state esplorate tre strategie: (1) modelli di machine learning basati su dati clinici; (2) reti convoluzionali e transformer applicate a OCT; e (3) architetture multimodali combinando informazioni cliniche e morfologiche. Sono stati inoltre impiegati interpretability tools, per interpretare il processo decisionale della rete. I modelli basati unicamente su dati clinici presentano prestazioni limitate, mentre le reti addestrate su immagini OCT raggiungono un’accuratezza significativamente superiore. Il modello RETFound, ha superato la rete convoluzionale ResNet101, ottenendo un coefficiente di determinazione superiore a 0,9. L’approccio multimodale non ha migliorato ulteriormente le prestazioni, suggerendo che le informazioni strutturali derivate dalle OCT costituiscono il principale segnale prognostico. Le Grad-CAM hanno confermato che le reti si concentrano su regioni clinicamente rilevanti coerenti con biomarcatori noti. Questi risultati evidenziano il potenziale del deep learning nel supportare gli oftalmologi nella previsione degli esiti chirurgici. Gli sviluppi futuri dovranno includere una validazione esterna su dati provenienti da diversi dispositivi OCT e l’estensione del framework multimodale a reti transformer.
File allegati
File Dimensione Formato  
2025_12_Galvan_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 21.71 MB
Formato Adobe PDF
21.71 MB Adobe PDF   Visualizza/Apri
2025_12_Galvan_Executive_Summary.pdf

accessibile in internet per tutti

Dimensione 2.68 MB
Formato Adobe PDF
2.68 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247283