Colorectal cancer (CRC) is one of the most common and deadly malignancies worldwide and, in Italy, the second most frequent cancer after breast cancer, with about 50,500 new cases estimated in 2023 and a rise of over 15% versus 2020. Early detection and accurate classification of colorectal polyps are critical to improving outcomes, as morphology guides surveillance and treatment decisions in routine colonoscopy. This thesis addresses the development of interpretable and robust visual classifiers for polyp detection and classification in colonoscopic images using vision language models to assist medical staff during diagnoses. The methodological approach comprised comprehensive experiments on clinically relevant datasets, using SUN as the principal dataset (99 patients, 112 distinct videos) and PIBAdb for initial considerations. Key techniques include careful text prompt engineering based on clinical terminology, fine-tuning of pre-trained CLIP and DINOv2 architectures, and parameter efficient adaptation via LoRA modules. Data augmentation, optimizer tuning, and early stopping were applied to maximize generalization despite limited data availability. Our findings demonstrate exceptional performance improvements through domain-specific fine-tuning, with CLIP ViT-L/14 models fine-tuned with contrastive loss on full-size images achieving balanced accuracies up to 82.8%, representing a substantial improvement over zero-shot approaches that showed complete failures on certain polyp subtypes. The strongest configuration delivered perfect recall for the negative class while maintaining class-balanced F1-scores above 80% across three clinically significant classes. A custom CLIP model using DINOv2 image encoders combined with LoRA achieved balanced accuracies exceeding 80% while updating only a small fraction of parameters, demonstrating enhanced computational efficiency. Explainability studies confirmed that fine-tuned models successfully suppressed spurious alignment with non-medical terminology and produced clinically coherent attention maps, capturing morphologically relevant features essential for clinical decision-making, with preservation of full image context proving superior to cropping approaches for polyp subtype discrimination. To the best of our knowledge, this study is the first to use customized CLIP models to jointly localize, classify, and describe colorectal polyps in colonoscopy. The achieved 82.8% balanced accuracy establishes a new benchmark for automated polyp classification, delivering a clinically validated multimodal pipeline that fuses visual and textual cues, with promising implications for CRC screening and early intervention, paving the way for LLM-based extensions and deployment on larger datasets.

Il cancro colorettale (CRC) è una delle neoplasie più comuni e mortali al mondo e, in Italia, il secondo tumore più frequente dopo quello al seno, con circa 50.500 nuovi casi stimati nel 2023 e un aumento di oltre il 15% rispetto al 2020. La diagnosi precoce e la classificazione accurata dei polipi colorettali sono fondamentali per migliorare gli esiti clinici, poiché la morfologia guida le decisioni di sorveglianza e trattamento nella colonscopia di routine. Questa tesi affronta lo sviluppo di classificatori visivi interpretabili e robusti per la rilevazione e classificazione di polipi nelle immagini colonoscopiche utilizzando modelli di visione-linguaggio per assistere il personale medico durante le diagnosi. L’approccio metodologico ha compreso esperimenti completi su dataset clinicamente rilevanti, utilizzando SUN come dataset principale (99 pazienti, 112 video distinti) e PIBAdb per considerazioni e test iniziali. Le tecniche chiave includono un’attenta ingegnerizzazione dei prompt testuali basata sulla terminologia clinica, il fine-tuning di architetture CLIP e DINOv2 pre-addestrate, e l’adattamento efficiente dei parametri tramite moduli LoRA. Aumentazione dei dati, ottimizzazione degli ottimizzatori ed early stopping sono stati applicati per massimizzare la generalizzazione nonostante la limitata disponibilità di dati. I nostri risultati dimostrano miglioramenti eccezionali delle prestazioni attraverso il fine-tuning specifico del dominio, con i modelli CLIP ViT-L/14 sottoposti a fine-tuning con contrastive loss su immagini complete che raggiungono accuratezze bilanciate fino all’82,8%, rappresentando un miglioramento sostanziale rispetto agli approcci zero-shot che non riconoscono correttamente certi sottotipi di polipi. La configurazione più efficace ha ottenuto un recall perfetto per la classe negativa mantenendo F1-score bilanciati superiori all’80% su tre classi clinicamente significative. Il nostro modello CLIP personalizzato utilizzando encoder di immagini DINOv2 combinati con LoRA ha raggiunto accuratezze bilanciate superiori all’80% aggiornando solo una piccola frazione di parametri, dimostrando un’efficienza computazionale migliorata. Gli studi di spiegabilità hanno confermato che i modelli sottoposti a fine-tuning hanno soppresso con successo l’allineamento spurio con terminologie non mediche e hanno prodotto mappe di attenzione clinicamente coerenti, catturando caratteristiche morfologicamente rilevanti essenziali per il processo decisionale clinico. Preservando l’immagine intera e fornendo un contesto completo si è dimostrato superiore agli approcci di ritaglio per il riconoscimento delle classi dei polipi. Al meglio delle nostre conoscenze, questo studio è il primo a utilizzare modelli CLIP personalizzati per localizzare, classificare e descrivere congiuntamente i polipi colorettali nell’esame colonoscopico. L’accuratezza bilanciata raggiunta dell’82,8% stabilisce un nuovo benchmark per la classificazione automatizzata dei polipi, fornendo una pipeline multimodale clinicamente validata che fonde segnali visivi e testuali, con implicazioni promettenti per lo screening del CRC e l’intervento precoce, aprendo la strada a estensioni basate su LLM e al deployment su dataset più ampi.

Evolving interpretable visual classifiers in colonoscopic images

STORCHI, RICCARDO
2024/2025

Abstract

Colorectal cancer (CRC) is one of the most common and deadly malignancies worldwide and, in Italy, the second most frequent cancer after breast cancer, with about 50,500 new cases estimated in 2023 and a rise of over 15% versus 2020. Early detection and accurate classification of colorectal polyps are critical to improving outcomes, as morphology guides surveillance and treatment decisions in routine colonoscopy. This thesis addresses the development of interpretable and robust visual classifiers for polyp detection and classification in colonoscopic images using vision language models to assist medical staff during diagnoses. The methodological approach comprised comprehensive experiments on clinically relevant datasets, using SUN as the principal dataset (99 patients, 112 distinct videos) and PIBAdb for initial considerations. Key techniques include careful text prompt engineering based on clinical terminology, fine-tuning of pre-trained CLIP and DINOv2 architectures, and parameter efficient adaptation via LoRA modules. Data augmentation, optimizer tuning, and early stopping were applied to maximize generalization despite limited data availability. Our findings demonstrate exceptional performance improvements through domain-specific fine-tuning, with CLIP ViT-L/14 models fine-tuned with contrastive loss on full-size images achieving balanced accuracies up to 82.8%, representing a substantial improvement over zero-shot approaches that showed complete failures on certain polyp subtypes. The strongest configuration delivered perfect recall for the negative class while maintaining class-balanced F1-scores above 80% across three clinically significant classes. A custom CLIP model using DINOv2 image encoders combined with LoRA achieved balanced accuracies exceeding 80% while updating only a small fraction of parameters, demonstrating enhanced computational efficiency. Explainability studies confirmed that fine-tuned models successfully suppressed spurious alignment with non-medical terminology and produced clinically coherent attention maps, capturing morphologically relevant features essential for clinical decision-making, with preservation of full image context proving superior to cropping approaches for polyp subtype discrimination. To the best of our knowledge, this study is the first to use customized CLIP models to jointly localize, classify, and describe colorectal polyps in colonoscopy. The achieved 82.8% balanced accuracy establishes a new benchmark for automated polyp classification, delivering a clinically validated multimodal pipeline that fuses visual and textual cues, with promising implications for CRC screening and early intervention, paving the way for LLM-based extensions and deployment on larger datasets.
CARLINI, LUCA
LENA, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il cancro colorettale (CRC) è una delle neoplasie più comuni e mortali al mondo e, in Italia, il secondo tumore più frequente dopo quello al seno, con circa 50.500 nuovi casi stimati nel 2023 e un aumento di oltre il 15% rispetto al 2020. La diagnosi precoce e la classificazione accurata dei polipi colorettali sono fondamentali per migliorare gli esiti clinici, poiché la morfologia guida le decisioni di sorveglianza e trattamento nella colonscopia di routine. Questa tesi affronta lo sviluppo di classificatori visivi interpretabili e robusti per la rilevazione e classificazione di polipi nelle immagini colonoscopiche utilizzando modelli di visione-linguaggio per assistere il personale medico durante le diagnosi. L’approccio metodologico ha compreso esperimenti completi su dataset clinicamente rilevanti, utilizzando SUN come dataset principale (99 pazienti, 112 video distinti) e PIBAdb per considerazioni e test iniziali. Le tecniche chiave includono un’attenta ingegnerizzazione dei prompt testuali basata sulla terminologia clinica, il fine-tuning di architetture CLIP e DINOv2 pre-addestrate, e l’adattamento efficiente dei parametri tramite moduli LoRA. Aumentazione dei dati, ottimizzazione degli ottimizzatori ed early stopping sono stati applicati per massimizzare la generalizzazione nonostante la limitata disponibilità di dati. I nostri risultati dimostrano miglioramenti eccezionali delle prestazioni attraverso il fine-tuning specifico del dominio, con i modelli CLIP ViT-L/14 sottoposti a fine-tuning con contrastive loss su immagini complete che raggiungono accuratezze bilanciate fino all’82,8%, rappresentando un miglioramento sostanziale rispetto agli approcci zero-shot che non riconoscono correttamente certi sottotipi di polipi. La configurazione più efficace ha ottenuto un recall perfetto per la classe negativa mantenendo F1-score bilanciati superiori all’80% su tre classi clinicamente significative. Il nostro modello CLIP personalizzato utilizzando encoder di immagini DINOv2 combinati con LoRA ha raggiunto accuratezze bilanciate superiori all’80% aggiornando solo una piccola frazione di parametri, dimostrando un’efficienza computazionale migliorata. Gli studi di spiegabilità hanno confermato che i modelli sottoposti a fine-tuning hanno soppresso con successo l’allineamento spurio con terminologie non mediche e hanno prodotto mappe di attenzione clinicamente coerenti, catturando caratteristiche morfologicamente rilevanti essenziali per il processo decisionale clinico. Preservando l’immagine intera e fornendo un contesto completo si è dimostrato superiore agli approcci di ritaglio per il riconoscimento delle classi dei polipi. Al meglio delle nostre conoscenze, questo studio è il primo a utilizzare modelli CLIP personalizzati per localizzare, classificare e descrivere congiuntamente i polipi colorettali nell’esame colonoscopico. L’accuratezza bilanciata raggiunta dell’82,8% stabilisce un nuovo benchmark per la classificazione automatizzata dei polipi, fornendo una pipeline multimodale clinicamente validata che fonde segnali visivi e testuali, con implicazioni promettenti per lo screening del CRC e l’intervento precoce, aprendo la strada a estensioni basate su LLM e al deployment su dataset più ampi.
File allegati
File Dimensione Formato  
Tesi_RiccardoStorchi_01.pdf

accessibile in internet per tutti a partire dal 22/09/2026

Descrizione: Master's Thesis: EVOLVING INTERPRETABLE VISUAL CLASSIFIERS IN COLONOSCOPIC IMAGES
Dimensione 18.18 MB
Formato Adobe PDF
18.18 MB Adobe PDF   Visualizza/Apri
Executive_Summary_RiccardoStorchi_7.pdf

accessibile in internet per tutti a partire dal 29/09/2026

Descrizione: Executive Summary
Dimensione 1.37 MB
Formato Adobe PDF
1.37 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243309