Colonoscopy prevents colorectal cancer by enabling detection and removal of precursor polyps, yet missed lesions and the opacity of current AI systems limit its effectiveness. This thesis advances interpretable computer-aided diagnosis by coupling a vision–language model (CLIP) with a large language model (LLM) to evolve human-readable attributes for polyp vs. non-polyp classification. We adapt CLIP to colonoscopic imagery via a data-efficient fine-tuning strategy that leverages structured, pixel-grounded pseudo-captions generated by an LLM under quality control. An evolutionary loop then refines a bank of clinically meaningful descriptors (e.g., morphology, surface texture, vascular pattern, imaging artifacts), from which compact working sets are selected by similarity or distinctiveness criteria. Across an internal test split and an external dataset (PIBAdb), the resulting classifier attains high and balanced performance, markedly improving over zeroshot CLIP and showing competitive generalization against standard CNN baselines on external data. Crucially, the model outputs per-image textual rationales and lesion-centered heatmaps/bounding boxes, aligning its decisions with endoscopic semantics. The contributions are threefold: (i) a practical pipeline that fuses LLMdriven supervision with VLM adaptation under scarce labels; (ii) an evolutionary attribute discovery scheme that yields concise, clinically legible explanations; and (iii) evidence that interpretability can be achieved without sacrificing external robustness. These results move AI-assisted endoscopy beyond opaque detections toward transparent, clinically aligned decision support.

La colonscopia previene il carcinoma colorettale consentendo la rilevazione e la rimozione dei polipi precursori; tuttavia, le lesioni mancate e l’opacità dei sistemi di intelligenza artificiale attuali ne limitano l’efficacia. Questa tesi avanza la diagnosi assistita al calcolatore interpretabile combinando un modello visione–linguaggio (CLIP) con un large language model (LLM) per evolvere attributi leggibili dall’uomo nella classificazione polipo vs. non-polipo. CLIP viene adattato alle immagini colonscopiche tramite una strategia di fine-tuning efficiente in termini di dati, che sfrutta pseudo-caption strutturate e ancorate ai pixel generate da un LLM sotto controllo di qualità. Un ciclo evolutivo raffina quindi un insieme di descrittori clinicamente significativi (ad es., morfologia, texture superficiale, pattern vascolare, artefatti di imaging), da cui vengono selezionati insiemi compatti sulla base di criteri di similarità o distintività. Su uno split di test interno e su un dataset esterno (PIBAdb), il classificatore risultante ottiene prestazioni elevate e bilanciate, migliorando nettamente rispetto al CLIP zeroshot e mostrando una generalizzazione competitiva rispetto alle baseline CNN standard su dati esterni. In modo cruciale, il modello produce per ogni immagine razionali testuali e heatmap/box centrati sulla lesione, allineando le proprie decisioni alla semantica endoscopica. I contributi sono tre: (i) una pipeline pratica che fonde supervisione guidata da LLM e adattamento di VLM in condizioni di scarsità di etichette; (ii) uno schema evolutivo di scoperta degli attributi che fornisce spiegazioni concise e clinicamente leggibili; e (iii) l’evidenza che l’interpretabilità può essere raggiunta senza sacrificare la robustezza esterna. Questi risultati spostano l’endoscopia assistita dall’IA oltre rilevazioni opache, verso un supporto decisionale trasparente e clinicamente allineato.

LLM-guided evolution of vision-language models toward interpretable AI in colonoscopy

Khiabani, Hasan
2024/2025

Abstract

Colonoscopy prevents colorectal cancer by enabling detection and removal of precursor polyps, yet missed lesions and the opacity of current AI systems limit its effectiveness. This thesis advances interpretable computer-aided diagnosis by coupling a vision–language model (CLIP) with a large language model (LLM) to evolve human-readable attributes for polyp vs. non-polyp classification. We adapt CLIP to colonoscopic imagery via a data-efficient fine-tuning strategy that leverages structured, pixel-grounded pseudo-captions generated by an LLM under quality control. An evolutionary loop then refines a bank of clinically meaningful descriptors (e.g., morphology, surface texture, vascular pattern, imaging artifacts), from which compact working sets are selected by similarity or distinctiveness criteria. Across an internal test split and an external dataset (PIBAdb), the resulting classifier attains high and balanced performance, markedly improving over zeroshot CLIP and showing competitive generalization against standard CNN baselines on external data. Crucially, the model outputs per-image textual rationales and lesion-centered heatmaps/bounding boxes, aligning its decisions with endoscopic semantics. The contributions are threefold: (i) a practical pipeline that fuses LLMdriven supervision with VLM adaptation under scarce labels; (ii) an evolutionary attribute discovery scheme that yields concise, clinically legible explanations; and (iii) evidence that interpretability can be achieved without sacrificing external robustness. These results move AI-assisted endoscopy beyond opaque detections toward transparent, clinically aligned decision support.
CARLINI, LUCA
LENA, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
La colonscopia previene il carcinoma colorettale consentendo la rilevazione e la rimozione dei polipi precursori; tuttavia, le lesioni mancate e l’opacità dei sistemi di intelligenza artificiale attuali ne limitano l’efficacia. Questa tesi avanza la diagnosi assistita al calcolatore interpretabile combinando un modello visione–linguaggio (CLIP) con un large language model (LLM) per evolvere attributi leggibili dall’uomo nella classificazione polipo vs. non-polipo. CLIP viene adattato alle immagini colonscopiche tramite una strategia di fine-tuning efficiente in termini di dati, che sfrutta pseudo-caption strutturate e ancorate ai pixel generate da un LLM sotto controllo di qualità. Un ciclo evolutivo raffina quindi un insieme di descrittori clinicamente significativi (ad es., morfologia, texture superficiale, pattern vascolare, artefatti di imaging), da cui vengono selezionati insiemi compatti sulla base di criteri di similarità o distintività. Su uno split di test interno e su un dataset esterno (PIBAdb), il classificatore risultante ottiene prestazioni elevate e bilanciate, migliorando nettamente rispetto al CLIP zeroshot e mostrando una generalizzazione competitiva rispetto alle baseline CNN standard su dati esterni. In modo cruciale, il modello produce per ogni immagine razionali testuali e heatmap/box centrati sulla lesione, allineando le proprie decisioni alla semantica endoscopica. I contributi sono tre: (i) una pipeline pratica che fonde supervisione guidata da LLM e adattamento di VLM in condizioni di scarsità di etichette; (ii) uno schema evolutivo di scoperta degli attributi che fornisce spiegazioni concise e clinicamente leggibili; e (iii) l’evidenza che l’interpretabilità può essere raggiunta senza sacrificare la robustezza esterna. Questi risultati spostano l’endoscopia assistita dall’IA oltre rilevazioni opache, verso un supporto decisionale trasparente e clinicamente allineato.
File allegati
File Dimensione Formato  
Executive_Summary_Hasan_Khiabani.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.28 MB
Formato Adobe PDF
1.28 MB Adobe PDF Visualizza/Apri
Thesis_Hasan_Khiabani.pdf

accessibile in internet per tutti a partire dal 30/09/2026

Descrizione: Thesis report
Dimensione 1.81 MB
Formato Adobe PDF
1.81 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243741