Zero-shot vision-language foundation models for open-vocabulary remote sensing: dynamic object-aware tiling and cross-view segmentation

Zero-shot vision-language foundation models enable object detection and segmentation from natural language prompts without task-specific retraining. While this paradigm offers flexibility for open-vocabulary analysis, its direct application to high-resolution remote sensing imagery is constrained by extreme image size, heterogeneous object distributions, and computational limitations. This thesis investigates the practical deployment of zero-shot vision--language models for large-scale aerial segmentation. Building upon an existing language-guided pipeline, multiple modern detection and segmentation backbones are integrated and systematically evaluated under controlled experimental conditions. A central contribution of this work is the proposed Dynamic Object-Aware Tiling (DOAT) strategy, which performs lightweight probing to estimate object scale and density prior to inference, and adapts window configuration accordingly. Unlike static or purely adaptive slicing methods, DOAT aims to balance segmentation quality and computational efficiency in content-dependent scenes. Evaluation on a curated subset of the iSAID dataset shows that dynamic tiling consistently improves mean Intersection-over-Union (mIoU) across backbone combinations compared to adaptive baselines, without proportionally increasing runtime. Additionally, a Milan-based cross-view case study explores how aerial segmentation can be supported by street-level imagery through localized confirmation and recovery analysis. Overall, this thesis provides a structured experimental assessment and methodological refinement of zero-shot open-vocabulary segmentation for remote sensing, highlighting both its scalability potential and its practical constraints.

I modelli fondazionali visione-linguaggio consentono la rilevazione e la segmentazione zero-shot di oggetti a partire da descrizioni in linguaggio naturale, senza la necessità di riaddestramento specifico per ciascuna categoria. Sebbene questo paradigma offra una maggiore flessibilità per analisi open-vocabulary, la sua applicazione diretta alle immagini di telerilevamento ad alta risoluzione è limitata dalle dimensioni estreme delle scene, dalla distribuzione eterogenea degli oggetti e dai vincoli computazionali. Questa tesi analizza l’impiego pratico di modelli visione--linguaggio zero-shot per la segmentazione di immagini aeree su larga scala. Partendo da una pipeline esistente guidata dal linguaggio, vengono integrati e valutati in modo sistematico diversi backbone moderni per la rilevazione e la segmentazione, in condizioni sperimentali controllate. Il contributo metodologico principale consiste nella proposta della strategia Dynamic Object-Aware Tiling (DOAT), che esegue un probing preliminare leggero per stimare scala e densità degli oggetti prima dell’inferenza completa, adattando dinamicamente la configurazione delle finestre di elaborazione. A differenza delle strategie di suddivisione statica o puramente adattiva, DOAT mira a bilanciare qualità della segmentazione ed efficienza computazionale in funzione del contenuto della scena. La valutazione condotta su un sottoinsieme curato del dataset iSAID mostra che la suddivisione dinamica migliora in modo consistente il valore medio di Intersection-over-Union (mIoU) rispetto alle baseline adattive, senza un incremento proporzionale del tempo di esecuzione. Inoltre, uno studio di caso cross-view nell’area di Milano esplora come la segmentazione aerea possa essere supportata da immagini a livello stradale attraverso meccanismi di conferma locale e analisi di recupero. Nel complesso, il lavoro fornisce una valutazione sperimentale strutturata e un affinamento metodologico dell’impiego di modelli visione--linguaggio zero-shot per il telerilevamento, evidenziandone potenzialità e limiti in scenari geospaziali su larga scala.