This thesis explores the potential of combining existing land cover datasets (ESA HRLC10) and geospatial embeddings for high-resolution land cover mapping using different sampling strategies and supervised classifiers. Sampling is formulated as a structured and iterative design problem, and three progressively refined strategies—class-based stratification, spatially constrained stratification, and Ecoregion–Class stratification—are implemented within a scalable geospatial processing framework based on tile streaming, spatial indexing, and quota-driven selection. Sampled locations are spatially aligned with 64-dimensional Google Satellite Embeddings (GSE) to construct standardized feature–label datasets. Under a controlled classification protocol, multiple supervised models are trained and evaluated to isolate the influence of sampling structure on predictive performance. The results demonstrate that incorporating ecological differentiation and spatial independence significantly enhances classification robustness and geographic generalization, highlighting the critical role of sampling design in embedding-driven land cover mapping.
Questa tesi esplora il potenziale della combinazione di set di dati di copertura del suolo esistenti (ESA HRLC10) e incorporamenti geospaziali per la mappatura ad alta risoluzione della copertura del suolo utilizzando diverse strategie di campionamento e classificatori supervisionati. Il campionamento è formulato come un problema di progettazione strutturato e iterativo e tre strategie progressivamente perfezionate – stratificazione basata su classi, stratificazione con vincoli spaziali e stratificazione per classi di ecoregione – sono implementate all'interno di un framework di elaborazione geospaziale scalabile basato su streaming di tile, indicizzazione spaziale e selezione basata su quote. Le posizioni campionate sono allineate spazialmente con Google Satellite Embeddings (GSE) a 64 dimensioni per costruire set di dati standardizzati con etichette di feature. Utilizzando un protocollo di classificazione controllato, vengono addestrati e valutati più modelli supervisionati per isolare l'influenza della struttura di campionamento sulle prestazioni predittive. I risultati dimostrano che l'incorporazione della differenziazione ecologica e dell'indipendenza spaziale migliora significativamente la robustezza della classificazione e la generalizzazione geografica, evidenziando il ruolo cruciale della progettazione del campionamento nella mappatura della copertura del suolo basata sull'incorporamento.
Exploring different sampling frameworks for embedding-driven high resolution global land cover classification
SUN, ZHENYUN
2025/2026
Abstract
This thesis explores the potential of combining existing land cover datasets (ESA HRLC10) and geospatial embeddings for high-resolution land cover mapping using different sampling strategies and supervised classifiers. Sampling is formulated as a structured and iterative design problem, and three progressively refined strategies—class-based stratification, spatially constrained stratification, and Ecoregion–Class stratification—are implemented within a scalable geospatial processing framework based on tile streaming, spatial indexing, and quota-driven selection. Sampled locations are spatially aligned with 64-dimensional Google Satellite Embeddings (GSE) to construct standardized feature–label datasets. Under a controlled classification protocol, multiple supervised models are trained and evaluated to isolate the influence of sampling structure on predictive performance. The results demonstrate that incorporating ecological differentiation and spatial independence significantly enhances classification robustness and geographic generalization, highlighting the critical role of sampling design in embedding-driven land cover mapping.| File | Dimensione | Formato | |
|---|---|---|---|
|
Exploring Different Sampling Frameworks for Embedding-Driven High Resolution Global Land Cover Classification.pdf
non accessibile
Descrizione: PDF
Dimensione
23.76 MB
Formato
Adobe PDF
|
23.76 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/252667