Fine-tuning the Prithvi foundation model for land cover segmentation using the MOLCA benchmark dataset

This thesis focuses on developing a robust preprocessing pipeline to prepare the MOLCA land cover dataset for fine-tuning the Prithvi geospatial foundation model. The dataset, covering Africa, Amazonia, and Siberia, initially suffered from severe class imbalance and a high proportion of invalid (null) pixels, making much of the raw data unsuitable for training. To address these issues, the study introduced a refined preprocessing framework centered on targeted spatial sampling and class balancing. The chip size was reduced from 224×224 to 64×64 pixels, significantly improving data purity and enabling better representation of minority classes. A proportional logarithmic sampling strategy was then applied to ensure balanced class distributions while preserving geographic diversity. Each chip was annotated with class and location metadata, allowing integration with Harmonized Landsat and Sentinel-2 (HLS) imagery to create a multi-spectral, geographically consistent dataset. The pipeline was fully optimized for GPU processing, achieving high computational efficiency and scalability. When used to fine-tune the Prithvi model, the processed dataset led to robust cross-continental generalization, achieving a Kappa Coefficient of up to 0.8643. The results demonstrate that thoughtful data preprocessing through class balancing, spatial diversity, and efficient computation is essential for maximizing the potential of foundation models in large-scale land cover mapping.

Questa tesi si concentra sullo sviluppo di una solida pipeline di pre-elaborazione per preparare il dataset di copertura del suolo MOLCA al fine di eseguire il fine-tuning del modello geospaziale di base Prithvi. Il dataset, che copre Africa, Amazzonia e Siberia, presentava inizialmente un forte squilibrio tra le classi e un’elevata percentuale di pixel non validi (null), rendendo gran parte dei dati grezzi inadatti all’addestramento. Per affrontare questi problemi, lo studio ha introdotto un quadro di pre-elaborazione avanzato, basato su una campionatura spaziale mirata e sull’equilibrio tra classi. La dimensione delle “chip” è stata ridotta da 224×224 a 64×64 pixel, migliorando significativamente la purezza dei dati e consentendo una migliore rappresentazione delle classi minoritarie. È stata quindi applicata una strategia di campionamento logaritmico proporzionale per garantire una distribuzione equilibrata delle classi, preservando al contempo la diversità geografica. Ogni chip è stata annotata con metadati relativi alla classe e alla posizione, permettendo l’integrazione con le immagini Harmonized Landsat e Sentinel-2 (HLS) per creare un dataset multispettrale e geograficamente coerente. La pipeline è stata completamente ottimizzata per l’elaborazione GPU, raggiungendo un’elevata efficienza computazionale e scalabilità. Utilizzato per il fine-tuning del modello Prithvi, il dataset elaborato ha portato a una generalizzazione robusta su scala intercontinentale, raggiungendo un coefficiente di Kappa fino a 0,8643. I risultati dimostrano che una pre-elaborazione accurata dei dati, attraverso l’equilibrio tra classi, la diversità spaziale e un’elaborazione efficiente, è essenziale per massimizzare il potenziale dei modelli di base nella mappatura della copertura del suolo su larga scala.