The Earth Observation scientific community has long faced challenges, particularly due to data preprocessing, data availability, and the complexity of geospatial information. Analyzing this data effectively requires addressing both its spatial and temporal dimensions. Artificial intelligence has proven useful in addressing many challenges in Earth Observation, particularly in tasks such as segmentation, classification, and object detection in satellite imagery. However, these tasks are often complex due to the unique nature of geospatial data. Computer vision has been evolving and improving over time, with early models primarily focusing on RGB images. However, recent advancements, such as Vision Transformers and other modern architectures, are increasingly being adapted for more complex geospatial tasks, offering greater capabilities in handling satellite imagery and other multi-spectral data. There have been various models, architectures, and dataset benchmarks used for satellite imagery, playing key roles in advancing geospatial AI. However, the NASA-IBM developed Prithvi-100M foundation model represents the first true foundation model specifically designed for geospatial tasks. Unlike previous models that were typically specialized for single applications, Prithvi is a multi-task, multi-modal model capable of addressing diverse challenges in satellite imagery, including segmentation, classification, and change detection, while incorporating both spatial and temporal dynamics. This research tackles two primary challenges in geospatial data analysis: how to handle spatial-temporal datasets and how to avoid the need for extensive preprocessing and training from scratch. We demonstrate how Prithvi, a geospatial foundation model, can streamline this process by eliminating the need for large datasets and reducing time and computational resources. Our focus in this research is on detecting illegal runways in the Amazon basin—an environmental issue that threatens the integrity of the rainforest. Although Prithvi has been fine-tuned for tasks such as flood detection, burn scar detection and crop segmentation, this study applies it to the more challenging problem of detecting clandestine runways. These runways are small in scale, present extended variations of appearances and are part of an imbalanced dataset, making detection difficult. Despite these challenges, our implementation started by a mean Intersection over Union (mIoU) of 59.67 was able to improve it to a mIoU of 80.14 in this segmentation task, showcasing the model's effectiveness in addressing complex geospatial problems.

La comunità scientifica dell'Osservazione della Terra ha dovuto affrontare a lungo delle sfide, in particolare a causa della pre-elaborazione dei dati, della disponibilità dei dati e della complessità delle informazioni geospaziali. Per analizzare questi dati in modo efficace è necessario affrontare sia le loro dimensioni spaziali che temporali. L'intelligenza artificiale si è dimostrata utile nell'affrontare molte sfide nell'Osservazione della Terra, in particolare in attività come la segmentazione, la classificazione e il rilevamento di oggetti nelle immagini satellitari. Tuttavia, queste attività sono spesso complesse a causa della natura unica dei dati geospaziali. La visione artificiale si è evoluta e migliorata nel tempo, con i primi modelli principalmente incentrati sulle immagini RGB. Tuttavia, i recenti progressi, come Vision Transformers e altre architetture moderne, vengono sempre più adattati per attività geospaziali più complesse, offrendo maggiori capacità nella gestione delle immagini satellitari e di altri dati multispettrali. Sono stati utilizzati vari modelli, architetture e benchmark di set di dati per le immagini satellitari, che hanno svolto un ruolo chiave nel progresso dell'IA geospaziale. Tuttavia, il modello di fondazione Prithvi-100M sviluppato dalla NASA e dall'IBM rappresenta il primo vero modello di fondazione specificamente progettato per attività geospaziali. A differenza dei modelli precedenti che erano tipicamente specializzati per singole applicazioni, Prithvi è un modello multi-task e multi-modale in grado di affrontare diverse sfide nelle immagini satellitari, tra cui segmentazione, classificazione e rilevamento dei cambiamenti, incorporando al contempo dinamiche spaziali e temporali. Questa ricerca affronta due sfide principali nell'analisi dei dati geospaziali: come gestire set di dati spazio-temporali e come evitare la necessità di un'ampia pre-elaborazione e formazione da zero. Dimostriamo come Prithvi, un modello di fondazione geospaziale, può semplificare questo processo eliminando la necessità di grandi set di dati e riducendo tempo e risorse di calcolo. Il nostro obiettivo in questa ricerca è rilevare piste illegali nel bacino amazzonico, un problema ambientale che minaccia l'integrità della foresta pluviale. Sebbene Prithvi sia stato messo a punto per attività come il rilevamento di inondazioni, il rilevamento di cicatrici da ustioni e la segmentazione delle colture, questo studio lo applica al problema più impegnativo del rilevamento di piste clandestine. Queste piste sono di piccole dimensioni, presentano variazioni estese di aspetto e fanno parte di un set di dati sbilanciato, rendendo difficile il rilevamento. Nonostante queste sfide, la nostra implementazione è partita da un'intersezione media su unione (mIoU) di 59,67 ed è riuscita a migliorarla fino a un mIoU di 80,14 in questo compito di segmentazione, dimostrando l'efficacia del modello nell'affrontare problemi geospaziali complessi.

Adapting a pretrained foundation model for secret runway detection in Sentinel-2 imagery: a performance evaluation

Soleimaniansomarin, Fatemeh
2024/2025

Abstract

The Earth Observation scientific community has long faced challenges, particularly due to data preprocessing, data availability, and the complexity of geospatial information. Analyzing this data effectively requires addressing both its spatial and temporal dimensions. Artificial intelligence has proven useful in addressing many challenges in Earth Observation, particularly in tasks such as segmentation, classification, and object detection in satellite imagery. However, these tasks are often complex due to the unique nature of geospatial data. Computer vision has been evolving and improving over time, with early models primarily focusing on RGB images. However, recent advancements, such as Vision Transformers and other modern architectures, are increasingly being adapted for more complex geospatial tasks, offering greater capabilities in handling satellite imagery and other multi-spectral data. There have been various models, architectures, and dataset benchmarks used for satellite imagery, playing key roles in advancing geospatial AI. However, the NASA-IBM developed Prithvi-100M foundation model represents the first true foundation model specifically designed for geospatial tasks. Unlike previous models that were typically specialized for single applications, Prithvi is a multi-task, multi-modal model capable of addressing diverse challenges in satellite imagery, including segmentation, classification, and change detection, while incorporating both spatial and temporal dynamics. This research tackles two primary challenges in geospatial data analysis: how to handle spatial-temporal datasets and how to avoid the need for extensive preprocessing and training from scratch. We demonstrate how Prithvi, a geospatial foundation model, can streamline this process by eliminating the need for large datasets and reducing time and computational resources. Our focus in this research is on detecting illegal runways in the Amazon basin—an environmental issue that threatens the integrity of the rainforest. Although Prithvi has been fine-tuned for tasks such as flood detection, burn scar detection and crop segmentation, this study applies it to the more challenging problem of detecting clandestine runways. These runways are small in scale, present extended variations of appearances and are part of an imbalanced dataset, making detection difficult. Despite these challenges, our implementation started by a mean Intersection over Union (mIoU) of 59.67 was able to improve it to a mIoU of 80.14 in this segmentation task, showcasing the model's effectiveness in addressing complex geospatial problems.
KOLOKOUSIS, POLYCHRONIS
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
11-dic-2024
2024/2025
La comunità scientifica dell'Osservazione della Terra ha dovuto affrontare a lungo delle sfide, in particolare a causa della pre-elaborazione dei dati, della disponibilità dei dati e della complessità delle informazioni geospaziali. Per analizzare questi dati in modo efficace è necessario affrontare sia le loro dimensioni spaziali che temporali. L'intelligenza artificiale si è dimostrata utile nell'affrontare molte sfide nell'Osservazione della Terra, in particolare in attività come la segmentazione, la classificazione e il rilevamento di oggetti nelle immagini satellitari. Tuttavia, queste attività sono spesso complesse a causa della natura unica dei dati geospaziali. La visione artificiale si è evoluta e migliorata nel tempo, con i primi modelli principalmente incentrati sulle immagini RGB. Tuttavia, i recenti progressi, come Vision Transformers e altre architetture moderne, vengono sempre più adattati per attività geospaziali più complesse, offrendo maggiori capacità nella gestione delle immagini satellitari e di altri dati multispettrali. Sono stati utilizzati vari modelli, architetture e benchmark di set di dati per le immagini satellitari, che hanno svolto un ruolo chiave nel progresso dell'IA geospaziale. Tuttavia, il modello di fondazione Prithvi-100M sviluppato dalla NASA e dall'IBM rappresenta il primo vero modello di fondazione specificamente progettato per attività geospaziali. A differenza dei modelli precedenti che erano tipicamente specializzati per singole applicazioni, Prithvi è un modello multi-task e multi-modale in grado di affrontare diverse sfide nelle immagini satellitari, tra cui segmentazione, classificazione e rilevamento dei cambiamenti, incorporando al contempo dinamiche spaziali e temporali. Questa ricerca affronta due sfide principali nell'analisi dei dati geospaziali: come gestire set di dati spazio-temporali e come evitare la necessità di un'ampia pre-elaborazione e formazione da zero. Dimostriamo come Prithvi, un modello di fondazione geospaziale, può semplificare questo processo eliminando la necessità di grandi set di dati e riducendo tempo e risorse di calcolo. Il nostro obiettivo in questa ricerca è rilevare piste illegali nel bacino amazzonico, un problema ambientale che minaccia l'integrità della foresta pluviale. Sebbene Prithvi sia stato messo a punto per attività come il rilevamento di inondazioni, il rilevamento di cicatrici da ustioni e la segmentazione delle colture, questo studio lo applica al problema più impegnativo del rilevamento di piste clandestine. Queste piste sono di piccole dimensioni, presentano variazioni estese di aspetto e fanno parte di un set di dati sbilanciato, rendendo difficile il rilevamento. Nonostante queste sfide, la nostra implementazione è partita da un'intersezione media su unione (mIoU) di 59,67 ed è riuscita a migliorarla fino a un mIoU di 80,14 in questo compito di segmentazione, dimostrando l'efficacia del modello nell'affrontare problemi geospaziali complessi.
File allegati
File Dimensione Formato  
2024_12_Soleimaniansomarin.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 3.12 MB
Formato Adobe PDF
3.12 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230932