Analysis of optimal data dimensionality and model architecture for naturalness investigation

Regardless of the technological advancements of the past years, there are still many pitfalls in the remote sensing monitoring of wilderness and naturalness, the main one being the high dimensionality of satellite imagery. On one hand, high-dimensional datasets are very informative; however, due to their complexity, they might tend to hide key insights. Furthermore, the scarcity of labeled data in the field of remote sensing might prove problematic but is here overcome by the use of the AnthroProtect dataset, which provides a vast amount of labeled images from Sentinel-2 satellite imagery on the Fennoscandian region. Deep Learning has quickly become an important tool in this field, due to the ability to deal with high-dimensional data and large datasets, but the complexity of its architectures might present challenges. In order to efficiently deal with this data and extract insights, we need to find an optimal balance between the data dimensionality and model architecture. This work addresses the problem by conducting experiments on two different tasks – image classification and semantic segmentation - to find the balance in three key areas: batch size, band configuration, and model architecture. The results obtained from the experiments show over 98% accuracy in image classification, with the optimal configuration being a ResNet18 model using RGB data in 256 size batches. For semantic segmentation, the optimal configuration turned out to be a U-Net architecture with RGB data on a batch size of 2, due to its runtime efficiency with minimal impact on the mean IoU performance, which scored consistently over 86%. This study contributes to the field by providing an optimality analysis that can be a starting point to enhance the understanding and management of wilderness areas through improved model performance.

Nonostante il progresso tecnologico avvenuto negli ultimi anni, rimangono molte difficoltà nel monitoraggio da telerilevamento della natura incontaminata, tra le quali la principale è l’alta dimensionalità delle immagine satellitari; tuttavia, a causa della loro complessità, potrebbero nascondere informazioni chiave. Inoltre, la scarsità di dati pre-classificati in telerilevamento può rivelarsi problematica, ma viene qui superata grazie all’impiego del dataset AnthroProtect che fornisce un ampio quantitativo di immagini già etichettate, sulla regione della Fennoscandia. Il Deep Learning è diventato rapidamente uno strumento molto importante in questo campo, grazie alla sua capacità di gestire dati altamente dimensionali e grandi dataset, ma la complessità dei suoi modelli di architetture può presentare delle sfide. Per gestire efficacemente questi dati ed estrarre informazioni, bisogna trovare un equilibrio ottimale tra la dimensionalità dei dati a disposizione e l’architettura del modello. Questa tesi affronta il problema conducendo esperimenti su due ambiti diversi - image classification e la semantic segmentation - per trovare l’equilibrio in tre aree chiave diverse: batch size, configurazione delle bande spettrali in ingresso, e architettura del modello. I risultati ottenuti dagli esperimenti mostrano nella classificazione delle immagini una precisione superiore al 98%, con la configurazione ottimale rappresentata da un modello ResNet18 che utilizza dati RGB in batch di dimensione 256. Per la semantic segmentation, la configurazione ottimale si è rivelata essere un’architettura U-Net con dati RGB su batch di dimensione 2, dovuta alla sua efficienza in termini di tempo di esecuzione, con un impatto minimo sulla performance media dell’IoU, che ha registrato costantemente valori superiori all’86%. Questo studio contribuisce alla ricerca in ambito fornendo un’analisi di ottimalità che può essere un punto di partenza per migliorare la comprensione e la gestione delle aree protette e di natura incontaminata attraverso il miglioramento delle prestazioni del modello.