The use of AI technologies in data processing pipelines for geospatial-related tasks has been the focus of many individuals in both the professional and academic domains. The idea of having more accessible interfaces and tools that allow people of little or no experience to intuitively interact with geospatial data of multiple formats allows people of all backgrounds to do so. However, the use of AI and AI agents to help automate GIS-related tasks is still in its infancy stage, with some frameworks and interfaces built on top of well-known language models such as GPT-4 and Llama. These tools do promise and draw guidelines on the potentials and limitations of existing solutions concerning the use of said models. In this work, we review the established research and draw from it the best practices and implementations, then we review the up-to-date technologies that might prove to be useful in this context. In the experimental phase, ordinary geospatial tasks solved using the technologies discussed are presented with different use cases and domains, their performance is evaluated visually and numerically in some cases. The lessons and takeaways from these isolated examples are then aggregated and exploited to solve general case studies organized in this work, the case studies contain both existing and original ones. In the existing ones, the general workflow and process of ingesting the inputs and producing the outputs is replicated using the technologies and methods discussed in this work. For the original case studies, this work presents pipelines that integrate the use of the technologies as AI solutions or tools within the workflows to automate specific tasks that would require human interaction in a normal scenario. In the last case study, the process of identifying and segmenting trees in an area in Athens is done using a multi modal model that uses the satellite image and a text prompt of the desired object to be segmented as input, and in an automated manner produces the semantic labels of all the trees present in the image. The pipeline designed in this study upscales the original accuracy of the model sitting at almost 50% up to almost 98% using iterative and statistical techniques.

L'uso delle tecnologie IA nei flussi di elaborazione dati per compiti correlati alla geospazialità è stato al centro dell'interesse di molti individui sia nel campo professionale che accademico. L'idea di avere interfacce e strumenti più accessibili che permettano a persone con poca o nessuna esperienza di interagire in modo intuitivo con dati geospaziali di vari formati consente a persone con qualsiasi background di farlo. Tuttavia, l'uso dell'IA e degli agenti di IA per aiutare ad automatizzare i compiti relativi ai GIS è ancora in fase iniziale, con alcuni framework e interfacce costruiti su modelli di linguaggio ben noti come GPT-4 e Llama. Questi strumenti promettono e tracciano linee guida sulle potenzialità e limitazioni delle soluzioni esistenti riguardo l'uso di tali modelli. In questo lavoro, rivediamo la ricerca consolidata e ne estraiamo le migliori pratiche e implementazioni, poi esaminiamo le tecnologie aggiornate che potrebbero rivelarsi utili in questo contesto. Nella fase sperimentale, vengono presentati compiti geospaziali ordinari risolti utilizzando le tecnologie discusse con diversi casi di utilizzo e domini, e in alcuni casi la loro performance viene valutata visivamente e numericamente. Le lezioni e le considerazioni tratte da questi esempi isolati sono poi aggregate e sfruttate per risolvere casi di studio generali organizzati in questo lavoro, i casi di studio contengono sia quelli esistenti sia originali. Nei casi già esistenti, il flusso di lavoro generale e il processo di ingestione degli input e produzione degli output vengono replicati utilizzando le tecnologie e i metodi discussi in questo lavoro. Per i casi di studio originali, questo lavoro presenta pipeline che integrano l'uso delle tecnologie come soluzioni o strumenti di IA all'interno dei flussi di lavoro per automatizzare compiti specifici che richiederebbero l'interazione umana in uno scenario normale. Nell'ultimo caso di studio, il processo di identificazione e segmentazione degli alberi in un'area ad Atene viene eseguito utilizzando un modello multimodale che usa l'immagine satellitare e un prompt di testo dell'oggetto desiderato da segmentare come input e, in modo automatizzato, produce le etichette semantiche di tutti gli alberi presenti nell'immagine. La pipeline progettata in questo studio aumenta l'accuratezza originale del modello che si attesta quasi al 50% fino a quasi il 98% utilizzando tecniche iterative e statistiche.

Beyond Maps: advancing geospatial AI with multimodal foundation models

DIAB, MOHANAD YOUSEF AHMAD
2023/2024

Abstract

The use of AI technologies in data processing pipelines for geospatial-related tasks has been the focus of many individuals in both the professional and academic domains. The idea of having more accessible interfaces and tools that allow people of little or no experience to intuitively interact with geospatial data of multiple formats allows people of all backgrounds to do so. However, the use of AI and AI agents to help automate GIS-related tasks is still in its infancy stage, with some frameworks and interfaces built on top of well-known language models such as GPT-4 and Llama. These tools do promise and draw guidelines on the potentials and limitations of existing solutions concerning the use of said models. In this work, we review the established research and draw from it the best practices and implementations, then we review the up-to-date technologies that might prove to be useful in this context. In the experimental phase, ordinary geospatial tasks solved using the technologies discussed are presented with different use cases and domains, their performance is evaluated visually and numerically in some cases. The lessons and takeaways from these isolated examples are then aggregated and exploited to solve general case studies organized in this work, the case studies contain both existing and original ones. In the existing ones, the general workflow and process of ingesting the inputs and producing the outputs is replicated using the technologies and methods discussed in this work. For the original case studies, this work presents pipelines that integrate the use of the technologies as AI solutions or tools within the workflows to automate specific tasks that would require human interaction in a normal scenario. In the last case study, the process of identifying and segmenting trees in an area in Athens is done using a multi modal model that uses the satellite image and a text prompt of the desired object to be segmented as input, and in an automated manner produces the semantic labels of all the trees present in the image. The pipeline designed in this study upscales the original accuracy of the model sitting at almost 50% up to almost 98% using iterative and statistical techniques.
KOLOKOUSIS, POLYCHRONIS
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
9-apr-2024
2023/2024
L'uso delle tecnologie IA nei flussi di elaborazione dati per compiti correlati alla geospazialità è stato al centro dell'interesse di molti individui sia nel campo professionale che accademico. L'idea di avere interfacce e strumenti più accessibili che permettano a persone con poca o nessuna esperienza di interagire in modo intuitivo con dati geospaziali di vari formati consente a persone con qualsiasi background di farlo. Tuttavia, l'uso dell'IA e degli agenti di IA per aiutare ad automatizzare i compiti relativi ai GIS è ancora in fase iniziale, con alcuni framework e interfacce costruiti su modelli di linguaggio ben noti come GPT-4 e Llama. Questi strumenti promettono e tracciano linee guida sulle potenzialità e limitazioni delle soluzioni esistenti riguardo l'uso di tali modelli. In questo lavoro, rivediamo la ricerca consolidata e ne estraiamo le migliori pratiche e implementazioni, poi esaminiamo le tecnologie aggiornate che potrebbero rivelarsi utili in questo contesto. Nella fase sperimentale, vengono presentati compiti geospaziali ordinari risolti utilizzando le tecnologie discusse con diversi casi di utilizzo e domini, e in alcuni casi la loro performance viene valutata visivamente e numericamente. Le lezioni e le considerazioni tratte da questi esempi isolati sono poi aggregate e sfruttate per risolvere casi di studio generali organizzati in questo lavoro, i casi di studio contengono sia quelli esistenti sia originali. Nei casi già esistenti, il flusso di lavoro generale e il processo di ingestione degli input e produzione degli output vengono replicati utilizzando le tecnologie e i metodi discussi in questo lavoro. Per i casi di studio originali, questo lavoro presenta pipeline che integrano l'uso delle tecnologie come soluzioni o strumenti di IA all'interno dei flussi di lavoro per automatizzare compiti specifici che richiederebbero l'interazione umana in uno scenario normale. Nell'ultimo caso di studio, il processo di identificazione e segmentazione degli alberi in un'area ad Atene viene eseguito utilizzando un modello multimodale che usa l'immagine satellitare e un prompt di testo dell'oggetto desiderato da segmentare come input e, in modo automatizzato, produce le etichette semantiche di tutti gli alberi presenti nell'immagine. La pipeline progettata in questo studio aumenta l'accuratezza originale del modello che si attesta quasi al 50% fino a quasi il 98% utilizzando tecniche iterative e statistiche.
File allegati
File Dimensione Formato  
2024_03_Diab.pdf

accessibile in internet per tutti

Dimensione 13.44 MB
Formato Adobe PDF
13.44 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218643