Geospatial information represents a fundamental part of data analysis and is currently a significant portion of big data. According to McKinsey Global Institute, the size of this kind of data is growing at least 20% each year. However, despite the great progress that has been achieved in Geospatial data and the tools to manage it, several limitations prevent scientists from using it without performing pre-processing that requires advanced technical skills. The purpose of this work is to present the development of a processing pipeline that makes use of state-of-the-art tools to process geospatial data. The importance of this work lies in the possibility to rely on a system that automatically outputs analysis-ready data. The methodology used is the combination of Python scientific tools and the Open Data Cube (ODC), a software that integrates geospatial data into a multidimensional layered system. This processing pipeline was tested with a case study, a correlation analysis between Sentinel-5P satellite observations and ARPA Lombardia ground sensor measurements specifically for atmospheric concentrations. Results indicate a strong correlation (a Pearson coefficient larger than 0.7) between satellite and ground sensors authoritative data. Additionally, to avoid the sole use of atmospheric pollution data, the wind speed was integrated into the system to perform a correlation study of satellite data against this meteorological indicator from ARPA Lombardia. Results demonstrate a weak but significant correlation between these two, indicating that integration of other factors like temperature, precipitation and land use is relevant for future studies. This work fills the current gaps in the literature that limit the use of tools, such as the ODC, to analysis-ready data developed specifically for this purpose. Instead, a novel integration of ground sensor data and Sentinel-5P satellite observations is successfully completed.
Le informazioni geospaziali rappresentano una parte fondamentale dell'analisi dei dati e sono attualmente una parte significativa dei big data. Secondo il McKinsey Global Institute, la dimensione di questo tipo di dati cresce di almeno il 20% ogni anno. Tuttavia, nonostante i grandi progressi che sono stati realizzati nei dati geospaziali e negli strumenti per gestirli, ci sono diverse limitazioni che impediscono agli scienziati di utilizzarli senza eseguire pre-elaborazioni complesse che richiedono competenze tecniche avanzate. Lo scopo di questo lavoro è presentare lo sviluppo di una pipeline di elaborazione che utilizza strumenti all'avanguardia per elaborare i dati geospaziali. L'importanza di questo lavoro risiede nella possibilità di fare affidamento su un sistema che emette automaticamente dati pronti per l'analisi. La metodologia utilizzata si basa sulla combinazione di strumenti scientifici Python e Open Data Cube (ODC), un software che integra i dati geospaziali in un sistema multidimensionale a strati. Questa pipeline di elaborazione è stata testata su un caso di studio connesso all’analisi di correlazione tra le osservazioni del satellite Sentinel-5P e le misurazioni dei sensori di terra di ARPA Lombardia specificamente per le concentrazioni di inquinanti atmosferici. I risultati indicano una forte correlazione (un coefficiente di Pearson maggiore di 0,7) tra i dati dei sensori satellitari e terrestri. Inoltre, per evitare l'uso esclusivo dei dati sull'inquinamento atmosferico, è stata integrata nel sistema la velocità del vento per eseguire uno studio di correlazione dei dati satellitari rispetto a questa variabile meteorologica. I risultati dimostrano una correlazione debole ma significativa, indicando che l'integrazione di altri fattori come la temperatura, le precipitazioni e l'uso del suolo è rilevante per gli studi futuri. Questo lavoro colma le attuali lacune che limitano l'uso di strumenti, come l'ODC, a dati già pronti per l'analisi (dati satellitari multispettrali), integrando in ODC anche dati dei sensori a terra e del satellite Sentinel-5P.
Open Data Cube implementation for Sentinel-5P and ground sensors data
CEDENO JIMENEZ, JESUS RODRIGO
2020/2021
Abstract
Geospatial information represents a fundamental part of data analysis and is currently a significant portion of big data. According to McKinsey Global Institute, the size of this kind of data is growing at least 20% each year. However, despite the great progress that has been achieved in Geospatial data and the tools to manage it, several limitations prevent scientists from using it without performing pre-processing that requires advanced technical skills. The purpose of this work is to present the development of a processing pipeline that makes use of state-of-the-art tools to process geospatial data. The importance of this work lies in the possibility to rely on a system that automatically outputs analysis-ready data. The methodology used is the combination of Python scientific tools and the Open Data Cube (ODC), a software that integrates geospatial data into a multidimensional layered system. This processing pipeline was tested with a case study, a correlation analysis between Sentinel-5P satellite observations and ARPA Lombardia ground sensor measurements specifically for atmospheric concentrations. Results indicate a strong correlation (a Pearson coefficient larger than 0.7) between satellite and ground sensors authoritative data. Additionally, to avoid the sole use of atmospheric pollution data, the wind speed was integrated into the system to perform a correlation study of satellite data against this meteorological indicator from ARPA Lombardia. Results demonstrate a weak but significant correlation between these two, indicating that integration of other factors like temperature, precipitation and land use is relevant for future studies. This work fills the current gaps in the literature that limit the use of tools, such as the ODC, to analysis-ready data developed specifically for this purpose. Instead, a novel integration of ground sensor data and Sentinel-5P satellite observations is successfully completed.File | Dimensione | Formato | |
---|---|---|---|
2021_10_Cedeno_Jimenez.pdf
non accessibile
Descrizione: OPEN DATA CUBE IMPLEMENTATION FOR SENTINEL-5P AND GROUND SENSORS DATA
Dimensione
27.63 MB
Formato
Adobe PDF
|
27.63 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/179816