The influx of data from current astronomical surveys and space missions, such as the European Space Agency (ESA) Gaia, the Rubin Observatory, and ESA Euclid, is transforming the landscape of astronomical research. The unprecedented sensitivity and field-of-view of these missions promise a volume of data that demands the development of new frameworks for processing, analysing, and storing this information to optimise the scientific value of these observations. This thesis addresses these challenges by leveraging parallel distributed computing frameworks to improve the management and analysis of large astronomical catalogues. This work evaluates the performance of a custom-deployed Dask cluster in managing complex workflows, including catalogue transformation, whole-catalogue analysis, and source cross-matching (namely, associating observations of the same celestial object across multiple catalogues). Catalogue transformation involves restructuring diverse astronomical catalogues into a consistent, hierarchical structure named HATS (Hierarchical Adaptive Tiling Structure), to facilitate scalable data access and analysis. Additionally, this thesis introduces CatalogXplore, a tool designed to improve the integration of hierarchical data partitioning systems like HATS and LSDB (Large Survey Database) by providing an easier and more scalable approach to data exploration. The focus of this research also includes exploring the application of machine learning and deep learning techniques in distributed environments, using both Dask and Spark clusters to handle HATS-structured astronomical catalogues for targeted classification tasks, such as astrometric binary classification. By evaluating the performance of both clusters in these machine learning applications, the study demonstrates improvements in scalability and efficiency, highlighting the potential of parallel distributed computing to support the high data demands of current and future space missions. The findings highlight the value of these frameworks in advancing data-driven astronomical research.

Il crescente flusso di dati proveniente da survey astronomici e missioni spaziali, come la missione Gaia dell'Agenzia Spaziale Europea (ESA), il Legacy Survey of Space and Time (LSST) del Rubin Observatory, e Euclid (ESA), sta trasformando il panorama della ricerca astronomica. Queste missioni su larga scala generano petabyte di dati, offrendo nuove opportunità di comprensione dell'universo ma ponendo anche enormi sfide in termini di elaborazione e analisi dei dati. Questa tesi affronta tali difficoltà sfruttando framework di calcolo distribuito parallelo per ottimizzare la gestione e l'analisi di grandi cataloghi astronomici. Questo lavoro di tesi valuta le prestazioni di un cluster distribuito basato su Dask nella gestione di enormi set di dati, concentrandosi sulla capacità di processare efficacemente operazioni complesse. In particolare, sono oggetto di studio operazioni come la trasformazione dei cataloghi astronomici in una struttura coerente e gerarchica denominata HATS (Hierarchical Adaptive Tiling Structure), e il cross-matching dei cataloghi (nominalmente, il collegamento delle osservazioni dello stesso oggetto celeste presente in più cataloghi). Inoltre, questo lavoro di tesi introduce catalogXplore, uno strumento progettato per migliorare l'esperienza d'uso dei tools sopra citati, tramite un approccio semplificato all'esplorazione dei dati. Infine, lo studio si concentra anche sulla comparazione tra Apache Spark e Dask nell'applicazione di tecniche di machine learning e deep learning in ambienti distribuiti, utilizzando i cataloghi con struttura HATS per la classificazione di binarie astrometriche come caso di studio principale. Le analisi comparative dei due cluster rivelano miglioramenti in termini di prestazioni e scalabilità, permettendoci di gestire la grande quantità di dati prodotti dalle missioni spaziali attuali e future. I risultati evidenziano il potenziale del calcolo distribuito parallelo nel gestire il problema in questione in modo efficiente.

Data-driven analysis of ESA/NASA/ESO survey missions: harnessing parallel distributed computing for advanced analytical insights into large astronomical datasets

PERSICI, ANDREA
2023/2024

Abstract

The influx of data from current astronomical surveys and space missions, such as the European Space Agency (ESA) Gaia, the Rubin Observatory, and ESA Euclid, is transforming the landscape of astronomical research. The unprecedented sensitivity and field-of-view of these missions promise a volume of data that demands the development of new frameworks for processing, analysing, and storing this information to optimise the scientific value of these observations. This thesis addresses these challenges by leveraging parallel distributed computing frameworks to improve the management and analysis of large astronomical catalogues. This work evaluates the performance of a custom-deployed Dask cluster in managing complex workflows, including catalogue transformation, whole-catalogue analysis, and source cross-matching (namely, associating observations of the same celestial object across multiple catalogues). Catalogue transformation involves restructuring diverse astronomical catalogues into a consistent, hierarchical structure named HATS (Hierarchical Adaptive Tiling Structure), to facilitate scalable data access and analysis. Additionally, this thesis introduces CatalogXplore, a tool designed to improve the integration of hierarchical data partitioning systems like HATS and LSDB (Large Survey Database) by providing an easier and more scalable approach to data exploration. The focus of this research also includes exploring the application of machine learning and deep learning techniques in distributed environments, using both Dask and Spark clusters to handle HATS-structured astronomical catalogues for targeted classification tasks, such as astrometric binary classification. By evaluating the performance of both clusters in these machine learning applications, the study demonstrates improvements in scalability and efficiency, highlighting the potential of parallel distributed computing to support the high data demands of current and future space missions. The findings highlight the value of these frameworks in advancing data-driven astronomical research.
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Il crescente flusso di dati proveniente da survey astronomici e missioni spaziali, come la missione Gaia dell'Agenzia Spaziale Europea (ESA), il Legacy Survey of Space and Time (LSST) del Rubin Observatory, e Euclid (ESA), sta trasformando il panorama della ricerca astronomica. Queste missioni su larga scala generano petabyte di dati, offrendo nuove opportunità di comprensione dell'universo ma ponendo anche enormi sfide in termini di elaborazione e analisi dei dati. Questa tesi affronta tali difficoltà sfruttando framework di calcolo distribuito parallelo per ottimizzare la gestione e l'analisi di grandi cataloghi astronomici. Questo lavoro di tesi valuta le prestazioni di un cluster distribuito basato su Dask nella gestione di enormi set di dati, concentrandosi sulla capacità di processare efficacemente operazioni complesse. In particolare, sono oggetto di studio operazioni come la trasformazione dei cataloghi astronomici in una struttura coerente e gerarchica denominata HATS (Hierarchical Adaptive Tiling Structure), e il cross-matching dei cataloghi (nominalmente, il collegamento delle osservazioni dello stesso oggetto celeste presente in più cataloghi). Inoltre, questo lavoro di tesi introduce catalogXplore, uno strumento progettato per migliorare l'esperienza d'uso dei tools sopra citati, tramite un approccio semplificato all'esplorazione dei dati. Infine, lo studio si concentra anche sulla comparazione tra Apache Spark e Dask nell'applicazione di tecniche di machine learning e deep learning in ambienti distribuiti, utilizzando i cataloghi con struttura HATS per la classificazione di binarie astrometriche come caso di studio principale. Le analisi comparative dei due cluster rivelano miglioramenti in termini di prestazioni e scalabilità, permettendoci di gestire la grande quantità di dati prodotti dalle missioni spaziali attuali e future. I risultati evidenziano il potenziale del calcolo distribuito parallelo nel gestire il problema in questione in modo efficiente.
File allegati
File Dimensione Formato  
Executive_Summary_AndreaPersici.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 586.09 kB
Formato Adobe PDF
586.09 kB Adobe PDF   Visualizza/Apri
Tesi_AndreaPersici.pdf

non accessibile

Descrizione: Tesi
Dimensione 8.63 MB
Formato Adobe PDF
8.63 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231560