Modern data ecosystems demand scalable and efficient data pipelines to transform raw data into actionable insights. This report presents a case study on building such pipelines using the Singer open-source framework and the Meltano DataOps platform. It reviews the data engineering lifecycle, covering data generation, storage, ingestion, transformation, and serving, as well as security, DataOps practices, and orchestration. The case study details the implementation of Singer for data extraction and loading, and Meltano for pipeline orchestration, project management, and CI/CD integration. It addresses the challenges of scalability and security, while also highlighting the benefits of Singer and Meltano for creating lightweight, scalable workflows. The report concludes with insights into future trends, including automation and real-time processing in data engineering.
Ecosistemi moderni di dati richiedono pipeline di dati scalabili ed efficienti per trasformare dati grezzi in informazioni utilizzabili. Questo rapporto presenta uno studio di caso sulla costruzione di tali pipeline utilizzando il framework open-source Singer e la piattaforma Meltano DataOps. Esso esamina il ciclo di vita dell'ingegneria dei dati, coprendo la generazione, archiviazione, ingestione, trasformazione e servizio dei dati, oltre alla sicurezza, alle pratiche DataOps e all'orchestrazione. Lo studio di caso dettaglia l'implementazione di Singer per l'estrazione e il caricamento dei dati, e di Meltano per l'orchestrazione delle pipeline, la gestione dei progetti e l'integrazione CI/CD. Affronta le sfide della scalabilità e della sicurezza, evidenziando anche i vantaggi di Singer e Meltano nella creazione di flussi di lavoro leggeri e scalabili. Il rapporto si conclude con riflessioni sui futuri trend, inclusi l'automazione e l'elaborazione in tempo reale nell'ingegneria dei dati.
Building scalable data pipelines and orchestrating workflows: a case study using the singer framework and Meltano
Goudarzi, Sajjad
2023/2024
Abstract
Modern data ecosystems demand scalable and efficient data pipelines to transform raw data into actionable insights. This report presents a case study on building such pipelines using the Singer open-source framework and the Meltano DataOps platform. It reviews the data engineering lifecycle, covering data generation, storage, ingestion, transformation, and serving, as well as security, DataOps practices, and orchestration. The case study details the implementation of Singer for data extraction and loading, and Meltano for pipeline orchestration, project management, and CI/CD integration. It addresses the challenges of scalability and security, while also highlighting the benefits of Singer and Meltano for creating lightweight, scalable workflows. The report concludes with insights into future trends, including automation and real-time processing in data engineering.File | Dimensione | Formato | |
---|---|---|---|
Sajjad_Goudarzi_tesina_March_2025.pdf
non accessibile
Descrizione: Text of the thesis
Dimensione
1.49 MB
Formato
Adobe PDF
|
1.49 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/236415