Building scalable data pipelines and orchestrating workflows: a case study using the singer framework and Meltano

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Modern data ecosystems demand scalable and efficient data pipelines to transform raw data into actionable insights. This report presents a case study on building such pipelines using the Singer open-source framework and the Meltano DataOps platform. It reviews the data engineering lifecycle, covering data generation, storage, ingestion, transformation, and serving, as well as security, DataOps practices, and orchestration. The case study details the implementation of Singer for data extraction and loading, and Meltano for pipeline orchestration, project management, and CI/CD integration. It addresses the challenges of scalability and security, while also highlighting the benefits of Singer and Meltano for creating lightweight, scalable workflows. The report concludes with insights into future trends, including automation and real-time processing in data engineering.

Ecosistemi moderni di dati richiedono pipeline di dati scalabili ed efficienti per trasformare dati grezzi in informazioni utilizzabili. Questo rapporto presenta uno studio di caso sulla costruzione di tali pipeline utilizzando il framework open-source Singer e la piattaforma Meltano DataOps. Esso esamina il ciclo di vita dell'ingegneria dei dati, coprendo la generazione, archiviazione, ingestione, trasformazione e servizio dei dati, oltre alla sicurezza, alle pratiche DataOps e all'orchestrazione. Lo studio di caso dettaglia l'implementazione di Singer per l'estrazione e il caricamento dei dati, e di Meltano per l'orchestrazione delle pipeline, la gestione dei progetti e l'integrazione CI/CD. Affronta le sfide della scalabilità e della sicurezza, evidenziando anche i vantaggi di Singer e Meltano nella creazione di flussi di lavoro leggeri e scalabili. Il rapporto si conclude con riflessioni sui futuri trend, inclusi l'automazione e l'elaborazione in tempo reale nell'ingegneria dei dati.

Building scalable data pipelines and orchestrating workflows: a case study using the singer framework and Meltano

Goudarzi, Sajjad

2023/2024

Abstract

Modern data ecosystems demand scalable and efficient data pipelines to transform raw data into actionable insights. This report presents a case study on building such pipelines using the Singer open-source framework and the Meltano DataOps platform. It reviews the data engineering lifecycle, covering data generation, storage, ingestion, transformation, and serving, as well as security, DataOps practices, and orchestration. The case study details the implementation of Singer for data extraction and loading, and Meltano for pipeline orchestration, project management, and CI/CD integration. It addresses the challenges of scalability and security, while also highlighting the benefits of Singer and Meltano for creating lightweight, scalable workflows. The report concludes with insights into future trends, including automation and real-time processing in data engineering.

Scheda breve

Scheda completa

	Relatore
	
				Pernici, Barbara
			
	Correlatore/i
	
				SEGATTO, PIER LUIGI
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				Ecosistemi moderni di dati richiedono pipeline di dati scalabili ed efficienti per trasformare dati grezzi in informazioni utilizzabili. Questo rapporto presenta uno studio di caso sulla costruzione di tali pipeline utilizzando il framework open-source Singer e la piattaforma Meltano DataOps. Esso esamina il ciclo di vita dell'ingegneria dei dati, coprendo la generazione, archiviazione, ingestione, trasformazione e servizio dei dati, oltre alla sicurezza, alle pratiche DataOps e all'orchestrazione. Lo studio di caso dettaglia l'implementazione di Singer per l'estrazione e il caricamento dei dati, e di Meltano per l'orchestrazione delle pipeline, la gestione dei progetti e l'integrazione CI/CD. Affronta le sfide della scalabilità e della sicurezza, evidenziando anche i vantaggi di Singer e Meltano nella creazione di flussi di lavoro leggeri e scalabili. Il rapporto si conclude con riflessioni sui futuri trend, inclusi l'automazione e l'elaborazione in tempo reale nell'ingegneria dei dati.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Sajjad_Goudarzi_tesina_March_2025.pdf non accessibile Descrizione: Text of the thesis Dimensione 1.49 MB Formato Adobe PDF Visualizza/Apri	1.49 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236415