Over the last decades the importance of data within organizations has increased, making it a key driver of decision-making processes and a source of competitive advantage. This growing importance has led to an increase in both data volume and system complexity. Within this context, data pipelines play a core role in supporting the business intelligence processes, with their performance, scalability and reliability becoming a critical focus. The work presented in this thesis was carried out during an internship at SDG Group, a data and analytics consulting company, and focuses on the analysis and optimization of a data pipeline used to support business intelligence reporting for a company operating in the beverage distribution sector within the HoReCa channel. With an increasing amount of data to be processed, the pipeline performance raised concerns due to its slow execution time. The core of this thesis lies in the redesign of the pipeline architecture with the objective of improving performance through a more structured organization of the pipeline flows, enabling parallel processing, managing and leveraging the interdependencies between models and introducing a process that automatically trigger the report refresh operation once the pipeline execution is over. An improvement that, due to its modularity, can be extended to other pipelines contributing to improved overall project performance.
Negli ultimi decenni l'importanza dei dati all'interno delle aziende è cresciuta, rendendone lo sfruttamente un fattore chiave nei processi di decision-making e una delle principali fonti di competitive advantage. Questa crescente importanza ha portato ad un aumento sia dei volumi di dati che della complessità dei sistemi attraverso i quali vengono gestite. In questo contesto, le data pipeline hanno un ruolo fondamentale nel supporto dei processi di business intelligence e le loro prestazioni, scalabilità e affidabilità sono divenute un punto focale all'interno dell'architettura complessiva. Il lavoro presentato in questa tesi è stato svolto durante uno stage presso SDG Group, una società di consulenza nel campo della data & analytics analysis, e si concentra sull'analisi e l'ottimizzazione di una data pipeline utilizzata per supportare la reportistica di business intelligence per un'azienda che opera nel settore della distribuzione di bevande nel canale HoReCa. Con una quantità crescente di dati da elaborare, le prestazioni della pipeline hanno sollevato preoccupazioni a causa dei tempi di esecuzione lenti. Il nucleo di questa tesi risiede nella riprogettazione dell'architettura della pipeline con l'obiettivo di migliorarne le prestazioni attraverso un'organizzazione più strutturata dei flussi, consentendo l'elaborazione in parallelo, e introducendo un processo che avvia automaticamente l'operazione di aggiornamento dei report una volta terminata l'esecuzione della pipeline. Un miglioramento che, grazie alla sua modularità, può essere esteso ad altre pipeline contribuendo a migliorare le prestazioni complessive del progetto.
Optimization of a data pipeline in a work environment
FINETTI, CHRISTIAN
2024/2025
Abstract
Over the last decades the importance of data within organizations has increased, making it a key driver of decision-making processes and a source of competitive advantage. This growing importance has led to an increase in both data volume and system complexity. Within this context, data pipelines play a core role in supporting the business intelligence processes, with their performance, scalability and reliability becoming a critical focus. The work presented in this thesis was carried out during an internship at SDG Group, a data and analytics consulting company, and focuses on the analysis and optimization of a data pipeline used to support business intelligence reporting for a company operating in the beverage distribution sector within the HoReCa channel. With an increasing amount of data to be processed, the pipeline performance raised concerns due to its slow execution time. The core of this thesis lies in the redesign of the pipeline architecture with the objective of improving performance through a more structured organization of the pipeline flows, enabling parallel processing, managing and leveraging the interdependencies between models and introducing a process that automatically trigger the report refresh operation once the pipeline execution is over. An improvement that, due to its modularity, can be extended to other pipelines contributing to improved overall project performance.| File | Dimensione | Formato | |
|---|---|---|---|
|
2026_03_Finetti_Christian.pdf
accessibile in internet per tutti a partire dal 20/02/2029
Dimensione
811.78 kB
Formato
Adobe PDF
|
811.78 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/250978