This Master's Thesis presents a comprehensive framework to enhance data quality in multi-source analytics platforms across various organizational contexts. The study emphasizes the significance of data quality in today's data-driven business landscape, where data accuracy, reliability, completeness, and consistency are crucial for informed decision-making. The framework addresses the "Garbage In, Garbage Out" (GIGO) issue, underscoring the direct link between input data quality and the reliability of subsequent analysis. It introduces three technological solutions tailored to different data producer-consumer relationships: a Data Quality Assessment (DQA) system, which is the atomic unit of the framework and applies to any scenario, Data Contracts (DC) for intra-organizational contexts, and a Push API (PAPI) for cross-enterprise collaborations. Practical implementations in various real-world contexts demonstrate the effectiveness of these solutions in addressing data quality challenges. The thesis also acknowledges the limitations of the proposed framework. Indeed, it suggests potential areas for future research, including expanding the framework to cover a broader range of collaborative scenarios and complex multi-tenant relationships. This research contributes to data management and analytics by providing a decision-making tool for organizations to select the most suitable technological solutions based on their specific needs, thereby helping them maximize their data asset value.

Questa Tesi Magistrale presenta un quadro completo per migliorare la qualità dei dati nelle piattaforme analitiche multi-sorgente in differenti contesti organizzativi. Lo studio sottolinea l'importanza della qualità dei dati nell'attuale panorama aziendale guidato dai dati, in cui la loro accuratezza, affidabilità, completezza e coerenza risulta fondamentale per prendere decisioni informate. Il framework affronta il problema del "Garbage In, Garbage Out" (GIGO), sottolineando il legame diretto tra la qualità dei dati in ingresso e l'affidabilità delle analisi successive. Introduce tre soluzioni tecnologiche adatte alle diverse relazioni produttore-consumatore: un sistema di Data Quality Assessment (DQA), che è l'unità atomica del framework e si applica a qualsiasi scenario, i Data Contracts (DC) per i contesti intra-organizzativi e una Push API (PAPI) per le collaborazioni tra aziende. Le implementazioni pratiche in vari contesti del mondo reale dimostrano l'efficacia di queste soluzioni nell'affrontare le sfide della qualità dei dati. La tesi riconosce anche i limiti del framework proposto. Infatti, suggerisce potenziali aree di ricerca future, tra cui l'espansione del framework per coprire una gamma più ampia di scenari collaborativi e relazioni complesse multi-consumatore. Questa ricerca contribuisce alla gestione e all'analisi dei dati fornendo uno strumento decisionale alle organizzazioni per selezionare le soluzioni tecnologiche più adatte in base alle loro esigenze specifiche, aiutandole così a massimizzare il valore del loro patrimonio di dati.

Ensuring High Data Quality Standards: A Framework for Single and Cross-Enterprise Platforms

MANDRUZZATO, LEONARDO
2022/2023

Abstract

This Master's Thesis presents a comprehensive framework to enhance data quality in multi-source analytics platforms across various organizational contexts. The study emphasizes the significance of data quality in today's data-driven business landscape, where data accuracy, reliability, completeness, and consistency are crucial for informed decision-making. The framework addresses the "Garbage In, Garbage Out" (GIGO) issue, underscoring the direct link between input data quality and the reliability of subsequent analysis. It introduces three technological solutions tailored to different data producer-consumer relationships: a Data Quality Assessment (DQA) system, which is the atomic unit of the framework and applies to any scenario, Data Contracts (DC) for intra-organizational contexts, and a Push API (PAPI) for cross-enterprise collaborations. Practical implementations in various real-world contexts demonstrate the effectiveness of these solutions in addressing data quality challenges. The thesis also acknowledges the limitations of the proposed framework. Indeed, it suggests potential areas for future research, including expanding the framework to cover a broader range of collaborative scenarios and complex multi-tenant relationships. This research contributes to data management and analytics by providing a decision-making tool for organizations to select the most suitable technological solutions based on their specific needs, thereby helping them maximize their data asset value.
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Questa Tesi Magistrale presenta un quadro completo per migliorare la qualità dei dati nelle piattaforme analitiche multi-sorgente in differenti contesti organizzativi. Lo studio sottolinea l'importanza della qualità dei dati nell'attuale panorama aziendale guidato dai dati, in cui la loro accuratezza, affidabilità, completezza e coerenza risulta fondamentale per prendere decisioni informate. Il framework affronta il problema del "Garbage In, Garbage Out" (GIGO), sottolineando il legame diretto tra la qualità dei dati in ingresso e l'affidabilità delle analisi successive. Introduce tre soluzioni tecnologiche adatte alle diverse relazioni produttore-consumatore: un sistema di Data Quality Assessment (DQA), che è l'unità atomica del framework e si applica a qualsiasi scenario, i Data Contracts (DC) per i contesti intra-organizzativi e una Push API (PAPI) per le collaborazioni tra aziende. Le implementazioni pratiche in vari contesti del mondo reale dimostrano l'efficacia di queste soluzioni nell'affrontare le sfide della qualità dei dati. La tesi riconosce anche i limiti del framework proposto. Infatti, suggerisce potenziali aree di ricerca future, tra cui l'espansione del framework per coprire una gamma più ampia di scenari collaborativi e relazioni complesse multi-consumatore. Questa ricerca contribuisce alla gestione e all'analisi dei dati fornendo uno strumento decisionale alle organizzazioni per selezionare le soluzioni tecnologiche più adatte in base alle loro esigenze specifiche, aiutandole così a massimizzare il valore del loro patrimonio di dati.
File allegati
File Dimensione Formato  
executive_summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary of the Master's Thesis (extended abstract)
Dimensione 466.52 kB
Formato Adobe PDF
466.52 kB Adobe PDF Visualizza/Apri
thesis.pdf

accessibile in internet per tutti

Descrizione: Master's Thesis
Dimensione 2.13 MB
Formato Adobe PDF
2.13 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210452