In an era where organizations heavily depend on data for strategic decision-making, ensuring high Data Quality is both a challenge and a necessity. Poor Data Quality can lead to erroneous insights, inefficiencies, and a lack of trust in data-driven processes. This thesis explores the integration of Data Quality into decentralized data architectures, particularly within the Data Mesh paradigm, a framework designed to address scalability and autonomy in large-scale data management. The research begins by analyzing the concept of Data Quality, its dimensions and existing assessment tools, highlighting their strengths and limitations. A comparative evaluation reveals a significant gap: while many tools offer robust features, they lack standardization and interoperability when implemented across diverse ecosystems. To address these limitations, this thesis proposes a twofold solution: the development of a tool-agnostic quality language and the implementation of an automated adapter. The quality language provides a standardized method for defining technology agnostic quality checks, ensuring clarity and coherence. The adapter translates these agnostic definitions into executable rules for specific Data Quality tools and automates their execution, bridging the gap between theoretical models and practical application. By embedding these solutions into the Data Mesh framework, the study demonstrates how quality controls can be integrated in a declarative way into Data Product specifications. The approach enhances interoperability, scalability, and domain-level accountability, transforming Data Quality from a technical challenge to a fundamental feature of modern data architectures. Through practical evaluation and case studies, this thesis underscores the importance of automating Data Quality in distributed systems and proposes an applicable model to ensure data integrity, consistency, and reliability in decentralized contexts.
In un’epoca in cui le organizzazioni dipendono fortemente dai dati per prendere decisioni strategiche, garantire un’elevata qualità dei dati rappresenta sia una sfida che una necessità. Una scarsa qualità dei dati può portare a intuizioni errate, inefficienze e una perdita di fiducia nei processi basati sui dati. Questa tesi esplora l’integrazione della qualità dei dati nelle architetture decentralizzate, con un focus particolare sul paradigma del Data Mesh, un framework progettato per affrontare le sfide di scalabilità e autonomia nella gestione dei dati su larga scala. La ricerca inizia analizzando il concetto di Data Quality, le sue dimensioni e gli strumenti di valutazione esistenti, evidenziandone punti di forza e limiti. Un’analisi comparativa rivela un’importante lacuna: sebbene molti strumenti offrano funzionalità avanzate, essi mancano di standardizzazione e interoperabilità se implementati in ecosistemi eterogenei. Per rispondere a queste limitazioni, la tesi propone una soluzione su due livelli: lo sviluppo di un linguaggio di qualità tool-agnostic e la realizzazione di un adapter automatizzato. Il linguaggio di qualità fornisce un metodo standardizzato per definire controlli di qualità indipendenti dalla tecnologia, garantendo chiarezza e coerenza. L’adapter traduce queste definizioni astratte in regole eseguibili per specifici strumenti di Data Quality, automatizzandone l’esecuzione e colmando il divario tra i modelli teorici e l’applicazione pratica. Integrando queste soluzioni all’interno del framework Data Mesh, lo studio dimostra come i controlli di qualità possano essere incorporati in modo dichiarativo all’interno delle specifiche per i Data Product. Questo approccio migliora interoperabilità, scalabilità e responsabilità a livello di dominio, trasformando la gestione della qualità dei dati da una sfida tecnica a una caratteristica essenziale delle moderne architetture dati. Attraverso valutazioni pratiche e casi studio, la tesi sottolinea l’importanza dell’automazione nella gestione della qualità dei dati nei sistemi distribuiti e propone un modello applicabile per garantire integrità, coerenza e affidabilità dei dati in contesti decentralizzati.
Defining and Enforcing Data Quality in Data Mesh: a declarative language and execution framework
Di FILIPPO, FEDERICA
2023/2024
Abstract
In an era where organizations heavily depend on data for strategic decision-making, ensuring high Data Quality is both a challenge and a necessity. Poor Data Quality can lead to erroneous insights, inefficiencies, and a lack of trust in data-driven processes. This thesis explores the integration of Data Quality into decentralized data architectures, particularly within the Data Mesh paradigm, a framework designed to address scalability and autonomy in large-scale data management. The research begins by analyzing the concept of Data Quality, its dimensions and existing assessment tools, highlighting their strengths and limitations. A comparative evaluation reveals a significant gap: while many tools offer robust features, they lack standardization and interoperability when implemented across diverse ecosystems. To address these limitations, this thesis proposes a twofold solution: the development of a tool-agnostic quality language and the implementation of an automated adapter. The quality language provides a standardized method for defining technology agnostic quality checks, ensuring clarity and coherence. The adapter translates these agnostic definitions into executable rules for specific Data Quality tools and automates their execution, bridging the gap between theoretical models and practical application. By embedding these solutions into the Data Mesh framework, the study demonstrates how quality controls can be integrated in a declarative way into Data Product specifications. The approach enhances interoperability, scalability, and domain-level accountability, transforming Data Quality from a technical challenge to a fundamental feature of modern data architectures. Through practical evaluation and case studies, this thesis underscores the importance of automating Data Quality in distributed systems and proposes an applicable model to ensure data integrity, consistency, and reliability in decentralized contexts.File | Dimensione | Formato | |
---|---|---|---|
2025_04_DiFilippo_ExecutiveSummary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
446.36 kB
Formato
Adobe PDF
|
446.36 kB | Adobe PDF | Visualizza/Apri |
2025_04_DiFilippo_Tesi.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
2.11 MB
Formato
Adobe PDF
|
2.11 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235473