Data quality management in knowledge graphs

Knowledge graphs are extensively utilized for the representation and integration of heterogeneous data in contemporary information systems. Their practical utility is significantly reliant upon the quality of semantic data, which is frequently degraded by distorted data sources, automated ingestion processes, and shifting schema. Real-world RDF knowledge graphs regularly encounter semantic inconsistencies, incorrect literals, redundancy, and constraint drift, which transmit flaws to downstream applications. This thesis examines the difficulty of maintaining semantic quality in dynamic RDF knowledge graphs through the introduction of a closed-loop governance structure. This framework smoothly combines SHACL-based validation, issues detection, data cleansing, confidence assessment, and automated constraint discovery into a unified pipeline. This approach deliberately reverses the induction process, in contrast to conventional open-loop techniques that either rely on manual specified static constraints or derive rules straight from raw data. Prioritizing semantic validation and repair ahead of constraint discovery ensures that the created constraints are based on a cleaned and semantically coherent graph rather than potentially noisy data. Semantic coherence, temporal consistency, lexical robustness, and redundancy removal are the data quality dimensions that ae characterized by the framework in order to define semantic quality. Stress tests, drift situations, and recommendation tasks are used to evaluate the approach utilizing real IMDb data. When compared to open-loop pipelines, the experimental results show that closed-loop semantic governance improves trustworthiness, boosts precision in recommendation outcomes, and strengthens robustness during data evolution. In brief, this study shows a scalable and long lasting approach to maintain semantic quality in growing RDF knowledge graphs.

I knowledge graph sono ampiamente utilizzati per la rappresentazione e l’integrazione di dati eterogenei nei sistemi informativi contemporanei. La loro utilità pratica dipende in modo significativo dalla qualità dei dati semantici, che è frequentemente degradata da fonti di dati distorte, processi di ingestione automatizzati e schemi in evoluzione. I knowledge graph RDF del mondo reale incontrano regolarmente incoerenze semantiche, letterali errate, ridondanza e deriva dei vincoli, che trasmettono difetti alle applicazioni downstream. Questa tesi esamina la difficoltà di mantenere la qualità semantica nei knowledge graph RDF dinamici attraverso l’introduzione di una struttura di governance a ciclo chiuso. Questo framework combina in modo fluido la validazione basata su SHACL, il rilevamento dei problemi, la pulizia dei dati, la valutazione della confidenza e la scoperta automatizzata dei vincoli in una pipeline unificata. Questo approccio inverte deliberatamente il processo di induzione, in contrasto con le tecniche open-loop convenzionali che si basano su vincoli statici specificati manualmente o derivano regole direttamente dai dati grezzi. Dare priorità alla validazione e alla riparazione semantica prima della scoperta dei vincoli garantisce che i vincoli generati siano basati su un grafo pulito e semanticamente coerente, piuttosto che su dati potenzialmente rumorosi. La coerenza semantica, la consistenza temporale, la robustezza lessicale e la rimozione della ridondanza sono le dimensioni della qualità dei dati caratterizzate dal framework per definire la qualità semantica. L’approccio viene valutato utilizzando dati reali di IMDb mediante stress test, scenari di deriva e compiti di raccomandazione. Rispetto alle pipeline open-loop, i risultati sperimentali mostrano che la governance semantica a ciclo chiuso migliora l’affidabilità, aumenta la precisione nei risultati di raccomandazione e rafforza la robustezza durante l’evoluzione dei dati. In sintesi, questo studio presenta un approccio scalabile e duraturo per mantenere la qualità semantica nei knowledge graph RDF in crescita.