The research area our work focuses on is that of Data Integration, which concerns all the operations that gather and aggregates data coming from different sources, with the purpose of creating a single and unified view of it. With the rise of Big Data, Data Integration technologies had to adapt themselves to deal with huge amounts of complex data. Already existing technologies, like Data Warehouses, are not flexible enough to cope with unstructured data and they also face huge difficulty to efficiently integrate, access and query the large volume of diverse data with their traditional 'schema-on-write' approach; for this reason, Data Lakes have been introduced. Data Lakes represent a very flexible and scalable solution, able to ingest and store structured, semi-structured and unstructured data, coming from heterogeneous sources, in a single place where analysis operations can be easily performed. Only integrating data is not sufficient to extract some value from it; in fact, a proper management of metadata is crucial. That's why many implementations of metadata management models for Data Lakes have been recently introduced. However, a general solution that can deal with the increasing amount of complex data and which could eventually be adopted by companies, is still missing. Current metadata systems provide some functionalities that deal with metadata and extract information from it. We identify GoldMEDAL as the best option among them, especially for its genericity and its flexibility; then we take into consideration AUDAL, that is one of its physical implementations of Data Lake for textual and tabular documents. Some very interesting functionalities which are provided by this Data Lake implementation are subjected to our analysis. The semantic annotation functionality, in particular, is the one that mostly takes our attention, so we proceed to upgrade it by leveraging the graph database characteristics and the integration of the YAGO ontology, with the purpose of further enhancing metadata management and enabling some advanced data retrieval operations.

L'area di ricerca sulla quale il nostro lavoro si concentra è quella dell' Integrazione Dati, che comprende tutte le operazioni in grado di raccogliere e aggregare dati provenienti da diverse sorgenti, con lo scopo di crearne una visione singola e unificata. A causa della crescita dei Big Data, le tecnologie di Integrazione Dati si sono dovute adattare per essere in grado di affrontare enormi quantità di dati complessi. Le tecnologie già esistenti, come i Data Warehouse, non sono abbastanza flessibili per fronteggiare dati non strutturati e trovano un'enorme difficoltà nell'integrare, accedere e navigare in modo efficiente il massiccio volume di dati tramite il tradizionale approccio di 'schema-on-write'; per questo motivo, i Data Lake sono stati introdotti. I Data Lake rappresentano un soluzione molto flessibile e scalabile, in grado di immagazzinare dati strutturati, semi-strutturati e non strutturati, provenienti da sorgenti eterogenee, in un singolo posto dove varie operazioni di analisi possono essere effettuate. Tuttavia, la sola integrazione dei dati non è sufficiente per estrarne del valore; infatti, è fondamentale una appropriata gestione dei metadati. Per questo motivo, alcuni sistemi di gestione metadati per Data Lakes sono stati recentemente proposti. Tuttavia, manca ancora un modello generale in grado di far fronte al continuo incremento di dati complessi. Gli attuali sistemi di gestione metadati includono funzionalità in grado di trattare i metadati e di estrarne ulteriori informazioni. Identifichiamo GoldMEDAL come migliore opzione tra questi sistemi, specialmente per la sua genericità e flessibilità; prendiamo poi in considerazione AUDAL, una sua implementazione di Data Lake per il trattamento di documenti tabulari e testuali. Alcune sue funzionalità sono davvero interessanti e sono soggette alla nostra analisi. In particolare, la funzionalità di annotazione semantica è quella che cattura prevalentemente la nostra attenzione. Decidiamo quindi di migliorarla sfruttando le caratteristiche di un database a grafo e l'integrazione dell'ontologia YAGO, con lo scopo di ottimizzare ulteriormente la gestione dei metadati e di attivare alcune funzionalità avanzate di ricerca dati.

Adding semantics to data lake metadata

DOLCI, FRANCESCO
2021/2022

Abstract

The research area our work focuses on is that of Data Integration, which concerns all the operations that gather and aggregates data coming from different sources, with the purpose of creating a single and unified view of it. With the rise of Big Data, Data Integration technologies had to adapt themselves to deal with huge amounts of complex data. Already existing technologies, like Data Warehouses, are not flexible enough to cope with unstructured data and they also face huge difficulty to efficiently integrate, access and query the large volume of diverse data with their traditional 'schema-on-write' approach; for this reason, Data Lakes have been introduced. Data Lakes represent a very flexible and scalable solution, able to ingest and store structured, semi-structured and unstructured data, coming from heterogeneous sources, in a single place where analysis operations can be easily performed. Only integrating data is not sufficient to extract some value from it; in fact, a proper management of metadata is crucial. That's why many implementations of metadata management models for Data Lakes have been recently introduced. However, a general solution that can deal with the increasing amount of complex data and which could eventually be adopted by companies, is still missing. Current metadata systems provide some functionalities that deal with metadata and extract information from it. We identify GoldMEDAL as the best option among them, especially for its genericity and its flexibility; then we take into consideration AUDAL, that is one of its physical implementations of Data Lake for textual and tabular documents. Some very interesting functionalities which are provided by this Data Lake implementation are subjected to our analysis. The semantic annotation functionality, in particular, is the one that mostly takes our attention, so we proceed to upgrade it by leveraging the graph database characteristics and the integration of the YAGO ontology, with the purpose of further enhancing metadata management and enabling some advanced data retrieval operations.
PIANTELLA, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
L'area di ricerca sulla quale il nostro lavoro si concentra è quella dell' Integrazione Dati, che comprende tutte le operazioni in grado di raccogliere e aggregare dati provenienti da diverse sorgenti, con lo scopo di crearne una visione singola e unificata. A causa della crescita dei Big Data, le tecnologie di Integrazione Dati si sono dovute adattare per essere in grado di affrontare enormi quantità di dati complessi. Le tecnologie già esistenti, come i Data Warehouse, non sono abbastanza flessibili per fronteggiare dati non strutturati e trovano un'enorme difficoltà nell'integrare, accedere e navigare in modo efficiente il massiccio volume di dati tramite il tradizionale approccio di 'schema-on-write'; per questo motivo, i Data Lake sono stati introdotti. I Data Lake rappresentano un soluzione molto flessibile e scalabile, in grado di immagazzinare dati strutturati, semi-strutturati e non strutturati, provenienti da sorgenti eterogenee, in un singolo posto dove varie operazioni di analisi possono essere effettuate. Tuttavia, la sola integrazione dei dati non è sufficiente per estrarne del valore; infatti, è fondamentale una appropriata gestione dei metadati. Per questo motivo, alcuni sistemi di gestione metadati per Data Lakes sono stati recentemente proposti. Tuttavia, manca ancora un modello generale in grado di far fronte al continuo incremento di dati complessi. Gli attuali sistemi di gestione metadati includono funzionalità in grado di trattare i metadati e di estrarne ulteriori informazioni. Identifichiamo GoldMEDAL come migliore opzione tra questi sistemi, specialmente per la sua genericità e flessibilità; prendiamo poi in considerazione AUDAL, una sua implementazione di Data Lake per il trattamento di documenti tabulari e testuali. Alcune sue funzionalità sono davvero interessanti e sono soggette alla nostra analisi. In particolare, la funzionalità di annotazione semantica è quella che cattura prevalentemente la nostra attenzione. Decidiamo quindi di migliorarla sfruttando le caratteristiche di un database a grafo e l'integrazione dell'ontologia YAGO, con lo scopo di ottimizzare ulteriormente la gestione dei metadati e di attivare alcune funzionalità avanzate di ricerca dati.
File allegati
File Dimensione Formato  
Adding Semantics to Data Lake Metadata.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.51 MB
Formato Adobe PDF
2.51 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/198962