In the big data context, we have the possibility to access and analyze an incredible amount of data to take informed decisions, and this data may belong to different data sources, each of which with different quality. As a consequence, in order to ascertain that the data we are going to use are correct, we need to find a way to assess the trustworthiness of the data sources providing them. Such an evaluation must surely be performed in the context of data integration, where we aim to align different datasets to provide uniform access to data, possibly addressing sources with different database schemata, heterogeneous data formats, semantic and representation ambiguity, and data inconsistency; indeed, when we have multiple data sources we may often observe conflicting information on the same topic, due to many different reasons such as outdated values, noisy data, ambiguities in the representation of the same information or, more trivially, errors. We may need to apply the data integration process to structured data (i.e., datasets with a prescriptive, regular, and complete structure, like relational databases) but also to semi-structured and totally unstructured data, such as texts written in natural language. In fact, data sources provide more and more often values in textual form that, depending on their length, are very difficult or impossible to be integrated using the classical data-integration pipeline. In such difficult contexts, metadata (i.e., information describing different characteristics of the data itself) can be used to support the integration of data with high heterogeneity of formats. An emerging trend used to store huge amounts of data is the data lake paradigm: one of the main features of data lakes is the possibility of storing raw data of different natures without any pre-processing, providing tools to combine and retrieve, on demand, relational data, texts, images, logs, streaming data, etc. In this thesis we study how metadata and data lakes can be leveraged to address the complex problem of big data integration. Specifically, first we provide an algorithm computing and exploiting source authority metadata to assess the trustworthiness of data sources in the data fusion phase of the data integration process, where we resolve the value conflicts that arise when sources provide conflicting values for the same data item. Furthermore, we present different methods and techniques that can be used to ease the adoption of a data lake in the healthcare domain: a minimum clinical metadataset; a pipeline to extract medical concepts expressed in natural language texts; a new clinical word embeddings designed for the Italian language; and finally, a synthetic healthcare data generator to enhance the performance assessment of a data lake. The closing contribution of this thesis is a novel pipeline designed to address the integration of data sources containing dirty values composed of long natural language texts, leveraging sentence embeddings and clustering techniques.

Grazie al fenomeno dei big data, abbiamo la possibilità di prendere decisioni informate accedendo e analizzando un'enorme quantità di dati. La qualità di questi dati varia a seconda delle svariate sorgenti informative che li forniscono. Di conseguenza, per assicurarci che i dati su cui basiamo il nostro processo decisionale siano corretti, dobbiamo poter valutare l'affidabilità delle loro sorgenti. Tale valutazione deve sicuramente essere eseguita nel processo di integrazione dei dati, che mira ad allineare diversi insiemi di dati per fornire un accesso uniforme agli stessi, eventualmente risolvendo discrepanze dovute a sorgenti con diversi schemi e formati, ambiguità semantiche o di rappresentazione e incoerenza dei dati. Infatti, quando analizziamo più sorgenti che forniscono valori per gli stessi oggetti, spesso osserviamo dei conflitti, tipicamente dovuti a valori obsoleti, perturbazioni, ambiguità nella rappresentazione delle stesse informazioni o, più banalmente, errori. Potremmo dover applicare il processo di integrazione a diverse tipologie di dati: strutturati (cioè insiemi di dati con una struttura prescrittiva, regolare e completa, come i database relazionali), ma anche semi-strutturati e totalmente non strutturati, come testi scritti in linguaggio naturale. Le sorgenti di dati forniscono infatti sempre più spesso valori in forma testuale che, a seconda della loro lunghezza, risultano molto difficili o impossibili da integrare mediante il classico processo di integrazione. In questi complessi contesti applicativi, i metadati (cioè informazioni che descrivono diverse caratteristiche dei dati stessi) possono essere utilizzati per supportare l'integrazione applicata a dati con un'elevata eterogeneità di formati. Negli ultimi anni si è diffusa la tendenza a utilizzare il paradigma dei data lake per immagazzinare enormi quantità di dati. Una delle caratteristiche principali di questi sistemi è, infatti, la possibilità di memorizzare dati grezzi di diversa natura senza alcuna pre-elaborazione. I data lake forniscono anche strumenti per integrare e interrogare, su richiesta, insiemi di dati di qualsiasi natura, come dati relazionali, testi, immagini, registri e dati in streaming. In questa tesi studiamo come i metadati e i data lakes possono essere utilizzati per affrontare il complesso problema dell'integrazione dei big data. In particolare, presentiamo un algoritmo che calcola e sfrutta il metadato rappresentante l'autorevolezza delle sorgenti per valutarne l'affidabilità durante la data fusion, ovvero l'ultima fase del processo di integrazione, nella quale vengono risolti i conflitti di valore. Presentiamo inoltre diversi metodi per facilitare l'adozione di un data lake in ambito clinico: un insieme minimo di metadati; un processo per l'estrazione di concetti medici espressi in testi in linguaggio naturale; un nuovo word embedding clinico progettato per la lingua italiana; un generatore di dati sanitari sintetici per migliorare la valutazione delle prestazioni di un data lake. Il contributo conclusivo di questa tesi è una nuova pipeline progettata per integrare sorgenti di dati contenenti valori composti da lunghi testi in linguaggio naturale, sfruttando tecniche di sentence embeddings e clustering.

Big data integration : supporting variously-structured data by means of metadata and data lakes

Piantella, Davide
2023/2024

Abstract

In the big data context, we have the possibility to access and analyze an incredible amount of data to take informed decisions, and this data may belong to different data sources, each of which with different quality. As a consequence, in order to ascertain that the data we are going to use are correct, we need to find a way to assess the trustworthiness of the data sources providing them. Such an evaluation must surely be performed in the context of data integration, where we aim to align different datasets to provide uniform access to data, possibly addressing sources with different database schemata, heterogeneous data formats, semantic and representation ambiguity, and data inconsistency; indeed, when we have multiple data sources we may often observe conflicting information on the same topic, due to many different reasons such as outdated values, noisy data, ambiguities in the representation of the same information or, more trivially, errors. We may need to apply the data integration process to structured data (i.e., datasets with a prescriptive, regular, and complete structure, like relational databases) but also to semi-structured and totally unstructured data, such as texts written in natural language. In fact, data sources provide more and more often values in textual form that, depending on their length, are very difficult or impossible to be integrated using the classical data-integration pipeline. In such difficult contexts, metadata (i.e., information describing different characteristics of the data itself) can be used to support the integration of data with high heterogeneity of formats. An emerging trend used to store huge amounts of data is the data lake paradigm: one of the main features of data lakes is the possibility of storing raw data of different natures without any pre-processing, providing tools to combine and retrieve, on demand, relational data, texts, images, logs, streaming data, etc. In this thesis we study how metadata and data lakes can be leveraged to address the complex problem of big data integration. Specifically, first we provide an algorithm computing and exploiting source authority metadata to assess the trustworthiness of data sources in the data fusion phase of the data integration process, where we resolve the value conflicts that arise when sources provide conflicting values for the same data item. Furthermore, we present different methods and techniques that can be used to ease the adoption of a data lake in the healthcare domain: a minimum clinical metadataset; a pipeline to extract medical concepts expressed in natural language texts; a new clinical word embeddings designed for the Italian language; and finally, a synthetic healthcare data generator to enhance the performance assessment of a data lake. The closing contribution of this thesis is a novel pipeline designed to address the integration of data sources containing dirty values composed of long natural language texts, leveraging sentence embeddings and clustering techniques.
PIRODDI, LUIGI
AMIGONI, FRANCESCO
23-feb-2024
Big data integration : supporting variously-structured data by means of metadata and data lakes
Grazie al fenomeno dei big data, abbiamo la possibilità di prendere decisioni informate accedendo e analizzando un'enorme quantità di dati. La qualità di questi dati varia a seconda delle svariate sorgenti informative che li forniscono. Di conseguenza, per assicurarci che i dati su cui basiamo il nostro processo decisionale siano corretti, dobbiamo poter valutare l'affidabilità delle loro sorgenti. Tale valutazione deve sicuramente essere eseguita nel processo di integrazione dei dati, che mira ad allineare diversi insiemi di dati per fornire un accesso uniforme agli stessi, eventualmente risolvendo discrepanze dovute a sorgenti con diversi schemi e formati, ambiguità semantiche o di rappresentazione e incoerenza dei dati. Infatti, quando analizziamo più sorgenti che forniscono valori per gli stessi oggetti, spesso osserviamo dei conflitti, tipicamente dovuti a valori obsoleti, perturbazioni, ambiguità nella rappresentazione delle stesse informazioni o, più banalmente, errori. Potremmo dover applicare il processo di integrazione a diverse tipologie di dati: strutturati (cioè insiemi di dati con una struttura prescrittiva, regolare e completa, come i database relazionali), ma anche semi-strutturati e totalmente non strutturati, come testi scritti in linguaggio naturale. Le sorgenti di dati forniscono infatti sempre più spesso valori in forma testuale che, a seconda della loro lunghezza, risultano molto difficili o impossibili da integrare mediante il classico processo di integrazione. In questi complessi contesti applicativi, i metadati (cioè informazioni che descrivono diverse caratteristiche dei dati stessi) possono essere utilizzati per supportare l'integrazione applicata a dati con un'elevata eterogeneità di formati. Negli ultimi anni si è diffusa la tendenza a utilizzare il paradigma dei data lake per immagazzinare enormi quantità di dati. Una delle caratteristiche principali di questi sistemi è, infatti, la possibilità di memorizzare dati grezzi di diversa natura senza alcuna pre-elaborazione. I data lake forniscono anche strumenti per integrare e interrogare, su richiesta, insiemi di dati di qualsiasi natura, come dati relazionali, testi, immagini, registri e dati in streaming. In questa tesi studiamo come i metadati e i data lakes possono essere utilizzati per affrontare il complesso problema dell'integrazione dei big data. In particolare, presentiamo un algoritmo che calcola e sfrutta il metadato rappresentante l'autorevolezza delle sorgenti per valutarne l'affidabilità durante la data fusion, ovvero l'ultima fase del processo di integrazione, nella quale vengono risolti i conflitti di valore. Presentiamo inoltre diversi metodi per facilitare l'adozione di un data lake in ambito clinico: un insieme minimo di metadati; un processo per l'estrazione di concetti medici espressi in testi in linguaggio naturale; un nuovo word embedding clinico progettato per la lingua italiana; un generatore di dati sanitari sintetici per migliorare la valutazione delle prestazioni di un data lake. Il contributo conclusivo di questa tesi è una nuova pipeline progettata per integrare sorgenti di dati contenenti valori composti da lunghi testi in linguaggio naturale, sfruttando tecniche di sentence embeddings e clustering.
File allegati
File Dimensione Formato  
Piantella_PhD.pdf

non accessibile

Descrizione: PhD Thesis
Dimensione 1.78 MB
Formato Adobe PDF
1.78 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/216633