Nowadays, more and more organizations use data analytics to pursue their goals. Even if enterprise data could be already valuable on its own, in many cases, combining it with external data sources would boost the value of the output, making data sharing a need in data analytics. While data sharing is something businesses demand, institutions such as the European Parliament are trying to safeguard data holders by regulating how data can be shared (data sovereignty). From a technological perspective, most organizations use data lakes as centralized repositories designed to store, secure and process a large amount of structured and unstructured data. However, there is not yet a standard way to share data across a federation of data lakes, and it is difficult to both allow the execution of federated queries (enabling data sharing) and guarantee that the data holder perimeter is respected (data sovereignty). This lack of ready solutions may prevent organizations from gaining the most out of the process of data analytics. The purpose of this work is to define an architecture that, inserted in a federated data lake, (i) permits to balance computation movement and data movement to mitigate the effects of the network; (ii) grants that the actual usage respects the data sovereignty expressed as access policies; (iii) makes use of the blockchain technology as a means for guaranteeing the traceability of data sharing. The proposed approach has been validated in a healthcare scenario composed of several institutions (e.g., hospitals and clinics, research institutes, and medical universities) that produce and collect clinical data in local data lakes. Establishing a federation of such data lakes opens the possibility of setting up multi-centric clinical trials, which can take advantage of data belonging to different institutions. With respect to the current settings, the proposed approach makes the definition of the access policies easier, improving the data sharing while creating a trusted environment.

Oggi più che mai, sempre più organizzazioni si affidano all'analisi dati per raggiungere i loro scopi. Anche se, i dati generati da un'organizzazione possono avere già di per sé valore, generalmente, combinarli con dati derivanti da fonti esterne può incrementare il valore dei risultati dell'analisi, rendendo la condivisione dei dati un necessità nel contesto dell'analisi. La condivisione dei dati diventa quindi qualcosa che le organizzazioni cercano, parallelamente, istituzioni quali il Parlamento europeo si stanno muovendo per salvaguardare i titolari dei dati introducendo norme in materia di condivisione e sovranità dei dati. Da un punto di vista tecnologico, molte organizzazioni ricorrono ai data lakes come repository centralizzato preposto ad immagazzinare, proteggere ed elaborare grandi quantità di dati che possono essere strutturati o meno. Nonostante lo strumento del data lake sia ben consolidato, non ci sono ancora meccanismi standardizzati per condividere dati all'interno di federazioni e risulta complesso permettere l'esecuzione di query federate (abilitando la condivisione dati) e allo stesso tempo garantire il rispetto della sovranità del dato. La mancanza di soluzioni in grado di implementare entrambi questi aspetti potrebbe limitare la mole di dati che vengono scambiati tra le organizzazioni e di conseguenza limitare l'efficacia dell'analisi dei dati. Lo scopo di questo lavoro quello di definire un'architettura che, posta all'interno di una federazione di data lakes, (i) permetta il bilanciamento tra movimentazione dei dati e movimentazione della computazione; (ii) garantisca che l'uso che viene fatto dei dati rispetti la sovranità dei dati espressa per mezzo delle policy di accesso; (iii) utilizzi tecnologie Blockchain come strumento a garanzia della tracciabilità della condivisione dati.

Empowering trusted data sharing for data analytics in a federated environment : a blockchain-based approach

ROSSETTO, DAVIDE
2021/2022

Abstract

Nowadays, more and more organizations use data analytics to pursue their goals. Even if enterprise data could be already valuable on its own, in many cases, combining it with external data sources would boost the value of the output, making data sharing a need in data analytics. While data sharing is something businesses demand, institutions such as the European Parliament are trying to safeguard data holders by regulating how data can be shared (data sovereignty). From a technological perspective, most organizations use data lakes as centralized repositories designed to store, secure and process a large amount of structured and unstructured data. However, there is not yet a standard way to share data across a federation of data lakes, and it is difficult to both allow the execution of federated queries (enabling data sharing) and guarantee that the data holder perimeter is respected (data sovereignty). This lack of ready solutions may prevent organizations from gaining the most out of the process of data analytics. The purpose of this work is to define an architecture that, inserted in a federated data lake, (i) permits to balance computation movement and data movement to mitigate the effects of the network; (ii) grants that the actual usage respects the data sovereignty expressed as access policies; (iii) makes use of the blockchain technology as a means for guaranteeing the traceability of data sharing. The proposed approach has been validated in a healthcare scenario composed of several institutions (e.g., hospitals and clinics, research institutes, and medical universities) that produce and collect clinical data in local data lakes. Establishing a federation of such data lakes opens the possibility of setting up multi-centric clinical trials, which can take advantage of data belonging to different institutions. With respect to the current settings, the proposed approach makes the definition of the access policies easier, improving the data sharing while creating a trusted environment.
TIEZZI, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Oggi più che mai, sempre più organizzazioni si affidano all'analisi dati per raggiungere i loro scopi. Anche se, i dati generati da un'organizzazione possono avere già di per sé valore, generalmente, combinarli con dati derivanti da fonti esterne può incrementare il valore dei risultati dell'analisi, rendendo la condivisione dei dati un necessità nel contesto dell'analisi. La condivisione dei dati diventa quindi qualcosa che le organizzazioni cercano, parallelamente, istituzioni quali il Parlamento europeo si stanno muovendo per salvaguardare i titolari dei dati introducendo norme in materia di condivisione e sovranità dei dati. Da un punto di vista tecnologico, molte organizzazioni ricorrono ai data lakes come repository centralizzato preposto ad immagazzinare, proteggere ed elaborare grandi quantità di dati che possono essere strutturati o meno. Nonostante lo strumento del data lake sia ben consolidato, non ci sono ancora meccanismi standardizzati per condividere dati all'interno di federazioni e risulta complesso permettere l'esecuzione di query federate (abilitando la condivisione dati) e allo stesso tempo garantire il rispetto della sovranità del dato. La mancanza di soluzioni in grado di implementare entrambi questi aspetti potrebbe limitare la mole di dati che vengono scambiati tra le organizzazioni e di conseguenza limitare l'efficacia dell'analisi dei dati. Lo scopo di questo lavoro quello di definire un'architettura che, posta all'interno di una federazione di data lakes, (i) permetta il bilanciamento tra movimentazione dei dati e movimentazione della computazione; (ii) garantisca che l'uso che viene fatto dei dati rispetti la sovranità dei dati espressa per mezzo delle policy di accesso; (iii) utilizzi tecnologie Blockchain come strumento a garanzia della tracciabilità della condivisione dati.
File allegati
File Dimensione Formato  
Tesi_Rossetto.pdf

non accessibile

Dimensione 1.34 MB
Formato Adobe PDF
1.34 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201418