Data Science plays a very important role in the current society. In many scenarios, it allows to obtain insights that have a critical impact on our daily lives (e.g. precision medicine, fraud detection or autonomous vehicles), that otherwise would be impossible to achieve. Unfortunately, often the data sources used in data science applications are very heterogeneous and this prevents us from easily using them in data analytic tasks. In this context, before getting to the actual data modeling phase, it is necessary to apply a series of methods to provide the data science algorithms with correct and reliable data. Specifically, often times the data comes from different sources that need to be integrated. Additionally, the data provided by the sources are often of poor quality, and can present ethical problems which, if not solved, would affect the final decisions of the prediction algorithms. This thesis presents a collection of methods and tools to improve the quality of datasets and to prepare them for being used in data science tasks. In the data integration process, Entity Resolution has the role of identifying records that refer to the same data item. Due to the huge size of today’s data sources, modern methods, use the so-called Blocking techniques to improve their efficiency by partitioning the initial dataset into smaller, quicker to execute, blocks. Traditional blocking techniques fails at identifying semantically-similar values since they only consider the syntactical aspects of the data. To overcome these challenges, in this thesis we propose, LSH-Embeddings and Clust-Embeddings, two automatic blocking strategies that aim at capturing the semantic properties of data by means of recent Deep Learning frameworks. Another step of the Integration pipeline, Data Fusion, addresses the problem of discovering the true values of a data item when multiple sources provide different values for it. In this thesis we propose STORM, a novel domain-aware algorithm for data fusion designed for the multi-truth case, that is, when a data item can also have multiple true values. To determine the true values STORM assesses the trustworthiness of the sources by taking into account their authority: here, we define authoritative sources as those that have been copied by many other ones. As a further support to the Data Fusion phase, the thesis also proposes Deep-Fusion, a multi-truth data fusion method, specifically designed to work with data sources containing dirty values or text written in natural language, very frequent in current integration problems. Another issue that arises in current data science has to do with ethics, since, for an application to be reliable, it should be associated with tools to discover bias in data, in order to avoid (possibly unintentional) unethical behavior and consequences. In this thesis we propose E-FAIR-DB, a novel solution that, exploiting the notion of Functional Dependency - a type of data constraint - aims at enforcing data ethics by discovering and solving discrimination in datasets. All the methods have been thoroughly tested on several real-world datasets, achieving better results than the ones obtained by comparable state-of-the-art techniques.

L’uso di tecniche di data science ha un ruolo molto importante nella società attuale, e in molti ambiti (es. medicina di precisione, rilevamento delle frodi o veicoli autonomi) consente di ottenere benefici che hanno un impatto significativo sulla nostra vita quotidiana e che altrimenti sarebbero impossibili da conseguire. Sfortunatamente, spesso i dati utilizzati nei progetti di data science sono molto eterogenei e questo ci impedisce di utilizzarli facilmente nelle attività di analisi dei dati. In questo contesto, prima di arrivare alla fase di predizione vera e propria, è necessario applicare una serie di metodi per fornire agli algoritmi dati corretti e affidabili. In particolare, molte volte i dati provengono da diverse fonti che devono essere integrate; inoltre, i dati forniti sono spesso di scarsa qualità e possono essere affetti da problemi etici che, se non risolti, inciderebbero sulle decisioni finali determinate dagli algoritmi di predizione. Questa tesi presenta un collezione di metodi e strumenti volti a migliorare la qualità dei dati e a prepararli ad essere utilizzati nelle attività di data science. Nel processo di integrazione dei dati, la fase di Entity Resolution ha il ruolo di identificare le tuple che fanno riferimento al medesimo oggetto. A causa delle enormi dimensioni delle odierne fonti di dati, nei moderni metodi di entity resolution si utilizzano, per migliorarne l’efficienza, tecniche dette di Blocking, basate sull’idea di suddividere il dataset iniziale in blocchi più piccoli e veloci da eseguire. Le tecniche di blocking tradizionali, nel fare il confronto tra valori, considerano solamente gli aspetti sintattici dei dati, mentre non tengono conto di valori che potrebbero essere considerati uguali in quanto, anche se lessicalmente diversi, sono semanticamente simili . Per superare questo limite in questa tesi proponiamo, LSH-Embeddings e Clust-Embeddings, due metodi automatici di blocking che, sfruttando recenti tecniche di Deep Learning, mirano a catturare le proprietà semantiche dei dati. Un’altra fase del processo d’integrazione è quella di Data Fusion, che affronta il problema dell’individuazione dei valori corretti di un oggetto quando più sorgenti forniscono valori diversi per esso. In questa tesi proponiamo STORM, un nuovo algoritmo di data fusion specificatamente progettato per gestire oggetti che possono avere molteplici valori corretti. Per fare ciò, STORM valuta l’affidabilità delle sorgenti utilizzando il concetto di autorevolezza, definendo come autorevoli quelle sorgenti che sono state copiate da molte altre. Come ulteriore supporto alla fase di Data Fusion, la tesi propone anche Deep-Fusion, un metodo specificamente progettato per lavorare con fonti di dati contenenti valori sporchi o testo scritto in linguaggio naturale, eventualità frequenti negli attuali problemi di integrazione. Un altro problema sempre più attuale nei progetti di Data science ha a che fare con l’etica; infatti, affinché un’applicazione sia affidabile, dovrebbe essere associata a strumenti per scoprire pregiudizi e discriminazioni nei dati, al fine di evitare comportamenti non etici. In questa tesi proponiamo E-FAIR-DB, una nuova soluzione che, sfruttando la nozione di Dipendenza Funzionale - un tipo di vincolo sui dati - mira ad accrescere l’eticità dei dati scoprendo e risolvendo discriminazioni e favoritismi. Tutti i metodi sono stati accuratamente testati su dataset reali. I risultati conseguiti sono migliori rispetto a quelli ottenuti da tecniche comparabili presenti in letteratura.

Data integration and ethical quality : fundamental steps of the data analysis pipeline

Azzalini, Fabio
2021/2022

Abstract

Data Science plays a very important role in the current society. In many scenarios, it allows to obtain insights that have a critical impact on our daily lives (e.g. precision medicine, fraud detection or autonomous vehicles), that otherwise would be impossible to achieve. Unfortunately, often the data sources used in data science applications are very heterogeneous and this prevents us from easily using them in data analytic tasks. In this context, before getting to the actual data modeling phase, it is necessary to apply a series of methods to provide the data science algorithms with correct and reliable data. Specifically, often times the data comes from different sources that need to be integrated. Additionally, the data provided by the sources are often of poor quality, and can present ethical problems which, if not solved, would affect the final decisions of the prediction algorithms. This thesis presents a collection of methods and tools to improve the quality of datasets and to prepare them for being used in data science tasks. In the data integration process, Entity Resolution has the role of identifying records that refer to the same data item. Due to the huge size of today’s data sources, modern methods, use the so-called Blocking techniques to improve their efficiency by partitioning the initial dataset into smaller, quicker to execute, blocks. Traditional blocking techniques fails at identifying semantically-similar values since they only consider the syntactical aspects of the data. To overcome these challenges, in this thesis we propose, LSH-Embeddings and Clust-Embeddings, two automatic blocking strategies that aim at capturing the semantic properties of data by means of recent Deep Learning frameworks. Another step of the Integration pipeline, Data Fusion, addresses the problem of discovering the true values of a data item when multiple sources provide different values for it. In this thesis we propose STORM, a novel domain-aware algorithm for data fusion designed for the multi-truth case, that is, when a data item can also have multiple true values. To determine the true values STORM assesses the trustworthiness of the sources by taking into account their authority: here, we define authoritative sources as those that have been copied by many other ones. As a further support to the Data Fusion phase, the thesis also proposes Deep-Fusion, a multi-truth data fusion method, specifically designed to work with data sources containing dirty values or text written in natural language, very frequent in current integration problems. Another issue that arises in current data science has to do with ethics, since, for an application to be reliable, it should be associated with tools to discover bias in data, in order to avoid (possibly unintentional) unethical behavior and consequences. In this thesis we propose E-FAIR-DB, a novel solution that, exploiting the notion of Functional Dependency - a type of data constraint - aims at enforcing data ethics by discovering and solving discrimination in datasets. All the methods have been thoroughly tested on several real-world datasets, achieving better results than the ones obtained by comparable state-of-the-art techniques.
LANZI, PIERLUCA
CERI, STEFANO
AZZONE, GIOVANNI
19-mag-2022
Data integration and ethical quality : fundamental steps of the data analysis pipeline
L’uso di tecniche di data science ha un ruolo molto importante nella società attuale, e in molti ambiti (es. medicina di precisione, rilevamento delle frodi o veicoli autonomi) consente di ottenere benefici che hanno un impatto significativo sulla nostra vita quotidiana e che altrimenti sarebbero impossibili da conseguire. Sfortunatamente, spesso i dati utilizzati nei progetti di data science sono molto eterogenei e questo ci impedisce di utilizzarli facilmente nelle attività di analisi dei dati. In questo contesto, prima di arrivare alla fase di predizione vera e propria, è necessario applicare una serie di metodi per fornire agli algoritmi dati corretti e affidabili. In particolare, molte volte i dati provengono da diverse fonti che devono essere integrate; inoltre, i dati forniti sono spesso di scarsa qualità e possono essere affetti da problemi etici che, se non risolti, inciderebbero sulle decisioni finali determinate dagli algoritmi di predizione. Questa tesi presenta un collezione di metodi e strumenti volti a migliorare la qualità dei dati e a prepararli ad essere utilizzati nelle attività di data science. Nel processo di integrazione dei dati, la fase di Entity Resolution ha il ruolo di identificare le tuple che fanno riferimento al medesimo oggetto. A causa delle enormi dimensioni delle odierne fonti di dati, nei moderni metodi di entity resolution si utilizzano, per migliorarne l’efficienza, tecniche dette di Blocking, basate sull’idea di suddividere il dataset iniziale in blocchi più piccoli e veloci da eseguire. Le tecniche di blocking tradizionali, nel fare il confronto tra valori, considerano solamente gli aspetti sintattici dei dati, mentre non tengono conto di valori che potrebbero essere considerati uguali in quanto, anche se lessicalmente diversi, sono semanticamente simili . Per superare questo limite in questa tesi proponiamo, LSH-Embeddings e Clust-Embeddings, due metodi automatici di blocking che, sfruttando recenti tecniche di Deep Learning, mirano a catturare le proprietà semantiche dei dati. Un’altra fase del processo d’integrazione è quella di Data Fusion, che affronta il problema dell’individuazione dei valori corretti di un oggetto quando più sorgenti forniscono valori diversi per esso. In questa tesi proponiamo STORM, un nuovo algoritmo di data fusion specificatamente progettato per gestire oggetti che possono avere molteplici valori corretti. Per fare ciò, STORM valuta l’affidabilità delle sorgenti utilizzando il concetto di autorevolezza, definendo come autorevoli quelle sorgenti che sono state copiate da molte altre. Come ulteriore supporto alla fase di Data Fusion, la tesi propone anche Deep-Fusion, un metodo specificamente progettato per lavorare con fonti di dati contenenti valori sporchi o testo scritto in linguaggio naturale, eventualità frequenti negli attuali problemi di integrazione. Un altro problema sempre più attuale nei progetti di Data science ha a che fare con l’etica; infatti, affinché un’applicazione sia affidabile, dovrebbe essere associata a strumenti per scoprire pregiudizi e discriminazioni nei dati, al fine di evitare comportamenti non etici. In questa tesi proponiamo E-FAIR-DB, una nuova soluzione che, sfruttando la nozione di Dipendenza Funzionale - un tipo di vincolo sui dati - mira ad accrescere l’eticità dei dati scoprendo e risolvendo discriminazioni e favoritismi. Tutti i metodi sono stati accuratamente testati su dataset reali. I risultati conseguiti sono migliori rispetto a quelli ottenuti da tecniche comparabili presenti in letteratura.
File allegati
File Dimensione Formato  
Azzalini Fabio PhD Thesis - POLITESI.pdf

accessibile in internet per tutti

Descrizione: thesis
Dimensione 6.07 MB
Formato Adobe PDF
6.07 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187689