Computers and algorithms have become essential tools that pervade all aspects of our daily lives and, since this technology is based on data, for it to be reliable we have to make sure the data on which it is based on is fair and without bias. As a consequence, Fairness has become an important topic of interest within the field of Data Science Ethics, and in general in Data Science. Today’s applications should therefore be associated with tools to discover bias in data, in order to avoid (possibly unintentional) unethical behavior and consequences; therefore, technologies that accurately discover discrimination and bias to obtain fair databases are badly needed. There are already emerging technologies that detect biases and discover discrimination in datasets. In this thesis, we propose a novel solution, called FAIR-DB (FunctionAl dependencIes to discoveR Data Bias), that exploits the notion of Functional Dependency, a particular type of constraint on the data. The proposed solution is implemented as a framework that focuses on the mining of such dependencies, also proposing some new metrics for evaluating the bias found in the input dataset. By means of data mining techniques, our tool can identify the groups that are discriminated and the groups that verify various fairness measures in the dataset; moreover, based on special aspects of these metrics and the intrinsic nature of dependencies, the framework also checks group and subgroup fairness, obtaining more insight about the already existing bias in dataset than other tools. Finally, our system also suggests possible future steps, by indicating the most appropriate (already existing) algorithms to correct the dataset on the basis of the computed results.

Computer e algoritmi sono diventati pervasivi in tutti gli aspetti della nostra vita quotidiana, e dato che la tecnologia in generale è basata sui dati, ed essa è affidabile solamente se i dati sui quali essa è costruita sono etici e senza alcun tipo di bias. Consegue quindi, che il concetto di Fairness, in modo approssimativo tradotto come equità, è diventato un argomento di interesse rilevante nell'area del Data Science Ethics e in generale nella Data Science. Ci sono già tecnologie emergenti che riconoscono bias e discriminazioni all'interno dei dataset. In questa tesi proponiamo una soluzione nuova, chiamata FAIR-DB, (acronimo di FunctionAl dependencIes to discoveR Data Bias), basata sulle Dipendenze Funzionali, le quali sono un particulare tipo di vincolo esistente nei dati. La soluzione proposta è un framework che si focalizza sull'estrazione di tali dipendenze, proponendo nuove metriche che possono valutare i bias trovati in suddetti dataset. Grazie alle tecniche di Data Mining, il nostro sistema è in grado di identificare nei dati i gruppi maggiormente discriminati e anche quelli invece che verificano i controlli di equità; inoltre, grazie alla particolarità delle metriche e alla innata natura delle dipendenze, il nostro sistema riesce ad eseguire controlli di group and subgroup fairness, ottendendo maggiori informazioni su i bias già presenti nei data, rispetto ad altri strumenti già esistenti. In conclusione, il nostro sistema suggerisce anche possibili passi da eseguire al termine della ricerca; indichiamo alcuni algoritmi già esistenti che, a partire dai risultati finali del nostro sistema, risolvono i bias nei dati.

Using functional dependencies to discover data bias

Criscuolo, Chiara
2019/2020

Abstract

Computers and algorithms have become essential tools that pervade all aspects of our daily lives and, since this technology is based on data, for it to be reliable we have to make sure the data on which it is based on is fair and without bias. As a consequence, Fairness has become an important topic of interest within the field of Data Science Ethics, and in general in Data Science. Today’s applications should therefore be associated with tools to discover bias in data, in order to avoid (possibly unintentional) unethical behavior and consequences; therefore, technologies that accurately discover discrimination and bias to obtain fair databases are badly needed. There are already emerging technologies that detect biases and discover discrimination in datasets. In this thesis, we propose a novel solution, called FAIR-DB (FunctionAl dependencIes to discoveR Data Bias), that exploits the notion of Functional Dependency, a particular type of constraint on the data. The proposed solution is implemented as a framework that focuses on the mining of such dependencies, also proposing some new metrics for evaluating the bias found in the input dataset. By means of data mining techniques, our tool can identify the groups that are discriminated and the groups that verify various fairness measures in the dataset; moreover, based on special aspects of these metrics and the intrinsic nature of dependencies, the framework also checks group and subgroup fairness, obtaining more insight about the already existing bias in dataset than other tools. Finally, our system also suggests possible future steps, by indicating the most appropriate (already existing) algorithms to correct the dataset on the basis of the computed results.
AZZALINI, FABIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
Computer e algoritmi sono diventati pervasivi in tutti gli aspetti della nostra vita quotidiana, e dato che la tecnologia in generale è basata sui dati, ed essa è affidabile solamente se i dati sui quali essa è costruita sono etici e senza alcun tipo di bias. Consegue quindi, che il concetto di Fairness, in modo approssimativo tradotto come equità, è diventato un argomento di interesse rilevante nell'area del Data Science Ethics e in generale nella Data Science. Ci sono già tecnologie emergenti che riconoscono bias e discriminazioni all'interno dei dataset. In questa tesi proponiamo una soluzione nuova, chiamata FAIR-DB, (acronimo di FunctionAl dependencIes to discoveR Data Bias), basata sulle Dipendenze Funzionali, le quali sono un particulare tipo di vincolo esistente nei dati. La soluzione proposta è un framework che si focalizza sull'estrazione di tali dipendenze, proponendo nuove metriche che possono valutare i bias trovati in suddetti dataset. Grazie alle tecniche di Data Mining, il nostro sistema è in grado di identificare nei dati i gruppi maggiormente discriminati e anche quelli invece che verificano i controlli di equità; inoltre, grazie alla particolarità delle metriche e alla innata natura delle dipendenze, il nostro sistema riesce ad eseguire controlli di group and subgroup fairness, ottendendo maggiori informazioni su i bias già presenti nei data, rispetto ad altri strumenti già esistenti. In conclusione, il nostro sistema suggerisce anche possibili passi da eseguire al termine della ricerca; indichiamo alcuni algoritmi già esistenti che, a partire dai risultati finali del nostro sistema, risolvono i bias nei dati.
File allegati
File Dimensione Formato  
MasterThesisChiaraCriscuolo.pdf

accessibile in internet per tutti

Descrizione: Using Functional Dependencies to discover Data Bias
Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175433