In the last decades, the collection and management of data has become more and more important. In a data-driven context, data are used to extract information in order to gain a deeper knowledge of the analyzed domain. In addition to the classical problems related to data collection, i.e. storage and processing, the main issue has become addressing Data Quality. In fact, it has been proven that high quality data provide high value. A key property for an effective data-driven decision-making application is not only the Quality of used data, but also their Fairness. In this context, researchers refer to Fairness as the lack of bias inside a dataset, which is a very recurrent aspect. In fact, even the most accurate application for collecting data will suffer from it. Even high quality data can contain bias, and subsequently lead to unfair outcomes. We may assume that data Quality and Fairness cannot be both improved, instead, there exists a relationship between them. The main focus of this work is to gather all these aspects and conduct a proper analysis that studies this relationship. Our approach consists of injecting missing values in a dataset, and subsequently perform a data cleaning activity using different techniques, in order to restore the quality. These activities usually lead to insert inaccuracies in the data. After that, the accuracy of the dataset is computed and compared with several fairness metrics, The results of this procedure give a deeper knowledge of the effect of the operations applied on data and their impact on both Quality and Fairness perspective. We show that there exists a trade-off between Data Quality and Fairness, and that each method tested results in the improvement of Fairness and the deterioration of Quality in different ways. Additionally, we propose guidelines to advise researchers on how to choose the best strategy for applying changes in data to improve more Fairness or more Quality, according to their needs.

Negli ultimi decenni, la raccolta e la gestione dei dati è diventata sempre più importante. In un contesto data-driven, i dati vengono utilizzati per estrarre informazioni al fine di ottenere una conoscenza più profonda del dominio che si vuole analizzare. Oltre ai classici problemi legati alla raccolta dei dati, la questione principale è diventata la valutazione della qualità dei dati. È dimostrato infatti che i dati di alta qualità forniscono un alto valore. Una proprietà chiave per un’efficace applicazione decisionale basata sui dati non è solo la qualità dei dati utilizzati, ma anche la loro Fairness. In questo contesto, i ricercatori definiscono la Fairness come mancanza di bias all’interno dei dati. Il bias è un aspetto ricorrente nella vita quotidiana, anche l’applicazione più accurata per la raccolta dei dati ne risente. Anche dati di scarsa qualità portano a bias, e di conseguenza a risultati non fair. Si è ipotizzato che la Qualità dei dati e la Fairness non possono essere migliorate entrambe, ma esiste una relazione tra di esse. L’obiettivo principale di questo lavoro è quello di raccogliere tutti questi aspetti e condurre un’analisi che studi questa relazione. Il nostro approccio consiste nell’inserire valori mancanti in un dataset, e successivamente eseguire un’attività di pulizia dei dati utilizzando diverse tecniche, al fine di ripristinare la dimensione della Completezza. In seguito, l’accuratezza del dataset e le metriche di fairness sono calcolate e messe in relazione. I risultati di questa procedura offrono una conoscenza più profonda sull’effetto delle azioni applicate sui dati e il loro impatto sia sulla Qualità che sulla Fairness. Si mostra che esiste un trade-off tra la Qualità dei dati e la Fairness, e che ogni metodo porta al miglioramento della Fairness e al deterioramento della Qualità in modi diversi. Inoltre, si propongono delle linee guida per consigliare come scegliere la migliore strategia per applicare modifiche ai dati per migliorare più la Fairness o più la Qualità, a seconda dello scopo.

Accuracy, completeness or fairness : a challenging trade-off

Dangelo, Alessandro
2021/2022

Abstract

In the last decades, the collection and management of data has become more and more important. In a data-driven context, data are used to extract information in order to gain a deeper knowledge of the analyzed domain. In addition to the classical problems related to data collection, i.e. storage and processing, the main issue has become addressing Data Quality. In fact, it has been proven that high quality data provide high value. A key property for an effective data-driven decision-making application is not only the Quality of used data, but also their Fairness. In this context, researchers refer to Fairness as the lack of bias inside a dataset, which is a very recurrent aspect. In fact, even the most accurate application for collecting data will suffer from it. Even high quality data can contain bias, and subsequently lead to unfair outcomes. We may assume that data Quality and Fairness cannot be both improved, instead, there exists a relationship between them. The main focus of this work is to gather all these aspects and conduct a proper analysis that studies this relationship. Our approach consists of injecting missing values in a dataset, and subsequently perform a data cleaning activity using different techniques, in order to restore the quality. These activities usually lead to insert inaccuracies in the data. After that, the accuracy of the dataset is computed and compared with several fairness metrics, The results of this procedure give a deeper knowledge of the effect of the operations applied on data and their impact on both Quality and Fairness perspective. We show that there exists a trade-off between Data Quality and Fairness, and that each method tested results in the improvement of Fairness and the deterioration of Quality in different ways. Additionally, we propose guidelines to advise researchers on how to choose the best strategy for applying changes in data to improve more Fairness or more Quality, according to their needs.
CRISCUOLO, CHIARA
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2021/2022
Negli ultimi decenni, la raccolta e la gestione dei dati è diventata sempre più importante. In un contesto data-driven, i dati vengono utilizzati per estrarre informazioni al fine di ottenere una conoscenza più profonda del dominio che si vuole analizzare. Oltre ai classici problemi legati alla raccolta dei dati, la questione principale è diventata la valutazione della qualità dei dati. È dimostrato infatti che i dati di alta qualità forniscono un alto valore. Una proprietà chiave per un’efficace applicazione decisionale basata sui dati non è solo la qualità dei dati utilizzati, ma anche la loro Fairness. In questo contesto, i ricercatori definiscono la Fairness come mancanza di bias all’interno dei dati. Il bias è un aspetto ricorrente nella vita quotidiana, anche l’applicazione più accurata per la raccolta dei dati ne risente. Anche dati di scarsa qualità portano a bias, e di conseguenza a risultati non fair. Si è ipotizzato che la Qualità dei dati e la Fairness non possono essere migliorate entrambe, ma esiste una relazione tra di esse. L’obiettivo principale di questo lavoro è quello di raccogliere tutti questi aspetti e condurre un’analisi che studi questa relazione. Il nostro approccio consiste nell’inserire valori mancanti in un dataset, e successivamente eseguire un’attività di pulizia dei dati utilizzando diverse tecniche, al fine di ripristinare la dimensione della Completezza. In seguito, l’accuratezza del dataset e le metriche di fairness sono calcolate e messe in relazione. I risultati di questa procedura offrono una conoscenza più profonda sull’effetto delle azioni applicate sui dati e il loro impatto sia sulla Qualità che sulla Fairness. Si mostra che esiste un trade-off tra la Qualità dei dati e la Fairness, e che ogni metodo porta al miglioramento della Fairness e al deterioramento della Qualità in modi diversi. Inoltre, si propongono delle linee guida per consigliare come scegliere la migliore strategia per applicare modifiche ai dati per migliorare più la Fairness o più la Qualità, a seconda dello scopo.
File allegati
File Dimensione Formato  
2022_04_Dangelo_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 2.55 MB
Formato Adobe PDF
2.55 MB Adobe PDF   Visualizza/Apri
2022_04_Dangelo_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 486.27 kB
Formato Adobe PDF
486.27 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188315