In an increasingly connected and fast-paced world, data become a useful resource for predicting the future. The goodness of these predictions depends on Data Quality; low quality is, therefore, synonymous with avoidable costs. At the same time, data may also contain an indication of Bias internal to society. Methods have arisen to limit the Bias in the data and research has been conducted on how increasing Data Quality influences Fairness, without a corresponding systematic study of how increasing Fairness influences quality. This thesis aims to quantify the loss of quality as a result of increasing Fairness, as well as to give useful insights into how best to apply Fairness-increasing techniques according to the type of data used. This is achieved by making predictions and subsequent measurements on various datasets before and after using Bias mitigation techniques. The resulting values of the appropriate Data Quality and Fairness metrics are processed and aggregated to highlight any increases and/or decreases. The analysis of the results shows that, as expected, there is a trade-off between Fairness and Data Quality. There are also notable differences among the various mitigation techniques with regard to increases in Fairness and decreases in Data Quality. The best Fairness results are obtained using those techniques that also change classification labels internal to the dataset. However, it is impossible to establish an ordering among the obtained results that holds in all cases, as this is highly dependent on the specific application, the personal sensitivity of the user, and the limits the user places on Data Quality loss.

In un mondo sempre più connesso e veloce, il dato diventa una risorsa utile per fare previsioni sul futuro. La bontà di queste previsioni dipende dalla qualità dei dati, bassa qualità è quindi sinonimo di costo evitabile. Allo stesso tempo, i dati potrebbero contenere anche una indicazione delle distorsioni, interne alla società. Sono nati metodi volti a limitare la distorsione nei dati e ricerche sono state svolte su come aumentare la qualità dei dati influenzi l’equità, senza uno studio sistematico su come aumentare l’equità influenzi la qualità corrispondente. Lo scopo di questa tesi è quantificare la perdita di qualità conseguente all’incremento di equità, nonché dare utili indicazioni su come applicare le tecniche di aumento dell’equità al meglio in base al tipo di dati utilizzati. Questo scopo viene raggiunto effettuando predizioni e conseguenti misurazioni su vari dataset prima e dopo l’utilizzo di tecniche di mitigazione della distorsione. I valori risultanti delle appropriate metriche di qualità e equità vengono processati e aggregati in modo da evidenziare eventuali incrementi e/o decrementi. Analizzando tutti i risultati si dimostra che, come preventivato, esiste un trade-off tra equità e qualità. Si registrano inoltre differenze notevoli fra le varie tecniche di mitigazione in merito a incremento di equità e diminuzione di qualità, coerentemente con le ragguardevoli differenze di applicazione delle varie tecniche di mitigazione. I migliori risultati di equità vengono ottenuti utilizzando quelle tecniche che modificano anche le etichette di classificazione interne al dataset. Non è possibile tuttavia stabilire un ordinamento universale tra tutti i risultati ottenuti, in quanto fortemente dipendente dal problema specifico, dalla sensibilità personale dell’utente e dai limiti che quest’ultimo pone alla perdita di qualità.

Ethical trade-off analysis: how improving Fairness influences Data Quality

Cuzzucoli, Sergio
2021/2022

Abstract

In an increasingly connected and fast-paced world, data become a useful resource for predicting the future. The goodness of these predictions depends on Data Quality; low quality is, therefore, synonymous with avoidable costs. At the same time, data may also contain an indication of Bias internal to society. Methods have arisen to limit the Bias in the data and research has been conducted on how increasing Data Quality influences Fairness, without a corresponding systematic study of how increasing Fairness influences quality. This thesis aims to quantify the loss of quality as a result of increasing Fairness, as well as to give useful insights into how best to apply Fairness-increasing techniques according to the type of data used. This is achieved by making predictions and subsequent measurements on various datasets before and after using Bias mitigation techniques. The resulting values of the appropriate Data Quality and Fairness metrics are processed and aggregated to highlight any increases and/or decreases. The analysis of the results shows that, as expected, there is a trade-off between Fairness and Data Quality. There are also notable differences among the various mitigation techniques with regard to increases in Fairness and decreases in Data Quality. The best Fairness results are obtained using those techniques that also change classification labels internal to the dataset. However, it is impossible to establish an ordering among the obtained results that holds in all cases, as this is highly dependent on the specific application, the personal sensitivity of the user, and the limits the user places on Data Quality loss.
CRISCUOLO, CHIARA
SANCRICCA, CAMILLA
TANCA, LETIZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
In un mondo sempre più connesso e veloce, il dato diventa una risorsa utile per fare previsioni sul futuro. La bontà di queste previsioni dipende dalla qualità dei dati, bassa qualità è quindi sinonimo di costo evitabile. Allo stesso tempo, i dati potrebbero contenere anche una indicazione delle distorsioni, interne alla società. Sono nati metodi volti a limitare la distorsione nei dati e ricerche sono state svolte su come aumentare la qualità dei dati influenzi l’equità, senza uno studio sistematico su come aumentare l’equità influenzi la qualità corrispondente. Lo scopo di questa tesi è quantificare la perdita di qualità conseguente all’incremento di equità, nonché dare utili indicazioni su come applicare le tecniche di aumento dell’equità al meglio in base al tipo di dati utilizzati. Questo scopo viene raggiunto effettuando predizioni e conseguenti misurazioni su vari dataset prima e dopo l’utilizzo di tecniche di mitigazione della distorsione. I valori risultanti delle appropriate metriche di qualità e equità vengono processati e aggregati in modo da evidenziare eventuali incrementi e/o decrementi. Analizzando tutti i risultati si dimostra che, come preventivato, esiste un trade-off tra equità e qualità. Si registrano inoltre differenze notevoli fra le varie tecniche di mitigazione in merito a incremento di equità e diminuzione di qualità, coerentemente con le ragguardevoli differenze di applicazione delle varie tecniche di mitigazione. I migliori risultati di equità vengono ottenuti utilizzando quelle tecniche che modificano anche le etichette di classificazione interne al dataset. Non è possibile tuttavia stabilire un ordinamento universale tra tutti i risultati ottenuti, in quanto fortemente dipendente dal problema specifico, dalla sensibilità personale dell’utente e dai limiti che quest’ultimo pone alla perdita di qualità.
File allegati
File Dimensione Formato  
2023_05_Cuzzucoli_Executive Summary_02.pdf

solo utenti autorizzati a partire dal 17/04/2026

Descrizione: Executive Summary
Dimensione 495.86 kB
Formato Adobe PDF
495.86 kB Adobe PDF   Visualizza/Apri
2023_05_Cuzzucoli_Tesi_01.pdf

solo utenti autorizzati a partire dal 17/04/2026

Descrizione: Thesis
Dimensione 1.36 MB
Formato Adobe PDF
1.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/203420