In the digital age, Machine learning (ML) algorithms are becoming increasingly important in decision-making processes across a wide range of domains, including criminal justice, healthcare, and finance. While these algorithms provide significant benefits, they also pose the risk of perpetuating and exacerbating societal biases, especially when fairness is not taken into account during their design and implementation. This thesis addresses the critical issue of fairness in machine learning, with a focus on combining statistical and causal fairness metrics to provide a more comprehensive approach to evaluating and ensuring fairness by selecting the most suitable metric. The primary problem explored in this thesis is the challenge of balancing statistical fair- ness metrics, which focus on equitable outcomes, with causal fairness metrics, which delve into the underlying causal relationships that drive these outcomes. To tackle this prob- lem, the thesis posed several research questions: (i) What are the main concepts and differences between statistical-based and causal-based fairness? (ii) Which datasets are most commonly used in fairness research, and are there differences between those used in causal-based and statistical-based studies? (iii) Is it possible to have a common vision between causal and statistical Fairness? (iv) How to choose the most suitable metric considering both perspectives? To answer these questions, we executed a systematic review of the existing literature us- ing our research methodology, categorizing and analyzing papers based on their focus on statistical or causal fairness metrics. The results of this review led to the development of a decision tree that integrates both perspectives of metrics which can guide users to choose the most suitable metric.

Nell’era digitale, l’apprendimento automatico sta diventando sempre più importante nei processi decisionali presenti in vari settori, tra cui la giustizia penale, la sanità e la finanza. Se da un lato gli algoritmi di apprendimento automatico offrono vantaggi significativi, dall’altro presentano il rischio di perpetuare e aggravare i pregiudizi, soprattutto quando non si tiene conto dell’equità durante la loro progettazione e implementazione. Questa tesi affronta il problema dell’equità nell’apprendimento automatico. In particolare, affronta la possibilità di combinare le metriche di equità statistica e causale per poter fornire un approccio più completo per valutare e garantire l’equità attraverso la selezione della metrica più adatta. Il problema principale esplorato in questa tesi è quindi la necessità di bilanciare le met- riche di equità statistica, che si concentrano sull’equità dei risultati, con le metriche di equità causale, che indagano le relazioni causali sottostanti che guidano ai risultati. Per affrontare questo problema, abbiamo impostato diverse domande di ricerca: (i) Quali sono i concetti principali e le differenze tra l’equità basata sulla statistica e quella basata sulla causalità? (ii) Quali sono i set di dati più comunemente utilizzati nella ricerca sull’equità e ci sono differenze tra quelli utilizzati negli studi basati sulla causalità e quelli basati sulla statistica? (iii) È possibile avere una visione comune tra equità causale e statistica? (iv) Come scegliere la metrica più adatta considerando entrambe le prospettive? Per rispondere a queste domande, abbiamo eseguito un analisi sistematica della letter- atura esistente utilizzando la nostra metodologia di ricerca, categorizzando e analizzando i documenti in base alle metriche di equità statistica o causale. I risultati di questa analisi hanno portato allo sviluppo di un albero decisionale che integra entrambe le prospettive e che può guidare gli utenti nella scelta della metrica più adatta.

Fairness in machine learning: unifying statistical and causal perspectives

HUANG, JING
2023/2024

Abstract

In the digital age, Machine learning (ML) algorithms are becoming increasingly important in decision-making processes across a wide range of domains, including criminal justice, healthcare, and finance. While these algorithms provide significant benefits, they also pose the risk of perpetuating and exacerbating societal biases, especially when fairness is not taken into account during their design and implementation. This thesis addresses the critical issue of fairness in machine learning, with a focus on combining statistical and causal fairness metrics to provide a more comprehensive approach to evaluating and ensuring fairness by selecting the most suitable metric. The primary problem explored in this thesis is the challenge of balancing statistical fair- ness metrics, which focus on equitable outcomes, with causal fairness metrics, which delve into the underlying causal relationships that drive these outcomes. To tackle this prob- lem, the thesis posed several research questions: (i) What are the main concepts and differences between statistical-based and causal-based fairness? (ii) Which datasets are most commonly used in fairness research, and are there differences between those used in causal-based and statistical-based studies? (iii) Is it possible to have a common vision between causal and statistical Fairness? (iv) How to choose the most suitable metric considering both perspectives? To answer these questions, we executed a systematic review of the existing literature us- ing our research methodology, categorizing and analyzing papers based on their focus on statistical or causal fairness metrics. The results of this review led to the development of a decision tree that integrates both perspectives of metrics which can guide users to choose the most suitable metric.
CRISCUOLO, CHIARA
DOLCI, TOMMASO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
Nell’era digitale, l’apprendimento automatico sta diventando sempre più importante nei processi decisionali presenti in vari settori, tra cui la giustizia penale, la sanità e la finanza. Se da un lato gli algoritmi di apprendimento automatico offrono vantaggi significativi, dall’altro presentano il rischio di perpetuare e aggravare i pregiudizi, soprattutto quando non si tiene conto dell’equità durante la loro progettazione e implementazione. Questa tesi affronta il problema dell’equità nell’apprendimento automatico. In particolare, affronta la possibilità di combinare le metriche di equità statistica e causale per poter fornire un approccio più completo per valutare e garantire l’equità attraverso la selezione della metrica più adatta. Il problema principale esplorato in questa tesi è quindi la necessità di bilanciare le met- riche di equità statistica, che si concentrano sull’equità dei risultati, con le metriche di equità causale, che indagano le relazioni causali sottostanti che guidano ai risultati. Per affrontare questo problema, abbiamo impostato diverse domande di ricerca: (i) Quali sono i concetti principali e le differenze tra l’equità basata sulla statistica e quella basata sulla causalità? (ii) Quali sono i set di dati più comunemente utilizzati nella ricerca sull’equità e ci sono differenze tra quelli utilizzati negli studi basati sulla causalità e quelli basati sulla statistica? (iii) È possibile avere una visione comune tra equità causale e statistica? (iv) Come scegliere la metrica più adatta considerando entrambe le prospettive? Per rispondere a queste domande, abbiamo eseguito un analisi sistematica della letter- atura esistente utilizzando la nostra metodologia di ricerca, categorizzando e analizzando i documenti in base alle metriche di equità statistica o causale. I risultati di questa analisi hanno portato allo sviluppo di un albero decisionale che integra entrambe le prospettive e che può guidare gli utenti nella scelta della metrica più adatta.
File allegati
File Dimensione Formato  
Thesis_HuangJing.pdf

solo utenti autorizzati dal 27/08/2025

Dimensione 2.12 MB
Formato Adobe PDF
2.12 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/224832