As automated decision-making systems become increasingly prevalent in critical domains like education, ensuring fairness in these systems is paramount. Missing data presents a unique challenge to fairness in machine learning (ML), particularly in high- stakes applications such as predicting student outcomes. This research investigates the effects of missing data and various preprocessing methods on the fairness and accuracy of ML models within educational datasets. Using data from the 2012 Education Longitudinal Study, the study aims to predict bachelor’s degree attainment through models such as Random Forest, Logistic Regression, and Support Vector Classifier. By examining multiple imputation techniques, especially in contexts where data is not Missing Completely at Random (MCAR), this research evaluates the influence of these methods on model fairness and performance, with a focus on mitigating bias against vulnerable student groups. The study underscores the importance of feature handling in data preprocessing, highlighting how improper treatment during imputation can introduce or exacerbate biases that affect model predictions. Through an analysis of feature importance and its impact on fairness, this work identifies the features most likely to contribute to bias, supporting the design of more equitable predictive models. Findings reveal trade-offs between accuracy and fairness, illustrating the critical role of appropriate fairness metrics—such as Equalized Odds—in accounting for contextual nuances over simpler metrics like Statistical Parity. This research contributes to the field by addressing gaps in existing literature, providing insights into the relationship between missing data handling, fairness, and accuracy in educational ML applications, and offering practical recommendations for developing fairer, more reliable models in educational contexts.

Con la crescente diffusione dei sistemi di decisione automatizzata in ambiti critici come l’istruzione, garantire l’equità in questi sistemi è fondamentale. I dati mancanti rappresentano una sfida unica per l’equità nel machine learning (ML), specialmente in applicazioni di alto impatto come la previsione dei risultati educativi degli studenti. Questa ricerca analizza gli effetti dei dati mancanti e di vari metodi di pre-elaborazione sulla correttezza e accuratezza dei modelli ML applicati a dataset educativi. Utilizzando i dati dello studio longitudinale sull’istruzione del 2012 (Education Longitudinal Study), lo studio mira a prevedere il conseguimento di una laurea triennale o superiore tramite modelli come Random Forest, Regressione Logistica e Support Vector Classifier. Esaminando molteplici tecniche di imputazione, soprattutto in contesti in cui i dati non sono Missing Completely at Random (MCAR), questa ricerca valuta l'influenza di tali metodi sull'equità e le prestazioni dei modelli, con un’attenzione particolare alla riduzione dei bias nei confronti di gruppi di studenti vulnerabili. Lo studio sottolinea l'importanza della gestione delle singole variabili durante la pre- elaborazione dei dati, evidenziando come un trattamento scorretto in fase di imputazione possa introdurre o amplificare bias che influenzano le previsioni dei modelli. Attraverso un’analisi dell’importanza delle singole variabili e del loro impatto sull’equità, questo lavoro identifica le variabili più inclini a contribuire al bias, supportando la progettazione di modelli predittivi più equi. I risultati rivelano compromessi tra accuratezza ed equità, illustrando il ruolo cruciale di metriche di equità appropriate—come Equalized Odds—nel tenere conto delle specificità contestuali rispetto a metriche più semplici come la Statistical Parity. Questa ricerca contribuisce al campo affrontando le lacune nella letteratura esistente, offrendo approfondimenti sulla relazione tra gestione dei dati mancanti, equità e accuratezza nelle applicazioni educative di ML, e fornendo raccomandazioni pratiche per lo sviluppo di modelli più equi e affidabili in contesti educativi.

Fairness and missing data in machine learning: challenges and solutions

Vaina, Francesco
2023/2024

Abstract

As automated decision-making systems become increasingly prevalent in critical domains like education, ensuring fairness in these systems is paramount. Missing data presents a unique challenge to fairness in machine learning (ML), particularly in high- stakes applications such as predicting student outcomes. This research investigates the effects of missing data and various preprocessing methods on the fairness and accuracy of ML models within educational datasets. Using data from the 2012 Education Longitudinal Study, the study aims to predict bachelor’s degree attainment through models such as Random Forest, Logistic Regression, and Support Vector Classifier. By examining multiple imputation techniques, especially in contexts where data is not Missing Completely at Random (MCAR), this research evaluates the influence of these methods on model fairness and performance, with a focus on mitigating bias against vulnerable student groups. The study underscores the importance of feature handling in data preprocessing, highlighting how improper treatment during imputation can introduce or exacerbate biases that affect model predictions. Through an analysis of feature importance and its impact on fairness, this work identifies the features most likely to contribute to bias, supporting the design of more equitable predictive models. Findings reveal trade-offs between accuracy and fairness, illustrating the critical role of appropriate fairness metrics—such as Equalized Odds—in accounting for contextual nuances over simpler metrics like Statistical Parity. This research contributes to the field by addressing gaps in existing literature, providing insights into the relationship between missing data handling, fairness, and accuracy in educational ML applications, and offering practical recommendations for developing fairer, more reliable models in educational contexts.
AMICO, CLARISSA VALERIA
ANAHIDEH, HADIS
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Con la crescente diffusione dei sistemi di decisione automatizzata in ambiti critici come l’istruzione, garantire l’equità in questi sistemi è fondamentale. I dati mancanti rappresentano una sfida unica per l’equità nel machine learning (ML), specialmente in applicazioni di alto impatto come la previsione dei risultati educativi degli studenti. Questa ricerca analizza gli effetti dei dati mancanti e di vari metodi di pre-elaborazione sulla correttezza e accuratezza dei modelli ML applicati a dataset educativi. Utilizzando i dati dello studio longitudinale sull’istruzione del 2012 (Education Longitudinal Study), lo studio mira a prevedere il conseguimento di una laurea triennale o superiore tramite modelli come Random Forest, Regressione Logistica e Support Vector Classifier. Esaminando molteplici tecniche di imputazione, soprattutto in contesti in cui i dati non sono Missing Completely at Random (MCAR), questa ricerca valuta l'influenza di tali metodi sull'equità e le prestazioni dei modelli, con un’attenzione particolare alla riduzione dei bias nei confronti di gruppi di studenti vulnerabili. Lo studio sottolinea l'importanza della gestione delle singole variabili durante la pre- elaborazione dei dati, evidenziando come un trattamento scorretto in fase di imputazione possa introdurre o amplificare bias che influenzano le previsioni dei modelli. Attraverso un’analisi dell’importanza delle singole variabili e del loro impatto sull’equità, questo lavoro identifica le variabili più inclini a contribuire al bias, supportando la progettazione di modelli predittivi più equi. I risultati rivelano compromessi tra accuratezza ed equità, illustrando il ruolo cruciale di metriche di equità appropriate—come Equalized Odds—nel tenere conto delle specificità contestuali rispetto a metriche più semplici come la Statistical Parity. Questa ricerca contribuisce al campo affrontando le lacune nella letteratura esistente, offrendo approfondimenti sulla relazione tra gestione dei dati mancanti, equità e accuratezza nelle applicazioni educative di ML, e fornendo raccomandazioni pratiche per lo sviluppo di modelli più equi e affidabili in contesti educativi.
File allegati
File Dimensione Formato  
2024_12_Vaina_Tesi.pdf

non accessibile

Descrizione: Testo tesi
Dimensione 7.6 MB
Formato Adobe PDF
7.6 MB Adobe PDF   Visualizza/Apri
2024_12_Vaina_Executive Summary.pdf

non accessibile

Descrizione: Executive summary
Dimensione 932.96 kB
Formato Adobe PDF
932.96 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231465