FairDataFlow: a modern solution to ensure data quality and fairness

Real-world datasets used in data-driven decision-making often contain missing values, structural inconsistencies, and embedded biases that can compromise both model performance and fairness. This thesis introduces FairDataFlow, a dependency-centered framework for preparing datasets that are simultaneously consistent, high-quality, and fair with respect to protected groups. The framework builds on Approximate Conditional Functional Dependencies (ACFDs), which are discovered after a dedicated preprocessing and discretization phase and then split into a directional format for fairness analysis and a non-directional format for imputation. Missing values are handled by an Imputation Oracle that generates completions consistent with ACFDs and checks only pairs involving imputed attributes through a targeted Validation Oracle, reducing validation cost while preserving semantic guarantees. Among validated candidates, a Mixed-Integer Linear Program (MILP) selects one completion per tuple in order to preserve the marginal distributions of imputed attributes. Outliers are detected via Isolation Forest with thresholds calibrated by Extreme Value Theory (EVT), replacing arbitrary contamination choices with a risk-controlled cutoff. Fairness repair is then performed on the imputed, outlier-filtered data through an ACFD- based repair module that adds and removes tuples under full semantic validation. Experiments on the Adult and Titanic benchmarks show high imputation coverage under constraints, good preservation of marginal distributions, stable fairness behavior during imputation, and a substantial reduction in biased dependencies after repair. A web interface operationalizes the pipeline, making configuration, execution, and results auditable and reproducible.

I dataset reali utilizzati nei processi decisionali guidati dai dati presentano spesso valori mancanti, incoerenze strutturali e bias incorporati, che possono compromettere sia le prestazioni dei modelli sia la loro correttezza rispetto ai gruppi protetti. Questa tesi introduce FairDataFlow, un framework centrato sulle dipendenze per preparare dataset che siano contemporaneamente consistenti, di alta qualità e più equi nei confronti degli attributi protetti. Il framework si basa sulle Dipendenze Funzionali Approssimate Condizionate (ACFD), scoperte dopo una fase di preprocessing e discretizzazione, e poi trasformate in un formato direzionale per l’analisi della fairness e in un formato non direzionale per l’imputazione di valori mancanti. I valori mancanti vengono gestiti da un Oracolo di Imputazione che genera completamenti coerenti con le ACFD e verifica solo le coppie che coinvolgono attributi imputati tramite un Oracolo di Validazione mirato, riducendo il costo di vali- dazione e preservando al contempo le garanzie semantiche. Tra i candidati validati, un problema di Programmazione Lineare Intera Mista (MILP) seleziona un unico comple- tamento per ogni tupla, in modo da preservare le distribuzioni marginali degli attributi imputati. Gli outlier vengono individuati mediante Isolation Forest con soglie calibrate tramite Extreme Value Theory (EVT), sostituendo scelte arbitrarie di contaminazione con una soglia controllata dal rischio. La fase di mitigazione dell’inequità viene quindi applicata ai dati imputati e privi di outlier tramite un modulo di riparazione basato su ACFD che aggiunge e rimuove tuple sotto validazione semantica completa. Gli esperimenti sui dataset benchmark Adult e Titanic mostrano un’elevata copertura di imputazione sotto vincoli di coerenza, una buona preservazione delle distribuzioni marginali, un comportamento di fairness stabile durante l’imputazione e una riduzione significativa delle dipendenze distorte dopo la riparazione. Un’interfaccia web rende operativa la pipeline, rendendo configurazione, esecuzione e risultati tracciabili e riproducibili.