Functional dependencies for data bias and data cleaning

In the last decades the amount of data available for analysis has increased. From raw data deeper information can be extracted to build a domain knowledge that can be exploited by companies in specific activities to offer targeted services to their customers. Besides the classical issues related to the collection and storage of data, today's relevant topics in the data management field are Data Ethics and Data Quality. The former is related to the necessity of ensuring ethical results from data-driven applications, as such systems pervade human everyday life; the latter, instead, takes care of guaranteeing high quality data, as it has been proven that high quality data provide high value. Typically, with "ethical results" data scientists refer to the lack oh bias in dataset, and the consequent lack of discriminations in decision-making processes based on data. Even high quality data can suffer from data bias, that is why assessing both the aspects while trying to improve the content of a dataset reveals to be of fundamental importance. In this thesis, we propose a complete framework, as it takes care of both the above mentioned tasks. The ground knowledge needed to enhance datasets comes from the Functional Dependencies, a particular type of data constraint extracted from the dataset. With the Validation Oracle functionality, we help the data bias mitigation, aiming to avoid possible unintentional and unethical behaviours of data-driven systems, while the Imputation Oracle addresses the well-known issue of missing values. Exploiting the knowledge extracted from data through the dependencies, the tool performs imputation of the missing data, a common step in data cleaning procedures.

Negli ultimi decenni la quantità di dati accessibili ai fini dell'analisi è aumentata. Da questi dati è possibile estrarre informazioni più approfondite per creare una conoscenza del contesto che può essere sfruttata dalle organizzazioni per offrire servizi più mirati ai propri clienti. A parte le note difficoltà relative alla raccolta e all'immagazzinamento dei dati, oggi gli argomenti più rilevanti nella gestione dei dati sono Data Ethics e Data Quality. Il primo è legato alla nacessità di assicurare risultati eticamente corretti da parte delle applicazioni che basano il loro funzionamento sui dati, essendo ormai pervasive nella nostra vita di tutti i giorni. Il secondo invece, si occupa di garantire dati di alta qualità, dato che è stato provato che dati di alta qualità forniscono un valore elevato. Con ‘‘risultati eticamente corretti’’, i data scientists si riferiscono alla mancanza di bias nel dataset, e alla conseguente assenza di discriminazioni nei processi decisionali che sfruttano questi dati. Anche i dati di alta qualità possono soffrire della presenza di bias. Ed ecco perchè è di fondamentale importanza non trascurare nessuno dei due aspetti quando si vuole migliorare il contenuto di un dataset. In questa tesi proponiamo un sistema completo che si occupa di entrambi i task sopra citati. La conoscenza necessaria per migliorare i dataset deriva delle Dipendenze Funzionali, un particolare tipo di vincoli estratti dal dataset. Con l'Oracolo di Validazione si vuole mitigare il bias, al fine di evitare possibili comportamenti non etici dei sistemi che usano i dati, mentre l'Oracolo di Imputazione affronta il noto problema dei dati mancanti. Sfruttando la stessa conoscenza estratta dai dati, il nostro strumento esegue l'imputazione dei dati mancanti, un passaggio comune nelle procedure di pulizia dei dati.