Assessing the potentialities of machine learning for data quality prediction

The rise of Big Data is revolutionizing the way businesses and banking companies operate, as information systems enable enterprises to transform huge amounts of data into valuable information. Nonetheless, the obtained value strictly depends on the quality of the data: unreliable data will likely lead to wrong decisions and insufficient data quality will probably cause the failure of any data-based project ("garbage in, garbage out"). It is therefore crucial for any enterprise to verify the quality of the data before any use of it. This assessment strictly depends on the field of application, in this study it will be carried out in the light of the international standard BCBS 239, which regulates the requisites of the quality of data adopted in banking institutions. Since in real life it is infeasible to ensure sufficient data quality by manual inspection, semi-automatic processes must be implemented. The object of this project is to simulate a real-life dataset of a financial institution and then to design a process to measure and assess its quality. Differently from other data quality prediction studies, we completely exclude from our work data errors that can be individuated with deterministic rules, in order to explore the real potentialities of Machine Learning and assess their effectiveness. In order to measure the data quality of the generated dataset, several Machine Learning techniques are presented and analysed. In particular, the class imbalance present in the dataset, which is the main obstacle in classification problems in this domain, is solved using specific performance metrics and sampling techniques. This work demonstrates that ML can significantly improve the detection of data quality errors compared to the implementation of deterministic DQ rules. Furthermore, this project provides a useful data auditing tool that can be incorporated into a data quality management system.

L’ascesa dei Big Data sta rivoluzionando il modo in cui le imprese e le banche operano, poiché i sistemi informativi permettono alle imprese di trasformare enormi quantità di dati in informazioni di valore. Tuttavia, il valore ottenuto dipende strettamente dalla qualità dei dati: dati inaffidabili porteranno probabilmente a decisioni errate e una qualità dei dati insufficiente determinerà verosimilmente il fallimento di qualsiasi progetto basato sui dati ("garbage in, garbage out"). È dunque fondamentale per ogni impresa verificare la qualità dei dati prima che essi vengano utilizzati. Questa valutazione dipende strettamente dal campo di applicazione; in questo studio essa verrà effettuata alla luce dello standard internazionale BCBS 239, che regola i requisiti della qualità dei dati adottati nelle istituzioni bancarie. Poiché nella vita reale non è possibile garantire una sufficiente qualità dei dati attraverso un’ispezione manuale, è necessario implementare processi semi-automatici. L’obiettivo di questo progetto è quello di simulare un dataset reale di dati di un istituto finanziario e progettare un processo per misurarne e valutarne la qualità. A differenza di altri studi di predizione della data quality, vengono esclusi completamente dal lavoro gli errori dei dati che possono essere individuati con regole deterministiche, al fine di esplorare le reali potenzialità del machine learning e di valutare la loro efficacia. Per misurare la qualità dei dati del dataset generato, vengono presentate e analizzate diverse tecniche di machine learning. In particolare, lo squilibrio di classe presente nel dataset, che costituisce l’ostacolo principale nei problemi di classificazione in questo ambito, viene risolto utilizzando specifiche metriche di performance e tecniche di campionamento. Questo lavoro dimostra che il ML può migliorare significativamente l’individuazione di errori di qualità dei dati rispetto all’implementazione di regole DQ deterministiche. Inoltre, tramite questo progetto si ottiene un utile strumento di verifica dei dati che può essere inserito all’interno di un sistema di gestione della qualità dei dati.