An automatic framework for anomaly detection

In the last years, the volume of data collected by organizations is increased significantly. According to estimates, every person in 2019 generated 1.4 megabytes per second. The exponential growth in the volume of data makes companies wonder if the quality of data collected is sufficient to be suitable for the deputy use. Organizations are increasingly interested in understanding the quality of their stored data in order to improve its connected processes and obtain more reliable data in the future. Moreover, the presence of poor quality data and information leads to higher costs in several ways. The goal of this thesis is to develop an automatic framework for data quality assessment through anomaly detection based on Machine Learning techniques. Data quality and Anomaly Detection are directly connected, in fact knowing the existence of an anomaly without knowing its real influence on the data is limiting. Our framework fits into the field of Data Quality Management, we combine multiple Machine Learning models to provide a consistent and automatic assessment of the data quality, helping organizations to find anomalies in their data and fix them. After studied the existing solutions about Data Quality in literature and after applied the existing models on our problem, we work on a new framework able to fit better the problem considering also a set of sub-problems often ignored by literature solutions. Finally, we evaluate the performance of our framework by analyzing the output results.

Negli ultimi anni, il volume dei dati raccolti dalle organizzazioni è cresciuto notevolmente. Secondo le stime, ogni persona nel 2019 ha generato 1.4 megabyte al secondo. La crescita esponenziale del volume dei dati spinge le aziende a chiedersi se la qualità dei dati raccolti è adatta alla destinazione d’uso. Le organizzazioni sono sempre più interessate a misurare la qualità dei dati immagazzinati per migliorare i processi di produzione dei dati con il fine di migliorare costantemente la qualità dati. Inoltre, l’utilizzo di dati e informazioni di scarsa qualità comporta costi più elevati sotto diversi aspetti, riducendo la competitività e non solo. L’obiettivo di questa tesi è sviluppare un framework automatico per rilevare le anomalie nei dati e valutarne la qualità attraverso l’Anomaly Detection basata su tecniche di Machine Learning. La qualità dei dati e la rilevazione delle anomalie sono direttamente collegate, infatti sapere dell’esistenza di un’anomalia senza conoscerne la reale influenza sui dati è limitante. Il nostro framework si inserisce nel campo della gestione della qualità dei dati, sfruttando modelli di Machine Learning per fornire una valutazione coerente e automatica della qualità dei dati, aiutando le organizzazioni a trovare i problemi e correggerli. Dopo aver studiato le soluzioni esistenti in letteratura e dopo aver applicato le tecniche esistenti sul nostro problema, lavoriamo su un nuovo framework in grado di offrire migliori performance nell’approccio alla valutazione della qualità dei dati considerando anche una serie problemi ignorati dalle soluzioni di letteratura. Infine, valutiamo le prestazioni del nostro framework analizzando i risultati di output nel dettaglio.