Data analysis is playing a key role in providing useful information to support companies decisions. Machine learning represents the most efficient mean to extract this information, therefore typical analysis tools utilize these approaches. Companies got many benefits from data analysis and thereby they are becoming more data-hungry. In general, the datasets collected by these companies are typically affected by poor quality since they contain errors, inaccuracies and biases. Overlooking quality issues results in extracting unreliable information, bad decisions, and loss of profit. Data preparation includes a set of processes that can mitigate these issues, improving the quality of the dataset. However, these processes cannot be fully automated, since there exist quality issues that needs the human intervention. There exist several preparation activities that improve the dataset quality focusing on a particular quality dimension. However, it has been found that the impact of these dimensions on the final performance changes based on the dataset characteristics and the machine learning application. Consequently, there is no a unique preparation procedure but it needs to be tailored to the context of the application. In this work we propose a context aware data preparation approach where the user is guided through the entire preparation process. First, the user is provided with detailed information about the data, warnings on quality issues and potential biases. Then, continuous guidelines are extracted by a knowledge base suggesting the user the sequence of preparation tasks to be performed. The suggestions follow a ranking of quality dimensions to be improved in prioritized order. The method is supported by Human-in-the-loop, since it contains steps in which human intervention is fundamental and the user decisions will be integrated into the same knowledge base. The method has been numerically validated by applying it to different combinations of several datasets and machine learning algorithms. Results show that, following the ranking extracted according to the proposed method yields better results than improving the quality dimensions in a different order.

La data analisi ha un ruolo chiave nel fornire informazioni alle aziende e supportare le loro decisioni. Il machine learning rappresenta il mezzo più efficiente per estrarre queste informazioni, infatti, i tool di data analisi si servono di questi approcci. La data analisi fornisce innumerevoli benefici alle aziende, le quali stanno diventando più affamate di dati. In generale, i datasets collezionati da queste aziende sono tipicamente di scarsa qualità, poichè contengono errori, valori inaccurati e bias. Ignorare i problemi di qualità porta a decisioni sbagliate e conseguente perdita di soldi. La data preparation comprende una serie di processi in grado di mitigare questi problemi, migliorando la qualità del dataset. Tuttavia, questi processi non si possono automatizzare perchè esistono problemi di qualità che hanno bisogno dell'intervento umano. Esistono diverse attività che migliorano la qualità del dataset focalizzandosi su una certa dimensione di qualità. Tuttavia, è stato scoperto che l'impatto delle dimensioni di qualità nei risultati cambia in base al dataset e all'applicazione di machine learning. Di conseguenza, non esiste un'unica procedura di preparazione, ma questa deve essere adattata al contesto. Questo lavoro propone un approccio di data preparation context aware, dove l'utente viene guidato attraverso l’intero processo. Inizialmente, vengono forniti all'utente informazioni dettagliate sui dati, avvertimenti sui problemi di qualità e identificati potenziali bias. Poi, vengono estratti continui suggerimenti da una knowledge base sulle attività di preparazione da eseguire. I suggerimenti seguono un ranking di dimensioni di qualità da migliorare in ordine prioritario. Il metodo è supportato da Human-in-the-loop in quanto contiene dei passaggi in cui l'intervento umano è fondamentale, e le decisioni dell'utente vengono integrate all'interno della stessa knowledge base. Il metodo è stato validato numericamente, applicandolo a diverse combinazioni di dataset e algoritmi. I risultati mostrano che, seguendo il ranking estratto dal metodo proposto, vengono raggiunti risultati migliori rispetto a migliorare le dimensioni di qualità in ordine diverso.

Context aware data preparation

SANCRICCA, CAMILLA
2020/2021

Abstract

Data analysis is playing a key role in providing useful information to support companies decisions. Machine learning represents the most efficient mean to extract this information, therefore typical analysis tools utilize these approaches. Companies got many benefits from data analysis and thereby they are becoming more data-hungry. In general, the datasets collected by these companies are typically affected by poor quality since they contain errors, inaccuracies and biases. Overlooking quality issues results in extracting unreliable information, bad decisions, and loss of profit. Data preparation includes a set of processes that can mitigate these issues, improving the quality of the dataset. However, these processes cannot be fully automated, since there exist quality issues that needs the human intervention. There exist several preparation activities that improve the dataset quality focusing on a particular quality dimension. However, it has been found that the impact of these dimensions on the final performance changes based on the dataset characteristics and the machine learning application. Consequently, there is no a unique preparation procedure but it needs to be tailored to the context of the application. In this work we propose a context aware data preparation approach where the user is guided through the entire preparation process. First, the user is provided with detailed information about the data, warnings on quality issues and potential biases. Then, continuous guidelines are extracted by a knowledge base suggesting the user the sequence of preparation tasks to be performed. The suggestions follow a ranking of quality dimensions to be improved in prioritized order. The method is supported by Human-in-the-loop, since it contains steps in which human intervention is fundamental and the user decisions will be integrated into the same knowledge base. The method has been numerically validated by applying it to different combinations of several datasets and machine learning algorithms. Results show that, following the ranking extracted according to the proposed method yields better results than improving the quality dimensions in a different order.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
La data analisi ha un ruolo chiave nel fornire informazioni alle aziende e supportare le loro decisioni. Il machine learning rappresenta il mezzo più efficiente per estrarre queste informazioni, infatti, i tool di data analisi si servono di questi approcci. La data analisi fornisce innumerevoli benefici alle aziende, le quali stanno diventando più affamate di dati. In generale, i datasets collezionati da queste aziende sono tipicamente di scarsa qualità, poichè contengono errori, valori inaccurati e bias. Ignorare i problemi di qualità porta a decisioni sbagliate e conseguente perdita di soldi. La data preparation comprende una serie di processi in grado di mitigare questi problemi, migliorando la qualità del dataset. Tuttavia, questi processi non si possono automatizzare perchè esistono problemi di qualità che hanno bisogno dell'intervento umano. Esistono diverse attività che migliorano la qualità del dataset focalizzandosi su una certa dimensione di qualità. Tuttavia, è stato scoperto che l'impatto delle dimensioni di qualità nei risultati cambia in base al dataset e all'applicazione di machine learning. Di conseguenza, non esiste un'unica procedura di preparazione, ma questa deve essere adattata al contesto. Questo lavoro propone un approccio di data preparation context aware, dove l'utente viene guidato attraverso l’intero processo. Inizialmente, vengono forniti all'utente informazioni dettagliate sui dati, avvertimenti sui problemi di qualità e identificati potenziali bias. Poi, vengono estratti continui suggerimenti da una knowledge base sulle attività di preparazione da eseguire. I suggerimenti seguono un ranking di dimensioni di qualità da migliorare in ordine prioritario. Il metodo è supportato da Human-in-the-loop in quanto contiene dei passaggi in cui l'intervento umano è fondamentale, e le decisioni dell'utente vengono integrate all'interno della stessa knowledge base. Il metodo è stato validato numericamente, applicandolo a diverse combinazioni di dataset e algoritmi. I risultati mostrano che, seguendo il ranking estratto dal metodo proposto, vengono raggiunti risultati migliori rispetto a migliorare le dimensioni di qualità in ordine diverso.
File allegati
File Dimensione Formato  
2021_12_Sancricca.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della Tesi
Dimensione 23.6 MB
Formato Adobe PDF
23.6 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183656