In recent years, the amount of data generated has increased exponentially, and consequently, the number of applications, designed to exploit its enormous potential, has also increased. The data can be used to obtain useful information for business decisions, but the quality of such information strictly depends on the quality of the data analyzed. If the analyzed data contain incorrect or missing values, the information produced will also be affected by errors. In this scenario, the need to develop methodologies to improve the quality of the analyzed data before they are used to extract useful information arises. To address these very common problems, over the years, various data preprocessing techniques have been developed in order to improve the quality of the data and transform it into an optimal version to be used in data mining and machine learning applications. However, the way to select and apply these techniques might be very complicated. Each technique addresses a specific data problem, but when there are several problems the preprocessing phase becomes expensive and time-consuming. A system able to provide a support for the selection of the most effective techniques to apply would be helpful and time saving. To this aim, this thesis analyzes the way in which how poor quality data affect the application that will be used. Within the study, classification and clustering applications have been considered. Through a quality analysis, it will be studied how the algorithm is influenced by the different data quality dimensions. In this way, the user is aware of which quality dimensions to take into account in her/his analysis and adopt preprocessing techniques suitable for the application and the quality of her/his data. In summary, the goal of this thesis is to offer support to data analysts during the preparation phase, providing users with information about quality dimensions to focus on, based on the application they are using.

Negli ultimi anni, la quantità di dati generati è aumentata esponenzialmente e, di conseguenza, è aumentato anche il numero di applicazioni progettate per sfruttare il suo enorme potenziale. I dati possono essere utilizzati per ottenere informazioni utili per le decisioni aziendali, ma la qualità di tali informazioni dipende strettamente dalla qualità dei dati analizzati. Se i dati analizzati contengono valori errati o mancanti, l'informazione prodotta sarà anche affetta da errori. In questo scenario, nasce la necessità di sviluppare metodologie per migliorare la qualità dei dati analizzati prima di usarli per estrarre informazioni utili. Per affrontare questi problemi molto comuni, nel corso degli anni sono state sviluppate varie tecniche di pre-elaborazione dei dati per migliorarne la qualità e trasformarli in una versione ottimale da utilizzare nelle applicazioni di data mining e machine learning. Tuttavia, il modo di scegliere e applicare queste tecniche potrebbe essere molto complicato. Ogni tecnica affronta uno specifico problema di dati, ma quando ci sono diversi problemi la fase di pre-elaborazione diventa costosa e richiede tempo. Un sistema in grado di fornire un supporto per la selezione delle tecniche più efficaci da applicare sarebbe utile e farebbe risparmiare tempo. A questo scopo, questa tesi analizza il modo in cui i dati di scarsa qualità influenzano l'applicazione che verrà utilizzata. All'interno dello studio, sono state prese in considerazione applicazioni di classificazione e clustering. Attraverso un'analisi della qualità, si studierà come l'algoritmo è influenzato dalle diverse dimensioni di qualità dei dati, in questo modo l'utente è consapevole di quali dimensioni di qualità prendere in considerazione nella sua analisi e adottare tecniche di pre-elaborazione adatte all'applicazione e alla qualità dei suoi dati. In sintesi, l'obiettivo di questa tesi è quello di offrire supporto agli analisti di dati durante la fase di preparazione, fornendo agli utenti informazioni sulle dimensioni di qualità su cui concentrarsi, in base all'applicazione che stanno utilizzando.

An adaptive approach for supporting data preparation phase

FEBBO, LEONARDO
2020/2021

Abstract

In recent years, the amount of data generated has increased exponentially, and consequently, the number of applications, designed to exploit its enormous potential, has also increased. The data can be used to obtain useful information for business decisions, but the quality of such information strictly depends on the quality of the data analyzed. If the analyzed data contain incorrect or missing values, the information produced will also be affected by errors. In this scenario, the need to develop methodologies to improve the quality of the analyzed data before they are used to extract useful information arises. To address these very common problems, over the years, various data preprocessing techniques have been developed in order to improve the quality of the data and transform it into an optimal version to be used in data mining and machine learning applications. However, the way to select and apply these techniques might be very complicated. Each technique addresses a specific data problem, but when there are several problems the preprocessing phase becomes expensive and time-consuming. A system able to provide a support for the selection of the most effective techniques to apply would be helpful and time saving. To this aim, this thesis analyzes the way in which how poor quality data affect the application that will be used. Within the study, classification and clustering applications have been considered. Through a quality analysis, it will be studied how the algorithm is influenced by the different data quality dimensions. In this way, the user is aware of which quality dimensions to take into account in her/his analysis and adopt preprocessing techniques suitable for the application and the quality of her/his data. In summary, the goal of this thesis is to offer support to data analysts during the preparation phase, providing users with information about quality dimensions to focus on, based on the application they are using.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2020/2021
Negli ultimi anni, la quantità di dati generati è aumentata esponenzialmente e, di conseguenza, è aumentato anche il numero di applicazioni progettate per sfruttare il suo enorme potenziale. I dati possono essere utilizzati per ottenere informazioni utili per le decisioni aziendali, ma la qualità di tali informazioni dipende strettamente dalla qualità dei dati analizzati. Se i dati analizzati contengono valori errati o mancanti, l'informazione prodotta sarà anche affetta da errori. In questo scenario, nasce la necessità di sviluppare metodologie per migliorare la qualità dei dati analizzati prima di usarli per estrarre informazioni utili. Per affrontare questi problemi molto comuni, nel corso degli anni sono state sviluppate varie tecniche di pre-elaborazione dei dati per migliorarne la qualità e trasformarli in una versione ottimale da utilizzare nelle applicazioni di data mining e machine learning. Tuttavia, il modo di scegliere e applicare queste tecniche potrebbe essere molto complicato. Ogni tecnica affronta uno specifico problema di dati, ma quando ci sono diversi problemi la fase di pre-elaborazione diventa costosa e richiede tempo. Un sistema in grado di fornire un supporto per la selezione delle tecniche più efficaci da applicare sarebbe utile e farebbe risparmiare tempo. A questo scopo, questa tesi analizza il modo in cui i dati di scarsa qualità influenzano l'applicazione che verrà utilizzata. All'interno dello studio, sono state prese in considerazione applicazioni di classificazione e clustering. Attraverso un'analisi della qualità, si studierà come l'algoritmo è influenzato dalle diverse dimensioni di qualità dei dati, in questo modo l'utente è consapevole di quali dimensioni di qualità prendere in considerazione nella sua analisi e adottare tecniche di pre-elaborazione adatte all'applicazione e alla qualità dei suoi dati. In sintesi, l'obiettivo di questa tesi è quello di offrire supporto agli analisti di dati durante la fase di preparazione, fornendo agli utenti informazioni sulle dimensioni di qualità su cui concentrarsi, in base all'applicazione che stanno utilizzando.
File allegati
File Dimensione Formato  
Tesi_Febbo.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 10.36 MB
Formato Adobe PDF
10.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174123