Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.

Lo sbilanciamento di classe rappresenta una problematica comune nello sviluppo dei modelli di classificazione. Al fine di affrontare questa questione, sono stati recentemente sviluppati i dati sintetici per rafforzare la classe minoritaria. Tuttavia, valutare l'adeguatezza di tali dati generati è cruciale per garantire il loro allineamento con la distribuzione dei dati originali. In questo contesto, le misure di utilità svolgono un ruolo cruciale nel quantificare il grado di somiglianza tra la distribuzione dei dati generati e i dati originali. Nel caso dei dati tabulari, esistono vari metodi di valutazione che esaminano diverse caratteristiche dei dati generati. In questo studio, abbiamo raccolto le misure di utilità e le abbiamo suddivise in base al tipo di analisi che effettuano. Successivamente, abbiamo applicato tali misure ai dati sintetici generati da due dataset ben noti, ovvero Adults Income e Liar+. Abbiamo utilizzato cinque modelli generativi: Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN e REaLTabFormer, per generare i dati sintetici e ne abbiamo valutato la qualità attraverso le misure di utilità. Le misurazioni hanno dimostrato di essere informative, indicando che se un dataset sintetico risulta superiore rispetto ad un altro in termini di misure di utilità, sarà più efficace come integrazione per la classe minoritaria nel contesto delle attività di classificazione.

On the quality of synthetic generated data and their effectiveness on classification task : an empirical study

ESPINOSA, ERICA
2022/2023

Abstract

Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.
FIGUEIRA, ALVARO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
Lo sbilanciamento di classe rappresenta una problematica comune nello sviluppo dei modelli di classificazione. Al fine di affrontare questa questione, sono stati recentemente sviluppati i dati sintetici per rafforzare la classe minoritaria. Tuttavia, valutare l'adeguatezza di tali dati generati è cruciale per garantire il loro allineamento con la distribuzione dei dati originali. In questo contesto, le misure di utilità svolgono un ruolo cruciale nel quantificare il grado di somiglianza tra la distribuzione dei dati generati e i dati originali. Nel caso dei dati tabulari, esistono vari metodi di valutazione che esaminano diverse caratteristiche dei dati generati. In questo studio, abbiamo raccolto le misure di utilità e le abbiamo suddivise in base al tipo di analisi che effettuano. Successivamente, abbiamo applicato tali misure ai dati sintetici generati da due dataset ben noti, ovvero Adults Income e Liar+. Abbiamo utilizzato cinque modelli generativi: Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN e REaLTabFormer, per generare i dati sintetici e ne abbiamo valutato la qualità attraverso le misure di utilità. Le misurazioni hanno dimostrato di essere informative, indicando che se un dataset sintetico risulta superiore rispetto ad un altro in termini di misure di utilità, sarà più efficace come integrazione per la classe minoritaria nel contesto delle attività di classificazione.
File allegati
File Dimensione Formato  
01_Espinosa_Erica_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 3.21 MB
Formato Adobe PDF
3.21 MB Adobe PDF   Visualizza/Apri
02_Espinosa_Erica_Executive_Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 451.9 kB
Formato Adobe PDF
451.9 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211935