Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.
Lo sbilanciamento di classe rappresenta una problematica comune nello sviluppo dei modelli di classificazione. Al fine di affrontare questa questione, sono stati recentemente sviluppati i dati sintetici per rafforzare la classe minoritaria. Tuttavia, valutare l'adeguatezza di tali dati generati è cruciale per garantire il loro allineamento con la distribuzione dei dati originali. In questo contesto, le misure di utilità svolgono un ruolo cruciale nel quantificare il grado di somiglianza tra la distribuzione dei dati generati e i dati originali. Nel caso dei dati tabulari, esistono vari metodi di valutazione che esaminano diverse caratteristiche dei dati generati. In questo studio, abbiamo raccolto le misure di utilità e le abbiamo suddivise in base al tipo di analisi che effettuano. Successivamente, abbiamo applicato tali misure ai dati sintetici generati da due dataset ben noti, ovvero Adults Income e Liar+. Abbiamo utilizzato cinque modelli generativi: Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN e REaLTabFormer, per generare i dati sintetici e ne abbiamo valutato la qualità attraverso le misure di utilità. Le misurazioni hanno dimostrato di essere informative, indicando che se un dataset sintetico risulta superiore rispetto ad un altro in termini di misure di utilità, sarà più efficace come integrazione per la classe minoritaria nel contesto delle attività di classificazione.
On the quality of synthetic generated data and their effectiveness on classification task : an empirical study
ESPINOSA, ERICA
2022/2023
Abstract
Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.File | Dimensione | Formato | |
---|---|---|---|
01_Espinosa_Erica_Thesis.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
3.21 MB
Formato
Adobe PDF
|
3.21 MB | Adobe PDF | Visualizza/Apri |
02_Espinosa_Erica_Executive_Summary.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
451.9 kB
Formato
Adobe PDF
|
451.9 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/211935