On the quality of synthetic generated data and their effectiveness on classification task : an empirical study

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.

Lo sbilanciamento di classe rappresenta una problematica comune nello sviluppo dei modelli di classificazione. Al fine di affrontare questa questione, sono stati recentemente sviluppati i dati sintetici per rafforzare la classe minoritaria. Tuttavia, valutare l'adeguatezza di tali dati generati è cruciale per garantire il loro allineamento con la distribuzione dei dati originali. In questo contesto, le misure di utilità svolgono un ruolo cruciale nel quantificare il grado di somiglianza tra la distribuzione dei dati generati e i dati originali. Nel caso dei dati tabulari, esistono vari metodi di valutazione che esaminano diverse caratteristiche dei dati generati. In questo studio, abbiamo raccolto le misure di utilità e le abbiamo suddivise in base al tipo di analisi che effettuano. Successivamente, abbiamo applicato tali misure ai dati sintetici generati da due dataset ben noti, ovvero Adults Income e Liar+. Abbiamo utilizzato cinque modelli generativi: Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN e REaLTabFormer, per generare i dati sintetici e ne abbiamo valutato la qualità attraverso le misure di utilità. Le misurazioni hanno dimostrato di essere informative, indicando che se un dataset sintetico risulta superiore rispetto ad un altro in termini di misure di utilità, sarà più efficace come integrazione per la classe minoritaria nel contesto delle attività di classificazione.

On the quality of synthetic generated data and their effectiveness on classification task : an empirical study

ESPINOSA, ERICA

2022/2023

Abstract

Class imbalance is a common issue while developing classification models. In order to tackle this problem, synthetic data has recently been developed to enhance the minority class. These artificially generated samples aim to bolster the representation of the minority class. However, evaluating the suitability of such generated data is crucial to ensure its alignment with the original data distribution. In this context, utility measures play a crucial role in quantifying the degree of similarity between the distribution of the generated data and the original data. For tabular data, there are various evaluation methods that assess different characteristics of the generated data. In this study, we collected utility measures and categorized them based on the type of analysis they perform. We then applied these measures to synthetic data generated from two well-known datasets, Adults Income, and Liar+. We used five generative models, Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN, and REaLTabFormer, to generate the synthetic data and evaluated its quality using the utility measures. The measurements have proven to be informative, indicating that if one synthetic dataset is superior to another in terms of utility measures, it will be more effective as an augmentation for the minority class when performing classification tasks.

Scheda breve

Scheda completa

	Relatore
	
				CARMAN, MARK JAMES
			
	Correlatore/i
	
				FIGUEIRA, ALVARO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				18-lug-2023
			
	Anno accademico
	
				2022/2023
			
	Abstract in italiano
	
				Lo sbilanciamento di classe rappresenta una problematica comune nello sviluppo dei modelli di classificazione.
Al fine di affrontare questa questione, sono stati recentemente sviluppati i dati sintetici per rafforzare la classe minoritaria. 
Tuttavia, valutare l'adeguatezza di tali dati generati è cruciale per garantire il loro allineamento con la distribuzione dei dati originali.
In questo contesto, le misure di utilità svolgono un ruolo cruciale nel quantificare il grado di somiglianza tra la distribuzione dei dati generati e i dati originali.
Nel caso dei dati tabulari, esistono vari metodi di valutazione che esaminano diverse caratteristiche dei dati generati.
In questo studio, abbiamo raccolto le misure di utilità e le abbiamo suddivise in base al tipo di analisi che effettuano.
Successivamente, abbiamo applicato tali misure ai dati sintetici generati da due dataset ben noti, ovvero Adults Income e Liar+.
Abbiamo utilizzato cinque modelli generativi: Borderline SMOTE, DataSynthesizer, CTGAN, CopulaGAN e REaLTabFormer, per generare i dati sintetici e ne abbiamo valutato la qualità attraverso le misure di utilità.
Le misurazioni hanno dimostrato di essere informative, indicando che se un dataset sintetico risulta superiore rispetto ad un altro in termini di misure di utilità, sarà più efficace come integrazione per la classe minoritaria nel contesto delle attività di classificazione.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
01_Espinosa_Erica_Thesis.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Thesis Dimensione 3.21 MB Formato Adobe PDF Visualizza/Apri	3.21 MB	Adobe PDF	Visualizza/Apri
02_Espinosa_Erica_Executive_Summary.pdf non accessibile Descrizione: Executive Summary Dimensione 451.9 kB Formato Adobe PDF Visualizza/Apri	451.9 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211935