Evaluation and methods of the synthetic tabular data

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.

La generazione di dati tabulari sintetici è diventata uno strumento chiave per affrontare la scarsità di dati, i problemi di privacy e la mitigazione dei bias nell’apprendimento automatico. Questa tesi propone un framework per la valutazione sistematica di dati tabulari sintetici. Integro inoltre i metodi di SynthCity, una delle principali librerie open source per la valutazione di dati sintetici. Il framework valuta la qualità dei dati sintetici su più dimensioni: fedeltà alle proprietà statistiche dei dati originali, utilità nelle attività di apprendimento automatico a valle, rilevabilità inter-modello e robustezza agli attacchi alla privacy. I nostri risultati evidenziano l’importanza della valutazione specifica per attività e forniscono una guida di facile comprensione per la selezione di tecniche di generazione appropriate in base alle esigenze applicative in settori come la sanità, la finanza e la ricerca nelle scienze sociali.

Evaluation and methods of the synthetic tabular data

Mao, Yang Hao

2024/2025

Abstract

Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.

Scheda breve

Scheda completa

	Relatore
	
				Pinoli, Pietro
			
	Correlatore/i
	
				PANACCIONE, FRANCESCA PIA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				23-ott-2025
			
	Anno accademico
	
				2024/2025
			
	Abstract in italiano
	
				La generazione di dati tabulari sintetici è diventata uno strumento chiave per affrontare la scarsità di dati, i problemi di privacy e la mitigazione dei bias nell’apprendimento automatico. Questa tesi propone un framework per la valutazione sistematica di dati tabulari sintetici. Integro inoltre i metodi di SynthCity, una delle principali librerie open source per la valutazione di dati sintetici. Il framework valuta la qualità dei dati sintetici su più dimensioni: fedeltà alle proprietà statistiche dei dati originali, utilità nelle attività di apprendimento automatico a valle, rilevabilità inter-modello e robustezza agli attacchi alla privacy. I nostri risultati evidenziano l’importanza della valutazione specifica per attività e forniscono una guida di facile comprensione per la selezione di tecniche di generazione appropriate in base alle esigenze applicative in settori come la sanità, la finanza e la ricerca nelle scienze sociali.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_10_Mao_Tesi_01.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Thesis Dimensione 6.22 MB Formato Adobe PDF Visualizza/Apri	6.22 MB	Adobe PDF	Visualizza/Apri
2025_10_Mao_Executive Summary_02.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Executive Summary Dimensione 4.14 MB Formato Adobe PDF Visualizza/Apri	4.14 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243384