Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.
La generazione di dati tabulari sintetici è diventata uno strumento chiave per affrontare la scarsità di dati, i problemi di privacy e la mitigazione dei bias nell’apprendimento automatico. Questa tesi propone un framework per la valutazione sistematica di dati tabulari sintetici. Integro inoltre i metodi di SynthCity, una delle principali librerie open source per la valutazione di dati sintetici. Il framework valuta la qualità dei dati sintetici su più dimensioni: fedeltà alle proprietà statistiche dei dati originali, utilità nelle attività di apprendimento automatico a valle, rilevabilità inter-modello e robustezza agli attacchi alla privacy. I nostri risultati evidenziano l’importanza della valutazione specifica per attività e forniscono una guida di facile comprensione per la selezione di tecniche di generazione appropriate in base alle esigenze applicative in settori come la sanità, la finanza e la ricerca nelle scienze sociali.
Evaluation and methods of the synthetic tabular data
Mao, Yang Hao
2024/2025
Abstract
Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Mao_Tesi_01.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
6.22 MB
Formato
Adobe PDF
|
6.22 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_Mao_Executive Summary_02.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive Summary
Dimensione
4.14 MB
Formato
Adobe PDF
|
4.14 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243384