Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.

La generazione di dati tabulari sintetici è diventata uno strumento chiave per affrontare la scarsità di dati, i problemi di privacy e la mitigazione dei bias nell’apprendimento automatico. Questa tesi propone un framework per la valutazione sistematica di dati tabulari sintetici. Integro inoltre i metodi di SynthCity, una delle principali librerie open source per la valutazione di dati sintetici. Il framework valuta la qualità dei dati sintetici su più dimensioni: fedeltà alle proprietà statistiche dei dati originali, utilità nelle attività di apprendimento automatico a valle, rilevabilità inter-modello e robustezza agli attacchi alla privacy. I nostri risultati evidenziano l’importanza della valutazione specifica per attività e forniscono una guida di facile comprensione per la selezione di tecniche di generazione appropriate in base alle esigenze applicative in settori come la sanità, la finanza e la ricerca nelle scienze sociali.

Evaluation and methods of the synthetic tabular data

Mao, Yang Hao
2024/2025

Abstract

Synthetic generation of tabular has become a key tool for addressing data scarcity, privacy issues, and bias mitigation in machine learning. This thesis proposes a framework for systematically evaluating synthetic tabular. I also complement the methods of SynthCity, a leading open-source synthetic data evaluation library. The framework assesses the quality of synthetic data across multiple dimensions: fidelity to the statistical properties of the original data, utility in downstream machine learning tasks, inter-model detectability, and robustness to privacy attacks. Our results highlight the importance of task-specific evaluation and provide an easy-to-understand guide for selecting appropriate generation techniques based on application needs in fields such as healthcare, finance, and social science research.
PANACCIONE, FRANCESCA PIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
La generazione di dati tabulari sintetici è diventata uno strumento chiave per affrontare la scarsità di dati, i problemi di privacy e la mitigazione dei bias nell’apprendimento automatico. Questa tesi propone un framework per la valutazione sistematica di dati tabulari sintetici. Integro inoltre i metodi di SynthCity, una delle principali librerie open source per la valutazione di dati sintetici. Il framework valuta la qualità dei dati sintetici su più dimensioni: fedeltà alle proprietà statistiche dei dati originali, utilità nelle attività di apprendimento automatico a valle, rilevabilità inter-modello e robustezza agli attacchi alla privacy. I nostri risultati evidenziano l’importanza della valutazione specifica per attività e forniscono una guida di facile comprensione per la selezione di tecniche di generazione appropriate in base alle esigenze applicative in settori come la sanità, la finanza e la ricerca nelle scienze sociali.
File allegati
File Dimensione Formato  
2025_10_Mao_Tesi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 6.22 MB
Formato Adobe PDF
6.22 MB Adobe PDF   Visualizza/Apri
2025_10_Mao_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 4.14 MB
Formato Adobe PDF
4.14 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243384