Balancing privacy, utility, and sustainability: a comparative analysis of synthetic data generation and traditional privacy-preserving techniques

The growing demand for high-quality data in regulated domains has made privacy-preserving data sharing a critical challenge. Organizations must enable data analysis and model development while safeguarding sensitive personal information. However, protecting data inevitably introduces a fundamental tension: released datasets must preserve privacy while retaining sufficient informational value for meaningful analysis. Moreover, privacy-preserving approaches must remain sustainable in terms of environmental impact, as the large-scale adoption of data-intensive techniques may generate significant energy consumption and carbon emissions, affecting long-term scalability. This thesis addresses this problem through a systematic comparison of two alternative approaches: synthetic data generation and traditional privacy-preserving techniques. Synthetic data generation relies on generative models to learn the statistical structure of an original dataset and produce artificial data that retains its global properties without releasing real records. In contrast, traditional anonymization techniques modify the original data through deterministic transformations such as suppression and generalization to satisfy formal privacy models (e.g., k-anonymity, l-diversity, and t-closeness). The proposed methodology evaluates both approaches across three dimensions: Privacy, Utility, and Environmental Sustainability. Empirical validation was conducted on a real-world clinical dataset. To ensure a fair comparison, evaluation strategies were tailored to each method: synthetic data was assessed through statistical similarity and distinguishability metrics, while traditional anonymization was evaluated using formal privacy guarantees and information loss measures. A unified framework then examined privacy risk, analytical utility, and environmental impact, quantified through computational cost and carbon emissions. The results indicate that no approach is universally superior. The absence of an obvious choice highlights the need for structured comparison tools. The proposed methodology, therefore, offers a practical framework to support informed, context-dependent decisions in privacy-preserving data release.

La crescente domanda di dati di alta qualità in ambiti regolamentati ha reso la condivisione dei dati nel rispetto della privacy una sfida cruciale, poiché le organizzazioni devono consentire analisi e sviluppo di modelli salvaguardando le informazioni personali sensibili. Tuttavia, la protezione dei dati introduce un dilemma: i dataset rilasciati devono preservare la privacy mantenendo al contempo un valore informativo sufficiente per analisi significative. Inoltre, gli approcci di tutela della privacy devono rimanere sostenibili dal punto di vista ambientale, poiché l’adozione su larga scala di tecniche ad alta intensità di dati può generare elevati consumi energetici ed emissioni di carbonio, compromettendo la scalabilità. Questa tesi affronta tale problema attraverso un confronto sistematico tra due approcci alternativi: la generazione di dati sintetici e le tecniche tradizionali di protezione della privacy. La generazione di dati sintetici si basa su modelli generativi che apprendono la struttura statistica di un dataset originale e producono dati artificiali in grado di preservarne le proprietà globali senza rilasciare record reali. Al contrario, le tecniche tradizionali di anonimizzazione modificano i dati originali mediante trasformazioni deterministiche, come soppressione e generalizzazione, al fine di soddisfare modelli formali di privacy (e.g., k-anonymity, l-diversity e t-closeness). La metodologia proposta esamina entrambi gli approcci lungo tre dimensioni: Privacy, Utilità e Sostenibilità Ambientale. La validazione empirica è stata condotta su un dataset clinico reale. Per garantire un confronto equo, le strategie di valutazione sono state adattate ai due metodi: similarità statistica e distinguibilità per i dati sintetici, garanzie formali e perdita informativa per l’anonimizzazione tradizionale. Un quadro di valutazione unificato ha quindi esaminato il rischio di violazione della privacy, l’utilità analitica e l’impatto ambientale, quantificato in termini di costo computazionale ed emissioni di carbonio. I risultati indicano che nessun approccio risulta universalmente superiore. L’assenza di una scelta evidente evidenzia la necessità di strumenti di confronto strutturati. La metodologia proposta offre pertanto un framework pratico per supportare decisioni informate e dipendenti dal contesto nel rilascio di dati nel rispetto della privacy.