In an era dominated by big data and artificial intelligence, the quality and availability of data used to train predictive models are critical. However, obtaining high-quality real data can be difficult for various reasons, including poor data availability, unbalanced datasets, and privacy limitation. In this context, synthetic data generation has emerged as a potentially effective solution to overcome these challenges. This review aims to examine in detail some of the most widely used methodologies for synthetic data generation, focusing on two main challenges: data privacy and data augmentation. The first part of the paper analyzes techniques aimed at ensuring privacy. These methods attempt to balance the need to protect privacy with maintaining the quality and usefulness of synthetic data. The second part of the review focuses on data augmentation techniques, which aim to improve the quality of datasets by generating additional data. Methods using advanced generative models to create realistic synthetic data useful for training machine learning models are analyzed. The paper concludes with a comparative assessment of the different techniques examined, highlighting their strengths and limitations, and suggesting possible future directions for research in this field. The overall goal is to contribute to the development of synthetic data generation methods that can support the evolution of artificial intelligence applications while ensuring a high level of privacy protection.

In un'epoca dominata dai big data e dall'intelligenza artificiale, la qualità e la disponibilità dei dati utilizzati per l'addestramento dei modelli predittivi sono fondamentali. Tuttavia, ottenere dati reali di alta qualità può risultare difficile per vari motivi, tra cui la scarsa disponibilità di dati, i dataset sbilanciati e i limiti legate alla privacy. In questo contesto, la generazione di dati sintetici si è affermata come una soluzione potenzialmente efficace per superare queste sfide. Questa rassegna si propone di esaminare in dettaglio alcune delle metodologie più utilizzate per la generazione di dati sintetici, concentrandosi su due sfide principali: la privacy dei dati e l'aumento dei dati. La prima parte del lavoro analizza le tecniche volte a garantire la privacy. Questi metodi cercano di bilanciare la necessità di proteggere la privacy con il mantenimento della qualità e dell'utilità dei dati sintetici. La seconda parte della rassegna si focalizza sulle tecniche di aumento dei dati, che mirano a migliorare la qualità dei dataset attraverso la generazione di dati aggiuntivi. Sono analizzati metodi che utilizzano modelli generativi avanzati per creare dati sintetici realistici e utili per l'addestramento di modelli di machine learning. Il lavoro si conclude con una valutazione comparativa delle diverse tecniche esaminate, evidenziandone i punti di forza e le limitazioni, e suggerendo possibili direzioni future per la ricerca in questo campo. L'obiettivo complessivo è contribuire allo sviluppo di metodi di generazione di dati sintetici che possano supportare l'evoluzione delle applicazioni di intelligenza artificiale, garantendo al contempo un elevato livello di protezione della privacy.

A review of synthetic data generation methods: their scope and how they work

TRACANELLA, MARCO
2023/2024

Abstract

In an era dominated by big data and artificial intelligence, the quality and availability of data used to train predictive models are critical. However, obtaining high-quality real data can be difficult for various reasons, including poor data availability, unbalanced datasets, and privacy limitation. In this context, synthetic data generation has emerged as a potentially effective solution to overcome these challenges. This review aims to examine in detail some of the most widely used methodologies for synthetic data generation, focusing on two main challenges: data privacy and data augmentation. The first part of the paper analyzes techniques aimed at ensuring privacy. These methods attempt to balance the need to protect privacy with maintaining the quality and usefulness of synthetic data. The second part of the review focuses on data augmentation techniques, which aim to improve the quality of datasets by generating additional data. Methods using advanced generative models to create realistic synthetic data useful for training machine learning models are analyzed. The paper concludes with a comparative assessment of the different techniques examined, highlighting their strengths and limitations, and suggesting possible future directions for research in this field. The overall goal is to contribute to the development of synthetic data generation methods that can support the evolution of artificial intelligence applications while ensuring a high level of privacy protection.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
In un'epoca dominata dai big data e dall'intelligenza artificiale, la qualità e la disponibilità dei dati utilizzati per l'addestramento dei modelli predittivi sono fondamentali. Tuttavia, ottenere dati reali di alta qualità può risultare difficile per vari motivi, tra cui la scarsa disponibilità di dati, i dataset sbilanciati e i limiti legate alla privacy. In questo contesto, la generazione di dati sintetici si è affermata come una soluzione potenzialmente efficace per superare queste sfide. Questa rassegna si propone di esaminare in dettaglio alcune delle metodologie più utilizzate per la generazione di dati sintetici, concentrandosi su due sfide principali: la privacy dei dati e l'aumento dei dati. La prima parte del lavoro analizza le tecniche volte a garantire la privacy. Questi metodi cercano di bilanciare la necessità di proteggere la privacy con il mantenimento della qualità e dell'utilità dei dati sintetici. La seconda parte della rassegna si focalizza sulle tecniche di aumento dei dati, che mirano a migliorare la qualità dei dataset attraverso la generazione di dati aggiuntivi. Sono analizzati metodi che utilizzano modelli generativi avanzati per creare dati sintetici realistici e utili per l'addestramento di modelli di machine learning. Il lavoro si conclude con una valutazione comparativa delle diverse tecniche esaminate, evidenziandone i punti di forza e le limitazioni, e suggerendo possibili direzioni future per la ricerca in questo campo. L'obiettivo complessivo è contribuire allo sviluppo di metodi di generazione di dati sintetici che possano supportare l'evoluzione delle applicazioni di intelligenza artificiale, garantendo al contempo un elevato livello di protezione della privacy.
File allegati
File Dimensione Formato  
2024_10_Tracanella.pdf

accessibile in internet per tutti

Dimensione 3.25 MB
Formato Adobe PDF
3.25 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226946