A review of synthetic data generation for fraud detection systems

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Fraud occurs across various domains, from healthcare to telecommunications, with the rise of online banking, card-not-present transactions and other digital payment methods facilitating its proliferation in the financial sector. Despite the vast amounts of data being generated, obtaining high-quality datasets for fraud detection remains challenging due to privacy regulations (e.g.: GDPR, anti-fraud procedures) and the inherent sensitivity of financial data. Given these constraints, synthetic data generation has emerged as a crucial solution, often proving more suitable than real-world data for training and testing fraud detection systems. By addressing key challenges such as class imbalance and privacy concerns, synthetic data enables the development of more robust and effective fraud prevention models. This thesis provides a comprehensive review of the state of the art in synthetic data generation, analyzing the strengths and limitations of various models and exploring their applications in improving fraud detection and prevention systems.

Le frodi si verificano in diversi settori, dalla sanità alle telecomunicazioni, e la diffusione dell’online banking, delle transazioni "card-not-present" e di altri metodi di pagamento digitali ha favorito la loro proliferazione nel settore finanziario. Nonostante l’enorme quantità di dati generati, ottenere dataset di qualità adatti al rilevamento delle frodi rimane una sfida a causa delle normative sulla privacy (ad esempio, GDPR e procedure antifrode) e della natura sensibile dei dati finanziari. In questo contesto, la generazione di dati sintetici è emersa come una valida soluzione, spesso risultando più adatta dei dati reali per l’addestramento e il testing dei sistemi di rilevamento delle frodi. Grazie alla capacità di affrontare problematiche fondamentali come lo sbilanciamento delle classi e le restrizioni legate alla privacy, i dati sintetici consentono lo sviluppo di modelli di prevenzione delle frodi più efficaci e robusti. Questa tesi offre una revisione approfondita dello stato dell’arte nella generazione di dati sintetici, analizzandone i punti di forza e le limitazioni e esplorando le loro applicazioni per il miglioramento dei sistemi di rilevamento e prevenzione delle frodi.

A review of synthetic data generation for fraud detection systems

PUCCI, MARCO

2023/2024

Abstract

Fraud occurs across various domains, from healthcare to telecommunications, with the rise of online banking, card-not-present transactions and other digital payment methods facilitating its proliferation in the financial sector. Despite the vast amounts of data being generated, obtaining high-quality datasets for fraud detection remains challenging due to privacy regulations (e.g.: GDPR, anti-fraud procedures) and the inherent sensitivity of financial data. Given these constraints, synthetic data generation has emerged as a crucial solution, often proving more suitable than real-world data for training and testing fraud detection systems. By addressing key challenges such as class imbalance and privacy concerns, synthetic data enables the development of more robust and effective fraud prevention models. This thesis provides a comprehensive review of the state of the art in synthetic data generation, analyzing the strengths and limitations of various models and exploring their applications in improving fraud detection and prevention systems.

Scheda breve

Scheda completa

	Relatore
	
				CARMINATI, MICHELE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2023/2024
			
	Abstract in italiano
	
				Le frodi si verificano in diversi settori, dalla sanità alle telecomunicazioni, e la diffusione dell’online banking, delle transazioni "card-not-present" e di altri metodi di pagamento digitali ha favorito la loro proliferazione nel settore finanziario. Nonostante l’enorme quantità di dati generati, ottenere dataset di qualità adatti al rilevamento delle frodi rimane una sfida a causa delle normative sulla privacy (ad esempio, GDPR e procedure antifrode) e della natura sensibile dei dati finanziari. In questo contesto, la generazione di dati sintetici è emersa come una valida soluzione, spesso risultando più adatta dei dati reali per l’addestramento e il testing dei sistemi di rilevamento delle frodi. Grazie alla capacità di affrontare problematiche fondamentali come lo sbilanciamento delle classi e le restrizioni legate alla privacy, i dati sintetici consentono lo sviluppo di modelli di prevenzione delle frodi più efficaci e robusti. Questa tesi offre una revisione approfondita dello stato dell’arte nella generazione di dati sintetici, analizzandone i punti di forza e le limitazioni e esplorando le loro applicazioni per il miglioramento dei sistemi di rilevamento e prevenzione delle frodi.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_04_Pucci.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 3.24 MB Formato Adobe PDF Visualizza/Apri	3.24 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234238