Fraud occurs across various domains, from healthcare to telecommunications, with the rise of online banking, card-not-present transactions and other digital payment methods facilitating its proliferation in the financial sector. Despite the vast amounts of data being generated, obtaining high-quality datasets for fraud detection remains challenging due to privacy regulations (e.g.: GDPR, anti-fraud procedures) and the inherent sensitivity of financial data. Given these constraints, synthetic data generation has emerged as a crucial solution, often proving more suitable than real-world data for training and testing fraud detection systems. By addressing key challenges such as class imbalance and privacy concerns, synthetic data enables the development of more robust and effective fraud prevention models. This thesis provides a comprehensive review of the state of the art in synthetic data generation, analyzing the strengths and limitations of various models and exploring their applications in improving fraud detection and prevention systems.
Le frodi si verificano in diversi settori, dalla sanità alle telecomunicazioni, e la diffusione dell’online banking, delle transazioni "card-not-present" e di altri metodi di pagamento digitali ha favorito la loro proliferazione nel settore finanziario. Nonostante l’enorme quantità di dati generati, ottenere dataset di qualità adatti al rilevamento delle frodi rimane una sfida a causa delle normative sulla privacy (ad esempio, GDPR e procedure antifrode) e della natura sensibile dei dati finanziari. In questo contesto, la generazione di dati sintetici è emersa come una valida soluzione, spesso risultando più adatta dei dati reali per l’addestramento e il testing dei sistemi di rilevamento delle frodi. Grazie alla capacità di affrontare problematiche fondamentali come lo sbilanciamento delle classi e le restrizioni legate alla privacy, i dati sintetici consentono lo sviluppo di modelli di prevenzione delle frodi più efficaci e robusti. Questa tesi offre una revisione approfondita dello stato dell’arte nella generazione di dati sintetici, analizzandone i punti di forza e le limitazioni e esplorando le loro applicazioni per il miglioramento dei sistemi di rilevamento e prevenzione delle frodi.
A review of synthetic data generation for fraud detection systems
PUCCI, MARCO
2023/2024
Abstract
Fraud occurs across various domains, from healthcare to telecommunications, with the rise of online banking, card-not-present transactions and other digital payment methods facilitating its proliferation in the financial sector. Despite the vast amounts of data being generated, obtaining high-quality datasets for fraud detection remains challenging due to privacy regulations (e.g.: GDPR, anti-fraud procedures) and the inherent sensitivity of financial data. Given these constraints, synthetic data generation has emerged as a crucial solution, often proving more suitable than real-world data for training and testing fraud detection systems. By addressing key challenges such as class imbalance and privacy concerns, synthetic data enables the development of more robust and effective fraud prevention models. This thesis provides a comprehensive review of the state of the art in synthetic data generation, analyzing the strengths and limitations of various models and exploring their applications in improving fraud detection and prevention systems.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Pucci.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
3.24 MB
Formato
Adobe PDF
|
3.24 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/234238