Fraud detection is a critical challenge in various domains, necessitating accurate and reliable methods to distinguish between legitimate and fraudulent transactions. This thesis explores the application of copula-based models for anomaly detection in financial forensics. It focuses on their effectiveness in identifying fraudulent activities in a highly imbalanced dataset. The copula models are designed to capture the dependencies between continuous variables, providing a flexible framework for modeling the joint distribution of features. For instance, the variables in a dataset can follow different distributions and the copula is able to model how these variables jointly behave, particularly in extreme cases. In this work we used a fraud dataset to calculate the probability of fraud with both the Gaussian copula and conditional Gaussian copula. Then, we derived the copula-based Generalized Linear Model (GLM) formula which is essentially a GLM with probit link and transformed variables when the covariates are continuous. Finally, we compare the performance of these copula-based models with standard methods used to predict a binary variable like GLM with a probit link and logistic regression. All the models are evaluated also with the Synthetic Minority Over-sampling Technique (SMOTE) to enhance their ability to detect fraud. The results indicate that the copula-based probability and conditional copula formulas offer promising results, particularly in handling complex dependencies, but with a high computational time, while copula-based GLM, when combined with over-sampling, also outperform traditional methods. This research contributes to the understanding of copula-based models in anomaly detection and in particular in fraud detection, offering insights into their strengths and limitations compared to more conventional approaches.
Questa tesi esplora l’applicazione di modelli basati su copule per il rilevamento di anomalie nella finanza forense. Si concentra sulla loro efficacia nell’identificare attività fraudolente in un dataset altamente sbilanciato. Il rilevamento delle frodi è una sfida cruciale in vari ambiti, che richiede metodi accurati e affidabili per distinguere transazioni legittime e fraudolente. I modelli basati su copule sono progettati per catturare le dipendenze tra variabili continue, fornendo un approccio flessibile per modellare la distribuzione congiunta delle covariate. Ad esempio, le variabili in un dataset possono seguire distribuzioni diverse e la copula è in grado di modellare il comportamento congiunto di queste, in particolare nei casi estremi. In questa tesi abbiamo utilizzato un dataset di frodi per calcolare la probabilità di frode sia con la copula gaussiana e sia con la copula gaussiana condizionata. Successivamente, partendo da quest’ultima, abbiamo derivato la formula del Modello Lineare Generalizzato (GLM) basato sulla copula: questo, quando le covariate sono continue, è essenzialmente un GLM con funzione di collegamento probit e variabili trasformate. Infine, confrontiamo le prestazioni di questi modelli con quelle di metodi standard utilizzati per prevedere una variabile binaria, come il GLM con funzione di collegamento probit e la Regressione Logistica. Tutti i modelli sono valutati anche con la tecnica di sovracampionamento sintetico delle minoranze (SMOTE) per migliorare la loro capacità di rilevare frodi. I risultati indicano che le formule di probabilità basate su copula e copula condizionata offrono risultati promettenti, in particolare nella gestione di dipendenze complesse, sebbene con un tempo computazionale elevato, mentre il GLM basato su copula, quando combinato con il sovracampionamento, supera anche i metodi tradizionali. Questa ricerca contribuisce alla comprensione dei modelli basati su copula nel rilevamento di anomalie e, in particolare, nel rilevamento delle frodi, offrendo spunti sui loro punti di forza e limiti rispetto agli approcci più convenzionali.
Copula-based approaches for anomaly detection: a case-study in financial forensics
Tenconi, Vanessa
2023/2024
Abstract
Fraud detection is a critical challenge in various domains, necessitating accurate and reliable methods to distinguish between legitimate and fraudulent transactions. This thesis explores the application of copula-based models for anomaly detection in financial forensics. It focuses on their effectiveness in identifying fraudulent activities in a highly imbalanced dataset. The copula models are designed to capture the dependencies between continuous variables, providing a flexible framework for modeling the joint distribution of features. For instance, the variables in a dataset can follow different distributions and the copula is able to model how these variables jointly behave, particularly in extreme cases. In this work we used a fraud dataset to calculate the probability of fraud with both the Gaussian copula and conditional Gaussian copula. Then, we derived the copula-based Generalized Linear Model (GLM) formula which is essentially a GLM with probit link and transformed variables when the covariates are continuous. Finally, we compare the performance of these copula-based models with standard methods used to predict a binary variable like GLM with a probit link and logistic regression. All the models are evaluated also with the Synthetic Minority Over-sampling Technique (SMOTE) to enhance their ability to detect fraud. The results indicate that the copula-based probability and conditional copula formulas offer promising results, particularly in handling complex dependencies, but with a high computational time, while copula-based GLM, when combined with over-sampling, also outperform traditional methods. This research contributes to the understanding of copula-based models in anomaly detection and in particular in fraud detection, offering insights into their strengths and limitations compared to more conventional approaches.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Tenconi_Tesi.pdf
solo utenti autorizzati a partire dal 11/09/2025
Descrizione: testo tesi
Dimensione
1.33 MB
Formato
Adobe PDF
|
1.33 MB | Adobe PDF | Visualizza/Apri |
2024_10_Tenconi_Executive Summary.pdf
solo utenti autorizzati a partire dal 11/09/2025
Descrizione: executive summary
Dimensione
570.85 kB
Formato
Adobe PDF
|
570.85 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/225833