Money laundering is the world’s widest spread financial fraudulent activity, accounting for an estimated flow between $1.6 and $2.85 trillion per year, corresponding to 2.1-4% of the global GDP. To fight this phenomenon, financial institutions provide their analysts with fraud detection tools, more generically called anomaly detection tools. In this thesis we present FraudCleaner, a financial fraud detection tool constituted by an ensemble of two unsupervised algorithms, autoencoder and isolation forest. The system is designed to be as generic as possible, in order to allow its usage also for anomaly detection on non-financial data. The experimental validation of FraudCleaner is divided into three parts. First, we compare our approach against other state-of-the-art solutions, on nine real-world datasets from various domains; then, we evaluate the computation time performance of the algorithms composing the ensemble; finally, we test the system in the detection of specific fraudulent patterns recognized by the Financial Action Task Force on Money Laundering (FATF), on a synthetic dataset crafted in collaboration with the anti-money laundering experts of London-based company Fortytwo Data. Results show that FraudCleaner outperforms all the considered state-of-the-art solutions and allows to train one model in less than one minute. On average, the system is capable of assigning anomaly scores to financial transactions producing a daily ranking that places 79.89% of frauds in the top 4%, and 92.17% in the top 7.5%.
Per “riciclaggio di denaro” si intende l’insieme di operazioni attuate per dare una parvenza lecita a capitali provenienti da attività illecite. Il fenomeno del riciclaggio di denaro è a livello mondiale la maggiore attività finanziaria fraudolenta, e si stima che generi annualmente un flusso di denaro compreso tra gli 1,6 e i 2,85 trilioni di dollari, equivalenti ad una percentuale tra l’1,6% e il 4% del prodotto interno lordo mondiale. La lotta al fenomeno intrapresa da banche ed enti finanziari, soggetti all’attuazione di specifiche norme anti-riciclaggio, si divide tra prevenzione e rilevamento attivo; quest’ultimo è effettuato da analisti esperti del settore che effettuano controlli costanti sulle transazioni finanziarie effettuate dai clienti delle suddette imprese. Vista l’enorme mole di operazioni finanziarie effettuate quotidianamente a livello globale, il compito degli analisti è diventato sostenibile solo attraverso il supporto di sistemi automatici di rilevamento di attività fraudolente, basati su algoritmi di rilevamento anomalie. Questi sistemi forniscono stime sulla probabilità che ciascuna attività finanziaria sia lecita oppure fraudolenta, indicando quali casi sono ritenuti maggiormente sospetti e richiedenti dunque un’analisi manuale e dettagliata da parte dell’analista. Lo scopo di questa tesi è lo sviluppo di un sistema di rilevamento di attività finanziare fraudolente, che possa supportare un analista nel processo di individuazione. Il sistema proposto, chiamato FraudCleaner, è costituito da un ensemble di due algoritmi di apprendimento non supervisionato allo stato dell’arte: autoencoder e isolation forest. FraudCleaner costruisce modelli comportamentali degli utenti che effettuano attività finanziarie a partire da dati storici, dove un “utente” può essere un account bancario, una carta di credito, una banca, o una qualsiasi entità in grado di effettuare dei movimenti finanziari. I modelli sono addestrati tramite vettori che riassumono il profilo di spesa di questi utenti all’interno di archi di tempo definiti, ottenuti aggregando le informazioni di singole transazioni. Il processo di aggregazione è effettuato per analizzare il comportamento degli utenti con una prospettiva più ampia di quella della singola transazione, in quanto un’unica istanza di attività fraudolenta coinvolge spesso molteplici transazioni. Ciò rende dunque necessario costruire modelli che le considerino a gruppi, anzichè singolarmente, per poter rilevare le frodi. Una volta costruiti i modelli, il sistema produce degli score di anomalia per le nuove attività effettuate dagli utenti, che rappresentano una stima di quanto queste appaiano estranee rispetto ai comportamenti modellizzati, e restituisce una classifica ordinata per valori decrescenti di questo score. E` importante sottolineare come FraudCleaner sia disegnato per offrire all’analista che lo utilizza flessibilità e personalizzazione per quanto riguarda l’aggregazione dei dati, la derivazione dei vettori e l’addestramento dei modelli. Le funzionalità offerte dal sistema sono state pensate in collaborazione con gli esperti di Fortytwo Data, azienda londinese specializzata nello sviluppo di sistemi anti-riciclaggio. FraudCleaner è inoltre progettato per poter operare anche su dati non finanziari, come strumento di rilevamento anomalie generico. L’intero sistema è sviluppato utilizzando Python 2.7. La validazione sperimentale di FraudCleaner è suddivisa in tre parti, con tre diversi obiettivi. Nella prima parte il nostro ensemble viene confrontato con altre soluzioni di rilevamento anomalie allo stato dell’arte, su nove dataset reali provenienti da diversi domini. Nella seconda viene valutata la performance dei due algoritmi che costituiscono l’ensemble a livello di tempo di computazione richiesto per addestrare un modello, in un range di condizioni costruito per coprire quelle medie in cui si prevede il sistema dovrà operare in un contesto reale, per dimostrare la sua idoneità ad essere impiegato per modellizzare individualmente svariate migliaia di utenti. Nell’ultima, il sistema viene valutato nel contesto anti-riciclaggio, testando il rilevamento di tre diversi pattern fraudolenti legati al riciclaggio riconosciuti dalla Financial Action Task Force on Money Laundering (FATF, organizzazione intergovernativa che si occupa dello sviluppo di normative anti-riciclaggio), ciascuno sviluppato in tre diversi livelli di difficoltà di rilevamento, all’interno di un dataset sintetico creato in collaborazione con gli esperti di Fortytwo Data. Dagli esperimenti sono emersi i seguenti risultati: il nostro ensemble ottiene in media performance superiori a tutte le altre soluzioni di rilevamento anomalie allo stato dell’arte considerate, risultando il migliore su ben sette dei nove dataset utilizzati. Gli algoritmi costituenti l’ensemble mostrano un tempo di addestramento di un singolo modello in condizioni medie di lavoro nell’ordine dei secondi, dimostrando la perfetta applicabilità della soluzione alla modellizzazione individuale degli utenti nel contesto finanziario. In ultimo, FraudCleaner risulta in grado di fornire una classifica delle attività finanziarie svolte all’interno di un singolo giorno da 4000 utenti che colloca in media il 79,89% di quelle fraudolente nelle prime 160 posizioni, corrispondenti al 4% del totale di attività effettuate. Questa percentuale sale al 92,17% se si considerano le prime 300 posizioni, ossia il 7,5% del totale. Il sistema si dimostra capace di rilevare con successo tutti i diversi tipi di anomalia nei diversi livelli di difficoltà, ottenendo nello specifico l’inclusione nelle prime 160 posizioni della classifica (4% del totale) del 90,91% delle frodi di primo livello, dell’82,54% delle frodi di secondo livello e del 65,86% di quelle di terzo livello, ossia le più difficili da individuare. Nel complesso, FraudCleaner si dimostra dunque un efficace sistema di supporto nel rilevamento di frodi finanziarie, in particolare nel contesto anti-riciclaggio, capace di ridurre considerevolmente il lavoro richiesto ad un analista per effettuare le analisi e rilevare le attività fraudolente.
FraudCleaner : an unsupervised ensemble approach for money laundering and financial fraud detection
BULLONI, MATTEO
2016/2017
Abstract
Money laundering is the world’s widest spread financial fraudulent activity, accounting for an estimated flow between $1.6 and $2.85 trillion per year, corresponding to 2.1-4% of the global GDP. To fight this phenomenon, financial institutions provide their analysts with fraud detection tools, more generically called anomaly detection tools. In this thesis we present FraudCleaner, a financial fraud detection tool constituted by an ensemble of two unsupervised algorithms, autoencoder and isolation forest. The system is designed to be as generic as possible, in order to allow its usage also for anomaly detection on non-financial data. The experimental validation of FraudCleaner is divided into three parts. First, we compare our approach against other state-of-the-art solutions, on nine real-world datasets from various domains; then, we evaluate the computation time performance of the algorithms composing the ensemble; finally, we test the system in the detection of specific fraudulent patterns recognized by the Financial Action Task Force on Money Laundering (FATF), on a synthetic dataset crafted in collaboration with the anti-money laundering experts of London-based company Fortytwo Data. Results show that FraudCleaner outperforms all the considered state-of-the-art solutions and allows to train one model in less than one minute. On average, the system is capable of assigning anomaly scores to financial transactions producing a daily ranking that places 79.89% of frauds in the top 4%, and 92.17% in the top 7.5%.| File | Dimensione | Formato | |
|---|---|---|---|
|
thesis_main.pdf
non accessibile
Descrizione: Testo della tesi
Dimensione
2.54 MB
Formato
Adobe PDF
|
2.54 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/140286