Monitoring financial transactions is a critical anti-money laundering (AML) obligation for all financial institutions. Traditional anti-money laundering approaches are based on heuristics and static rules to highlight unusual behaviours. Such approaches generate a high number of false positives, false negatives, and require a substantial effort to manually review all alerts generated by these systems. Moreover, transactional data is large in volume and highly imbalanced, often having less than 1% of anomalous occurrences. In recent years, several advanced statistical models, as well as machine learning-based systems, have been successfully used to complement traditional rule- based systems. Unfortunately, these solutions also have disadvantages: even if unsupervised models don’t require human intervention, they lead to low performance resulting in a high number of false positives; while supervised models require a large amount of labelled data to perform adequately and achieve high detection rate. In this paper we present Amaretto, an active learning framework for money laundering detection that combines supervised and unsupervised learning techniques, taking advantage of their strengths, to improve AML transaction monitoring processes by targeting a subset of transactions for investigation and making more efficient use of the feedback provided by the analyst. We experimentally evaluated Amaretto, on a synthetic dataset simulating a real-world scenario. We show that our approach outperforms state-of-the-art solutions by improving both the detection rate and the precision by 25% and achieving an overall detection rate of 0.6 and an area under the ROC curve (AUROC) of 0.94, with a limited set of labels, showing an improvement in performance after each successive iterations.

Il monitoraggio delle transazioni finanziarie è un obbligo all’interno delle operazioni di antiriciclaggio per tutti gli istituti finanziari. I tradizionali approcci si basano su euristiche e regole statiche per evidenziare comportamenti insoliti. Tali approcci generano un numero elevato di falsi positivi, falsi negativi e richiedono uno sforzo sostanziale per rivedere manualmente tutti gli avvisi generati da questi sistemi. Inoltre, i dati sono altamente sbilanciati, con spesso meno dell'1% di eventi anomali. Negli ultimi anni, diversi modelli statistici avanzati, nonché sistemi basati sul machine learning, sono stati utilizzati con successo per integrare i tradizionali sistemi basati su regole. Sfortunatamente, queste soluzioni presentano anche degli svantaggi: anche se i modelli non supervisionati non richiedono un intervento umano, portano a basse prestazioni con un elevato numero di falsi positivi; mentre i modelli supervisionati richiedono una grande quantità di dati etichettati per funzionare adeguatamente e raggiungere un alto tasso di rilevazione. In questo lavoro presentiamo Amaretto, un framework di active learning per il rilevamento del riciclaggio di denaro che combina tecniche di apprendimento supervisionate e non supervisionate, sfruttando i loro punti di forza, per migliorare i processi di monitoraggio delle transazioni, mirando a un sottoinsieme di transazioni e facendo un uso più efficiente del feedback fornito dall'analista. Abbiamo valutato sperimentalmente Amaretto, su un set di dati sintetico che simula uno scenario del mondo reale. Mostriamo che il nostro approccio supera le soluzioni all'avanguardia migliorando sia il tasso di rilevamento e la precisione del 25% e raggiungendo un tasso di rilevamento complessivo di 0,6 e un'area sotto la curva ROC (AUROC) di 0,94, con un limitato set di etichette.

Amaretto : an active learning framework for money laundering detection

LABANCA, DANILO
2018/2019

Abstract

Monitoring financial transactions is a critical anti-money laundering (AML) obligation for all financial institutions. Traditional anti-money laundering approaches are based on heuristics and static rules to highlight unusual behaviours. Such approaches generate a high number of false positives, false negatives, and require a substantial effort to manually review all alerts generated by these systems. Moreover, transactional data is large in volume and highly imbalanced, often having less than 1% of anomalous occurrences. In recent years, several advanced statistical models, as well as machine learning-based systems, have been successfully used to complement traditional rule- based systems. Unfortunately, these solutions also have disadvantages: even if unsupervised models don’t require human intervention, they lead to low performance resulting in a high number of false positives; while supervised models require a large amount of labelled data to perform adequately and achieve high detection rate. In this paper we present Amaretto, an active learning framework for money laundering detection that combines supervised and unsupervised learning techniques, taking advantage of their strengths, to improve AML transaction monitoring processes by targeting a subset of transactions for investigation and making more efficient use of the feedback provided by the analyst. We experimentally evaluated Amaretto, on a synthetic dataset simulating a real-world scenario. We show that our approach outperforms state-of-the-art solutions by improving both the detection rate and the precision by 25% and achieving an overall detection rate of 0.6 and an area under the ROC curve (AUROC) of 0.94, with a limited set of labels, showing an improvement in performance after each successive iterations.
CARMINATI, MICHELE
PRIMERANO, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Il monitoraggio delle transazioni finanziarie è un obbligo all’interno delle operazioni di antiriciclaggio per tutti gli istituti finanziari. I tradizionali approcci si basano su euristiche e regole statiche per evidenziare comportamenti insoliti. Tali approcci generano un numero elevato di falsi positivi, falsi negativi e richiedono uno sforzo sostanziale per rivedere manualmente tutti gli avvisi generati da questi sistemi. Inoltre, i dati sono altamente sbilanciati, con spesso meno dell'1% di eventi anomali. Negli ultimi anni, diversi modelli statistici avanzati, nonché sistemi basati sul machine learning, sono stati utilizzati con successo per integrare i tradizionali sistemi basati su regole. Sfortunatamente, queste soluzioni presentano anche degli svantaggi: anche se i modelli non supervisionati non richiedono un intervento umano, portano a basse prestazioni con un elevato numero di falsi positivi; mentre i modelli supervisionati richiedono una grande quantità di dati etichettati per funzionare adeguatamente e raggiungere un alto tasso di rilevazione. In questo lavoro presentiamo Amaretto, un framework di active learning per il rilevamento del riciclaggio di denaro che combina tecniche di apprendimento supervisionate e non supervisionate, sfruttando i loro punti di forza, per migliorare i processi di monitoraggio delle transazioni, mirando a un sottoinsieme di transazioni e facendo un uso più efficiente del feedback fornito dall'analista. Abbiamo valutato sperimentalmente Amaretto, su un set di dati sintetico che simula uno scenario del mondo reale. Mostriamo che il nostro approccio supera le soluzioni all'avanguardia migliorando sia il tasso di rilevamento e la precisione del 25% e raggiungendo un tasso di rilevamento complessivo di 0,6 e un'area sotto la curva ROC (AUROC) di 0,94, con un limitato set di etichette.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
amaretto.pdf

Open Access dal 03/12/2020

Descrizione: Testo della tesi
Dimensione 1.75 MB
Formato Adobe PDF
1.75 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152217