Money laundering poses a persistent challenge for financial institutions worldwide, as criminals continually adapt to avoid detection. With banks processing massive amounts of transactions daily, identifying subtle laundering activities remains difficult. Many existing systems address this problem, mainly relying on predefined rules and specific behavioral patterns. However, such methods often lead to costly investigations of false positives and missed suspicious activities. Anti-money laundering (AML) regulations are driving the development of advanced technologies to support and improve current systems. With abundant unlabeled financial data and limited labeled datasets, the focus is shifting toward unsupervised anomaly detection. Additionally, graph analysis approaches are creating new research opportunities and challenging existing paradigms. This thesis explores a self-supervised anomaly detection framework for detecting money laundering transactions in financial transaction datasets. Our two-stage approach begins with an Isolation Forest model to identify a set of normal transactions, forming a baseline representation of typical transaction behavior. In the second stage, we build a temporal graph of sequential transactions and train a Graph Neural Network (GNN) model on this graph, focusing solely on the normal transaction subgraph. The trained model is then applied to the full graph, generating prediction scores that highlight outliers. These scores, combined with transaction amounts, create a comprehensive risk indicator. The model's effectiveness is evaluated by ranking transactions based on this risk score, with detection accuracy measured at the transaction level. We primarily experiment with synthetic financial transaction datasets and assess the usability of a real-world aggregated dataset. We focus on assessing the accuracy of our framework in detecting typical money laundering patterns and measuring its effectiveness and limitations. The results demonstrate that the self-supervised paradigm, combined with innovative graph structures, holds promise for advancing AML capabilities.

Il riciclaggio di denaro rappresenta una sfida continua per gli enti finanziari mondiali, in quanto i criminali si adattano per evitare l’individuazione. L’identificazione di tali attività risulta arduo, data l’enorme quantità di transazioni che le banche elaborano ogni giorno. Molti sistemi esistenti affrontano il problema affidandosi principalmente a regole predefinite e modelli comportamentali. Tuttavia, tali metodi portano spesso a costose indagini su falsi positivi e al mancato rilevamento di attività sospette. Pertanto, le normative antiriciclaggio stanno guidando lo sviluppo di tecnologie avanzate per migliorare i sistemi attuali. Vista la disponibilità di dati finanziari non etichettati e la scarsità di dataset etichettati, l'attenzione si sta spostando sul rilevamento di anomalie in modo non supervisionato. Sviluppi nella ricerca e nell’analisi dei grafi stanno offrendo nuove soluzioni avanzate. Questa ricerca esplora un approccio di rilevamento di anomalie auto-supervisionato per individuare transazioni di riciclaggio di denaro in dataset di transazioni finanziarie. Il nostro approccio in due fasi inizia con un modello Isolation Forest (IF) per identificare un insieme di transazioni normali, o lecite. Nella seconda fase, costruiamo un grafo temporale di transazioni sequenziali e addestriamo un modello di Graph Neural Network (GNN) esclusivamente sul grafo ottenuto delle transazioni normali. Il modello addestrato viene quindi applicato all'intero grafo, generando punteggi di anomalia per ogni transazione. Questi punteggi, insieme agli importi delle transazioni, creano un indicatore di rischio. L'efficacia del modello è valutata classificando le transazioni in base al punteggio di rischio e l'accuratezza del rilevamento è misurata a livello di transazione. Gli esperimenti si basano su dataset sintetici di transazioni e su un dataset reale aggregato. Valutiamo l’accuratezza dell’approccio nel rilevare tipici schemi di riciclaggio e ne misuriamo efficacia e limitazioni. I risultati dimostrano che il paradigma auto-supervisionato, combinato con strutture di grafo innovative, offre potenziale per avanzare le capacità del sistema antiriciclaggio.

Self-supervised learning with graphical context to effectively capture complex money laundering activities

Kaja, Alen
2023/2024

Abstract

Money laundering poses a persistent challenge for financial institutions worldwide, as criminals continually adapt to avoid detection. With banks processing massive amounts of transactions daily, identifying subtle laundering activities remains difficult. Many existing systems address this problem, mainly relying on predefined rules and specific behavioral patterns. However, such methods often lead to costly investigations of false positives and missed suspicious activities. Anti-money laundering (AML) regulations are driving the development of advanced technologies to support and improve current systems. With abundant unlabeled financial data and limited labeled datasets, the focus is shifting toward unsupervised anomaly detection. Additionally, graph analysis approaches are creating new research opportunities and challenging existing paradigms. This thesis explores a self-supervised anomaly detection framework for detecting money laundering transactions in financial transaction datasets. Our two-stage approach begins with an Isolation Forest model to identify a set of normal transactions, forming a baseline representation of typical transaction behavior. In the second stage, we build a temporal graph of sequential transactions and train a Graph Neural Network (GNN) model on this graph, focusing solely on the normal transaction subgraph. The trained model is then applied to the full graph, generating prediction scores that highlight outliers. These scores, combined with transaction amounts, create a comprehensive risk indicator. The model's effectiveness is evaluated by ranking transactions based on this risk score, with detection accuracy measured at the transaction level. We primarily experiment with synthetic financial transaction datasets and assess the usability of a real-world aggregated dataset. We focus on assessing the accuracy of our framework in detecting typical money laundering patterns and measuring its effectiveness and limitations. The results demonstrate that the self-supervised paradigm, combined with innovative graph structures, holds promise for advancing AML capabilities.
Hassani, Marwan
Tariq, Haseeb
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Il riciclaggio di denaro rappresenta una sfida continua per gli enti finanziari mondiali, in quanto i criminali si adattano per evitare l’individuazione. L’identificazione di tali attività risulta arduo, data l’enorme quantità di transazioni che le banche elaborano ogni giorno. Molti sistemi esistenti affrontano il problema affidandosi principalmente a regole predefinite e modelli comportamentali. Tuttavia, tali metodi portano spesso a costose indagini su falsi positivi e al mancato rilevamento di attività sospette. Pertanto, le normative antiriciclaggio stanno guidando lo sviluppo di tecnologie avanzate per migliorare i sistemi attuali. Vista la disponibilità di dati finanziari non etichettati e la scarsità di dataset etichettati, l'attenzione si sta spostando sul rilevamento di anomalie in modo non supervisionato. Sviluppi nella ricerca e nell’analisi dei grafi stanno offrendo nuove soluzioni avanzate. Questa ricerca esplora un approccio di rilevamento di anomalie auto-supervisionato per individuare transazioni di riciclaggio di denaro in dataset di transazioni finanziarie. Il nostro approccio in due fasi inizia con un modello Isolation Forest (IF) per identificare un insieme di transazioni normali, o lecite. Nella seconda fase, costruiamo un grafo temporale di transazioni sequenziali e addestriamo un modello di Graph Neural Network (GNN) esclusivamente sul grafo ottenuto delle transazioni normali. Il modello addestrato viene quindi applicato all'intero grafo, generando punteggi di anomalia per ogni transazione. Questi punteggi, insieme agli importi delle transazioni, creano un indicatore di rischio. L'efficacia del modello è valutata classificando le transazioni in base al punteggio di rischio e l'accuratezza del rilevamento è misurata a livello di transazione. Gli esperimenti si basano su dataset sintetici di transazioni e su un dataset reale aggregato. Valutiamo l’accuratezza dell’approccio nel rilevare tipici schemi di riciclaggio e ne misuriamo efficacia e limitazioni. I risultati dimostrano che il paradigma auto-supervisionato, combinato con strutture di grafo innovative, offre potenziale per avanzare le capacità del sistema antiriciclaggio.
File allegati
File Dimensione Formato  
2024_12_Kaja.pdf

accessibile in internet per tutti

Descrizione: Testo della Tesi
Dimensione 10.79 MB
Formato Adobe PDF
10.79 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231553