This work presents an investigation of tailoring ac{NRL} for an application in the Financial Industry. ac{NRL} approaches are data-driven models that learn how to encode graph structures into low-dimensional vector spaces, which can be further exploited by downstream Machine Learning applications. They can potentially bring a lot of benefits in the Financial Industry since they extract in an automatic way features that can provide useful input regarding graph structures, called embeddings. Financial transactions can be represented as a network, and through ac{NRL}, it is possible to extract embeddings that reflect the intrinsic inter-connected nature of economic relationships. Such embeddings can be used for several purposes, among which Anomaly Detection to fight financial crime. This work provides a qualitative analysis over state-of-the-art ac{NRL} models, which identifies ac{ConvGNN} as the most suitable category of approaches for Financial Industry but with a certain need for further improvement. Financial Industry poses additional challenges when modelling a ac{NRL} solution. Despite the need of having a scalable solution to handle real-world graph with considerable dimensions, it is necessary to take into consideration several characteristics: transactions graphs are inherently dynamic since every day new transactions are executed and nodes can be heterogeneous. Besides, everything is further complicated by the need to have updated information in (near) real-time due to the sensitivity of the application domain. For these reasons, GraphSAGE has been considered as a base for the experiments, which is an inductive ac{ConvGNN} model. Two variants of GraphSAGE are presented: a dynamic variant whose weights evolve accordingly with the input sequence of graph snapshots, and a variant specifically meant to handle bipartite graphs. These variants have been evaluated by applying them to real-world data and leveraging the generated embeddings to perform Anomaly Detection. The experiments demonstrate that leveraging these variants leads to comparable results with other state-of-the-art approaches, but having the advantage of being suitable to handle real-world financial data sets.

Il presente lavoro consiste in uno studio condotto al fine di poter adattare le tecniche di Network Representation Learning (NRL) alla applicazioni nel Settore Finanziario. Gli approcci NRL si contraddistinguono per la loro capacità di trasformare strutture a grafi in spazi vettoriali di dimensioni limitate, che li rendono utilizzabili da applicazioni di Machine Learning. Queste rappresentazioni compatte - graph embedding - consentono l'estrazione di proprietà - feature - in automatico e si rivelano potenzialmente molto interessanti in ambito finanziario. Di fatti le transazioni finanziarie, modellate mediante una rete, anche se codificate in una rappresentazione compatta, conservano la loro connetività intrinseca. Queste rappresentazioni compatte si possono utilizzare per applicazioni di vario tipo, come per esempio il rilevamento di anomalie per facilitare la lotta al crimine finanziario. In particolare viene presentata un'analisi qualitativa circa lo stato dell'arte dei modelli di NRL; l'analisi ha identificato le Graph Convolutional Network (ConvGNN) come la categoria di modelli più adatta al Settore Finanziario nonostante sia opportuno apportare delle migliorie come descritto qui di seguito. L'ambito finanziario pone ulteriori sfide nella modellazione di approcci NRL; infatti, oltre al bisogno di avere una soluzione scalabile in grado di processare grafi realistici dalle considerevoli dimensioni, è necessario tener conto del fatto che i grafi sono inerentemente dinamici e che i nodi di tali grafi possono essere eterogenei. Il tutto è complicato dall'esigenza di avere informazioni aggiornata in quasi real-time data la criticità del dominio applicativo. Per queste ragioni si è preso GraphSAGE, che è un modello ConvGNN induttivo, come punto di partenza della ricerca. Si sono prese in considerazione due varianti di GraphSAGE: una variante dinamica in cui i pesi evolvono in accordo con le sequenze di input prese in determinati istanti ed una variante specificatamente progettata per gestire i grafi bipartiti. Queste varianti sono state confrontate applicandole a dati reali e verificandone la validità in termine di rilevamento delle anomalie; in più entrambe le varianti sono state confrontate con altri approcci innovativi ed hanno prodotto risultati comparabili, col vantaggio di essere più flessibili e scalabili, e per tanto più facilmente applicabili a data sets reali.

Real-time anomaly detection on financial data

MARTIGNANO, ANNA
2019/2020

Abstract

This work presents an investigation of tailoring ac{NRL} for an application in the Financial Industry. ac{NRL} approaches are data-driven models that learn how to encode graph structures into low-dimensional vector spaces, which can be further exploited by downstream Machine Learning applications. They can potentially bring a lot of benefits in the Financial Industry since they extract in an automatic way features that can provide useful input regarding graph structures, called embeddings. Financial transactions can be represented as a network, and through ac{NRL}, it is possible to extract embeddings that reflect the intrinsic inter-connected nature of economic relationships. Such embeddings can be used for several purposes, among which Anomaly Detection to fight financial crime. This work provides a qualitative analysis over state-of-the-art ac{NRL} models, which identifies ac{ConvGNN} as the most suitable category of approaches for Financial Industry but with a certain need for further improvement. Financial Industry poses additional challenges when modelling a ac{NRL} solution. Despite the need of having a scalable solution to handle real-world graph with considerable dimensions, it is necessary to take into consideration several characteristics: transactions graphs are inherently dynamic since every day new transactions are executed and nodes can be heterogeneous. Besides, everything is further complicated by the need to have updated information in (near) real-time due to the sensitivity of the application domain. For these reasons, GraphSAGE has been considered as a base for the experiments, which is an inductive ac{ConvGNN} model. Two variants of GraphSAGE are presented: a dynamic variant whose weights evolve accordingly with the input sequence of graph snapshots, and a variant specifically meant to handle bipartite graphs. These variants have been evaluated by applying them to real-world data and leveraging the generated embeddings to perform Anomaly Detection. The experiments demonstrate that leveraging these variants leads to comparable results with other state-of-the-art approaches, but having the advantage of being suitable to handle real-world financial data sets.
CARBONE, PARIS
MAMAGHANI, MEHRDAD
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
Il presente lavoro consiste in uno studio condotto al fine di poter adattare le tecniche di Network Representation Learning (NRL) alla applicazioni nel Settore Finanziario. Gli approcci NRL si contraddistinguono per la loro capacità di trasformare strutture a grafi in spazi vettoriali di dimensioni limitate, che li rendono utilizzabili da applicazioni di Machine Learning. Queste rappresentazioni compatte - graph embedding - consentono l'estrazione di proprietà - feature - in automatico e si rivelano potenzialmente molto interessanti in ambito finanziario. Di fatti le transazioni finanziarie, modellate mediante una rete, anche se codificate in una rappresentazione compatta, conservano la loro connetività intrinseca. Queste rappresentazioni compatte si possono utilizzare per applicazioni di vario tipo, come per esempio il rilevamento di anomalie per facilitare la lotta al crimine finanziario. In particolare viene presentata un'analisi qualitativa circa lo stato dell'arte dei modelli di NRL; l'analisi ha identificato le Graph Convolutional Network (ConvGNN) come la categoria di modelli più adatta al Settore Finanziario nonostante sia opportuno apportare delle migliorie come descritto qui di seguito. L'ambito finanziario pone ulteriori sfide nella modellazione di approcci NRL; infatti, oltre al bisogno di avere una soluzione scalabile in grado di processare grafi realistici dalle considerevoli dimensioni, è necessario tener conto del fatto che i grafi sono inerentemente dinamici e che i nodi di tali grafi possono essere eterogenei. Il tutto è complicato dall'esigenza di avere informazioni aggiornata in quasi real-time data la criticità del dominio applicativo. Per queste ragioni si è preso GraphSAGE, che è un modello ConvGNN induttivo, come punto di partenza della ricerca. Si sono prese in considerazione due varianti di GraphSAGE: una variante dinamica in cui i pesi evolvono in accordo con le sequenze di input prese in determinati istanti ed una variante specificatamente progettata per gestire i grafi bipartiti. Queste varianti sono state confrontate applicandole a dati reali e verificandone la validità in termine di rilevamento delle anomalie; in più entrambe le varianti sono state confrontate con altri approcci innovativi ed hanno prodotto risultati comparabili, col vantaggio di essere più flessibili e scalabili, e per tanto più facilmente applicabili a data sets reali.
File allegati
File Dimensione Formato  
Real-Time_Anomaly_Detection_on_Financial_Data__Martignano_Anna.pdf

accessibile in internet per tutti

Dimensione 1.73 MB
Formato Adobe PDF
1.73 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166433