The exponential growth of digital marketplaces attracts an ever increasing number of fraudsters. While companies try to enhance security measures, criminals adapt their techniques to bypass all possible controls. In this context, fraud detection techniques based on user behavioural analysis represent an opportunity to improve customers’ protection. However, the lack of both labelled data and fraud detection literature applied to digital marketplaces impede a straightforward implementation of machine learning methodologies. In this thesis work, we propose a solution to the presented challenges. Thanks to the collaboration with a Fortune 100 company, we get the opportunity to work with a real dataset, counting more than 7 million logins and 300 thousand transactions spanning over two years. Firstly, we perform an in-depth study of data and users’ behaviour in order to deal with the missing literature. As a result, we identify types of attacks specific to digital marketplaces. Secondly, we develop FraudKiller, an active learning system able not only to guide the analyst through the identification of undiscovered attacks, but also to exploit human feedbacks by quickly learning the characteristics of identified frauds. The unsupervised module, an ensemble of autoencoders, recognizes transactions deviating from normal behaviour, assigning them high risk scores. Subsequently, the analyst is presented with the k most anomalous transactions on a daily basis. By confirming or negating the presence of frauds, the analyst generates feedbacks. We exploit the latter to collect a set of labels and train a supervised module: a combination of random forest and sampling techniques able to deal with extreme class unbalance and concept-drift. In a series of tests, we show the unsupervised module’s ability to outperform state-of-the-art techniques on public datasets, with 3 to 5 percent gains in AUC-ROC. Using real data, we demonstrate how our solution, compared to a set of baseline algorithms, halves the number of false positive cases required to identify all of the attacks. On top of the pure unsupervised module, Fraudkiller further demonstrates a 4-fold reduction of false positives, while still discovering all of the attacks. By using FraudKiller, we measure potential savings for the company in more than 300 thousand dollars over the two years period in analysis. Assuming that a large number of digital marketplaces present characteristics similar to the analysed dataset, we propose the developed system as a strong candidate for integration into a large number of e-commerce platforms.

I mercati digitali hanno registrato una rapida crescita nell'ultimo decennio. Con un incremento annuale delle vendite pari al 15% tra il 2007 e il 2016 (Dipartimento del Commercio degli Stati Uniti), il settore e-commerce sembra non conoscere crisi. Al contrario, un'ulteriore crescita del 12% è prevista nel 2017. Di pari passo, si moltiplicano i sistemi male intenzionati provano a raggirare clienti e imprese. In un continuo braccio di ferro, le compagnie migliorano le proprie difese informatiche, mentre i truffatori affinano le proprie tecniche per eludere ogni controllo. Seppure gli sforzi delle imprese sembrano ripagare, si stima che 48.2 miliardi di dollari verranno persi quest'anno nel solo mercato statunitense. In questa tesi lavoriamo con una azienda Fortune 100, che fornisce l’accesso a dati reali, contenenti 7 milioni di accessi e oltre 300 mila transazioni, raccolti nell’arco di due anni. Tale opportunità, piuttosto rara, ci permette di sviluppare una soluzione specifica per la sicurezza dei mercati digitali. In particolare, è possibile distinguere due fasi distinte del nostro lavoro. In primo luogo, svolgiamo uno studio approfondito del comportamento degli utenti, con l’obiettivo di riconoscerne il comportamento normale e di verificare la presenza di individui fraudolenti. Grazie a questa analisi, selezioniamo un insieme di caratteristiche adeguate a rappresentare le transazioni , identifichiamo tipi attacchi specifici dei mercati digitali e costruiamo una base di verità per la successiva valutazione delle prestazioni. In secondo luogo, sviluppiamo FraudKiller, un sistema di apprendimento attivo progettato per la sicurezza di piattaforme e-commerce. Nello specifico, combiniamo il meglio dell’apprendimento supervisionato e non, ottenendo così un sistema capace di migliorarsi nel tempo. Per misurare l'efficacia del nostro sistema, effettuiamo una prima comparazione tra il nostro modulo non supervisionato e altri metodi di ultima generazione su nove basi di dati pubbliche. Siamo in grado di dimostrare la superiorità del nostro metodo in sei dei nove scenari, con guadagni in AUC-ROC tra 3% e 5%. Tramite validazione su dati reali, mostriamo come il nostro modello non supervisionato porti forti miglioramenti rispetto agli scenari definiti. In particolare, siamo in grado di dimezzare contemporaneamente il numero di falsi allarmi e il tempo richiesto all'analista per identificare tutte le frodi. Infine, lanciamo il sistema completo di entrambi i moduli. Verifichiamo così che FraudKiller migliora ulteriormente le prestazioni, dividendo per un fattore 3X il numero di transazioni da analizzare su base giornaliera. Stimiamo che, se FraudKiller fosse stato utilizzato nell’arco dei due anni qui analizzati, l’azienda avrebbe risparmiato una cifra superiore ai 300 mila dollari. Ci aspettiamo che un numero importante di mercati digitali presenti caratteristiche simili a quelle della base di dati qui analizzata. Partendo da tale assunzione, proponiamo FraudKiller come promettente sistema di sicurezza con possibili applicazioni ad un notevole numero di piattaforme e-commerce.

FraudKiller. An online fraud detection system for digital marketplaces

BELHAJ, MAROUAN
2016/2017

Abstract

The exponential growth of digital marketplaces attracts an ever increasing number of fraudsters. While companies try to enhance security measures, criminals adapt their techniques to bypass all possible controls. In this context, fraud detection techniques based on user behavioural analysis represent an opportunity to improve customers’ protection. However, the lack of both labelled data and fraud detection literature applied to digital marketplaces impede a straightforward implementation of machine learning methodologies. In this thesis work, we propose a solution to the presented challenges. Thanks to the collaboration with a Fortune 100 company, we get the opportunity to work with a real dataset, counting more than 7 million logins and 300 thousand transactions spanning over two years. Firstly, we perform an in-depth study of data and users’ behaviour in order to deal with the missing literature. As a result, we identify types of attacks specific to digital marketplaces. Secondly, we develop FraudKiller, an active learning system able not only to guide the analyst through the identification of undiscovered attacks, but also to exploit human feedbacks by quickly learning the characteristics of identified frauds. The unsupervised module, an ensemble of autoencoders, recognizes transactions deviating from normal behaviour, assigning them high risk scores. Subsequently, the analyst is presented with the k most anomalous transactions on a daily basis. By confirming or negating the presence of frauds, the analyst generates feedbacks. We exploit the latter to collect a set of labels and train a supervised module: a combination of random forest and sampling techniques able to deal with extreme class unbalance and concept-drift. In a series of tests, we show the unsupervised module’s ability to outperform state-of-the-art techniques on public datasets, with 3 to 5 percent gains in AUC-ROC. Using real data, we demonstrate how our solution, compared to a set of baseline algorithms, halves the number of false positive cases required to identify all of the attacks. On top of the pure unsupervised module, Fraudkiller further demonstrates a 4-fold reduction of false positives, while still discovering all of the attacks. By using FraudKiller, we measure potential savings for the company in more than 300 thousand dollars over the two years period in analysis. Assuming that a large number of digital marketplaces present characteristics similar to the analysed dataset, we propose the developed system as a strong candidate for integration into a large number of e-commerce platforms.
CARMINATI, MICHELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-lug-2017
2016/2017
I mercati digitali hanno registrato una rapida crescita nell'ultimo decennio. Con un incremento annuale delle vendite pari al 15% tra il 2007 e il 2016 (Dipartimento del Commercio degli Stati Uniti), il settore e-commerce sembra non conoscere crisi. Al contrario, un'ulteriore crescita del 12% è prevista nel 2017. Di pari passo, si moltiplicano i sistemi male intenzionati provano a raggirare clienti e imprese. In un continuo braccio di ferro, le compagnie migliorano le proprie difese informatiche, mentre i truffatori affinano le proprie tecniche per eludere ogni controllo. Seppure gli sforzi delle imprese sembrano ripagare, si stima che 48.2 miliardi di dollari verranno persi quest'anno nel solo mercato statunitense. In questa tesi lavoriamo con una azienda Fortune 100, che fornisce l’accesso a dati reali, contenenti 7 milioni di accessi e oltre 300 mila transazioni, raccolti nell’arco di due anni. Tale opportunità, piuttosto rara, ci permette di sviluppare una soluzione specifica per la sicurezza dei mercati digitali. In particolare, è possibile distinguere due fasi distinte del nostro lavoro. In primo luogo, svolgiamo uno studio approfondito del comportamento degli utenti, con l’obiettivo di riconoscerne il comportamento normale e di verificare la presenza di individui fraudolenti. Grazie a questa analisi, selezioniamo un insieme di caratteristiche adeguate a rappresentare le transazioni , identifichiamo tipi attacchi specifici dei mercati digitali e costruiamo una base di verità per la successiva valutazione delle prestazioni. In secondo luogo, sviluppiamo FraudKiller, un sistema di apprendimento attivo progettato per la sicurezza di piattaforme e-commerce. Nello specifico, combiniamo il meglio dell’apprendimento supervisionato e non, ottenendo così un sistema capace di migliorarsi nel tempo. Per misurare l'efficacia del nostro sistema, effettuiamo una prima comparazione tra il nostro modulo non supervisionato e altri metodi di ultima generazione su nove basi di dati pubbliche. Siamo in grado di dimostrare la superiorità del nostro metodo in sei dei nove scenari, con guadagni in AUC-ROC tra 3% e 5%. Tramite validazione su dati reali, mostriamo come il nostro modello non supervisionato porti forti miglioramenti rispetto agli scenari definiti. In particolare, siamo in grado di dimezzare contemporaneamente il numero di falsi allarmi e il tempo richiesto all'analista per identificare tutte le frodi. Infine, lanciamo il sistema completo di entrambi i moduli. Verifichiamo così che FraudKiller migliora ulteriormente le prestazioni, dividendo per un fattore 3X il numero di transazioni da analizzare su base giornaliera. Stimiamo che, se FraudKiller fosse stato utilizzato nell’arco dei due anni qui analizzati, l’azienda avrebbe risparmiato una cifra superiore ai 300 mila dollari. Ci aspettiamo che un numero importante di mercati digitali presenti caratteristiche simili a quelle della base di dati qui analizzata. Partendo da tale assunzione, proponiamo FraudKiller come promettente sistema di sicurezza con possibili applicazioni ad un notevole numero di piattaforme e-commerce.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
ClassicThesis_DEIB.pdf

non accessibile

Descrizione: Thesis text
Dimensione 2.63 MB
Formato Adobe PDF
2.63 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/135601