Banking frauds pose significant risks to customers and financial institutions, making the development of effective Fraud Detection Systems crucial in safeguarding assets and maintaining trust in the banking industry. The advent of Machine Learning has revolutionised this field by providing powerful tools. By leveraging a sample of labelled transactions, classification algorithms can be trained to process a massive amount of transactions in real time and effectively identify fraudulent activities. Despite the extensive research in this domain, a meaningful comparison between different studies remains challenging. This is primarily due to the absence of benchmarking software that standardises experimental procedures and ensures comparable results. In this thesis, we introduce FraudBench, a flexible framework designed to streamline the development and evaluation of Fraud Detection Systems. This open-source framework provides a guideline for creating detection systems, supporting the development process in all its phases, from data collection to performance evaluation. Through its modular architecture, FraudBench facilitates the incorporation of different algorithms, data sources, preprocessing procedures and model selection strategies, thus enabling a more systematic comparison and validation of different fraud detection techniques. We assess our methodology by examining the effectiveness of six commonly used Machine Learning algorithms in the field of fraud detection, as well as two ensemble methods. We simulate three distinct attack scenarios where the attacker injects fraudulent transactions following different policies. Our findings reveal that one of the detection systems we tested based on the Support Vector Machine outperforms the others in two out of three scenarios over the long term. Despite its simplicity, this Fraud Detection System yields an estimated overall loss of 81% lower than the mean loss value on average. Nonetheless, carefully selecting an optimised ensemble technique can achieve even better results. Specifically, the ensemble model that employs the Multiplicative Weight Update approach is particularly effective. Thanks to its dynamic online learning strategy that consistently picks the most reliable algorithm, this model leads to an estimated loss that is, on average, 83% lower than the mean loss value.

Le frodi bancarie comportano rischi significativi sia per i clienti che per le istituzioni finanziarie, rendendo lo sviluppo di efficaci sistemi di rilevamento cruciale per la salvaguardia dei beni e il mantenimento della fiducia nel settore bancario. L’avvento del Machine Learning ha rivoluzionato questo campo, fornendo strumenti molto potenti. Sfruttando un campione di transazioni etichettate, gli algoritmi di classificazione possono essere addestrati per elaborare un’enorme quantità di transazioni in tempo reale e identificare efficacemente le attività fraudolente. Nonostante l’ampia ricerca condotta in questo campo, il confronto significativo tra i diversi studi rimane difficile. Ciò è dovuto principalmente all’assenza di un software di benchmarking che standardizzi le procedure sperimentali e garantisca risultati comparabili. In questa tesi presentiamo FraudBench, un framework flessibile progettato per semplificare lo sviluppo e la valutazione dei sistemi di rilevamento delle frodi. Questo framework open-source fornisce una linea guida per la creazione di sistemi di rilevamento, supportando il processo di sviluppo in tutte le sue fasi, dalla raccolta dei dati alla valutazione delle prestazioni. Grazie alla sua architettura modulare, FraudBench facilita l’incorporazione di diversi algoritmi, fonti di dati, procedure di pre-elaborazione e strategie di selezione dei modelli, consentendo così un confronto e una convalida di diverse tecniche di rilevamento più sistematici. Valutiamo il nostro approccio esaminando l’efficacia di sei algoritmi di Machine Learning comunemente utilizzati nel campo del rilevamento delle frodi, nonché di due metodi di ensemble. Abbiamo simulato tre distinti scenari di attacco in cui l’aggressore inietta transazioni fraudolente seguendo diverse politiche. I nostri risultati rivelano che uno tra sistemi di rilevamento che abbiamo testato basato su Support Vector Machine, nel lungo termine, supera gli altri in due scenari su tre. Nonostante la sua semplicità, questo modello produce una perdita complessiva stimata che è, in media, dell’81% inferiore al valore medio delle perdite. Tuttavia, è possibile ottenere risultati ancora migliori utilizzando una tecnica di ensemble. In particolare, il modello che impiega l’approccio di ensemble denominato Multiplicative Weight Update è particolarmente efficace. Grazie alla sua strategia di apprendimento dinamico che, nel corso del tempo, seleziona l’algoritmo più affidabile, questo modello porta ad una perdita complessiva stimata che è, in media, dell’83% inferiore al valore medio delle perdite.

FraudBench: A Benchmarking Software for Fraud Detection Systems

Maniscalchi, Luca
2022/2023

Abstract

Banking frauds pose significant risks to customers and financial institutions, making the development of effective Fraud Detection Systems crucial in safeguarding assets and maintaining trust in the banking industry. The advent of Machine Learning has revolutionised this field by providing powerful tools. By leveraging a sample of labelled transactions, classification algorithms can be trained to process a massive amount of transactions in real time and effectively identify fraudulent activities. Despite the extensive research in this domain, a meaningful comparison between different studies remains challenging. This is primarily due to the absence of benchmarking software that standardises experimental procedures and ensures comparable results. In this thesis, we introduce FraudBench, a flexible framework designed to streamline the development and evaluation of Fraud Detection Systems. This open-source framework provides a guideline for creating detection systems, supporting the development process in all its phases, from data collection to performance evaluation. Through its modular architecture, FraudBench facilitates the incorporation of different algorithms, data sources, preprocessing procedures and model selection strategies, thus enabling a more systematic comparison and validation of different fraud detection techniques. We assess our methodology by examining the effectiveness of six commonly used Machine Learning algorithms in the field of fraud detection, as well as two ensemble methods. We simulate three distinct attack scenarios where the attacker injects fraudulent transactions following different policies. Our findings reveal that one of the detection systems we tested based on the Support Vector Machine outperforms the others in two out of three scenarios over the long term. Despite its simplicity, this Fraud Detection System yields an estimated overall loss of 81% lower than the mean loss value on average. Nonetheless, carefully selecting an optimised ensemble technique can achieve even better results. Specifically, the ensemble model that employs the Multiplicative Weight Update approach is particularly effective. Thanks to its dynamic online learning strategy that consistently picks the most reliable algorithm, this model leads to an estimated loss that is, on average, 83% lower than the mean loss value.
PALADINI, TOMMASO
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Le frodi bancarie comportano rischi significativi sia per i clienti che per le istituzioni finanziarie, rendendo lo sviluppo di efficaci sistemi di rilevamento cruciale per la salvaguardia dei beni e il mantenimento della fiducia nel settore bancario. L’avvento del Machine Learning ha rivoluzionato questo campo, fornendo strumenti molto potenti. Sfruttando un campione di transazioni etichettate, gli algoritmi di classificazione possono essere addestrati per elaborare un’enorme quantità di transazioni in tempo reale e identificare efficacemente le attività fraudolente. Nonostante l’ampia ricerca condotta in questo campo, il confronto significativo tra i diversi studi rimane difficile. Ciò è dovuto principalmente all’assenza di un software di benchmarking che standardizzi le procedure sperimentali e garantisca risultati comparabili. In questa tesi presentiamo FraudBench, un framework flessibile progettato per semplificare lo sviluppo e la valutazione dei sistemi di rilevamento delle frodi. Questo framework open-source fornisce una linea guida per la creazione di sistemi di rilevamento, supportando il processo di sviluppo in tutte le sue fasi, dalla raccolta dei dati alla valutazione delle prestazioni. Grazie alla sua architettura modulare, FraudBench facilita l’incorporazione di diversi algoritmi, fonti di dati, procedure di pre-elaborazione e strategie di selezione dei modelli, consentendo così un confronto e una convalida di diverse tecniche di rilevamento più sistematici. Valutiamo il nostro approccio esaminando l’efficacia di sei algoritmi di Machine Learning comunemente utilizzati nel campo del rilevamento delle frodi, nonché di due metodi di ensemble. Abbiamo simulato tre distinti scenari di attacco in cui l’aggressore inietta transazioni fraudolente seguendo diverse politiche. I nostri risultati rivelano che uno tra sistemi di rilevamento che abbiamo testato basato su Support Vector Machine, nel lungo termine, supera gli altri in due scenari su tre. Nonostante la sua semplicità, questo modello produce una perdita complessiva stimata che è, in media, dell’81% inferiore al valore medio delle perdite. Tuttavia, è possibile ottenere risultati ancora migliori utilizzando una tecnica di ensemble. In particolare, il modello che impiega l’approccio di ensemble denominato Multiplicative Weight Update è particolarmente efficace. Grazie alla sua strategia di apprendimento dinamico che, nel corso del tempo, seleziona l’algoritmo più affidabile, questo modello porta ad una perdita complessiva stimata che è, in media, dell’83% inferiore al valore medio delle perdite.
File allegati
File Dimensione Formato  
2023_10_Maniscalchi_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: testo tesi
Dimensione 4.09 MB
Formato Adobe PDF
4.09 MB Adobe PDF Visualizza/Apri
2023_10_Maniscalchi_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: testo executive summary
Dimensione 720.51 kB
Formato Adobe PDF
720.51 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210613