Federated learning for fraud detection: an evaluation of its practicality and security implications

Banking fraud poses significant risks to customers and financial institutions, emphasizing the need for advanced Fraud Detection Systems to safeguard assets and maintain trust in the financial sector. While online banking has revolutionized financial services by providing seamless account management and transaction capabilities, it has also exposed institutions to sophisticated cyber threats, making fraud detection a critical challenge. Traditional rule-based methods struggle to adapt to the evolving nature of fraudulent activities, necessitating more advanced approaches powered by machine learning (ML) and artificial intelligence (AI). Federated learning (FL), a privacy-preserving ML paradigm introduced by Google in 2016, represents a breakthrough in this field. Unlike centralized approaches, FL enables multiple institutions to train a global model while keeping sensitive data decentralized collaboratively. This thesis explores the application of FL in fraud detection by developing a federated fraud detection system using the Flower framework, an open-source platform to simulate federated learning algorithms. Using a real-world dataset from an Italian banking group, we evaluate the performance of three ML models, namely XGBoost, logistic regression and neural network, under different aggregation strategies. In addition to testing FL’s effectiveness in both IID (independent and identically distributed) and non-IID scenarios, we compare the performance of the federated approach with a traditional centralized system. Our study analyzes the impact of varying the number of clients and local training epochs on federated system performance, communication overhead and stability. In addition, we simulate adversarial attacks, such as label flipping and model poisoning, to assess the resilience of the federated system. Experimental results indicate that the federated approach performs slightly better than the centralized system, demonstrating its potential as a viable alternative to fraud detection while preserving data privacy. However, adversarial attacks expose vulnerabilities in the FL paradigm, emphasizing the importance of implementing robust defense mechanisms.

Le frodi bancarie rappresentano un rischio significativo sia per i clienti che per le istituzioni finanziarie, evidenziando la necessità di sistemi avanzati di rilevamento delle frodi per proteggere gli asset e mantenere la fiducia nel settore finanziario. Sebbene il banking online abbia rivoluzionato i servizi finanziari, consentendo una gestione più comoda dei conti e delle transazioni, ha anche esposto le istituzioni a minacce informatiche sempre più sofisticate, rendendo il rilevamento delle frodi una sfida cruciale. I metodi tradizionali basati su regole faticano ad adattarsi alla continua evoluzione delle attività fraudolente, rendendo necessario l’impiego di approcci più avanzati basati su machine learning (ML) e intelligenza artificiale (AI). Il federated learning (FL), un paradigma di ML introdotto da Google nel 2016 che preserva la privacy, rappresenta un’importante innovazione in questo campo. A differenza degli approcci centralizzati, FL consente a più istituzioni di addestrare congiuntamente un modello globale mantenendo i dati sensibili decentralizzati. Questa tesi esplora l’applicazione del FL nel rilevamento delle frodi attraverso lo sviluppo di un sistema di fraud detection federato utilizzando il framework Flower, una piattaforma open-source per la simulazione di algoritmi di federated learning. Utilizzando un dataset reale fornito da un gruppo bancario italiano, valutiamo le prestazioni di tre modelli di ML chiamati XGBoost, regressione logistica e rete neurale sotto diverse strategie di aggregazione. Oltre a testare l’efficacia del FL in scenari IID (indipendenti e identicamente distribuiti) e non-IID, abbiamo confrontato le prestazioni dell’approccio federato con quelle di un sistema centralizzato tradizionale. Il nostro studio analizza l’impatto della variazione del numero di client e delle epoche di addestramento locale sulle prestazioni del sistema federato, sul costo comunicativo e sulla stabilità del sistema. Inoltre, simuliamo attacchi avversariali, come il label flipping e il model poisoning, per valutare la resilienza del sistema federato. I risultati sperimentali indicano che l’approccio federato ottiene prestazioni leggermente superiori rispetto al sistema centralizzato, dimostrando il suo potenziale come alternativa valida per il rilevamento delle frodi, preservando al contempo la privacy dei dati. Tuttavia, gli attacchi mettono in evidenza vulnerabilità del paradigma federato, sottolineando l’importanza di implementare meccanismi di difesa robusti.