Reconstruction-based anomaly detection on financial market data

Financial market data constitutes essential information for any financial institution. Anomalies in this data, arising from technical or human errors, critically impact the calibration of models used for quantifying and managing financial risk. These irregularities can lead to inaccuracies in risk measurement. This thesis investigates the application of the Principal Component Neural Network (PCA-NN) algorithm in anomaly detection within financial market data. The research focuses on two types of financial data: synthetic stock price time series and Euribor zero rate term structures. The PCA-NN algorithm is a reconstruction-based machine learning technique that merges principal component analysis for feature extraction and a feed-forward neural network for calculating anomaly scores. This method determines the threshold for anomalies dynamically, using a customized loss function, thus reducing biases from manual settings. The thesis offers a comprehensive exploration of the PCA-NN algorithm's effectiveness in detecting point-based anomalies, both in the synthetic stock data and in the novel context of Euribor zero rate yield curves. Concerning the yield curve term structures, a methodology for injecting synthetic anomalies is presented. The performance of the algorithm is benchmarked against baseline anomaly detection models, assessing its adaptability in this new environment, this is possible by the use of artificially induced anomalies to generate labeled datasets. Moreover, this work introduces a novel variant of the model, exploiting an autoencoder as a non-linear feature extractor, trained in a semi-supervised manner, to enhance the computation of reconstruction errors. These anomaly detection algorithms are assessed for their efficacy in detecting anomalies with common evaluation metrics used in this context, and the results show robust performance in identifying anomalies in the market data analyzed. The results prove the proficiency of the PCANN model in detecting point-based anomalies not only in synthetic stock data but also in real-world Euribor zero rate term structures, highlighting its potential as a versatile tool for anomaly detection in financial markets.

I dati dei mercati finanziari sono di fondamentale importanza per qualunque istituzione finanziaria. Anomalie in questi dati, derivanti da errori tecnici o umani, impattano in modo critico la calibrazione dei modelli utilizzati per quantificare e gestire il rischio finanziario. Queste irregolarità possono portare a misurazione incorrette del rischio. Questa tesi studia l'applicazione dell'algoritmo Principal Component Neural Network (PCA-NN) nel rilevamento delle anomalie all'interno di dati provenienti dai mercati finanziari. La ricerca si concentra su due tipi di dati: serie storiche di prezzi azionari sintetici e strutture a termine del tasso Euribor. L'algoritmo PCA-NN è una tecnica di machine learning basata sulla ricostruzione dell'input, che combina l'analisi delle componenti principali per l'estrazione di errori di riconstruzione e una rete neurale feed-forward per il calcolo di anomaly scores. Questo metodo determina la soglia per le anomalie in modo dinamico, utilizzando una loss function personalizzata, riducendo così potenziali bias derivanti dalle impostazioni manuali tipiche degli algoritmi in questo contesto. La tesi offre un'analisi completa dell'efficacia dell'algoritmo PCA-NN nel rilevare anomalie puntuali, sia nei dati azionari sintetici sia nel nuovo contesto delle curve del tasso Euribor. Le prestazioni dell'algoritmo sono confrontate con i modelli standard utilizzati nel rilevamento delle anomalie, valutandone l'adattabilità in questo nuovo ambiente, ciò è possibile attraverso l'uso di anomalie artificialmente indotte per generare set di dati 'etichettati'. Inoltre, questo lavoro introduce una nuova variante del modello, utilizzando un autoencoder come estrattore di feature calibrato in modo semi-supervisionato, per migliorare il calcolo degli errori di ricostruzione utilizzati nel processo di classificazione delle anomalie. Questi algoritmi di rilevamento delle anomalie sono valutati per la loro efficacia nel rilevare anomalie con metriche di valutazione comuni utilizzate in questo contesto, e i risultati mostrano prestazioni robuste nell'identificazione delle anomalie nei dati analizzati. I risultati dimostrano la capacità del modello PCA-NN nel rilevare anomalie puntuali non solo nei dati azionari sintetici ma anche nelle strutture a termine del tasso Euribor, evidenziando il suo potenziale come strumento versatile per il rilevamento delle anomalie nei mercati finanziari.