Anomalearn : a modular and extensible library for the development of time series anomaly detection models

Anomaly detection is the problem of identifying abnormally and potentially dangerous or faulty behaviour. It is applied in various domains and on several data types: tabular, images, or temporal. Many current state-of-the-art anomaly detection algorithms for time series share preprocessing or postprocessing operations. Furthermore, several datasets are employed for evaluating and comparing the performance of models. Such benchmark datasets exhibit a variable degree of complexity, which may affect the evaluation of the power of the methods compared in distinct experiments. Some publicly available datasets are overly simple and their use may overestimate the power of the models tested on them. However, there is no automatic and unambiguous definition of simplicity for these datasets. The first contribution of this thesis assesses the problem of simplicity in datasets of time series anomaly detection through a formal approach. It reports a definition of simplicity for anomaly detection datasets and the definition of scores representing three different types of simplicity. It also proposes algorithms to compute these scores on datasets and the analysis of their time complexity. Secondly, although libraries have been presented for many tasks, there is still a lack of an extensible and modular library specifically developed for creating new techniques related to anomaly detection. This thesis proposes anomalearn, a library for developing new models and approaches for time series anomaly detection. It consists of a rigorous object-oriented design using UML as the first tool to describe its functioning. Furthermore, anomalearn uses an approach based on interfaces to share API design employing the Python programming language, the current standard for machine and deep learning solutions. The thesis source code can be downloaded and explored at: https://github.com/marcopetri98/2021-2022-thesis.

Il rilevamento delle anomalie è il problema riguardante l'identificazione di comportamenti abonormi che possono rappresentare un danno o un guasto. La sua applicazione avviene in svariati domini di applicazione e mediante diversi tipi di dato: tabulari, temporali o di immagini. Molti degli algoritmi stato dell'arte di rilevamento delle anomalie per serie temporali hanno in comune le fasi di pre-processamento e post-processamento. Inoltre, diversi insiemi di dati vengono utilizzati da numerosi approcci per valutare e confrontare le prestazioni dei modelli. Infine, alcuni insiemi di dati pubblici sono semplici e non c'è una definizione evidente e automatica di semplicità per questi insiemi. La prima contribuzione di questa tesi è valutare il problema della semplicità in questi insiemi per il rilevamento delle anomalie nelle serie temporali mediante un approccio formale. Essa riporta una definizione formale di semplicità per insiemi di dati per il rilevamento delle anomalie e la definizione di punteggi rappresentanti tre diversi tipi di semplicità. Inoltre, essa propone algoritmi per calcolare i suddetti punteggi su insiemi di dati e l'analisi della loro complessità temporale. Secondariamente, anche se delle librerie sono state presentate per svolgere svariati problemi, c'è ancora una carenza sostanziale di una libreria estendibile e modulare specificamente sviluppata per la creazione di nuove tecniche di rilevamento delle anomalie. Questa tesi propone anomalearn, una libreria per lo sviluppo di nuovi modelli e approcci per il rilevamento di anomalie nelle serie temporali. Essa consiste in un progetto rigoroso orientato agli oggetti utilizzante UML come primo strumento di descrizione delle sue funzionalità. In aggiunta, anomalearn utilizza un approccio basato su interfacce per condividere il disegno delle API e il linguaggio di programmazione Python, lo standard de facto per soluzioni di apprendimento automatico e profondo. Il codice sorgente della tesi può essere scaricato ed esplorato all'indirizzo: https://github.com/marcopetri98/2021-2022-thesis.