In the era of Big data companies have started to collect continuous monitoring data from various sources including hardware and software-based sensors, in order to timely detect systems failures, train models which can predict future loads and failures or even monitoring for suspicious behaviour over networks and transactions. At the same time systems have increased in complexity, making possible to correlate different sensor measurements inside the same system, this poses new challenges to develop algorithms and techniques to fully exploit the potential of time series data. Recently particular attention is dedicated to anomaly detection. Identify anomalous behaviours serve for two different scopes, on one side to increase data quality by removing strange or outlying behaviour to build more robust models and on the other side to spot anomalous activity, both on real-time and historical data, to timely react to errors and failures. In recent years with the rise of deep learning technologies as recurrent neural networks, long-short term memory (LSTM) and gate-recurrent unit (GRU) a lot of algorithms have been proposed. In this context even statistical approaches have seen an increase in popularity with functional data analysis as its core research topic. The scope of our work is to explore the functional data analysis literature on anomaly detection, and develop a complete automatic pipeline which is able to generate a functional dataset from a time series and perform anomaly detection combining dimension reduction techniques, such as functional principal components analysis ( which comes with a very solid mathematical and statistical background) with state of the art machine learning algorithms. In particular we employ HDBSCAN with GLOSH, a clutering algorithm which is very suited for our particular problem since it is able to distinguish among multiple behaviours and identify both local and global outliers. The methodology proposed is able to reach state of the art performances in standard synthetic benchmark datasets and good performance on real datasets, where the whole pipeline ( functional data generation and anomaly detection ) is applied.

Nell'era dei Big Data le aziende hanno iniziato a raccogliere dati di monitoraggio continuo da varie fonti, al fine di rilevare tempestivamente guasti ai sistemi, sviluppare modelli in grado di prevedere carichi e guasti futuri o persino monitorare comportamenti sospetti sulle reti o sulle transazioni. Allo stesso tempo i sistemi hanno una complessit'a sempre maggiore che rende possibile correlare diverse misurazioni dei sensori all'interno dello stesso sistema, ci`o pone nuove sfide per sviluppare algoritmi e tecniche per sfruttare appieno il potenziale dei dati temporali. Di recente un'attenzione particolare `e dedicata al rilevamento delle anomalie. Identificare comportamenti anomali `e necessario per due diversi obiettivi, da una parte per aumentare la qualit`a dei dati rimuovendo comportamenti anomali e costruendo cos`i modelli pi`u robusti, dall'altra per individuare attivit`a anomale, sia su dati in tempo reale che storici, per reagire tempestivamente a errori e guasti. Negli ultimi anni con l'ascesa di tecnologie di deep learning sono state sviluppate molte architetture come "Recurrent Neural Networks","Long-short term memory" (LSTM) e "Gate Recurrent unit" (GRU) specificatamente pensate per funzionare con dati temporali. In questo contesto, anche approcci statistici come l'analisi dei dati funzionali sono argomento di ricerca. Lo scopo del nostro lavoro `e quello di esplorare la letteratura di analisi dei dati funzionali sul rilevamento delle anomalie e sviluppare una pipeline automatica completa in grado di generare dati funzionali partendo da una serie temporale ed eseguire rilevamento di anomalie in un contesto non supervisionato, combinando tecniche di riduzione delle dimensioni, come acrfull{fpca} con algoritmi di machine learning. In particolare abbiamo adottato HDBSCAN con GLOSH, un algoritmo di clustering che risulta molto adatto per il nostro problema in quanto `e in grado di differenziare comportamenti multipli e identificare anomalie sia locali che globali. La metodologia proposta `e in grado di raggiungere prestazioni allo stato dell'arte su dati sintetici usati comunemente in letteratura e buone prestazioni dati reali, in cui viene applicata l'intera pipeline.

A functional approach to time series anomaly detection

FANTINI, DAVIDE
2018/2019

Abstract

In the era of Big data companies have started to collect continuous monitoring data from various sources including hardware and software-based sensors, in order to timely detect systems failures, train models which can predict future loads and failures or even monitoring for suspicious behaviour over networks and transactions. At the same time systems have increased in complexity, making possible to correlate different sensor measurements inside the same system, this poses new challenges to develop algorithms and techniques to fully exploit the potential of time series data. Recently particular attention is dedicated to anomaly detection. Identify anomalous behaviours serve for two different scopes, on one side to increase data quality by removing strange or outlying behaviour to build more robust models and on the other side to spot anomalous activity, both on real-time and historical data, to timely react to errors and failures. In recent years with the rise of deep learning technologies as recurrent neural networks, long-short term memory (LSTM) and gate-recurrent unit (GRU) a lot of algorithms have been proposed. In this context even statistical approaches have seen an increase in popularity with functional data analysis as its core research topic. The scope of our work is to explore the functional data analysis literature on anomaly detection, and develop a complete automatic pipeline which is able to generate a functional dataset from a time series and perform anomaly detection combining dimension reduction techniques, such as functional principal components analysis ( which comes with a very solid mathematical and statistical background) with state of the art machine learning algorithms. In particular we employ HDBSCAN with GLOSH, a clutering algorithm which is very suited for our particular problem since it is able to distinguish among multiple behaviours and identify both local and global outliers. The methodology proposed is able to reach state of the art performances in standard synthetic benchmark datasets and good performance on real datasets, where the whole pipeline ( functional data generation and anomaly detection ) is applied.
LUI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Nell'era dei Big Data le aziende hanno iniziato a raccogliere dati di monitoraggio continuo da varie fonti, al fine di rilevare tempestivamente guasti ai sistemi, sviluppare modelli in grado di prevedere carichi e guasti futuri o persino monitorare comportamenti sospetti sulle reti o sulle transazioni. Allo stesso tempo i sistemi hanno una complessit'a sempre maggiore che rende possibile correlare diverse misurazioni dei sensori all'interno dello stesso sistema, ci`o pone nuove sfide per sviluppare algoritmi e tecniche per sfruttare appieno il potenziale dei dati temporali. Di recente un'attenzione particolare `e dedicata al rilevamento delle anomalie. Identificare comportamenti anomali `e necessario per due diversi obiettivi, da una parte per aumentare la qualit`a dei dati rimuovendo comportamenti anomali e costruendo cos`i modelli pi`u robusti, dall'altra per individuare attivit`a anomale, sia su dati in tempo reale che storici, per reagire tempestivamente a errori e guasti. Negli ultimi anni con l'ascesa di tecnologie di deep learning sono state sviluppate molte architetture come "Recurrent Neural Networks","Long-short term memory" (LSTM) e "Gate Recurrent unit" (GRU) specificatamente pensate per funzionare con dati temporali. In questo contesto, anche approcci statistici come l'analisi dei dati funzionali sono argomento di ricerca. Lo scopo del nostro lavoro `e quello di esplorare la letteratura di analisi dei dati funzionali sul rilevamento delle anomalie e sviluppare una pipeline automatica completa in grado di generare dati funzionali partendo da una serie temporale ed eseguire rilevamento di anomalie in un contesto non supervisionato, combinando tecniche di riduzione delle dimensioni, come acrfull{fpca} con algoritmi di machine learning. In particolare abbiamo adottato HDBSCAN con GLOSH, un algoritmo di clustering che risulta molto adatto per il nostro problema in quanto `e in grado di differenziare comportamenti multipli e identificare anomalie sia locali che globali. La metodologia proposta `e in grado di raggiungere prestazioni allo stato dell'arte su dati sintetici usati comunemente in letteratura e buone prestazioni dati reali, in cui viene applicata l'intera pipeline.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_finale.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 7.91 MB
Formato Adobe PDF
7.91 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164974