Data mining, nowadays, is becoming increasingly important because of the amount of data produced every day. Data mining is the process of extract information from (large) datasets, with the aim of discover patterns and/or transform the information into a comprehensible structure for further use. It has many applications, a particularly interesting one is Anomaly Detection: it consists on finding unusual patterns or rare observations in a set of data. Usually anomalies represent negative events, in fact anomaly detection is used in many different fields, from medicine to industry. The problem can be solved by using different classes of techniques, we faced the problem by taking as starting point a milestone Anomaly Detection algorithm: Isolation Forest. With the introduction of a new embedding space, created starting from Isolation Forest, we have the aim of represent the data in a different way and find an algorithm with performance better than the starting point. The proposed embedding replaces the last Isolation Forest operations, with the aim of execute more complex ones that can capture new data features. Our empirical evaluation shows that our approach, performs just as well, and sometimes better, than Isolation Forest on the same data. But the most important result is the creation of a new framework to enable other techniques to be used to improve the anomaly detection performance.

Data mining (in italiano "estrazione di dati"), oggigiorno, sta diventando sempre più importante a causa della quantità di dati prodotti giornalmente. Il processo di Data mining consiste nell'estrazione di informazioni da grandi quantità di dati. L'obiettivo è quello di trovare pattern nei dati e trasformare le informazioni contenute in modo da dargli una struttura che possa essere comprensibile anche in utilizzi successivi. Data mining ha applicazioni in molti ambiti, una molto interessante è l'anomaly detection (in italiano "identificazione delle anomalie): consiste nel, dato un insieme di dati, trovare pattern inusuali o singole osservazioni che siano fuori dall'andamento generale. Solitamente le anomalie rappresentano eventi negativi ed infatti le tecniche di anomaly detection vengono utilizzate in molti ambiti (dalla medicina all'industria). Per risolvere il problema dell'anomaly detection possono essere utilizzati diversi tipi di tecniche, la nostra ricerca ha come punto di partenza una pietra miliare dell'anomaly detection: Isolation Forest. Con l'introduzione di un nuovo spazio di embedding, creato partendo da Isolation Forest, l'obiettivo è quello di rappresentare i dati in una maniera differente e trovare un algoritmo che abbia risultati migliori rispetto al punto di partenza. La nuova rappresentazione mediante l'embedding, sostituisce le ultime operazioni di Isolation Forest, con l'obiettivo di eseguirne di più complesse, capaci di catturare nuove caratteristiche dei dati. Attraverso le nostre valutazioni empiriche mostriamo che il nostro approccio si comporta altrettanto bene, e a volte meglio, rispetto ad Isolation Forest sugli stessi dati. Ma il risultato più importante è la creazione di una nuova rappresentazione dei dati su cui posso applicare altre tecniche per migliorare le prestazioni di anomaly detection.

Anomaly detection via isolation forest embedding

Salamino, Manuel
2020/2021

Abstract

Data mining, nowadays, is becoming increasingly important because of the amount of data produced every day. Data mining is the process of extract information from (large) datasets, with the aim of discover patterns and/or transform the information into a comprehensible structure for further use. It has many applications, a particularly interesting one is Anomaly Detection: it consists on finding unusual patterns or rare observations in a set of data. Usually anomalies represent negative events, in fact anomaly detection is used in many different fields, from medicine to industry. The problem can be solved by using different classes of techniques, we faced the problem by taking as starting point a milestone Anomaly Detection algorithm: Isolation Forest. With the introduction of a new embedding space, created starting from Isolation Forest, we have the aim of represent the data in a different way and find an algorithm with performance better than the starting point. The proposed embedding replaces the last Isolation Forest operations, with the aim of execute more complex ones that can capture new data features. Our empirical evaluation shows that our approach, performs just as well, and sometimes better, than Isolation Forest on the same data. But the most important result is the creation of a new framework to enable other techniques to be used to improve the anomaly detection performance.
LEVENI, FILIPPO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Data mining (in italiano "estrazione di dati"), oggigiorno, sta diventando sempre più importante a causa della quantità di dati prodotti giornalmente. Il processo di Data mining consiste nell'estrazione di informazioni da grandi quantità di dati. L'obiettivo è quello di trovare pattern nei dati e trasformare le informazioni contenute in modo da dargli una struttura che possa essere comprensibile anche in utilizzi successivi. Data mining ha applicazioni in molti ambiti, una molto interessante è l'anomaly detection (in italiano "identificazione delle anomalie): consiste nel, dato un insieme di dati, trovare pattern inusuali o singole osservazioni che siano fuori dall'andamento generale. Solitamente le anomalie rappresentano eventi negativi ed infatti le tecniche di anomaly detection vengono utilizzate in molti ambiti (dalla medicina all'industria). Per risolvere il problema dell'anomaly detection possono essere utilizzati diversi tipi di tecniche, la nostra ricerca ha come punto di partenza una pietra miliare dell'anomaly detection: Isolation Forest. Con l'introduzione di un nuovo spazio di embedding, creato partendo da Isolation Forest, l'obiettivo è quello di rappresentare i dati in una maniera differente e trovare un algoritmo che abbia risultati migliori rispetto al punto di partenza. La nuova rappresentazione mediante l'embedding, sostituisce le ultime operazioni di Isolation Forest, con l'obiettivo di eseguirne di più complesse, capaci di catturare nuove caratteristiche dei dati. Attraverso le nostre valutazioni empiriche mostriamo che il nostro approccio si comporta altrettanto bene, e a volte meglio, rispetto ad Isolation Forest sugli stessi dati. Ma il risultato più importante è la creazione di una nuova rappresentazione dei dati su cui posso applicare altre tecniche per migliorare le prestazioni di anomaly detection.
File allegati
File Dimensione Formato  
Thesis_Salamino.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.71 MB
Formato Adobe PDF
1.71 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183796