In today's digital era, we are witnessing an explosion in real-time streaming data generated across various domains through sensors, social media, IoT devices, and more. An emerging area that holds particular significance in streaming data analysis is anomaly detection, which involves the identification of abnormal patterns that deviate from expected behaviour. Anomaly detection in evolving data streams is a significant area with applications across diverse relevant domains such as fraud detection, network security, and industrial monitoring. Traditional machine-learning approaches are ill-equipped to handle unbounded data streams that may exhibit statistical changes over time. Therefore, a novel approach is imperative, and streaming machine learning provides a solution capable of adapting to evolving data streams, ensuring that models remain up-to-date and effective. This thesis presents a comprehensive study of streaming anomaly detection algorithms in an unsupervised learning setting. A fundamental problem addressed is the lack of standardized frameworks for impartial and fair comparison of streaming anomaly detection techniques. For this purpose, the primary contribution of this thesis is ADBench: a benchmarking environment designed to evaluate and compare the performance of state-of-the-art anomaly detection algorithms in streaming data scenarios. This benchmarking framework allows for systematically assessing these models across various dimensions, encompassing dataset selection, evaluation metric suitability for unbalanced datasets, data visualization techniques, and robust statistical testing. ADBench automates and streamlines the benchmarking process and ensures reproducibility and flexibility. The insights and findings derived from ADBench offer a solid foundation for advancing the field of streaming anomaly detection, facilitating better decision-making in various real-world applications. The results provide valuable insights into each algorithm's strengths and weaknesses under different streaming conditions. Overall, this thesis demonstrates that fair and reproducible evaluation of algorithms is achievable through careful methodology.

Nell'era digitale odierna, stiamo assistendo ad un'esplosione nella quantità di dati generati in tempo reale in vari settori attraverso sensori, social media, e dispositivi IoT. Un'area emergente che riveste particolare importanza nell'analisi dei dati in streaming è la rilevazione delle anomalie, che coinvolge l'identificazione di dati anomali che si discostano dal comportamento atteso. La ricerca di anomalie in flussi di dati in evoluzione è un'importante area con applicazioni in diversi settori rilevanti come la rilevazione delle frodi, la sicurezza delle reti e il monitoraggio industriale. Gli approcci tradizionali di Machine Learning non sono adatti per gestire flussi illimitati di dati che possono subire cambiamenti statistici nel tempo. Pertanto, è necessario un approccio innovativo e lo Streaming Machine Learning fornisce una soluzione in grado di adattarsi ai flussi di dati in evoluzione, garantendo che i modelli rimangano aggiornati ed efficaci. Questa tesi presenta uno studio completo degli algoritmi di rilevazione delle anomalie in streaming in un contesto di apprendimento non supervisionato. Un problema chiave emerso è la mancanza di ambienti standardizzati per la comparazione imparziale e equa delle tecniche di rilevazione delle anomalie in streaming. A questo scopo, il contributo principale di questa tesi è ADBench: un ambiente di benchmarking progettato per valutare e confrontare le prestazioni degli algoritmi di rilevazione delle anomalie all'avanguardia in scenari di dati in streaming. Questo framework consente la valutazione sistematica dei modelli su varie dimensioni, comprendendo la selezione dei dataset, l'adeguatezza delle metriche di valutazione per dataset sbilanciati, la scelta delle tecniche di visualizzazione dati e di test statistici robusti. ADBench automatizza e semplifica non solo il processo di benchmarking, ma garantisce anche la riproducibilità e la flessibilità. Le intuizioni e le scoperte derivate da ADBench offrono una solida base per far avanzare il campo della rilevazione delle anomalie in streaming, facilitando un migliore processo decisionale in varie applicazioni del mondo reale. I risultati forniscono preziose informazioni sui punti di forza e di debolezza di ciascun algoritmo in diverse condizioni. In generale, questa tesi dimostra che una valutazione equa e riproducibile degli algoritmi è possibile attraverso una metodologia accurata.

ADBench: a Novel Benchmark for Streaming Anomaly Detection Algorithms

SHESHORI, LEDIO
2022/2023

Abstract

In today's digital era, we are witnessing an explosion in real-time streaming data generated across various domains through sensors, social media, IoT devices, and more. An emerging area that holds particular significance in streaming data analysis is anomaly detection, which involves the identification of abnormal patterns that deviate from expected behaviour. Anomaly detection in evolving data streams is a significant area with applications across diverse relevant domains such as fraud detection, network security, and industrial monitoring. Traditional machine-learning approaches are ill-equipped to handle unbounded data streams that may exhibit statistical changes over time. Therefore, a novel approach is imperative, and streaming machine learning provides a solution capable of adapting to evolving data streams, ensuring that models remain up-to-date and effective. This thesis presents a comprehensive study of streaming anomaly detection algorithms in an unsupervised learning setting. A fundamental problem addressed is the lack of standardized frameworks for impartial and fair comparison of streaming anomaly detection techniques. For this purpose, the primary contribution of this thesis is ADBench: a benchmarking environment designed to evaluate and compare the performance of state-of-the-art anomaly detection algorithms in streaming data scenarios. This benchmarking framework allows for systematically assessing these models across various dimensions, encompassing dataset selection, evaluation metric suitability for unbalanced datasets, data visualization techniques, and robust statistical testing. ADBench automates and streamlines the benchmarking process and ensures reproducibility and flexibility. The insights and findings derived from ADBench offer a solid foundation for advancing the field of streaming anomaly detection, facilitating better decision-making in various real-world applications. The results provide valuable insights into each algorithm's strengths and weaknesses under different streaming conditions. Overall, this thesis demonstrates that fair and reproducible evaluation of algorithms is achievable through careful methodology.
BERNARDO, ALESSIO
ZIFFER, GIACOMO
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
Nell'era digitale odierna, stiamo assistendo ad un'esplosione nella quantità di dati generati in tempo reale in vari settori attraverso sensori, social media, e dispositivi IoT. Un'area emergente che riveste particolare importanza nell'analisi dei dati in streaming è la rilevazione delle anomalie, che coinvolge l'identificazione di dati anomali che si discostano dal comportamento atteso. La ricerca di anomalie in flussi di dati in evoluzione è un'importante area con applicazioni in diversi settori rilevanti come la rilevazione delle frodi, la sicurezza delle reti e il monitoraggio industriale. Gli approcci tradizionali di Machine Learning non sono adatti per gestire flussi illimitati di dati che possono subire cambiamenti statistici nel tempo. Pertanto, è necessario un approccio innovativo e lo Streaming Machine Learning fornisce una soluzione in grado di adattarsi ai flussi di dati in evoluzione, garantendo che i modelli rimangano aggiornati ed efficaci. Questa tesi presenta uno studio completo degli algoritmi di rilevazione delle anomalie in streaming in un contesto di apprendimento non supervisionato. Un problema chiave emerso è la mancanza di ambienti standardizzati per la comparazione imparziale e equa delle tecniche di rilevazione delle anomalie in streaming. A questo scopo, il contributo principale di questa tesi è ADBench: un ambiente di benchmarking progettato per valutare e confrontare le prestazioni degli algoritmi di rilevazione delle anomalie all'avanguardia in scenari di dati in streaming. Questo framework consente la valutazione sistematica dei modelli su varie dimensioni, comprendendo la selezione dei dataset, l'adeguatezza delle metriche di valutazione per dataset sbilanciati, la scelta delle tecniche di visualizzazione dati e di test statistici robusti. ADBench automatizza e semplifica non solo il processo di benchmarking, ma garantisce anche la riproducibilità e la flessibilità. Le intuizioni e le scoperte derivate da ADBench offrono una solida base per far avanzare il campo della rilevazione delle anomalie in streaming, facilitando un migliore processo decisionale in varie applicazioni del mondo reale. I risultati forniscono preziose informazioni sui punti di forza e di debolezza di ciascun algoritmo in diverse condizioni. In generale, questa tesi dimostra che una valutazione equa e riproducibile degli algoritmi è possibile attraverso una metodologia accurata.
File allegati
File Dimensione Formato  
Tesi_Ledio_Sheshori.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 7.27 MB
Formato Adobe PDF
7.27 MB Adobe PDF Visualizza/Apri
Summary_Ledio_Sheshori.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 985.81 kB
Formato Adobe PDF
985.81 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211050