A novel framework to drive retraining strategies in ML models by understanding the nature of the drift

Machine Learning (ML) models deployed in dynamic environments often face concept drift, where data distributions change over time, leading to performance degradation. A critical yet underexplored challenge is understanding the nature of the drift, differentiating between natural concept drift and adversarial drift, where malicious actors intentionally manipulate data distributions to degrade model performance. This thesis introduces a novel framework for detecting and differentiating between these two forms of drift to drive effective retraining strategies. The proposed approach is based on analyzing directional shifts in feature space when drift is detected by leveraging a statistical test that estimates the alignment of observed drift with optimal adversarial attack directions. The methodology is first assessed in a controlled batch setting and then applied to a context of streaming data. Empirical evaluations on synthetic and real-world datasets demonstrate the effectiveness of the approach. The framework distinguishes adversarial drift from natural drift and provides actionable insights for the adaptation of ML systems. This work contributes to the robustness and security of ML models in evolving data environments, reducing vulnerability to adversarial threats while maintaining adaptability to natural distribution shifts.

I modelli di apprendimento automatico implementati in ambienti dinamici spesso affrontano il fenomeno di concept drift, in cui la distribuzione dei dati cambia nel tempo, causando una diminuzione delle prestazioni. Una sfida cruciale, ma ancora poco esplorata, è comprendere la natura del drift, distinguendo tra il drift dovuto a variazioni naturali dell'ambiente e il drift di tipo avversarial, in cui attori malevoli manipolano intenzionalmente le distribuzioni dei dati per compromettere le prestazioni del modello. Questa tesi propone un nuovo framework per rilevare e distinguere tra queste due forme di deriva, al fine di coordinare efficaci strategie di riaddestramento. L’approccio proposto si basa sull’analisi degli spostamenti direzionali nello spazio delle caratteristiche quando viene rilevata un drift, sfruttando un test statistico che stima l’allineamento del drift osservato con le direzioni ottimali degli attacchi avversari. La metodologia viene inizialmente applicata in un contesto batch semplice e successivamente estesa a un ambiente di dati in streaming, dove un meccanismo di rilevamento adattivo viene integrato in un sistema di rilevamento del drift basato sugli errori nelle predizioni. Le valutazioni empiriche su dataset sintetici e reali dimostrano l’efficacia dell’approccio. Il framework distingue con successo il drift avversario da quello naturale e fornisce indicazioni utili per l’adattamento dei sistemi di apprendimento automatico. Questo lavoro contribuisce alla robustezza e alla sicurezza dei modelli in ambienti caratterizzati da dati in evoluzione, riducendo la vulnerabilità alle minacce avversarie e mantenendo al contempo la capacità di adattarsi ai cambiamenti naturali della distribuzione dei dati.