Machine Learning (ML) has become a cornerstone technology for extracting insights and enabling decision-making across various domains. However, real-world data often exhibit non-stationary behavior, where underlying distributions shift over time, causing performance degradation in ML models. Detecting and explaining these changes, commonly known as data drift, is critical for maintaining reliable systems in evolving environments. This thesis focuses on the explainability of drift through a novel framework for dynamic clustering, which models and interprets changes in cluster structures across temporal data snapshots. Unlike traditional static clustering methods, the proposed approach captures the evolution of clusters by identifying transitions and providing interpretable representations of structural changes. The framework's modular and algorithm-agnostic design facilitates its application across different domains and clustering algorithms. Experimental results on both synthetic and real-world datasets validate its effectiveness in enhancing the understanding of data dynamics, thereby supporting better adaptation of ML models in non-stationary settings. By contributing to drift explainability, this work aims to improve the transparency and robustness of ML applications operating in dynamic and complex environments.

Il Machine Learning (ML) è diventato una tecnologia fondamentale per l'estrazione di conoscenza e il supporto alle decisioni in diversi ambiti applicativi. Tuttavia, i dati reali presentano spesso comportamenti non stazionari, in cui le distribuzioni sottostanti cambiano nel tempo, causando un degrado delle prestazioni dei modelli di ML. Rilevare e spiegare questi cambiamenti, noti come drift dei dati, è cruciale per mantenere sistemi affidabili in ambienti in evoluzione. Questa tesi si concentra sulla spiegabilità del drift attraverso un nuovo framework per il clustering dinamico, che modella e interpreta i cambiamenti nelle strutture di cluster in diverse istantanee temporali dei dati. A differenza dei metodi tradizionali di clustering statico, l'approccio proposto cattura l'evoluzione dei cluster identificando le transizioni e fornendo rappresentazioni interpretabili dei cambiamenti strutturali. Il design modulare e agnostico rispetto all'algoritmo del framework ne facilita l'applicazione a diversi domini e metodi di clustering. I risultati sperimentali, ottenuti su dataset sintetici e reali, ne validano l'efficacia nel migliorare la comprensione della dinamica dei dati, supportando così una migliore adattabilità dei modelli di ML in contesti non stazionari. Contribuendo alla spiegabilità del drift, questo lavoro mira a migliorare la trasparenza e la robustezza delle applicazioni di ML che operano in ambienti dinamici e complessi.

Explaining data drift through dynamic clustering analysis

Manset, Mirko
2024/2025

Abstract

Machine Learning (ML) has become a cornerstone technology for extracting insights and enabling decision-making across various domains. However, real-world data often exhibit non-stationary behavior, where underlying distributions shift over time, causing performance degradation in ML models. Detecting and explaining these changes, commonly known as data drift, is critical for maintaining reliable systems in evolving environments. This thesis focuses on the explainability of drift through a novel framework for dynamic clustering, which models and interprets changes in cluster structures across temporal data snapshots. Unlike traditional static clustering methods, the proposed approach captures the evolution of clusters by identifying transitions and providing interpretable representations of structural changes. The framework's modular and algorithm-agnostic design facilitates its application across different domains and clustering algorithms. Experimental results on both synthetic and real-world datasets validate its effectiveness in enhancing the understanding of data dynamics, thereby supporting better adaptation of ML models in non-stationary settings. By contributing to drift explainability, this work aims to improve the transparency and robustness of ML applications operating in dynamic and complex environments.
BISI, LORENZO
RUSSO, ALESSIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il Machine Learning (ML) è diventato una tecnologia fondamentale per l'estrazione di conoscenza e il supporto alle decisioni in diversi ambiti applicativi. Tuttavia, i dati reali presentano spesso comportamenti non stazionari, in cui le distribuzioni sottostanti cambiano nel tempo, causando un degrado delle prestazioni dei modelli di ML. Rilevare e spiegare questi cambiamenti, noti come drift dei dati, è cruciale per mantenere sistemi affidabili in ambienti in evoluzione. Questa tesi si concentra sulla spiegabilità del drift attraverso un nuovo framework per il clustering dinamico, che modella e interpreta i cambiamenti nelle strutture di cluster in diverse istantanee temporali dei dati. A differenza dei metodi tradizionali di clustering statico, l'approccio proposto cattura l'evoluzione dei cluster identificando le transizioni e fornendo rappresentazioni interpretabili dei cambiamenti strutturali. Il design modulare e agnostico rispetto all'algoritmo del framework ne facilita l'applicazione a diversi domini e metodi di clustering. I risultati sperimentali, ottenuti su dataset sintetici e reali, ne validano l'efficacia nel migliorare la comprensione della dinamica dei dati, supportando così una migliore adattabilità dei modelli di ML in contesti non stazionari. Contribuendo alla spiegabilità del drift, questo lavoro mira a migliorare la trasparenza e la robustezza delle applicazioni di ML che operano in ambienti dinamici e complessi.
File allegati
File Dimensione Formato  
2025_10_Manset_Tesi_01.pdf

non accessibile

Descrizione: Testo tesi
Dimensione 3.63 MB
Formato Adobe PDF
3.63 MB Adobe PDF   Visualizza/Apri
2025_10_Manset_Executive_Summary_02.pdf

non accessibile

Descrizione: Testo executive summary
Dimensione 1.22 MB
Formato Adobe PDF
1.22 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243423