The common classification models are assumed to be trained on data that are sufficient and representative of the underlying unknown distribution. However, in real-world scenarios, the joint distribution of features and labels is not stationary but drifting from time to time. This phenomenon, referred to as concept drift, can deteriorate the predictive performance of existing classification model used e.g. in fraud detection and even make it obsolete. Numerous concept drift detection methods have been developed to detect drifts and adapt the model so as to recover from the influence of concept drift. However, most existing concept drift detection methods have an over-optimistic assumption that the true labels will be available after the classifier makes decisions on new coming instances so that they can track concept drift by monitoring the real-time accuracy. Besides, the localization and interpretation of concept drift are also important. Localizing drift positions and providing interpretable concept drift information would help improve usability and trustworthiness in model adaptation process but existing methods that use accuracy to track concept drift cannot provide in-depth explanations on the root causes of the drift. To address the issues mentioned above, we propose a Labelless COncept Drift Detection and Explanation Framework (L-CODE). It requests labels only when we need to update the model and uses the Shapley values as a proxy to the joint distribution of features and labels. Our method tracks change on each feature separately, which is more efficient, but we can still obtain multivariate changes based on the multivariate nature of Shapley values. Except for drift detection, we provide three-level visualizations to explain the detected drift in different granularities. Our method can outperform other state-of-the-art labelless drift detection methods on benchmark datasets but cannot beat the methods that require labels. For experiment on Rabobank transaction dataset, we demonstrate insightful explanations on the causes of detected drift.

Si presume che i modelli di classificazione comuni siano formati su dati sufficienti e rappresentativi della sottostante distribuzione sconosciuta. Tuttavia, negli scenari del mondo reale, la distribuzione congiunta di funzioni ed etichette non è fissa ma alla deriva di volta in volta. Questo fenomeno, definito deriva del concetto, può deteriorare le prestazioni predittive del modello di classificazione esistente utilizzato ad es. nel rilevamento delle frodi e persino renderlo obsoleto. Sono stati sviluppati numerosi metodi di rilevamento della deriva dei concetti per rilevare le derive e adattare il modello in modo da riprendersi dall'influenza della deriva dei concetti. Tuttavia, la maggior parte dei metodi di rilevamento della deriva dei concetti esistenti ha un'ipotesi troppo ottimistica che le etichette vere saranno disponibili dopo che il classificatore avrà preso decisioni sulle nuove istanze in arrivo in modo che possano monitorare la deriva dei concetti monitorando l'accuratezza in tempo reale. Inoltre, anche la localizzazione e l'interpretazione della deriva dei concetti sono importanti. Localizzare le posizioni di drift e fornire informazioni interpretabili di drift di concetti contribuirebbe a migliorare l'usabilità e l'affidabilità nel processo di adattamento del modello, ma i metodi esistenti che utilizzano l'accuratezza per tracciare la deriva di concept non possono fornire spiegazioni approfondite sulle cause alla radice della deriva. Per risolvere i problemi sopra menzionati, proponiamo un Labelless COncept Drift Detection and Explanation Framework (L-CODE). Richiede le etichette solo quando è necessario aggiornare il modello e utilizza i valori di Shapley come proxy per la distribuzione congiunta di funzionalità ed etichette. Il nostro metodo tiene traccia delle modifiche su ciascuna funzionalità separatamente, il che è più efficiente, ma possiamo ancora ottenere modifiche multivariate in base alla natura multivariata dei valori di Shapley. Ad eccezione del rilevamento della deriva, forniamo visualizzazioni a tre livelli per spiegare la deriva rilevata in diverse granularità. Il nostro metodo può superare altri metodi di rilevamento della deriva senza etichetta all'avanguardia nei set di dati di riferimento, ma non può battere i metodi che richiedono etichette. Per esperimenti sul set di dati delle transazioni Rabobank, dimostriamo spiegazioni approfondite sulle cause della deriva rilevata.

Labelless concept drift detection and explanation

ZHENG, SHIHAO
2018/2019

Abstract

The common classification models are assumed to be trained on data that are sufficient and representative of the underlying unknown distribution. However, in real-world scenarios, the joint distribution of features and labels is not stationary but drifting from time to time. This phenomenon, referred to as concept drift, can deteriorate the predictive performance of existing classification model used e.g. in fraud detection and even make it obsolete. Numerous concept drift detection methods have been developed to detect drifts and adapt the model so as to recover from the influence of concept drift. However, most existing concept drift detection methods have an over-optimistic assumption that the true labels will be available after the classifier makes decisions on new coming instances so that they can track concept drift by monitoring the real-time accuracy. Besides, the localization and interpretation of concept drift are also important. Localizing drift positions and providing interpretable concept drift information would help improve usability and trustworthiness in model adaptation process but existing methods that use accuracy to track concept drift cannot provide in-depth explanations on the root causes of the drift. To address the issues mentioned above, we propose a Labelless COncept Drift Detection and Explanation Framework (L-CODE). It requests labels only when we need to update the model and uses the Shapley values as a proxy to the joint distribution of features and labels. Our method tracks change on each feature separately, which is more efficient, but we can still obtain multivariate changes based on the multivariate nature of Shapley values. Except for drift detection, we provide three-level visualizations to explain the detected drift in different granularities. Our method can outperform other state-of-the-art labelless drift detection methods on benchmark datasets but cannot beat the methods that require labels. For experiment on Rabobank transaction dataset, we demonstrate insightful explanations on the causes of detected drift.
CARMINATI, MICHELE
HARDER, HENNIE
VAN IPENBURG, WERNER
PECHENIZKIY, MYKOLA
VAN DER ZON, SIMON
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Si presume che i modelli di classificazione comuni siano formati su dati sufficienti e rappresentativi della sottostante distribuzione sconosciuta. Tuttavia, negli scenari del mondo reale, la distribuzione congiunta di funzioni ed etichette non è fissa ma alla deriva di volta in volta. Questo fenomeno, definito deriva del concetto, può deteriorare le prestazioni predittive del modello di classificazione esistente utilizzato ad es. nel rilevamento delle frodi e persino renderlo obsoleto. Sono stati sviluppati numerosi metodi di rilevamento della deriva dei concetti per rilevare le derive e adattare il modello in modo da riprendersi dall'influenza della deriva dei concetti. Tuttavia, la maggior parte dei metodi di rilevamento della deriva dei concetti esistenti ha un'ipotesi troppo ottimistica che le etichette vere saranno disponibili dopo che il classificatore avrà preso decisioni sulle nuove istanze in arrivo in modo che possano monitorare la deriva dei concetti monitorando l'accuratezza in tempo reale. Inoltre, anche la localizzazione e l'interpretazione della deriva dei concetti sono importanti. Localizzare le posizioni di drift e fornire informazioni interpretabili di drift di concetti contribuirebbe a migliorare l'usabilità e l'affidabilità nel processo di adattamento del modello, ma i metodi esistenti che utilizzano l'accuratezza per tracciare la deriva di concept non possono fornire spiegazioni approfondite sulle cause alla radice della deriva. Per risolvere i problemi sopra menzionati, proponiamo un Labelless COncept Drift Detection and Explanation Framework (L-CODE). Richiede le etichette solo quando è necessario aggiornare il modello e utilizza i valori di Shapley come proxy per la distribuzione congiunta di funzionalità ed etichette. Il nostro metodo tiene traccia delle modifiche su ciascuna funzionalità separatamente, il che è più efficiente, ma possiamo ancora ottenere modifiche multivariate in base alla natura multivariata dei valori di Shapley. Ad eccezione del rilevamento della deriva, forniamo visualizzazioni a tre livelli per spiegare la deriva rilevata in diverse granularità. Il nostro metodo può superare altri metodi di rilevamento della deriva senza etichetta all'avanguardia nei set di dati di riferimento, ma non può battere i metodi che richiedono etichette. Per esperimenti sul set di dati delle transazioni Rabobank, dimostriamo spiegazioni approfondite sulle cause della deriva rilevata.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Polimi_Thesis_ShihaoZheng.pdf

non accessibile

Dimensione 2.66 MB
Formato Adobe PDF
2.66 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152264