Non-stationarity is an important issue for practical applications of machine learning. In particular, in streaming machine learning, the data distribution can change over time, yielding the problem of concept drift, which affects the performances of learners trained with outdated data. In this thesis, focusing on regression problems in an online, non-stationary setting, we introduce a learner-agnostic importance weighting framework for drift detection and adaptation, with the goal of performing an efficient retraining of the learner when drift is detected. By gradually estimating the joint probability density of features and response for incoming batches of data when drift is detected, we retrain our learner using Importance Weighted Empirical Risk Minimization. The importance weights are obtained by the (regularized) ratio of the likelihood of samples under our newly estimated, on-distribution, probability distribution and the likelihood under the original sample probability distribution, thus using all the available information in an efficient way. Leveraging on the latest advancements in density estimation and importance weighting techniques, we show our framework outperforms importance learning techniques introduced in the covariate shift literature and state-of-the-art adaptive ensemble methods on both synthetic and real data benchmarks.

La non-stazionarietà è un problema importante per le applicazioni pratiche dell'ap-prendimento automatico. In particolare, in problemi di apprendimento supervisionato in streaming, la distributzione dei dati può cambiare nel tempo, portando a problemi di concept drift, che influiscono sulle prestazioni di modelli addestrati con dati non più rilevanti. In questa tesi, focalizzandoci sui problemi di regressione in uno scenario online e non-stazionario, introduciamo un metodo basato sulla ripesatura per importanza, indipendente dal regressore, per rilevamento e adattamento al drift. Stimando gradualmente la densità congiunta tra le variabili input e la variabile output dei lotti di dati, quando un drift viene rilevato, possiamo riaddestrare il regressore con la minimizzazione empirica del rischio pesato per importanza. I pesi di importanza sono ottenuti tramite il rapporto (regolarizzato) della verosomiglianza dei dati rispetto all'ultima stima di densità e la verosomiglianza per la stima originale del lotto a cui appartiene il dato in questione. In questo modo, si è in grado di utilizzare l'informazione nel modo più efficiente possibile. Facendo uso degli ultimi avanzamenti nei campi della stima di densità e delle tecniche di ripesatura per importanza, si mostra che il nostro metodo supera le tecniche di apprendimento dell'importanza introdotte nella letteratura sul covariate shift e gli approcci di ensembling adattativi dello stato dell'arte su dati di riferimento sintetici e reali.

An importance weighting framework for drift adaptation in regression problems

Fedeli, Filippo
2020/2021

Abstract

Non-stationarity is an important issue for practical applications of machine learning. In particular, in streaming machine learning, the data distribution can change over time, yielding the problem of concept drift, which affects the performances of learners trained with outdated data. In this thesis, focusing on regression problems in an online, non-stationary setting, we introduce a learner-agnostic importance weighting framework for drift detection and adaptation, with the goal of performing an efficient retraining of the learner when drift is detected. By gradually estimating the joint probability density of features and response for incoming batches of data when drift is detected, we retrain our learner using Importance Weighted Empirical Risk Minimization. The importance weights are obtained by the (regularized) ratio of the likelihood of samples under our newly estimated, on-distribution, probability distribution and the likelihood under the original sample probability distribution, thus using all the available information in an efficient way. Leveraging on the latest advancements in density estimation and importance weighting techniques, we show our framework outperforms importance learning techniques introduced in the covariate shift literature and state-of-the-art adaptive ensemble methods on both synthetic and real data benchmarks.
METELLI, ALBERTO MARIA
TROVÒ, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
La non-stazionarietà è un problema importante per le applicazioni pratiche dell'ap-prendimento automatico. In particolare, in problemi di apprendimento supervisionato in streaming, la distributzione dei dati può cambiare nel tempo, portando a problemi di concept drift, che influiscono sulle prestazioni di modelli addestrati con dati non più rilevanti. In questa tesi, focalizzandoci sui problemi di regressione in uno scenario online e non-stazionario, introduciamo un metodo basato sulla ripesatura per importanza, indipendente dal regressore, per rilevamento e adattamento al drift. Stimando gradualmente la densità congiunta tra le variabili input e la variabile output dei lotti di dati, quando un drift viene rilevato, possiamo riaddestrare il regressore con la minimizzazione empirica del rischio pesato per importanza. I pesi di importanza sono ottenuti tramite il rapporto (regolarizzato) della verosomiglianza dei dati rispetto all'ultima stima di densità e la verosomiglianza per la stima originale del lotto a cui appartiene il dato in questione. In questo modo, si è in grado di utilizzare l'informazione nel modo più efficiente possibile. Facendo uso degli ultimi avanzamenti nei campi della stima di densità e delle tecniche di ripesatura per importanza, si mostra che il nostro metodo supera le tecniche di apprendimento dell'importanza introdotte nella letteratura sul covariate shift e gli approcci di ensembling adattativi dello stato dell'arte su dati di riferimento sintetici e reali.
File allegati
File Dimensione Formato  
2021_12_FEDELI_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 2.18 MB
Formato Adobe PDF
2.18 MB Adobe PDF Visualizza/Apri
2021_12_FEDELI_ExecutiveSummary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 572.69 kB
Formato Adobe PDF
572.69 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183595