In recent years Machine Learning models became essential instruments for solving problems in an increasing number of fields and for supporting decision-making processes. In practical applications, these models have to deal with real-world data that in many cases are subjected to uncontrollable changes due dynamical characteristics of the environment. Changes in data distribution may affect the performance of these models and have a negative influence on the whole systems in which they are applied. In this thesis, we propose a model-agnostic framework that aims to provide monitoring, adaptation, and online model selection features to supervised learning applications. Our main goal is to put the basis for the development of an MLOps tool that can use monitoring algorithms to detect changes, provides retraining suggestions using different adaptation strategies, and outputs online model selection suggestions with the aim to limit the performance drops that a supervised learning application may suffer due to the presence of concept drift. First of all our framework monitors data incoming from the environment and the predictions of the models and, leveraging state-of-the-art drift detection algorithms provides alerts if changes are detected in data distribution or in models' performances. Secondly, these alerts are propagated to adaptation strategies that, depending on the configuration, may use them to provide retraining suggestions. These suggestions contain the information needed to build the new training dataset and may include also a set of weights representing an estimation of the representativeness of each sample. Lastly, when the application includes multiple models solving the same task, an index corresponding to the model that should be selected to output the overall prediction is provided. We tested our framework with synthetic and real-world data showing that suggestions provided by our framework help achieve higher and more stable performances under non-stationary conditions.

Negli ultimi anni i modelli basati sull'apprendimento automatico sono diventati essenziali per risolvere problemi in vari ambiti e per supportare i processi decisionali. I contesti nei quali vengono applicati sono spesso soggetti a cambiamenti non controllabili legati alle dinamiche dell'ambiente. Questi cambiamenti, che spesso si traducono in variazioni nella distribuzione dei dati con cui i modelli hanno a che fare, possono influire negativamente sulle prestazioni dei modelli stessi e conseguentemente sul sistema nel quale sono applicati. In questa tesi proponiamo un sistema che ha come obbiettivo quello di fornire funzionalità per il monitoraggio, l'adattamento e la selezione in tempo reale di modelli basati sull'apprendimento supervisionato. L'obbiettivo principale è quello di fornire le basi per lo sviluppo di uno strumento di MLOps che permetta l'utilizzo di algoritmi di monitoraggio per rilevare i cambiamenti, fornisca suggerimenti per il riaddestramento dei modelli usando differenti strategie di adattamento e permetta di operare una selezione in tempo reale tra i modelli disponibili con lo scopo di limitare la riduzione delle prestazioni che potrebbero incorrere in una soluzione bastata su sistemi di apprendimento supervisionato in presenza di concept drift.Per prima cosa, il nostro sistema monitora i dati in ingresso e le predizioni dei modelli, avvisando l'utente in caso vengano rilevati dei cambiamenti. Successivamente queste informazioni vengono inoltre utilizzate dalle strategie di adattamento per generare dei suggerimenti che includono tutte le informazioni per definire il nuovo dataset di addestramento se necessario. Infine, quando sono presenti nell'applicazione più modelli, viene fornito anche un indice corrispondente al modello che dovrebbe essere scelto tra tutti per produrre la predizione finale. Abbiamo testato il nostro sistema con dati sintetici e dati reali, mostrando che seguendo i suggerimenti proposti si possono ottenere delle prestazioni buone e stabili in condizioni non stazionarie.

Towards robust machine learning applications : a framework for monitoring, retraining, and online model selection

Fabris, Matteo
2021/2022

Abstract

In recent years Machine Learning models became essential instruments for solving problems in an increasing number of fields and for supporting decision-making processes. In practical applications, these models have to deal with real-world data that in many cases are subjected to uncontrollable changes due dynamical characteristics of the environment. Changes in data distribution may affect the performance of these models and have a negative influence on the whole systems in which they are applied. In this thesis, we propose a model-agnostic framework that aims to provide monitoring, adaptation, and online model selection features to supervised learning applications. Our main goal is to put the basis for the development of an MLOps tool that can use monitoring algorithms to detect changes, provides retraining suggestions using different adaptation strategies, and outputs online model selection suggestions with the aim to limit the performance drops that a supervised learning application may suffer due to the presence of concept drift. First of all our framework monitors data incoming from the environment and the predictions of the models and, leveraging state-of-the-art drift detection algorithms provides alerts if changes are detected in data distribution or in models' performances. Secondly, these alerts are propagated to adaptation strategies that, depending on the configuration, may use them to provide retraining suggestions. These suggestions contain the information needed to build the new training dataset and may include also a set of weights representing an estimation of the representativeness of each sample. Lastly, when the application includes multiple models solving the same task, an index corresponding to the model that should be selected to output the overall prediction is provided. We tested our framework with synthetic and real-world data showing that suggestions provided by our framework help achieve higher and more stable performances under non-stationary conditions.
RUSSO, ALESSIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
Negli ultimi anni i modelli basati sull'apprendimento automatico sono diventati essenziali per risolvere problemi in vari ambiti e per supportare i processi decisionali. I contesti nei quali vengono applicati sono spesso soggetti a cambiamenti non controllabili legati alle dinamiche dell'ambiente. Questi cambiamenti, che spesso si traducono in variazioni nella distribuzione dei dati con cui i modelli hanno a che fare, possono influire negativamente sulle prestazioni dei modelli stessi e conseguentemente sul sistema nel quale sono applicati. In questa tesi proponiamo un sistema che ha come obbiettivo quello di fornire funzionalità per il monitoraggio, l'adattamento e la selezione in tempo reale di modelli basati sull'apprendimento supervisionato. L'obbiettivo principale è quello di fornire le basi per lo sviluppo di uno strumento di MLOps che permetta l'utilizzo di algoritmi di monitoraggio per rilevare i cambiamenti, fornisca suggerimenti per il riaddestramento dei modelli usando differenti strategie di adattamento e permetta di operare una selezione in tempo reale tra i modelli disponibili con lo scopo di limitare la riduzione delle prestazioni che potrebbero incorrere in una soluzione bastata su sistemi di apprendimento supervisionato in presenza di concept drift.Per prima cosa, il nostro sistema monitora i dati in ingresso e le predizioni dei modelli, avvisando l'utente in caso vengano rilevati dei cambiamenti. Successivamente queste informazioni vengono inoltre utilizzate dalle strategie di adattamento per generare dei suggerimenti che includono tutte le informazioni per definire il nuovo dataset di addestramento se necessario. Infine, quando sono presenti nell'applicazione più modelli, viene fornito anche un indice corrispondente al modello che dovrebbe essere scelto tra tutti per produrre la predizione finale. Abbiamo testato il nostro sistema con dati sintetici e dati reali, mostrando che seguendo i suggerimenti proposti si possono ottenere delle prestazioni buone e stabili in condizioni non stazionarie.
File allegati
File Dimensione Formato  
2023_05_Fabris_Thesis.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 4.14 MB
Formato Adobe PDF
4.14 MB Adobe PDF   Visualizza/Apri
2023_05_Fabris_Executive_Summary.pdf

non accessibile

Descrizione: Executive summary
Dimensione 661.72 kB
Formato Adobe PDF
661.72 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/212075