Predicting the accuracy for streaming machine learning systems

Machine learning (ML) algorithms provide better results when their hyperparameters are fine-tuned. However, finding the suitable algorithms and parameters for a given task is a time-consuming effort. AutoML techniques solve this issue by automating data pre-processing, feature engineering, model selection and hyperparameter tuning in ML workflows. However, AutoML does not seem to perform well with streaming data because of the concept of drift. The EvoAutoML algorithm was proposed as a solution to the underlying problem. EvoAutoML uses natural selection inspired by Genetic Algorithms, which at each iteration identify the best and the worst element in their model ensembles. It then replaces the worst model with a new model which is mutated using the best model under the assumption that it will provide better results in the next iteration. Though in some cases, the newly replaced models are not good performers. To avoid this, we may conduct accuracy prediction for each model, based on the available historic data, in order to assess which model should be replaced. By using the accuracy data available from the experimental results of the EvoAutoML algorithm, it is possible to rank each type of model according to their performance, including the number of appearances per ensemble throughout the iterations. This way, we can assess whether some model will perform better for the upcoming data by choosing the higher ranked model to replace the worst model identified by the EvoAutoML algorithm.

Gli algoritmi di machine learning (ML) forniscono risultati migliori quando i loro iperparametri sono regolati con precisione. Trovare gli algoritmi e i parametri adatti per un determinato problema richiede però molto tempo. Le tecniche AutoML risolvono questo problema automatizzando il pre-processing dei dati, l’elaborazione delle loro feature, la selezione del modello e il fine-tuning degli iperparametri. Tuttavia, le tecniche di AutoML non funzionano bene con i dati in streaming a causa del cosiddetto fenomeno del “concept drift”. L’algoritmo EvoAutoML è stato proposto come soluzione a questo problema. EvoAutoML utilizza la selezione naturale ispirata dai Genetic Algorithms, i quali, ad ogni iterazione, identificano il modello migliore e il peggiore nella loro ensemble di modelli. Esso sostituisce quindi il modello peggiore con un nuovo modello che viene mutato a partire dal migliore, nell'ipotesi che fornirà risultati migliori nell'iterazione successiva. Tuttavia, in alcuni casi, i nuovi modelli non hanno buone prestazioni. Per evitare questo problema, possiamo tentare di prevedere l’accuratezza di ogni modello, partento dai dati storici disponibili, per individuare con precisione quale sia il modello da sostituire. Utilizzando i dati di accuratezza derivanti dai risultati sperimentali dell'algoritmo EvoAutoML, è possibile redarre una classifica dei tipi di modello in base al loro livello di performance, inclusa la loro frequenza di apparizione nell’ensemble nel corso delle iterazioni. In questo modo, possiamo valutare se un modello avrà prestazioni migliori sui dati successivi, scegliendo il modello con il ranking più alto per sostituire il modello peggiore identificato dall'algoritmo EvoAutoML.