A hybrid machine learning approach for big data performance evaluation

have become critical for almost every industry. Because of that, it is often important to predict with fair confidence the execution time of submitted applications, for instance when service level agreements (SLAs) are established with end-users. In other words, users may want to determine how jobs execution time changes when the available cloud resources (in terms of, e.g., virtual machines type and their number) change. However, running experiments in real cloud environments is generally expensive and time consuming. Therefore, exploiting a reasonably accurate model for performance evaluation and prediction of cloud applications has a great importance. Performance prediction models are extremely useful to aid development and deployment of big data applications; either for design time decisions or run time system reconfiguration. Map Reduce framework became one of the most popular platforms for data analytics. Apache Spark extends the MapReduce model and using Resilient distributed Datasets (RDDs) and Directed Acyclic Graphs (DAGs) empowers Spark to be a fast and general-purpose big data computing platform. One approach for performance prediction is to develop white box analytical models based on DAG simulators or approximation formulas for predicting performance metrics. Another approach is machine learning based techniques which embody the black box, and infer performance models based on the relations among the input and output variables of a system that are observed during an initial training phase. This thesis, validates and optimizes a hybrid (also known as gray box) approach for performance prediction of big data applications running on clouds, which exploits both analytical modeling and machine learning techniques and it is able to achieve a good accuracy without too many time consuming and costly experiments on a real setup.

Attualmente, le applicazioni big data su cloud stanno avanzando rapidamente, diventando di cruciale importanza per quasi tutti i settori industriali. Per questa ragione, risulta spesso essenziale prevedere con una certa accuratezza i tempi di esecuzione delle applicazioni lanciate, per esempio quando gli SLA (Service Level Agreement) vengono stabiliti con gli endusers. In altre parole, gli utenti vorrebbero poter determinare quanto varia il tempo di esecuzione quando le risorse disponibili su cloud variano (in termini per esempio di tipologia e numero di macchine virtuali). Tuttavia, eseguire esperimenti in real cloud environment è di solito costoso e richiede un elevato consumo di tempo. Di conseguenza, l’utilizzo di modelli ragionevolmente accurati per la valutazione e la predizione delle prestazioni delle applicazioni cloud è di fondamentale importanza. I modelli di predizione delle prestazioni sono estremamente utili per incoraggiare lo sviluppo e la diffusione di applicazioni big data e anche per le decisioni sul tempo di progettazione o per la riconfigurazione del run time system. Il framework Map Reduce è diventato una delle piattaforme più utilizzate per l’analisi dei dati. Apache Spark estende il modello MapReduce, l’utilizzo di RDD (Resilient distributed Datasets) e di DAG (Directed Acyclic Graphs) e consente a Spark di essere una piattaforma di elaborazione di big data rapida e generale. Un possibile approccio per la predizione delle prestazioni consiste nello sviluppo di modelli analitici white box basati su simulatori DAG o su formule di approssimazione per la predizione delle metrics performance. Un altro approccio è rappresentato dal machine learning che incorpora la black box e deduce modelli di prestazione basati sulle relazioni tra variabili di input ed output di un sistema che vengono osservate in una fase di training iniziale. Questa tesi convalida ed ottimizza un approccio ibrido (noto anche come gray box) per la predizione delle performance delle applicazioni big data che girano su cloud, che impiega sia modelli analitici che tecniche di machine learning ed è in grado di raggiungere una buona accuratezza senza impiegare troppo tempo o effettuare costosi esperimenti su un setup reale.