Nowadays big data applications are very popular and widely being used, in particular Apache Spark. With this growing interest, one of the most important challenge is to predict the execution time of applications before their execution. For this goal, white-box (analytical models) and black-box (machine learning) techniques, and even hybrid techniques which merge these two, have been proposed. This thesis provides and validates machine learning models to predict Apache Spark applications performance. Moreover, a machine learning library to automate the model training and an extension to the Sparkbench suite to generate workloads of practical interest have been developed.

Oggigiorno le applicazioni big data sono molto popolari e ampiamente utilizzate, in particolare Apache Spark. Con questo crescente interesse, uno dei problemi piu' imporatanti e' predire il tempo di esecuzione delle applicazioni prima che vengano eseguite. A tal fine, sono state proposte tecniche white-box (modelli analitici) e black-box (machine learning) e persino modelli ibridi che uniscono entrambi gli approcci. Questa tesi fornisce e valida modelli di machine learning che consentono di predire le prestazioni di applicazioni Spark. Sono state sviluppate, inoltre, una libreria di machine learning per automatizzare il training dei modelli e un'estensione di Sparkbench per la generazione di workload di interesse pratico.

A benchmarking suite and a machine learning library for big data applications performance evaluation

SAHIN, ELIF
2017/2018

Abstract

Nowadays big data applications are very popular and widely being used, in particular Apache Spark. With this growing interest, one of the most important challenge is to predict the execution time of applications before their execution. For this goal, white-box (analytical models) and black-box (machine learning) techniques, and even hybrid techniques which merge these two, have been proposed. This thesis provides and validates machine learning models to predict Apache Spark applications performance. Moreover, a machine learning library to automate the model training and an extension to the Sparkbench suite to generate workloads of practical interest have been developed.
GIANNITI, EUGENIO
LATTUADA, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
Oggigiorno le applicazioni big data sono molto popolari e ampiamente utilizzate, in particolare Apache Spark. Con questo crescente interesse, uno dei problemi piu' imporatanti e' predire il tempo di esecuzione delle applicazioni prima che vengano eseguite. A tal fine, sono state proposte tecniche white-box (modelli analitici) e black-box (machine learning) e persino modelli ibridi che uniscono entrambi gli approcci. Questa tesi fornisce e valida modelli di machine learning che consentono di predire le prestazioni di applicazioni Spark. Sono state sviluppate, inoltre, una libreria di machine learning per automatizzare il training dei modelli e un'estensione di Sparkbench per la generazione di workload di interesse pratico.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_10_Sahin_Elif.pdf

non accessibile

Descrizione: Thesis text
Dimensione 11.98 MB
Formato Adobe PDF
11.98 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142931