A benchmarking suite and a machine learning library for big data applications performance evaluation

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Nowadays big data applications are very popular and widely being used, in particular Apache Spark. With this growing interest, one of the most important challenge is to predict the execution time of applications before their execution. For this goal, white-box (analytical models) and black-box (machine learning) techniques, and even hybrid techniques which merge these two, have been proposed. This thesis provides and validates machine learning models to predict Apache Spark applications performance. Moreover, a machine learning library to automate the model training and an extension to the Sparkbench suite to generate workloads of practical interest have been developed.

Oggigiorno le applicazioni big data sono molto popolari e ampiamente utilizzate, in particolare Apache Spark. Con questo crescente interesse, uno dei problemi piu' imporatanti e' predire il tempo di esecuzione delle applicazioni prima che vengano eseguite. A tal fine, sono state proposte tecniche white-box (modelli analitici) e black-box (machine learning) e persino modelli ibridi che uniscono entrambi gli approcci. Questa tesi fornisce e valida modelli di machine learning che consentono di predire le prestazioni di applicazioni Spark. Sono state sviluppate, inoltre, una libreria di machine learning per automatizzare il training dei modelli e un'estensione di Sparkbench per la generazione di workload di interesse pratico.

A benchmarking suite and a machine learning library for big data applications performance evaluation

SAHIN, ELIF

2017/2018

Abstract

Nowadays big data applications are very popular and widely being used, in particular Apache Spark. With this growing interest, one of the most important challenge is to predict the execution time of applications before their execution. For this goal, white-box (analytical models) and black-box (machine learning) techniques, and even hybrid techniques which merge these two, have been proposed. This thesis provides and validates machine learning models to predict Apache Spark applications performance. Moreover, a machine learning library to automate the model training and an extension to the Sparkbench suite to generate workloads of practical interest have been developed.

Scheda breve

Scheda completa

	Relatore
	
				ARDAGNA, DANILO
			
	Correlatore/i
	
				GIANNITI, EUGENIO
LATTUADA, MARCO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-ott-2018
			
	Anno accademico
	
				2017/2018
			
	Abstract in italiano
	
				Oggigiorno le applicazioni big data sono molto popolari e ampiamente utilizzate, in particolare Apache Spark. Con questo crescente interesse, uno dei problemi piu' imporatanti e' predire il  tempo di esecuzione delle applicazioni prima che vengano eseguite. A tal fine, sono state proposte tecniche white-box (modelli analitici) e black-box (machine learning) e persino modelli ibridi che uniscono entrambi gli approcci. Questa tesi fornisce e valida modelli di machine learning che consentono di predire le prestazioni di applicazioni Spark. Sono state sviluppate, inoltre, una  libreria di machine learning per automatizzare il training dei modelli e un'estensione di Sparkbench per la generazione di workload di interesse pratico.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2018_10_Sahin_Elif.pdf non accessibile Descrizione: Thesis text Dimensione 11.98 MB Formato Adobe PDF Visualizza/Apri	11.98 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142931