Maggy : open-source asynchronous distributed hyperparameter optimization based on Apache Spark

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

For the past two years, Hopsworks, an open-source machine learning platform, has used Apache Spark to distribute hyperparameter optimization tasks in machine learning. Hopsworks provides some basic optimizers (grid-search, random-search, diﬀerential evolution) to propose combinations of hyperparameters (trials) that are run synchronously in parallel. However, many such trials perform poorly, and waste a lot of hardware accelerator cycles on trials that could be stopped early, freeing up resources for other trials. In this thesis, the work on Maggy is presented, an open-source asynchronous and fault-tolerant hyperparameter optimization framework built on Spark. Maggy transparently schedules and manages hyperparameter trials, enabling state-of-the-art asynchronous optimization algorithms, thereby increasing resource utilization and increasing the number of trials that can be performed in a given period of time up to 30% on a ﬁxed amount of resources. Early stopping is found to perform best when the model is sensitive to the hyperparameter conﬁgurations, in terms of generalization performance.

Negli ultimi due anni, Hopsworks, una piattaforma di apprendimento automatico open source, ha utilizzato Apache Spark per distribuire attività di ottimizzazione dell'iperparametro nell'apprendimento automatico. Hopsworks fornisce alcuni ottimizzatori di base (ricerca in griglia, ricerca casuale, evoluzione differenziale) per proporre combinazioni di iperparametri (prove) che vengono eseguite in parallelo in modo sincrono. Tuttavia, molte di queste prove hanno prestazioni scarse e sprecano molti cicli dell'acceleratore hardware in prove che potrebbero essere interrotte in anticipo, liberando risorse per altre prove. In questa tesi, viene presentato il lavoro su Maggy, un framework di ottimizzazione dell'iperparametro asincrono e tollerante ai guasti open source basato su Spark. Pianifica e gestisce in modo trasparente prove di iperparametri, consentendo algoritmi di ottimizzazione asincrona all'avanguardia, aumentando così l'utilizzo delle risorse e aumentando il numero di prove che possono essere eseguite in un determinato periodo di tempo fino al 30% su una quantità fissa di risorse. Si ritiene che l'arresto anticipato funzioni meglio quando il modello è sensibile alle con ﬁ gurazioni dell'iperparametro, in termini di prestazioni di generalizzazione.

Maggy : open-source asynchronous distributed hyperparameter optimization based on Apache Spark

MEISTER, MORITZ JOHANNES

2018/2019

Abstract

For the past two years, Hopsworks, an open-source machine learning platform, has used Apache Spark to distribute hyperparameter optimization tasks in machine learning. Hopsworks provides some basic optimizers (grid-search, random-search, diﬀerential evolution) to propose combinations of hyperparameters (trials) that are run synchronously in parallel. However, many such trials perform poorly, and waste a lot of hardware accelerator cycles on trials that could be stopped early, freeing up resources for other trials. In this thesis, the work on Maggy is presented, an open-source asynchronous and fault-tolerant hyperparameter optimization framework built on Spark. Maggy transparently schedules and manages hyperparameter trials, enabling state-of-the-art asynchronous optimization algorithms, thereby increasing resource utilization and increasing the number of trials that can be performed in a given period of time up to 30% on a ﬁxed amount of resources. Early stopping is found to perform best when the model is sensitive to the hyperparameter conﬁgurations, in terms of generalization performance.

Scheda breve

Scheda completa

	Relatore
	
				CREMONESI, PAOLO
			
	Correlatore/i
	
				MOZO, ALBERTO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-ott-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				Negli ultimi due anni, Hopsworks, una piattaforma di apprendimento automatico open source, ha utilizzato Apache Spark per distribuire attività di ottimizzazione dell'iperparametro nell'apprendimento automatico. Hopsworks fornisce alcuni ottimizzatori di base (ricerca in griglia, ricerca casuale, evoluzione differenziale) per proporre combinazioni di iperparametri (prove) che vengono eseguite in parallelo in modo sincrono. Tuttavia, molte di queste prove hanno prestazioni scarse e sprecano molti cicli dell'acceleratore hardware in prove che potrebbero essere interrotte in anticipo, liberando risorse per altre prove. In questa tesi, viene presentato il lavoro su Maggy, un framework di ottimizzazione dell'iperparametro asincrono e tollerante ai guasti open source basato su Spark. Pianifica e gestisce in modo trasparente prove di iperparametri, consentendo algoritmi di ottimizzazione asincrona all'avanguardia, aumentando così l'utilizzo delle risorse e aumentando il numero di prove che possono essere eseguite in un determinato periodo di tempo fino al 30% su una quantità fissa di risorse. Si ritiene che l'arresto anticipato funzioni meglio quando il modello è sensibile alle con ﬁ gurazioni dell'iperparametro, in termini di prestazioni di generalizzazione.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
MeisterMoritz_Maggy_MasterThesis_Polimi.pdf accessibile in internet per tutti Descrizione: Thesis document Dimensione 3.05 MB Formato Adobe PDF Visualizza/Apri	3.05 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149859