A design time optimization framework for shared hadoop clusters

Nowadays many companies have at their disposal large amounts of raw, unstructured data. With the term Big Data we refer to the analysis of huge datasets, allowing the extraction of information of utmost impor- tance for business purposes. Among the enabling technologies, a central place is held by the MapReduce framework, in particular its open source implementation, Apache Hadoop. For cost effectiveness considerations, a common approach entails sharing server clusters among multiple user classes. Such a common infrastructure should provide every user with a fair share of computational resources, ensuring that Service Level Agree- ments (SLAs) are met and avoiding wastes. In this work we consider mathematical programming problems that model the optimal allocation of computational resources in shared clus- ters, in order to develop new capacity allocation techniques, allowing for better performance in shared datacenters. Our goal is the reduction of power consumption, for private clouds or reductions of VM usage costs if public clouds are considered. While respecting the deadlines stated in the SLAs and avoiding penalties associated with job rejections. At the core of this approach there is the development of a greedy algorithm, to optimize the allocation of resources and evaluate execution time of job MapReduce, based on colored Petri Nets. The greedy algorithm is imple- mented in two steps from an initial solution obtained from a MILP ap- proximated formulation. From MILP we obtained an optimization that considers the simulation and optimization of a single job class, then in the second step we consider the joint optimization and simulation of all job classes through an overall Petri Nets model. Finally we evaluated the solution considering realistic job profiles extracted from MapReduce execution logs and we managed to get solution within 30 minutes.

Oggi molte aziende hanno a disposizione grandi quantità di dati, molto spesso non strutturati. Con il termine Big Data si fa riferimento all’ana- lisi di grandi moli di dati, permettendo l’estrazione di informazioni di grande importanza per gli obiettivi aziendali. Tra le tecnologie abilitan- ti, il framework MapReduce occupa un ruolo centrale, in particolare con la sua implementazione open source, Apache Hadoop. Per ragioni econo- miche, una prassi comune prevede la condivisione di cluster di server tra più classi di utenti. Tale infrastruttura comune dovrebbe fornire ad ogni utente una giusta quota di risorse di calcolo, garantendo che i con- tratti di Service Level Agreements (SLAs) siano soddisfatti ed evitando sprechi, come l’utilizzo inefficiente delle risorse. In questo lavoro di tesi si propongono problemi di programmazione matematica per modellare l’allocazione ottimale delle risorse computa- zionali in un cluster condiviso. L’obiettivo è la riduzione del consumo di energia nel caso in cui consideriamo una private cloud oppure la re- duction dei costi delle virtual machine (VM) usate nel caso in cui con- sideriamo una public cloud, rispettando i termini indicati negli SLAs ed evitando le penali associate ad obiettivi di prestazioni non raggiun- ti. Al centro di questo approccio si pone lo sviluppo di un algoritmo greedy, per ottimizzare l’allocazione delle risorse e simulare il tempo di execuzione dei job MapReduce basato sulle colored Petri Nets. L’algo- ritmo greedy implementa due fasi. Dalla soluzione iniziale ottenuta da una formulazione MILP si passa a una fase che considera la simulazione e ottimizzazione delle singole classi di job. Dopodiché viene effetuata l’ottimizzazione conguinta di tutte le classe attraverso un modello di Pe- tri Net complessivo. Infine abbiamo validato la soluzione considerando delle query reali ottenute dai job profile estratti dai log. La soluzione ottimale viene ottenuta in media in 30 minuti.