Analysis of scheduling algorithms for deep learning training jobs running on virtualized GPU-based clusters

Machine Learning and Deep Learning are the topics which are paid huge attention since the last several years. While Machine Learning utilizes simpler ideas, deep learning works with artificial neural networks, which are designed to mirror how people think and learn. The recent adoption of GPUs as parallel general purpose processors partially satisfied this need, but the high costs associated with this technology, even in the cloud, dictate the need to design efficient capacity planning and job scheduling algorithms to reduce operational costs through resource sharing. The proposed work tackles the problems of capacity planning and job scheduling together. In the envisioned scenario, the complexity of the problem, which poses a major challenge in terms of modeling and solvability, is compounded by the fact that capacity allocation and scheduling are evaluated in an online environment. Deep Learning training jobs are submitted in a continuous fashion, so that no scheme can be detected in their arrival times or features, especially as regards priority. Inspired by greedy and local search techniques, heuristic methods have been developed to form efficient and scalable solutions to the proposed problem. An experimental campaign proves the feasibility of the approaches developed for practical scenarios, showing considerable improvements in the computational time needed to determine solutions of good quality.

Machine Learning e Deep Learning sono gli argomenti a cui è stata prestata grande attenzione negli ultimi anni. Mentre l’apprendimento automatico utilizza idee più semplici, il Deep Learning funziona con reti neurali artificiali, progettate per rispecchiare il modo in cui le persone pensano e apprendono. La recente adozione delle GPU come processori paralleli per scopi generici ha parzialmente soddisfatto questa esigenza, ma i costi elevati associati a questa tecnologia, anche nel cloud, impongono la necessità di progettare efficienti algoritmi di allocazione della capacità e scheduling, per ridurre i costi operativi attraverso la condivisione delle risorse. Il lavoro proposto affronta insieme i problemi della allocazione della capacità e scheduling. Nello scenario immaginato, la complessità del problema, che rappresenta una grande sfida in termini di modellizzazione e soluzione, è aggravata dal fatto che l’allocazione della capacità e lo scheduling sono valutati in un modo online. I lavori di training per il Deep Learning vengono inviati in modo continuo, in modo che non sia possibile rilevare alcun pattern nei tempi o nelle caratteristiche di arrivo, in particolare per quanto riguarda la priorità. Ispirati da tecniche di ricerca greedy e di local search, sono stati sviluppati metodi euristici per offrire soluzioni efficienti e scalabili al problema proposto. Una campagna sperimentale dimostra la fattibilità degli approcci sviluppati per scenari pratici, mostrando notevoli miglioramenti nel tempo di calcolo necessario per determinare soluzioni di buona qualità.