Data center (DC) and high performance computing (HPC) networks are at the roots of any cloud-computing system and are responsible for interconnecting efficiently the different parts of a system architecture. In the recent years cloud-computing has seen an impressive growth with services like AWS, Azure and Google Cloud becoming the standard for almost any tradition IT service. In particular, the wide diffusion of machine learning has led to an increase in workload for the current data center systems which are now dealing with different types of traffic, with different quality-of-service requirements and an increased number of demands. Current data center networks rely on over provisioned static links which are designed to handle worst case scenarios. The current approach not only is very expensive to maintain, but is also inefficient since most of the current data center traffic is highly unpredictable and prone to oscillations. One of the most promising solutions is optical switch reconfiguration, which allows to provision paths depending on the current network situation with very fast switching times if compared to a classical electrical switch. To drive optical switch reconfiguration several heuristic and integer linear programming (ILP) methods have been tried, however they tend to show limited scalability and poor generalization capabilities. To solve the above problem we are going to present a deep reinforcement learning (DRL) based optical reconfiguration method using an experimental testbed. DRL allows to generalize to different scenarios without explicit training. The specific goal is to show that optical reconfiguration can indeed improve the training performance of distributed machine learning workloads in case of network congestion. By changing the topology of the network dynamically, optical switch reconfiguration can generate new topologies where it is possible for the routing algorithm to route the distributed machine learning traffic on a path which is less congested than the one where it was running pre-reconfiguration. By setting up the testbed with the proper number of servers, a real time network monitoring system and a routing algorithm we were able to show a 5x training time decrease for the deployed distributed computer vision algorithm. In addition, using a self-supervised learning algorithm we were able to improve the training of the agent leading to a 29% less network collapses.

Le reti di data center (DC) e High Performance Computing (HPC) sono alla base di qualsiasi sistema di cloud-computing e sono responsabili interconnettere efficientemente diverse parti di sistema. Negli ultimi anni il cloud-computing ha visto una crescita impressionante con servizi come AWS, Azure e Google Cloud che sono diventati lo standard per quasi tutti i servizi IT tradizionali. In particolare, l’ampia diffusione del machine learning ha comportato un aumento del carico di lavoro per gli attuali sistemi di data center che oggi affrontano tipologie di traffico variegate, con diverse esigenze di qualità del servizio e un numero maggiore di richieste. Le attuali reti di data center si basano su collegamenti statici progettati per gestire i worst case scenarios. L’approccio attuale non solo è molto costoso da mantenere, ma è anche inefficiente poiché la maggior parte del traffico in un data center è altamente imprevedibile. Una delle soluzioni più promettenti si basa sulla riconfigurazione degli switch ottici, che consente di generare nuove connessioni a seconda della situazione della rete con tempi di commutazione molto rapidi rispetto a un classico switch elettrico. Per guidare la riconfigurazione dello switch ottico sono stati testati diversi algoritmi euristici e di integer linear programming (ILP), tuttavia tendono per mostrare una scalabilità limitata e scarse capacità di generalizzazione. Per risolvere il problema di cui sopra, presenterò un metodo di riconfigurazione ottica basato sul deep reinforcement learning (DRL) utilizzando una testbed sperimentale. Il DRL permette di generalizzare in scenari in cui non e’ stato esplicitamente addestrato. L’obiettivo è dimostrare che la riconfigurazione ottica può effettivamente migliorare le prestazioni di addestramento dei carichi di lavoro di machine learning distribuiti. Cambiando dinami- camente la topologia della rete, la riconfigurazione ottica può generare nuove toplogie dove è possibile per l’algoritmo di routing instradare il traffico del carico distribuito su un percorso che è meno congestionato di quello pre-reconfigurazione. Configurando il banco di prova con il numero corretto di server, un sistema di monitoraggio della rete in tempo reale e un algoritmo di routing, sono stato in grado di mostrare una riduzione del tempo di addestramento di 5 volte per l’algoritmo di visione artificiale distribuito. Inoltre, usando un algoritmo self-supervised sono stato in grando di migliorare il processo di training dell’agente riducendo il numero di collassi di rete del 29%.

Experimental Assessment of Deep Reinforcement Learning Assisted Optical DC/HPC Network Reconfiguration Methods

SICA, MASSIMILIANO
2021/2022

Abstract

Data center (DC) and high performance computing (HPC) networks are at the roots of any cloud-computing system and are responsible for interconnecting efficiently the different parts of a system architecture. In the recent years cloud-computing has seen an impressive growth with services like AWS, Azure and Google Cloud becoming the standard for almost any tradition IT service. In particular, the wide diffusion of machine learning has led to an increase in workload for the current data center systems which are now dealing with different types of traffic, with different quality-of-service requirements and an increased number of demands. Current data center networks rely on over provisioned static links which are designed to handle worst case scenarios. The current approach not only is very expensive to maintain, but is also inefficient since most of the current data center traffic is highly unpredictable and prone to oscillations. One of the most promising solutions is optical switch reconfiguration, which allows to provision paths depending on the current network situation with very fast switching times if compared to a classical electrical switch. To drive optical switch reconfiguration several heuristic and integer linear programming (ILP) methods have been tried, however they tend to show limited scalability and poor generalization capabilities. To solve the above problem we are going to present a deep reinforcement learning (DRL) based optical reconfiguration method using an experimental testbed. DRL allows to generalize to different scenarios without explicit training. The specific goal is to show that optical reconfiguration can indeed improve the training performance of distributed machine learning workloads in case of network congestion. By changing the topology of the network dynamically, optical switch reconfiguration can generate new topologies where it is possible for the routing algorithm to route the distributed machine learning traffic on a path which is less congested than the one where it was running pre-reconfiguration. By setting up the testbed with the proper number of servers, a real time network monitoring system and a routing algorithm we were able to show a 5x training time decrease for the deployed distributed computer vision algorithm. In addition, using a self-supervised learning algorithm we were able to improve the training of the agent leading to a 29% less network collapses.
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Le reti di data center (DC) e High Performance Computing (HPC) sono alla base di qualsiasi sistema di cloud-computing e sono responsabili interconnettere efficientemente diverse parti di sistema. Negli ultimi anni il cloud-computing ha visto una crescita impressionante con servizi come AWS, Azure e Google Cloud che sono diventati lo standard per quasi tutti i servizi IT tradizionali. In particolare, l’ampia diffusione del machine learning ha comportato un aumento del carico di lavoro per gli attuali sistemi di data center che oggi affrontano tipologie di traffico variegate, con diverse esigenze di qualità del servizio e un numero maggiore di richieste. Le attuali reti di data center si basano su collegamenti statici progettati per gestire i worst case scenarios. L’approccio attuale non solo è molto costoso da mantenere, ma è anche inefficiente poiché la maggior parte del traffico in un data center è altamente imprevedibile. Una delle soluzioni più promettenti si basa sulla riconfigurazione degli switch ottici, che consente di generare nuove connessioni a seconda della situazione della rete con tempi di commutazione molto rapidi rispetto a un classico switch elettrico. Per guidare la riconfigurazione dello switch ottico sono stati testati diversi algoritmi euristici e di integer linear programming (ILP), tuttavia tendono per mostrare una scalabilità limitata e scarse capacità di generalizzazione. Per risolvere il problema di cui sopra, presenterò un metodo di riconfigurazione ottica basato sul deep reinforcement learning (DRL) utilizzando una testbed sperimentale. Il DRL permette di generalizzare in scenari in cui non e’ stato esplicitamente addestrato. L’obiettivo è dimostrare che la riconfigurazione ottica può effettivamente migliorare le prestazioni di addestramento dei carichi di lavoro di machine learning distribuiti. Cambiando dinami- camente la topologia della rete, la riconfigurazione ottica può generare nuove toplogie dove è possibile per l’algoritmo di routing instradare il traffico del carico distribuito su un percorso che è meno congestionato di quello pre-reconfigurazione. Configurando il banco di prova con il numero corretto di server, un sistema di monitoraggio della rete in tempo reale e un algoritmo di routing, sono stato in grado di mostrare una riduzione del tempo di addestramento di 5 volte per l’algoritmo di visione artificiale distribuito. Inoltre, usando un algoritmo self-supervised sono stato in grando di migliorare il processo di training dell’agente riducendo il numero di collassi di rete del 29%.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet per tutti

Descrizione: Tesi Magistrale Sica
Dimensione 5.88 MB
Formato Adobe PDF
5.88 MB Adobe PDF Visualizza/Apri
Executive Summary .pdf

accessibile in internet per tutti

Descrizione: Executive Summary Sica
Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/197918