A Framework for Routing Optimization for SD-WAN using Reinforcement Learning

Business-critical applications are all the applications that are essential to everyday business operations. Since even a small disruption might lead to a negative impact on daily operations, network availability is key. SD-WAN optimizes network performance and reliability by employing intelligent traffic routing. It constantly assesses the network conditions, choosing the best available path for data transmission, thereby guaranteeing minimal latency and peak performance for business-critical applications. In this thesis, we study an SD-WAN scenario in which the client communicates with two different servers through channels with overlay tunnels. The goal is to improve network availability by dynamically rerouting the traffic flow between the client and the server over the channel with the best performance with an SDN controller. The choice of the channel to use is done by a Reinforcement Learning algorithm that, through an active monitoring agent, is able to receive and process system measurements, focusing in particular on the round trip time (RTT). We compared this decision-making algorithm with a simpler one that chooses the path with the lowest RTT. Results show that in the proposed architecture, both decision-making algorithms perform well. In particular, the RL-algorithm is very effective when we stress the channels imposing a predictable delay, while when we introduce also some traffic on the chosen server the performance worsens. It is likely that to have better results we should have a longer training phase. The validation of the system was done in an emulation environment.

Le applicazioni business critical sono tutte le applicazioni indispensabili per le operazioni di un’azienda. Siccome anche piccole interruzioni dei servizi potrebbero avere un impatto negativo sulle operazioni di tutti i giorni, un concetto chiave è la disponibilità di rete. SD-WAN ottimizza le performance della rete e l’affidabilità usando un indirizzamento del traffico intelligente. Monitora costantemente le condizioni della rete, scegliendo il miglior percorso in termini di disponibilità, garantendo così ritardi minimi e ottime performance per le applicazioni business critical. In questa tesi studiamo uno scenario SD-WAN nel quale un cliente comunica con due server attraverso canali con tunnel overlay. L’obbiettivo è di migliorare la disponibilità di rete reindirizzando dinamicamente il flusso del traffico tra il cliente e il server sul canale con le migliori prestazioni, attraverso un controllore SDN. La scelta del canale da usare è fatta da un algoritmo di Reiforcement Learning che, attraverso un agente di active monitoring, è in grado di ricevere e processare le misurazioni del sistema, concentrandosi in particolare sul round trip time (RTT). Abbiamo confrontato questo algoritmo con uno più semplice che sceglie il percorso con il RTT più basso. I risultati mostrano che nell’architettura proposta entrambi gli algoritmi decisionali hanno buoni risultati. In particolare l’algoritmo di RL è molto efficiente quando sforziamo i canali imponendo del ritardo prevedibile, mentre quando introduciamo anche del traffico verso il server scelto le prestazioni peggiorano. È plausibile che per avere risultati migliori ci sia bisogno di allungare la fase di training. La validazione del sistema è stata fatta in un ambiente di emulazione.