Contextual Multi-Armed Bandit Based Scheduling in an Optical Packet-Switching Datacenter Network

Motivated by the increasing bandwidth requirements and the limitations of traditional electrical switching technologies, data centers are increasingly shifting towards optical solutions for interconnection, and with them, several new challenges are arising. An efficient packet-scheduling system is needed to minimize flow-completion time while prioritizing latency-sensitive mice flows without leaving out elephant flows. Mice flows are short-lived, low-bandwidth network flows, while elephant flows are long-lived, high-bandwidth flows. This research adopts a novel approach by applying Reinforcement Learning to the packet scheduling problem, implementing and evaluating a Contextual Multi-Armed Bandit (CMAB) algorithm called LinUCB (Linear Upper Confidence Bound) within a simulated Skinny-CLOS architecture. A comprehensive simulation environment is developed using OMNeT++ and the INET Framework, with synthetic traffic traces to replicate realistic data center network patterns. Then, a statistical flow-classification mechanism is implemented to distinguish between mice and elephant flows and to steer the scheduling decisions. The performance of the LinUCB algorithm is compared to baseline scheduling methods, such as Round-Robin and Priority-Aware algorithms, by analyzing flow completion times for both mice and elephant flows across various network sizes. The results demonstrate that the CMAB approach consistently outperforms traditional scheduling methods, particularly in larger network scenarios. The LinUCB algorithm shows superior adaptability and performance in minimizing flow completion times for both mice and elephant flows, with its advantage becoming more pronounced as network size increases, underscoring the significant potential of Reinforcement Learning in optimizing packet scheduling in data center optical interconnection networks.

Motivati dai crescenti requisiti di larghezza di banda e dalle limitazioni delle tradizionali tecnologie di commutazione elettrica, i data center si stanno sempre più orientando verso soluzioni ottiche per l’interconnessione, e con esse stanno emergendo diverse nuove sfide. È necessario un sistema efficiente di schedulazione dei pacchetti per minimizzare il tempo di completamento dei flussi, dando priorità ai flussi "topo" sensibili alla latenza senza trascurare i flussi "elefante". I flussi "topo" sono flussi di rete di breve durata e a bassa larghezza di banda, mentre i flussi "elefante" sono flussi di lunga durata e ad alta larghezza di banda. Questa ricerca adotta un approccio innovativo applicando una strategia di Reinforcement Learning al problema della schedulazione dei pacchetti, implementando e valutando un algoritmo di Contextual Multi-Armed Bandit (CMAB) chiamato LinUCB (Linear Upper Confidence Bound) all'interno di un'architettura Skinny-CLOS. È stato sviluppato un ambiente di simulazione completo utilizzando OMNeT++ e il Framework INET, con traffico sintetico generato per replicare modelli realistici di connettività nei data center. Successivamente, è stato implementato un meccanismo di classificazione statistica dei flussi per distinguere tra flussi "topo" ed "elefante" e guidare le decisioni di schedulazione. Le prestazioni dell'algoritmo LinUCB sono state confrontate con metodi di schedulazione, inclusi gli algoritmi Round-Robin e Priority-Aware, principalmente attraverso l'analisi del tempo di completamento dei flussi sia per i flussi "topo" che per quelli "elefante" in reti di diverse dimensioni. I risultati dimostrano che l'approccio CMAB supera costantemente i metodi di schedulazione tradizionali, in particolare in scenari di rete più estesi. L'algoritmo LinUCB mostra una superiore adattabilità e prestazioni nel minimizzare i tempi di completamento dei flussi, sia per i flussi "topo" che per quelli "elefante", con un vantaggio che diventa più pronunciato all'aumentare della grandezza della rete, sottolineando il significativo potenziale del Reinforcement Learning nell'ottimizzazione della schedulazione dei pacchetti nelle reti di interconnessione ottica dei data center.