Multi-agent deep reinforcement learning algorithms for team coordination in sequential games

In recent years, the study of multi-agent learning is becoming very popular, especially thanks to the advent of deep neural networks. Indeed, the introduction of function approximators has made it possible to tackle high- dimensional real-world problems that were previously considered intractable. Research has rapidly expanded to investigate ways in which agents learn cooperation to achieve common goals. The root of modern tools to deal with this problem is found in game theory, which provides a strong mathematical background and guarantees convergence, but which has limits of scalability. On the other hand, in a context of cooperation, the modern Deep RL approaches are evaluated based on metrics that often deviate from game theory, without strong convergence guarantees, and which mainly focus on games where simultaneous moves are available. Little attention is paid to observable and non-observable sequential games, which present a series of different nuances and problems to be addressed and, once resolved, could help to better understand the dynamics of cooperation in all other contexts. We focus on sequential games where a team of agents must coordinate against an opponent. The objective of this work is to address this class of games using reinforcement learning approaches through deep neural networks. We analyze the properties of sequentially observable and non-observable team games, proposing innovative frameworks to address this class of problems. In particular, we introduce the first signal-based framework with deep neural networks that solves a complex non-observable coordination problem, in which the team must learn to communicate through signals with a shared meaning. For each framework presented, we produce experimental results using metrics from game theory to provide a more solid evaluation of the results.

Negli ultimi anni, lo studio dell’apprendimento multi-agente sta diventando molto popolare, soprattutto grazie all’avvento nel campo delle deep neural networks. In effetti, l’introduzione di approssimatori di funzioni ha reso possibile affrontare problemi del mondo reale ad alta dimensione che prima erano considerati intrattabili. La ricerca si è rapidamente estesa per studiare i modi in cui gli agenti apprendono la cooperazione per raggiungere obiettivi comuni. La radice dei moderni strumenti per affrontare questo problema si trova nella teoria dei giochi, che fornisce un solido background matematico e garanzie di convergenza, ma che ha limiti di scalabilità. D’altro canto, in un contesto di cooperazione, i moderni approcci Deep RL sono valutati in base a metriche che spesso si discostano dalla teoria dei giochi, senza forti garanzie di convergenza, e che si concentrano principalmente su giochi in cui sono disponibili mosse simultanee. Poca attenzione è riservata ai giochi sequenziali osservabili e non osservabili, che presentano una serie di sfumature e problemi diversi da affrontare e, una volta risolti, potrebbe aiutare a comprendere meglio le dinamiche di cooperazione in tutti gli altri contesti. Ci focalizziamo su giochi sequenziali in cui un team di agenti deve coordinarsi contro un avversario. L’obiettivo di questo lavoro è di affrontare questa classe di giochi usando approcci di apprendimento di rinforzo attraverso deep neural networks. Analizziamo le proprietà di giochi di squadra sequenziali perfettamente osservabili e non osservabili, proponendo framework innovativi per affrontare questa classe di problemi. In particolare, introduciamo il primo framework basato su segnali con deep neural networks che risolve un complesso problema di coordinazione non osservabile, in cui il team deve imparare a comunicare attraverso segnali dal significato condiviso. Produciamo per ogni framework presentato risultati sperimentali utilizzando metriche provenienti dalla teoria dei giochi in modo da fornire una valutazione più solida dei risultati.