Multi-agent reinforcement learning

Multi agent systems, are systems where a group of agents cooperate or compete to achieve a common goal, and they have made major breakthrough in solving complex decision-making problems. However the complexity of the whole task, make it difficult to solve with pre-programmed behavior. A more scalable approach is the use of learning techniques. With the increasing digitization of industry and the move toward what is called Industry 4.0 there is a growing need to develop models and methods that can be applied in such contexts. In this thesis we propose some methods for solving a emph{path selection problem}, where, using Reinforcement Learning techniques, we try to optimize the production process of an item within an assembly line. In our work we decided to model the system in a multi-agent fashion, employing decentralized and distributed learning techniques. Multi-agent systems allow us to distribute the workload of an highly complex problem, such the one are facing, to multiple agents that will coordinate within each other to accomplish the given task. The goal is to be able to get the various agents to cooperate in order to complete efficiently the production, dealing with imperfect information about both the surrounding environment and each others' action. We devise a simple yet novel multi-agent reinforcement learning algorithm, inspired by the inner structure of the decision process. Using our distributed algorithm, on a simulated environment, we then show some positive results in several settings by exploiting the flexibility of the virtual environment.

I sistemi multi agente, sono sistemi in cui un gruppo di agenti coopera o compete per raggiungere un obiettivo comune. Recentemente hanno fatto grandi progressi nella risoluzione di problemi decisionali complessi. Tuttavia, la complessità del problema rende difficile la sua risoluzione con un comportamento pre-programmato. Un approccio più scalabile è quello di usare tecniche di apprendimento. Con la crescente digitalizzazione dell'industria e il passaggio a quella che viene definita Industria 4.0, cresce la necessità di sviluppare modelli e metodi che possano essere applicati in tali contesti. In questa tesi proponiamo alcuni metodi per la risoluzione di un problema di Path Selection, in cui, utilizzando tecniche di Reinforcement Learning, cerchiamo di ottimizzare il processo di produzione di un articolo all'interno di una catena di montaggio. Nel nostro lavoro abbiamo deciso di modellare il sistema in modo multi-agente, impiegando tecniche di apprendimento decentralizzato e distribuito. I sistemi multi-agente ci permettono di distribuire il carico di lavoro di un problema altamente complesso, come quello che stiamo affrontando, a più agenti che si coordineranno tra loro per portare a termine il compito dato. L'obiettivo è riuscire a far cooperare i vari agenti per portare a termine in modo efficiente la produzione, gestendo informazioni imperfette sia sull'ambiente circostante sia sulle azioni degli altri. Abbiamo ideato un algoritmo basato su tenciche di Reinforcemente Learning multi-agente semplice ma innovativo, ispirato alla struttura interna del processo decisionale. Utilizzando il nostro algoritmo distribuito all'interno di un ambiente simulato, abbiamo ottenuto un risultato molto positivo e promettente per l'applicabilità sullo scenario reale.