Multi-agent reinforcement learning algorithm for routing optimization in modular conveyor systems

Nowadays, in a dynamic, uncertain, and customization-oriented market context, manufacturing companies increasingly require tools capable of ensuring flexible yet high-performance production systems. To achieve these objectives, the manufacturing industry is adopting new technologies aimed at innovating production processes, in line with the trends of digital transformation and sustainability. This thesis aims to apply machine learning techniques to optimize the performance of material handling systems, with a particular focus on modular conveyor. These systems, which can be flexibly configured, allow for high adaptability and scalability. The work includes an analysis of various module types found in the literature and in industrial practice, followed by a review of the main flow optimization techniques applied to such systems. Subsequently, a Reinforcement Learning algorithm is developed to automate and improve routing policies, with the goal of optimizing the pallet direction decisions along the conveyor system. The main objective of the thesis is to develop a general-purpose tool, adaptable and applicable to any layout, without being limited to a specific case study. To this end, several experiments were conducted on different configurations to verify its effectiveness in variable contexts. After an initial analysis on single-agent systems, the study extends to multi-agent systems, supported by additional experiments. Finally, the developed algorithm was tested in a real physical environment, the Factory Lab of Politecnico di Milano, to validate its performance under real operating conditions. In conclusion, the results demonstrate that an automated and adaptive decision-making system was successfully achieved, capable of selecting effective routing policies and improving system performance in terms of throughput and flow time, confirming the practical value of Reinforcement Learning in industrial automation.

Oggigiorno, in un contesto di mercato dinamico e orientato alla personalizzazione, le aziende manifatturiere necessitano sempre più di strumenti in grado di garantire sistemi produttivi flessibili e al contempo ad alte prestazioni. Per raggiungere tali obiettivi, l’industria manifatturiera sta adottando nuove tecnologie volte a innovare i processi produttivi, in linea con i trend della rivoluzione digitale e della sostenibilità. Questa tesi si propone di utilizzare tecniche di machine learning per ottimizzare le prestazioni dei sistemi di material handling, con particolare riferimento ai nastri trasportatori modulari. Tali sistemi, configurabili in modo flessibile, consentono di ottenere elevata adattabilità e scalabilità. Nel lavoro vengono analizzate diverse tipologie di moduli presenti in letteratura e in ambito industriale, seguite da una rassegna delle tecniche di ottimizzazione dei flussi applicate a questi sistemi. Successivamente, viene sviluppato un algoritmo di Reinforcement Learning per l’automazione e il miglioramento delle politiche di smistamento, con l’obiettivo di ottimizzare le decisioni relative alla direzione dei pallet lungo il sistema di trasporto. L’obiettivo principale della tesi è la realizzazione di uno strumento generale, adattabile e applicabile a qualunque layout, senza essere limitato a un singolo caso studio. A tal fine, vengono condotti numerosi esperimenti su differenti configurazioni per verificarne l’efficacia in contesti variabili. Dopo un’analisi iniziale su sistemi a singolo agente, l’attenzione si estende ai sistemi multi-agente, con ulteriori sperimentazioni dedicate. Infine, l’algoritmo sviluppato è stato testato in un ambiente fisico reale, il Factory Lab del Politecnico di Milano, al fine di validarne il funzionamento in condizioni operative concrete. In conclusione, i risultati dimostrano che è stato sviluppato con successo un sistema decisionale automatizzato e adattivo, capace di selezionare in modo efficace le politiche di direzionamento e di migliorare le prestazioni di throughput e flow time del sistema, confermando il valore pratico del Reinforcement learning nell’automazione industriale.