Industry 4.0 introduced the era of smart factories, characterized by the integration of digital technologies into traditional industries. This thesis focuses on addressing the problem of product routing in industrial chains with Reinforcement Learning (RL) techniques. First, we modeled the problem as a Goal-based Networked Markov Game in which agents are industrial robots that decide where to move products around the industrial plant. Then we developed a Gym-like simulator compatible with the RL framework and most of the RL algorithms. Due to intrinsic requirements associated with large-scale production, that is the absence of a centralized controller and expensive data collection, centralized and online learning approaches have been discharged in favor of a distributed and offline counterpart, and in particular a distributed version of the Fitted Q-iteration (FQI) algorithm have been proposed. Different industrial layouts have been tested, investigating the role of communication in such an algorithmic blueprint. The results obtained suggest that distributed FQI (dFQI) is indeed a promising solution for enhancing routing efficiency while reducing production time, while communication between agents is valuable only when impactful information is shared.

Lo sviluppo dell'Industria 4.0 ha introdotto l'era delle "smart factories", caratterizzate dall'integrazione di tecnologie digitali nei tradizionali impianti industriali. Lo scopo di questa tesi è affrontare il problema dell'instradamento di prodotti in catene di produzione industriali con tecniche di Reinforcement Learning (RL). Abbiamo modellato il problema come un Goal-based Networked Markov Game in cui gli agenti sono robot industriali che decidono dove muovere i prodotti all'interno degli impianti di produzione. Il primo contributo è stato lo sviluppo di un simulatore Gym-like compatibile con il framework RL e la maggior parte degli algoritmi RL. Successivamente, a causa delle complessità associate con la produzione su larga scala, le tecniche di Reinforcement Learning centralizzato sono state scartate in favore di una versione distribuita dell'algoritmo Fitted Q-iteration (FQI). Nel corso del lavoro sono stati testati diversi layout industriali, investigando il ruolo della comunicazione nello scenario algoritmico descritto. I risultati ottenuti suggeriscono che FQI distribuito è una soluzione promettente per incrementare l'efficienza dell'instradamento dei prodotti riducendone i tempi di produzione, mentre la comunicazione tra gli agenti è efficace solo quando vengono condivise informazioni di impatto.

Offline Distributed Reinforcement Learning: an Industrial Product Routing Case-Study

BRUNETTI, ENRICO
2023/2024

Abstract

Industry 4.0 introduced the era of smart factories, characterized by the integration of digital technologies into traditional industries. This thesis focuses on addressing the problem of product routing in industrial chains with Reinforcement Learning (RL) techniques. First, we modeled the problem as a Goal-based Networked Markov Game in which agents are industrial robots that decide where to move products around the industrial plant. Then we developed a Gym-like simulator compatible with the RL framework and most of the RL algorithms. Due to intrinsic requirements associated with large-scale production, that is the absence of a centralized controller and expensive data collection, centralized and online learning approaches have been discharged in favor of a distributed and offline counterpart, and in particular a distributed version of the Fitted Q-iteration (FQI) algorithm have been proposed. Different industrial layouts have been tested, investigating the role of communication in such an algorithmic blueprint. The results obtained suggest that distributed FQI (dFQI) is indeed a promising solution for enhancing routing efficiency while reducing production time, while communication between agents is valuable only when impactful information is shared.
LIKMETA, AMARILDO
ZAMBONI, RICCARDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Lo sviluppo dell'Industria 4.0 ha introdotto l'era delle "smart factories", caratterizzate dall'integrazione di tecnologie digitali nei tradizionali impianti industriali. Lo scopo di questa tesi è affrontare il problema dell'instradamento di prodotti in catene di produzione industriali con tecniche di Reinforcement Learning (RL). Abbiamo modellato il problema come un Goal-based Networked Markov Game in cui gli agenti sono robot industriali che decidono dove muovere i prodotti all'interno degli impianti di produzione. Il primo contributo è stato lo sviluppo di un simulatore Gym-like compatibile con il framework RL e la maggior parte degli algoritmi RL. Successivamente, a causa delle complessità associate con la produzione su larga scala, le tecniche di Reinforcement Learning centralizzato sono state scartate in favore di una versione distribuita dell'algoritmo Fitted Q-iteration (FQI). Nel corso del lavoro sono stati testati diversi layout industriali, investigando il ruolo della comunicazione nello scenario algoritmico descritto. I risultati ottenuti suggeriscono che FQI distribuito è una soluzione promettente per incrementare l'efficienza dell'instradamento dei prodotti riducendone i tempi di produzione, mentre la comunicazione tra gli agenti è efficace solo quando vengono condivise informazioni di impatto.
File allegati
File Dimensione Formato  
2024_07_Brunetti_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 1.1 MB
Formato Adobe PDF
1.1 MB Adobe PDF   Visualizza/Apri
2024_07_Brunetti_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 6.85 MB
Formato Adobe PDF
6.85 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223297