The advent of technologies for acquiring, storing and communicating data has enabled the new industrial revolution, also known as Industry 4.0. These new technologies make possible to exploit data from production systems and through their analysis it is possible to study how they work and how they can be improved. Given the possibility of receiving the state of the system in real time, it is therefore possible to verify the presence of problems and at the same time solve them, through the implementation of actions already predetermined through a proactive method, or to define the best solution in real time with reactive methods. One of these problems to be solved concerns the breakdown of certain machines or machine components, with the need to define some actions to optimise the maintenance policies. Research in this area is constantly evolving, especially with regard to dynamic policies, in which not only the state of the machine is examined, but the whole system and the best action is taken in relation to it. The application of these techniques, however, requires data management and acquisition that can only be applied thanks to available technologies coming from Industry 4.0. The aim of this thesis is to provide an approach for the use of reinforcement learning (RL) algorithms for the definition of maintenance policies aimed at maximising the production rate of the entire plant. The algorithm has been tested in two cases extracted from a real production line. In both cases the results obtained by the use of reinforcement learning algorithm are compared with the ones coming from the two-threshold condition-based maintenance policy (CBM). The policy defined by the use of RL is similar to a threshold policy, reason for which the two-threshold CBM policy is chosen for the comparison and because there are not any other methods able to find the best policy for each state of the system. In the first case, the test case, the reinforcement learning algorithm is tested on a system composed of three machines and the performances are compared with the results obtained with the best static condition-based maintenance policy, showing as a result the ability of the RL algorithm to find the optimal solution. In the second case, the system is made more complex by introducing two modules in parallel and comparing the results with the best static condition-based maintenance policy, showing how a dynamic algorithm able to find better or equal solutions than a static one. It is proven that RL algorithms are able to provide better results than the CBM policy with two thresholds in situations where there is a common resource between the two modules defined by the presence of a downstream machine which represents the bottleneck of the system.

L'avvento di tecnologie per l'acquisizione, archiviazione e comunicazione dei dati hanno permesso la nuova rivoluzione industriale o anche detta Industria 4.0. Queste nuove tecnologie permettono di sfruttare i dati provenienti dai sistemi produttivi e attraverso la loro analisi è possibile studiare come essi funzionano e come è possibile migliorarli. Data la possibilità di recepire in tempo reale lo stato del sistema, è dunque possibile verificare la presenza di problematiche e al tempo stesso risolverli, attraverso l'implementazione di azioni già precedentemente prestabilite attraverso un metodo proattivo, o definire la migliore soluzione in tempo reale attraverso dei metodi reattivi. Una di queste problematiche da risolvere può riguardare la rottura di alcune macchine o componenti di esse, con la necessità di definire delle azioni in modo da ottimizzare le varie politiche di manutenzione. La ricerca in questo ambito è in continua evoluzione, soprattutto per quanto riguarda le politiche dinamiche, in cui non viene preso in esame soltanto lo stato della macchina interessata, ma di tutto il sistema e in relazione a esso viene presa l'azione migliore. L'applicazione di queste tecniche richiede però una gestione e acquisizione dei dati che solo grazie alle tecnologie da poco disponibili possono essere applicate. Lo scopo di questo lavoro di tesi è quello di fornire un approccio per l'utilizzo di algoritmi di Reinforcement Learning (RL) per la definizione di politiche di manutenzione atte a massimizzare il tasso di produzione dell'intero impianto produttivo e l'algoritmo è stato testato in due casi. I due casi sono estratti da linee di produzione reali. In entrambi i risultati ottenuti dall'uso dell'algoritmo di reinforcement learning sono stati confrontati con quelli provenienti dalla politica di manutenzione basata su due soglie, a causa delle somiglianze tra le due politiche ottenute, anche se quest'ultima non è un metodo di confronto adatto perché definisce politiche di soglia invece di definire la migliore azione per ogni stato del sistema, ma non sono presenti in letteratura altri algoritmi per la definizione della migliore azione per ogni stato. Nel primo caso, il caso di prova, l'algoritmo di reinforcement learning è stato testato su un sistema composto da tre macchine e le performance sono state confrontate con i risultati ottenuti con la migliore politica statica di manutenzione basata sulle condizioni, mostrando come risultato l'abilità dell'algoritmo di RL di trovare la soluzione di ottimo. Nel secondo caso invece il sistema è stato reso più complesso mediante l'introduzione di due moduli in parallelo dimostrando come l'algoritmo dinamico possa essere in grado di trovare delle soluzioni migliori o uguali rispetto ad un algoritmo statico. E' stato provato come gli algoritmi di RL siano in grado di fornire dei risultati migliori rispetto alla politica CBM con due soglie nelle situazioni in cui vi è una risorsa in comune tra i due moduli, e questa risorsa è stata definita dalla presenza di una macchina a valle rappresentante il collo di bottiglia del sistema.

Reinforcement learning-based maintenance policy for manufacturing systems with degrading machines

Spada, Luca
2019/2020

Abstract

The advent of technologies for acquiring, storing and communicating data has enabled the new industrial revolution, also known as Industry 4.0. These new technologies make possible to exploit data from production systems and through their analysis it is possible to study how they work and how they can be improved. Given the possibility of receiving the state of the system in real time, it is therefore possible to verify the presence of problems and at the same time solve them, through the implementation of actions already predetermined through a proactive method, or to define the best solution in real time with reactive methods. One of these problems to be solved concerns the breakdown of certain machines or machine components, with the need to define some actions to optimise the maintenance policies. Research in this area is constantly evolving, especially with regard to dynamic policies, in which not only the state of the machine is examined, but the whole system and the best action is taken in relation to it. The application of these techniques, however, requires data management and acquisition that can only be applied thanks to available technologies coming from Industry 4.0. The aim of this thesis is to provide an approach for the use of reinforcement learning (RL) algorithms for the definition of maintenance policies aimed at maximising the production rate of the entire plant. The algorithm has been tested in two cases extracted from a real production line. In both cases the results obtained by the use of reinforcement learning algorithm are compared with the ones coming from the two-threshold condition-based maintenance policy (CBM). The policy defined by the use of RL is similar to a threshold policy, reason for which the two-threshold CBM policy is chosen for the comparison and because there are not any other methods able to find the best policy for each state of the system. In the first case, the test case, the reinforcement learning algorithm is tested on a system composed of three machines and the performances are compared with the results obtained with the best static condition-based maintenance policy, showing as a result the ability of the RL algorithm to find the optimal solution. In the second case, the system is made more complex by introducing two modules in parallel and comparing the results with the best static condition-based maintenance policy, showing how a dynamic algorithm able to find better or equal solutions than a static one. It is proven that RL algorithms are able to provide better results than the CBM policy with two thresholds in situations where there is a common resource between the two modules defined by the presence of a downstream machine which represents the bottleneck of the system.
LUGARESI, GIOVANNI
ZHANG, MENGYI
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
L'avvento di tecnologie per l'acquisizione, archiviazione e comunicazione dei dati hanno permesso la nuova rivoluzione industriale o anche detta Industria 4.0. Queste nuove tecnologie permettono di sfruttare i dati provenienti dai sistemi produttivi e attraverso la loro analisi è possibile studiare come essi funzionano e come è possibile migliorarli. Data la possibilità di recepire in tempo reale lo stato del sistema, è dunque possibile verificare la presenza di problematiche e al tempo stesso risolverli, attraverso l'implementazione di azioni già precedentemente prestabilite attraverso un metodo proattivo, o definire la migliore soluzione in tempo reale attraverso dei metodi reattivi. Una di queste problematiche da risolvere può riguardare la rottura di alcune macchine o componenti di esse, con la necessità di definire delle azioni in modo da ottimizzare le varie politiche di manutenzione. La ricerca in questo ambito è in continua evoluzione, soprattutto per quanto riguarda le politiche dinamiche, in cui non viene preso in esame soltanto lo stato della macchina interessata, ma di tutto il sistema e in relazione a esso viene presa l'azione migliore. L'applicazione di queste tecniche richiede però una gestione e acquisizione dei dati che solo grazie alle tecnologie da poco disponibili possono essere applicate. Lo scopo di questo lavoro di tesi è quello di fornire un approccio per l'utilizzo di algoritmi di Reinforcement Learning (RL) per la definizione di politiche di manutenzione atte a massimizzare il tasso di produzione dell'intero impianto produttivo e l'algoritmo è stato testato in due casi. I due casi sono estratti da linee di produzione reali. In entrambi i risultati ottenuti dall'uso dell'algoritmo di reinforcement learning sono stati confrontati con quelli provenienti dalla politica di manutenzione basata su due soglie, a causa delle somiglianze tra le due politiche ottenute, anche se quest'ultima non è un metodo di confronto adatto perché definisce politiche di soglia invece di definire la migliore azione per ogni stato del sistema, ma non sono presenti in letteratura altri algoritmi per la definizione della migliore azione per ogni stato. Nel primo caso, il caso di prova, l'algoritmo di reinforcement learning è stato testato su un sistema composto da tre macchine e le performance sono state confrontate con i risultati ottenuti con la migliore politica statica di manutenzione basata sulle condizioni, mostrando come risultato l'abilità dell'algoritmo di RL di trovare la soluzione di ottimo. Nel secondo caso invece il sistema è stato reso più complesso mediante l'introduzione di due moduli in parallelo dimostrando come l'algoritmo dinamico possa essere in grado di trovare delle soluzioni migliori o uguali rispetto ad un algoritmo statico. E' stato provato come gli algoritmi di RL siano in grado di fornire dei risultati migliori rispetto alla politica CBM con due soglie nelle situazioni in cui vi è una risorsa in comune tra i due moduli, e questa risorsa è stata definita dalla presenza di una macchina a valle rappresentante il collo di bottiglia del sistema.
File allegati
File Dimensione Formato  
2021_04_Spada.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 9.94 MB
Formato Adobe PDF
9.94 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174029