Offshore missions are typically carried out in one of the most hazardous working conditions, with vessels and loads constantly being impacted by weather. The impact between the loads and vessels, while the offshore cranes trying to accomplish the load-landing or lifting operation, is a crucial action that could cause serious injuries and immense damages. Reinforcement learning has been involved into the control process of multiple offshore crane operations, including load-landing operations, due to the fact that one of its configurations is being able to operate on model-free based structure, can highly facilitate the interaction with the offshore complicated environment. In this thesis, optimal control sequences for the offshore crane’s actuators are generated using Q_learning algorithm interacting with two different environments. The first is simple, where the crane and the load are considered a point mass and the action_space is its velocities, the second is more complicated where the crane’s mathematical model has been created using Denavit– Hartenberg technique for the kinematics and Lagrange approach for the dynamical analysis with MATLAB platform, hence the action_space, in this case, is the angles of the crane’s joints. Under the assumption that the vessel, in both environments, is subjected to the sea waves’ motion which has been generated theoretically. The bias that usually exists in the Q_Learning algorithms has been located using Double Q_learning algorithm. The performance of the Q_learning algorithm has been measured with the average return feature, where the discount factor variation showed a reflection on the asymptotic value of the average return, but negligible effect on the convergence time. In addition, the learning rate reduction is tremendously reducing the sparsity of the average return values. Moreover, the trained control sequence has been tested on a separate sample of episodes, and a verification of the hypothesis that, unlike the supervised learning, the reinforcement learning cannot have a global optimal control sequence but only a local one, has been concluded on our application domain.

Le missioni offshore si svolgono tipicamente in una delle condizioni di lavoro più pericolose, con navi e carichi costantemente influenzati dalle condizioni atmosferiche. L’impatto tra i carichi e le navi, mentre le gru offshore cercano di portare a termine l’atterraggio del carico o l’operazione di sollevamento, è un’azione cruciale che potrebbe causare gravi lesioni e immensi danni. L’apprendimento per rinforzo è stato coinvolto nel processo di controllo di più operazioni di gru offshore, comprese le operazioni di atterraggio del carico, a causa del fatto che una delle sue configurazioni è in grado di operare su una struttura priva di modelli, può facilitare molto l’interazione con il complicato ambiente offshore. In questa tesi, il controllo ottimale sequenze di controllo ottimali per gli attuatori della gru offshore sono generate utilizzando l’algoritmo Q_learning interagendo con due diversi ambienti. Il primo è semplice, dove la gru e il carico sono considerati una massa puntiforme e l’action_space è la sua velocità, il secondo è più complicato dove il modello matematico della gru è stato creato utilizzando la tecnica Denavit- Hartenberg per la cinematica e l’approccio Lagrange per l’analisi dinamica con la piattaforma MATLAB, quindi lo spazio d’azione, in questo caso, sono gli angoli delle giunti della gru. Nell’ipotesi che la nave, in entrambi gli ambienti, sia soggetta al moto delle onde del mare che è stato generato teoricamente. La distorsione che di solito esiste negli algoritmi di Q_Learning è stato localizzato utilizzando l’algoritmo Double Q_learning algoritmo. La performance dell’algoritmo Q_learning è stata misurata con la rendimento medio, dove la variazione del fattore di sconto ha mostrato un riflesso sul valore asintotico del rendimento medio, ma un effetto trascurabile sul tempo di convergenza. In Inoltre, la riduzione del tasso di apprendimento sta riducendo enormemente la sparsità dei valori di valori di rendimento medio. Inoltre, la sequenza di controllo addestrata è stata testata su un campione separato di episodi, e una verifica dell’ipotesi che, a differenza dell’apprendimento supervisionato, l’apprendimento per rinforzo non può avere una sequenza di controllo ottimale globale ma solo una locale, è stata conclusa sul nostro dominio di applicazione.

Impact control for offshore crane in load-landing operations using reinforcement learning

Maamoun, Khaled Said Ahmed
2021/2022

Abstract

Offshore missions are typically carried out in one of the most hazardous working conditions, with vessels and loads constantly being impacted by weather. The impact between the loads and vessels, while the offshore cranes trying to accomplish the load-landing or lifting operation, is a crucial action that could cause serious injuries and immense damages. Reinforcement learning has been involved into the control process of multiple offshore crane operations, including load-landing operations, due to the fact that one of its configurations is being able to operate on model-free based structure, can highly facilitate the interaction with the offshore complicated environment. In this thesis, optimal control sequences for the offshore crane’s actuators are generated using Q_learning algorithm interacting with two different environments. The first is simple, where the crane and the load are considered a point mass and the action_space is its velocities, the second is more complicated where the crane’s mathematical model has been created using Denavit– Hartenberg technique for the kinematics and Lagrange approach for the dynamical analysis with MATLAB platform, hence the action_space, in this case, is the angles of the crane’s joints. Under the assumption that the vessel, in both environments, is subjected to the sea waves’ motion which has been generated theoretically. The bias that usually exists in the Q_Learning algorithms has been located using Double Q_learning algorithm. The performance of the Q_learning algorithm has been measured with the average return feature, where the discount factor variation showed a reflection on the asymptotic value of the average return, but negligible effect on the convergence time. In addition, the learning rate reduction is tremendously reducing the sparsity of the average return values. Moreover, the trained control sequence has been tested on a separate sample of episodes, and a verification of the hypothesis that, unlike the supervised learning, the reinforcement learning cannot have a global optimal control sequence but only a local one, has been concluded on our application domain.
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2021/2022
Le missioni offshore si svolgono tipicamente in una delle condizioni di lavoro più pericolose, con navi e carichi costantemente influenzati dalle condizioni atmosferiche. L’impatto tra i carichi e le navi, mentre le gru offshore cercano di portare a termine l’atterraggio del carico o l’operazione di sollevamento, è un’azione cruciale che potrebbe causare gravi lesioni e immensi danni. L’apprendimento per rinforzo è stato coinvolto nel processo di controllo di più operazioni di gru offshore, comprese le operazioni di atterraggio del carico, a causa del fatto che una delle sue configurazioni è in grado di operare su una struttura priva di modelli, può facilitare molto l’interazione con il complicato ambiente offshore. In questa tesi, il controllo ottimale sequenze di controllo ottimali per gli attuatori della gru offshore sono generate utilizzando l’algoritmo Q_learning interagendo con due diversi ambienti. Il primo è semplice, dove la gru e il carico sono considerati una massa puntiforme e l’action_space è la sua velocità, il secondo è più complicato dove il modello matematico della gru è stato creato utilizzando la tecnica Denavit- Hartenberg per la cinematica e l’approccio Lagrange per l’analisi dinamica con la piattaforma MATLAB, quindi lo spazio d’azione, in questo caso, sono gli angoli delle giunti della gru. Nell’ipotesi che la nave, in entrambi gli ambienti, sia soggetta al moto delle onde del mare che è stato generato teoricamente. La distorsione che di solito esiste negli algoritmi di Q_Learning è stato localizzato utilizzando l’algoritmo Double Q_learning algoritmo. La performance dell’algoritmo Q_learning è stata misurata con la rendimento medio, dove la variazione del fattore di sconto ha mostrato un riflesso sul valore asintotico del rendimento medio, ma un effetto trascurabile sul tempo di convergenza. In Inoltre, la riduzione del tasso di apprendimento sta riducendo enormemente la sparsità dei valori di valori di rendimento medio. Inoltre, la sequenza di controllo addestrata è stata testata su un campione separato di episodi, e una verifica dell’ipotesi che, a differenza dell’apprendimento supervisionato, l’apprendimento per rinforzo non può avere una sequenza di controllo ottimale globale ma solo una locale, è stata conclusa sul nostro dominio di applicazione.
File allegati
File Dimensione Formato  
Executive_Summary.pdf

solo utenti autorizzati dal 01/04/2023

Descrizione: Executive_Summary
Dimensione 1.21 MB
Formato Adobe PDF
1.21 MB Adobe PDF   Visualizza/Apri
Thesis.pdf

solo utenti autorizzati dal 01/04/2023

Descrizione: Thesis_Manuscript
Dimensione 4.93 MB
Formato Adobe PDF
4.93 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186131