Assessment of deep reinforcement learning for flexibility enhancement of planetary landing guidance and control : reinforcement learning of policies for reusable launchers planetary landing

The planetary landing problem is gaining relevance in the space sector, spanning a wide range of applications from unmanned probes landing on other planetary bodies to reusable first and second stages of launcher vehicles. It is therefore crucial to assess the performance of novel techniques and their advantages and disadvantages. The purpose of this work is the development of an integrated 6DOF guidance and control approach based on reinforcement learning of deep neural network policies for fuel-optimal planetary landing control, specifically with application to a launcher first stage terminal landing, and the assessment of its performance and robustness. 3DOF and 6DOF simulators are developed and encapsulated in MDP-like (Markov Decision Process) industry-standard compatible environments. Particular care is given in thoroughly shaping reward functions capable of achieving the landing both successfully and in a fuel-optimal manner. A cloud pipeline to effectively train an agent using a PPO reinforcement learning algorithm to successfully achieve the landing goal is developed and the performance and robustness of the obtained policy is assessed in an industrially-validated 6DOF simulator in the presence of additional disturbances and uncertainties in the model parameters.

Il problema dell’atterragio planetario sta assumendo un ruolo sempre più centrale nel settore spaziale, attraverso un ampio spettro di applicazioni, da sonde autonome che atterrano su altri corpi celesti a primi e secondi stadi di lanciatori riutilizzabili. E’ quindi essenziale valutare le prestazioni di nuove tecniche e i loro vantaggi e svantaggi in queste applicazioni. Lo scopo di questo lavoro è lo sviluppo di un approccio integrato di guida e controllo a 6DOF basato sull’apprendimento di policy basate su deep neural networks tramite reinforcement learning per ottenere traiettorie di atterraggio planetario ottimale che minimizzino il consumo di carburante. In particolare è studiata l’applicazione alla fase terminale di atterraggio del primo stadio di un lanciatore e la valutazione delle sue prestazioni e della sua robustezza. Due simulatori a 3DOF e 6DOF sono sviluppati e incapsulati in environment basati sul concetto di MDP (Markov Decision Process), compatibili con gli standard industriali. Particolare attenzione è stata dedicata al modellare accuratamente funzioni di reward in grado di realizzare l’atterraggio con successo e in modo ottimale dal punto di vista del carburante. Una pipeline cloud per addestrare efficacemente un agente che utilizza l’algoritmo di reinforcement learning PPO per raggiungere con successo l’obiettivo di atterraggio è sviluppata e le prestazioni e la robustezza della policy ottenuta sono valutate in un simulatore 6DOF validato a livello industriale in presenza di disturbi aggiuntivi e incertezze parametriche del modello.