In order to address the challenges of future space exploration, new lightweight and model-free guidance algorithms are necessary to make spacecraft completely autonomous. In recent years, autonomous spacecraft guidance has been a subject of intense research, and in the near future, this technology will be a great advantage for proximity operations in the cislunar space. For instance, NASA's Artemis program plans to establish a lunar Gateway, and this type of autonomous maneuver, besides the nominal Rendezvous and Docking (RVD) ones, is also necessary for the assembly and maintenance procedures. In this context a Meta-Reinforcement Learning (Meta-RL) algorithm is applied to address the real-time relative optimal guidance problem of a spacecraft in the cislunar environment. Non-Keplerian orbits have more complex dynamics, and classic control theory may be less flexible and more computationally expensive with respect to Machine Learning (ML) methods. Furthermore, Meta-RL is chosen for its peculiar and promising ability of "learning how to learn" through experience. It is an ML approach in which a model is trained on a variety of tasks in such a way that it becomes more efficient and effective at learning new ones. A stochastic optimal control problem is modeled in the Circular Restricted Three-Body Problem (CRTBP) framework as a discrete time-scale Markov Decision Process (MDP). The agent, an LSTM-based network, is then trained with a state-of-the-art actor-critic algorithm known as Proximal Policy Optimization (PPO). Additionally, operational constraints and stochastic effects are considered to assess policy safety and robustness. An MLP-based agent and an optimal control solution using pseudospectral methods are also evaluated for comparison purposes. The resulting tool is a closed-loop controller able to autonomously guide a spacecraft in the context of cislunar proximity operations. It is able to approximate the optimal control solution with a very general and not hand-crafted algorithmic framework, guaranteeing at the same time high robustness and computational efficiency.

Per affrontare le sfide della futura esplorazione spaziale, occorrono nuovi algoritmi di guida computazionalmente efficienti e privi di modelli per rendere i satelliti completamente autonomi. In anni recenti, la guida autonoma dei satelliti è stata oggetto di intense ricerche e nel prossimo futuro questa tecnologia rappresenterà un grande vantaggio per le operazioni di prossimità nello spazio cislunare. Ad esempio, il programma Artemis della NASA prevede di stabilire un Gateway lunare, e questo tipo di manovre autonome, oltre alle manovre nominali Rendezvous and Docking (RVD), è richiesto anche per le procedure di assemblaggio e manutenzione. In questo contesto, viene applicato un algoritmo Meta-Reinforcement Learning (Meta-RL) per affrontare il problema della guida ottimale relativa in tempo reale di un satellite in ambiente cislunare. Le orbite non-kepleriane hanno dinamiche più complesse, e la teoria del controllo classica può essere meno flessibile e più computazionalmente costosa rispetto ai metodi di Machine Learning (ML). In aggiunta, Meta-RL è scelto per la sua particolare e promettente capacità di "imparare ad imparare" attraverso l'esperienza. È un approccio ML in cui un modello viene allenato su una varietà di compiti in modo tale che diventi più efficiente ed efficace nell'apprendimento di nuovi. Un problema di controllo ottimale stocastico è modellato nel contesto del Circular Restricted Three-Body Problem (CRTBP) come un Markov Decision Process (MDP) su scala temporale discreta. L'agente, basato su una rete neurale composta da celle LSTM, viene poi addestrato con un algoritmo attore-critico allo stato dell'arte noto come Proximal Policy Optimization (PPO). Inoltre, i vincoli operativi e gli effetti stocastici sono considerati per valutare la sicurezza e la solidità della legge di controllo. Ai fini del confronto vengono valutati anche un agente basato su celle MLP e una soluzione di controllo ottimale che utilizza metodi pseudospettrali diretti. Il risultato è un controllore ad anello chiuso in grado di guidare autonomamente un satellite nell'ambito delle operazioni di prossimità cislunare. È in grado di approssimare la soluzione di controllo ottimale con un algoritmo flessibile e privo di modello, garantendo allo stesso tempo elevata robustezza ed efficienza computazionale.

Meta-reinforcement learning for spacecraft proximity operations guidance and control in Cislunar Space

Fereoli, Giovanni
2022/2023

Abstract

In order to address the challenges of future space exploration, new lightweight and model-free guidance algorithms are necessary to make spacecraft completely autonomous. In recent years, autonomous spacecraft guidance has been a subject of intense research, and in the near future, this technology will be a great advantage for proximity operations in the cislunar space. For instance, NASA's Artemis program plans to establish a lunar Gateway, and this type of autonomous maneuver, besides the nominal Rendezvous and Docking (RVD) ones, is also necessary for the assembly and maintenance procedures. In this context a Meta-Reinforcement Learning (Meta-RL) algorithm is applied to address the real-time relative optimal guidance problem of a spacecraft in the cislunar environment. Non-Keplerian orbits have more complex dynamics, and classic control theory may be less flexible and more computationally expensive with respect to Machine Learning (ML) methods. Furthermore, Meta-RL is chosen for its peculiar and promising ability of "learning how to learn" through experience. It is an ML approach in which a model is trained on a variety of tasks in such a way that it becomes more efficient and effective at learning new ones. A stochastic optimal control problem is modeled in the Circular Restricted Three-Body Problem (CRTBP) framework as a discrete time-scale Markov Decision Process (MDP). The agent, an LSTM-based network, is then trained with a state-of-the-art actor-critic algorithm known as Proximal Policy Optimization (PPO). Additionally, operational constraints and stochastic effects are considered to assess policy safety and robustness. An MLP-based agent and an optimal control solution using pseudospectral methods are also evaluated for comparison purposes. The resulting tool is a closed-loop controller able to autonomously guide a spacecraft in the context of cislunar proximity operations. It is able to approximate the optimal control solution with a very general and not hand-crafted algorithmic framework, guaranteeing at the same time high robustness and computational efficiency.
SCHAUB, HANSPETER
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Per affrontare le sfide della futura esplorazione spaziale, occorrono nuovi algoritmi di guida computazionalmente efficienti e privi di modelli per rendere i satelliti completamente autonomi. In anni recenti, la guida autonoma dei satelliti è stata oggetto di intense ricerche e nel prossimo futuro questa tecnologia rappresenterà un grande vantaggio per le operazioni di prossimità nello spazio cislunare. Ad esempio, il programma Artemis della NASA prevede di stabilire un Gateway lunare, e questo tipo di manovre autonome, oltre alle manovre nominali Rendezvous and Docking (RVD), è richiesto anche per le procedure di assemblaggio e manutenzione. In questo contesto, viene applicato un algoritmo Meta-Reinforcement Learning (Meta-RL) per affrontare il problema della guida ottimale relativa in tempo reale di un satellite in ambiente cislunare. Le orbite non-kepleriane hanno dinamiche più complesse, e la teoria del controllo classica può essere meno flessibile e più computazionalmente costosa rispetto ai metodi di Machine Learning (ML). In aggiunta, Meta-RL è scelto per la sua particolare e promettente capacità di "imparare ad imparare" attraverso l'esperienza. È un approccio ML in cui un modello viene allenato su una varietà di compiti in modo tale che diventi più efficiente ed efficace nell'apprendimento di nuovi. Un problema di controllo ottimale stocastico è modellato nel contesto del Circular Restricted Three-Body Problem (CRTBP) come un Markov Decision Process (MDP) su scala temporale discreta. L'agente, basato su una rete neurale composta da celle LSTM, viene poi addestrato con un algoritmo attore-critico allo stato dell'arte noto come Proximal Policy Optimization (PPO). Inoltre, i vincoli operativi e gli effetti stocastici sono considerati per valutare la sicurezza e la solidità della legge di controllo. Ai fini del confronto vengono valutati anche un agente basato su celle MLP e una soluzione di controllo ottimale che utilizza metodi pseudospettrali diretti. Il risultato è un controllore ad anello chiuso in grado di guidare autonomamente un satellite nell'ambito delle operazioni di prossimità cislunare. È in grado di approssimare la soluzione di controllo ottimale con un algoritmo flessibile e privo di modello, garantendo allo stesso tempo elevata robustezza ed efficienza computazionale.
File allegati
File Dimensione Formato  
2023_12_Fereoli.pdf

accessibile in internet per tutti

Descrizione: Master's Thesis
Dimensione 26.21 MB
Formato Adobe PDF
26.21 MB Adobe PDF Visualizza/Apri
2023_12_Fereoli_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 6.07 MB
Formato Adobe PDF
6.07 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214340