The growing ferment towards enhanced autonomy on-board spacecrafts is driving the research of leading space agencies. Within the wide spectrum of on-orbit servicing activities (OOS), this work focuses on autonomous guidance of a chaser spacecraft for the map reconstruction of an artificial uncooperative target. Adaptive guidance, which depends on the ability of the system to build a map of the uncertain environment, figure out its location inside of it and determine the control law accordingly, is framed as an active Simultaneous Localization and Mapping (SLAM) problem and modeled as a Partially Observable Markov Decision Process (POMDP). A state-of-the-art Deep Reinforcement Learning (DRL) method, Proximal Policy Optimization (PPO), is explored to train an agent to cleverly plan the shape reconstruction of the target. The main advancement from previous works is a continuous action space, so the agent is no more forced to choose be- tween a predefined set of possible discrete actions. In this way any combination of the 3D thrust vector components is available. The chaser spacecraft is a small satellite mounting an electric propulsion engine defining the action space range, in relative dynamics with the selected uncooperative object, named Vespa (Vega Secondary Payload Adapter). Extensive training tests are performed with random initial conditions to verify the generalizing capability of the DRL agent. The results are compared and verified against previous research in the field, higher-fidelity nonlinear models of the environment, noisy measurements coming from navigation and affecting pose estimation, and many other conditions. A validation assessment is carried out comparing the performance against the fly-around trajectories designed for the ESA project e.Inspector targeting Vespa. Therefore, this work confirms and refines the applicability of RL techniques for autonomous guidance and control and supports the research of a potential exploratory mission around Vespa.

Il crescente fermento verso una maggiore autonomia a bordo dei veicoli spaziali sta guidando la ricerca delle principali agenzie spaziali. All’interno dell’ampio spettro delle attività di manutenzione in orbita (OOS), questo lavoro si concentra sulla guida autonoma di un veicolo spaziale inseguitore per la ricostruzione della mappa di un bersaglio artificiale non cooperativo. La guida adattiva, che dipende dalla capacità del sistema di costruire una mappa dell’ambiente incerto, di individuarne la posizione al suo interno e di determinare di conseguenza la legge di controllo, è inquadrata come un problema attivo di localizzazione e mappatura simultanea (SLAM) e modellato come un processo decisionale di Markov parzialmente osservabile (POMDP). Viene esplorato un metodo di Deep Reinforcement Learning (DRL) all’avanguardia, Proximal Policy Optimization (PPO), per allenare un agente a pianificare in modo intelligente la ricostruzione della forma del bersaglio. L’innovazione principale è uno spazio di azione continua, in modo tale che l’agente non sia più costretto a scegliere tra un insieme predefinito di possibili azioni discrete. In questo modo è disponibile qualsiasi combinazione delle componenti 3D del vettore di spinta. Il chaser è un piccolo satellite che monta un motore a propulsione elettrica, il quale definisce il range dello spazio d’azione, in dinamica relativa con l’oggetto non cooperativo selezionato, chiamato Vespa (Vega Secondary Payload Adapter). Vengono eseguiti test di addestramento approfonditi con condizioni iniziali casuali per verificare la capacità di generalizzazione dell’agente DRL. I risultati vengono confrontati e verificati con i precedenti lavori nello stesso campo, con modelli ambientali non lineari ad alta fedeltà, misurazioni rumorose provenienti dalla navigazione e che influiscono sulla stima della posa, e molti altri scenari. Viene effettuata una valutazione di validazione confrontando le prestazioni con le traiettorie fly-around pianificate per il progetto ESA e.Inspector con target Vespa. Pertanto, questo lavoro conferma e perfeziona l’applicabilità delle tecniche RL per la guida e il controllo autonomi e supporta la ricerca di una potenziale missione esplorativa attorno a Vespa.

Deep reinforcement learning towards spacecraft adaptive vision-based autonomous guidance

Capra, Lorenzo
2020/2021

Abstract

The growing ferment towards enhanced autonomy on-board spacecrafts is driving the research of leading space agencies. Within the wide spectrum of on-orbit servicing activities (OOS), this work focuses on autonomous guidance of a chaser spacecraft for the map reconstruction of an artificial uncooperative target. Adaptive guidance, which depends on the ability of the system to build a map of the uncertain environment, figure out its location inside of it and determine the control law accordingly, is framed as an active Simultaneous Localization and Mapping (SLAM) problem and modeled as a Partially Observable Markov Decision Process (POMDP). A state-of-the-art Deep Reinforcement Learning (DRL) method, Proximal Policy Optimization (PPO), is explored to train an agent to cleverly plan the shape reconstruction of the target. The main advancement from previous works is a continuous action space, so the agent is no more forced to choose be- tween a predefined set of possible discrete actions. In this way any combination of the 3D thrust vector components is available. The chaser spacecraft is a small satellite mounting an electric propulsion engine defining the action space range, in relative dynamics with the selected uncooperative object, named Vespa (Vega Secondary Payload Adapter). Extensive training tests are performed with random initial conditions to verify the generalizing capability of the DRL agent. The results are compared and verified against previous research in the field, higher-fidelity nonlinear models of the environment, noisy measurements coming from navigation and affecting pose estimation, and many other conditions. A validation assessment is carried out comparing the performance against the fly-around trajectories designed for the ESA project e.Inspector targeting Vespa. Therefore, this work confirms and refines the applicability of RL techniques for autonomous guidance and control and supports the research of a potential exploratory mission around Vespa.
BRANDONISIO, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Il crescente fermento verso una maggiore autonomia a bordo dei veicoli spaziali sta guidando la ricerca delle principali agenzie spaziali. All’interno dell’ampio spettro delle attività di manutenzione in orbita (OOS), questo lavoro si concentra sulla guida autonoma di un veicolo spaziale inseguitore per la ricostruzione della mappa di un bersaglio artificiale non cooperativo. La guida adattiva, che dipende dalla capacità del sistema di costruire una mappa dell’ambiente incerto, di individuarne la posizione al suo interno e di determinare di conseguenza la legge di controllo, è inquadrata come un problema attivo di localizzazione e mappatura simultanea (SLAM) e modellato come un processo decisionale di Markov parzialmente osservabile (POMDP). Viene esplorato un metodo di Deep Reinforcement Learning (DRL) all’avanguardia, Proximal Policy Optimization (PPO), per allenare un agente a pianificare in modo intelligente la ricostruzione della forma del bersaglio. L’innovazione principale è uno spazio di azione continua, in modo tale che l’agente non sia più costretto a scegliere tra un insieme predefinito di possibili azioni discrete. In questo modo è disponibile qualsiasi combinazione delle componenti 3D del vettore di spinta. Il chaser è un piccolo satellite che monta un motore a propulsione elettrica, il quale definisce il range dello spazio d’azione, in dinamica relativa con l’oggetto non cooperativo selezionato, chiamato Vespa (Vega Secondary Payload Adapter). Vengono eseguiti test di addestramento approfonditi con condizioni iniziali casuali per verificare la capacità di generalizzazione dell’agente DRL. I risultati vengono confrontati e verificati con i precedenti lavori nello stesso campo, con modelli ambientali non lineari ad alta fedeltà, misurazioni rumorose provenienti dalla navigazione e che influiscono sulla stima della posa, e molti altri scenari. Viene effettuata una valutazione di validazione confrontando le prestazioni con le traiettorie fly-around pianificate per il progetto ESA e.Inspector con target Vespa. Pertanto, questo lavoro conferma e perfeziona l’applicabilità delle tecniche RL per la guida e il controllo autonomi e supporta la ricerca di una potenziale missione esplorativa attorno a Vespa.
File allegati
File Dimensione Formato  
Thesis___Lorenzo_Capra.pdf

accessibile in internet per tutti

Descrizione: Deep Reinforcement Learning towards spacecraft adaptive Vision-Based autonomous Guidance - Lorenzo Capra
Dimensione 5.16 MB
Formato Adobe PDF
5.16 MB Adobe PDF Visualizza/Apri
Executive_Summary___Lorenzo_Capra.pdf

accessibile in internet per tutti

Descrizione: Executive Summary - Lorenzo Capra
Dimensione 1.02 MB
Formato Adobe PDF
1.02 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/185918