The success of proximity operations near small bodies strongly depends on a proper characterization of the corresponding gravitational environment; indeed, the accuracy of the gravity field model constitutes a crucial aspect for the definition of the spacecraft dynamics. Currently, the operations required for an accurate reconstruction of the gravity field are orchestrated by ground control personnel; however, automatizing such flight control process may yield reduced operational costs and additional mission opportunities. The problem of autonomous gravity field reconstruction can be formulated as a Partially Observable Markov Decision Process; in this framework, a spacecraft moving in an unknown gravitational environment can be modeled as an agent that autonomously implements a guidance policy to obtain accurate gravimetric measurements. Possibly compatible with limited on-board resources, the solution of the problem can be found through the exploitation of novel techniques based on Reinforcement Learning (RL) and Artificial Neural Networks (ANN), together with the introduction of pre-trained agents. The architecture proposed in this work employs a Hopfield Neural Network (HNN) for the reconstruction of the gravity field, which is represented as a spherical harmonics expansion, assuming an Exterior Gravity Field Model. The agent’s objective is to determine a trajectory around the target body that would allow the quick and precise estimation of the spherical harmonics coefficients via HNN. The algorithm adopted is the Advantage-Actor Critic (A2C), where the agent plays the roles of the Actor; such RL algorithm exploits two networks that work in parallel with the aim of maximizing the return, operation corresponding to the reconstruction of the gravity field. In particular, the works focuses on the reconstruction of the first zonal Stokes’ coefficient C2, testing the architecture on specific cases study, as well as on generic environments. The training of the networks exploits an Adam’s algorithm for the learning process, and it is based on the definition of a reward function designed to retrieve the expansion coefficient in a quick and safe manner. The results presented in this work show that an agent with a proper training can perform better than one that follows a random behavior, achieving the desired accuracy more often than in a random simulation, in a wide pool of scenarios (different initial conditions for the same asteroid and different asteroid). Such results allow to assess the feasibility of the method proposed, thus defining a promising starting point for further developments.

Il successo di operazioni di prossimità vicino a piccoli corpi dipende da un’adeguata caratterizzazione dell' ambiente gravitazionale associato; l’accuratezza del modello del campo gravitazionale costituisce un elemento cruciale alla determinazione della dinamica del satellite. Attualmente, le operazioni richieste per una ricostruzione accurata del campo gravitazionale sono gestite dal personale delle stazioni a terra; tuttavia, l’automatizzazione di questo processo di controllo di volo potrebbe portare alla riduzione dei costi operativi ed a nuove opportunità di missione. Il problema della ricostruzione autonoma del campo di gravità può essere formulato come un Processo di Markov Parzialmente Osservabile; in questo ambito, un satellite in volo in un ambiente gravitazionale non-noto può essere modellato come un agente che autonomamente definisce una legge di guida mirata ad ottenere accurate misurazioni gravimetriche. La soluzione a tale problema, auspicabilmente compatibile con le limitate risorse di bordo, può essere trovata attraverso lo sfruttamento di tecniche innovative basate sull’apprendimento per rinforzo e sulle reti neurali artificiali, unitamente all’introduzione di agenti pre-sottoposti ad una fase di training. L’architettura proposta in questo lavoro adotta una rete neurale di Hopfiled per la ricostruzione del campo gravitazionale, rappresentato tramite espansioni armoniche sferiche, assumendo un modello di campo di gravità esterno. L’obiettivo dell’agente consiste nel definire una traiettoria intorno al corpo oggetto di studio mirata all’acquisizione di una stima rapida e precisa dei coefficienti dell’espansione attraverso la rete di Hopfield. L’algoritmo di apprendimento per rinforzo si basa sul metodo noto come Advantage Actor-Critic (A2C), dove l’agente ricopre il ruolo dell’Actor; tale algoritmo sfrutta due reti neurali che lavorano in parallelo con lo scopo di manovrare efficacemente il satellite ai fini della ricostruzione del campo gravitazionale. In particolare, il lavoro si focalizza sulla ricostruzione del primo coefficiente zonale C2, testando diverse architetture e condizioni di ambiente dinamico. Il training delle reti sfrutta un algoritmo di Adam per il processo di apprendimento, ed è basato sulla definizione di una funzione di reward modellata per ricostruire il coefficiente dell’espansione in modo rapido e sicuro. I risultati presentati in questo lavoro mostrano che agenti con sufficiente training possono raggiungere l’accuratezza richiesta sui coefficienti dell’espansione più frequentemente rispetto ad agenti che seguono un comportamento casuale. Tali risultati costituiscono le basi per futuri promettenti risultati nello sviluppo di operazioni di gravimetria autonoma relativa a piccoli corpi.

Autonomous small body gravimetry via A2C path-planning

Indaco, Manuel
2019/2020

Abstract

The success of proximity operations near small bodies strongly depends on a proper characterization of the corresponding gravitational environment; indeed, the accuracy of the gravity field model constitutes a crucial aspect for the definition of the spacecraft dynamics. Currently, the operations required for an accurate reconstruction of the gravity field are orchestrated by ground control personnel; however, automatizing such flight control process may yield reduced operational costs and additional mission opportunities. The problem of autonomous gravity field reconstruction can be formulated as a Partially Observable Markov Decision Process; in this framework, a spacecraft moving in an unknown gravitational environment can be modeled as an agent that autonomously implements a guidance policy to obtain accurate gravimetric measurements. Possibly compatible with limited on-board resources, the solution of the problem can be found through the exploitation of novel techniques based on Reinforcement Learning (RL) and Artificial Neural Networks (ANN), together with the introduction of pre-trained agents. The architecture proposed in this work employs a Hopfield Neural Network (HNN) for the reconstruction of the gravity field, which is represented as a spherical harmonics expansion, assuming an Exterior Gravity Field Model. The agent’s objective is to determine a trajectory around the target body that would allow the quick and precise estimation of the spherical harmonics coefficients via HNN. The algorithm adopted is the Advantage-Actor Critic (A2C), where the agent plays the roles of the Actor; such RL algorithm exploits two networks that work in parallel with the aim of maximizing the return, operation corresponding to the reconstruction of the gravity field. In particular, the works focuses on the reconstruction of the first zonal Stokes’ coefficient C2, testing the architecture on specific cases study, as well as on generic environments. The training of the networks exploits an Adam’s algorithm for the learning process, and it is based on the definition of a reward function designed to retrieve the expansion coefficient in a quick and safe manner. The results presented in this work show that an agent with a proper training can perform better than one that follows a random behavior, achieving the desired accuracy more often than in a random simulation, in a wide pool of scenarios (different initial conditions for the same asteroid and different asteroid). Such results allow to assess the feasibility of the method proposed, thus defining a promising starting point for further developments.
GUZZETTI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
Il successo di operazioni di prossimità vicino a piccoli corpi dipende da un’adeguata caratterizzazione dell' ambiente gravitazionale associato; l’accuratezza del modello del campo gravitazionale costituisce un elemento cruciale alla determinazione della dinamica del satellite. Attualmente, le operazioni richieste per una ricostruzione accurata del campo gravitazionale sono gestite dal personale delle stazioni a terra; tuttavia, l’automatizzazione di questo processo di controllo di volo potrebbe portare alla riduzione dei costi operativi ed a nuove opportunità di missione. Il problema della ricostruzione autonoma del campo di gravità può essere formulato come un Processo di Markov Parzialmente Osservabile; in questo ambito, un satellite in volo in un ambiente gravitazionale non-noto può essere modellato come un agente che autonomamente definisce una legge di guida mirata ad ottenere accurate misurazioni gravimetriche. La soluzione a tale problema, auspicabilmente compatibile con le limitate risorse di bordo, può essere trovata attraverso lo sfruttamento di tecniche innovative basate sull’apprendimento per rinforzo e sulle reti neurali artificiali, unitamente all’introduzione di agenti pre-sottoposti ad una fase di training. L’architettura proposta in questo lavoro adotta una rete neurale di Hopfiled per la ricostruzione del campo gravitazionale, rappresentato tramite espansioni armoniche sferiche, assumendo un modello di campo di gravità esterno. L’obiettivo dell’agente consiste nel definire una traiettoria intorno al corpo oggetto di studio mirata all’acquisizione di una stima rapida e precisa dei coefficienti dell’espansione attraverso la rete di Hopfield. L’algoritmo di apprendimento per rinforzo si basa sul metodo noto come Advantage Actor-Critic (A2C), dove l’agente ricopre il ruolo dell’Actor; tale algoritmo sfrutta due reti neurali che lavorano in parallelo con lo scopo di manovrare efficacemente il satellite ai fini della ricostruzione del campo gravitazionale. In particolare, il lavoro si focalizza sulla ricostruzione del primo coefficiente zonale C2, testando diverse architetture e condizioni di ambiente dinamico. Il training delle reti sfrutta un algoritmo di Adam per il processo di apprendimento, ed è basato sulla definizione di una funzione di reward modellata per ricostruire il coefficiente dell’espansione in modo rapido e sicuro. I risultati presentati in questo lavoro mostrano che agenti con sufficiente training possono raggiungere l’accuratezza richiesta sui coefficienti dell’espansione più frequentemente rispetto ad agenti che seguono un comportamento casuale. Tali risultati costituiscono le basi per futuri promettenti risultati nello sviluppo di operazioni di gravimetria autonoma relativa a piccoli corpi.
File allegati
File Dimensione Formato  
2020_MSc_Manuel_Indaco.pdf

solo utenti autorizzati dal 09/07/2021

Descrizione: MSc Thesis
Dimensione 19.99 MB
Formato Adobe PDF
19.99 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/167165