Autonomous asteroid proximity operations with deep reinforcement learning

Asteroids attract scientific interest because of their potential Earth impact hazards and the insights they provide into early solar system conditions and the origins of life. Missions to asteroids aim to produce detailed maps, study their mass and composition, and accomplish other mission-specific objectives. However, operating near small bodies is challenging due to their highly perturbed and uncertain environment. Current missions require continuous expert supervision, increasing costs and limiting the feasibility of exploring multiple small bodies simultaneously. This thesis applies Deep Reinforcement Learning (DRL) to enable autonomous asteroid proximity operations. By modelling the problem as a Partially Observable Markov Decision Process (POMDP), the spacecraft can autonomously plan tasks like orbit correction, data collection, and communication while managing constraints such as fuel, battery, and memory. Using the Proximal Policy Optimization (PPO) algorithm, a multi-layer perceptron neural network is trained to perform these tasks. The resulting policy outperforms other deterministic policies and is robust against uncertainties, action failures, and system parameter variations. This makes it a promising solution for autonomous asteroid exploration.

Gli asteroidi attraggono interesse scientifico sia per il loro potenziale rischio di impatto sulla terra, sia perché offrono informazioni sulle condizioni primordiali del sistema solare e sull'origine della vita. Le missioni sugli asteroidi hanno l'obiettivo di realizzare una mappa dettagliata del corpo, studiarne la massa e la composizione, e perseguire altri obiettivi specifici della missione. Tuttavia, operare in prossimità di corpi minori presenta notevoli sfide tecniche dato l'ambiente fortemente perturbato e incerto che li caratterizza. Attualmente queste missioni richiedono continua supervisione da parte di esperti, aumentando i costi e limitando la possibilità di esplorare diversi corpi simultaneamente. Questa tesi applica i principi dell'apprendimento per rinforzo profondo (DRL) per pemmettere operazioni autonome in prossimità di un asteroide. Formulando il problema come un processo decisionale di Markov parzialmente ossservabile (POMDP), il satellite può pianificare autonomamente le operazioni come correzioni orbitali, raccolta dati, e comunicazione tenendo conto dei vincoli imposti dal carburante, batteria e memoria. Utilizzando l’algoritmo di ottimizzazione della politica prossimale (PPO), una rete neurale di perceptroni multistrato è stata addestrata per gestire autonomamente operazioni di prossimità agli asteroidi. La politica risultante supera le strategie deterministiche in termini di efficienza e gestione delle risorse, dimostrando robustezza rispetto a incertezze ambientali e variazioni nei parametri di sistema. Queste prestazioni la rendono una soluzione promettente per l’esplorazione autonoma di asteroidi.