The work presented, developed in collaboration with the company Nurjana Technologies, concerns the development of a satellite attitude controller using reinforcement learning techniques, capable of operating in the case of on-orbit ASAT attacks. The aim is to obtain a controller that operates via on-off thrusters and is capable of acting simultaneously on all three control axes. This situation is difficult for classical controllers, as such an attack involves impulsive external torques and sudden changes in system mass parameters. The problem is approached in a step-by-step manner, starting with a one-dimensional case study tackled with Q-Learning and Deep Q-Learning, two types of reinforcement learning techniques. The problem is then extended to the three-dimensional case, again tackled with Deep Q-Learning (DQN), and finally with Proximal Policy Optimisation (PPO), one of the most promising algorithms in the policy gradient family. The convergence of the three-dimensional case with Deep Q-Learning required the use of two new techniques, such as pre-training with synthetic data obtained from the 1D controller and a special experience management that differs from the classical DQN algorithm, the partitioned replay memory. The thesis concludes with a test phase in which the behaviour of three controllers obtained during the research, two with DQNs and one with PPOs, was studied in on-orbit ASAT attack cases of different magnitude and with different control torques available, comparing them with a classical PD controller. The tests have shown that these controllers succeed in cases where the PD controller fails, but have also highlighted some limitations, particularly in terms of final accuracy and transients behaviour. Finally, it is highlighted how reinforcement learning is promising for the development of this type of controller, especially in its PPO declination, and how techniques such as pre-training and partitioned replay memory can help with DQN convergence.

Il lavoro presentato è stato sviluppato in collaborazione con l’azienda Nurjana Technologies e riguarda lo sviluppo di un controllore di assetto satellitare che utilizza tecniche di reinforcement learning, in grado di operare in caso di attacchi ASAT in orbita. L’obiettivo è ottenere un controllore che operi tramite propulsori on-off e sia in grado di agire simultaneamente su tutti e tre gli assi di controllo. Questa situazione è difficile per i controllori classici, poiché un attacco di questo tipo comporta momenti esterni impulsivi e cambiamenti improvvisi nei parametri di massa del sistema. Il problema viene affrontato in modo graduale, partendo da un caso di studio monodimensionale affrontato con Q-Learning e Deep Q-Learning, due tipi di apprendimento per rinforzo. Successivamente, il problema viene esteso al caso tridimensionale, sempre affrontato con Deep Q-Learning (DQN) e infine con Proximal Policy Optimisation (PPO), uno degli algoritmi più promettenti della famiglia dei policy gradient. La convergenza del caso tridimensionale con Deep Q-Learning ha richiesto l’utilizzo di due nuove tecniche, quali il pre-training con dati sintetici ottenuti dal controllore 1D e una particolare gestione delle esperienze che si differenzia dal classico algoritmo DQN, la partitioned replay memory. La tesi si conclude con una fase di test in cui è stato studiato il comportamento di tre controllori ottenuti durante la ricerca, due con DQN e uno con PPO, in casi di attacco ASAT in orbita di diversa entità e con diversi momenti di controllo disponibili, confrontandoli con un controllore PD classico. I test hanno dimostrato che questi controllori hanno successo nei casi in cui il controllore PD fallisce, ma hanno anche evidenziato alcuni limiti, in particolare in termini di precisione finale e di transitori. Infine, è stato evidenziato come l’apprendimento per rinforzo sia promettente per lo sviluppo di questo tipo di controllori, soprattutto nella sua declinazione PPO, e come tecniche quali il pre-training e la partitioned replay memory possano aiutare la convergenza DQN

Satellite attitude control through reinforcement learning in the case of co-orbital ASAT attacks

Biasini, Edoardo
2022/2023

Abstract

The work presented, developed in collaboration with the company Nurjana Technologies, concerns the development of a satellite attitude controller using reinforcement learning techniques, capable of operating in the case of on-orbit ASAT attacks. The aim is to obtain a controller that operates via on-off thrusters and is capable of acting simultaneously on all three control axes. This situation is difficult for classical controllers, as such an attack involves impulsive external torques and sudden changes in system mass parameters. The problem is approached in a step-by-step manner, starting with a one-dimensional case study tackled with Q-Learning and Deep Q-Learning, two types of reinforcement learning techniques. The problem is then extended to the three-dimensional case, again tackled with Deep Q-Learning (DQN), and finally with Proximal Policy Optimisation (PPO), one of the most promising algorithms in the policy gradient family. The convergence of the three-dimensional case with Deep Q-Learning required the use of two new techniques, such as pre-training with synthetic data obtained from the 1D controller and a special experience management that differs from the classical DQN algorithm, the partitioned replay memory. The thesis concludes with a test phase in which the behaviour of three controllers obtained during the research, two with DQNs and one with PPOs, was studied in on-orbit ASAT attack cases of different magnitude and with different control torques available, comparing them with a classical PD controller. The tests have shown that these controllers succeed in cases where the PD controller fails, but have also highlighted some limitations, particularly in terms of final accuracy and transients behaviour. Finally, it is highlighted how reinforcement learning is promising for the development of this type of controller, especially in its PPO declination, and how techniques such as pre-training and partitioned replay memory can help with DQN convergence.
CONGIU, ENRICO
PISANO, CECILIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Il lavoro presentato è stato sviluppato in collaborazione con l’azienda Nurjana Technologies e riguarda lo sviluppo di un controllore di assetto satellitare che utilizza tecniche di reinforcement learning, in grado di operare in caso di attacchi ASAT in orbita. L’obiettivo è ottenere un controllore che operi tramite propulsori on-off e sia in grado di agire simultaneamente su tutti e tre gli assi di controllo. Questa situazione è difficile per i controllori classici, poiché un attacco di questo tipo comporta momenti esterni impulsivi e cambiamenti improvvisi nei parametri di massa del sistema. Il problema viene affrontato in modo graduale, partendo da un caso di studio monodimensionale affrontato con Q-Learning e Deep Q-Learning, due tipi di apprendimento per rinforzo. Successivamente, il problema viene esteso al caso tridimensionale, sempre affrontato con Deep Q-Learning (DQN) e infine con Proximal Policy Optimisation (PPO), uno degli algoritmi più promettenti della famiglia dei policy gradient. La convergenza del caso tridimensionale con Deep Q-Learning ha richiesto l’utilizzo di due nuove tecniche, quali il pre-training con dati sintetici ottenuti dal controllore 1D e una particolare gestione delle esperienze che si differenzia dal classico algoritmo DQN, la partitioned replay memory. La tesi si conclude con una fase di test in cui è stato studiato il comportamento di tre controllori ottenuti durante la ricerca, due con DQN e uno con PPO, in casi di attacco ASAT in orbita di diversa entità e con diversi momenti di controllo disponibili, confrontandoli con un controllore PD classico. I test hanno dimostrato che questi controllori hanno successo nei casi in cui il controllore PD fallisce, ma hanno anche evidenziato alcuni limiti, in particolare in termini di precisione finale e di transitori. Infine, è stato evidenziato come l’apprendimento per rinforzo sia promettente per lo sviluppo di questo tipo di controllori, soprattutto nella sua declinazione PPO, e come tecniche quali il pre-training e la partitioned replay memory possano aiutare la convergenza DQN
File allegati
File Dimensione Formato  
2023_12_Biasini_Tesi_01.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 3.04 MB
Formato Adobe PDF
3.04 MB Adobe PDF   Visualizza/Apri
2023_12_Biasini_ExecutiveSummary_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary della tesi
Dimensione 630.85 kB
Formato Adobe PDF
630.85 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214517