The severe threat posed by orbital debris to both current and forthcoming space endeavors has generated increasing demands within the agencies and industry leaders, for versatile technologies that can provide enhanced autonomy, safety, and robustness in future In-Orbit Servicing (IOS) and Active Debris Removal (ADR) operations. Robotic systems have emerged as universal solutions for both mission scenarios, but are still in need of advances in the short-term, before providing a practical solution. Following the successful applications of Artificial Intelligence for the Guidance and Control (G&C) of ground-based robotic systems, jointly with the many benefits that they have demonstrated, this thesis proposes a novel autonomous G&C algorithm for a 7-Degree-of-Freedom redundant robotic arm mounted on a spacecraft. The Space Robot (SR) G&C problem is formulated as a Partially Observable Markov Decision Process, that is solved through the state-of-the-art Proximal Policy Optimization algorithm. The autonomous agent is implemented through a Feedforward Neural Network that generates the desired joint angles and rates of the robotic arm in real-time, which are sent to a model-based feedback linearization controller to couple the control laws of the platform and manipulator. In a hypothetical Orbital Robotics Mission at the pre-capture stage towards an uncooperative target, the agent is trained to correctly synchronize the 6-DoFs of the end-effector, both in terms of position and orientation, with the grasping position fixed to the tumbling spacecraft. The agent is tested through extensive Monte Carlo campaigns that show it can provide a 100% success rate in an environment whose initial conditions are taken within a vast randomized pool, and can also adapt to scenarios that have errors in the attitude synchronization between the SR and target, larger targets with respect to training, single-actuator failures, and uncertainties in the navigation system, at a reduced performance. Additionally, the agent is trained to provide 6-DoF time-varying state tracking with the end-effector, but occasional losses of the desired pointing are experienced. These promising results prove that similar AI driven manipulator G&C strategies should be extended in future studies, in view of the large benefits they could provide.

Le presenza di detriti orbitali pone minacce nei confronti di presenti e future attività spaziali, indirizzando agenzie e leader del settore verso lo sviluppo di tecnologie versatili in grado di fornire maggiore autonomia, sicurezza e robustezza in operazioni di Manutenzione in Orbita (IOS) e Rimozione Attiva di Detriti (ADR). Una potenziale soluzione universale è rappresentata dai sistemi robotici, che però necessitano di notevoli progressi per garantire risultati concreti. Dato il successo dimostrato dall’uso dell’intelligenza artificiale per la Guida e il Controllo (G&C) di sistemi robotici terrestri, questa tesi estende tali concetti all’ambito spaziale, proponendo un nuovo algoritmo per il controllo autonomo di un braccio robotico a 7 gradi di libertà montato su un Robot Spaziale (SR). Il problema di G&C è affrontato come un Processo Decisionale di Markov Parzialmente Osservabile, risolto tramite l’algoritmo di Proximal Policy Optimization. L’agente autonomo è implementato attraverso una Rete Neurale Feedforward che genera in tempo reale gli angoli e le velocità dei giunti desiderate, successivamente inviati ad un controllore linearizzante in retro-azione. Simulando la fase di pre-cattura di una missione di Robotica Orbitale con satellite non cooperativo, che ruota in modo non controllato, l’agente è addestrato a sincronizzare correttamente posizione e assetto dell’effettore finale del manipolatore con il punto di cattura sul satellite. Attraverso molteplici simulazioni Monte Carlo, l’agente è testato con condizioni inziali variabili e randomiche, raggiungendo un tasso di successo del 100%. Si dimostra inoltre come l’agente sia in grado di adattarsi a scenari con errori di sincronizzazione di assetto, guasti a singolo attuatore, incertezze nel sistema di navigazione, e a cattura di satelliti più grandi rispetto a quelli visti durante l'apprendimento. Infine, l’agente è addestrato a inseguire uno stato variabile nel tempo con l'effettore finale, evidenziando perdite occasionali nel puntamento desiderato. I promettenti risultati ottenuti dimostrano come strategie di G&C con intelligenza artificiale richiedano ulteriori studi futuri per sfruttarne al massimo le potenzialità.

Deep Reinforcement Learning Aided Robotics for Uncooperative Space Asset Grasping and In-Orbit Servicing

D'Ambrosio, Matteo
2022/2023

Abstract

The severe threat posed by orbital debris to both current and forthcoming space endeavors has generated increasing demands within the agencies and industry leaders, for versatile technologies that can provide enhanced autonomy, safety, and robustness in future In-Orbit Servicing (IOS) and Active Debris Removal (ADR) operations. Robotic systems have emerged as universal solutions for both mission scenarios, but are still in need of advances in the short-term, before providing a practical solution. Following the successful applications of Artificial Intelligence for the Guidance and Control (G&C) of ground-based robotic systems, jointly with the many benefits that they have demonstrated, this thesis proposes a novel autonomous G&C algorithm for a 7-Degree-of-Freedom redundant robotic arm mounted on a spacecraft. The Space Robot (SR) G&C problem is formulated as a Partially Observable Markov Decision Process, that is solved through the state-of-the-art Proximal Policy Optimization algorithm. The autonomous agent is implemented through a Feedforward Neural Network that generates the desired joint angles and rates of the robotic arm in real-time, which are sent to a model-based feedback linearization controller to couple the control laws of the platform and manipulator. In a hypothetical Orbital Robotics Mission at the pre-capture stage towards an uncooperative target, the agent is trained to correctly synchronize the 6-DoFs of the end-effector, both in terms of position and orientation, with the grasping position fixed to the tumbling spacecraft. The agent is tested through extensive Monte Carlo campaigns that show it can provide a 100% success rate in an environment whose initial conditions are taken within a vast randomized pool, and can also adapt to scenarios that have errors in the attitude synchronization between the SR and target, larger targets with respect to training, single-actuator failures, and uncertainties in the navigation system, at a reduced performance. Additionally, the agent is trained to provide 6-DoF time-varying state tracking with the end-effector, but occasional losses of the desired pointing are experienced. These promising results prove that similar AI driven manipulator G&C strategies should be extended in future studies, in view of the large benefits they could provide.
BRANDONISIO, ANDREA
CAPRA, LORENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Le presenza di detriti orbitali pone minacce nei confronti di presenti e future attività spaziali, indirizzando agenzie e leader del settore verso lo sviluppo di tecnologie versatili in grado di fornire maggiore autonomia, sicurezza e robustezza in operazioni di Manutenzione in Orbita (IOS) e Rimozione Attiva di Detriti (ADR). Una potenziale soluzione universale è rappresentata dai sistemi robotici, che però necessitano di notevoli progressi per garantire risultati concreti. Dato il successo dimostrato dall’uso dell’intelligenza artificiale per la Guida e il Controllo (G&C) di sistemi robotici terrestri, questa tesi estende tali concetti all’ambito spaziale, proponendo un nuovo algoritmo per il controllo autonomo di un braccio robotico a 7 gradi di libertà montato su un Robot Spaziale (SR). Il problema di G&C è affrontato come un Processo Decisionale di Markov Parzialmente Osservabile, risolto tramite l’algoritmo di Proximal Policy Optimization. L’agente autonomo è implementato attraverso una Rete Neurale Feedforward che genera in tempo reale gli angoli e le velocità dei giunti desiderate, successivamente inviati ad un controllore linearizzante in retro-azione. Simulando la fase di pre-cattura di una missione di Robotica Orbitale con satellite non cooperativo, che ruota in modo non controllato, l’agente è addestrato a sincronizzare correttamente posizione e assetto dell’effettore finale del manipolatore con il punto di cattura sul satellite. Attraverso molteplici simulazioni Monte Carlo, l’agente è testato con condizioni inziali variabili e randomiche, raggiungendo un tasso di successo del 100%. Si dimostra inoltre come l’agente sia in grado di adattarsi a scenari con errori di sincronizzazione di assetto, guasti a singolo attuatore, incertezze nel sistema di navigazione, e a cattura di satelliti più grandi rispetto a quelli visti durante l'apprendimento. Infine, l’agente è addestrato a inseguire uno stato variabile nel tempo con l'effettore finale, evidenziando perdite occasionali nel puntamento desiderato. I promettenti risultati ottenuti dimostrano come strategie di G&C con intelligenza artificiale richiedano ulteriori studi futuri per sfruttarne al massimo le potenzialità.
File allegati
File Dimensione Formato  
2023_12_Dambrosio_Thesis_01.pdf

accessibile in internet per tutti a partire dal 22/11/2024

Descrizione: Thesis manuscript.
Dimensione 29.64 MB
Formato Adobe PDF
29.64 MB Adobe PDF   Visualizza/Apri
2023_12_Dambrosio_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary of thesis.
Dimensione 2.26 MB
Formato Adobe PDF
2.26 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214777