A Q-learning based path planning approach for a space manipulator system

Space manipulator systems (SMS) are expected to be a key technology for on-orbit servicing tasks. Among the main challenges related to this technology, planning a suitable path to reach a target is probably the most demanding one. The existence of kinematic singularities and joint angles limits, together with the need for keeping the target in sight of the chaser represent key issues that have to be taken into account; in addition, a reduced motion of the spacecraft base would be preferred in order to save on-board fuel. Moreover, from an extensive research on the current state of the art, it emerges that the current need is that of an autonomous SMS which is able to plan a trajectory from start to target, by adapting to different starting points. Scope of this thesis is then to use a machine learning algorithm in order to train the SMS to generate autonomously a proper path of the end effector of the satellite-mounted manipulator. The selected approach is the Q-learning method, which is a simple, stable and reliable algorithm, frequently adopted for path planning. The last part of the thesis eventually concentrates on the possible control logic to be implemented in order to follow the prescribed trajectory, both in full control and underactuated control modes (to avoid controlling the base, hence saving on-board fuel). To verify the implemented strategies, a complete simulation of the 3D behavior of the SMS has been carried out; the results show a good robustness of the path planning algorithm to different initial positions of the SMS end effector in the environment, together with the overcoming of the previously stated challenges. Furthermore, the implemented controllers prove to be efficient in tracking the states under control.

I sistemi di manipolazione spaziale (SMS) sono destinati ad essere una tecnologia chiave per le attività di manutenzione in orbita. Tra le principali sfide legate a questa tecnologia, la pianificazione di una guida corretta per raggiungere il target è probabilmente la più impegnativa. L’esistenza di singolarità cinematiche e limiti negli angoli dei giunti, insieme alla necessità di mantenere il bersaglio nella visuale dell’inseguitore, rappresentano limitazioni che devono essere prese in considerazione; per di più, un movimento ridotto della base sarebbe preferibile, in quanto permetterebbe di risparmiare propellente. Inoltre, da un’ampia ricerca sullo stato dell’arte, emerge che l’esigenza attuale è quella di un SMS autonomo che sia in grado di pianificare una traiettoria adattandosi a diverse posizioni di partenza. Scopo di questa tesi è quindi quello di utilizzare un algoritmo di machine learning per addestrare l’SMS a generare autonomamente un’opportuna traiettoria dell’end effector del manipolatore. L’approccio scelto è il metodo Q-learning, che è un algoritmo semplice, stabile e affidabile, frequentemente adottato per scopi di guida. L’ultima parte della tesi si concentra infine sulla possibile logica di controllo da implementare per seguire la traiettoria prescritta, sia in modalità di controllo completo che in modalità di controllo sottoattuato (al fine di evitare il controllo della base e risparmiare carburante). Per verificare le strategie implementate è stata effettuata una simulazione completa del comportamento 3D dell’SMS; i risultati mostrano una buona robustezza dell’algoritmo di guida a diverse posizioni iniziali dell’end effector dell’SMS, insieme al superamento delle sfide precedentemente elencate. Inoltre, le tecniche di controllo implementate si dimostrano efficienti nel seguire gli stati sotto controllo.