Hopping over complex terrain: sample efficiency through reinforcement learning for step-level control

Navigation of legged robots on complex terrains requires them to achieve precise control of foot placement and speed as a slight miss-step or lack of momentum will lead to failure. Reinforcement Learning provides a viable alternative to achieve this objective. However, learning low-level joint torques, typically at 200+ Hz, scales poorly even for the simplest systems. For example, with n actuators, this would require learning 200*n control parameters per second. This thesis takes an alternate approach. A suitable low-level controller that maps the joint torques to the sensor values is assumed. This low-level controller has a few parameters that are tuned once per step by the RL algorithm, typically at 5 Hz (assuming a step time of 0.2 sec). For example, with m free parameters, this requires tuning of only 5*m parameters per second. Since 5*m << 200*n, the proposed approach scales better than the traditional RL approach. The approach is demonstrated on a single-leg hopping robot with two actuators, a rotary actuator for hip swing, and a linear actuator for foot clearance and push-off. The low-level controller is a simple position derivative controller with two free parameters, a proportional gain, and a set-point. There are four sensor measurements at every step, the robot speed and height, and the obstacle height and distance. Here the free parameters m=2 and actuators n=2, hence 10 (5*m) << 400 (200*n) ensuring scalability. Using proximal policy optimization the control policy learns 2 free parameters based on the 4 measurements in about 100,000 to 400,000 trials. The resulting control policy can achieve navigation of the hopper in novel scenarios without re-training or re-tuning. The learning trials have been developed in simulation.

La navigazione dei robot a gambe su terreni complessi richiede loro di raggiungere un controllo preciso del posizionamento dei piedi e della velocità, poiché un piccolo errore di passo o una mancanza di slancio possono portare al fallimento. Il Reinforcement Learning fornisce un'alternativa valida per raggiungere questo obiettivo. Tuttavia, imparare i momenti torcenti a basso livello, tipicamente a 200+ Hz, scala male anche per i sistemi più semplici. Ad esempio, con n attuatori, questo richiederebbe di imparare 200*n parametri di controllo al secondo. Questa tesi adotta un approccio alternativo. Si presume l'esistenza di un controllore a basso livello adatto che mappa i momenti torcenti ai valori dei sensori. Questo controllore a basso livello ha alcuni parametri che vengono regolati una volta per passo dall'algoritmo di RL, tipicamente a 5 Hz (ipotizzando un tempo di passo di 0,2 secondi). Ad esempio, con m parametri liberi, questo richiede la regolazione di soli 5*m parametri al secondo. Poiché 5*m << 200*n, l'approccio proposto scala meglio rispetto all'approccio tradizionale di RL. L'approccio viene dimostrato su un robot saltante a una gamba con due attuatori, un attuatore rotante per il movimento dell'anca e un attuatore lineare per lo spazio libero del piede e la spinta. Il controllore a basso livello è un semplice controllore derivativo di posizione con due parametri liberi, un guadagno proporzionale e un punto di set. Ci sono quattro misurazioni dei sensori ad ogni passo, la velocità e l'altezza del robot e l'altezza e la distanza dell'ostacolo. Qui i parametri liberi m=2 e gli attuatori n=2, quindi 10 (5*m) << 400 (200*n) garantendo la scalabilità. Utilizzando l'algoritmo PPO, la policy di controllo apprende 2 parametri liberi basati sulle 4 misurazioni in circa 100.000-400.000 prove. La policy di controllo risultante può navigare l'hopper in scenari nuovi senza necessità di ri-addestramento o ri-regolazione. Le sessioni di apprendimento sono state svolte in simulazione.