Developing balancing capabilities in humanoid loco-manipulation with Reinforcement Learning

For humanoid robots to move from controlled laboratories into unstructured, human-centric environments, the ability to perform concurrent and seamless locomotion and manipulation has become essential. While existing research has explored forceful tasks such as pushing or carrying rigid payloads, the complex skill of balancing external objects remains significantly underexplored. This Thesis addresses this gap by investigating a novel benchmark: a humanoid robot transporting a tray carrying unattached boxes, a task that requires precise manipulation where the upper-body stability is tightly coupled with the disturbances generated by lower-body locomotion. To solve this high-dimensional, nonlinear control problem, this work leverages Goal-Conditioned Reinforcement Learning (GCRL) within the Isaac Gym simulation environment. A dual-agent architecture that decouples lower-body locomotion from upper-body manipulation was adopted, with whole-body coordination achieved through the joint training of the agents and with shared observations. Building upon recent advances in force-adaptive policies, this Thesis reformulates the complex balancing problem into a simpler motion-tracking task subjected to balance-induced disturbances. The core contributions of this work include the development of a novel, realistic force curriculum that models the reaction forces of balancing large objects and the definition of a specific goal space encoding holding tasks using retargeted human motion data. Through the adaptation of simulation environments, several policies are trained and evaluated under different force curricula and observation spaces. The comparative analysis of the results demonstrates the impact of these training modalities on the balance-adaptiveness in dynamic object transportation.

Affinché i robot umanoidi possano operare in ambienti progettati a dimensione d'uomo, è necessario sviluppare adeguate capacità nell'esecuzione simultanea e coordinata di attività di locomozione e di manipolazione. Sebbene la ricerca scientifica abbia esplorato diverse tipologie di compiti che richiedono l'applicazione di forze, come spingere o trasportare carichi, la complessa abilità nel bilanciare oggetti rimane ad oggi in gran parte inesplorata. Questa Tesi affronta tale lacuna proponendo un nuovo criterio di valutazione: il trasporto di un vassoio contenente oggetti non fissati da parte di un robot umanoide. Questo compito richiede precisione nella manipolazione, la cui stabilità è strettamente legata alle perturbazioni generate dalla locomozione della parte inferiore del corpo. Per risolvere questo problema di controllo non lineare e ad alta dimensionalità, la Tesi sfrutta il Goal-Conditioned Reinforcement Learning (GCRL o apprendimento per rinforzo ad obiettivi) all'interno dell'ambiente di simulazione Isaac Gym. Per una più precisa gestione dei compiti di locomozione e manipolazione, è stata adottata un'architettura a due agenti che disaccoppia le azioni della parte inferiore del corpo da quelle della parte superiore, mentre la coordinazione viene raggiunta attraverso l'addestramento congiunto degli agenti e la condivisione delle osservazioni. Basandosi sui recenti progressi nelle policy con adattamento automatico alle forze esterne, questa Tesi riformula il complesso problema del bilanciamento in un più semplice compito di tracciamento del movimento (motion-tracking), soggetto alle perturbazioni indotte dal bilanciamento. I contributi principali di questo lavoro includono lo sviluppo di un curriculum di forze realistico che modella le forze di reazione derivanti dal bilanciamento e la definizione di uno spazio degli obiettivi utilizzando dati di motion-capture umani e sottoposti a retargeting. Attraverso l'adattamento di ambienti di simulazione preesistenti, diverse policy sono state addestrate utilizzando differenti curriculum di forze e spazi delle osservazioni. L'analisi comparativa dei risultati dimostra l'impatto di queste modalità di addestramento sulla capacità di adattamento al bilanciamento nel trasporto dinamico di oggetti.