Learning user preferences for hip exoskeleton assistance across diverse locomotion conditions

This thesis investigates rapid online learning of individual users’ preferred hip-exoskeleton assistance across multiple locomotion conditions. Rather than focusing exclusively on objective performance metrics, this work embraces an explicitly user-centred perspective by integrating subjective feedback into the optimization process. A preference-based learning framework is developed for a single-degree-of-freedom hip exoskeleton, modeling user preference as a linear reward function over interpretable trajectory features and implemented through the APReL library. To efficiently operate under the limited query budget typical of human-in-the-loop experiments, a hybrid acquisition strategy is adopted: Thompson Sampling promotes exploration during the initial iterations, while Mutual Information with weak comparisons (allowing “about equal” responses) refines the posterior distribution over reward weights in later stages. A preliminary sensitivity assessment (staircase, incremental, and random-vector procedures) is conducted to estimate individual perceptual thresholds and to generate an informed initial trajectory batch for the learning process. Fourteen healthy participants were tested across four locomotion conditions: flat treadmill walking at 3 and 4 km/h, and inclined walking (4% slope) at the same speeds. A discrete set of 40 parametrized torque trajectories, described by six features (peak torque, peak time, and rise time for flexion and extension), was explored through pairwise comparisons. The algorithm updated a Gaussian belief over feature weights based on forced-choice feedback and iteratively proposed new candidates online. Convergence behaviour, robustness, intra- and inter-subject variability, and preservation of hip kinematics were analysed. Results indicate that the framework rapidly stabilizes toward user-specific weight estimates and identifies preferred assistance profiles within a limited number of interactions, while preserving natural joint kinematics. Although inter-subject variability is observed—particularly in timing-related parameters—consistent trends emerge, especially for flexion-related features, and several preferences generalize across walking conditions. Subjective questionnaires report positive comfort and high usability (mean usability score 5.1/7), supporting the acceptability of the proposed approach. Overall, the study demonstrates that probabilistic preference-based learning with a hybrid Thompson Sampling–Mutual Information strategy and weak comparisons is a practical and sample-efficient solution for personalizing hip-exoskeleton assistance in realistic experimental settings, contributing methodological guidelines for future human-centred wearable-robotics optimization.

Questa tesi studia l’apprendimento rapido delle preferenze individuali relative all’assistenza fornita da un esoscheletro d’anca in diversi regimi di locomozione. Superando l’approccio basato esclusivamente su metriche oggettive di performance, il lavoro adotta una prospettiva esplicitamente user-centered, integrando il feedback soggettivo dell’utente nel processo di ottimizzazione. A tal fine, è stato sviluppato un framework di preference-based learning per un esoscheletro d’anca a un grado di libertà, in cui la preferenza dell’utente è modellata come una funzione di ricompensa lineare definita su feature delle traiettorie di coppia e implementata tramite la libreria APReL. Per operare efficacemente sotto il vincolo di un numero limitato di iterazioni — tipico degli esperimenti human-in-the-loop — è stata adottata una strategia di acquisizione ibrida: Thompson Sampling favorisce l’esplorazione nelle fasi iniziali, mentre Mutual Information con weak comparisons (che ammettono risposte di indifferenza) raffina la distribuzione a posteriori dei pesi della funzione di ricompensa nelle fasi successive. Il processo è preceduto da uno studio preliminare di sensitività (tramite procedure Stair-Case, Incremental e Random Vector) volto a stimare le soglie percettive individuali e a generare un batch iniziale di traiettorie. La validazione sperimentale ha coinvolto quattordici partecipanti sani in quattro condizioni: cammino in piano su tapis roulant a 3 e 4 km/h e salita (4% di pendenza) alle medesime velocità. Attraverso confronti a coppie, è stato esplorato un insieme discreto di 40 traiettorie di coppia parametrizzate, descritte da sei feature (coppia di picco, tempo di picco e tempo di salita per flessione ed estensione). L’algoritmo aggiorna in tempo reale una distribuzione Gaussiana sui pesi delle feature e propone iterativamente nuovi candidati. L’analisi si è focalizzata sulla convergenza, sulla robustezza e sulla variabilità intra- e inter-soggetto, verificando inoltre la preservazione della cinematica della camminata. I risultati indicano che il framework converge rapidamente verso stime specifiche perciascun utente, identificando profili assistivi preferiti con un esiguo numero di interazioni. Sebbene emerga una marcata variabilità inter-individuale — specialmente nei parametri temporali (timing) — si osservano tendenze comuni per le feature di flessione e una buona generalizzabilità delle preferenze tra diverse condizioni di cammino. I feedback soggettivi confermano un elevato comfort e un’ottima usabilità (punteggio medio di 5.1/7), validando l’accettabilità dell’approccio. In conclusione, lo studio dimostra che l’apprendimento probabilistico basato sulle preferenze, integrato con una strategia ibrida Thompson Sampling–Mutual Information, rappresenta una soluzione efficiente per la personalizzazione dell’assistenza robotica in contesti realistici, offrendo solide basi metodologiche per future applicazioni di ottimizzazione human-centered nella robotica indossabile.