Physical human-robot collaboration is increasingly required in many contexts (such as industrial and rehabilitation applications). The robot needs to interact with the human to perform the target task while relieving the user from the workload. To do that, the robot should be able to recognize the human's intentions and guarantee the safe and adaptive behaviour along the intended motion directions. These advanced robot-control strategies are particularly demanded in the industrial field, where the operator guides the robot manually to manipulate heavy parts (e.g., while teaching a specific task). With this aim, this work proposes a Q-Learning-based Model Predictive Variable Impedance Control (Q-LMPVIC) to assist the operators in physical human-robot collaboration (pHRC) tasks. A Cartesian impedance control loop is designed to implement a decoupled compliant robot dynamics. The impedance control parameters (i.e., setpoint and damping parameters) are then optimized online in order to maximize the performance of the pHRC. For this purpose, an ensemble of neural networks is designed to learn the modeling of the human-robot interaction dynamics while capturing the associated uncertainties. The derived modeling is then exploited by the MPC, enhanced with the stability guarantees by means of Lyapunov constraints. The MPC is solved by making use of a Q-Learning method that, in its online implementation, uses an actor-critic algorithm to approximate the exact solution. The Q-learning method provides an accurate and highly efficient solution (in terms of computational time and resources). The proposed approach has been validated through experimental tests, in which a Franka EMIKA panda robot has been used as a test platform. Each user was asked to interact with the robot along the controlled z vertical Cartesian direction. To assess its performance, the proposed controller has been compared with a model-based reinforcement learning variable impedance controller previously developed and available in literature. As highlighted in the achieved results, the proposed controller is able to improve the pHRC performance.

La collaborazione tra operatori e robot è sempre più richiesta in numerosi contesti, partendo da quello industriale fino ad arrivare al riabilitativo. Quest’ultima prevede un’interazione che esalti le rispettive qualità dei soggetti, volta alla realizzazione di un compito prescritto attraverso il minimo dispendio energetico dell’operatore. Per ottenere questo risultato, il robot deve saper riconoscere le intenzioni dell’operatore e garantire un comportamento adattabile ed in linea con gli attuali standard di sicurezza. Queste avanzate strategie di controllo del manipolatore sono particolarmente richieste nel settore industriale, dove l’addetto può guidare manualmente il robot per maneggiare componenti pesanti mentre lo istruisce sul compito da svolgere. Considerando questo obbiettivo, il presente lavoro propone un Q-Learning-based Model Predictive Variable Impedance Control (Q-LMPVIC) per assistere gli operatori nei compiti che prevedono la collaborazione fisica con un robot. Un primo anello interno per il controllo di impedenza cartesiana è progettato per ottenere una dinamica del manipolatore disaccoppiata e adattabile in funzione di parametri di controllo. Questi ultimi (in particolare lo smorzamento ed il setpoint) sono poi ottimizzati in tempo reale per massimizzare la prestazione del robot durante l’esecuzione del compito. A questo proposito, viene progettato un insieme di reti neurali per imparare il modello dinamico dell’interazione tra l’operatore ed il manipolatore, esprimendo anche una misurazione dell’incertezza associata. Il modello così ricavato è poi sfruttato dal MPC, arricchito dei vincoli di Lyapunov per garantirne la stabilità. Il MPC è risolto utilizzando il metodo Q-Learning, che, nella sua implementazione online, utilizza delle reti neurali actor e critic per approssimarne la soluzione. Questo metodo garantisce un risultato accurato ed efficiente dal punto di vista delle risorse computazionali utilizzate e del tempo impiegato. L’approccio proposto è stato validato da una campagna sperimentale eseguita utilizzando il robot Franka EMIKA panda come partner per la collaborazione con diversi operatori. A ciascuno di loro è stato chiesto di interagire con il robot solamente nella direzione dell’asse cartesiano verticale z. Per valutare la prestazione del controllore, l’approccio presentato nella tesi è stato confrontato con un Model-Based Reinforcement Learning Variable Impedance Controller sviluppato precedentemente e disponibile in letteratura. Come evidenziato dai risultati raggiunti, il controllore proposto si è rivelato in grado di migliorare la prestazione del manipolatore durante la collaborazione.

Q-learning-based model predictive variable impedance control for physical human-robot collaboration

Testa, Andrea
2020/2021

Abstract

Physical human-robot collaboration is increasingly required in many contexts (such as industrial and rehabilitation applications). The robot needs to interact with the human to perform the target task while relieving the user from the workload. To do that, the robot should be able to recognize the human's intentions and guarantee the safe and adaptive behaviour along the intended motion directions. These advanced robot-control strategies are particularly demanded in the industrial field, where the operator guides the robot manually to manipulate heavy parts (e.g., while teaching a specific task). With this aim, this work proposes a Q-Learning-based Model Predictive Variable Impedance Control (Q-LMPVIC) to assist the operators in physical human-robot collaboration (pHRC) tasks. A Cartesian impedance control loop is designed to implement a decoupled compliant robot dynamics. The impedance control parameters (i.e., setpoint and damping parameters) are then optimized online in order to maximize the performance of the pHRC. For this purpose, an ensemble of neural networks is designed to learn the modeling of the human-robot interaction dynamics while capturing the associated uncertainties. The derived modeling is then exploited by the MPC, enhanced with the stability guarantees by means of Lyapunov constraints. The MPC is solved by making use of a Q-Learning method that, in its online implementation, uses an actor-critic algorithm to approximate the exact solution. The Q-learning method provides an accurate and highly efficient solution (in terms of computational time and resources). The proposed approach has been validated through experimental tests, in which a Franka EMIKA panda robot has been used as a test platform. Each user was asked to interact with the robot along the controlled z vertical Cartesian direction. To assess its performance, the proposed controller has been compared with a model-based reinforcement learning variable impedance controller previously developed and available in literature. As highlighted in the achieved results, the proposed controller is able to improve the pHRC performance.
ROVEDA, LORIS
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-ott-2021
2020/2021
La collaborazione tra operatori e robot è sempre più richiesta in numerosi contesti, partendo da quello industriale fino ad arrivare al riabilitativo. Quest’ultima prevede un’interazione che esalti le rispettive qualità dei soggetti, volta alla realizzazione di un compito prescritto attraverso il minimo dispendio energetico dell’operatore. Per ottenere questo risultato, il robot deve saper riconoscere le intenzioni dell’operatore e garantire un comportamento adattabile ed in linea con gli attuali standard di sicurezza. Queste avanzate strategie di controllo del manipolatore sono particolarmente richieste nel settore industriale, dove l’addetto può guidare manualmente il robot per maneggiare componenti pesanti mentre lo istruisce sul compito da svolgere. Considerando questo obbiettivo, il presente lavoro propone un Q-Learning-based Model Predictive Variable Impedance Control (Q-LMPVIC) per assistere gli operatori nei compiti che prevedono la collaborazione fisica con un robot. Un primo anello interno per il controllo di impedenza cartesiana è progettato per ottenere una dinamica del manipolatore disaccoppiata e adattabile in funzione di parametri di controllo. Questi ultimi (in particolare lo smorzamento ed il setpoint) sono poi ottimizzati in tempo reale per massimizzare la prestazione del robot durante l’esecuzione del compito. A questo proposito, viene progettato un insieme di reti neurali per imparare il modello dinamico dell’interazione tra l’operatore ed il manipolatore, esprimendo anche una misurazione dell’incertezza associata. Il modello così ricavato è poi sfruttato dal MPC, arricchito dei vincoli di Lyapunov per garantirne la stabilità. Il MPC è risolto utilizzando il metodo Q-Learning, che, nella sua implementazione online, utilizza delle reti neurali actor e critic per approssimarne la soluzione. Questo metodo garantisce un risultato accurato ed efficiente dal punto di vista delle risorse computazionali utilizzate e del tempo impiegato. L’approccio proposto è stato validato da una campagna sperimentale eseguita utilizzando il robot Franka EMIKA panda come partner per la collaborazione con diversi operatori. A ciascuno di loro è stato chiesto di interagire con il robot solamente nella direzione dell’asse cartesiano verticale z. Per valutare la prestazione del controllore, l’approccio presentato nella tesi è stato confrontato con un Model-Based Reinforcement Learning Variable Impedance Controller sviluppato precedentemente e disponibile in letteratura. Come evidenziato dai risultati raggiunti, il controllore proposto si è rivelato in grado di migliorare la prestazione del manipolatore durante la collaborazione.
File allegati
File Dimensione Formato  
Q-Learning-Based Model Predictive Variable Impedance Control for Physical Human-Robot Collaboration.pdf

non accessibile

Descrizione: Tesi
Dimensione 2.67 MB
Formato Adobe PDF
2.67 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179445