Tecniche di machine learning applicate al controllo d'interazione per manipolatori industriali

The presented MSc Thesis focuses on industrial interaction robotized tasks, investigating a learning approach to train a manipulator executing a repetitive task. Actually, an intrinsic autonomous behaviour is increasingly required to the manipulator, in order to automate the production process while increasing the flexibility of the task execution. Nowadays, in fact, industries are characterized by a dynamically-changeable environment, where different components have to be manipulated in continuous mutable scenarios, requiring safe interaction with the surrounding environment and the avoidance of any force overshoot that may result in components damages or task failures (eg, in polishing tasks). Such challenging application both needs to improve the low-level control (to face the problem of the dynamics compensation of the manipulator) and the high level-interaction control (to face the problem of the force control, guaranteeing a stable-force overshoots free task execution). Based on the Cartesian impedance control, the proposed approach consists in two main learning algorithms: i) iterative friction learning (to maximize the control performance) and ii) smart force tracking impedance control (to properly tune the impedance control). In i), preventively identifying the global dynamics of the manipulator, the proposed algorithm relies on the reinforcement learning procedure: given the target task in the Cartesian space and a joint space friction model, the algorithm is capable to adapt the friction model parameters based on a specified error function. The proposed error function correlates the Cartesian position tracking error to the joint space friction torques, allowing to independently learn the friction parameters for each joint. In such a way, the friction model parameters can be updated in subsequent iterations, compensating for the friction effects. In ii) the proposed algorithm also relies on the reinforcement learning procedure: given the target interaction task in the Cartesian space and the force measurements at the robot end-effector the algorithm is capable to adapt the force tracking impedance control parameters. The proposed method allows to iteratively learn the Cartesian damping parameters to fit the interaction dynamics resulting from the task execution with the target overdamped dynamics of the controlled robot, while learn the proportional force control gain to track a target interaction force. To validate the proposed strategy, the developed method has been applied to a typical industrial assembly task. More in details, the target task involves the assembly of a compliant automotive component without knowing the its mechanical properties. As a test platform, a standard industrial UR10 Universal Robot has been used, equipped by a force/torque sensor at the robot end-effector. Experimental results show the improved performance in both the control phases i) (improving the dynamic compensation) and ii) (guaranteeing the force tracking with force overshoots avoidance). The developed method can be applied to any industrial interaction task and any industrial manipulator, since no specific requirements are needed. The presented MSc Thesis has been carried out at the Institute of Industrial Technologies and Automation (ITIA) of the italian National Research Council (CNR).

In questa tesi si è posta l'attenzione sui task d’interazione per manipolatori industriali, si sono analizzate le procedure di learning per l'addestramento di robot che eseguono task ripetitivi. Una capacità intrinseca di auto-miglioramento delle prestazioni da parte del robot è fortemente richiesta ai manipolatori industriali, al fine di automatizzare il processo produttivo aumentando la flessibilità dei task da eseguire. Negli ultimi anni, infatti, nel mondo industriale ci si trova a lavorare in ambienti le cui caratteristiche dinamiche sono in continuo mutamento, dove devono essere manipolati componenti differenti in uno scenario in continuo mutamento, richiedendo un interazione sicura con l'ambiente circostante ed evitando qualsiasi tipo di over-shoot di forza che può causare un danneggiamento del componente o il fallimento del task (eg nei task di lucidatura). Per raggiungere questo obiettivo si è andati a migliorare sia il controllo di basso livello (ottimizzando la compensazione della dinamica del manipolatore) sia il controllo d’interazione di alto livello (ottimizzando il controllo di forza, garantendo un’interazione stabile e senza over- shoot). Sulla base del controllo in impedenza in coordinate cartesiane, l’approccio proposto consiste in due algoritmi di machine learning: i) Iterative friction learning (massimizza le performance del controllo) ii) Smart forcce tracking impedance control (ottimizza i parametri da assegnare al controllo in impedenza nella fase d’assemblaggio). In i), il modello dinamico del robot precedentemente identificato viene migliorato da questo algoritmo. L'algoritmo proposto è catalogabile tra le procedure di reinforcement learning. Assegnando un task target in coordinate cartesiane e un modello d'attrito nello spazio dei giunti al robot, l'algoritmo è capace di adattare i parametri del modello d'attrito sulla base di una specifica funzione d'errore. Questa, mette in relazione l'errore di tracking nello spazio cartesiano rispetto alle coppie d'attrito nello spazio dei giunti, permettendo di apprendere indipendentemente i parametri d'attrito dei rispettivi giunti. In questo modo, i parametri d'attrito vengono aggiornati dopo ogni iterazione, andando a compensare gli effetti dell'attrito. In ii), l'algoritmo proposto è anch'esso basato sul reinforcement learning: conoscendo il task target d'interazione nello spazio cartesiano e le forze scambiate misurate dal sensore posto sull'end-effector, l'algoritmo è in grado di adattare autonomamente i parametri del force tracking impedance control. L'approccio proposto permette di apprendere iterativamente lo smorzamento da assegnare al robot in modo che l'interazione tra robot e ambiente risulti stabile e senza over-shoot di forza, inoltre va ad apprendere il guadagno ottimale dell'anello di controllo della forza in modo da raggiungere il riferimento assegnato. Per la validazione, questi algoritmi, vengono applicati ad un tipico task di assemblaggio industriale. Il task consiste nell'inserzione di un componente all'interno della portiera di un auto, senza che questa venga modellata. Come piattaforma di test si è utilizzato un Universal Robots UR10, equipaggiato con un sensore di forza al polso. I risultati degli esperimenti mostrano un miglioramento delle performace: i) miglioramento della compensazione della dinamica del robot; ii) garantisce l'assenza di over-shoot di forza. L'algoritmo sviluppato può essere facilmente utilizzato su qualsiasi altro manipolatore industriale, visto l'approccio molto generale utilizzato. La presente Tesi di Laurea magistrale è stata sviluppata presso l'Istituto di Tecnologie Industriali e Automazione (ITIA) del Consiglio Nazionale delle Ricerche C.N.R.