Collaborative robots have the ability to automate the work in factories thanks to their efficiency and flexibility. With the help of computer vision systems, they could further help the worker in front of them understanding the actions performed. This can be done processing the video stream acquired with a camera mounted above the robot. Usually, the videos are processed with statistical methods, like Hidden Markov Model or Bayesian Network. However, these methods are quite cumbersome due to the necessity of a lot of video stream of the action performed for the training process. This thesis proposes a method to recognise online the action of a worker in an industrial setting. Indeed, knowing the tool the worker has in hand, it is relatively easy to understand what he or she is doing. This is done analysing the depth frames of a RGB-D camera positioned in front of the worker. The depth images are used to have a 3D representation of the scene in the form of a point cloud, where the objects are sought. To achieve this, it has been used a 3D object recognition algorithm to find them, and the ICP (Iterative Closest Point) algorithm to track them. Even though these methods are usually used offline, with some modifications, they have been applied in a real-time application. The choice of not using a deep neural network is due to the troublesome process needed to allow them to recognise the objects. For example, adding a new tool implies a big quantity of information about it. On the other hand, the method used only needs the 3D CAD model of the object that can be retrieved quite easily, if not already present. The positions of the worker's hands are recovered through the integrated algorithm of the RGB-D camera used, the Microsoft Kinect v2. The hand-object interaction is performed looking at the relative distance between the hand and the object. This allows to know if the object is in-use without impacting significantly on the computational resources To assert the efficiency of the method, it has been tested on a motorbike rear brake assembling.

I robot collaborativi possono automatizzare il lavoro nelle industrie grazie alla loro efficienza e flessibilità. Mediante un sistema di visione, potrebbero aiutare ulteriormente l'operaio, andando a dedurre l'azione che egli sta svolgendo. Quanto affermato si ottiene analizzando il flusso video acquisito tramite una telecamera istallata sopra il robot. Solitamente, i video vengono analizzati con dei metodi statistici, come gli Hidden Markov Model e le Reti Bayesiane. Tuttavia questi metodi risultano molto complessi, in quanto per essere formati necessitano di una grande quantità di video nei quali l'azione viene compiuta . Questa tesi propone un metodo per riconoscere in tempo reale le azioni dell'operaio in un ambiente industriale. Infatti, conoscendo l'attrezzo che il lavoratore ha in mano, è relativamente semplice capire cosa stia facendo. Tale processo si realizza analizzando le mappe di profondità di una telecamera RGB-D posta di fronte all'operaio stesso. Le mappe di profondità sono usate per avere una rappresentazione tridimensionale della scena sotto forma di Point Cloud, dove gli oggetti verranno cercati. Per poter attuare tutto ciò, viene impiegato un algoritmo per il riconoscimento di oggetti per l’identificazione degli stessi; successivamente si utilizza il metodo Iterative Closest Point per tracciare lo spostamento dei suddetti oggetti. Anche se di solito questi metodi vengono usati per applicazioni offline, con alcune modifiche è stato possibile adoperarli in una applicazione in tempo reale. La scelta di non usare una rete neurale è dovuta alla complessità di tali metodi nel processo di apprendimento, che richiede una grande quantità di immagini per ogni oggetto che si intende individuare. D'altro canto, il metodo usato richiede soltanto un modello 3D dell'oggetto, che può essere acquisito facilmente, se non già presente. La posizione delle mani dell'operatore è ottenuta grazie all'algoritmo integrato della telecamera RGB-D usata (Microsoft Kinect v2). L'interazione tra le mani e gli oggetti è interpretata guardando alla distanza relativa tra le due componenti. In questo modo, è possibile capire l'oggetto usato senza avere un impatto significativo sulle risorse computazionali. L'efficacia di questo metodo è stata dimostrata su un'operazione di assemblaggio di un freno posteriore di una moto.

Human activity recognition in a collaborative robotics application

TARTABINI, LEONARDO
2019/2020

Abstract

Collaborative robots have the ability to automate the work in factories thanks to their efficiency and flexibility. With the help of computer vision systems, they could further help the worker in front of them understanding the actions performed. This can be done processing the video stream acquired with a camera mounted above the robot. Usually, the videos are processed with statistical methods, like Hidden Markov Model or Bayesian Network. However, these methods are quite cumbersome due to the necessity of a lot of video stream of the action performed for the training process. This thesis proposes a method to recognise online the action of a worker in an industrial setting. Indeed, knowing the tool the worker has in hand, it is relatively easy to understand what he or she is doing. This is done analysing the depth frames of a RGB-D camera positioned in front of the worker. The depth images are used to have a 3D representation of the scene in the form of a point cloud, where the objects are sought. To achieve this, it has been used a 3D object recognition algorithm to find them, and the ICP (Iterative Closest Point) algorithm to track them. Even though these methods are usually used offline, with some modifications, they have been applied in a real-time application. The choice of not using a deep neural network is due to the troublesome process needed to allow them to recognise the objects. For example, adding a new tool implies a big quantity of information about it. On the other hand, the method used only needs the 3D CAD model of the object that can be retrieved quite easily, if not already present. The positions of the worker's hands are recovered through the integrated algorithm of the RGB-D camera used, the Microsoft Kinect v2. The hand-object interaction is performed looking at the relative distance between the hand and the object. This allows to know if the object is in-use without impacting significantly on the computational resources To assert the efficiency of the method, it has been tested on a motorbike rear brake assembling.
LUCCI, NICCOLÒ
ROCCO, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
I robot collaborativi possono automatizzare il lavoro nelle industrie grazie alla loro efficienza e flessibilità. Mediante un sistema di visione, potrebbero aiutare ulteriormente l'operaio, andando a dedurre l'azione che egli sta svolgendo. Quanto affermato si ottiene analizzando il flusso video acquisito tramite una telecamera istallata sopra il robot. Solitamente, i video vengono analizzati con dei metodi statistici, come gli Hidden Markov Model e le Reti Bayesiane. Tuttavia questi metodi risultano molto complessi, in quanto per essere formati necessitano di una grande quantità di video nei quali l'azione viene compiuta . Questa tesi propone un metodo per riconoscere in tempo reale le azioni dell'operaio in un ambiente industriale. Infatti, conoscendo l'attrezzo che il lavoratore ha in mano, è relativamente semplice capire cosa stia facendo. Tale processo si realizza analizzando le mappe di profondità di una telecamera RGB-D posta di fronte all'operaio stesso. Le mappe di profondità sono usate per avere una rappresentazione tridimensionale della scena sotto forma di Point Cloud, dove gli oggetti verranno cercati. Per poter attuare tutto ciò, viene impiegato un algoritmo per il riconoscimento di oggetti per l’identificazione degli stessi; successivamente si utilizza il metodo Iterative Closest Point per tracciare lo spostamento dei suddetti oggetti. Anche se di solito questi metodi vengono usati per applicazioni offline, con alcune modifiche è stato possibile adoperarli in una applicazione in tempo reale. La scelta di non usare una rete neurale è dovuta alla complessità di tali metodi nel processo di apprendimento, che richiede una grande quantità di immagini per ogni oggetto che si intende individuare. D'altro canto, il metodo usato richiede soltanto un modello 3D dell'oggetto, che può essere acquisito facilmente, se non già presente. La posizione delle mani dell'operatore è ottenuta grazie all'algoritmo integrato della telecamera RGB-D usata (Microsoft Kinect v2). L'interazione tra le mani e gli oggetti è interpretata guardando alla distanza relativa tra le due componenti. In questo modo, è possibile capire l'oggetto usato senza avere un impatto significativo sulle risorse computazionali. L'efficacia di questo metodo è stata dimostrata su un'operazione di assemblaggio di un freno posteriore di una moto.
File allegati
File Dimensione Formato  
Leonardo_Tartabini_920738_ElaboratoFinale.pdf

accessibile in internet per tutti

Dimensione 66.05 MB
Formato Adobe PDF
66.05 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174120