Continuous action detection from 3D skeletal data

In collaborative robotics applications, understanding human behavior plays a crucial role in determining such a system's success. Detecting the action of the operator can improve human-robot coordination and enables a deeper integration in assembly tasks. Human action recognition systems typically use depth sensors like Microsoft Kinect, which is capable of skeleton tracking. This thesis aims to develop an online action detection system that uses 3D skeletal data as input. It is designed for flexibility, which allows working with a custom dataset, in which the addition of a new action instance at runtime does not require additional learning. Using the k-Nearest Neighbors Dynamic Time Warping algorithm, the proposed solution is capable of one-shot learning, which is the system's ability to recognize an action using a single training instance. The system can handle variations in execution rate, anthropometric invariance, position, and user orientation. Different human skeleton representations and metrics are tested to understand the best features that should be adopted using this algorithm. The experimental results on public and custom datasets demonstrate its adequacy for action recognition purposes. Its accuracy, robustness to noise, and computational complexity are compatible with the requirements of the project. Continuous action detection is achieved employing a sliding window and a thresholding method after the proper evaluations of the respective parameters.

Nelle applicazioni di robotica collaborativa, la comprensione del comportamento umano gioca un ruolo cruciale nel determinare il successo del sistema. Rilevare l'azione dell'operatore può migliorare il coordinamento uomo-macchina e permette un'integrazione più profonda nei compiti di assemblaggio. I sistemi di riconoscimento delle azioni umane usano tipicamente sensori di profondità come Microsoft Kinect, il quale è in grado di tracciare lo scheletro 3D del corpo umano. Questa tesi mira a sviluppare un sistema di rilevamento continuo delle azioni umane che utilizza dati scheletali 3D come input. È progettato per la flessibilità, che permette di lavorare con un dataset personalizzato, in cui l'aggiunta di una nuova azione durante l'utilizzo non richiede un apprendimento aggiuntivo. Usando l'algoritmo k-Nearest Neighbors Dynamic Time Warping, tramite la soluzione proposta è possibile un apprendimento one-shot, che è la capacità del sistema di riconoscere un'azione usando un singolo esempio per azione come training. Il sistema può gestire variazioni nella velocità di esecuzione, invarianza antropometrica, posizione e orientamento dell'utente. Diverse rappresentazioni dello scheletro umano e metriche sono testate per capire le migliori caratteristiche che dovrebbero essere adottate utilizzando questo algoritmo. I risultati sperimentali su dataset pubblici e personalizzati dimostrano la sua adeguatezza per il riconoscimento delle azioni. La sua accuratezza, la robustezza al rumore e la complessità computazionale sono compatibili con i requisiti del progetto. Il riconoscimento continuo delle azioni è ottenuto utilizzando una finestra scorrevole e un metodo di soglia, dopo le opportune valutazioni dei rispettivi parametri.