This thesis presents an approach to action recognition in collaborative human-robot contexts, using a Siamese Neural Network to identify the tool grasped by the operator and, consequently, infer the assembly operation he is about to perform. The method employs a hand-tracking algorithm to detect the moment when the operator’s hand pauses to grasp a tool. An image representing only the tool is captured and undergoes a pre-processing phase to enhance its visual features. The processed image is then compared with a set of few reference images representing the tools required for the assembly process through the Siamese Network, which calculates dissimilarity values to identify the grasped tool. By associating each tool with a corresponding operation, the system can automatically and accurately predict the operator’s intended action. The performance of the system was experimentally validated, demonstrating high accuracy in recognizing tools and predicting operations. Specifically, the tools used during validation were not part of the training dataset, and the work surface differed from those used in training. These results confirm the system’s ability to perform satisfactorily even under conditions not encountered during the training phase. A distinctive feature of this approach is its flexibility. Thanks to the architecture of the Siamese Neural Network, new tools can be integrated by simply adding a small number of labeled images to the reference dataset, without requiring retraining of the model.

Questa tesi presenta un approccio al riconoscimento delle azioni in contesti collaborativi uomo-robot, utilizzando una Rete Neurale Siamese per identificare lo strumento impugnato dall’operatore e, di conseguenza, dedurre l’operazione di assemblaggio che sta per eseguire. Il metodo impiega un algoritmo di tracciamento della mano per rilevare il momento in cui la mano dell’operatore si ferma per afferrare un attrezzo. Un'immagine che rappresenta esclusivamente l'attrezzo viene catturata e sottoposta a una fase di pre-elaborazione per migliorarne le caratteristiche visive. L'immagine elaborata viene quindi confrontata con un insieme di poche immagini di riferimento che rappresentano gli attrezzi necessari per il processo di assemblaggio, attraverso la Rete Siamese, che calcola i valori di dissimilarità per identificare l'attrezzo afferrato. Associando ogni attrezzo a una corrispondente operazione, il sistema è in grado di prevedere automaticamente e con precisione l'azione che l'operatore intende eseguire. Le prestazioni del sistema sono state validate sperimentalmente, dimostrando un’elevata accuratezza nel riconoscimento degli strumenti e nella previsione delle operazioni. In particolare, gli strumenti utilizzati in fase di validazione non erano presenti nel dataset di training e la superficie di lavoro differiva da quella utilizzata nell’addestramento. Questi risultati confermano la capacità del sistema di operare efficacemente anche in condizioni non viste durante il training. Una caratteristica distintiva di questo approccio è la sua flessibilità. Grazie alla struttura della rete Siamese, è possibile integrare nuovi strumenti semplicemente aggiungendo un numero limitato di immagini al dataset di riferimento, senza la necessità di riaddestrare il modello.

An approach based on Siamese networks for the recognition of human operations in collaborative robotic tasks

GIUSTI, LUCIA
2023/2024

Abstract

This thesis presents an approach to action recognition in collaborative human-robot contexts, using a Siamese Neural Network to identify the tool grasped by the operator and, consequently, infer the assembly operation he is about to perform. The method employs a hand-tracking algorithm to detect the moment when the operator’s hand pauses to grasp a tool. An image representing only the tool is captured and undergoes a pre-processing phase to enhance its visual features. The processed image is then compared with a set of few reference images representing the tools required for the assembly process through the Siamese Network, which calculates dissimilarity values to identify the grasped tool. By associating each tool with a corresponding operation, the system can automatically and accurately predict the operator’s intended action. The performance of the system was experimentally validated, demonstrating high accuracy in recognizing tools and predicting operations. Specifically, the tools used during validation were not part of the training dataset, and the work surface differed from those used in training. These results confirm the system’s ability to perform satisfactorily even under conditions not encountered during the training phase. A distinctive feature of this approach is its flexibility. Thanks to the architecture of the Siamese Neural Network, new tools can be integrated by simply adding a small number of labeled images to the reference dataset, without requiring retraining of the model.
PELOSI, MARTINA
ZANCHETTIN, ANDREA MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Questa tesi presenta un approccio al riconoscimento delle azioni in contesti collaborativi uomo-robot, utilizzando una Rete Neurale Siamese per identificare lo strumento impugnato dall’operatore e, di conseguenza, dedurre l’operazione di assemblaggio che sta per eseguire. Il metodo impiega un algoritmo di tracciamento della mano per rilevare il momento in cui la mano dell’operatore si ferma per afferrare un attrezzo. Un'immagine che rappresenta esclusivamente l'attrezzo viene catturata e sottoposta a una fase di pre-elaborazione per migliorarne le caratteristiche visive. L'immagine elaborata viene quindi confrontata con un insieme di poche immagini di riferimento che rappresentano gli attrezzi necessari per il processo di assemblaggio, attraverso la Rete Siamese, che calcola i valori di dissimilarità per identificare l'attrezzo afferrato. Associando ogni attrezzo a una corrispondente operazione, il sistema è in grado di prevedere automaticamente e con precisione l'azione che l'operatore intende eseguire. Le prestazioni del sistema sono state validate sperimentalmente, dimostrando un’elevata accuratezza nel riconoscimento degli strumenti e nella previsione delle operazioni. In particolare, gli strumenti utilizzati in fase di validazione non erano presenti nel dataset di training e la superficie di lavoro differiva da quella utilizzata nell’addestramento. Questi risultati confermano la capacità del sistema di operare efficacemente anche in condizioni non viste durante il training. Una caratteristica distintiva di questo approccio è la sua flessibilità. Grazie alla struttura della rete Siamese, è possibile integrare nuovi strumenti semplicemente aggiungendo un numero limitato di immagini al dataset di riferimento, senza la necessità di riaddestrare il modello.
File allegati
File Dimensione Formato  
2024_12_Giusti_Executive_Summary_02.pdf

accessibile in internet per tutti a partire dal 20/11/2025

Descrizione: Text Executive Summary
Dimensione 515.94 kB
Formato Adobe PDF
515.94 kB Adobe PDF   Visualizza/Apri
2024_12_Giusti_Tesi_01.pdf

accessibile in internet per tutti a partire dal 20/11/2025

Descrizione: Text Thesis
Dimensione 15.28 MB
Formato Adobe PDF
15.28 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231204