Estimating fabric deformation in human-robot co-manipulation is a critical challenge in robotic automation, particularly in industries such as textile manufacturing, automotive and industrial automation. Data-driven models leveraging depth images and convolutional neural networks can be used to estimate deformation states, with deformation defined as the relative rototranslation between the current robot pose and the human grasping position. However, this kind of approach faces limitations in generalization, data requirements and in the assumption of no deformation between the grasping hands. This work explores the use of Siamese networks with DenseNet and a shallow version of Vision Transformers (ViT) as two possible candidate feature extractors to estimate fabric deformations from depth images. To address data variety, and the long times required to collect a dataset in a real world scenario, a synthetic dataset of depth images is generated using a physics simulator, MuJoCo. Fabrics are simulated by varying physical and mechanical parameters. The created dataset enables training deep learning models without the need for large scale real world data collection. It can be used to train a Siamese Network, which estimates the range of deformation on a selected axis instead of precisely estimating the deformation, assuming that it is sufficient to perform collaborative tasks. The control strategy for the mobile manipulator involves converting the estimated magnitude of deformation into robot commands. With adequate tuning it becomes possible to mitigate the effects of misclassification, improving responsiveness and smoothness during co-manipulation. The best trained models were validated on real data, showing promising results even in the face of unexpected shapes or loose grasping configurations. The control architecture developed in this thesis was evaluated on a scenario of human-robot collaborative transportation with an untrained operator, showing promising results in terms of compensating deformation and responsiveness to human actions.
Stimare la deformazione di un tessuto nella co-manipolazione uomo-robot è un'ardua sfida in robotica, in particolare in settori come la produzione tessile, l'automotive e l'automazione industriale. Modelli data-driven, che sfruttano immagini depth e reti neurali convoluzionali, possono essere utilizzati per stimare gli stati di deformazione, dove la deformazione è definita come la rototraslazione relativa tra la posa attuale del robot e la presa dell'operatore umano. Tuttavia, questo tipo di approccio presenta limitazioni in termini di generalizzazione, requisiti di dati e nell'ipotesi di assenza di deformazioni tra le mani che afferrano il tessuto. Questo lavoro esplora l'uso di reti Siamese con DenseNet e una versione ridotta del Vision Transformer (ViT) come possibili feature extractor, per stimare la deformazione del tessuto da immagini depth. Per ovviare alla mancanza di varietà nei dati e ai lunghi tempi necessari per raccogliere un dataset dal vivo, è stato generato un dataset sintetico di immagini depth utilizzando un simulatore fisico, MuJoCo. I tessuti sono stati simulati variando parametri fisici e meccanici. Il dataset creato consente di addestrare modelli di deep learning senza la necessità di una raccolta su larga scala di dati reali. Inoltre, può essere utilizzato per addestrare una rete Siamese che stima l'intervallo di deformazione su un asse anziché stimare un valore preciso, assumendo che ciò sia sufficiente per svolgere attività collaborative. La strategia di controllo per il manipolatore mobile prevede la conversione dell'entità stimata della deformazione in comandi per il robot. Con un'adeguata calibrazione è possibile mitigare gli effetti delle errate classificazioni, migliorando reattività e fluidità durante la comanipolazione. I migliori modelli sono stati validati su dati reali, mostrando risultati promettenti, anche di fronte a forme inattese o configurazioni di presa poco rigide. L'architettura di controllo sviluppata è stata valutata in uno scenario di trasporto collaborativo uomo-robot, con un operatore non addestrato, mostrando buoni risultati in termini di compensazione della deformazione e reattività alle azioni umane.
Fabric deformation estimation in human-robot co-manipulation with Siamese networks and synthetic datasets
Martellucci, Pablo
2023/2024
Abstract
Estimating fabric deformation in human-robot co-manipulation is a critical challenge in robotic automation, particularly in industries such as textile manufacturing, automotive and industrial automation. Data-driven models leveraging depth images and convolutional neural networks can be used to estimate deformation states, with deformation defined as the relative rototranslation between the current robot pose and the human grasping position. However, this kind of approach faces limitations in generalization, data requirements and in the assumption of no deformation between the grasping hands. This work explores the use of Siamese networks with DenseNet and a shallow version of Vision Transformers (ViT) as two possible candidate feature extractors to estimate fabric deformations from depth images. To address data variety, and the long times required to collect a dataset in a real world scenario, a synthetic dataset of depth images is generated using a physics simulator, MuJoCo. Fabrics are simulated by varying physical and mechanical parameters. The created dataset enables training deep learning models without the need for large scale real world data collection. It can be used to train a Siamese Network, which estimates the range of deformation on a selected axis instead of precisely estimating the deformation, assuming that it is sufficient to perform collaborative tasks. The control strategy for the mobile manipulator involves converting the estimated magnitude of deformation into robot commands. With adequate tuning it becomes possible to mitigate the effects of misclassification, improving responsiveness and smoothness during co-manipulation. The best trained models were validated on real data, showing promising results even in the face of unexpected shapes or loose grasping configurations. The control architecture developed in this thesis was evaluated on a scenario of human-robot collaborative transportation with an untrained operator, showing promising results in terms of compensating deformation and responsiveness to human actions.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_04_Martellucci_Tesi.pdf
solo utenti autorizzati a partire dal 12/03/2028
Descrizione: testo tesi
Dimensione
11.8 MB
Formato
Adobe PDF
|
11.8 MB | Adobe PDF | Visualizza/Apri |
|
2025_04_Martellucci_Executive_Summary.pdf
solo utenti autorizzati a partire dal 12/03/2028
Descrizione: executive summary
Dimensione
1.2 MB
Formato
Adobe PDF
|
1.2 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235525