Automata are set to become ubiquitous in modern society, fulfilling assistive, collaborative industrial and domestic roles. In fulfilling these roles, the robots will come in contact with users of varied technical backgrounds, often having no special training for operating them. It is crucial, therefore, to provide novel ways in which humans may command them, lowering the barrier of entry to provide a safer, more intuitive and collaborative interactive environment. Pointing is one of the first ways humans interact with one another and throughout their lives it remains a very important element in human communication. As such, it is a natural candidate for being used as a means to interact with robots. Therefore, properly establishing an effective point-and-command human-machine interface comes as a natural milestone in the process of universalizing the application of automata. In interacting with robots, one of the crucial tasks to be performed is picking and placing objects. In domestic or uncontrolled industrial environments, the objects involved in these operations are often previously unknown. This work, thus, set out to provide a broad view on how human-robot interfaces have been done in the past, while proposing a different pipeline for commanding the grasping of unknown objects. This system proposes the use of an RGB-D sensor – the Microsoft Kinect – as a main visual sensor and by using its embedded skeleton tracking capabilities, is able to identify which object the user wants the robot to grasp (i.e. the object the user is pointing at) and autonomously generate a grasping pose for said object. The proposed system offers added robustness with respect to object traits, such as varying and non-uniform colors and different lighting conditions of the scene by applying an extension of Felzenszwalb and Huttenlocher’s graph-based image sectioning algorithm instead of traditional color tresholding or background removal techniques and by implementing a different kind of Point-Cloud filtering technique that allows it to reduce the effect of false-negative identifications in the image sectioning step.
Gran parte delle previsioni indicano che i robot diventeranno onnipresenti nella società umana, integrati in tutte gli ambiti della nostra vita - domestici, professionali e personali. Questa onnipresenza, però, presenterà una grande sfida, mai affrontata per coloro che hanno il compito di progettare i robot, cioè il cambiamento radicale del profilo degli utilizzatori e del contesto nel quale il robot è adoperato. Con la diffusione dei sistemi automatici, la classe degli utilizzatori, che inizialmente comprendevano soltanto operai specializzati da aziende, includerà elementi meno esperti, dal momento che non sarà possibile dedicare all'intera popolazione il tempo e le risorse che inizialmente venivano destinati agli operai. Inoltre, in particolar modo per gli assistive robot, l'utilizzatore potrebbe non essere capace di interagire con il robot in modo convenzionale; questo potrebbe essere il caso delle persone disabili, impossibilitate nell'utilizzo, ad esempio, persino della tastiera con la quale avviare un dispositivo vigilante. Di conseguenza, sia per questioni di sicurezza che di praticità, l'interfaccia uomo-macchina deve diventare necessariamente più semplice ed intuitiva. Inoltre anche nell'ambito industriale, in cui gli utilizzatori continueranno a possedere una formazione tecnica adeguata e le difficoltà associate alle persone con disabilità sono meno rilevanti, l'area dei robot sarà interessata da importanti cambiamenti. Con l'avvento dell'Industria 4.0, vi è una crescente richiesta di un ambiente industriale che sia più dinamico e più flessibile, che permetta di modificare sia il prodotto finale, sia la disposizione delle macchine e degli operati all'interno dell'azienda. Per questi motivi, l'approccio tradizionale con il quale sono programmati i robot di oggi, caratterizzati da traiettorie fisse e hard--coded (cioè difficili da modificare, dal momento che alcune volte è richiesta buona esperienza in diversi linguaggi di programmazione), presto non sarà più adeguata per grande parte delle nuove aziende. Dato questo paronama, è evidente che vi sia la necessità di introdurre nuove tecniche per programmare gli automi futuri,e ci sono già numerose proposte che prevedono un'interfaccia uomo-computer che faciliterebbe questo incarico. Alcune soluzioni (come, ad esempio, il caso di Matlab e Simulink) mirano a questo obiettivo introducendo elementi visuali nel linguaggio di programmazione, che prende il nome di programmazione con blocchi; queste alternative, sebbene siano utili ai fini dell'apprendimento della programmazione, sono a volte molto limitanti. D'altro canto, vi sono anche altre alternative che propongono di utilizzare mezzi più intuitivi. Sin dai primi anni della sua vita, l'essere umano è infatti abituato a interagire per mezzo di gesti, i quali rappresentano per l'uomo la tecnica più diffusa di comunicazione a breve distanza. Per questo motivo un'interfaccia uomo-macchina che sia capace di capire e processare i comandi emessi per mezzo dei gesti sarebbe molto intuitiva e semplice da usare. Infine, una tra le attività più basilari dei robot è quella di raccogliere e posizionare oggetti; dal momento che i nuovi robot saranno usati in ambienti e contesti sconosciuti, è conveniente sviluppare una Human Machine Interface (HMI) che sia robusta rispetto a variazione ambientali e delle caratteristiche degli oggetti. Sulla scorta del discorso che è stato presentato finora, questa tesi si dedica a studiare e proporre un metodo alternativo alle tradizionali HMI basato sul paradigma point-and-command per operazioni di prelievo e posizionamento di pezzi per manipolatori robotici. Dopo aver effettuato un'ampia ricerca sullo stato dell'arte, è stata identificata un'importante mancanza nelle HMI proposte, cioè che esse fossero allo stesso tempo robuste a variazioni ambientali (a causa delle tecniche di rimozione di fondo usate) e a variazioni nelle caratteristiche degli oggetti (a causa delle tecniche di identificazione degli oggetti manipolati). In riposta a questa mancanza, è stata proposta una nuova interfaccia che usa il paradigma point-and-command; essa utilizza una tecnica di segmentazione di immagini basata sulla teoria dei grafi e lo skeletal tracking per identificare l’obiettivo del manipolatore. I risultati ottenuti in questo modo sono sia robusti rispetto all'ambientazione, sia rispetto a molte caratteristiche degli oggetti, come ad esempio colore, riflettività e struttura. Per la sua semplicità e robustezza, la pinza utilizzata è di natura a ventosa, e la strategia di generazione delle configurazioni di grasping è basata sulle euristiche ricavate dalla letteratura; esse consistono nell'afferrare l'oggetto nelle aree più piatte della sua superficie e quanto più vicino possibile al suo centro di massa. Il risultato finale è stato quello di ottenere una HMI funzionale, comandata unicamente tramite gesti, capace di funzionare in ambienti generici e di permettere la manipolazione di oggetti di diversa natura; essa può essere utilizzata anche affiancata ad altri moduli di controllo per fornire un'esperienza più intuitiva e sicura per gli utilizzatori non esperti. Infine, un ulteriore e importante contributo di questa tesi è stato quello di fornire un'estensione del paradigma point-and-command basato sulla segmentatzione di immagini che ne migliora la versatilità, e una tecnica innovativa per filtrare le nuvole di punti migliorandone la robustezza.
A point-and-command interface for grasping unknown objects with robotic manipulators
CORREIA MARQUES, JOÃO MARCOS
2016/2017
Abstract
Automata are set to become ubiquitous in modern society, fulfilling assistive, collaborative industrial and domestic roles. In fulfilling these roles, the robots will come in contact with users of varied technical backgrounds, often having no special training for operating them. It is crucial, therefore, to provide novel ways in which humans may command them, lowering the barrier of entry to provide a safer, more intuitive and collaborative interactive environment. Pointing is one of the first ways humans interact with one another and throughout their lives it remains a very important element in human communication. As such, it is a natural candidate for being used as a means to interact with robots. Therefore, properly establishing an effective point-and-command human-machine interface comes as a natural milestone in the process of universalizing the application of automata. In interacting with robots, one of the crucial tasks to be performed is picking and placing objects. In domestic or uncontrolled industrial environments, the objects involved in these operations are often previously unknown. This work, thus, set out to provide a broad view on how human-robot interfaces have been done in the past, while proposing a different pipeline for commanding the grasping of unknown objects. This system proposes the use of an RGB-D sensor – the Microsoft Kinect – as a main visual sensor and by using its embedded skeleton tracking capabilities, is able to identify which object the user wants the robot to grasp (i.e. the object the user is pointing at) and autonomously generate a grasping pose for said object. The proposed system offers added robustness with respect to object traits, such as varying and non-uniform colors and different lighting conditions of the scene by applying an extension of Felzenszwalb and Huttenlocher’s graph-based image sectioning algorithm instead of traditional color tresholding or background removal techniques and by implementing a different kind of Point-Cloud filtering technique that allows it to reduce the effect of false-negative identifications in the image sectioning step.File | Dimensione | Formato | |
---|---|---|---|
2017_12_Correia_Marques.pdf
Open Access dal 05/12/2018
Descrizione: Full Thesis Text
Dimensione
2.87 MB
Formato
Adobe PDF
|
2.87 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/137453