Comparing patches across images is one of the most important problems in computer vision; it plays a crucial role in a wide variety of vision tasks. These tasks can range from low-level operations such as structure from motion, wide baseline matching, building panoramas, and image super-resolution, up to higher-level tasks such as object recognition, image retrieval, and classification of object categories. In this work we focus our attention on the task of object recognition. We first compare state-of-the-art handcrafted and deep descriptors on Horus dataset, evaluating them both in term of accuracy and computational time. We show how handcrafted descriptors outperform deep descriptors, being the latter not invariant to rotation and scale. We show how state-of-the-art deep descriptors in the literature cannot be used for real-time object recognition applications on the Horus device, since they require high computational time cost. We propose a new descriptor, HorusDesc, which overcomes the limitations of the other deep descriptors by achieving rotation and scale invariance thanks to a Spatial Transform Network module. We evaluate and compare HorusDesc and the other deep and handcrafted descriptors on state-of-the-art benchmarks in the field: Brown and HPatches datasets. We finally show how deep descriptors have poor performance when they are evaluated on patches not similar to the ones where they were trained, lacking of generalization property, unlike handcrafted descriptors.
Trovare corrispondenze di un punto in più immagini è uno dei problemi più importanti della visione artificiale, che svolge un ruolo cruciale in un'ampia gamma di attività visive. Queste attività possono variare da operazioni a basso livello come la struttura dal movimento, l'ampia corrispondenza di base, la creazione di panorami e la super-risoluzione dell'immagine, fino a attività di alto livello come il riconoscimento oggetti, il recupero di immagini e la classificazione delle categorie di oggetti. In questo lavoro ci concentriamo sull'attività del riconoscimento oggetti. Per prima cosa valutiamo lo stato dell'arte dei descrittori artigianali e di quelli approfonditi sul dataset Horus, sia in termini di accuratezza che in termini di tempo di computazione, mostrando come i descrittori artigianali abbiano risultati migliori di quelli approfonditi grazie a un'invarianza a scala e rotazione. Inoltre dimostriamo come i descrittori approfonditi, implementati sul dispositivo Horus, non possono essere usati per il riconoscimento oggetti in tempo reale, a causa dei tempi di computazione troppo alti. In questo lavoro proponiamo un nuovo descrittore, HorusDesc, che supera le limitazioni dei descrittori approfonditi raggiungendo un'invarianza a rotazione e scala, grazie a un modulo Spatial Transformer Network. Valutiamo e compariamo HorusDesc e gli altri descrittori artigianali e approfonditi sui dataset di benchmark Brown e HPatches, lo stato dell'arte in questo ambito. Mostriamo inoltre come i descrittori approfonditi hanno basse performance quando sono valutati su patch che non sono simili a quelle su cui sono stati allenati, e quindi non generalizzano come i descrittori artigianali.
Deep descriptors for Object recognition
CERRI, STEFANO
2016/2017
Abstract
Comparing patches across images is one of the most important problems in computer vision; it plays a crucial role in a wide variety of vision tasks. These tasks can range from low-level operations such as structure from motion, wide baseline matching, building panoramas, and image super-resolution, up to higher-level tasks such as object recognition, image retrieval, and classification of object categories. In this work we focus our attention on the task of object recognition. We first compare state-of-the-art handcrafted and deep descriptors on Horus dataset, evaluating them both in term of accuracy and computational time. We show how handcrafted descriptors outperform deep descriptors, being the latter not invariant to rotation and scale. We show how state-of-the-art deep descriptors in the literature cannot be used for real-time object recognition applications on the Horus device, since they require high computational time cost. We propose a new descriptor, HorusDesc, which overcomes the limitations of the other deep descriptors by achieving rotation and scale invariance thanks to a Spatial Transform Network module. We evaluate and compare HorusDesc and the other deep and handcrafted descriptors on state-of-the-art benchmarks in the field: Brown and HPatches datasets. We finally show how deep descriptors have poor performance when they are evaluated on patches not similar to the ones where they were trained, lacking of generalization property, unlike handcrafted descriptors.File | Dimensione | Formato | |
---|---|---|---|
Thesis.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
12.6 MB
Formato
Adobe PDF
|
12.6 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/137627