The need of alternative or complementary localization methods in a mobile environment has motivated the study of image-based approaches. Relevant works on the area often miss the inherent limitations of mobile devices resulting in a clear need of more adequate techniques. In this order of ideas the main purpose of this work is to investigate the use of binary features in the context of large-scale mobile visual landmark recognition. In content-based image retrieval a popular approach for images description is the Bag-of-Features model which using a codebook learned from a set of local features produces global image descriptors by quantizing local ones. For codebook construction the BoF model typically relies on some variant of the k-means clustering algorithm which is well defined only for real-valued data. In the basis of a thorough discussion about the different issues regarding clustering binary data streams, in this work are proposed and evaluated two approaches to build codebooks starting from binary features. The results of the evaluation of the proposed approaches reveal firstly that codebooks built from binary descriptors using Hierarchical K-Majority are less representative than their real-valued counterpart. Secondly they evidence that the most influential factor governing retrieval performance is the utilized detector and descriptor. Some identified strategies to overcome these issues are: to increase codebook's representativity by means of a denser images description, to keep high the ratio of the number of descriptors to the number of code vectors, and to use pairs of feature detectors and descriptors invariant only to the transformation effects present in the target images.

L'esigenza di metodi di localizzazione alternativi o complementari in un ambiente mobile ha motivato lo studio degli approcci basati sulle immagini. Studi rilevanti nell'area spesso ignorano le limitazioni intrinseche dei dispositivi mobili, tali circostanze evidenziano la necessità di tecniche più adeguate. In questo ordine di idee lo scopo principale di questo lavoro è quello di investigare l'uso di caratteristiche binarie nel contesto del riconoscimento visivo di punti di interesse su larga scala in ambiente mobile. Nel recupero di immagini basato sul contenuto un approccio popolare per la descrizione di immagini é il modello della borsa di parole il quale utilizza un libro codice appreso da un insieme di caratteristiche locali per produrre descrittori globali di immagini quantizzando quelli locali. Per la costruzione del libro codice il modello BoF si basa tipicamente su qualche variante dell'algoritmo di clustering k-means il quale è ben definito solo per dati a valori reali. In base ad una discussione approfondita sui diversi problemi riguardanti il clustering di dati binari, in questo lavoro vengono proposti e valutati due approcci per costruire libri codice a partire da caratteristiche binarie. I risultati della valutazione degli approcci proposti rivelano in primo luogo che i libri codice costruiti da descrittori binari utilizzando "Hierarchical K-Majority" sono meno rappresentativi della loro controparte a valori reali. In secondo luogo i risultati evidenziano che il fattore più influente sulla capacità di recupero è la combinazione di rivelatore e descrittore utilizzata. Alcune strategie individuate per superare questi problemi sono: aumentare la rappresentatività del libro codice mediante una descrizione densa delle immagini, mantenere elevato il rapporto tra il numero di descrittori al numero di vettori di codice, e utilizzare coppie di rivelatori e descrittori di caratteristiche che siano invarianti solo agli effetti di trasformazione presenti nelle immagini sotto descrizione.

Visual landmark recognition using binary features

PEREZ MURCIA, ANDRES FELIPE
2013/2014

Abstract

The need of alternative or complementary localization methods in a mobile environment has motivated the study of image-based approaches. Relevant works on the area often miss the inherent limitations of mobile devices resulting in a clear need of more adequate techniques. In this order of ideas the main purpose of this work is to investigate the use of binary features in the context of large-scale mobile visual landmark recognition. In content-based image retrieval a popular approach for images description is the Bag-of-Features model which using a codebook learned from a set of local features produces global image descriptors by quantizing local ones. For codebook construction the BoF model typically relies on some variant of the k-means clustering algorithm which is well defined only for real-valued data. In the basis of a thorough discussion about the different issues regarding clustering binary data streams, in this work are proposed and evaluated two approaches to build codebooks starting from binary features. The results of the evaluation of the proposed approaches reveal firstly that codebooks built from binary descriptors using Hierarchical K-Majority are less representative than their real-valued counterpart. Secondly they evidence that the most influential factor governing retrieval performance is the utilized detector and descriptor. Some identified strategies to overcome these issues are: to increase codebook's representativity by means of a denser images description, to keep high the ratio of the number of descriptors to the number of code vectors, and to use pairs of feature detectors and descriptors invariant only to the transformation effects present in the target images.
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2014
2013/2014
L'esigenza di metodi di localizzazione alternativi o complementari in un ambiente mobile ha motivato lo studio degli approcci basati sulle immagini. Studi rilevanti nell'area spesso ignorano le limitazioni intrinseche dei dispositivi mobili, tali circostanze evidenziano la necessità di tecniche più adeguate. In questo ordine di idee lo scopo principale di questo lavoro è quello di investigare l'uso di caratteristiche binarie nel contesto del riconoscimento visivo di punti di interesse su larga scala in ambiente mobile. Nel recupero di immagini basato sul contenuto un approccio popolare per la descrizione di immagini é il modello della borsa di parole il quale utilizza un libro codice appreso da un insieme di caratteristiche locali per produrre descrittori globali di immagini quantizzando quelli locali. Per la costruzione del libro codice il modello BoF si basa tipicamente su qualche variante dell'algoritmo di clustering k-means il quale è ben definito solo per dati a valori reali. In base ad una discussione approfondita sui diversi problemi riguardanti il clustering di dati binari, in questo lavoro vengono proposti e valutati due approcci per costruire libri codice a partire da caratteristiche binarie. I risultati della valutazione degli approcci proposti rivelano in primo luogo che i libri codice costruiti da descrittori binari utilizzando "Hierarchical K-Majority" sono meno rappresentativi della loro controparte a valori reali. In secondo luogo i risultati evidenziano che il fattore più influente sulla capacità di recupero è la combinazione di rivelatore e descrittore utilizzata. Alcune strategie individuate per superare questi problemi sono: aumentare la rappresentatività del libro codice mediante una descrizione densa delle immagini, mantenere elevato il rapporto tra il numero di descrittori al numero di vettori di codice, e utilizzare coppie di rivelatori e descrittori di caratteristiche che siano invarianti solo agli effetti di trasformazione presenti nelle immagini sotto descrizione.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_07_Perez.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 3.33 MB
Formato Adobe PDF
3.33 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/93446