Embedded visual search for image retrieval and navigation

The present work is placed in the context of computer vision, discipline that deals to acquire, process, analyze images in order to extract information about the environment, and in more detail, is placed in the context of em- bedded computer vision systems, i.e., artificial vision systems integrated into devices of small size and high computational efficiency. Actual visual search systems are computationally demanding, and attemps to hardware acceler- ate such systems on GPU show high execution speed but poor accuracy, due to the lack of floating point computational units properly tailored for the context of computer vision. The aim of this thesis was to create a system for embedded visual search, based on a technology recently approved (CDVS Compact Descriptors for Visual Search, January 2014), allowing to obtain both high performance of speed and accuracy. In particular, we wanted to focus on the development of an interest point detector that was fast and precise, designed to be implemented in hardware in a future phase, and that therefore he would immediately have to meet strict hardware requirements for memory usage, speed of execution and complexity of the operations in- volved, yet mantaining high retrivial accuracy. We showed how to build a scalable object retrieval architecture by connecting together the feature extractor presented in this thesis with an image retrieval module that was part of our CDVS legacy code. This architecture was embedded in a soft- ware library, that could be reused in many other projects. The library was designed to make us able to implemented easily a mobile visual search architecture separating the feature extractor in the mobile device and the image retrieval pipeline in a remote server. The design choices done for the communication protocol between client and server let us to obtain a low bandwidth consumption. Our architecture allowed to unlock also new scenarios different from mobile visual search, such as the building of a vision- based helper framework for the loop detection problem in visual odometry and SLAM, that could mitigate the unbound accumulation of errors of these two techniques by using an appearance-based technique that is independent from pose estimate, so is not influenced by its accumulation of numerical errors over time. We assessed our method using the loop detection evalua- tion framework by Casali and obtained very good results even if our method was not specifically tailored for the loop detection context. The final inter- est point detector algorithm was faster algorithm already described by the CDVS standard, while maintaining the same level of precision. Applications that exploit the pipeline of visual search that was developed in this thesis were well designed and showed a real benefit from the use of a interest point detector fast and accurate, consistently with the proposed objectives.

Il presente lavoro si colloca nell’ambito della visione artificiale, disciplina che si occupa di acquisire, processare, analizzare e interpretrare le immag- ini al fine di estrarne informazioni. In particolare, ci si ́e concentrati sullo studio di sistemi di visione artificiale embedded, ovvero di sistemi di vi- sione artificiale integrati in dispositivi dalle contenute dimensioni e ad alta efficienza computazionale. Gli attuali sistemi di ricerca visuale sono com- putazionalmente onerosi, i tentativi di sfruttare accelerazioni hardware su GPU di tali sistemi presentano una buona velocit ́a di esecuzione ma una scarsa precisione dovuta alla mancanza di unit ́a di calcolo in virgola mobile adeguatamente dimensionate al contesto della visione artificiale. Lo scopo di questa tesi ́e stato quello di realizzare un sistema di ricerca visuale em- bedded, basata su una tecnologia di recente approvazione (CDVS Compact Descriptor for Visual Search, Gennaio 2014) che permettesse di ottenere sia alte prestazioni di velocit ́a sia alte prestazioni di accuratezza. In particolare, ci si ́e concentrati sulla creazione di un estrattore di punti di interesse veloce e accurato che potesse essere in futuro implementato in hardware dedicato, e che dunque avrebbe fin da subito dovuto soddisfare stringenti requisiti hardware di consumo di memoria, velocit ́a di esecuzione e complessit ́a delle operazioni coinvolte, pur mantenendo un’alta precisione dei risultati. Ab- biamo mostrato come costruire un architettura di ricerca visuale scalabile collegando l’estrattore dei punti di interesse creato per questa tesi con un modulo di ricerca d’immagine che faceva parte del codice dello standard CDVS. Questa architettura ́e stata organizzata in una libreria software, che ́e possibile riutilizzare in altri progetti. La libreria ́e stata pensata per essere facilmente adoperabile su una architettura mobile visual search (una catego- ria di servizi di riconoscimento di immagini client-server nel quale un utente pu ́o scattare delle foto di oggetti con un dispositivo mobile e effettuare una richiesta remota di informazioni riguardanti le immagini scattate) separando il detettore dei punti di interesse (che pu ́o essere isolato nel dispositivo mo- bile) dal modulo di ricerca d’immagine (che pu ́o essere isolato in un server remoto). Le scelte di design effettuate per il protocollo di comunicazione client-server ci hanno permesso di ottenere un consumo di banda ridotto in accordo agli obiettivi proposti. La modularità della nostra soluzione ci ha permesso di utilizzare tale pipeline di ricerca visuale anche per scenari differ- enti da quello della mobile visual search, come per esempio nella costruzione di un sistema visuale di loop detection per l’odometria visuale e SLAM, che pu ́o aiutare a mitigare l’accumulo di errori numerici che tali tecniche esibiscono. L’algoritmo da noi sviluppato permette infatti di riallineare la propria traiettoria in caso di ritorno ad un punto gi ́a incontrato durante il proprio cammino grazie alla sola comparazione di foto scattate durante il percorso, in maniera indipendente dall’algoritmo di visual odometry e dunque non influenzabile dall’accumulo di errori numerici nel tempo. Abbiamo dunque valutato il nostro algoritmo utilizzando un framework di valutazione speci- fico per loop detection sviluppato da Paola Casali e abbiamo ottenuto buoni risultati anche se la pipeline di ricerca visuale non era stata progettata per il contesto della loop detection. L’algoritmo finale dell’estrattore dei punti di interesse si ́e dimostrato piu ́ veloce dell’algoritmo adottato dallo standard CDVS, mantenendo lo stesso livello di accuratezza e piena compatibilit ́a bi- naria. Le applicazioni che sfruttano la pipeline di ricerca visuale che sono state prodotte in questa tesi sono risultate ben progettate, e hanno mostrato un reale giovamento dall’utilizzo di un estrattore di punti di interesse preciso e veloce, coerentemente con gli obiettivi proposti.