In this work we present a mobile outdoor augmented reality application, which uses data coming from the sensors of the mobile device to identify mountain peaks in the skyline, analyze the uncertainties present in this type of applications and focus on how they can be overcome so as to make the digital augmentation of the physical world meaningful. Although uncertainties come in a wide range of possibilities, here we address uncertainties as imperfect information about what the user is seeing, namely wrong estimates of the phone orientation and the presence of objects occluding the skyline. Leveraging on recent advances in Computer Vision algorithms and significant progress in object class recognition using Deep Learning techniques, we propose a hybrid model that is able to perform real-time accurate classification of skyline pixels in images captured with a real outdoor augmented reality application; the proposed approach combines two binary classifiers in cascade, one for skyline detection and the other categorically tailored for occlusion detection, so as to provide an accurate alignment between the panorama the user is seeing through the camera and the virtual panorama computed from the digital terrain model of the corresponding location. The final combined model respects the efficiency constraints associated with low-powered mobile devices and exhibits a good balance between accuracy, memory consumption and runtime execution overhead. In addition to the development of the occlusion management module, the thesis also reports on the re-design of the sensor capture sub-system for iOS, which has been used to explore the uncertainties that arise in outdoor mobile augmented reality applications and set the requirements for the improved Computer Vision approach.

In questo lavoro presentiamo una applicazione mobile di realtà aumentata, che usa dati dei sensori di dispositivi mobili per identificare vette di montagne sull’orizzonte, analizziamo le incertezze presenti in questo tipo di applicazioni e studiamo come esse possano essere corrette per rendere il digital augmentation del mondo fisico più significativo. Sebbene le incertezze possono avere diverse forme, noi ci focalizziamo su incertezze intese come informazioni imperfette su quello che l’utente sta vedendo, specificamente, errori nella stima dell’orientamento del telefono e la presenza di ostacoli all’orizzonte. Sfruttando i recenti sviluppi nel campo di Computer Vision e i progressi nell’identificare classi di oggetti con tecniche di Deep Learning, presentiamo un modello ibrido in grado di classificare accuratamente e in tempo reale i pixel sull’orizzonte delle immagini all’aperto proveniente dalle applicazioni di realtà aumentata; l’approccio descritto contiene due classificatori binari in cascata, uno per l’identificazione dell’orizzonte e l’altro addattato alla identificazione di ostacoli, per garantire un corretto allineamento tra l’orizzonte che l’utente sta vedendo attraverso la camera e il panorama virtuale generato dai modelli digitali di elevazione della corrispettiva zona. Il modello finale rispetta i requisiti di efficienza richiesti per dispositivi mobili di bassa potenza e ottiene un buon equilibrio tra l’accuratezza, consumo di memoria e l’overhead del tempo di esecuzione. Oltre allo svilluppo del modulo di gestione delle occlusioni, la tesi descrive il red-esign del sottosistema del sensore per iOS, che è stato usato per esplorare le incertezze caratteristiche delle applicazioni di realtà aumentata all’aperto e definire i requisiti per migliorare l’approccio Computer Vision.

Tackling uncertainty in mobile computer vision applications

LÓPEZ GONZÁLEZ, ANA CECILIA;LOPEZ GONZALEZ, ANA TATIANA
2016/2017

Abstract

In this work we present a mobile outdoor augmented reality application, which uses data coming from the sensors of the mobile device to identify mountain peaks in the skyline, analyze the uncertainties present in this type of applications and focus on how they can be overcome so as to make the digital augmentation of the physical world meaningful. Although uncertainties come in a wide range of possibilities, here we address uncertainties as imperfect information about what the user is seeing, namely wrong estimates of the phone orientation and the presence of objects occluding the skyline. Leveraging on recent advances in Computer Vision algorithms and significant progress in object class recognition using Deep Learning techniques, we propose a hybrid model that is able to perform real-time accurate classification of skyline pixels in images captured with a real outdoor augmented reality application; the proposed approach combines two binary classifiers in cascade, one for skyline detection and the other categorically tailored for occlusion detection, so as to provide an accurate alignment between the panorama the user is seeing through the camera and the virtual panorama computed from the digital terrain model of the corresponding location. The final combined model respects the efficiency constraints associated with low-powered mobile devices and exhibits a good balance between accuracy, memory consumption and runtime execution overhead. In addition to the development of the occlusion management module, the thesis also reports on the re-design of the sensor capture sub-system for iOS, which has been used to explore the uncertainties that arise in outdoor mobile augmented reality applications and set the requirements for the improved Computer Vision approach.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-apr-2018
2016/2017
In questo lavoro presentiamo una applicazione mobile di realtà aumentata, che usa dati dei sensori di dispositivi mobili per identificare vette di montagne sull’orizzonte, analizziamo le incertezze presenti in questo tipo di applicazioni e studiamo come esse possano essere corrette per rendere il digital augmentation del mondo fisico più significativo. Sebbene le incertezze possono avere diverse forme, noi ci focalizziamo su incertezze intese come informazioni imperfette su quello che l’utente sta vedendo, specificamente, errori nella stima dell’orientamento del telefono e la presenza di ostacoli all’orizzonte. Sfruttando i recenti sviluppi nel campo di Computer Vision e i progressi nell’identificare classi di oggetti con tecniche di Deep Learning, presentiamo un modello ibrido in grado di classificare accuratamente e in tempo reale i pixel sull’orizzonte delle immagini all’aperto proveniente dalle applicazioni di realtà aumentata; l’approccio descritto contiene due classificatori binari in cascata, uno per l’identificazione dell’orizzonte e l’altro addattato alla identificazione di ostacoli, per garantire un corretto allineamento tra l’orizzonte che l’utente sta vedendo attraverso la camera e il panorama virtuale generato dai modelli digitali di elevazione della corrispettiva zona. Il modello finale rispetta i requisiti di efficienza richiesti per dispositivi mobili di bassa potenza e ottiene un buon equilibrio tra l’accuratezza, consumo di memoria e l’overhead del tempo di esecuzione. Oltre allo svilluppo del modulo di gestione delle occlusioni, la tesi descrive il red-esign del sottosistema del sensore per iOS, che è stato usato per esplorare le incertezze caratteristiche delle applicazioni di realtà aumentata all’aperto e definire i requisiti per migliorare l’approccio Computer Vision.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Lopez_Lopez.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 15.86 MB
Formato Adobe PDF
15.86 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/139029