A natural application of artificial intelligence is to help blind people overcome their daily visual challenges through AI-based assistive technologies. In this regard, one of the most promising tasks is Visual Question Answering (VQA): the model is presented with an image and a question about this image. It must then predict the correct answer. Recently has been introduced the VizWiz dataset, a collection of images and questions originating from blind people. Being the first VQA dataset deriving from a natural setting, VizWiz presents many limitations and peculiarities. The ECCV18 conference featured a VizWiz Grand Challenge urging the research community to overcome the challenges of the VizWiz dataset and the VQA task in large. In this thesis, we present the solutions that allowed our team to achieve top performances and beat the state-of-the-art in both the tasks of the VizWiz Grand Challenge. We propose a multi-class model for predicting the exact answer of a visual question. The solution employs an attention mechanism to focus on relevant image spatial features, a customized question processing and an uncertainty-aware training procedure able to exploit the particularly high subjectivity of the answers in VizWiz. We design and test a new augmentation process that computes cosine similarity between answers representations in order to double the number of training samples. Ultimately, we test multiple model configurations and data balancing techniques in order to find the best performing solution for predicting if a visual question can be answered.
Uno dei campi dove l'intelligenza artificiale potrebbe avere maggiore impatto è l'assistenza degli ipovedenti nelle loro attività quotidiane attraverso l’utilizzo di tecnologie assistite. In questo ambito uno dei più promettenti strumenti è Visual Question Answering (VQA). Il modello riceve un’ immagine e una domanda relativa al contenuto di questa. Il modello dovrà in questo modo predire la risposta corretta. Negli ultimi tempi è stato introdotto il dataset VizWiz, una collezione di immagini e domande provenienti da persone non vedenti. Il fatto che il dataset nasca da un bisogno reale e non sia stato artificialmente creato comporta diverse peculiarità e limitazioni. Durante la conferenza ECCV18 è stata organizzata una competizione (VizWiz Grand Challenge) per incoraggiare la comunità scientifica a superare le limitazioni del dataset VizWiz e, più in generale, del task VQA. In questa tesi, presentiamo le soluzioni che hanno permesso al nostro team di posizionarsi sul podio nella VizWiz Grand Challenge e di superare lo stato dell’arte in entrambi gli obiettivi stabiliti durante la competizione. Nella presente viene proposto un modello multi-classe che predice la risposta esatta ad una domanda visiva. La soluzione da noi ideata utilizza: un meccanismo di attenzione che si concentra su porzioni rilevanti delle caratteristiche estratte dall'immagine, un’ elaborazione modificata delle domande e una procedura di apprendimento che tiene in considerazione l’incertezza delle risposte disponibili e capace di sfruttare la soggettività di queste ultime, particolarmente elevata in VizWiz. Inoltre, abbiamo progettato e testato un nuovo processo per aumentare il numero di dati disponibili che calcola la similarità del coseno delle rappresentazioni delle risposte. Infine, abbiamo testato diverse configurazioni del modello e diverse tecniche di bilanciamento per trovare la soluzione più performante al fine di predire se è possibile rispondere a una domanda visuale o meno.
Using deep learning to answer visual questions from blind people
DUSHI, DENIS
2017/2018
Abstract
A natural application of artificial intelligence is to help blind people overcome their daily visual challenges through AI-based assistive technologies. In this regard, one of the most promising tasks is Visual Question Answering (VQA): the model is presented with an image and a question about this image. It must then predict the correct answer. Recently has been introduced the VizWiz dataset, a collection of images and questions originating from blind people. Being the first VQA dataset deriving from a natural setting, VizWiz presents many limitations and peculiarities. The ECCV18 conference featured a VizWiz Grand Challenge urging the research community to overcome the challenges of the VizWiz dataset and the VQA task in large. In this thesis, we present the solutions that allowed our team to achieve top performances and beat the state-of-the-art in both the tasks of the VizWiz Grand Challenge. We propose a multi-class model for predicting the exact answer of a visual question. The solution employs an attention mechanism to focus on relevant image spatial features, a customized question processing and an uncertainty-aware training procedure able to exploit the particularly high subjectivity of the answers in VizWiz. We design and test a new augmentation process that computes cosine similarity between answers representations in order to double the number of training samples. Ultimately, we test multiple model configurations and data balancing techniques in order to find the best performing solution for predicting if a visual question can be answered.| File | Dimensione | Formato | |
|---|---|---|---|
|
versione_finale_denis_dushi_tesi_polimi.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Master's Thesis
Dimensione
17.08 MB
Formato
Adobe PDF
|
17.08 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/147339