Towards open-ended VQA models using transformers

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In this work, we introduce a new architecture to address the Visual Question Answering problem, an open field of research in the NLP and Vision community. In the last few years, with the advent of Deep Learning and the exponential growth of computing power, researches came up with brilliant solutions to tackle the problem. However, most of the related work share a standard limitation: the number of possible answers is usually restricted to a limited set of candidates, limiting the power of such models. In this work, we describe a new architecture that employs new state-of-the-art language models, such as the Transformer, to generate open-ended answers. In the end, our contribution to the scientific community lies in a new approach that allows VQA systems to generate unconstrained answers. First, we introduce the necessary background as well as the most critical computational models to deal with text and images. Ultimately, we show that our architectures compare well with other VQA models, setting a new baseline for future work.

In questo lavoro, introduciamo una nuova architettura per affrontare il problema del Visual Question Answering, un campo di ricerca aperto nella comunità del Natural Language Processing e Computer Vision. Negli ultimi anni, con l’avvento del Deep Learning e la crescita esponenziale della potenza di calcolo, molti ricercatori hanno trovato soluzioni brillanti per affrontare questo problema. Tuttavia, la maggior parte del lavoro svolto condivide una limitazione standard: il numero di possibili risposte è generalmente ristretto ad un insieme limitato di possibili scelte, limitando drasticamente il potere di questi modelli. In questo lavoro, descriviamo una nuova architettura che impiega nuovi modelli linguistici all’avanguardia, come i Transformer, per generare risposte più aperte e ricche. Il nostro contributo alla comunità scientifica risiede in un nuovo approccio che consente ai sistemi VQA di rispondere in modo più naturale, senza dover scegliere una risposta da un insieme limitato di candidate. Innanzitutto, introduciamo concetti di base necessari, nonché modelli computazionali fondamentali per gestire testo e immagini. Infinte, mostriamo che le nostre architetture producono risultati comparabili con gli altri modelli di VQA, stabilendo una nuova baseline per ricerca futura.

Towards open-ended VQA models using transformers

BELLINI, ALBERTO MARIO

2018/2019

Abstract

In this work, we introduce a new architecture to address the Visual Question Answering problem, an open field of research in the NLP and Vision community. In the last few years, with the advent of Deep Learning and the exponential growth of computing power, researches came up with brilliant solutions to tackle the problem. However, most of the related work share a standard limitation: the number of possible answers is usually restricted to a limited set of candidates, limiting the power of such models. In this work, we describe a new architecture that employs new state-of-the-art language models, such as the Transformer, to generate open-ended answers. In the end, our contribution to the scientific community lies in a new approach that allows VQA systems to generate unconstrained answers. First, we introduce the necessary background as well as the most critical computational models to deal with text and images. Ultimately, we show that our architectures compare well with other VQA models, setting a new baseline for future work.

Scheda breve

Scheda completa

	Relatore
	
				MATTEUCCI, MATTEO
			
	Correlatore/i
	
				CARMAN, MARK JAMES
PARDE, NATALIE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				29-apr-2020
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				In questo lavoro, introduciamo una nuova architettura per affrontare il problema del Visual Question Answering, un campo di ricerca aperto nella comunità del Natural Language Processing e Computer Vision.
Negli ultimi anni, con l’avvento del Deep Learning e la crescita esponenziale della potenza di calcolo, molti ricercatori hanno trovato soluzioni brillanti per affrontare questo problema.
Tuttavia, la maggior parte del lavoro svolto condivide una limitazione standard: il numero di possibili risposte è generalmente ristretto ad un insieme limitato di possibili scelte, limitando drasticamente il potere di questi modelli.
In questo lavoro, descriviamo una nuova architettura che impiega nuovi modelli linguistici all’avanguardia, come i Transformer, per generare risposte più aperte e ricche. 
Il nostro contributo alla comunità scientifica risiede in un nuovo approccio che consente ai sistemi VQA di rispondere in modo
più naturale, senza dover scegliere una risposta da un insieme limitato di candidate. Innanzitutto, introduciamo concetti di base necessari, nonché modelli computazionali fondamentali per gestire testo e immagini. Infinte, mostriamo che le nostre architetture producono risultati comparabili con gli altri modelli di VQA, stabilendo una nuova baseline per ricerca futura.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Bellini_Alberto_Thesis.pdf accessibile in internet per tutti Descrizione: Thesis (Final version) Dimensione 59.38 MB Formato Adobe PDF Visualizza/Apri	59.38 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/153078