Transfer learning analysis of fashion image captioning systems

Modern deep learning technologies generate text samples of outstanding quality, and when combined with a visual feature extractor, they accurately describe the subjects or the scenes depicted in images at the cost of time-consuming training procedures over a large number of data samples. However, the performance of these models and the quality of the generated texts drop when they process input samples that depart from the distribution of the training data. In this thesis work, we analyze the generalization capabilities of systems able to automatically generate captions of images, trying to overcome variations and perturbations in the input samples and still achieve high-quality descriptions. Specifically, we tackle this problem in the fashion domain, where clothing samples have several details, making the task of describing garments expensive and only feasible for experts. Besides, online catalogues continuously grow and change when new releases of fashion items enter the market, increasing the need for a robust model able to overcome the variations in new clothing samples, saving the time, energy, and resources required to train a new model to describe the last releases of said items. We will design a pre-training procedure that, together with a noise generation strategy, improves the performance of fashion image captioners on unseen distributions of data. We will then observe that by performing a final adaptation stage of the pre-trained model using a very narrow set of target samples, the fashion image captioner achieves competitive performance and high-quality captions compared to the model extensively trained on the target source. Additionally, we will propose a novel Transformer-based approach that leverages the generative performance of the GPT-2 language model along with the Vision Transformer (ViT) and BERT encoders to generate text from an image of a garment and its metadata. To train this architecture, we will consider an additional contrastive objective to align the embeddings of the two input modalities; we will analyze how it reflects on the representation learned by the model and compare the results with baseline works. Finally, we will perform a user study to evaluate the quality of the description of clothing samples generated by image captioner systems pre-trained through our approach.

Le moderne tecnologie di deep learning generano campioni di testo di qualità notevole e, se combinate con un componente che processa input visuali, descrivono accuratamente i soggetti o le scene rappresentate in immagini al costo di lunghe procedure di training su molti dati. Tuttavia, le prestazioni di questi modelli e la qualità dei testi generati diminuiscono quando si processano campioni che si discostano dalla distribuzione dei dati di training. In questo lavoro di tesi, analizziamo le capacità di generalizzazione di sistemi in grado di descrivere immagini automaticamente, cercando di limitare gli effetti provocati da variazioni nei dati in input e ottenere comunque descrizioni di alta qualità. Nello specifico, affrontiamo questo problema nel campo della moda, dove i prodotti sono caratterizzati da parecchi dettagli, rendendo il compito di descrivere i capi costoso e fattibile solo da esperti. Inoltre, i cataloghi online crescono e cambiano continuamente quando entrano nel mercato nuovi articoli, aumentando il bisogno di un modello robusto in grado di gestire le variazioni nei nuovi dati, risparmiando tempo, energia e risorse necessarie per formare un nuovo modello che descriva gli ultimi arrivi dei prodotti di cui sopra. Progettiamo una procedura di pre-training che, insieme a una strategia di generazione del rumore, migliora le prestazioni dei sistemi che generano descrizioni di immagini di moda appartenenti a nuove distribuzioni di dati. Osserviamo che eseguendo una fase di adattamento finale del modello pre-addestrato utilizzando un insieme molto ristretto di dati appartenenti al dominio di destinazione, si ottengono prestazioni competitive e descrizioni di qualità comparabili al modello ampiamente addestrato sul dominio di destinazione. Inoltre, proponiamo un nuovo approccio basato su Transformer che sfrutta le prestazioni generative del modello GPT-2 insieme a Vision Transformer (ViT) e BERT per generare testo da un'immagine di un capo e dai suoi metadati. Per allenare questa architettura, consideriamo un ulteriore funzione obiettivo per allineare gli embedding delle due modalità di input; analizziamo come questo si riflette sulle rappresentazioni imparate dal modello e confrontiamo i risultati con altri algoritmi. Infine, eseguiamo un sondaggio per valutare l’opinione di utenti sulla qualità delle descrizioni dei capi di abbigliamento generati da sistemi sviluppati secondo il nostro approccio.