Image tagging and captioning for fashion catalogues enrichment

With the growth of e-commerce, the need to enrich online catalogues data has become an important factor for companies in all sectors. In particular, this thesis focuses on the Fashion domain, where clothing companies offer online catalogues overflowing with images which require tags and captions so that the client is able to find the wanted item. However, assigning tags and descriptions to this incredible amount of images is not an easy task, as it requires not only a lot of time but also the knowledge of a fashion expert to provide detailed and correct information. Therefore, the goal of this thesis work is to design and implement systems able to automatically generate tags and captions for clothing images leveraging Deep Learning techniques applied to the Computer Vision and Natural Language Processing fields. We develop an approach to generate tags from the image based on Convolutional Neural Networks and we compare the obtained results with those of others works related to ours, evaluated on a public dataset. We observe that our approach reaches similar performance without leveraging landmarks, additional annotations which identify a set of points of the garment. Furthermore, to generate image captions we propose a novel approach based on GPT-2, a language model which is able to generate complex sentences from an initial text. The novelty of our approach is exploiting GPT-2 to generate text from an image and, if it is available, also textual information such as tags or metadata related to the item itself. We perform several experiments to examine how the two input modalities, visual and textual, influence our model and we compare its performance with other algorithms on industrial datasets, to verify the quality of our work. Finally, we propose a system in which we combine our approaches for tag and caption generation into a unique model capable of performing both tasks simultaneously.

Con la crescita dell'e-commerce, la necessità di arrichire i dati dei cataloghi online è diventato un fattore sempre più importante per le aziende di ogni settore. In particolare, questo lavoro di tesi affronta questa sfida nel dominio Fashion, in cui le aziende di abbigliamento mettono a disposizione i propri cataloghi online con numeri elevati di immagini a cui devono essere associati tag e descrizioni per fare si che il cliente sia in grado di trovare efficacemente il capo che sta cercando. Tuttavia, assegnare tag e descrizioni per questa mole incredibile di immagini non è un compito facile, siccome richiede non solo molto tempo ma anche una esperta conoscenza della moda per poter fornire informazioni dettagliate. Il nostro lavoro di tesi ha, quindi, come obiettivo quello di studiare e implementare sistemi in grado di generare tag e descrizioni per immagini di capi d'abbigliamento sfruttando tecniche di Deep Learning applicate nei campi di Computer Vision e Natural Language Processing. Sviluppiamo un approccio per generare tag dall'immagine basato su Convolutional Neural Network e ne confrontiamo i risultati ottenuti con quelli di altri lavori relativi al nostro, valutati su un dataset pubblico. Osserviamo che il nostro approccio raggiunge simili risultati senza sfruttare i landmarks, annotazioni aggiuntive che identificano alcuni punti del capo d'abbigliamento. Inoltre, per generare descrizioni per le immagini proponiamo un nuovo approccio che sfrutta GPT-2, un modello in grado di generare frasi complesse dato un testo di partenza. L'aspetto innovativo del nostro approccio è sfruttare GPT-2 per generare frasi partendo da una immagine e, se sono disponibili, anche informazioni testuali come tag o metadata legati allo stesso oggetto. Svolgiamo diversi esperimenti per studiare come le due modalità di input, visuale e testuale, influenzano il nostro modello e ne confrontiamo le performance con altri algoritmi su dataset industriali, per verificare la qualità del nostro lavoro. Infine, presentiamo un sistema in cui combiniamo i nostri approcci per la generazione di tag e descrizioni in unico modello in grado di svolgere entrambi i task.