The digital revolution has transformed industries, with online retail experiencing remarkable growth. One of the industries that has benefited most from the advent of e-commerce is the fashion industry. Meeting the demand for comprehensive, visually compelling online catalogues is often a costly and time-consuming process that requires extensive photography. The focus of this thesis is on the application of generative AI in the fashion industry, specifically in the context of image generation and manipulation. The aim of this research is to design and implement an automatic system able to generate and manipulate images, leveraging Deep Learning techniques applied to the Computer Vision and Natural Language Processing field. We develop an approach that addresses the generation of fashion images from textual descriptions and enabling the manipulation of fashion images in terms of poses and color. Our approach is based on Diffusion Models, a breakthrough technology for this field. To generate and manipulate images by constraining their content to be the desired one, we work on the multi-modal embedding space of the powerful pre-trained Clip text encoder, following a technique known as Textual Inversion. The novelty of our approach stands in the type of concepts we want our neural network to learn and the application of textually inverted concepts to the task of image manipulation. Finally, we introduce a new, flexible and adaptable evaluation framework to accurately test our model based on the powerful image classifier FashionClip. We perform several experiments to evaluate the quality of the generated images and the level of accuracy with which the tasks are performed. In the case of image manipulation, we identify the degree of influence that each conditioning modality has on the output to maximise the trade-off between output quality and task accuracy. We compare the performance of our model with other baselines on the industrial dataset at our disposal, to verify the quality of our work. We find that our model outperforms Stable Diffusion in image Generation and Manipulation in the fashion domain.

La rivoluzione digitale ha trasformato le industrie, nella fattispecie la vendita al dettaglio online ha registrato una crescita notevole. Uno dei settori che ha beneficiato maggiormente dell'avvento dell'e-commerce è quello della moda. Soddisfare la domanda di cataloghi online completi e visivamente convincenti è spesso un processo costoso e lungo che richiede un dispendioso shooting fotografico. L'obiettivo di questa tesi è l'applicazione dell'IA generativa nel settore della moda, in particolare nel contesto della Generazione e della Manipolazione delle immagini. L'obiettivo di questa ricerca è progettare e implementare un sistema in grado di generare e manipolare immagini automaticamente, sfruttando le tecniche di Deep Learning applicate al campo della Computer Vision e del Natural Language Processing. Grazie alla nostra ricerca, sviluppiamo un approccio che affronta la generazione di immagini di moda a partire da descrizioni testuali e che consente la manipolazione di immagini di moda in termini di pose e colori. Il nostro approccio si basa su una classe di recenti e innovativi modelli di Deep learning: i Diffusion Models. Per generare e manipolare le immagini vincolando il loro contenuto a quello desiderato, lavoriamo sullo spazio di embedding multimodale del potente text-encoder Clip, seguendo una tecnica nota come Textual Inversion. La novità del nostro approccio sta nel tipo di concetti che intendiamo far apprendere alle reti neurali e nell'applicazione di tali concetti alla manipolazione delle immagini. Infine, introduciamo un nuovo framework di valutazione flessibile e adattabile per testare accuratamente il nostro modello, basato sul potente classificatore di immagini FashionClip. Eseguiamo diversi esperimenti per valutare la qualità delle immagini generate e il livello di accuratezza con cui vengono eseguiti i diversi task. Nel caso della manipolazione delle immagini, identifichiamo il grado di influenza che ogni modalità di condizionamento ha sull'output per massimizzare il compromesso tra qualità dell'output e accuratezza del task. Confrontiamo le prestazioni del nostro modello con altre baseline su un set di dati fornitoci da un partner industriale, per verificare la qualità del nostro lavoro. I risultati dimostrano che il nostro modello supera Stable diffusion sia per la Generazione che per la Manipolazioni di immagini fashion.

Fashion image generation with diffusion models

CIVARDI, SARA
2022/2023

Abstract

The digital revolution has transformed industries, with online retail experiencing remarkable growth. One of the industries that has benefited most from the advent of e-commerce is the fashion industry. Meeting the demand for comprehensive, visually compelling online catalogues is often a costly and time-consuming process that requires extensive photography. The focus of this thesis is on the application of generative AI in the fashion industry, specifically in the context of image generation and manipulation. The aim of this research is to design and implement an automatic system able to generate and manipulate images, leveraging Deep Learning techniques applied to the Computer Vision and Natural Language Processing field. We develop an approach that addresses the generation of fashion images from textual descriptions and enabling the manipulation of fashion images in terms of poses and color. Our approach is based on Diffusion Models, a breakthrough technology for this field. To generate and manipulate images by constraining their content to be the desired one, we work on the multi-modal embedding space of the powerful pre-trained Clip text encoder, following a technique known as Textual Inversion. The novelty of our approach stands in the type of concepts we want our neural network to learn and the application of textually inverted concepts to the task of image manipulation. Finally, we introduce a new, flexible and adaptable evaluation framework to accurately test our model based on the powerful image classifier FashionClip. We perform several experiments to evaluate the quality of the generated images and the level of accuracy with which the tasks are performed. In the case of image manipulation, we identify the degree of influence that each conditioning modality has on the output to maximise the trade-off between output quality and task accuracy. We compare the performance of our model with other baselines on the industrial dataset at our disposal, to verify the quality of our work. We find that our model outperforms Stable Diffusion in image Generation and Manipulation in the fashion domain.
PIETRONI , UMBERTO
SALLEMI , FEDERICO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
La rivoluzione digitale ha trasformato le industrie, nella fattispecie la vendita al dettaglio online ha registrato una crescita notevole. Uno dei settori che ha beneficiato maggiormente dell'avvento dell'e-commerce è quello della moda. Soddisfare la domanda di cataloghi online completi e visivamente convincenti è spesso un processo costoso e lungo che richiede un dispendioso shooting fotografico. L'obiettivo di questa tesi è l'applicazione dell'IA generativa nel settore della moda, in particolare nel contesto della Generazione e della Manipolazione delle immagini. L'obiettivo di questa ricerca è progettare e implementare un sistema in grado di generare e manipolare immagini automaticamente, sfruttando le tecniche di Deep Learning applicate al campo della Computer Vision e del Natural Language Processing. Grazie alla nostra ricerca, sviluppiamo un approccio che affronta la generazione di immagini di moda a partire da descrizioni testuali e che consente la manipolazione di immagini di moda in termini di pose e colori. Il nostro approccio si basa su una classe di recenti e innovativi modelli di Deep learning: i Diffusion Models. Per generare e manipolare le immagini vincolando il loro contenuto a quello desiderato, lavoriamo sullo spazio di embedding multimodale del potente text-encoder Clip, seguendo una tecnica nota come Textual Inversion. La novità del nostro approccio sta nel tipo di concetti che intendiamo far apprendere alle reti neurali e nell'applicazione di tali concetti alla manipolazione delle immagini. Infine, introduciamo un nuovo framework di valutazione flessibile e adattabile per testare accuratamente il nostro modello, basato sul potente classificatore di immagini FashionClip. Eseguiamo diversi esperimenti per valutare la qualità delle immagini generate e il livello di accuratezza con cui vengono eseguiti i diversi task. Nel caso della manipolazione delle immagini, identifichiamo il grado di influenza che ogni modalità di condizionamento ha sull'output per massimizzare il compromesso tra qualità dell'output e accuratezza del task. Confrontiamo le prestazioni del nostro modello con altre baseline su un set di dati fornitoci da un partner industriale, per verificare la qualità del nostro lavoro. I risultati dimostrano che il nostro modello supera Stable diffusion sia per la Generazione che per la Manipolazioni di immagini fashion.
File allegati
File Dimensione Formato  
2023_07_Civardi_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 123.37 MB
Formato Adobe PDF
123.37 MB Adobe PDF Visualizza/Apri
2023_07_Civardi_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 100.95 MB
Formato Adobe PDF
100.95 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208564