Towards a unified evaluation system for personalized generative models

Rapid advancements in generative AI have transformed personalized image generation, enabling users to obtain realistic and customized images of themselves. However, despite the wave in interest and the growing number of developed, published, and implemented models, the field needs a unified and standardized approach to evaluating their performance, particularly in production environments. This absence of standardized evaluation methods often results in inconsistent assessments and suboptimal decision-making. This thesis addresses the critical need for a comprehensive evaluation framework tailored to personalized image generative AI models. Collaborating with the AI research team at KRNL, we analyze current production-level workflows and state-of-the-art methodologies, identifying gaps in existing evaluation practices. Our proposed framework integrates quantitative and qualitative metrics, focusing on essential elements such as identity fidelity, environmental fidelity, and dataset diversity. To validate our design, we develop a prototype as a foundational step towards integrating this evaluation system into real-world production pipelines. This design offers a scalable solution for consistent model evaluation, paving the way for more data-driven and objective decision-making in generative AI applications. By establishing standardized evaluation practices, our work aims to enhance the reliability and trustworthiness of personalized image generation technologies.

I rapidi progressi nell'AI generativa hanno trasformato la generazione di immagini personalizzate, consentendo agli utenti di ottenere immagini realistiche e su misura di se stessi. Tuttavia, nonostante il crescente interesse e l’aumento del numero di modelli sviluppati, pubblicati e implementati, il settore manca di un approccio unificato e standardizzato per la valutazione delle loro prestazioni, specialmente negli ambienti di produzione. Questa assenza di metodi di valutazione standardizzati porta spesso a valutazioni incoerenti e a decisioni subottimali. Questa tesi affronta la necessità critica di un quadro di valutazione completo, su misura per i modelli di AI generativa per immagini personalizzate. Collaborando con il team di ricerca AI di KRNL, analizziamo i flussi di lavoro a livello di produzione e lo stato dell'arte, identificando le lacune nelle pratiche di valutazione esistenti. Il nostro framework proposto integra metriche quantitative e qualitative, concentrandosi su elementi essenziali come la fedeltà dell’identità, la fedeltà ambientale e la diversità del dataset. Per validare il nostro progetto, sviluppiamo un prototipo come primo passo fondamentale verso l'integrazione di questo sistema di valutazione nelle pipeline di produzione reali. Questo design offre una soluzione scalabile per una valutazione coerente dei modelli, aprendo la strada a decisioni più basate sui dati e obiettive nelle applicazioni di AI generativa. Stabilendo pratiche di valutazione standardizzate, il nostro lavoro mira a migliorare l'affidabilità e la fiducia nelle tecnologie di generazione di immagini personalizzate.