Stable diffusion adaptation for generation and total replacement of real data in downstream classification tasks

One of the most recent contributions of Artificial Intelligence, which is not only having an impact from an academic and scientific perspective, but also on people's daily life, is the development and growth of the so-called Generative Models. This kind of statistical model represents a joint probability distribution P(X,Y) on the observable variable X and target variable Y, and they can be used to generate data, be it image, text, sound, and so. The potential use of these synthetic data is enormous, for better (personal or professional) and unfortunately for worse too, as any other powerful instrument. The aim of this work follows the research line about finding an alternative utility to synthetic data. One major issue of modern Deep Learning is the lack of big datasets to train complex models. One different application of synthetic data can be the generation of synthetic dataset. However, the available Generative Models are not designed to synthesize an entire dataset, as to generate few high-quality data, especially from a human point of view. Therefore, in this work, a different approach is proposed: one of the most popular image Generative Model, Stable Diffusion, is adapted to generate images using only the information of the class and to synthesize an entire dataset, trying to achieve the three fundamental characteristics of a suitable dataset: quantity, quality and diversity. The synthetic datasets are tested comparing the results obtained on a downstream task (classification) with the ones obtained using a real dataset. Doing so, the synthetic datasets are not directly evaluated on the mere quality of generation, but on their usefulness on a different task. Results show that, for some kind of datasets, it is possible to replace the real one with a synthetic version with a desired cardinality: if often a synthetic dataset with the same number of data of the original one does not reach the accuracy related to the real dataset, using a larger version can get close to it or even achieve a better score.

Uno dei contributi più recenti dell'Intelligenza Artificiale, che sta avendo un impatto non solo dal punto di vista accademico e scientifico, ma anche sulla vita quotidiana delle persone, è lo sviluppo e la crescita dei cosiddetti Modelli Generativi. Questo tipo di modello statistico rappresenta una distribuzione di probabilità congiunta P(X,Y) sulla variabile osservabile X and la variabile target Y, e può essere utilizzato per creare dati, siano essi immagini, testi, suoni e così via. Il potenziale utilizzo di questi dati sintetici è enorme, nel bene (personale o professionale) e purtroppo anche nel male, come qualsiasi altro strumento con tale capacità. L'obiettivo di questo lavoro segue la linea di ricerca che ha come scopo trovare un'utilità alternativa ai dati sintetici. Uno dei problemi principali del Deep Learning è la mancanza di grandi dataset per addestrare modelli complessi. Un'applicazione diversa dei dati sintetici può essere la generazione di dataset sintetici. Tuttavia, i modelli generativi disponibili non sono progettati per sintetizzare un intero dataset, ma per generare pochi dati di alta qualità, soprattutto dal punto di vista visivo. In questo lavoro, quindi, viene proposto un approccio diverso: uno dei più popolari modelli generativi per immagini, Stable Diffusion, viene adattato per generare immagini utilizzando solo l'informazione della classe e per sintetizzare un intero dataset, cercando di ottenere le tre caratteristiche fondamentali per un dataset adeguato: quantità, qualità e diversità. I dataset generati vengono testati confrontando i risultati ottenuti su un task diverso (come la classificazione) con quelli ottenuti utilizzando un dataset reale. In questo modo, i dataset sintetici non vengono valutati direttamente sulla mera qualità della generazione, ma sulla loro utilità in un compito diverso. I risultati mostrano che per alcuni tipi di dataset è possibile sostituire quello reale con una versione sintetica con una cardinalità desiderata: se spesso un dataset sintetico con lo stesso numero di dati di quello originale non raggiunge l'accuratezza relativa al dataset reale, l'utilizzo di una versione più grande può avvicinarsi ad esso o addirittura ottenere uno score migliore.