A closer look on text-to-image generation for concept-based explainability

Concept-based Explainable Artificial Intelligence (XAI) methods aim to inter- pret the internal representations of deep learning models in terms of human-understandable features, called concepts. In the context of computer vision, these concepts correspond to visual properties such as textures, colors, or object parts that a Convolutional Neural Network (CNN) has learned to associate with specific classes. By quantifying the extent to which a model relies on each concept for its predictions, concept-based XAI provides a bridge between low-level image features and high-level semantic reasoning. A major chal- lenge, however, is the reliance on large sets of labeled images to represent each concept, which limits scalability. In this work, we investigate the use of Text-to-Image genera- tive models as a source of synthetic concept datasets for concept-based XAI methods. Specifically, we generate groups of images per concept and evaluate their utility through three complementary analyses: (1) comparing the behavior of synthetic concept images to that of real concept images, (2) testing whether ablating a concept from class images yields coherent changes in classifier predictions, and (3) examining whether the behavior of generated concepts is preserved in the ablated latent space. Our study highlights both the potential and the limitations of leveraging generative models for concept-based expla- nations, offering insights into the feasibility of integrating synthetic data into user-defined concept-based XAI methods.

I metodi di Explainable Artificial Intelligence (XAI) basati su concetti mirano a interpretare le rappresentazioni interne dei modelli di deep learning in termini di caratteristiche comprensibili agli esseri umani, chiamate concetti. Nel contesto della computer vision, questi concetti corrispondono a proprietà visive come texture, colori o parti di oggetti che una Convolutional Neural Network (CNN) ha imparato ad associare a specifiche classi. Quantificando in che misura un modello si affida a ciascun concetto per le sue previsioni, la XAI basata su concetti fornisce un collegamento tra le caratteristiche di basso livello delle immagini e il ragionamento semantico di alto livello. Tuttavia, una sfida importante è la dipendenza da grandi insiemi di immagini etichettate per rappresentare ciascun concetto, il che ne limita la scalabilità. In questo lavoro, indaghiamo l’uso di modelli generativi Text-to-Image come fonte di dataset sintetici di concetti per i metodi di XAI basati su concetti. In particolare, generiamo gruppi di immagini per concetto e ne valutiamo l’utilità attraverso tre analisi complementari: (1) confrontando il comportamento delle immagini sintetiche dei concetti con quello delle immagini reali, (2) testando se la rimozione di un concetto dalle immagini di una classe produce cambiamenti coerenti nelle previsioni del classificatore e (3) esaminando se il comportamento dei concetti generati viene mantenuto nello spazio latente modificato. Il nostro studio evidenzia sia il potenziale sia le limitazioni dell’utilizzo di modelli generativi per spiegazioni basate su concetti, offrendo spunti sulla fattibilità di integrare dati sintetici nei metodi XAI basati su concetti definiti dall’utente.