TCAV and its extension Visual-TCAV represent the current state of the art among Concept-based Explainable AI (XAI) methods for Image Classifiers. However, these methods suffer from a key limitation: they are not easily scalable. In fact, the extraction of a CAV requires a large number of images illustrating the Concept, making the process labor-intensive and time-consuming. We propose a novel solution to extract CAVs directly from textual inputs. Our approach leverages the multimodal capabilities of CLIP to generate embeddings from text, which we then align to the latent space of a CNN via a simple linear model. This produces a concept embedding compatible with Visual-TCAV, enabling textual concept-based explanations. Furthermore, we extend the use of CAVs beyond the field of XAI into the domain of Visual Localization. We demonstrate that it is possible to perform Zero-Shot Localization tasks by using only the object's CAV obtained via text, along with the feature maps extracted from the CNN. Specifically, we can generate bounding boxes for generic objects, without the needing of a specific training.

Lo stato dell'arte per quanto riguarda i metodi basati su Concetti per la Spiegabilità dei Classificatori di Immagini è dato da TCAV e, dalla sua estensione, Visual-TCAV. Tuttavia, questi metodi hanno un'importante limitazione: essi sono poco scalabili. Infatti, per l'estrazione del CAV, sono necessarie numerose immagini rappresentanti il Concetto e creare questa collezione può essere dispendioso in termini di fatica e tempo. Noi proponiamo una soluzione che permette l'estrazione del CAV semplicemente da un input testuale. Per fare ciò, sfruttiamo il modello multimodale CLIP per produrre un embedding da un input testuale; poi usiamo un modello lineare per allineare l'embedding verso uno specifico spazio latente della CNN ottenendo un CAV usabile per produrre spiegazioni con Visual-TCAV. Inoltre, espandiamo l'uso dei CAV, dal campo della Spiegabilità a quello della Localizzazione. Infatti riteniamo sia possibile produrre il bounding box per un generico oggetto solamente con il CAV dell'oggetto, ottenuto via testo, e le feature maps estratte dalla CNN, performando in questo modo una task di Zero Shot Localization.

Concept-based explanations for image classifiers using textual prompts

Di SANTI, DANIELE
2024/2025

Abstract

TCAV and its extension Visual-TCAV represent the current state of the art among Concept-based Explainable AI (XAI) methods for Image Classifiers. However, these methods suffer from a key limitation: they are not easily scalable. In fact, the extraction of a CAV requires a large number of images illustrating the Concept, making the process labor-intensive and time-consuming. We propose a novel solution to extract CAVs directly from textual inputs. Our approach leverages the multimodal capabilities of CLIP to generate embeddings from text, which we then align to the latent space of a CNN via a simple linear model. This produces a concept embedding compatible with Visual-TCAV, enabling textual concept-based explanations. Furthermore, we extend the use of CAVs beyond the field of XAI into the domain of Visual Localization. We demonstrate that it is possible to perform Zero-Shot Localization tasks by using only the object's CAV obtained via text, along with the feature maps extracted from the CNN. Specifically, we can generate bounding boxes for generic objects, without the needing of a specific training.
BIANCHI, MATTEO
CAMPI, RICCARDO
DE SANTIS, ANTONIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Lo stato dell'arte per quanto riguarda i metodi basati su Concetti per la Spiegabilità dei Classificatori di Immagini è dato da TCAV e, dalla sua estensione, Visual-TCAV. Tuttavia, questi metodi hanno un'importante limitazione: essi sono poco scalabili. Infatti, per l'estrazione del CAV, sono necessarie numerose immagini rappresentanti il Concetto e creare questa collezione può essere dispendioso in termini di fatica e tempo. Noi proponiamo una soluzione che permette l'estrazione del CAV semplicemente da un input testuale. Per fare ciò, sfruttiamo il modello multimodale CLIP per produrre un embedding da un input testuale; poi usiamo un modello lineare per allineare l'embedding verso uno specifico spazio latente della CNN ottenendo un CAV usabile per produrre spiegazioni con Visual-TCAV. Inoltre, espandiamo l'uso dei CAV, dal campo della Spiegabilità a quello della Localizzazione. Infatti riteniamo sia possibile produrre il bounding box per un generico oggetto solamente con il CAV dell'oggetto, ottenuto via testo, e le feature maps estratte dalla CNN, performando in questo modo una task di Zero Shot Localization.
File allegati
File Dimensione Formato  
Tesi_Daniele_Di_Santi_2025.pdf

accessibile in internet per tutti

Dimensione 35.51 MB
Formato Adobe PDF
35.51 MB Adobe PDF Visualizza/Apri
Executive_Summary_Daniele_Di_Santi.pdf

accessibile in internet per tutti

Dimensione 2.12 MB
Formato Adobe PDF
2.12 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240315