Explainability and transparency in convolutional neural networks (CNNs) are critical for fostering trust, identifying biases, and diagnosing failure cases. Concept-based explainability methods provide insights into the relationship between human-interpretable concepts and model predictions. To address this limitation, we propose a novel method for concept definition using bounding boxes, enabling precise localization and refinement of concept regions within images. This approach significantly reduces noise and improves the specificity of concept representations. Additionally, we extend the Visual TCAV framework to regression tasks, adapting it to manage continuous outputs while preserving its ability to attribute concepts to model activations. Our results highlight the effectiveness of bounding box-defined concepts in providing accurate, interpretable attributions and improving the reliability of concept-based explanations in both regression and classification scenarios.
La spiegabilità e la trasparenza nelle reti neurali convoluzionali (CNN) sono fondamentali per promuovere la fiducia, identificare bias e diagnosticare casi di fallimento. I metodi di spiegazione basati su concetti forniscono informazioni sulla relazione tra concetti interpretabili dall’uomo e le predizioni del modello. Tuttavia, la dipendenza da insiemi di concetti gestiti manualmente limita questi approcci, poiché richiede un notevole sforzo umano e competenze specifiche nel contesto. Per affrontare questa limitazione, proponiamo un nuovo metodo per la definizione dei concetti utilizzando bounding box, che consente una localizzazione precisa e un affinamento delle regioni concettuali all’interno delle immagini. Questo approccio riduce significativamente il rumore e migliora la specificità delle rappresentazioni dei concetti. Inoltre, estendiamo il framework Visual TCAV ai compiti di regressione, adattandolo per gestire output continui pur mantenendo la capacità di attribuire concetti alle attivazioni del modello. I nostri risultati evidenziano l’efficacia dei concetti definiti tramite bounding box nel fornire attribuzioni accurate e interpretabili, migliorando l’affidabilità delle spiegazioni basate su concetti sia in scenari di regressione che di classificazione.
Addressing scale-invariance and missing context in concept-based explainability for CNNs
Porri, Pier Luigi
2023/2024
Abstract
Explainability and transparency in convolutional neural networks (CNNs) are critical for fostering trust, identifying biases, and diagnosing failure cases. Concept-based explainability methods provide insights into the relationship between human-interpretable concepts and model predictions. To address this limitation, we propose a novel method for concept definition using bounding boxes, enabling precise localization and refinement of concept regions within images. This approach significantly reduces noise and improves the specificity of concept representations. Additionally, we extend the Visual TCAV framework to regression tasks, adapting it to manage continuous outputs while preserving its ability to attribute concepts to model activations. Our results highlight the effectiveness of bounding box-defined concepts in providing accurate, interpretable attributions and improving the reliability of concept-based explanations in both regression and classification scenarios.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Porri_Tesi.pdf
accessibile in internet per tutti
Descrizione: Tesi
Dimensione
6.69 MB
Formato
Adobe PDF
|
6.69 MB | Adobe PDF | Visualizza/Apri |
2025_04_Porri_Executive Summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
1.26 MB
Formato
Adobe PDF
|
1.26 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235678