Explainability and transparency in convolutional neural networks (CNNs) are critical for fostering trust, identifying biases, and diagnosing failure cases. Concept-based explainability methods provide insights into the relationship between human-interpretable concepts and model predictions. To address this limitation, we propose a novel method for concept definition using bounding boxes, enabling precise localization and refinement of concept regions within images. This approach significantly reduces noise and improves the specificity of concept representations. Additionally, we extend the Visual TCAV framework to regression tasks, adapting it to manage continuous outputs while preserving its ability to attribute concepts to model activations. Our results highlight the effectiveness of bounding box-defined concepts in providing accurate, interpretable attributions and improving the reliability of concept-based explanations in both regression and classification scenarios.

La spiegabilità e la trasparenza nelle reti neurali convoluzionali (CNN) sono fondamentali per promuovere la fiducia, identificare bias e diagnosticare casi di fallimento. I metodi di spiegazione basati su concetti forniscono informazioni sulla relazione tra concetti interpretabili dall’uomo e le predizioni del modello. Tuttavia, la dipendenza da insiemi di concetti gestiti manualmente limita questi approcci, poiché richiede un notevole sforzo umano e competenze specifiche nel contesto. Per affrontare questa limitazione, proponiamo un nuovo metodo per la definizione dei concetti utilizzando bounding box, che consente una localizzazione precisa e un affinamento delle regioni concettuali all’interno delle immagini. Questo approccio riduce significativamente il rumore e migliora la specificità delle rappresentazioni dei concetti. Inoltre, estendiamo il framework Visual TCAV ai compiti di regressione, adattandolo per gestire output continui pur mantenendo la capacità di attribuire concetti alle attivazioni del modello. I nostri risultati evidenziano l’efficacia dei concetti definiti tramite bounding box nel fornire attribuzioni accurate e interpretabili, migliorando l’affidabilità delle spiegazioni basate su concetti sia in scenari di regressione che di classificazione.

Addressing scale-invariance and missing context in concept-based explainability for CNNs

Porri, Pier Luigi
2023/2024

Abstract

Explainability and transparency in convolutional neural networks (CNNs) are critical for fostering trust, identifying biases, and diagnosing failure cases. Concept-based explainability methods provide insights into the relationship between human-interpretable concepts and model predictions. To address this limitation, we propose a novel method for concept definition using bounding boxes, enabling precise localization and refinement of concept regions within images. This approach significantly reduces noise and improves the specificity of concept representations. Additionally, we extend the Visual TCAV framework to regression tasks, adapting it to manage continuous outputs while preserving its ability to attribute concepts to model activations. Our results highlight the effectiveness of bounding box-defined concepts in providing accurate, interpretable attributions and improving the reliability of concept-based explanations in both regression and classification scenarios.
BIANCHI, MATTEO
CAMPI, RICCARDO
DE SANTIS, ANTONIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La spiegabilità e la trasparenza nelle reti neurali convoluzionali (CNN) sono fondamentali per promuovere la fiducia, identificare bias e diagnosticare casi di fallimento. I metodi di spiegazione basati su concetti forniscono informazioni sulla relazione tra concetti interpretabili dall’uomo e le predizioni del modello. Tuttavia, la dipendenza da insiemi di concetti gestiti manualmente limita questi approcci, poiché richiede un notevole sforzo umano e competenze specifiche nel contesto. Per affrontare questa limitazione, proponiamo un nuovo metodo per la definizione dei concetti utilizzando bounding box, che consente una localizzazione precisa e un affinamento delle regioni concettuali all’interno delle immagini. Questo approccio riduce significativamente il rumore e migliora la specificità delle rappresentazioni dei concetti. Inoltre, estendiamo il framework Visual TCAV ai compiti di regressione, adattandolo per gestire output continui pur mantenendo la capacità di attribuire concetti alle attivazioni del modello. I nostri risultati evidenziano l’efficacia dei concetti definiti tramite bounding box nel fornire attribuzioni accurate e interpretabili, migliorando l’affidabilità delle spiegazioni basate su concetti sia in scenari di regressione che di classificazione.
File allegati
File Dimensione Formato  
2025_04_Porri_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 6.69 MB
Formato Adobe PDF
6.69 MB Adobe PDF Visualizza/Apri
2025_04_Porri_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.26 MB
Formato Adobe PDF
1.26 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235678