Transparency and explainability in image classification are essential factors for establishing trust in machine learning models and detecting biases and errors. State-of-the-art explainability methods generate heatmaps that highlight the regions of the image where a specific class is identified, without providing a complete explanation of how the model arrived at its decision. Striving to cover such a need, we propose a post-hoc technique for generating comprehensive local explanations that provide an overview of the feature extraction process of the model. These explanations consist of a layer-wise visualization of the features extracted by the model from the input image and we refer to them as Abstract Network Visualizations (ANV). Such features are represented by heatmaps generated from clustering and merging similar Feature Maps to which we associate a weight using Grad-CAM, a local explainability technique. These heatmaps are also described by a set of labels collected by means of a gamified crowdsourcing activity, which further improves the interpretability of our local explanations. Finally, we show that labels can also enable the production of global explanations by aggregating similarly labeled maps across multiple images.

La trasparenza e la spiegabilità nei processi di classificazione di immagini sono fattori essenziali per instaurare fiducia nei modelli di apprendimento automatico e rilevare discriminazioni ed errori. Le tecniche di spiegabilità più avanzate generano mappe di calore che evidenziano le regioni dell'immagine in cui viene identificata una classe specifica, senza fornire però una spiegazione completa di come il modello sia arrivato alla sua decisione. Per rispondere a questa esigenza, proponiamo una tecnica post-hoc per la generazione di spiegazioni locali che forniscono una panoramica del processo in cui il modello estrae caratteristiche dalle immagini. Queste spiegazioni consistono in una visualizzazione delle caratteristiche estratte dal modello per ogni suo layer e sono denominate Abstract Network Visualizations (ANV). Tali caratteristiche sono rappresentate da mappe di calore generate dalla fusione di Feature Map simili raggruppate con tecniche di clustering, alle quali associamo un peso utilizzando Grad-CAM, una tecnica di spiegabilità locale. Queste mappe di calore sono, inoltre, descritte da un insieme di annotazioni raccolte tramite un'attività di crowdsourcing gamificata, che migliora ulteriormente l'interpretabilità delle nostre spiegazioni locali. Infine, dimostriamo che tali annotazioni possono anche consentire la produzione di spiegazioni globali, aggregando mappe annotate in modo simile su più immagini.

A human-in-the-loop approach for post-hoc explainability of CNN-based image classification

De Santis, Antonio;BIANCHI, MATTEO
2021/2022

Abstract

Transparency and explainability in image classification are essential factors for establishing trust in machine learning models and detecting biases and errors. State-of-the-art explainability methods generate heatmaps that highlight the regions of the image where a specific class is identified, without providing a complete explanation of how the model arrived at its decision. Striving to cover such a need, we propose a post-hoc technique for generating comprehensive local explanations that provide an overview of the feature extraction process of the model. These explanations consist of a layer-wise visualization of the features extracted by the model from the input image and we refer to them as Abstract Network Visualizations (ANV). Such features are represented by heatmaps generated from clustering and merging similar Feature Maps to which we associate a weight using Grad-CAM, a local explainability technique. These heatmaps are also described by a set of labels collected by means of a gamified crowdsourcing activity, which further improves the interpretability of our local explanations. Finally, we show that labels can also enable the production of global explanations by aggregating similarly labeled maps across multiple images.
TOCCHETTI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
La trasparenza e la spiegabilità nei processi di classificazione di immagini sono fattori essenziali per instaurare fiducia nei modelli di apprendimento automatico e rilevare discriminazioni ed errori. Le tecniche di spiegabilità più avanzate generano mappe di calore che evidenziano le regioni dell'immagine in cui viene identificata una classe specifica, senza fornire però una spiegazione completa di come il modello sia arrivato alla sua decisione. Per rispondere a questa esigenza, proponiamo una tecnica post-hoc per la generazione di spiegazioni locali che forniscono una panoramica del processo in cui il modello estrae caratteristiche dalle immagini. Queste spiegazioni consistono in una visualizzazione delle caratteristiche estratte dal modello per ogni suo layer e sono denominate Abstract Network Visualizations (ANV). Tali caratteristiche sono rappresentate da mappe di calore generate dalla fusione di Feature Map simili raggruppate con tecniche di clustering, alle quali associamo un peso utilizzando Grad-CAM, una tecnica di spiegabilità locale. Queste mappe di calore sono, inoltre, descritte da un insieme di annotazioni raccolte tramite un'attività di crowdsourcing gamificata, che migliora ulteriormente l'interpretabilità delle nostre spiegazioni locali. Infine, dimostriamo che tali annotazioni possono anche consentire la produzione di spiegazioni globali, aggregando mappe annotate in modo simile su più immagini.
File allegati
File Dimensione Formato  
Bianchi_DeSantis - Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.33 MB
Formato Adobe PDF
1.33 MB Adobe PDF Visualizza/Apri
Bianchi_DeSantis - Thesis.pdf

accessibile in internet per tutti

Descrizione: Main Thesis
Dimensione 13.11 MB
Formato Adobe PDF
13.11 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211952