Training neural networks with manipulated explanations

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Machine Learning (ML) explainability is becoming an increasingly importantresearch topic. However, popular ML explainability approaches are not robust.In this thesis, I adversarially train neural networks to manipulate a number ofwidely-used explanation methods. A single fine-tuned model is able to manipulateexplanation methods such as Gradient, Gradient times input, Integrated gradi-ents, Layer-wise Relevance Propagation (LRP) and Occlusion across almost anyinput. I show how detecting manipulations is a challenging task and why furtherdevelopment of robust explanation methods is critical.

La spiegabilita del Machine Learning (ML) sta diventando un argomento di ricercasempre pi ́uimportante. Tuttavia, i popolari approcci di spiegabilit ́aML non sonorobusti. In questa tesi, addestro avversariamente le reti neurali per manipolareuna serie di metodi di spiegazione ampiamente utilizzati. Un singolo modello per-fezionato ́e in grado di manipolare metodi di spiegazione come il Gradient, Gradient times input, Integrated gradients, Layer-wise Relevance Propagation (LRP) and Occlusion attraverso quasi tutti gli input. Mostro come il rilevamento dellemanipolazioni sia un compito impegnativo e perche l'ulteriore sviluppo di metodidi spiegazione robusti sia fondamentale.

Training neural networks with manipulated explanations

PASLIEV, PLAMEN

2018/2019

Abstract

Machine Learning (ML) explainability is becoming an increasingly importantresearch topic. However, popular ML explainability approaches are not robust.In this thesis, I adversarially train neural networks to manipulate a number ofwidely-used explanation methods. A single fine-tuned model is able to manipulateexplanation methods such as Gradient, Gradient times input, Integrated gradi-ents, Layer-wise Relevance Propagation (LRP) and Occlusion across almost anyinput. I show how detecting manipulations is a challenging task and why furtherdevelopment of robust explanation methods is critical.

Scheda breve

Scheda completa

	Relatore
	
				CREMONESI, PAOLO
			
	Correlatore/i
	
				KESSEL, PAN
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				29-apr-2020
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				La spiegabilita del Machine Learning (ML) sta diventando un argomento di ricercasempre pi ́uimportante.  Tuttavia, i popolari approcci di spiegabilit ́aML non sonorobusti.   In  questa  tesi,  addestro  avversariamente  le  reti  neurali  per  manipolareuna serie di metodi di spiegazione ampiamente utilizzati.  Un singolo modello per-fezionato  ́e in grado di manipolare metodi di spiegazione come il Gradient, Gradient times input, Integrated gradients, Layer-wise Relevance Propagation (LRP) and Occlusion attraverso quasi tutti gli input.  Mostro come il rilevamento dellemanipolazioni sia un compito impegnativo e perche l'ulteriore sviluppo di metodidi spiegazione robusti sia fondamentale.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
ITALIAN_Training_NN_with_manipulated_explanations.pdf accessibile in internet per tutti Descrizione: Full thesis Dimensione 3.82 MB Formato Adobe PDF Visualizza/Apri	3.82 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154039