Federated Learning enables collaborative training across distributed clients while preserving data privacy, making it suitable for sensitive domains such as healthcare, finance, and IoT. Any mechanism analyzing explanations, as some modern defense mechanism implementing Explainable Artificial Intelligence methods in order to detect malicious clients, assume that explanations correctly reflect model behavior, creating a critical vulnerability: a malicious actor can tamper model-explanation pair, or send a malicious model paired with a benign explanation. To the best of our knowledge, no existing work verifies model-explanation consistency. We propose Consistency Heuristic for ExplanationCentered Knowledge (CHECK), a checking algorithm which identifies model-explanation inconsistency in FL. The core principle is that we reconstruct the original input used to compute the explanation by performing an inversion attack using the provided model. Our intuition is that if the model is genuine, the inversion should be easier because the model guides the reconstruction toward inputs that produce the provided explanation, while if the model is poisoned, the inversion should have difficulties to succeed because the poisoned model produces explanations in a different direction than the provided benign explanation. We propose three versions of the optimization algorithm that support different data types (tabular and images), more than one XAI method (SHapley Additive exPlanations and Vanilla Gradients), and diverse architectures (MLP, 1D-CNN and ResNet). We validate CHECK on five datasets: Adult Census, Bank Marketing, Health Heritage, MNIST and CIFAR-10. Using the CHECK approach, we achieve statistically significant separation (p ≪ 0.05 under the Mann-Whitney U test) between benign and malicious clients in all datasets. Further experiments over more rounds demonstrate that early verification is critical. Our approach demonstrates it across different architecture and XAI methods, providing a foundation for trustworthy explainable Federated Learning systems.

Il Federated Learning consente a diversi dispositivi di allenare un modello globale preservando la riservatezza dei loro dati, diventando fondamentale per ambiti quali quello medico, finanziario, e l’IoT. Ogni meccanismo che analizza le spiegazioni, come alcune difese più recenti che implementano XAI per individuare i dispositivi malevoli, assumono che le spiegazioni rappresentino correttamente il modello, creando una vulnerabilità critica: un attore malevolo può modificare la coppia modello-spiegazione, oppure può inviare un modello malevolo associato ad una spiegazione benevola. Per quanto a nostra conoscenza, nessun lavoro esistente verifica la corrispondenza tra i modelli e le loro spiegazioni. Proponiamo CHECK, un algoritmo di verifica che identifica le inconsistenze tra modello e spiegazione nel FL. Il principio sfruttato è la ricostruzione dell’input originale tramite un attacco di inversione che utilizza il modello fornito. La nostra intuizione è che se il modello è benevolo, l’inversione dovrebbe avvenire con successo poiché il modello guida la ricostruzione verso input che riproducono la spiegazione data, se invece il modello è avvelenato l’inversione dovrebbe essere difficoltosa poiché il modello produce spiegazioni con una diversa direzione rispetto alle spiegazioni benigne date. Proponiamo tre versioni dell’algoritmo di ottimizzazione che supportano tipi di dati differenti (tabulari e immagini), più metodi di XAI (SHapley Additive exPlanations e Vanilla Gradients), e differenti architetture (Multi-Layer Perceptron, 1D Convolutional Neural Network e ResNet). Validiamo CHECK rispetto cinque dataset: Adult Census, Bank Marketing, Health Heritage, MNIST e CIFAR-10. Usando l’approccio di CHECK otteniamo una separazione statisticamente rilevante (p ≪ 0.05 usando il Mann-Whitney U test) tra dispositivi malevoli e benevoli su tutti i dataset. Ulteriori esperimenti su più round hanno dimostrato che è critico che la verifica venga effettuata durante i primi round. Il nostro approccio dimostra ciò su diverse architetture e metodi di XAI, fornendo una solida base per l’integrazione con i sistemi di FL che utilizzano metodi di XAI per garantire sicurezza.

Is this the model you explained? Verifying machine learning model-explanation consistency via privacy attacks in Federated Learning

SACCONE, ALESSANDRO
2024/2025

Abstract

Federated Learning enables collaborative training across distributed clients while preserving data privacy, making it suitable for sensitive domains such as healthcare, finance, and IoT. Any mechanism analyzing explanations, as some modern defense mechanism implementing Explainable Artificial Intelligence methods in order to detect malicious clients, assume that explanations correctly reflect model behavior, creating a critical vulnerability: a malicious actor can tamper model-explanation pair, or send a malicious model paired with a benign explanation. To the best of our knowledge, no existing work verifies model-explanation consistency. We propose Consistency Heuristic for ExplanationCentered Knowledge (CHECK), a checking algorithm which identifies model-explanation inconsistency in FL. The core principle is that we reconstruct the original input used to compute the explanation by performing an inversion attack using the provided model. Our intuition is that if the model is genuine, the inversion should be easier because the model guides the reconstruction toward inputs that produce the provided explanation, while if the model is poisoned, the inversion should have difficulties to succeed because the poisoned model produces explanations in a different direction than the provided benign explanation. We propose three versions of the optimization algorithm that support different data types (tabular and images), more than one XAI method (SHapley Additive exPlanations and Vanilla Gradients), and diverse architectures (MLP, 1D-CNN and ResNet). We validate CHECK on five datasets: Adult Census, Bank Marketing, Health Heritage, MNIST and CIFAR-10. Using the CHECK approach, we achieve statistically significant separation (p ≪ 0.05 under the Mann-Whitney U test) between benign and malicious clients in all datasets. Further experiments over more rounds demonstrate that early verification is critical. Our approach demonstrates it across different architecture and XAI methods, providing a foundation for trustworthy explainable Federated Learning systems.
DI GENNARO, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Il Federated Learning consente a diversi dispositivi di allenare un modello globale preservando la riservatezza dei loro dati, diventando fondamentale per ambiti quali quello medico, finanziario, e l’IoT. Ogni meccanismo che analizza le spiegazioni, come alcune difese più recenti che implementano XAI per individuare i dispositivi malevoli, assumono che le spiegazioni rappresentino correttamente il modello, creando una vulnerabilità critica: un attore malevolo può modificare la coppia modello-spiegazione, oppure può inviare un modello malevolo associato ad una spiegazione benevola. Per quanto a nostra conoscenza, nessun lavoro esistente verifica la corrispondenza tra i modelli e le loro spiegazioni. Proponiamo CHECK, un algoritmo di verifica che identifica le inconsistenze tra modello e spiegazione nel FL. Il principio sfruttato è la ricostruzione dell’input originale tramite un attacco di inversione che utilizza il modello fornito. La nostra intuizione è che se il modello è benevolo, l’inversione dovrebbe avvenire con successo poiché il modello guida la ricostruzione verso input che riproducono la spiegazione data, se invece il modello è avvelenato l’inversione dovrebbe essere difficoltosa poiché il modello produce spiegazioni con una diversa direzione rispetto alle spiegazioni benigne date. Proponiamo tre versioni dell’algoritmo di ottimizzazione che supportano tipi di dati differenti (tabulari e immagini), più metodi di XAI (SHapley Additive exPlanations e Vanilla Gradients), e differenti architetture (Multi-Layer Perceptron, 1D Convolutional Neural Network e ResNet). Validiamo CHECK rispetto cinque dataset: Adult Census, Bank Marketing, Health Heritage, MNIST e CIFAR-10. Usando l’approccio di CHECK otteniamo una separazione statisticamente rilevante (p ≪ 0.05 usando il Mann-Whitney U test) tra dispositivi malevoli e benevoli su tutti i dataset. Ulteriori esperimenti su più round hanno dimostrato che è critico che la verifica venga effettuata durante i primi round. Il nostro approccio dimostra ciò su diverse architetture e metodi di XAI, fornendo una solida base per l’integrazione con i sistemi di FL che utilizzano metodi di XAI per garantire sicurezza.
File allegati
File Dimensione Formato  
2025_12_Saccone_Executive_Summary.pdf

accessibile in internet per tutti a partire dal 18/11/2028

Descrizione: Executive Summary
Dimensione 1.85 MB
Formato Adobe PDF
1.85 MB Adobe PDF   Visualizza/Apri
2025_12_Saccone_Tesi.pdf

accessibile in internet per tutti a partire dal 18/11/2028

Descrizione: Tesi
Dimensione 15.4 MB
Formato Adobe PDF
15.4 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246792