Is this the model you explained? Verifying machine learning model-explanation consistency via privacy attacks in Federated Learning

Federated Learning enables collaborative training across distributed clients while preserving data privacy, making it suitable for sensitive domains such as healthcare, finance, and IoT. Any mechanism analyzing explanations, as some modern defense mechanism implementing Explainable Artificial Intelligence methods in order to detect malicious clients, assume that explanations correctly reflect model behavior, creating a critical vulnerability: a malicious actor can tamper model-explanation pair, or send a malicious model paired with a benign explanation. To the best of our knowledge, no existing work verifies model-explanation consistency. We propose Consistency Heuristic for ExplanationCentered Knowledge (CHECK), a checking algorithm which identifies model-explanation inconsistency in FL. The core principle is that we reconstruct the original input used to compute the explanation by performing an inversion attack using the provided model. Our intuition is that if the model is genuine, the inversion should be easier because the model guides the reconstruction toward inputs that produce the provided explanation, while if the model is poisoned, the inversion should have difficulties to succeed because the poisoned model produces explanations in a different direction than the provided benign explanation. We propose three versions of the optimization algorithm that support different data types (tabular and images), more than one XAI method (SHapley Additive exPlanations and Vanilla Gradients), and diverse architectures (MLP, 1D-CNN and ResNet). We validate CHECK on five datasets: Adult Census, Bank Marketing, Health Heritage, MNIST and CIFAR-10. Using the CHECK approach, we achieve statistically significant separation (p ≪ 0.05 under the Mann-Whitney U test) between benign and malicious clients in all datasets. Further experiments over more rounds demonstrate that early verification is critical. Our approach demonstrates it across different architecture and XAI methods, providing a foundation for trustworthy explainable Federated Learning systems.

Il Federated Learning consente a diversi dispositivi di allenare un modello globale preservando la riservatezza dei loro dati, diventando fondamentale per ambiti quali quello medico, finanziario, e l’IoT. Ogni meccanismo che analizza le spiegazioni, come alcune difese più recenti che implementano XAI per individuare i dispositivi malevoli, assumono che le spiegazioni rappresentino correttamente il modello, creando una vulnerabilità critica: un attore malevolo può modificare la coppia modello-spiegazione, oppure può inviare un modello malevolo associato ad una spiegazione benevola. Per quanto a nostra conoscenza, nessun lavoro esistente verifica la corrispondenza tra i modelli e le loro spiegazioni. Proponiamo CHECK, un algoritmo di verifica che identifica le inconsistenze tra modello e spiegazione nel FL. Il principio sfruttato è la ricostruzione dell’input originale tramite un attacco di inversione che utilizza il modello fornito. La nostra intuizione è che se il modello è benevolo, l’inversione dovrebbe avvenire con successo poiché il modello guida la ricostruzione verso input che riproducono la spiegazione data, se invece il modello è avvelenato l’inversione dovrebbe essere difficoltosa poiché il modello produce spiegazioni con una diversa direzione rispetto alle spiegazioni benigne date. Proponiamo tre versioni dell’algoritmo di ottimizzazione che supportano tipi di dati differenti (tabulari e immagini), più metodi di XAI (SHapley Additive exPlanations e Vanilla Gradients), e differenti architetture (Multi-Layer Perceptron, 1D Convolutional Neural Network e ResNet). Validiamo CHECK rispetto cinque dataset: Adult Census, Bank Marketing, Health Heritage, MNIST e CIFAR-10. Usando l’approccio di CHECK otteniamo una separazione statisticamente rilevante (p ≪ 0.05 usando il Mann-Whitney U test) tra dispositivi malevoli e benevoli su tutti i dataset. Ulteriori esperimenti su più round hanno dimostrato che è critico che la verifica venga effettuata durante i primi round. Il nostro approccio dimostra ciò su diverse architetture e metodi di XAI, fornendo una solida base per l’integrazione con i sistemi di FL che utilizzano metodi di XAI per garantire sicurezza.