SemiFCDA: semi-supervised federated clustering for domain adaptation

Over the past few decades, the widespread adoption of IoT devices has significantly increased data accessibility while also raising privacy and security concerns. The rapid growth of AI algorithms has further intensified these concerns due to the large amounts of sensitive data collected on edge devices. In response, the federated learning (FL) paradigm has emerged, offering a decentralized and privacy-preserving approach to distributed learning. Within FL, Semi-Supervised Federated Learning (SSFL) addresses scenarios with partially labeled data by applying semi-supervised techniques, such as pseudo-labeling and training autoencoders. However, in many real-world SSFL applications, such as Human Activity Recognition (HAR), data is often non-identically distributed among clients or between clients and the central server. This variation, known as domain shift, arises from differences in sensing devices, experimental setups, and user behaviors, posing a significant challenge for federated learning. Unfortunately, many existing studies overlook domain shifts and test their methods in overly simplified environments. In this work, developed in collaboration with STMicroelectronics, we propose a novel framework for semi-supervised federated domain adaptation, called SemiFCDA. SemiFCDA leverages federated clustering to effectively address domain shift in SSFL settings, overcoming the limitations of SSFL methods that handle domain shifts with a single model, such as SemiFDA. By clustering clients based on similarity, SemiFCDA enables the aggregation of model updates within clusters of similar clients, allowing for improved domain adaptation. In this SSFL approach, clients train their respective encoders, while the server trains both an encoder and a classifier. The proposed federated clustering process is based on the concept of encoders' agreement, a custom procedure to measure the similarity between feature vectors produced by different clients' encoders. Communication rounds within each cluster, involving clients and their corresponding server model, are conducted using the SemiFDA framework. SemiFCDA strikes a balance between a single global model, which may be suboptimal in the presence of domain shifts, and fully personalized models, which can be unreliable due to insufficient data on clients. To address the constraints of data privacy in federated settings, we introduce several client similarity measures for federated clustering. Finally, we present a novel experimental framework to demonstrate the effectiveness of our approach in realistic scenarios characterized by domain shift. We conduct an extensive experimental study using several HAR datasets, showing that SemiFCDA achieves superior accuracy and a faster convergence rate compared to the baseline SemiFDA method.

Negli ultimi decenni, l'adozione dei dispositivi IoT ha aumentato l'accessibilità ai dati, sollevando preoccupazioni relative a privacy e sicurezza. La crescita degli algoritmi di intelligenza artificiale ha intensificato queste preoccupazioni a causa delle grandi quantità di dati sensibili raccolti dai dispositivi IoT. Il paradigma del federated learning (FL) affronta queste problematiche, offrendo un approccio decentralizzato e rispettoso della privacy per l'apprendimento distribuito. All'interno del FL, il Semi-Supervised Federated Learning (SSFL) gestisce dati parzialmente etichettati con tecniche semi-supervisionate, come il pseudo-labeling e l'addestramento di autoencoder. Tuttavia, in molte applicazioni reali di SSFL, come il riconoscimento delle attività umane (Human Activity Recognition, HAR), la distribuzione che genera i dati non è la stessa fra client diversi o fra client e server centrale. Questa variazione, nota come domain shift, deriva da differenze nei dispositivi di rilevamento, negli assetti sperimentali e nei comportamenti degli utenti, rappresentando una sfida significativa per il federated learning. Molti studi trascurano i domain shift e testano i loro metodi in ambienti semplificati. In questo lavoro, sviluppato in collaborazione con STMicroelectronics, proponiamo un framework innovativo per l'apprendimento federato semi-supervisionato in presenza di domain shift, denominato SemiFCDA. SemiFCDA sfrutta il clustering federato per affrontare il domain shift in contesti SSFL, superando i limiti dei metodi che usano un unico modello, come il SemiFDA. Raggruppando i clients in base alla somiglianza, SemiFCDA consente l'aggregazione degli aggiornamenti dei modelli all'interno di cluster simili, migliorando l'adattamento al dominio. In questo approccio SSFL, i clients addestrano i rispettivi encoder, mentre il server addestra sia un encoder che un classificatore. Il processo di clustering federato si basa sul concetto di accordo degli encoder, una procedura che abbiamo progettato per misurare la somiglianza tra i vettori di caratteristiche degli encoder dei clients. I round di comunicazione all'interno di ciascun cluster sono condotti utilizzando il framework SemiFDA. SemiFCDA bilancia un modello globale, che potrebbe essere subottimale in presenza di domain shift, e modelli personalizzati, che possono risultare inaffidabili a causa dell'insufficienza di dati sui clients. Per gestire i vincoli di privacy nei contesti federati, abbiamo introdotto specifiche misure di somiglianza fra client utilizzate nel clustering federato. Infine, abbiamo presentato un framework sperimentale per dimostrare l'efficacia del nostro approccio in scenari realistici con domain shift. Lo studio su diversi dataset HAR dimostra che SemiFCDA ottiene un'accuratezza superiore e tasso di convergenza più rapido rispetto al metodo di riferimento SemiFDA.