Data-driven aggregation method selection for federated learning in healthcare

Over the recent years, the world has experienced an increase in data-centric companies that incorporate machine learning (ML) for data analysis. However, most ML algorithms require centralized data for model training, which is not applicable in fields such as healthcare. To address this issue, Federated Learning (FL) has emerged as a privacy-preserving solution, enabling the application of machine learning for data analysis in a distributed manner. This work proposes a methodology for predicting the most suitable aggregation strategy using clients' dataset profiling and quality information. A set of simulations was conducted to replicate the non-IIDness present in real datasets, followed by an analysis of the experimental results. Through this approach, it was possible to observe how performance deteriorates under heterogeneous and noisy data distributions. Additionally, there were circumstances where behavioral patterns emerged across different aggregation methods. To systematically capture these relationships, a regression model was trained on the results of the simulated experiments. The progressive evolution phases of the regressor indicate that the inclusion of data profiling features, together with data quality information, were crucial for capturing the underlying data distribution across different clients, thus improving its predictive accuracy. Furthermore, to better understand the contribution of each input, the computation of Shapley values allowed the identification of the most correlated features with each target. The proposed approach can be integrated into the BETTER project, assisting hospitals in improving model accuracy and reliability while also reducing resource usage.

Negli ultimi anni, il mondo ha assistito a un aumento delle aziende data-centric che sfruttano il machine learning (ML) per l'analisi dei dati. Tuttavia, la maggior parte degli algoritmi di ML richiede dati centralizzati per l'addestramento dei modelli, il che non è applicabile in settori come quello sanitario. Per affrontare questo problema, il Federated Learning (FL) è emerso come una soluzione che preserva la privacy, consentendo l'applicazione del machine learning per l'analisi dei dati in modo distribuito. Questo lavoro propone una metodologia per poter prevedere la strategia di aggregazione più adatta da utilizzare nel processo di FL, basandosi sia su informazioni di data quality che profiling estratte dai dataset dei client. Sono state condotte una serie di simulazioni per replicare condizioni di dati non-IID presenti nei dataset reali, seguita da un'analisi dei risultati sperimentali. Attraverso questo approccio, è stato possibile osservare come le prestazioni vadano a deteriorarsi in presenza di distribuzioni di dati eterogenee e rumorose. Inoltre, in alcune circostanze sono emersi pattern comportamentali comuni a diversi metodi di aggregazione. Per catturare sistematicamente queste relazioni, è stato addestrato un modello di regressione sui risultati degli esperimenti simulati. Le fasi di evoluzione del regressore indicano che l'inclusione delle caratteristiche di data profiling, insieme alle informazioni sulla data quality, è stata fondamentale per catturare la distribuzione dei dati tra diversi clienti, migliorando così la sua accuratezza predittiva. Inoltre, per comprendere meglio il contributo di ciascun input, è stato impiegato il calcolo degli Shapley values così da identificare le caratteristiche più correlate a ciascun target. L'approccio proposto può essere integrato nel progetto BETTER, aiutando gli ospedali a migliorare l'accuratezza e l'affidabilità del modello, riducendo al contempo l'utilizzo delle proprie risorse.