A metadata model for optimizing federated learning in the healthcare scenario

In recent years, the exponential growth of healthcare data has driven the development of more efficient and privacy-aware machine learning techniques. Federated Learning (FL) represents an innovative approach that enables collaborative model training without directly sharing raw data, thus maintaining the confidentiality of sensitive information. However, the adoption of FL poses several challenges, including managing data heterogeneity, ensuring data quality, and optimal selection of training clients. Without adequate control over these aspects, model performance may be compromised, limiting the effectiveness of FL in real-world scenarios. Current FL implementations rely primarily on data availability, often neglecting a thorough analysis of data quality and actual client suitability. This approach may lead to inefficiencies in the training process and models that perform less than expected. Although selection strategies based on heuristics and filtering mechanisms exist, a standardized and automated method to assess data quality and dynamically optimize client selection is lacking. This thesis proposes a structured metadata model to improve the effectiveness of FL, providing a systematic framework for collecting and analyzing key information about data sources, client characteristics and learning process parameters. The model allows for a more informed selection of clients, ensuring that only high-quality and relevant data contributes to training. Furthermore, it integrates automated metrics to evaluate the completeness, accuracy, and statistical representativeness of the data, thus improving the robustness and reliability of FL. The validation of the proposed model was conducted through a simulated use case, demonstrating its ability to optimize the training process in FL. The results show that the use of metadata significantly improves data selection, reduces inefficiencies, and increases the overall performance of the model, paving the way for a more effective adoption of this technology in healthcare.

Negli ultimi anni, la crescita esponenziale dei dati sanitari ha reso necessario lo sviluppo di tecniche di apprendimento automatico più efficienti e rispettose della privacy. Il Federated Learning (FL) rappresenta un approccio innovativo che consente l’addestramento collaborativo dei modelli senza la condivisione diretta dei dati grezzi, mantenendo così la riservatezza delle informazioni sensibili. Tuttavia, l’adozione del FL pone diverse sfide, tra cui la gestione dell’eterogeneità dei dati, la garanzia della loro qualità e la selezione ottimale dei client da coinvolgere nell’addestramento. Senza un adeguato controllo su questi aspetti, le prestazioni del modello possono risultare compromesse, limitando l’efficacia del FL in scenari reali. Le implementazioni attuali di FL si basano principalmente sulla disponibilità dei dati, trascurando spesso un’analisi approfondita della loro qualità e della reale idoneità dei client. Questo approccio può portare a inefficienze nel processo di addestramento e a modelli con prestazioni inferiori alle aspettative. Sebbene esistano strategie di selezione basate su euristiche e meccanismi di filtraggio, manca un metodo standardizzato e automatizzato per valutare la qualità dei dati e ottimizzare dinamicamente la selezione dei client. Questa tesi propone un modello di metadati strutturato per migliorare l’efficacia del FL, fornendo un quadro sistematico per la raccolta e l’analisi di informazioni chiave sulle fonti di dati, le caratteristiche dei client e i parametri del processo di apprendimento. Il modello permette una selezione più consapevole dei client, garantendo che solo dati di alta qualità e rilevanti contribuiscano all’addestramento. Inoltre, integra metriche automatizzate per valutare la completezza, l’accuratezza e la rappresentatività statistica dei dati, migliorando così la robustezza e l’affidabilità del FL. La validazione del modello proposto è stata condotta attraverso un caso d’uso simulato, dimostrando la sua capacità di ottimizzare il processo di addestramento nel FL. I risultati mostrano che l’uso dei metadati migliora significativamente la selezione dei dati, riduce le inefficienze e aumenta le prestazioni complessive del modello, aprendo la strada a un’adozione più efficace di questa tecnologia in ambito sanitario.