The thesis focuses on stroke prediction and management within healthcare networks, employing Federated Learning (FL) as a framework to leverage distributed data sources while maintaining data privacy. However, FL faces challenges in heterogeneous environments, where data distributions vary across devices and communication constraints are prevalent. The goal of the thesis is to design, optimize, and evaluate a FL platform based on MQTT communication protocol in heterogeneous environments, focusing on healthcare applications as a pertinent use case. It has been developed in the context of the EU Horizon project TRUSTroke, which investigates the design of the FL platform for stroke recurrence prognosis based on real data while complying with EU regulations. The primary objective of this research is to evaluate FL algorithms tailored for heterogeneous healthcare environments. The taxonomy of FL is explored, categorizing techniques based on data partitioning, communication architectures, and federation scales. Considering the complex nature of medical data, an investigation into FL with medical Non-Independent and Identically Distributed (non-IID) data is undertaken, addressing the unique challenges presented by medical data diversity. Furthermore, the thesis explains how various types of heterogeneities can be simulated by leveraging Dirichlet distribution, applying different noise levels or discretizing specific features. A range of FL algorithms is integrated into the platform, including algorithms running on the parameter server, on devices and hybrid algorithms. These algorithms are assessed on their performance within heterogeneous scenarios, uncovering their strengths and weaknesses in handling varying levels of data heterogeneity targeting classification problems on both image and tabular data. To assess the practical implications, the thesis evaluates FL within the context of stroke prediction. The challenges of applying FL in healthcare settings are highlighted, and the intricacies of the stroke dataset are analyzed in heterogeneous setups. The results demonstrate that no FL algorithm proved to be superior to others considering all the cases. Therefore, it is necessary to carefully select the most appropriate algorithm according to the requirements of the task to be solved and the degree of data heterogeneity. The thesis provides some valuable guidelines for a suitable algorithm selection considering the available resources and constraints for a specific setup based on the acquired results.

La tesi si concentra sulla previsione e sulla gestione dell’ictus all’interno delle reti sanitarie, impiegando l’apprendimento federato (FL) come struttura per sfruttare fonti di dati distribuite mantenendo la privacy dei dati. Tuttavia, il FL deve affrontare sfide in ambienti eterogenei, in cui la distribuzione dei dati varia tra i dispositivi e le limitazioni di comunicazione sono prevalenti. L’obiettivo della tesi è progettare, ottimizzare e valutare una piattaforma FL basata sul protocollo di comunicazione MQTT in ambienti eterogenei, concentrandosi sulle applicazioni sanitarie come caso d’uso pertinente. È stata sviluppata nel contesto del progetto Horizon dell’UE TRUSTroke, che studia la progettazione di una piattaforma FL per la prognosi delle recidive di ictus basata su dati reali e conforme alle normative dell’UE. L’obiettivo primario di questa ricerca è valutare gli algoritmi di FL su misura per gli ambienti sanitari eterogenei. Viene esplorata la tassonomia della FL, classificando le tecniche in base al partizionamento dei dati, alle architetture di comunicazione e alle scale di federazione. Considerando la natura complessa dei dati medici, viene intrapresa un’indagine sulla FL con dati medici non indipendenti e identicamente distribuiti (non-IID), affrontando le sfide uniche presentate dalla diversità dei dati medici. Inoltre, la tesi spiega come si possano simulare vari tipi di eterogeneità sfruttando la distribuzione di Dirichlet, applicando diversi livelli di rumore o discretizzando caratteristiche specifiche. Nella piattaforma è integrata una serie di algoritmi FL, tra cui algoritmi in esecuzione sul server dei parametri, sui dispositivi e algoritmi ibridi. Questi algoritmi sono valutati in base alle loro prestazioni in scenari eterogenei, scoprendo i loro punti di forza e di debolezza nella gestione di vari livelli di eterogeneità dei dati, principalmente per la classificazione delle immagini. Per valutare le implicazioni pratiche, la tesi valuta la FL nel contesto della previsione dell’ictus. Sono state evidenziate le sfide dell’applicazione di FL in ambito sanitario e sono state analizzate le complessità del set di dati sull’ictus considerando il problema dell’eterogeneità dei dati. I risultati dimostrano che l’algoritmo FL deve essere scelto in modo opportuno a seconda dei task assignati e della complessità dei dati. La tesi fornisce alcune preziose linee guida per la selezione dell’algoritmo FL piu opportuno, considerando le risorse e i vincoli disponibili per una specifica configurazione, sulla base dei risultati acquisiti.

Federated learning algorithms in heterogeneous environments with application to healthcare networks

Milasheuski, Usevalad
2022/2023

Abstract

The thesis focuses on stroke prediction and management within healthcare networks, employing Federated Learning (FL) as a framework to leverage distributed data sources while maintaining data privacy. However, FL faces challenges in heterogeneous environments, where data distributions vary across devices and communication constraints are prevalent. The goal of the thesis is to design, optimize, and evaluate a FL platform based on MQTT communication protocol in heterogeneous environments, focusing on healthcare applications as a pertinent use case. It has been developed in the context of the EU Horizon project TRUSTroke, which investigates the design of the FL platform for stroke recurrence prognosis based on real data while complying with EU regulations. The primary objective of this research is to evaluate FL algorithms tailored for heterogeneous healthcare environments. The taxonomy of FL is explored, categorizing techniques based on data partitioning, communication architectures, and federation scales. Considering the complex nature of medical data, an investigation into FL with medical Non-Independent and Identically Distributed (non-IID) data is undertaken, addressing the unique challenges presented by medical data diversity. Furthermore, the thesis explains how various types of heterogeneities can be simulated by leveraging Dirichlet distribution, applying different noise levels or discretizing specific features. A range of FL algorithms is integrated into the platform, including algorithms running on the parameter server, on devices and hybrid algorithms. These algorithms are assessed on their performance within heterogeneous scenarios, uncovering their strengths and weaknesses in handling varying levels of data heterogeneity targeting classification problems on both image and tabular data. To assess the practical implications, the thesis evaluates FL within the context of stroke prediction. The challenges of applying FL in healthcare settings are highlighted, and the intricacies of the stroke dataset are analyzed in heterogeneous setups. The results demonstrate that no FL algorithm proved to be superior to others considering all the cases. Therefore, it is necessary to carefully select the most appropriate algorithm according to the requirements of the task to be solved and the degree of data heterogeneity. The thesis provides some valuable guidelines for a suitable algorithm selection considering the available resources and constraints for a specific setup based on the acquired results.
BARBIERI, LUCA
CAMAJORI TEDESCHINI, BERNARDO
SAVAZZI, STEFANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
La tesi si concentra sulla previsione e sulla gestione dell’ictus all’interno delle reti sanitarie, impiegando l’apprendimento federato (FL) come struttura per sfruttare fonti di dati distribuite mantenendo la privacy dei dati. Tuttavia, il FL deve affrontare sfide in ambienti eterogenei, in cui la distribuzione dei dati varia tra i dispositivi e le limitazioni di comunicazione sono prevalenti. L’obiettivo della tesi è progettare, ottimizzare e valutare una piattaforma FL basata sul protocollo di comunicazione MQTT in ambienti eterogenei, concentrandosi sulle applicazioni sanitarie come caso d’uso pertinente. È stata sviluppata nel contesto del progetto Horizon dell’UE TRUSTroke, che studia la progettazione di una piattaforma FL per la prognosi delle recidive di ictus basata su dati reali e conforme alle normative dell’UE. L’obiettivo primario di questa ricerca è valutare gli algoritmi di FL su misura per gli ambienti sanitari eterogenei. Viene esplorata la tassonomia della FL, classificando le tecniche in base al partizionamento dei dati, alle architetture di comunicazione e alle scale di federazione. Considerando la natura complessa dei dati medici, viene intrapresa un’indagine sulla FL con dati medici non indipendenti e identicamente distribuiti (non-IID), affrontando le sfide uniche presentate dalla diversità dei dati medici. Inoltre, la tesi spiega come si possano simulare vari tipi di eterogeneità sfruttando la distribuzione di Dirichlet, applicando diversi livelli di rumore o discretizzando caratteristiche specifiche. Nella piattaforma è integrata una serie di algoritmi FL, tra cui algoritmi in esecuzione sul server dei parametri, sui dispositivi e algoritmi ibridi. Questi algoritmi sono valutati in base alle loro prestazioni in scenari eterogenei, scoprendo i loro punti di forza e di debolezza nella gestione di vari livelli di eterogeneità dei dati, principalmente per la classificazione delle immagini. Per valutare le implicazioni pratiche, la tesi valuta la FL nel contesto della previsione dell’ictus. Sono state evidenziate le sfide dell’applicazione di FL in ambito sanitario e sono state analizzate le complessità del set di dati sull’ictus considerando il problema dell’eterogeneità dei dati. I risultati dimostrano che l’algoritmo FL deve essere scelto in modo opportuno a seconda dei task assignati e della complessità dei dati. La tesi fornisce alcune preziose linee guida per la selezione dell’algoritmo FL piu opportuno, considerando le risorse e i vincoli disponibili per una specifica configurazione, sulla base dei risultati acquisiti.
File allegati
File Dimensione Formato  
2023_10_Milasheuski_01.pdf

non accessibile

Descrizione: Thesis File
Dimensione 4.71 MB
Formato Adobe PDF
4.71 MB Adobe PDF   Visualizza/Apri
2023_10_Milasheuski_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 954.26 kB
Formato Adobe PDF
954.26 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210810