In the recent years, the usage of private informations to make predictions and statistics, has grown significantly. This data, belonging both to smart objects and to classical computers, are commonly transferred to datacenters where Artificial Intelligence (AI) algorithm are applied in order to perform inference processes. The more are the data, and the more accurate are the models developed. However, some private informations cannot be shared: an example is depicted by the medical datasets where the medical exams, due to regulations on personal data protection cite{GDPR}, are protected and carefully stored. The Federated Learning (FL) approach, which is gaining more and more importance, aims to solve the privacy issue by exchanging only the parameters of the models and not the protected data. The final objective is always to exploit the information power of the private data in the nodes (called clients) to achieve a better common Machine Learning (ML) model. The aim of the thesis is to build and test the feasibility of a FL training process in the medical field. In the thesis, the analyzed inference task is the brain tumor segmentation through Magnetic Resonance Images (MRIs) coming from both public and private datasets. The thesis and the experiments were carried out in collaboration with Politecnico di Milano, Conseil européen pour la recherche nucléaire (CERN) and Consiglio Nazionale delle Ricerche (CNR) that, thanks to a non-disclosure agreement, permitted to obtain the private real dataset with anonymized data provided by the hospital of Athens (2nd Departement of Radiology) and a public dataset. The network architecture was developed through the Hypertext Transfer Protocol (MQTT) that allows an easy-deployment client-side, an high reliability and bandwidth efficiency. Some important contributions are the development of new FL architectures and the study of algorithms for different distributions of data among nodes. At last, many real time experiments in physical separated computers were performed, validating the proposed methods and highlighting the concrete robustness of the network architecture.
Negli ultimi anni, l'uso di dati sensibili attuo a fare previsioni e statistiche, è cresciuto in modo significativo. Questi dati, che provengono sia da oggetti connessi che dai classici computer, vengono comunemente trasferiti in centri di raccolta dati dove Algoritmi di Intelligenza Artificiale (AI) sono applicati al fine di eseguire processi di inferenza. Più sono i dati, e più accurati sono i modelli sviluppati. Tuttavia, alcune informazioni private non possono essere condivise: un esempio è rappresentato dai dati medicali in cui gli esami medici, a seguito dei normative sulla protezione dei dati personali cite{GDPR}, sono protetti e conservati con grande attenzione. L'approccio Federated Learning (FL), che sta acquisendo sempre più importanza, mira a risolvere il problema della privacy scambiando solamente i parametri dei modelli e non i dati. L'obiettivo finale è sempre quello di sfruttare il potere informativo presente nei dati privati dei nodi (chiamati Client) per realizzare un migliore comune modello di Machine Learning (ML). Lo scopo della tesi è quello di costruire e testare la fattibilità di implementazione di un processo di FL in campo medico. Nella tesi, il processo di inferenza analizzato è la segmentazione dei tumori al cervello mediante risonanze magnetiche (MRI) provenienti da set di dati sia pubblici che privati. La tesi e gli esperimenti sono stati svolti in collaborazione con il Politecnico di Milano, il Conseil européen pour la recherche nucléaire (CERN) e il Consiglio Nazionale delle Ricerche (CNR) che, grazie a un accordo di non divulgazione, ha consentito di ottenere il dataset anonimizzato appartenente all'ospedale di Atene (2° Dipartimento di Radiologia) e un dataset pubblico. L'architettura di rete è stata sviluppata attraverso l'Hypertext Transfer Protocol (MQTT) che consente una facile implementazione lato client, un alta affidabilità ed efficienza di larghezza di banda. Alcuni importanti contributi sono lo sviluppo di nuove architetture di FL e lo studio di algoritmi per diverse distribuzioni di dati tra i nodi. Infine, sono stati eseguiti numerosi esperimenti in tempo reale in computer fisicamente separati con lo scopo di convalidare i metodi proposti ed evidenziare la concreta robustezza dell'architettura di rete.
Federated learning architectures and algorithms for diagnostic imaging in healthcare networks
CAMAJORI TEDESCHINI, BERNARDO
2020/2021
Abstract
In the recent years, the usage of private informations to make predictions and statistics, has grown significantly. This data, belonging both to smart objects and to classical computers, are commonly transferred to datacenters where Artificial Intelligence (AI) algorithm are applied in order to perform inference processes. The more are the data, and the more accurate are the models developed. However, some private informations cannot be shared: an example is depicted by the medical datasets where the medical exams, due to regulations on personal data protection cite{GDPR}, are protected and carefully stored. The Federated Learning (FL) approach, which is gaining more and more importance, aims to solve the privacy issue by exchanging only the parameters of the models and not the protected data. The final objective is always to exploit the information power of the private data in the nodes (called clients) to achieve a better common Machine Learning (ML) model. The aim of the thesis is to build and test the feasibility of a FL training process in the medical field. In the thesis, the analyzed inference task is the brain tumor segmentation through Magnetic Resonance Images (MRIs) coming from both public and private datasets. The thesis and the experiments were carried out in collaboration with Politecnico di Milano, Conseil européen pour la recherche nucléaire (CERN) and Consiglio Nazionale delle Ricerche (CNR) that, thanks to a non-disclosure agreement, permitted to obtain the private real dataset with anonymized data provided by the hospital of Athens (2nd Departement of Radiology) and a public dataset. The network architecture was developed through the Hypertext Transfer Protocol (MQTT) that allows an easy-deployment client-side, an high reliability and bandwidth efficiency. Some important contributions are the development of new FL architectures and the study of algorithms for different distributions of data among nodes. At last, many real time experiments in physical separated computers were performed, validating the proposed methods and highlighting the concrete robustness of the network architecture.File | Dimensione | Formato | |
---|---|---|---|
main.pdf
solo utenti autorizzati dal 14/09/2024
Dimensione
33.73 MB
Formato
Adobe PDF
|
33.73 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/179499