Federated Learning is a distributed Machine Learning approach that enables to build a global model using the private data stored on edge devices (e.g., mobile devices). The disruptive idea behind Federated Learning consists of transferring the training and inference phases directly on edge devices. In this way, these devices do not need to share their private data with a central server, but instead, they exchange the knowledge extracted from the global model. However, several research works demonstrate that Federated Learning is vulnerable to indirect leakages of information. In particular, with the usage of various techniques, they show that is possible to determine the training data or some additional information that the model was not supposed to learn (e.g., if the training dataset contains images of people, such as in a gender classi cation task, an adversary can determine the clothes or the accessories in these images). In the course of this thesis, we consider one of these adversarial techniques based on Generative Adversarial Networks, and we apply it to di erent Federated Learning algorithms. In particular, we introduce a methodology which allows a malicious party to reconstruct a set of images similar to the one used to train the global model, starting from the shared knowledge. Moreover, this thesis studies di erent application scenarios by proposing an initial study that provides a method to analyze potential indirect leakages of information in Federated Learning. Furthermore, we use a mitigation technique, known as Di erential Privacy, to decrease the surface of the attack. In our case, since the dataset and the use case used are not sensitive, the reconstruction of a representation of the images used for learning does not represent a violation of the privacy of edge devices. However, we highlight a series of research open questions that can be extended and addressed in future work.

Federated Learning è un approccio di Machine Learning distribuito che consente di istruire un modello globale tramite i dati privati che appartengono a diversi edge devices (e.g., dispositivi mobili). L'idea innovativa legata al Federated Learning consiste nel trasferire le fasi di apprendimento e inferenza direttamente sui dispositivi mobili. In questo modo, questi dispositivi collaborano tramite la condivisione di conoscenza estratta dal modello globale, mantenendo i dati, utilizzati nell'apprendimento, privati. Tuttavia, diverse ricerche sostengono che Federated Learning sia vulnerabile a perdite indirette di informazione. In particolare, essi dimostrano che e possibile determinare i dati utilizzati durante l'apprendimento o qualche caratteristica riguardante quest'ultimi tramite l'utilizzo di svariate tecniche (e.g., se i dati utilizzati durante l'apprendimento del modello contengono immagini di persone rappresentanti un genere, uomo o donna, un parte malintenzionata può determinare informazioni aggiuntive, come ad esempio gli indumenti o gli accessori presenti nelle immagini). Nel corso di questa tesi, abbiamo preso in considerazione una di queste tecniche che e basata sull'utilizzo di una rete avversaria generativa, e l'abbiamo applicata a diversi algoritmi di Federated Learning. In particolare, abbiamo sviluppato una metodologia che permette di generare immagini simili ai dati utilizzati durante l'apprendimento, a partire dalla conoscenza del modello globale. La tesi mette in evidenza diversi scenari applicativi impostando uno studio iniziale per analizzare potenziali perdite indirette di informazioni in un ambiente federato. Inoltre, utilizziamo una tecnica di mitigazione, nota come Differential Privacy, per diminuire la superfi cie di attacco. Nel nostro caso, la ricostruzione di una rappresentazione delle immagini utilizzate per l'apprendimento non rappresenta una violazione della privacy dei dispositivi, in quanto il dataset e il caso applicativo utilizzati non sono sensibili. Tuttavia, evidenziamo una serie di domande di ricerca ancora aperte che possono essere estese e trattate in lavori futuri.

Inferring training data in a federated learning context

DEGIORGI, MARZIA
2017/2018

Abstract

Federated Learning is a distributed Machine Learning approach that enables to build a global model using the private data stored on edge devices (e.g., mobile devices). The disruptive idea behind Federated Learning consists of transferring the training and inference phases directly on edge devices. In this way, these devices do not need to share their private data with a central server, but instead, they exchange the knowledge extracted from the global model. However, several research works demonstrate that Federated Learning is vulnerable to indirect leakages of information. In particular, with the usage of various techniques, they show that is possible to determine the training data or some additional information that the model was not supposed to learn (e.g., if the training dataset contains images of people, such as in a gender classi cation task, an adversary can determine the clothes or the accessories in these images). In the course of this thesis, we consider one of these adversarial techniques based on Generative Adversarial Networks, and we apply it to di erent Federated Learning algorithms. In particular, we introduce a methodology which allows a malicious party to reconstruct a set of images similar to the one used to train the global model, starting from the shared knowledge. Moreover, this thesis studies di erent application scenarios by proposing an initial study that provides a method to analyze potential indirect leakages of information in Federated Learning. Furthermore, we use a mitigation technique, known as Di erential Privacy, to decrease the surface of the attack. In our case, since the dataset and the use case used are not sensitive, the reconstruction of a representation of the images used for learning does not represent a violation of the privacy of edge devices. However, we highlight a series of research open questions that can be extended and addressed in future work.
SCAVUZZO, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-apr-2019
2017/2018
Federated Learning è un approccio di Machine Learning distribuito che consente di istruire un modello globale tramite i dati privati che appartengono a diversi edge devices (e.g., dispositivi mobili). L'idea innovativa legata al Federated Learning consiste nel trasferire le fasi di apprendimento e inferenza direttamente sui dispositivi mobili. In questo modo, questi dispositivi collaborano tramite la condivisione di conoscenza estratta dal modello globale, mantenendo i dati, utilizzati nell'apprendimento, privati. Tuttavia, diverse ricerche sostengono che Federated Learning sia vulnerabile a perdite indirette di informazione. In particolare, essi dimostrano che e possibile determinare i dati utilizzati durante l'apprendimento o qualche caratteristica riguardante quest'ultimi tramite l'utilizzo di svariate tecniche (e.g., se i dati utilizzati durante l'apprendimento del modello contengono immagini di persone rappresentanti un genere, uomo o donna, un parte malintenzionata può determinare informazioni aggiuntive, come ad esempio gli indumenti o gli accessori presenti nelle immagini). Nel corso di questa tesi, abbiamo preso in considerazione una di queste tecniche che e basata sull'utilizzo di una rete avversaria generativa, e l'abbiamo applicata a diversi algoritmi di Federated Learning. In particolare, abbiamo sviluppato una metodologia che permette di generare immagini simili ai dati utilizzati durante l'apprendimento, a partire dalla conoscenza del modello globale. La tesi mette in evidenza diversi scenari applicativi impostando uno studio iniziale per analizzare potenziali perdite indirette di informazioni in un ambiente federato. Inoltre, utilizziamo una tecnica di mitigazione, nota come Differential Privacy, per diminuire la superfi cie di attacco. Nel nostro caso, la ricostruzione di una rappresentazione delle immagini utilizzate per l'apprendimento non rappresenta una violazione della privacy dei dispositivi, in quanto il dataset e il caso applicativo utilizzati non sono sensibili. Tuttavia, evidenziamo una serie di domande di ricerca ancora aperte che possono essere estese e trattate in lavori futuri.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_aprile_degiorgi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 8.95 MB
Formato Adobe PDF
8.95 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/147390