Decentralized federated machine learning with blockchain and zero knowledge proofs

In the recent years, sensible and non-sensible data are increasingly used by a variety of web services to train Machine Learning models with the goal of providing recommendations, more personalized user experiences, or anticipating users' behavior. However, these data are often transmitted to and stored into centralized servers, potentially violating the privacy of users. Federated Machine Learning (FML) is a new architecture that still holds the benefits of training a model, while protecting the user sensitive data by leaving them at their sources. The users' devices are now part of the training process by computing locally model updates based on their datasets; only these updates are shared, and not the data. However, several limitations prevent Federated Machine Learning to work in practice. For this purpose, this thesis investigates the main issues related to FML that needs to be addressed, and then tries to propose a possible solution. Centralization is one of the main obstacle, since the presence of a central server, to coordinate the clients, represents a single point of failure for the whole procedure. Second, reverse engineering of model updates to obtain used data points has been demonstrated to be possible, posing again a threat on the client privacy. Third, being FML a distributed environment, clients have the possibility to submit bad updates, and be lazy by copying another one update. The first part of the solution proposed by this thesis to tackle the just mentioned problems, makes use of Blockchain to pursue decentralization, an incentive mechanism to encourage honest clients' behavior, and Differential Privacy to prevent the reversing of updates adding noise to clients' datasets. The second part leverages Zero Knowledge (ZK) proofs, a way for a party to convinces another one that he has correctly executed some computation with secret data input, without revealing the secret; thanks to ZK proofs, we can ensure that clients perform the required computations without disclosing their datasets. As a final result, merging the two parts together, we are able to provide a solution, which can overcome the main limitations of FML.

Negli ultimi anni, dati sensibili e non, sono sempre più utilizzati da svariati servizi web per il training di modelli di Machine Learning con l’obiettivo di fornire raccomandazioni, esperienze più personalizzate, o anticipare il comportamento degli utenti. Tuttavia, questi dati vengono spesso trasmessi e archiviati in server centralizzati, potenzialmente violando la privacy degli utenti. Federated Machine Learning (FML) è una nuova architettura che preserva ancora i vantaggi del training di un modello, e al contempo protegge i dati sensibili degli utenti lasciandoli alla sorgente. I dispositivi degli utenti fanno quindi parte del processo di training computando localmente gli aggiornamenti del modello tramite i propri datasets; solo questi aggiornamenti sono condivisi e non i dati. Tuttavia, diverse limitazioni impediscono al FML di funzionare nella pratica. A tal fine, questa tesi indaga le principali problematiche relative al FML da affrontare, per poi proporre una possibile soluzione. La centralizzazione è uno degli ostacoli principali, poiché la presenza di un server centrale, per il coordinamento dei clients, rappresenta un unico punto di failure per l’intera procedura. In secondo luogo, è stato dimostrato che dato un aggiornamento di un modello, è possibile tramite reverse engineering risalire ai dati utilizzati per computarlo, sollevando nuovamente una minaccia per la privacy. Inoltre, essendo il FML un contesto distribuito, i clients hanno la possibilità di inviare aggiornamenti maliziosi ed essere lazy copiando un altro aggiornamento. La prima parte della soluzione proposta in questa tesi utilizza Blockchain per perseguire la decentralizzazione, un meccanismo di incentivi per incoraggiare il comportamento onesto dei clients, e Differential Privacy per impedire il reverse engineering degli aggiornamenti aggiungendo rumore ai dataset dei clients. La seconda parte sfrutta invece le Zero Knowledge (ZK) proofs, un metodo per provare a un’entità di aver eseguito correttamente alcune computazioni con in input dei dati segreti, senza mai rivelarli; grazie ad esse garantiamo che i clients eseguano le computazioni richieste senza rivelare i loro datasets. Come risultato finale, unendo le due parti insieme, forniamo una soluzione in grado di superare le principali limitazioni del FML.