Privacy-preserving convolutional neural networks through homomorphic encryption

In the last few years Machine Learning techniques have become popular thanks to their ability to solve complex problems. A popular machine-learning application paradigm considers Software as a Service, that is a software distribution model in which a third-party provider, usually a cloud server, hosts applications (i.e., machine learning algorithms) and makes them available to customers over the Internet. On the one hand this cloud-based machine-learning paradigm is useful since it is usually fast and scalable, thus it allows to reach a big number of users, but, on the other hand, it poses severe issues in terms of privacy because analyzed data, on the untrusted cloud server, might be sensible data. This issue is also particularly relevant after the recent approval of the European’s General Data Protection Regulation. This thesis provides a methodological solution about how to design a privacy-preserving machine-learning system based on Homomorphic Encryption (HE). More precisely, this work focuses on Convolutional Neural Networks (CNNs) and presents both a methodology and a library to convert a pre-trained CNN to a privacy-preserving CNN able to process encrypted data, by employing the Brakerski, Fan and Vercauteren (BFV) HE scheme. Moreover, this thesis provides a mathematical formulation for the problem of finding the best encryption parameters for the BFV encryption scheme as well as a heuristic, based on a binary search algorithm, to solve the problem of the parameters’ choice, tailored on the privacy-preserving CNN. The proposed heuristic aims to find the best transformation for the given CNN. The experimental results show that the proposed methodology is able to operate on CNNs characterized by different architectures and processing pipelines. The results also prove that privacy-preserving deep learning is possible at the cost of a small loss in accuracy and slower predictions.

Negli ultimi anni le tecniche di Machine Learning si sono diffuse ampiamente poiché esse permettono di risolvere problemi complessi. Uno dei modelli di machine-learning più comunemente usati è il Software as a Service. Si tratta di un modello di distribuzione del software nel quale un terzo, solitamente un server cloud, ospita le applicazioni (ovvero, gli algoritmi di machine learning) e le rende fruibili agli utenti attraverso Internet. Da un lato questa tecnica di machine learning basata sul cloud risulta utile poiché è solitamente veloce e scalabile, quindi permette di raggiungere un gran numero di utenti, ma, dall'altro lato pone seri problemi in termini di privacy, poiché i dati analizzati sul server, considerato inaffidabile, potrebbero essere dati sensibili. Questo aspetto negativo è particolarmente rilevante soprattutto alla luce della recente approvazione dell'European's General Data Protection Regulation. Questa tesi fornisce una soluzione metodologica alla progettazione di un sistema di machine-learning in grado di preservare la privacy dei dati analizzati, detto privacy-preserving, attraverso l'impiego della crittografia omomorfica. Più precisamente, questo lavoro si focalizza sulle Reti Neurali Convoluzionali (CNNs) e presenta sia una metodologia che una libreria per convertire una rete neurale già addestrata in una rete in grado di preservare la privacy, utilizzando lo schema omomorfico di Brakerski, Fan and Vercauteren (BFV). Inoltre, questo lavoro propone una formulazione matematica relativa al problema di trovare i migliori parametri di crittografia per lo schema omomorfico BFV, nonché un'euristica, basata sull'algoritmo di ricerca binaria, per risolvere il problema della scelta dei parametri considerando una specifica privacy-preserving CNN. L'euristica proposta mira quindi a trovare la miglior trasformazione per la data rete convoluzionale. I risultati sperimentali mostrano che la metodologia proposta è in grado di funzionare su CNNs caratterizzate da differenti architetture e pipelines di elaborazione. I risultati provano anche che è possibile preservare la privacy dei dati analizzati con algoritmi di deep learning, pagando un piccolo prezzo in termini di perdita di accuratezza e tempi di predizione più lenti.