A privacy-preserving distributed architecture for deep-learning-as-a-service

Machine learning is one of the most interesting and promising techniques of recent years, thanks to its ability to solve problems in many different domains. In particular Machine-learning-as-a-service is a novel and promising computing paradigm which can provide various kinds of machine learning solutions leveraging a Cloud-based computing infrastructure. Thanks to the main characteristics of such infrastructures (high performance, scalability, availability) complex machine learning solutions can be offered directly to customers through Internet. Examples of them include but are not restricted to image recognition and sentiment analysis. Often these solutions rely on the final user sending data (e.g., signals, images, positions, sounds, videos) to the Cloud, hence posing a series of ethical and legal problems on the management of the data. The purpose of the thesis is to present a privacy-by-design architecture able to perform machine learning algorithms on user-provided data. Such architecture will be able to pursue the goals of a classic Machine-learning-as-a-service paradigm, meanwhile preventing the service provider from exploiting the provided data; this will be achieved using Homomorphic Encryption (HE). The architecture has been implemented with a client-server REST-based application where the server is able to perform machine learning algorithms on data sent by the client, represented by the user's machine. The experimental results are conducted using Convolutional Neural Networks (CNNs) to demonstrate the effectiveness of the proposed architecture. All in all, the results show that machine learning based services can be provided to users in a privacy respectful manner. The solution proposed in this thesis has been published at "2020 International Joint Conference on Neural Networks (IJCNN), Glasgow, 2020".

La tecnica del Machine Learning è una delle più interessanti e promettenti degli ultimi anni, grazie alla sua abilità di risolvere problemi appartenenti a molti domini diversi. In particolare, il Machine-learning-as-a-service è un nuovo e promettente paradigma il quale può fornire soluzioni di machine learning di vario tipo sfruttando una architettura di tipo Cloud. Grazie alle principali caratteristiche di tali infrastrutture (alte performance, scalabilità, disponibilità), soluzioni di machine learning complesse possono essere fornite direttamente agli utenti finali tramite Internet. Tali soluzioni includono il riconoscimento di immagini e il sentiment analysis, insieme a molte altre. Tuttavia, spesso, queste soluzioni utilizzano dati inviati dagli utenti (es. immagini, coordinate geografiche, video) al Cloud, dando origine a problematiche etiche e legali sulla gestione di tali dati. Lo scopo di questa tesi è presentare una architettura extit{privacy-by-design} abile ad eseguire algoritmi di machine learning su dati inviati dagli utenti. Tale architettura ricalcherà quella di un paradigma machine-learning-as-a-service classico, impedendo al contempo al provider del servizio di sfruttare i dati forniti dall'utente; questo sarà ottenuto grazie alla Crittografia Omomorfica. L'architettura è stata implementata con una applicazione client-server REST, dove il server può eseguire algoritmi di machine learning su dati inviati dal client, collocato sulla macchina dell'utente. I risultati sperimentali sono ottenuti usando Reti Neurali Convoluzionali per dimostrare l'efficacia della soluzione. Questi mostrano che è possibile fornire servizi usando algoritmi di machine learning mantenendo al contempo la privacy degli utenti. La soluzione proposta in questa tesi è stata pubblicata nell'ambito della conferenza "2020 International Joint Conference on Neural Networks (IJCNN), Glasgow, 2020".