Nowadays, Machine Learning (ML) and Deep Learning (DL) techniques are widely used in various fields, from the financial to the medical sector, but now more than ever also in everyone's daily life. Just think of the number of electronic devices surrounding us, from smartphones to smart appliances and even voice assistants: they all make use of Artificial Intelligence (AI) in order to improve their operation and thus the consumer experience. The complexity of these algorithms, combined with the technological evolution of Cloud-based infrastructures, has led to the emergence of a new paradigm, the Machine-Learning-as-a-Service (MLaaS). Service providers offer both ready-to-use ML solutions directly to end users and learning frameworks for Artificial Neural Networks (ANN) to third-parties. To address the main drawbacks of MLaaS, namely the privacy-related issues, innovative systems based on homomorphic Encryption (HE) have been proposed in the past few years. Basically, most of them make use of pre-trained networks in order to perform inference on encrypted data. As is well-known, however, training DL models require a huge amount of information: users' personal and sensitive data are sent in plain to companies and organizations that have full control over them. The purpose of this thesis is to present an innovative HE-based architecture that is able not only to perform inference on encrypted data, but also to train this type of network from scratch using only privacy-preserving data. The proposed solution has been implemented in a Python library that hides the underlying complexity and enables automatic construction and training of cryptography-compliant models starting from plain networks. Several experiments with different ANN configurations have been conducted to prove the feasibility of the presented architecture. The results show that besides secure inference, it is possible to have learning procedures able to guarantee the confidentiality of the processed data.

Oggigiorno le tecniche di Machine Learning (ML) e Deep Learning (DL) sono ampiamente utilizzate in svariati campi, dal settore finanziario a quello medico, ma ora più che mai anche nella vita quotidiana di ognuno di noi. Basti pensare al numero di dispositivi elettronici che ci circondano, a partire dagli smartphone, fino agli elettrodomestici intelligenti e agli assistenti vocali: tutti fanno uso dell'intelligenza artificiale per migliorare il loro funzionamento e di conseguenza la consumer experience. La complessità di questi algoritmi, unita all'evoluzione tecnologica delle infrastrutture Cloud, ha portato alla nascita di un nuovo paradigma, il Machine-Learning-as-a-Service (MLaaS). I fornitori di servizi offrono sia soluzioni di ML pronte all'uso agli utenti finali, sia framework per l'addestramento di reti neurali artificiali (RNA) a terzi. Per far fronte ai principali svantaggi del MLaaS, ovvero le problematiche legate alla privacy, nel corso degli ultimi anni sono stati proposti diversi sistemi innovativi basati sulla Crittografia Omomorfa (CO). Fondamentalmente, gran parte di tali sistemi fa uso di reti pre-addestrate per eseguire inferenze su dati criptati. Come è noto però, l'addestramento dei modelli di DL richiede un'enorme quantità di informazioni: i dati sensibili e personali degli utenti vengono inviati in chiaro ad aziende e organizzazioni che ne hanno il pieno controllo. Lo scopo di questa tesi è quello di presentare un'architettura innovativa basata sulla CO che sia in grado non solo di eseguire inferenze su dati criptati, ma anche di addestrare questo tipo di reti utilizzando esclusivamente dati sicuri. La soluzione proposta è stata implementata in una libreria Python che nasconde la complessità sottostante e consente la costruzione e l'addestramento automatico, a partire da reti in chiaro, di modelli che siano compatibili con la crittografia. Per dimostrare la fattibilità dell'architettura sono stati inoltre condotti diversi esperimenti con differenti configurazioni di RNA. I risultati ottenuti indicano che, oltre all'inferenza, è possibile disporre di procedure di apprendimento in grado di garantire la riservatezza dei dati elaborati.

Deep Learning training on encrypted data with Homomorphic Encryption

Colombo, Luca
2021/2022

Abstract

Nowadays, Machine Learning (ML) and Deep Learning (DL) techniques are widely used in various fields, from the financial to the medical sector, but now more than ever also in everyone's daily life. Just think of the number of electronic devices surrounding us, from smartphones to smart appliances and even voice assistants: they all make use of Artificial Intelligence (AI) in order to improve their operation and thus the consumer experience. The complexity of these algorithms, combined with the technological evolution of Cloud-based infrastructures, has led to the emergence of a new paradigm, the Machine-Learning-as-a-Service (MLaaS). Service providers offer both ready-to-use ML solutions directly to end users and learning frameworks for Artificial Neural Networks (ANN) to third-parties. To address the main drawbacks of MLaaS, namely the privacy-related issues, innovative systems based on homomorphic Encryption (HE) have been proposed in the past few years. Basically, most of them make use of pre-trained networks in order to perform inference on encrypted data. As is well-known, however, training DL models require a huge amount of information: users' personal and sensitive data are sent in plain to companies and organizations that have full control over them. The purpose of this thesis is to present an innovative HE-based architecture that is able not only to perform inference on encrypted data, but also to train this type of network from scratch using only privacy-preserving data. The proposed solution has been implemented in a Python library that hides the underlying complexity and enables automatic construction and training of cryptography-compliant models starting from plain networks. Several experiments with different ANN configurations have been conducted to prove the feasibility of the presented architecture. The results show that besides secure inference, it is possible to have learning procedures able to guarantee the confidentiality of the processed data.
FALCETTA, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Oggigiorno le tecniche di Machine Learning (ML) e Deep Learning (DL) sono ampiamente utilizzate in svariati campi, dal settore finanziario a quello medico, ma ora più che mai anche nella vita quotidiana di ognuno di noi. Basti pensare al numero di dispositivi elettronici che ci circondano, a partire dagli smartphone, fino agli elettrodomestici intelligenti e agli assistenti vocali: tutti fanno uso dell'intelligenza artificiale per migliorare il loro funzionamento e di conseguenza la consumer experience. La complessità di questi algoritmi, unita all'evoluzione tecnologica delle infrastrutture Cloud, ha portato alla nascita di un nuovo paradigma, il Machine-Learning-as-a-Service (MLaaS). I fornitori di servizi offrono sia soluzioni di ML pronte all'uso agli utenti finali, sia framework per l'addestramento di reti neurali artificiali (RNA) a terzi. Per far fronte ai principali svantaggi del MLaaS, ovvero le problematiche legate alla privacy, nel corso degli ultimi anni sono stati proposti diversi sistemi innovativi basati sulla Crittografia Omomorfa (CO). Fondamentalmente, gran parte di tali sistemi fa uso di reti pre-addestrate per eseguire inferenze su dati criptati. Come è noto però, l'addestramento dei modelli di DL richiede un'enorme quantità di informazioni: i dati sensibili e personali degli utenti vengono inviati in chiaro ad aziende e organizzazioni che ne hanno il pieno controllo. Lo scopo di questa tesi è quello di presentare un'architettura innovativa basata sulla CO che sia in grado non solo di eseguire inferenze su dati criptati, ma anche di addestrare questo tipo di reti utilizzando esclusivamente dati sicuri. La soluzione proposta è stata implementata in una libreria Python che nasconde la complessità sottostante e consente la costruzione e l'addestramento automatico, a partire da reti in chiaro, di modelli che siano compatibili con la crittografia. Per dimostrare la fattibilità dell'architettura sono stati inoltre condotti diversi esperimenti con differenti configurazioni di RNA. I risultati ottenuti indicano che, oltre all'inferenza, è possibile disporre di procedure di apprendimento in grado di garantire la riservatezza dei dati elaborati.
File allegati
File Dimensione Formato  
2022_07_Colombo.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi Colombo
Dimensione 1.97 MB
Formato Adobe PDF
1.97 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190173