Protecting data and models in transfer learning-as-a-service: a multi-key homomorphic encryption approach

The growth in size, complexity and demand of Machine Learning (ML) models has sparked the interest in ML-as-a-service (MLaaS): providers offering ML solutions on the cloud, guaranteeing high availability and reliability. However, MLaaS creates privacy concerns for users, who may not want to share their data with a third party. This problem is particularly acute for sensitive datasets like healthcare or finance information. A possible solution is to adopt Privacy-preserving techniques, such as Homomorphic Encryption (HE), which can compute over encrypted data, preserving users’ privacy while running ML models. Literature in HE has mostly focused on encrypted inference, but more recently interest in encrypted training has risen. Most of the encrypted training solutions however require additional communication between the user and the provider or re-encryption due to computational constraints in HE. This work’s goal is to provide a privacy-preserving ML solution which minimizes user involvement and offers personalized predictions, under the stringent computational limitations of HE. We propose a novel approach which combines the security of CKKS Homomorphic Encryption with the efficiency of Transfer Learning, to shift the computational burden from the user to the service provider. The solution consists of an encrypted ML pipeline, pyEMS, which adapts pre-trained models to the user dataset using encrypted transfer learning. pyEMS does not require any user involvement between encryption and decryption procedures, making it suitable for real-world cloud applications. Moreover pyEMS adopts a multi-party version of CKKS, which guarantees greater security in a distributed ML setting. The presented solution is implemented and validated using a battery of tests, showing that the pyEMS pipeline is comparable and sometimes outperforms state-ofthe-art HE solutions.

La crescita delle dimensioni, della complessità e della domanda di modelli di Machine Learning (ML) ha suscitato l’interesse per il ML-as-a-service (MLaaS): provider che offrono soluzioni di ML sul cloud, garantendo un’elevata disponibilità e affidabilità. Tuttavia, il MLaaS crea problemi di privacy per gli utenti, che potrebbero non voler condividere i propri dati con terzi. Questo problema è particolarmente rilevante per i dati sensibili come le informazioni sanitarie o finanziarie. Una possibile soluzione è l’adozione di tecniche che preservino la privacy, come la crittografia omomorfa (HE), che può calcolare su dati crittografati, preservando la privacy degli utenti durante l’esecuzione di modelli ML. La letteratura sull’HE si è concentrata principalmente sull’inferenza, ma di recente è cresciuto l’interesse per l’addestramento crittografato. La maggior parte delle soluzioni di addestramento criptato, tuttavia, richiedono una comunicazione aggiuntiva tra l’utente e il provider oppure reencryption a causa dei vincoli computazionali in HE. L’obiettivo di questo lavoro è fornire una soluzione di ML che rispetti la privacy e che riduca al minimo il coinvolgimento dell’utente offrendo previsioni personalizzate, nonostante le severe limitazioni computazionali di HE. Proponiamo un approccio innovativo che combina la sicurezza della Crittografia Omomorfa CKKS con l’efficienza dell’Apprendimento per Trasferimento, per spostare l’onere computazionale dall’utente al provider. La soluzione consiste in una pipeline di ML criptata, pyEMS, che adatta modelli pre-addestrati ai dataset dell’utente utilizzando l’apprendimento per trasferimento criptato. pyEMS non richiede alcun coinvolgimento dell’utente ad eccezione delle procedure di encryption e decryption, rendendolo così adatto alle applicazioni cloud. Inoltre pyEMS adotta una versione versione multi-party di CKKS, che garantisce una maggiore sicurezza nell’ambito di ML distribuito. La soluzione presentata è stata implementata e validata con una serie di test, dimostrando che la pipeline ha performance confrontabili e a volte superiori allo stato dell’arte delle soluzioni HE