In a world defined by Deep Learning and big data, Cloud-based computing infrastructures have become a necessary tool to meet the increasing computaional demands of machine learning tasks and give any user access to high performance, scalable and affordable solutions. However, this approach involves processing large amounts of data on a third-party platform, which leads to severe privacy concerns when dealing with sensitive data such as medical and financial records. Privacy-preserving machine learning techniques offer a solution to these issues through the use of Homomorphic Encryption (HE) schemes, but present novel challenges in the way these privacy-preserving networks need to be designed. Previous work in the form of the PINPOINT family of deep learning models has already shown promising results on privacy-preserving time series prediction tasks with potential real-world applications. The aim of this thesis is to extend this work to include a novel training procedure which makes it possible to fine-tune a network directly on encrypted sensisitve data without breaching its privacy. The resulting PINStack model stacking architecture is presented as a general-purpose solution for time series forecasting in a privacy-preserving environment both for inference and training, using the Cheon-Kim-Kim-Song (CKKS) homomorphic scheme to guarantee the privacy of the data. Its performance is evaluated in realistic use-case scenarios and shows great potential for future implementation and further developments.

In un mondo definito da Deep Learning e dai Big Data, le infrastrutture informatiche basate sul Cloud sono diventate uno strumento necessario per soddisfare le cresenti esigenze di calcolo richieste da attività di Machine Learning, in modo da dare a qualsiasi utente accesso a soluzioni ad alte prestazioni, scalabili e a costi contenuti. Tuttavia, questo approccio comporta l'elaborazione di grandi quantità di dati su una piattaforma di terze parti, il che comporta gravi problemi di privacy se bisogna trattare dati sensibili come quelli medici e finanziari. Le tecniche di privacy-preserving machine learning offrono una soluzione a questi problemi grazie all'uso di schemi di crittografia omomorfica (HE), ma presentano nuove sfide nel modo in cui questi privacy-preserving network devono essere progettati. Lavori precedenti, sotto forma della famiglia di modelli di deep learning PINPOINT, hanno già mostrato risultati promettenti nel campo della previsione di serie temporali a rispetto della privacy dei dati, con potenziali applicazioni in situazioni reali. L'obiettivo di questa tesi è estendere tale lavoro per includere una nuova procedura di training, che rende possibile il fine-tuning di un network direttamente su dati sensibili criptati senza violare la loro privacy. Il risultato è la nuova architettura PINStack realizzata con model stacking, che viene presentata come una soluzione generica per la previsione di serie temporali in un ambiente privacy-preserving sia in una fase di inference che di training, utilizzando lo schema omomorfico Cheon-Kim-Kim-Song (CKKS) per garantire la privacy dei dati. Le sue prestazioni sono state valutate in scenari d'uso realistici e mostrano un grande potenziale per future implementazioni e ulteriori sviluppi.

Privacy-preserving machine learning inference and training with homomorphic encryption

MOSCA, GIACOMO
2021/2022

Abstract

In a world defined by Deep Learning and big data, Cloud-based computing infrastructures have become a necessary tool to meet the increasing computaional demands of machine learning tasks and give any user access to high performance, scalable and affordable solutions. However, this approach involves processing large amounts of data on a third-party platform, which leads to severe privacy concerns when dealing with sensitive data such as medical and financial records. Privacy-preserving machine learning techniques offer a solution to these issues through the use of Homomorphic Encryption (HE) schemes, but present novel challenges in the way these privacy-preserving networks need to be designed. Previous work in the form of the PINPOINT family of deep learning models has already shown promising results on privacy-preserving time series prediction tasks with potential real-world applications. The aim of this thesis is to extend this work to include a novel training procedure which makes it possible to fine-tune a network directly on encrypted sensisitve data without breaching its privacy. The resulting PINStack model stacking architecture is presented as a general-purpose solution for time series forecasting in a privacy-preserving environment both for inference and training, using the Cheon-Kim-Kim-Song (CKKS) homomorphic scheme to guarantee the privacy of the data. Its performance is evaluated in realistic use-case scenarios and shows great potential for future implementation and further developments.
FALCETTA, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
In un mondo definito da Deep Learning e dai Big Data, le infrastrutture informatiche basate sul Cloud sono diventate uno strumento necessario per soddisfare le cresenti esigenze di calcolo richieste da attività di Machine Learning, in modo da dare a qualsiasi utente accesso a soluzioni ad alte prestazioni, scalabili e a costi contenuti. Tuttavia, questo approccio comporta l'elaborazione di grandi quantità di dati su una piattaforma di terze parti, il che comporta gravi problemi di privacy se bisogna trattare dati sensibili come quelli medici e finanziari. Le tecniche di privacy-preserving machine learning offrono una soluzione a questi problemi grazie all'uso di schemi di crittografia omomorfica (HE), ma presentano nuove sfide nel modo in cui questi privacy-preserving network devono essere progettati. Lavori precedenti, sotto forma della famiglia di modelli di deep learning PINPOINT, hanno già mostrato risultati promettenti nel campo della previsione di serie temporali a rispetto della privacy dei dati, con potenziali applicazioni in situazioni reali. L'obiettivo di questa tesi è estendere tale lavoro per includere una nuova procedura di training, che rende possibile il fine-tuning di un network direttamente su dati sensibili criptati senza violare la loro privacy. Il risultato è la nuova architettura PINStack realizzata con model stacking, che viene presentata come una soluzione generica per la previsione di serie temporali in un ambiente privacy-preserving sia in una fase di inference che di training, utilizzando lo schema omomorfico Cheon-Kim-Kim-Song (CKKS) per garantire la privacy dei dati. Le sue prestazioni sono state valutate in scenari d'uso realistici e mostrano un grande potenziale per future implementazioni e ulteriori sviluppi.
File allegati
File Dimensione Formato  
Mosca_TH.pdf

accessibile in internet per tutti

Descrizione: Executive summary + thesis
Dimensione 1.48 MB
Formato Adobe PDF
1.48 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/209422