In recent times, owners and developers of deep learning models must consider more than ever the privacy-preservation of their training data, usually crowdsourced and retaining sensitive information, due to the introduction of GDPR and the tightening of international regulations regarding the privacy of data. The most widely known method to enforce the privacy guarantee of a deep learning model is Differential privacy; it has proved to be successful as a defense mechanism from several privacy attacks against models, but its downside is to cause substantial degradation of the model’s performance. In our work, we test the effectiveness of both Differentially Private Stochastic Gradient Descent, the current standard approach in terms of privacy preservation, and regularizers in defending deep learning models and providing privacy guarantees; to do this, we subject both methods to membership inference and model inversion attacks. We show through a comparative study the flaws of differential privacy; the empirical results prove its significant impact on the performance of the model under attack, both in terms of the level of accuracy achieved and time duration of the training process, and its lack of effectiveness in protecting against a model inversion attack. We also find out that applying dropout and L2 regularization to the output layer of the target model is the best overall defense mechanism, while L2 regularization alone is the best solution in the case of a black-box model inversion attack.

Negli ultimi tempi, i proprietari e gli sviluppatori di modelli di deep learning devono prendere in considerazione più che mai la salvaguardia della privacy dei loro dati di allenamento, di solito in crowdsourcing e contenenti informazioni sensibili, a causa dell’introduzione del GDPR e l’inasprimento delle normative internazionali riguardanti la privacy dei dati. Il metodo più conosciuto per far rispettare la garanzia di privacy di un modello di deep learning è la privacy differenziale; questo metodo ha dimostrato di avere successo come meccanismo di difesa da diversi attacchi alla privacy contro i modelli, ma il suo lato negativo è di causare un sostanziale deterioramento delle prestazioni del modello. Nel nostro lavoro, testiamo l’efficacia sia del Differentially Private Stochastic Gradient Descent, l’attuale approccio standard in termini di conservazione della privacy, sia dei regolarizzatori nel difendere i modelli di deep learning e fornire garanzie di privacy; per fare ciò, sottoponiamo entrambi i metodi ad attacchi di inferenza di appartenenza e di inversione del modello. Mostriamo attraverso uno studio comparativo i difetti della privacy differenziale; i risultati empirici dimostrano il suo impatto significativo sulle prestazioni del modello sotto attacco, sia in termini di livello di accuratezza raggiunto che di durata temporale del processo di addestramento, e la sua scarsa efficacia nel proteggere dall’ attacco di inversione del modello. Scopriamo inoltre che l’applicazione di dropout e regolarizzazione L2 allo strato di output del modello bersaglio è il miglior meccanismo di difesa complessivo, mentre la sola regolarizzazione L2 è la soluzione migliore nel caso di un attacco di inversione del modello black-box.

On the resilience and protection of regularization techniques in differential privacy

Giammarresi, Marco
2020/2021

Abstract

In recent times, owners and developers of deep learning models must consider more than ever the privacy-preservation of their training data, usually crowdsourced and retaining sensitive information, due to the introduction of GDPR and the tightening of international regulations regarding the privacy of data. The most widely known method to enforce the privacy guarantee of a deep learning model is Differential privacy; it has proved to be successful as a defense mechanism from several privacy attacks against models, but its downside is to cause substantial degradation of the model’s performance. In our work, we test the effectiveness of both Differentially Private Stochastic Gradient Descent, the current standard approach in terms of privacy preservation, and regularizers in defending deep learning models and providing privacy guarantees; to do this, we subject both methods to membership inference and model inversion attacks. We show through a comparative study the flaws of differential privacy; the empirical results prove its significant impact on the performance of the model under attack, both in terms of the level of accuracy achieved and time duration of the training process, and its lack of effectiveness in protecting against a model inversion attack. We also find out that applying dropout and L2 regularization to the output layer of the target model is the best overall defense mechanism, while L2 regularization alone is the best solution in the case of a black-box model inversion attack.
MATTEUCCI, MATTEO
LOMURNO, EUGENIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Negli ultimi tempi, i proprietari e gli sviluppatori di modelli di deep learning devono prendere in considerazione più che mai la salvaguardia della privacy dei loro dati di allenamento, di solito in crowdsourcing e contenenti informazioni sensibili, a causa dell’introduzione del GDPR e l’inasprimento delle normative internazionali riguardanti la privacy dei dati. Il metodo più conosciuto per far rispettare la garanzia di privacy di un modello di deep learning è la privacy differenziale; questo metodo ha dimostrato di avere successo come meccanismo di difesa da diversi attacchi alla privacy contro i modelli, ma il suo lato negativo è di causare un sostanziale deterioramento delle prestazioni del modello. Nel nostro lavoro, testiamo l’efficacia sia del Differentially Private Stochastic Gradient Descent, l’attuale approccio standard in termini di conservazione della privacy, sia dei regolarizzatori nel difendere i modelli di deep learning e fornire garanzie di privacy; per fare ciò, sottoponiamo entrambi i metodi ad attacchi di inferenza di appartenenza e di inversione del modello. Mostriamo attraverso uno studio comparativo i difetti della privacy differenziale; i risultati empirici dimostrano il suo impatto significativo sulle prestazioni del modello sotto attacco, sia in termini di livello di accuratezza raggiunto che di durata temporale del processo di addestramento, e la sua scarsa efficacia nel proteggere dall’ attacco di inversione del modello. Scopriamo inoltre che l’applicazione di dropout e regolarizzazione L2 allo strato di output del modello bersaglio è il miglior meccanismo di difesa complessivo, mentre la sola regolarizzazione L2 è la soluzione migliore nel caso di un attacco di inversione del modello black-box.
File allegati
File Dimensione Formato  
2022_04_Giammarresi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 3.86 MB
Formato Adobe PDF
3.86 MB Adobe PDF Visualizza/Apri
2022_04_Giammarresi_Executive_summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 455.83 kB
Formato Adobe PDF
455.83 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187045