Deep learning models for image classification have often achieved human performances and are currently adopted in several applications. Despite of that, these models are vulnerable to adversarial samples, i.e. images specifically crafted to deceive the neural networks in producing a wrong prediction. In this thesis we propose a new black-box adversarial attack for image classifiers in a constrained threat scenario, where the attacker can only add the adversarial perturbation on a benign image modifying a small fraction of pixels in the form of scratches. Our attacks are generated using evolutionary algorithms, which are able to optimize a fitness function without having access to the model architecture or parameters. We demonstrate that it is possible to produce localized adversarial scratches that achieve a success rate of 98.77% and 97.20% on ImageNet and CIFAR-10 trained ResNet-50 models, respectively, while covering less than 5% of the pixels. We show that our scratches are effective under different conditions, such as using a single color for the whole scratch or multiple colors, and with different shapes, such as straight lines and second-order Bézier curves. We also present a successful attack against a real-world public service, which is Microsoft’s Cognitive Services Image Captioning API, and we propose possible defense techniques to mitigate our attack.

I modelli di deep learning per la classificazione di immagini hanno spesso raggiunto performance a livello umano, e sono entrati in uso in molteplici contesti. Nonostante ciò, questi modelli sono vulnerabili ad esempi avversari, cioè immagini specificatamente prodotte per ingannare le reti neurali nel produrre una classificazione errata. In questa tesi proponiamo un nuovo attacco avversario black-box per i classificatori di immagini in un modello di rischio vincolato, dove l’attaccante può solo aggiungere una perturbazione avversaria con la forma di graffi su un’immagine pulita modificando una limitata frazione dei pixel totali. I nostri attacchi sono generati utilizzando algoritmi evoluzionari, che sono in grado di ottimizzare una funzione di fitness senza aver accesso all’architettura del modello o ai suoi parametri. Dimostriamo che è possible produrre graffi avversari localizzati che raggiungono una percentuale di successo del 98.77% e 97.20% su modelli ResNet-50 addestrati su ImageNet e CIFAR-10, rispettivamente, coprendo meno del 5% dei pixel totali. Mostriamo che i nostri graffi sono efficaci sotto differenti condizioni, come l’utilizzo di un solo colore per tutto il graffio o più colori, e con forme diverse, come linee dritte o curve di Bézier del secondo ordine. Infine presentiamo un attacco che ha avuto successo contro un servizio pubblico nel mondo reale, la Cognitive Services Image Captioning API di Microsoft, e proponiamo delle possibili tecniche di difesa per attenuare gli effetti del nostro attacco.

Evolutionary-based adversarial scratches against deep learning image classifiers

ROSSI, LORIS
2019/2020

Abstract

Deep learning models for image classification have often achieved human performances and are currently adopted in several applications. Despite of that, these models are vulnerable to adversarial samples, i.e. images specifically crafted to deceive the neural networks in producing a wrong prediction. In this thesis we propose a new black-box adversarial attack for image classifiers in a constrained threat scenario, where the attacker can only add the adversarial perturbation on a benign image modifying a small fraction of pixels in the form of scratches. Our attacks are generated using evolutionary algorithms, which are able to optimize a fitness function without having access to the model architecture or parameters. We demonstrate that it is possible to produce localized adversarial scratches that achieve a success rate of 98.77% and 97.20% on ImageNet and CIFAR-10 trained ResNet-50 models, respectively, while covering less than 5% of the pixels. We show that our scratches are effective under different conditions, such as using a single color for the whole scratch or multiple colors, and with different shapes, such as straight lines and second-order Bézier curves. We also present a successful attack against a real-world public service, which is Microsoft’s Cognitive Services Image Captioning API, and we propose possible defense techniques to mitigate our attack.
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
I modelli di deep learning per la classificazione di immagini hanno spesso raggiunto performance a livello umano, e sono entrati in uso in molteplici contesti. Nonostante ciò, questi modelli sono vulnerabili ad esempi avversari, cioè immagini specificatamente prodotte per ingannare le reti neurali nel produrre una classificazione errata. In questa tesi proponiamo un nuovo attacco avversario black-box per i classificatori di immagini in un modello di rischio vincolato, dove l’attaccante può solo aggiungere una perturbazione avversaria con la forma di graffi su un’immagine pulita modificando una limitata frazione dei pixel totali. I nostri attacchi sono generati utilizzando algoritmi evoluzionari, che sono in grado di ottimizzare una funzione di fitness senza aver accesso all’architettura del modello o ai suoi parametri. Dimostriamo che è possible produrre graffi avversari localizzati che raggiungono una percentuale di successo del 98.77% e 97.20% su modelli ResNet-50 addestrati su ImageNet e CIFAR-10, rispettivamente, coprendo meno del 5% dei pixel totali. Mostriamo che i nostri graffi sono efficaci sotto differenti condizioni, come l’utilizzo di un solo colore per tutto il graffio o più colori, e con forme diverse, come linee dritte o curve di Bézier del secondo ordine. Infine presentiamo un attacco che ha avuto successo contro un servizio pubblico nel mondo reale, la Cognitive Services Image Captioning API di Microsoft, e proponiamo delle possibili tecniche di difesa per attenuare gli effetti del nostro attacco.
File allegati
File Dimensione Formato  
thesis (2).pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 9.86 MB
Formato Adobe PDF
9.86 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/167083