Latent adversarial threats and defenses in deep learning-based malware detection

The growing demand for anti-malware solutions that can abstract and generalize from known threats has led to the adoption of deep learning detectors capable of identifying malicious patterns directly from executables, eliminating the need for manual feature engineering. However, the direct interaction with raw bytes and the need to rely on pre-trained models and third-party datasets open the door to critical threats. This thesis investigates two major classes of adversarial threats: evasion and backdoor attacks. Specifically, we focus on variants that exploit the neural network’s latent space to compromise malware detection. We propose a novel evasion strategy based on injecting short, carefully chosen byte sequences into non-functional regions of a malware that transform its latent representation to mimic the one typically associated with benign files. Our experiments show the possibility of evading the model's detection in 100% of the cases by generating a single adversarial byte sequence of less than 500 bytes exhibiting transferability across all samples. Furthermore, we reproduce and extend a recent latent backdoor attack by crafting triggers that influence internal feature activations without naturally causing evasion, thereby isolating and validating the backdoor effect. In particular, we show that in a dirty label scenario, the attacker can build a backdoor that always activates in the presence of the trigger while poisoning only 0.1% of the training set and with the constraints imposed on feature selection. Seemingly, under a clean-label setting, the attack remains effective despite requiring higher poisoning rates and a different approach in the feature selection strategy to achieve meaningful success. Finally, we introduce Latent STRIP, an inference-time backdoor detection mechanism that analyzes the model's output across multiple perturbed versions of a sample's latent representation. This approach attempts to adapt the original STRIP method from input-space to latent-space perturbations and effectively detects our latent backdoors. Notably, we achieve a False Acceptance Rate (FAR) of 0.99 with a reasonable False Rejection Rate (FRR) of 6.13.

La crescente esigenza di soluzioni in grado di rilevare software malevoli in modo efficace e generalizzare oltre le minacce già note, ha portato all’adozione di modelli di deep learning capaci di identificare pattern malevoli direttamente dagli eseguibili, eliminando la necessità di estrarne manualmente le caratteristiche discriminanti. Tuttavia l'interazione diretta con i file binari e la necessità di ricorrere a modelli pre-addestrati e dataset di terze parti apre le porte a nuovi potenziali rischi. Questa tesi pone l'attenzione su due diverse classi di attacchi avversariali contro i modelli di deep learning: evasion e backdooring. Nello specifico, l'attenzione è posta su implementazioni di tali attacchi che sfruttano la possibilità di poter manipolare lo spazio latente di una rete neurale mediante interventi diretti nello spazio di input. Inizialmente è proposta una nuova tecnica di evasion basata sull'inserimento brevi sequenze di byte in spazi non funzionali all'interno del binario. Tali sequenze sono in grado di manipolare la rappresentazione latente di un malware con l'intento di assimilarla a ciò che il modello normalmente associa ai file benigni. I nostri esperimenti mostrano la possibilità di poter eludere il controllo di Malconv nel 100% dei casi con una sola sequenza avversariale da meno di 500 byte e dotata di un’elevata transferability, ovvero la capacità di essere riutilizzata efficacemente su più campioni. Successivamente, viene riprodotto ed esteso un recente attacco backdoor latente, utilizzando un trigger in grado di generare uno specifico pattern nello spazio latente, ma senza causare evasion, grazie alla scelta mirata delle feature coinvolte. L’obiettivo è isolare e validare l’effetto della backdoor. In particolare, si dimostra che, in uno scenario dirty label, un attaccante può innestare una backdoor che si attiva sistematicamente in presenza del trigger, manomettendo solo lo 0,1% del training dataset, nonostante nonostante i vincoli posti sulla scelta delle feature. Parallelamente, in uno scenario clean label, l’attacco risulta comunque efficace, pur richiedendo una percentuale di poisoning maggiore e un approccio diverso nella costruzione del trigger. Infine, viene proposta una variante di un tecnica di difesa esistente per la rilevazione di backdoor, qui denominata Latent STRIP. Il sistema opera in fase di inferenza e si basa sull’analisi del comportamento del modello quando sottoposto a diverse varianti della rappresentazione latente di uno stesso campione. Nei nostri esperimenti, Latent STRIP si dimostra efficace nell’identificare la presenza della backdoor latente, raggiungendo un False Acceptance Rate (FAR) di 0.99 e mantenendo un False Rejection Rate (FRR) ragionevole pari a 6.13.