Il problema del malware costituisce una severa minaccia per la sicurezza dei dispositivi informatici. La categorizzazione del codice malevolo è di fondamentale importanza per riconoscere le famiglie di malware esistenti e per identificare le nuove minacce. Per molti anni questa operazione è stata svolta manualmente dagli analisti. Attualmente, si stima che i campioni rilevati quotidianamente siano nell'ordine delle decine di migliaia, pertanto sono necessarie tecniche automatiche di analisi e classificazione. In questa tesi analizziamo sperimentalmente tre metodi di clustering (impiegabili per classificare campioni sconosciuti) basati su feature dinamiche e statiche, ricavando i parametri che garantiscono i risultati migliori rispetto alla classificazione per famiglie (attribuita da VirusTotal) scelta come riferimento. Proponiamo inoltre due nuove feature costruite a partire dalle informazioni ricavate tramite analisi statica, allo scopo di rappresentare la struttura del campione a differenti livelli di dettaglio. Infine confrontiamo i cluster prodotti dai vari metodi con la classificazione basata sulle famiglie e quelli generati dal metodo basato su feature dinamiche con quelli ottenuti a partire dalle feature statiche. I risultati sperimentali evidenziano che i cluster prodotti a partire dalle feature statiche non presentano correlazioni significative con quelli basati su feature dinamiche. Una spiegazione di questo risultato è che queste ultime sono legate in maniera differente rispetto alle feature statiche, implicando così la creazione di cluster differenti.
Analisi sperimentale di cluster di malware basati su caratteristiche statiche e dinamiche
CRESSERI, MARCO;CREMONESI, ALESSIA
2010/2011
Abstract
Il problema del malware costituisce una severa minaccia per la sicurezza dei dispositivi informatici. La categorizzazione del codice malevolo è di fondamentale importanza per riconoscere le famiglie di malware esistenti e per identificare le nuove minacce. Per molti anni questa operazione è stata svolta manualmente dagli analisti. Attualmente, si stima che i campioni rilevati quotidianamente siano nell'ordine delle decine di migliaia, pertanto sono necessarie tecniche automatiche di analisi e classificazione. In questa tesi analizziamo sperimentalmente tre metodi di clustering (impiegabili per classificare campioni sconosciuti) basati su feature dinamiche e statiche, ricavando i parametri che garantiscono i risultati migliori rispetto alla classificazione per famiglie (attribuita da VirusTotal) scelta come riferimento. Proponiamo inoltre due nuove feature costruite a partire dalle informazioni ricavate tramite analisi statica, allo scopo di rappresentare la struttura del campione a differenti livelli di dettaglio. Infine confrontiamo i cluster prodotti dai vari metodi con la classificazione basata sulle famiglie e quelli generati dal metodo basato su feature dinamiche con quelli ottenuti a partire dalle feature statiche. I risultati sperimentali evidenziano che i cluster prodotti a partire dalle feature statiche non presentano correlazioni significative con quelli basati su feature dinamiche. Una spiegazione di questo risultato è che queste ultime sono legate in maniera differente rispetto alle feature statiche, implicando così la creazione di cluster differenti.File | Dimensione | Formato | |
---|---|---|---|
2011_10_Cremonesi_Cresseri.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
4.36 MB
Formato
Adobe PDF
|
4.36 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/29321