Il problema del malware costituisce una severa minaccia per la sicurezza dei dispositivi informatici. La categorizzazione del codice malevolo è di fondamentale importanza per riconoscere le famiglie di malware esistenti e per identificare le nuove minacce. Per molti anni questa operazione è stata svolta manualmente dagli analisti. Attualmente, si stima che i campioni rilevati quotidianamente siano nell'ordine delle decine di migliaia, pertanto sono necessarie tecniche automatiche di analisi e classificazione. In questa tesi analizziamo sperimentalmente tre metodi di clustering (impiegabili per classificare campioni sconosciuti) basati su feature dinamiche e statiche, ricavando i parametri che garantiscono i risultati migliori rispetto alla classificazione per famiglie (attribuita da VirusTotal) scelta come riferimento. Proponiamo inoltre due nuove feature costruite a partire dalle informazioni ricavate tramite analisi statica, allo scopo di rappresentare la struttura del campione a differenti livelli di dettaglio. Infine confrontiamo i cluster prodotti dai vari metodi con la classificazione basata sulle famiglie e quelli generati dal metodo basato su feature dinamiche con quelli ottenuti a partire dalle feature statiche. I risultati sperimentali evidenziano che i cluster prodotti a partire dalle feature statiche non presentano correlazioni significative con quelli basati su feature dinamiche. Una spiegazione di questo risultato è che queste ultime sono legate in maniera differente rispetto alle feature statiche, implicando così la creazione di cluster differenti.

Analisi sperimentale di cluster di malware basati su caratteristiche statiche e dinamiche

CRESSERI, MARCO;CREMONESI, ALESSIA
2010/2011

Abstract

Il problema del malware costituisce una severa minaccia per la sicurezza dei dispositivi informatici. La categorizzazione del codice malevolo è di fondamentale importanza per riconoscere le famiglie di malware esistenti e per identificare le nuove minacce. Per molti anni questa operazione è stata svolta manualmente dagli analisti. Attualmente, si stima che i campioni rilevati quotidianamente siano nell'ordine delle decine di migliaia, pertanto sono necessarie tecniche automatiche di analisi e classificazione. In questa tesi analizziamo sperimentalmente tre metodi di clustering (impiegabili per classificare campioni sconosciuti) basati su feature dinamiche e statiche, ricavando i parametri che garantiscono i risultati migliori rispetto alla classificazione per famiglie (attribuita da VirusTotal) scelta come riferimento. Proponiamo inoltre due nuove feature costruite a partire dalle informazioni ricavate tramite analisi statica, allo scopo di rappresentare la struttura del campione a differenti livelli di dettaglio. Infine confrontiamo i cluster prodotti dai vari metodi con la classificazione basata sulle famiglie e quelli generati dal metodo basato su feature dinamiche con quelli ottenuti a partire dalle feature statiche. I risultati sperimentali evidenziano che i cluster prodotti a partire dalle feature statiche non presentano correlazioni significative con quelli basati su feature dinamiche. Una spiegazione di questo risultato è che queste ultime sono legate in maniera differente rispetto alle feature statiche, implicando così la creazione di cluster differenti.
MAGGI, FEDERICO
SALVANESCHI, GUIDO
ING V - Scuola di Ingegneria dell'Informazione
4-ott-2011
2010/2011
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2011_10_Cremonesi_Cresseri.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 4.36 MB
Formato Adobe PDF
4.36 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/29321