Finding, characterizing and tracking domain generation algorithms from passive DNS monitoring

A botnet is a network of compromised machines (bots) under the control a an entity (the botmaster), which uses them to perform illegal activities. Modern botnets rely on domain generation algorithms, also known as DGA, to build resilient C&C infrastructures. Recently, researchers proposed approaches to recognize automatically-generated domains from DNS traffic to infiltrate into such C&C infrastructures and cause the masters to lose control of their bots. Unfortunately, such approaches require access to DNS sensors whose deployment poses practical issues that render their adoption problematic. Instead, we propose a novel way to combine publicly-available and privacy-preserving databases of historical DNS traffic together with linguistic-based models of the suspicious domains. From this, we find automatically-generated domain names, characterize the generation algorithms, isolate logical groups of domains that represent the respective botnets, and produce novel knowledge about the evolving behavior of each tracked botnet. We evaluated our approach on millions of real-world domains. Overall, it correctly flags 81.4 to 94.8% of the domains as being automatically generated. More important, it isolates families of domains that belong to different DGAs. We were also able to verify the validity of our findings against live botnets (e.g., Conficker.B).

Una botnet è una rete di macchine compromesse (bot) sotto il controllo di una singola entità (il botmaster) che le impiega per compiere attività illegali. Oggigiorno, le botnet fanno uso di algoritmi di generazioni di domini (ingl., domain generation algorithms, DGA) per garantire la robustezza delle infrastrutture di controllo delle macchine compromesse. Di recente, alcuni ricercatori hanno proposto soluzioni per riconoscere domini generati automaticamente a partire dall'analisi di traffico DNS, con lo scopo di infiltrarsi nelle infrastrutture di comunicazione cosicché i botmaster perdano il controllo dei propri bot. Sfortunatamente, le soluzioni proposte richiedono accesso a sensori di traffico DNS la cui installazione pone problemi che rendono difficile la loro adozione in contesti reali. Con questo lavoro proponiamo un approccio innovativo per combinare modelli linguistici di domini sospetti con dati di traffico DNS pubblicamente accessibili e rispettosi della privacy. Da questo, identifichiamo domini generati automaticamente, caratterizziamo gli algoritmi di generazione, isoliamo raggruppamenti logici di domini che rappresentano diverse botnet e produciamo nuova conoscenza riguardante il comportamento e l'evoluzione di ognuna delle botnet osservate. Abbiamo valutato la nostra soluzione su milioni di domini reali. Globalmente, identifichiamo correttamente dall'81.4 al 94.8% dei domini come generati automaticamente. Inoltre, isoliamo famiglie di domini generati da diversi algoritmi di generazione. La validità dei nostri risultati è stata confermata dallo studio di botnet attive (e.g., Conficker.B).