袁福祥,劉粉林,蘆斌,鞏道福
(1. 解放軍信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450001;2. 數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)
基于歷史數(shù)據(jù)的異常域名檢測算法
袁福祥1,2,劉粉林1,2,蘆斌1,2,鞏道福1,2
(1. 解放軍信息工程大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,河南 鄭州 450001;2. 數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)
提出一種基于域名歷史數(shù)據(jù)的異常域名檢測算法。該算法基于合法域名與惡意域名歷史數(shù)據(jù)的統(tǒng)計(jì)差異,將域名已生存時(shí)間、whois信息變更、whois信息完整度、域名IP變更、同IP地址域名和域名TTL值等作為主要參量,給出了具體的分類特征表示;在此基礎(chǔ)上,構(gòu)建了用于異常域名檢測的SVM分類器。特征分析和實(shí)驗(yàn)結(jié)果表明,算法對(duì)未知域名具有較高的檢測正確率,尤其適合對(duì)生存時(shí)間較長的惡意域名進(jìn)行檢測。
異常域名;域名歷史數(shù)據(jù);特征;檢測
近年來,隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中出現(xiàn)的各種威脅也不斷增加,如惡意軟件[1]、僵尸網(wǎng)絡(luò)[2]和木馬[3]等。其中,僵尸網(wǎng)絡(luò)和木馬在發(fā)動(dòng)諸如垃圾郵件、網(wǎng)絡(luò)釣魚[4]等惡意行為的過程中往往都通過域名系統(tǒng),即DNS解析域名獲取回連服務(wù)器的IP地址,從而隱藏躲避在僵尸代理身后的命令與控制服務(wù)器(Camp;C, command-and-control server)[5~8],回連控制端接收控制消息或回傳盜取的數(shù)據(jù)信息,躲避檢測和封堵,提高自身的頑健性,延長生命周期。由此可見,域名在僵尸網(wǎng)絡(luò)及木馬發(fā)動(dòng)攻擊行為的過程中發(fā)揮了至關(guān)重要的作用,因此,如何對(duì)此類攻擊中所使用的域名進(jìn)行檢測,對(duì)于發(fā)現(xiàn)并防范僵尸網(wǎng)絡(luò)及木馬的傳播具有極為重要的意義。
目前,針對(duì)異常域名檢測的研究大致包括基于域名自身特性、域名網(wǎng)絡(luò)行為特性的檢測方法等。如文獻(xiàn)[9]主要從域名的字符構(gòu)成角度,通過分析合法域名與算法產(chǎn)生的惡意域名在字符構(gòu)成方面的差異,對(duì)惡意域名進(jìn)行檢測,實(shí)驗(yàn)表明,該方法能夠檢測出網(wǎng)絡(luò)中出現(xiàn)的算法產(chǎn)生的惡意域名。文獻(xiàn)[10]從域名的注冊(cè)信息等特性出發(fā),將輸入的已知惡意域名作為種子,通過種子域名的域名服務(wù)器特征和注冊(cè)信息特征推測出與該種子可能為同一批的惡意域名,并利用相關(guān)的黑名單對(duì)推測結(jié)果進(jìn)行驗(yàn)證,結(jié)果表明,73%的推測域名最終出現(xiàn)在黑名單中。文獻(xiàn)[11]基于木馬使用域名進(jìn)行回連這一事實(shí),對(duì)木馬域名進(jìn)行分析,提取出域名使用時(shí)間、訪問域名周期和域名IP地址所屬國家變更等特征,實(shí)驗(yàn)結(jié)果表明,該檢測準(zhǔn)確率與之前的方法相當(dāng)。文獻(xiàn)[12]設(shè)計(jì)了一個(gè)域名信譽(yù)系統(tǒng)——Notos,該系統(tǒng)使用被動(dòng) DNS查詢的數(shù)據(jù),分析域名的網(wǎng)絡(luò)特征,為已知域名建立模型,并用該模型為新域名計(jì)算信譽(yù)分?jǐn)?shù),該檢測方法準(zhǔn)確率較高,并能夠在惡意域名被列入黑名單幾周甚至幾個(gè)月前檢測出惡意域名。文獻(xiàn)[13]提出了 Kopis檢測系統(tǒng),該系統(tǒng)通過對(duì)頂級(jí)域名服務(wù)器以及權(quán)威域名服務(wù)器進(jìn)行監(jiān)測獲取數(shù)據(jù)提取特征,能夠檢測惡意軟件相關(guān)的域名,該方法可以從全球的角度對(duì)域名的請(qǐng)求、解析等網(wǎng)絡(luò)行為進(jìn)行分析,相比于其他方法監(jiān)測范圍更廣。文獻(xiàn)[14]提出了Exposure檢測系統(tǒng),該系統(tǒng)通過對(duì)真實(shí)的DNS流量數(shù)據(jù)分析,從DNS應(yīng)答以及域名構(gòu)成等方面出發(fā)提取特征,該方法能夠?qū)φ鎸?shí)網(wǎng)絡(luò)中的域名進(jìn)行高效的檢測。文獻(xiàn)[15]基于域名的長度、域名中存在的特殊字符、域名的被解析次數(shù)、被解析時(shí)間以及被解析出的IP的變化等來構(gòu)建特征,該檢測能夠從真實(shí)的 DNS數(shù)據(jù)中檢測出惡意域名。
縱觀現(xiàn)有的異常域名檢測方法都各有所長,且有各自適用的范圍。相對(duì)而言,基于域名網(wǎng)絡(luò)行為分析的檢測方法(如文獻(xiàn)[13]),其檢測正確率較高,且適用范圍較廣,但該類方法需要從頂級(jí)域名服務(wù)器、權(quán)威域名服務(wù)器或者遞歸解析域名服務(wù)器獲取大量的域名解析數(shù)據(jù)。然而,無論是頂級(jí)域名服務(wù)器、權(quán)威域名服務(wù)器還是遞歸解析域名服務(wù)器,其流量數(shù)據(jù)都很難獲取。本文基于域名的自身特性及網(wǎng)絡(luò)行為特性相關(guān)的歷史數(shù)據(jù),根據(jù)合法域名與惡意域名whois、解析IP變更及TTL等信息存在的差異,提出了一種惡意域名檢測算法,該算法通過對(duì)域名的whois信息、域名解析的IP變更信息、同IP地址域名數(shù)量以及域名的TTL值這些數(shù)據(jù)的統(tǒng)計(jì)分析,量化出用于分類的四維特征,使用已知的合法域名與惡意域名作為訓(xùn)練數(shù)據(jù)集,并對(duì) SVM(support vector machine)[16]分類器進(jìn)行訓(xùn)練,使用訓(xùn)練好的分類器對(duì)測試域名集合進(jìn)行檢測。特征分析與實(shí)驗(yàn)表明,算法在能獲取到一定量的歷史數(shù)據(jù)條件下,能夠有效識(shí)別出具有一定生存時(shí)間的可疑域名,尤其對(duì)域名生存期較長的異常域名具有更高的可靠性。同時(shí),本文所使用的數(shù)據(jù)較易獲取,且處理數(shù)據(jù)量也較小。
大量的域名歷史數(shù)據(jù)表明,惡意域名與合法域名在whois信息變更、域名whois信息完整度、IP變更、同 IP域名數(shù)量和TTL等方面表現(xiàn)出不同的性態(tài),并且這種差異與域名的生存時(shí)間密切相關(guān)。本節(jié)將基于這種差異特性,首先給出相關(guān)數(shù)據(jù)對(duì)分類貢獻(xiàn)的分析,然后給出分類特征的具體表示。
域名的 whois信息更新次數(shù)、whois信息完整度、IP變更、同IP域名數(shù)量、域名的TTL值等可以通過相關(guān)的域名信息網(wǎng)站及查詢工具獲得,這些數(shù)據(jù)對(duì)惡意域名與合法域名而言,會(huì)隨域名生存時(shí)間的增長而表現(xiàn)出某種穩(wěn)定的性態(tài),這種穩(wěn)定的性態(tài)對(duì)異常域名的檢測有著不同的貢獻(xiàn),下面將給出這些數(shù)據(jù)的具體分析。
1) 域名whois信息更新次數(shù)。whois是一個(gè)用來查詢域名是否已經(jīng)被注冊(cè),以及已注冊(cè)域名的詳細(xì)信息的數(shù)據(jù)庫,這些信息包括域名的注冊(cè)組織、域名的注冊(cè)商以及注冊(cè)時(shí)間、更新時(shí)間等。為保證域名的可用性,注冊(cè)商或域名持有者可以對(duì)域名的相關(guān)注冊(cè)信息加以更新。一般而言,合法域名經(jīng)常被用戶查詢,為保證域名更好地服務(wù)于用戶,域名持有者會(huì)對(duì)域名的whois信息及時(shí)更新,其whois信息更新次數(shù)往往較多;而惡意域名僅僅為惡意攻擊服務(wù),攻擊者往往并不關(guān)心域名的whois信息,大部分惡意域名持有者并不需要及時(shí)更新whois信息,其whois信息更新次數(shù)往往較少。此外,域名的whois信息更新次數(shù)與域名已生存時(shí)間存在著相應(yīng)的關(guān)系,就統(tǒng)計(jì)意義而言,生存時(shí)間越長惡意域名與合法域名在whois信息更新次數(shù)上的區(qū)別將會(huì)越明顯。圖 1給出了 2類域名共 2000個(gè)樣本的whois信息更新次數(shù)隨域名已生存時(shí)間變化的樣本具體分布情況,分布結(jié)果表明,隨著生存時(shí)間的增長,合法域名whois信息更新次數(shù)較多,更新速率較快,而大部分惡意域名whois信息更新次數(shù)幾乎不變,二者有較為明顯的差異。
圖1whois信息更新次數(shù)隨域名已生存時(shí)間變化的域名分布
2) 域名whois信息完整度。域名持有者在注冊(cè)某個(gè)域名時(shí),往往會(huì)提供相關(guān)的域名信息。合法域名為了能夠提高域名知名度,方便用戶查詢域名信息、了解域名,在注冊(cè)時(shí)一般會(huì)盡可能地將信息填寫完整。而惡意域名為了掩蓋其惡意目的,在注冊(cè)域名時(shí)往往將很多信息隨意填寫,如注冊(cè)人、聯(lián)系方式等相關(guān)信息,甚至盡可能地減少填寫這些信息。大量統(tǒng)計(jì)發(fā)現(xiàn),域名whois信息在完整的情況下總條數(shù)約為52。對(duì)2000個(gè)域名樣本進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表1和表2所示。結(jié)果表明:92.47%的合法域名其whois信息條數(shù)在30條之上,90.85%的惡意域名其 whois信息條數(shù)在 20條之下;有 9條whois信息是合法域名和惡意域名共有的,且擁有這9條信息的域名數(shù)量在合法域名和惡意域名中分別占99.52%和98.85%。
表1域名樣本whois信息完整度統(tǒng)計(jì)
表2合法、惡意域名共有的whois信息項(xiàng)及其含義
顯然,合法域名與惡意域名相比,域名 whois信息完整度方面有著明顯的差異,這種差異對(duì)二者的分類應(yīng)有幫助。
3) 域名IP變更。域名在注冊(cè)時(shí)會(huì)綁定IP地址,合法域名會(huì)根據(jù)解析 IP是否可以提供正常的服務(wù)來決定是否需要更換IP地址,從而保證某一IP出現(xiàn)問題后使用更換后的IP仍然能夠提供服務(wù),提高了服務(wù)的可用性。一般而言,合法域名的IP地址更換,總在一個(gè)IP數(shù)量有限的IP池內(nèi)更換IP[17],其更換IP地址的個(gè)數(shù)是有限的,且隨著生存時(shí)間的增長,IP變更的個(gè)數(shù)(使用過的IP個(gè)數(shù))遠(yuǎn)小于變更次數(shù)。而惡意域名由于遭到檢測及封堵,攻擊者需要經(jīng)常更換域名對(duì)應(yīng)的IP地址,且每次IP變更幾乎都將域名映射到一個(gè)新的 IP地址,因此,其IP變更的個(gè)數(shù)與變更次數(shù)都會(huì)增加。圖2和圖3給出了2000個(gè)域名樣本的IP變更個(gè)數(shù)、變更次數(shù)隨域名已生存時(shí)間變化的樣本分布情況,結(jié)果表明:隨著域名生存時(shí)間增長,合法域名與惡意域名的IP變更個(gè)數(shù)與次數(shù)都會(huì)增加,但合法域名與惡意域名相比,其IP變更個(gè)數(shù)與次數(shù)的增長要緩慢。
圖2IP變更個(gè)數(shù)隨域名已生存時(shí)間變化的域名分布
圖3IP變更次數(shù)隨域名已生存時(shí)間變化的域名分布
4) 同IP地址域名數(shù)量。同IP地址域名,即與某個(gè)確定的域名共享其解析IP地址的域名。由于同一臺(tái)服務(wù)器可能同時(shí)為多個(gè)域名提供服務(wù),所以會(huì)出現(xiàn)多個(gè)域名共享同一個(gè)IP地址的現(xiàn)象。合法域名其目的是為互聯(lián)網(wǎng)用戶提供網(wǎng)絡(luò)服務(wù),考慮到服務(wù)質(zhì)量問題,同一臺(tái)服務(wù)器一般不會(huì)同時(shí)為大量的域名提供服務(wù),因此,與合法域名同IP地址的域名數(shù)量往往較少。而惡意域名其真正目的是用于攻擊者發(fā)動(dòng)攻擊,并不是為用戶提供服務(wù),為了躲避檢測和封堵,攻擊者往往會(huì)將大量域名注冊(cè)到同一IP地址。統(tǒng)計(jì)2000個(gè)域名樣本同IP域名數(shù)量結(jié)果發(fā)現(xiàn),同IP域名數(shù)量小于50個(gè)的合法域名占域名樣本總數(shù)的79.20%,大于50個(gè)的合法域名僅占 20.80%,而惡意域名同 IP域名數(shù)量大于50個(gè)的為93.37%,小于50個(gè)的僅為6.63%。圖4所示為這2000個(gè)域名樣本的同IP域名數(shù)量分布情況,對(duì)同IP域名數(shù)量大于100個(gè)的統(tǒng)一視為定值100。由圖4可知,絕大多數(shù)惡意域名樣本其同IP域名數(shù)量大于等于100個(gè),幾乎所有合法域名樣本其同 IP域名數(shù)量小于100個(gè)。
圖4同IP地址域名數(shù)量的域名分布
5) 域名 TTL值。域名 TTL是指域名服務(wù)器將域名解析記錄作為緩存保留的最長時(shí)間,以秒為單位。合法域名解析對(duì)應(yīng)IP地址往往在一個(gè)固定的IP池內(nèi),為提供較為穩(wěn)定的服務(wù),TTL值往往設(shè)置較大,通常被設(shè)置為1~5天[14]。惡意域名由于遭到封堵,域名解析對(duì)應(yīng)IP地址經(jīng)常變化,且每次變化往往映射到一個(gè)新的 IP地址,所以其TTL值往往較小。統(tǒng)計(jì)2000個(gè)域名樣本得出,有23%以上的合法域名將其TTL值設(shè)為86400 s即1天,64%以上的合法域名其TTL值設(shè)置大于1000 s,而惡意域名中幾乎有40%其TTL值設(shè)置小于300 s,小于1000 s的更是占總量的75%以上。
通過上述分析可以得出,合法域名與惡意域名在whois信息更新次數(shù)、whois信息完整度、IP變更個(gè)數(shù)及次數(shù)、同IP地址域名數(shù)量、TTL值方面差異明顯,且隨著域名已生存時(shí)間的增長,二者在whois信息更新次數(shù)、IP變更個(gè)數(shù)及次數(shù)方面差異變得更加顯著,具體信息及其變化如表 3所示。
表3各類信息變化趨勢
通過對(duì)合法域名與惡意域名的上述信息隨域名生存時(shí)間變化趨勢的分析,本文將域名 whois信息更新次數(shù)作為一維特征,其余三維特征表示如下。
2.2.1 域名IP變更個(gè)數(shù)與次數(shù)的比值
由 2.1節(jié)的統(tǒng)計(jì)分析表明,隨著域名生存時(shí)間的增長,域名IP變更個(gè)數(shù)與次數(shù)都有所增長,但合法域名 IP變更個(gè)數(shù)相對(duì)固定,惡意域名 IP變更個(gè)數(shù)卻逐漸增長。從這種變化趨勢來看,合法域名 IP變更個(gè)數(shù)與變更次數(shù)之比會(huì)隨域名生存時(shí)間的增長而不斷減小;而惡意域名該比值會(huì)隨域名生存時(shí)間的增長而不斷增大,且該比值將逐漸趨于1。為此,這種變化趨勢使將域名IP變更個(gè)數(shù)與次數(shù)之比作為一維特征更有利于異常域名的檢測。記域名IP變更的個(gè)數(shù)為IPCN,IP變更的次數(shù)為 IPCT,則域名 IP變更個(gè)數(shù)與次數(shù)之比可表示為:
本節(jié)仍用2000個(gè)合法域名與惡意域名作為樣本,圖5顯示了域名IP變更個(gè)數(shù)與次數(shù)之比隨域名生存時(shí)間增長的變化情況,其中,縱軸為特征值。由圖2、圖3和圖5可知,隨著域名生存時(shí)間的增長,使用域名IP變更個(gè)數(shù)與次數(shù)之比的分類效果要遠(yuǎn)好于使用域名 IP變更個(gè)數(shù)和次數(shù)的分類效果,且確實(shí)存在隨生存時(shí)間的增長分類效果越好的趨勢。
圖5IP變更個(gè)數(shù)與次數(shù)比隨域名已生存時(shí)間變化的域名分布
2.2.2 域名同IP域名數(shù)量與其whois信息完整度總和的比值
由2.1節(jié)的分析可知,合法域名為了保證網(wǎng)絡(luò)服務(wù)質(zhì)量,往往不會(huì)與大量的域名共享同一個(gè)IP;而惡意域名會(huì)僅僅為達(dá)到某種單一的目的而出現(xiàn)大量域名共享IP地址的情況,如僵尸網(wǎng)絡(luò)中會(huì)將大量的域名關(guān)聯(lián)到同一個(gè)IP地址。此外,大部分合法域名的whois信息都較為完整,而大量的惡意域名其whois信息完整度都較低。從域名的同IP域名數(shù)量與相應(yīng)的同IP域名whois信息完整度之和的比值來看,如果同IP的域名均為合法域名,該比值較小,而如果同IP的域名均為惡意域名,則該比值往往較大。因此,本文將域名同IP地址域名數(shù)量與其相應(yīng)whois信息完整度總和的比值作為一維特征。下面給出該一維特征的一種具體表示方法并驗(yàn)證其分類效果。
記域名M的第n(1≤n≤N )條whois信息為i(n),其值用v(i(n))表示。如果i(n)在域名M的whois信息中存在,則置v(i(n))為1;否則置v(i(n))為0。
由2.1節(jié)的分析可知,域名whois信息在完整的情況下總條數(shù)約為52條,故取N=52;由表2可知,在大量的合法域名與惡意域名 whois信息中,有 9條信息項(xiàng)是共有的,顯然共有項(xiàng)對(duì)分類的貢獻(xiàn)要小于非共有項(xiàng),故可對(duì)域名 whois信息的每一項(xiàng)加以賦權(quán)。記共有的9條whois信息項(xiàng)構(gòu)成的集合為I,域名的第n條whois信息項(xiàng)i(n)的權(quán)值為W(i(n)),則
其中,a<b。
設(shè)域名的whois信息完整度為WCR,則對(duì)于域名M,其whois信息完整度可表示為
設(shè)與域名M同IP的域名為M1,M2,M3,…, MK,則域名M同IP域名數(shù)量與其whois信息完整度總和的比值可表示為
仍采用上述2000個(gè)域名為樣本,圖6顯示了同IP域名數(shù)量與其whois信息完整度總和的比值的域名分布(實(shí)驗(yàn)中有大量的比值大于0.5,本文將大于0.5的比值統(tǒng)一視為定值0.5)。驗(yàn)證過程中,置式(1)的參數(shù)a=0.1,b=0.9。由圖4和圖6可知,基于式(3)的這維特征能夠更好地區(qū)分合法域名與惡意域名。但由于約6.7%的合法域名與其同IP的域名中存在部分惡意域名,約3.9%的惡意域名與其共享IP的域名中存在大量合法域名,所以導(dǎo)致合法域名與惡意域名基于該特征的特征值出現(xiàn)部分交叉。
圖6同IP域名數(shù)量與其whois信息完整度總和的比值特征的域名分布
2.2.3 基于域名IP變更速率與TTL的二元函數(shù)值
由2.1節(jié)關(guān)于域名IP變更個(gè)數(shù)和變更次數(shù)的分析可知,合法域名IP總是在一個(gè)數(shù)量有限的IP池內(nèi)變更,而惡意域名的IP變更數(shù)量是逐漸增加的,因而就統(tǒng)計(jì)而言,合法域名IP變更速率會(huì)隨域名生存時(shí)間的增長而減小,而惡意域名對(duì)應(yīng)的IP地址經(jīng)常變化,且每次變化幾乎都映射到新的IP地址,因而其 IP變更速率并不具有合法域名那樣明顯的特性。此外,從域名提供服務(wù)的角度而言,合法域名為提供穩(wěn)定的公共服務(wù),便于用戶訪問,其解析記錄在 DNS服務(wù)器中緩存的時(shí)間比較固定,即域名的TTL值設(shè)置固定(統(tǒng)計(jì)上該值設(shè)置一般較大);而惡意域名只是為攻擊者達(dá)到某種惡意的目的,為避免相關(guān)的檢測和封堵,其域名所對(duì)應(yīng)的IP地址需要經(jīng)常變更,這就使域名的解析記錄在 DNS服務(wù)器中的緩存時(shí)間較短,即TTL值設(shè)置往往較小。就合法域名與惡意域名二者的特性而言,域名IP變更的速率與TTL值的設(shè)置會(huì)呈現(xiàn)一定程度的負(fù)相關(guān)性。為此,本節(jié)將用基于域名IP變更速率與TTL值的二元相關(guān)函數(shù)的函數(shù)值作為特征來刻畫這種負(fù)相關(guān)性。
設(shè)域名M已生存時(shí)間為T,則M已生存時(shí)間內(nèi)的IP變更速率IPCR可表示為。其中,IPCN在2.2.1節(jié)中已提到。
設(shè)域名M的TTL值為ttl,域名M的IP變更速率與TTL值的二元相關(guān)函數(shù)記為f(IPCR,ttl),根據(jù)域名IP變更速率與TTL值的關(guān)系,本文將這種二元關(guān)系表示為
隨著生成時(shí)間的增長,合法域名該函數(shù)值將會(huì)減小,而惡意域名該函數(shù)值將增大,通過基于域名IP變更速率與TTL的二元函數(shù)能夠較好地區(qū)分合法域名與惡意域名。部分大型合法網(wǎng)站為了提高網(wǎng)站可用性及服務(wù)質(zhì)量,使用內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN,content delivery network)或輪轉(zhuǎn) DNS(rrDNS,round robin DNS)技術(shù),其域名TTL值設(shè)置可能較小,但生存時(shí)間內(nèi)IP變更速率較小,與惡意域名的IP變更速率依然有較大差異,因此,基于域名IP變更速率與TTL的二元函數(shù)值仍然能夠?qū)⑦@類合法域名與惡意域名區(qū)分開。
仍采用上述2000個(gè)域名為樣本,圖7顯示了基于域名IP變更速率與TTL的二元函數(shù)值為特征的域名分布(部分惡意域名的特征值遠(yuǎn)大于0.1,為便于觀察,實(shí)驗(yàn)中將大于 0.1的特征值統(tǒng)一視為0.1)。從圖7可知,通過域名IP變更的速率與TTL值呈現(xiàn)出的負(fù)相關(guān)性,可以良好地刻畫合法域名與惡意域名之間的差異。
圖7基于域名IP變更速率與TTL的二元函數(shù)值隨域名已生存時(shí)間變化的域名分布
本文提出的異常域名檢測算法的主要思想是通過域名信息網(wǎng)站獲取域名相關(guān)的各類歷史數(shù)據(jù)信息,從中收集合法域名與惡意域名在域名 whois信息更新次數(shù)、whois信息完整度、域名解析對(duì)應(yīng)的IP變更、同IP地址域名數(shù)量、域名的TTL值方面的統(tǒng)計(jì)差異,構(gòu)建域名whois信息更新次數(shù)、域名 IP變更個(gè)數(shù)與次數(shù)之比、同 IP域名數(shù)量與其whois信息完整度總和的比值、基于域名IP變更速率與TTL的二元函數(shù)值這些四維分類特征,如表4所示。
表4特征集合
具體檢測算法如下。
1) 通過篩選后的合法域名與惡意域名構(gòu)造域名樣本集合S。
2) 對(duì)?M∈S,獲取域名M的歷史數(shù)據(jù)Dhistory,對(duì)Dhistory進(jìn)行分析,提取特征構(gòu)造域名M的特征向量FM(F1, F2, F3, F4)。
3) 設(shè)FM∈F,F(xiàn)為所有域名樣本的特征向量構(gòu)成的集合。將特征向量集F分為訓(xùn)練集Ftrain與測試集Ftest,并使用Ftrain訓(xùn)練分類器,得出已訓(xùn)練好的分類器模型(Model)。
4) 使用測試集Ftest對(duì)Model進(jìn)行測試,得出檢測結(jié)果。
為了驗(yàn)證本文所設(shè)計(jì)的惡意域名檢測算法對(duì)生存時(shí)間較長的惡意域名良好的檢測效果,以及與現(xiàn)有一些檢測方法的比較,本文設(shè)計(jì)2組實(shí)驗(yàn),其中,4.1節(jié)為驗(yàn)證性實(shí)驗(yàn),4.2節(jié)為對(duì)比性實(shí)驗(yàn)。
4.1.1 域名樣本來源與構(gòu)造
該組實(shí)驗(yàn)中,合法域名通過網(wǎng)站Domains5注1注1:Domains5. http://www.domains5.cn/。獲取。該網(wǎng)站提供有Alexa排名的域名,并按域名排序列出,從該網(wǎng)站上共獲得合法域名樣本4773個(gè)。
惡意域名主要通過Malwr注2注2:Malwr. https://malwr.com/。注3:McAfee. http://www.siteadvisor.com/sites/。注4:Robtex. https://www.robtex.com/。注5:Domaintools. http://www.domaintools.com/。網(wǎng)站獲取。為了進(jìn)一步確定網(wǎng)站上提供的惡意域名的性質(zhì),通過McAfee注3注2:Malwr. https://malwr.com/。注3:McAfee. http://www.siteadvisor.com/sites/。注4:Robtex. https://www.robtex.com/。注5:Domaintools. http://www.domaintools.com/。對(duì)其進(jìn)行進(jìn)一步的篩選。McAfee網(wǎng)站提供對(duì)域名性質(zhì)的判別,能夠識(shí)別出域名是否與惡意行為相關(guān),并且較為精確。根據(jù)McAfee的驗(yàn)證結(jié)果篩選后,獲得惡意域名樣本2318個(gè)。
4.1.2 特征獲取
對(duì)于獲取到的域名樣本,通過 Robtex注4注2:Malwr. https://malwr.com/。注3:McAfee. http://www.siteadvisor.com/sites/。注4:Robtex. https://www.robtex.com/。注5:Domaintools. http://www.domaintools.com/。、Domaintools注5注2:Malwr. https://malwr.com/。注3:McAfee. http://www.siteadvisor.com/sites/。注4:Robtex. https://www.robtex.com/。注5:Domaintools. http://www.domaintools.com/。網(wǎng)站及whois、nslookup命令獲取用于生成各維特征的域名歷史數(shù)據(jù)信息。通過對(duì)Domaintools網(wǎng)站數(shù)據(jù)統(tǒng)計(jì)獲得域名的創(chuàng)建時(shí)間、域名whois信息更新次數(shù)、域名IP變更個(gè)數(shù)及IP變更次數(shù);通過Robtex網(wǎng)站數(shù)據(jù)統(tǒng)計(jì)獲取與某個(gè)域名樣本具有相同 IP地址的域名及其數(shù)量,并通過whois命令獲取同 IP域名的 whois信息;通過nslookup命令查詢并獲取每個(gè)域名樣本的TTL值。在獲取到各類數(shù)據(jù)信息后,將信息按照本文所述方式進(jìn)行組合進(jìn)而得到各維特征。
4.1.3 實(shí)驗(yàn)及結(jié)果分析
本文檢測算法中所使用的特征與域名的已生存時(shí)間有較大的相關(guān)性,域名已生存時(shí)間越長,分類效果應(yīng)越好。為了驗(yàn)證本文算法的該特點(diǎn),本節(jié)將域名樣本集合按已生存時(shí)間的長短進(jìn)行劃分,構(gòu)建相應(yīng)的訓(xùn)練集和測試集,分類器運(yùn)用SVM分類器。
根據(jù)域名已生存時(shí)間對(duì)樣本集合進(jìn)行劃分。其中,S1表示所有已生存時(shí)間為0~3年的域名樣本集;S2表示所有已生存時(shí)間為3~6年的域名樣本集;S3表示所有已生存時(shí)間為6~9年的域名樣本集;S4表示所有已生存時(shí)間為 9~12年的域名樣本集;S5表示所有已生存時(shí)間為 12年以上的域名樣本集。表示 Sr中的域名構(gòu)成的集合;表示Sr中另外的域名構(gòu)成的集合(r=1, 2, 3, 4)。實(shí)驗(yàn)中用第x年至第y年的樣本構(gòu)成訓(xùn)練集(如x=0,y=3),分別用第x年后的樣本與第y年后的樣本作為測試集,依據(jù)上述樣本劃分,實(shí)驗(yàn)可分為4個(gè)小組。具體實(shí)驗(yàn)數(shù)據(jù)如表5所示。
由于域名樣本的特征向量中分量值出現(xiàn)過大或過小的現(xiàn)象,如whois信息更新次數(shù)相對(duì)于其他3個(gè)分量值較大,而這些奇異分量可能引起訓(xùn)練時(shí)間增加,并可能引起網(wǎng)絡(luò)無法收斂,因此需要對(duì)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行歸一化處理,本節(jié)中將訓(xùn)練集與測試集的特征向量分量均歸一化到[0,1]。實(shí)驗(yàn)結(jié)果如表6所示。其中,分類正確率、漏報(bào)率、虛警率計(jì)算如下,分類正確率:,漏報(bào)率:,虛警率:,其中,X表示測試集中合法域名數(shù)量,Y表示測試集中惡意域名數(shù)量,TT表示被正確分類的合法域名數(shù)量,F(xiàn)F表示被正確分類的惡意域名數(shù)量,F(xiàn)T表示被錯(cuò)誤分類的合法域名數(shù)量,TF表示被錯(cuò)誤分類的惡意域名數(shù)量。
表5訓(xùn)練集、測試集構(gòu)造
表6分類結(jié)果
由表6可知,實(shí)驗(yàn)2、實(shí)驗(yàn)4、實(shí)驗(yàn)6、實(shí)驗(yàn)8中的分類效果要好于實(shí)驗(yàn)1、實(shí)驗(yàn)3、實(shí)驗(yàn)5、實(shí)驗(yàn)7中的分類效果;從實(shí)驗(yàn)1~實(shí)驗(yàn)8,分類正確率不斷提高,漏報(bào)率與虛警率不斷下降。這一結(jié)果驗(yàn)證了本文算法的理論分析與算法特點(diǎn)。此外,分析上述8個(gè)實(shí)驗(yàn)測試集的數(shù)據(jù)可發(fā)現(xiàn)如下4類異常域名樣本。
A類:域名whois信息更新次數(shù)與已生存時(shí)間相關(guān)性不強(qiáng),不足以區(qū)分惡意域名與合法域名,導(dǎo)致不同程度的漏報(bào)與虛警。
B類:惡意域名IP變更個(gè)數(shù)與次數(shù)之比隨域名已生存時(shí)間增加、合法域名IP變更個(gè)數(shù)與次數(shù)之比隨域名已生存時(shí)間減少的規(guī)律不明顯。
C類:同IP的域名中存在合法域名與惡意域名共享IP的現(xiàn)象,導(dǎo)致部分域名樣本出現(xiàn)異常。
D類:隨著域名已生存時(shí)間的增長,合法域名應(yīng)呈現(xiàn)的域名IP變更速率與TTL值負(fù)相關(guān)性不明顯,惡意域名并不存在這種負(fù)相關(guān)性。
表7給出了使用多類測試集對(duì)基于不同訓(xùn)練集所構(gòu)分類器進(jìn)行測試時(shí),分類結(jié)果中出現(xiàn)的各類異常域名樣本及其數(shù)量統(tǒng)計(jì)。
表7測試集惡意、合法樣本中各類異常域名樣本數(shù)量統(tǒng)計(jì)
就表7的統(tǒng)計(jì)結(jié)果而言,異常域名樣本盡管與特征的表示相關(guān),但就統(tǒng)計(jì)趨勢而言,隨著域名已生存時(shí)間的增長,域名樣本集合中引起漏報(bào)及虛警的各類異常域名樣本數(shù)量在不斷下降,因而本檢測算法對(duì)于生存時(shí)間較長的惡意域名檢測更為可靠。
本節(jié)主要介紹本文檢測算法與文獻(xiàn)[11]、文獻(xiàn)[14]檢測方法的對(duì)比。樣本取文獻(xiàn)[11]、文獻(xiàn)[14]中的同源樣本,合法域名樣本為Alexa排名靠前的域名,惡意域名樣本均取自malwaredomains注6注6:http://mirror2.malwaredomains.com/files/justdomains。網(wǎng)站。取2000個(gè)合法域名樣本,從malwaredomains網(wǎng)站取2000個(gè)惡意域名樣本,通過這2類共4000個(gè)域名樣本構(gòu)造測試集,并將測試集按生存時(shí)間如 4.1.3節(jié)所述方式進(jìn)行劃分,得到域名樣本集 S1'~S5'。使用劃分后的測試集對(duì)4.1.3節(jié)中實(shí)驗(yàn)1~實(shí)驗(yàn)8對(duì)應(yīng)訓(xùn)練好的分類器進(jìn)行測試,得出分類結(jié)果。其中,由于文獻(xiàn)[11]、文獻(xiàn)[14]中的檢測方法未對(duì)域名樣本集合按生存時(shí)間劃分,而是對(duì)測試樣本集合總體進(jìn)行的分類,因此,在對(duì)比分類結(jié)果時(shí),將本文檢測算法對(duì)不同生存期的域名樣本集的分類結(jié)果分別與這2種方法對(duì)測試樣本集合總體的分類結(jié)果相比較。表8給出了實(shí)驗(yàn)9~實(shí)驗(yàn)16中具體的測試集合構(gòu)造與相應(yīng)的3種檢測方法的分類正確率。
由表8可以看出,本文檢測算法對(duì)其他來源的惡意域名的檢測效果也較好,并且依然對(duì)生存時(shí)間較長的域名擁有更高的分類正確率。由實(shí)驗(yàn)9~實(shí)驗(yàn)12的分類結(jié)果可以得出,域名生存時(shí)間短時(shí),本文檢測算法的檢測效果不如文獻(xiàn)[11,14]中檢測方法所獲得的檢測效果;由實(shí)驗(yàn)13~實(shí)驗(yàn)16的分類結(jié)果可以得出,隨著域名生存時(shí)間的增長,本文檢測算法的檢測效果與文獻(xiàn)[11]中檢測方法的檢測效果相當(dāng);由實(shí)驗(yàn)15和實(shí)驗(yàn)16的分類結(jié)果可以得出,當(dāng)域名生存時(shí)間更長時(shí),本文檢測算法的檢測效果與文獻(xiàn)[14]中檢測方法的檢測效果相當(dāng)。表6和表8的分類結(jié)果說明相比于其他檢測方法,本文檢測算法對(duì)生存時(shí)間較長的惡意域名的檢測能力較強(qiáng),這也進(jìn)一步驗(yàn)證了本文檢測算法針對(duì)長期生存的惡意域名檢測的優(yōu)勢及可靠性。
表83種檢測方法對(duì)相同來源的域名樣本分類結(jié)果對(duì)比
本文給出了一種對(duì)異常域名進(jìn)行檢測的算法,該檢測算法通過對(duì)各類域名信息網(wǎng)站提供的域名網(wǎng)絡(luò)歷史數(shù)據(jù)的分析,生成特征,利用機(jī)器學(xué)習(xí)進(jìn)而對(duì)可疑域名進(jìn)行檢測。本文算法的主要貢獻(xiàn)是在獲取到域名歷史數(shù)據(jù)的情況下,對(duì)長期活躍在網(wǎng)絡(luò)中的惡意域名具有較為可靠的檢測準(zhǔn)確率,并且隨著域名生存時(shí)間的增長,其檢測效果尤為明顯。算法對(duì)生存時(shí)間較長的可疑惡意域名的發(fā)現(xiàn)能力,為發(fā)現(xiàn)那些尚未檢測到且長期存在的可疑惡意域名提供了一種新的方法,這是本文工作的一個(gè)特色,也是與其他工作的一個(gè)重要不同。此外,本文工作可離線進(jìn)行,不需要通過對(duì)頂級(jí)域名服務(wù)器或者權(quán)威域名服務(wù)器、本地域名服務(wù)器的監(jiān)測獲取 DNS流量等數(shù)據(jù),數(shù)據(jù)獲取容易、計(jì)算量小。
[1]ROSSOW C, DIETRICH C, BOS H. Detection of intrusions and malware, and vulnerability assessment[M]. Berlin: Springer, 2013.
[2]MAHMOUD M, NIR M, MATRAWY A. A survey on botnet architectures, detection and defences[J]. International Journal of Network Security, 2015, 17(3): 272-289.
[3]PU Y, CHEN X, CUI X, et al. Data stolen trojan detection based on network behaviors[J]. Procedia Computer Science, 2013, 17: 828-835.
[4]NIRMAL K, JANET B, KUMAR R. Phishing-the threat that still exists[C]//International Conference on Computing and Communications Technologies(ICCCT). IEEE, 2015: 139-143.
[5]CHEN C M, CHENG S T, CHOU J H. Detection of fast-flux domains[J].Journal of Advances in Computer Networks, 2013, 1(2): 148-152.
[6]VANIA J, MENIYA A, JETHVA H B. A review on botnet and detection technique[J]. International Journal of Computer Trends and Technology, 2013, 4(1): 23-29.
[7]KHATTAK S, RAMAY N R, KHAN K R, et al. A taxonomy of botnet behavior, detection and defense[J]. Communications Surveys amp; Tutorials, IEEE, 2014, 16(2): 898-924.
[8]GARCíA S, UHLí? V, REHAK M. Identifying and modeling botnet Camp;C behaviors[C]//The 1st International Workshop on Agents and CyberSecurity. ACM, 2014.
[9]YADAV S, REDDY A K K, REDDY A L, et al. Detecting algorithmically generated malicious domain names[C]//The 10th ACM SIGCOMM Conference on Internet Measurement. Melbourne, Australia,2010: 48-61.
[10]FELEGYHAZI M, KREIBICH C, PAXSON V. On the potential of proactive domain blacklisting[C]//The 3rd USENIX Conference on Large-Scale Exploits and Emergent Threats: Botnets, Spyware, Worms,and More. San Jose, CA, USA, 2010.
[11]劉愛江, 黃長慧, 胡光俊. 基于改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的木馬控制域名檢測方法[J]. 電信科學(xué), 2014, 30(7): 39-42.LIU A J, HUANG C H, HU G J, Detection method of trojan's control domain based on improved neural network algorithm[J]. Telecommunications Science, 2014, 30(7): 39-42.
[12]ANTONAKAKIS M, PERDISCI R, DAGON D, et al. Building a dynamic reputation system for DNS[C]//USENIX Security Symposium. Washington, DC, USA, 2010: 273-290.
[13]ANTONAKAKIS M, PERDISCI R, LEE W, et al. Detecting malware domains at the upper DNS hierarchy[C]//USENIX Security Symposium. San Francisco, CA, USA, 2011: 23-46.
[14]BILGE L, SEN S, BALZAROTTI D, et al. Exposure: a passive DNS analysis service to detect and report malicious domains[J]. ACM Transactions on Information and System Security (TISSEC), 2014,16(4): 14-41.
[15]周勇林, 由林麟, 張永錚. 基于命名及解析行為特征的異常域名檢測方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(20): 50-52.ZHOU Y L, YOU L L, ZHANG Y Z. Anomaly domain name detection method based on characteristics of name and resolution behavior[J].Computer Engineering and Applications, 2011, 47(20): 50-52.
[16]LENG Y, XU X, QI G. Combining active learning and semi-supervised learning to construct SVM classifier[J]. Knowledge-Based Systems,2013, 44: 121-131.
[17]YU B, SMITH L, THREEFOOT M. Machine learning and data mining in pattern recognition[M]. Berlin: Springer, 2014.
Anomaly domains detection algorithm based on historical data
YUAN Fu-xiang1,2, LIU Fen-lin1,2, LU Bin1,2, GONG Dao-fu1,2
(1. School of Cyberspace Security, PLA Information Engineering University, Zhengzhou 450001, China;2. State Key Laboratory of Mathematical Engineering and Advanced Computing, Zhengzhou 450001, China)
An anomaly domains detection algorithm was proposed based on domains’ historical data. Based on statistical differences in historical data of legitimate domains and malicious domains, the proposed algorithm used domains’ lifetime, changes of whois information, whois information integrity, IP changes, domains that share same IP, TTL value,etc, as main parameters and concrete representations of features for classification were given. And on this basis the proposed algorithm constructed SVM classifier for detecting anomaly domains. Features analysis and experimental results show that the algorithm obtains high detection accuracy to unknown domains, especially suitable for detecting long lived malicious domains.
anomaly domain, domain historical data, feature, detection
s:The National Natural Science Foundation of China (No.61379151, No.61272489, No.61302159, No.61401512),The Excellent Youth Foundation of Henan Province of China (No.144100510001)
TP309
A
10.11959/j.issn.1000-436x.2016208
2015-12-21;
2016-09-12
國家自然科學(xué)基金資助項(xiàng)目(No.61379151, No.61272489, No.61302159, No.61401512);河南省杰出青年基金資助項(xiàng)目(No.144100510001)
袁福祥(1991-),男,山東濟(jì)寧人,解放軍信息工程大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)信息處理。
劉粉林(1964-),男,江蘇溧陽人,解放軍信息工程大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全、信息隱藏與檢測。
蘆斌(1982-),男,山西靈石人,解放軍信息工程大學(xué)講師,主要研究方向?yàn)閿?shù)字水印、軟件工程。
鞏道福(1984-),男,山東淄博人,解放軍信息工程大學(xué)講師,主要研究方向?yàn)閿?shù)字水印、網(wǎng)絡(luò)信息安全。