胡安磊 謝高崗 苑衛(wèi)國 魏金俠 付豪
(*中國科學(xué)院計算技術(shù)研究所 北京 100190)
(**中國互聯(lián)網(wǎng)絡(luò)信息中心 北京 100190)
(***中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 北京 100083)
(****中國科學(xué)院大學(xué) 北京 100049)
域名系統(tǒng)(domain name system,DNS)是互聯(lián)網(wǎng)上關(guān)鍵基礎(chǔ)設(shè)施之一,實現(xiàn)域名和網(wǎng)際互連協(xié)議(internet protocol,IP)地址間的轉(zhuǎn)換。DNS 分為權(quán)威DNS 和遞歸DNS 兩類,其中遞歸DNS 是用戶使用域名解析服務(wù)的入口。準確識別出真實遞歸DNS,對于保障各級權(quán)威域名系統(tǒng)的安全、支撐對遞歸DNS 的深入研究和管理是非常重要的。
對遞歸DNS 進行準確識別需要全局和海量的遞歸查詢行為數(shù)據(jù)支撐,局部網(wǎng)絡(luò)(如運營商網(wǎng)絡(luò)、校園網(wǎng))內(nèi)的數(shù)據(jù)存在覆蓋面不夠的問題。.CN國家頂級域名系統(tǒng)擁有全局視角海量的遞歸查詢行為數(shù)據(jù),海量遞歸查詢中也存在大量非真實和異常遞歸查詢,會直接影響.CN國家頂級域名系統(tǒng)服務(wù)的安全穩(wěn)定,目前尚未基于此類數(shù)據(jù)對遞歸DNS 進行準確的識別研究。因此本文以.CN國家頂級域名系統(tǒng)某服務(wù)節(jié)點連續(xù)一周的解析查詢?nèi)罩緸閿?shù)據(jù)集,對.CN國家頂級域名解析日志進行遞歸查詢行為特征分析和遞歸域名服務(wù)聚類分析,在聚類的基礎(chǔ)上結(jié)合專家經(jīng)驗對遞歸DNS 進行準確的識別,可以支撐對遞歸DNS 進行進一步研究,形成真實遞歸DNS 的清單可用于.CN國家頂級域名系統(tǒng)進行服務(wù)管理和安全防護。
本文的主要貢獻如下。
(1)特征處理方面。提出一種基于遞歸DNS 源IP 的遞歸查詢行為特征選擇方法,利用特征自表示性將關(guān)鍵具有代表性的特征選擇出來,減少冗余特征對模型的影響。
(2)遞歸DNS 識別方面。利用改進的聚類方法對海量遞歸DNS 查詢請求數(shù)據(jù)聚類,首先利用粗聚類方法結(jié)合模型的關(guān)鍵指標和計算時間確定K值,然后針對DNS 查詢行為日志進行聚類,最后通過與專家知識庫的關(guān)聯(lián),識別出各種類型的遞歸DNS。
(3)數(shù)據(jù)來源方面。使用真實的遞歸DNS 到.CN國家頂級域名系統(tǒng)的查詢?nèi)罩咀鳛閿?shù)據(jù)源,選取2021 年12 月某一周的查詢?nèi)罩?包含約4.2 億條查詢記錄。通過實驗分析與人工驗證,本文方法可以將上述數(shù)據(jù)準確地劃分到各個查詢行為類別中。
如圖1 所示,域名服務(wù)體系由2 大類別和4 個環(huán)節(jié)的DNS 組成。第1 類是權(quán)威DNS,包括根DNS、頂級DNS 和其他各級權(quán)威DNS 3 個環(huán)節(jié),負責(zé)維護和保存各級權(quán)威域域名信息,接受遞歸DNS查詢請求;第2 類是遞歸DNS,為終端用戶提供域名查詢服務(wù)。
圖1 域名服務(wù)體系架構(gòu)
頂級DNS 處于整個域名服務(wù)體系的次頂端,目前全球頂級域名數(shù)量已超過1500 個,主要包括國家和地區(qū)頂級域名(如中國.CN,美國.US),通用頂級域(如.COM和.NET)和新通用頂級域(如.TOP和.XYZ),特別是國家頂級域名用于標識特定國家域名空間,是國家主權(quán)在網(wǎng)絡(luò)空間的象征。截止2021 年12 月,我國域名總數(shù)為3593 萬,其中.CN國家頂級域名數(shù)量為2041 萬,占域名總數(shù)的56.8%[1],.CN國家頂級域名系統(tǒng)在我國整個域名服務(wù)體系中處于關(guān)鍵地位。
遞歸DNS 根據(jù)其服務(wù)的開放性可分為開放遞歸DNS 和非開放遞歸DNS;根據(jù)其進行遞歸查詢的目的,可以分為真實的遞歸DNS 和非真實的遞歸DNS。上述幾大類型的遞歸DNS 可根據(jù)其行為特征進行進一步地類型識別。限于數(shù)據(jù)獲取等原因,目前對遞歸DNS 進行類型識別的研究主要通過主動掃描探測的方法對開放遞歸DNS 進行識別,這種方法在遞歸DNS 識別的覆蓋面上存在不足。
遞歸DNS 測量對于域名系統(tǒng)運維與安全保障至關(guān)重要。根據(jù)被動采集遞歸DNS 的查詢響應(yīng)日志,以及從用戶端視角對全球開放數(shù)百萬公共遞歸服務(wù)主動探測,結(jié)合遞歸DNS 查詢行為統(tǒng)計特征分析,發(fā)現(xiàn)遞歸DNS 面臨緩存投毒和拒絕服務(wù)威脅[2-4],存在大量配置問題和安全隱患[5-8],全球范圍內(nèi)公共遞歸DNS 存在嚴重域名解析劫持問題[9-11]。上述研究主要集中在開放遞歸DNS 的探測識別、測量評價、特征統(tǒng)計和行為分析方面,研究分析的遞歸DNS 覆蓋面存在不足。
遞歸DNS 查詢行為與網(wǎng)絡(luò)整體運行狀況和各類網(wǎng)絡(luò)安全攻擊行為緊密聯(lián)系。通過對全球300 萬開放遞歸DNS 的主動探測和惡意響應(yīng)行為研究,可以分析遞歸DNS 對互聯(lián)網(wǎng)絡(luò)安全和穩(wěn)定的影響[12];也可以通過對遞歸域名查詢?nèi)罩镜纳钊氡O(jiān)測和查詢行為分析,開展諸多針對惡意域名[13-15]、僵尸網(wǎng)絡(luò)[16-17]等危害網(wǎng)絡(luò)安全的異常行為研究。上述研究主要集中在通過遞歸DNS 查詢行為分析網(wǎng)絡(luò)中的惡意攻擊行為方面,對網(wǎng)絡(luò)攻擊、惡意行為和遞歸DNS 的關(guān)系研究不足。
針對.CN 國家頂級域名解析日志查詢行為的分析測量有利于了解國內(nèi)用戶互聯(lián)網(wǎng)訪問特征,以及攻擊異常行為及時發(fā)現(xiàn)。.CN 國家頂級域名遞歸DNS 和域名的查詢頻度遵循明顯的冪律分布特征,從整體分布統(tǒng)計特征角度檢測DNS 查詢行為是否異常[18]?;?CN國家頂級域名的遞歸DNS 日志查詢行為的特征提取,可基于K-means 算法進行DNS 查詢模式分析[19]。但上述研究在特征提取過程中,只應(yīng)用到了IP 和域名基于時間維度統(tǒng)計的直接特征,未考慮到不同特征間的聯(lián)系和特征重要性的區(qū)別,對噪聲特征比較敏感,并集中在遞歸DNS的查詢的統(tǒng)計規(guī)律特征分析,未對遞歸DNS 的識別作進一步的研究。
綜上,使用.CN國家頂級域名系統(tǒng)的日志研究遞歸DNS,可覆蓋我國幾乎所有的遞歸查詢行為,全面準確分析遞歸查詢行為并進行真實遞歸DNS的識別研究,有助于支撐.CN國家頂級域名系統(tǒng)的安全保障和對遞歸DNS 的進一步研究。
本文采集2021 年12 月21 日至27 日連續(xù)7 d的.CN國家頂級域名系統(tǒng)某解析節(jié)點連續(xù)一周的查詢?nèi)罩?其日志信息示例見表1,數(shù)據(jù)集全局統(tǒng)計信息見表2。
表1 DNS 查詢請求日志信息示例
表2 數(shù)據(jù)集全局統(tǒng)計信息
其中例1“20211224084916”為查詢時間,表示2021 年12 月24 日08 時49 分16 秒;“220.187.246.34”為客戶端IP 地址;“34585”為客戶端查詢端口號;“www.cnnic.cn”為客戶端查詢域名;“IN”是Resource Class 中最常見的一種,表示Internet(另有少量CS、CH、HS);“A”為資源記錄類型(resource record type),表示所查詢的域名服務(wù)器類型,為IPv4類型,另外還有IPv6 類型“AAAA”、郵件交換地址類型“MX”等;“203.119.28.1”為查詢的目的IP,即DNS 服務(wù)器的公網(wǎng)IP 地址;“cnnic.cn”為客戶端查詢的權(quán)威域名;“cn”為查詢的頂級域名;“alicn”為被查詢解析節(jié)點名稱。
首先根據(jù)對遞歸DNS 查詢?nèi)罩镜馁Y源記錄類型統(tǒng)計,發(fā)現(xiàn)查詢類型一共有42 種,其中查詢次數(shù)超過80 萬的類型有9 個,分別包括A、AAAA、NS、TYPE65(HTTPS)、TXT、DS、CNAME、SOA 和MX,具體分布情況如表3 所示。查詢類型為A、AAAA 和NS 記錄查詢占比超過93%,其他查詢類型包括TYPE65(HTTPS)、TXT、DS、CNAME、SOA 記錄、MX記錄等占比不足7%。
表3 主要域名查詢記錄類型分布
正常的遞歸DNS 查詢量每日隨時間變化具有顯著的周期性,圖2 展示的是選取節(jié)點的.CN頂級域名服務(wù)器在7 d 內(nèi)每日按小時統(tǒng)計的查詢量變化情況。圖中顯示來自遞歸DNS 的查詢在凌晨和上午呈上漲趨勢,分別在凌晨1:30 左右和上午10:30左右達到較高值。其中出現(xiàn)凌晨域名查詢高峰與存在注冊機的域名搶注行為密切相關(guān),在晚上呈上漲趨勢,凌晨2 點左右達到較高值,之后呈下降趨勢并在早上6 點左右開始上升,在上午11 點左右達到較高峰值之后緩慢下降。
圖2 每日查詢量變化趨勢
根據(jù)文獻[18]遞歸DNS 的整體查詢行為在正常網(wǎng)絡(luò)狀況下遵循Zipf’s 分布,在雙對數(shù)坐標圖中呈現(xiàn)明顯的線性特征(負相關(guān)),即遞歸DNS 的查詢請求具有整體集中分布的特點。
本文對遞歸DNS 查詢數(shù)量整體頻次特征分別基于源IP 和域名2 個方面進行實證分析。可以發(fā)現(xiàn),基于源IP 遞歸DNS 查詢量與其頻次分布呈現(xiàn)一種長尾特征,約95%以上的遞歸查詢請求由大約5%的遞歸DNS 發(fā)起,如圖3 所示。另外,基于域名訪問量與其頻次分布也呈現(xiàn)一種長尾特征,約96%的域名查詢請求次數(shù)低于5 次,占總查詢量不足40%,也就是說占比4%的域名所產(chǎn)生查詢量占比總查詢量近60%,如圖4 所示。
圖3 基于源IP 的遞歸DNS 查詢量頻次分布
圖4 基于域名的遞歸DNS 訪問量頻次分布
本文提出的基于自表示特征提取的遞歸DNS行為識別流程如圖5 所示。
圖5 基于自表示特征提取的遞歸DNS 行為識別流程
對于遞歸DNS 查詢行為來說,查詢?nèi)罩局械腎P地址來源分布、單位時間查詢量變化、域名信息熵分布、查詢頻率等因素對遞歸分類結(jié)果影響比較大。同時考慮查詢行為的周期性因素,為了能夠更準確地對遞歸DNS 查詢行為進行分類,將周期作為關(guān)鍵因素考慮進來。因此,綜上本文基于遞歸DNS 的IP地址角度梳理遞歸查詢行為共計9維的直接特征,具體如下所述。
(1)查詢請求總數(shù)x1:統(tǒng)計日志中每個IP 的查詢請求數(shù)量,反映了IP 的活躍程度。(2)每小時最大查詢總次數(shù)x2: 統(tǒng)計每個IP 每個小時內(nèi)的請求查詢次數(shù),并取其中最大值。(3)每小時最大查詢變化率x3:統(tǒng)計每個IP 每個小時內(nèi)的請求查詢次數(shù),并計算每個小時相較于上一小時的變化比率。(4)IP 端口信息熵x4:統(tǒng)計日志中每個IP 的所有端口,并計算信息熵,entropy=-∑p·log(p),其中p是每個端口出現(xiàn)的概率。當DNS 發(fā)生流量異常時,會引起查詢源IP 端口熵值的突變。(5)域名種類x5:統(tǒng)計每個IP 對應(yīng)的域名的種類數(shù),反映提交的域名請求分布情況。(6)域名信息熵x6: 統(tǒng)計日志中每個IP 的所有域名字符串,并計算信息熵。(7)權(quán)威域名信息熵x7:統(tǒng)計日志中每個IP 的所有權(quán)威域名,計算信息熵。(8)頂級域名信息熵x8:統(tǒng)計日志中每個IP 的所有頂級域名,計算信息熵。(9)重復(fù)查詢次數(shù)x9:統(tǒng)計日志中每個IP 所查詢域名出現(xiàn)的平均次數(shù),域名重復(fù)查詢次數(shù)越大說明同一個域名被訪問的平均時間間隔就越小。
本文采用一種基于稀疏表示的無監(jiān)督的特征選擇方法,基于特征之前的自表示性將噪聲特征去掉,留下關(guān)鍵特征?;谔卣髯员硎拘赃M行關(guān)鍵特征選擇的原理是利用稀疏約束項[20]對初始特征進行重新表示,形成特征重表示矩陣,然后通過特征重表示矩陣與初始特征矩陣差異最小化來求解稀疏矩陣的非零列,非零列即為要選擇的關(guān)鍵特征。
稀疏表示目前得到廣泛應(yīng)用,現(xiàn)有分析結(jié)論中已發(fā)現(xiàn)了冗余特征具有自表示性[21]。對于DNS 查詢?nèi)罩緮?shù)據(jù)特征矩陣X,xj為矩陣X的第j行,每一行表示一條日志,行數(shù)表示查詢?nèi)罩緲颖緜€數(shù),xj=(xj1,xj2,…,xj9),j∈[1,M];每一列表示一維特征,初始維度共9 維,每一維特征用xi,i∈[1,9],來表示。
令T為投影矩陣,ti表示矩陣T的第i行,ti=(ti1,ti2,…,tiM),i∈[1,9]。投影矩陣T的列向量可以反映不同特征的重要性。當矩陣T只有列不為0 時,與之對應(yīng)的DNS 查詢?nèi)罩咎卣骶仃嘪只有維特征被選擇,其余特征沒有被選擇。
小兒支氣管肺炎是臨床常見呼吸系統(tǒng)疾病,多發(fā)于秋冬季,常見的發(fā)病因素有細菌感染和病毒感染,小兒支氣管肺炎發(fā)病急驟,發(fā)展迅速,如果不能及時的進行治療就會影響患者身體健康和生命安全[1]。本文通過選取我院2016年8月~2017年9月收治的小兒支氣管肺炎患者120例作為研究對象,分析優(yōu)質(zhì)護理模式對小兒支氣管肺炎療效及肺功能的影響。
DNS 查詢?nèi)罩緮?shù)據(jù)重構(gòu)損失項可以表示為‖X-∑i∈[1,9]ti·X‖。該重構(gòu)損失項的含義是DNS 查詢?nèi)罩緮?shù)據(jù)的每個特征由其他維度的特征進行表示,ti為數(shù)據(jù)特征矩陣X的重構(gòu)系數(shù),描述了第i維特征xi對數(shù)據(jù)整體特征重構(gòu)的貢獻度。如果ti為0 向量,則對應(yīng)的第i維特征xi的貢獻度為0。
為了同時滿足DNS 查詢?nèi)罩局貥?gòu)矩陣T·X與DNS 查詢?nèi)罩咎卣骶仃嘪之間的誤差最小,且投影矩陣T只有k列不為0,則DNS 查詢?nèi)罩局貥?gòu)損失項的約束優(yōu)化問題可以表示為以下形式:
利用交錯方向乘子法將上述優(yōu)化問題變換為拉格朗日函數(shù),并利用迭代優(yōu)化求解變量的方法進行求解,得到值和投影矩陣T。根據(jù)投影矩陣T的個非零列,可以對DNS 查詢?nèi)罩揪仃嘪中的特征進行選擇。
K-means 算法是一種基于距離聚類的方法,將M個DNS 查詢?nèi)罩緮?shù)據(jù)樣本劃分到k個類別中,要求滿足同一個類別中的樣本相似度較高而不同類別中的樣本相似度較低。與其他算法相比,其適用于大規(guī)模數(shù)據(jù)的場景,并且收斂速度比較快,其每個類別均用該類中所有數(shù)據(jù)的平均值來表示,這個平均值即被稱作為聚類中心。并且對于數(shù)值屬性的數(shù)據(jù),能很好地體現(xiàn)出聚類在集合和統(tǒng)計學(xué)上的意義,目前在聚類算法中是被應(yīng)用最廣泛的算法。選取的數(shù)據(jù)是連續(xù)7 d 的.CN國家頂級域名系統(tǒng)某解析節(jié)點連續(xù)一周的查詢?nèi)罩?考慮到其數(shù)據(jù)量大、沒有標簽、大多特征為統(tǒng)計特征等原因,本文選擇用Kmeans 算法來對全量日志進行聚類,實現(xiàn)對大規(guī)模查詢?nèi)罩镜目焖俜纸M。
設(shè)待分類的DNS 查詢?nèi)罩緮?shù)據(jù)集為{x1,x2,…,xM},計劃將這些樣本分為k類(粗聚類確定),步驟如下。
(1)首先針對全量的查詢?nèi)罩緮?shù)據(jù)直接進行粗聚類,即在沒有確定簇值的情況下先對數(shù)據(jù)進行多簇值聚類,然后根據(jù)Inertias 值變化趨勢、計算時間隨簇數(shù)量變化趨勢來綜合分析確定簇值k。
在樣本特征對聚類模型性能的影響方面,本文選擇Inertias 與不同k值情況下的聚類時間綜合選取k,其中Inertias 值是K-means 模型對象的屬性,作為沒有真實分類結(jié)果標簽下的非監(jiān)督式評估指標,表示樣本到最近的聚類中心的距離總和。該值越小越好,越小表示樣本在類間的分布越集中。
針對實驗樣本進行聚類,聚成多個類別,觀察類別數(shù)量與Inertias 值的對應(yīng)關(guān)系變化,結(jié)果如圖6 所示,橫坐標表示聚成的類的數(shù)量,縱坐標表示Inertias 值。實驗結(jié)果顯示,聚類類別k≥20 時,曲線變化率接近平緩,Inertias 值下降不明顯。
圖6 聚類算法Inertias 值變化趨勢圖
本文為了驗證聚成類別數(shù)量對模型性能的影響,做了5 次聚類實驗,結(jié)果如圖7 所示。從圖中的結(jié)果可以看出,聚成的類別越多,模型運算時間越長,整體呈現(xiàn)出階段性的線性增長。第1 個階段聚成的類別數(shù)量小于12 類,運算時間在0.05 s 以內(nèi);第2 個階段聚成的類別數(shù)量小于21 類,運算時間在0.062 s 以內(nèi),同比第1 個階段時間增長率為24%;第3 個階段聚成的類別數(shù)量小于32 類,運算時間在0.08 s 以內(nèi),同比第2 個階段時間增長率為29%;第4 個階段聚成的類別數(shù)量小于50 類,運算時間在0.1 s以內(nèi),同比第3 個階段時間增長率為25%。通過分析可知,隨著聚類數(shù)量的增加,時間增長率最低的是從第1 個階段到第2 個階段,即k≤21 時,聚類時間增長率比較小。因此,綜合考慮先驗知識、隨著聚類數(shù)量變化引起的聚類模型Inertias 值以及聚類時間變化等因素,選取聚類數(shù)量k=20。
圖7 聚類類簇由2 增加到50 計算時間變化趨勢圖
本文實驗選擇了表2 中69 386 個源IP 的查詢?nèi)罩緛眚炞C本文方法的有效性。實驗主要分為2組,分別對具有9 維特征的樣本進行聚類和選擇出重要特征的樣本進行聚類。
(1)第1 組是對樣本直接進行聚類形成20 個簇,經(jīng)過預(yù)處理之后生成初始特征是3.1 節(jié)所梳理的9 維特征。采用K-means 算法對69 386 個IP 特征向量進行聚類,選擇k=20,結(jié)果詳見表4。
表4 初始選定的九維特征聚類結(jié)果
分析表4,針對聚類形成的20 個簇進行歸類合并,形成查詢行為特征相似的遞歸DNS 集合;結(jié)合每個簇內(nèi)遞歸DNS 具體查詢?nèi)罩緝?nèi)容,發(fā)現(xiàn)基于查詢行為,可以將遞歸DNS 識別為公共遞歸DNS、企業(yè)級遞歸DNS、自服務(wù)遞歸DNS、探測遞歸DNS、攻擊遞歸DNS、域名搶注遞歸DNS 等6 類集合,結(jié)果如表5 所示。針對表5 結(jié)果進行集合內(nèi)驗證,結(jié)論如下。
表5 遞歸DNS 識別和查詢行為主要特征分析
1)公共遞歸DNS。查詢行為聚到類4、6、14 中的遞歸DNS 識別為公共遞歸DNS,為大范圍網(wǎng)絡(luò)(如互聯(lián)網(wǎng)、ISP 網(wǎng)絡(luò))內(nèi)的用戶提供遞歸解析服務(wù),屬于真實遞歸DNS。其查詢特征是查詢數(shù)量大(如類4中平均查詢總量超96萬次),查詢具有明顯時間周期性,查詢量變化相對平緩且少尖峰,查詢域名種類多(如類4 中查詢域名種類平均46 萬次)且多數(shù)為有意義域名對象,域名重復(fù)查詢次數(shù)很少(如類6 平均小于3 次),IP 源端口隨機變化,說明查詢域名類別相對豐富,頂級域名信息熵較大存在查詢變化。
2)企業(yè)級遞歸DNS。查詢行為聚到類15 中的遞歸DNS 識別為企業(yè)級遞歸DNS,為一定網(wǎng)絡(luò)范圍(如企業(yè)局域網(wǎng))內(nèi)的用戶或特定應(yīng)用提供遞歸解析服務(wù),屬于真實遞歸DNS。其查詢特征是查詢域名總量不大(如類15 中總共包括3718 個IP 對象,平均查詢量兩千多),每小時查詢變化率不大,所查詢域名種類數(shù)量均不大,域名信息熵都很小,所查詢對象的二級域名基本相同且重復(fù)查詢次數(shù)很大(如類15 平均超過160 次),主要集中在特定域名對象如DNS 委托服務(wù)、證書服務(wù)、軟件升級、游戲網(wǎng)站和組織機構(gòu)等。
3)自服務(wù)遞歸DNS。查詢行為聚類到簇1、2、7、11、18、20 中的遞歸DNS 識別為自服務(wù)遞歸DNS,僅為自身的網(wǎng)絡(luò)應(yīng)用提供遞歸解析服務(wù),屬于真實遞歸DNS。其查詢特征總訪問量不大且比較平均(如類18 中總共包括6536 個IP 對象,平均日查詢量622 次),域查詢種類不大(如類18 平均低于120次),且絕大多為正常訪問的娛樂新聞類等網(wǎng)站域名,IP 端口信息熵較小,域名重復(fù)查詢次數(shù)較小(如類18 平均3 次左右)。
4)探測遞歸DNS。查詢行為聚類到簇5、9、13、19 中的遞歸DNS 識別為探測遞歸DNS,為特定用途(如搜索引擎爬蟲、網(wǎng)絡(luò)監(jiān)控等)提供遞歸解析服務(wù),不屬于真實遞歸DNS。其特征是查詢量很大(如類5 查詢總量超150 萬),基本為定時查詢且無查詢變化率或很小,IP 端口信息熵正常,所查詢域名種類固定(如類9 主要固定探測gov.cn、bj.cn、hk.cn、sc.cn、tw.cn 等各省幾十種二級域名狀態(tài)),探測重復(fù)查詢次數(shù)最大(類5 超13 萬),其權(quán)威域名信息熵和頂級域名信息熵不大。類5(IP:49.7.*.*)也為定時探測,所探測目的域名主要是固定域名解析狀態(tài)等互聯(lián)網(wǎng)基礎(chǔ)服務(wù)(如*.tv.ctdns.cn),類19(IP:10.10.*.*)為定時探測某些重點域名解析狀態(tài)是否正確(如cnnic.cn 和95538.cn等)。
5)攻擊遞歸DNS。查詢行為聚類到簇10 中的遞歸DNS 識別為攻擊遞歸DNS,其為某些網(wǎng)絡(luò)攻擊提供遞歸查詢服務(wù)或直接發(fā)起針對權(quán)威DNS 的攻擊,不屬于真實遞歸DNS。其查詢特征是查詢量短時間集中且查詢量非常大(如類10 中總共包括4 個IP 對象,域名查詢總量超500 萬,每小時超50 萬),域名查詢種類非常大(如類10 中域名種類總量也超500 萬),且絕大多為具有典型DGA 特征域名。
6)域名搶注遞歸DNS。查詢行為聚類到簇3、8、12、16、17 中的遞歸DNS 識別為域名搶注遞歸DNS,為域名行業(yè)中掉線域名搶注這一特定行為提供遞歸解析服務(wù),不屬于真實遞歸DNS。其查詢特征域名查詢訪問時間周期性明顯,域名查詢總訪問量很大且隨時間變化很大(如類3 總量超300 萬,每小時最大變化率近13 萬),域名查詢種類非常大(如類3 超280 萬次),絕大多為個有意義網(wǎng)站域名,且查詢NS 記錄比例很高,域名信息熵和權(quán)威域名信息熵很高,域名重復(fù)查詢次數(shù)很小。
(2)對于遞歸DNS 查詢?nèi)罩緛碚f,國家頂級域名系統(tǒng)每天產(chǎn)生的日志量達到百億級別,直接對全維度的日志進行分析,處理過程比較復(fù)雜,分類模型的運算時間將直接影響該方法在國家頂級域名系統(tǒng)查詢?nèi)罩镜膶嶋H應(yīng)用。為提高模型的聚類性能,第2 組實驗主要是給出從3.1 節(jié)梳理的9 維特征中選取關(guān)鍵特征的相關(guān)結(jié)果。
表6 給出了利用無監(jiān)督特征選擇方法從初始9維特征中依次選擇2、…、8 特征的結(jié)果,其中表格中行表示特征初始維度,列表示被選擇的特征對應(yīng)的維度。
表6 選擇不同維度特征結(jié)果
表7 不同維度特征聚類結(jié)果
從表6 和7 的綜合結(jié)果可以看出,選擇出5 維特征時模型的整體效果比較好,與全維度特征聚類結(jié)果相近,且運算時間也具有顯著優(yōu)勢。具體選擇出來的5 維特征包括查詢請求總數(shù)、端口信息熵、域名信息熵、權(quán)威域名與頂級域名信息熵。其中查詢總數(shù)反映了IP 的活躍程度,正常源IP 的網(wǎng)絡(luò)行為通常不會有過高的DNS 請求;端口信息熵當DNS發(fā)生流量異常時,必定會引起查詢源IP 端口熵值的突變;域名信息熵反映查詢域名的分散或集中程度,當DNS 發(fā)生流量異常時,必定會引起查詢域名熵值的突變;權(quán)威域名信息熵與頂級域名信息熵與域名信息熵意義類似。
本文從.CN國家頂級域名系統(tǒng)面對的實際問題和實際需求出發(fā),基于真實數(shù)據(jù)設(shè)計了一種遞歸DNS 行為特征提取和識別方法。首先通過最小化特征的重構(gòu)誤差選擇出遞歸DNS 查詢?nèi)罩局芯哂写硇缘闹匾卣?然后利用粗聚類方法確定聚類簇的數(shù)量;最后基于遞歸DNS 的查詢?nèi)罩就ㄟ^聚類的方式全面準確識別出公共遞歸DNS、企業(yè)級遞歸DNS、自服務(wù)遞歸DNS 等真實遞歸DNS,以及探測遞歸DNS、攻擊遞歸DNS、域名搶注遞歸DNS 等非真實遞歸DNS。該研究結(jié)果可形成完整準確的真實遞歸DNS 清單,可支撐.CN國家頂級域名系統(tǒng)的服務(wù)管理和安全防護,也可支撐對遞歸DNS 的進一步深入研究。