劉慕嫻 陳文迪 劉桂華
摘 ? 要:網(wǎng)絡(luò)流量異常檢測作為一種有效的網(wǎng)絡(luò)防護手段,能夠檢測未知攻擊行為。為了更高效地檢測出流量異常,文章提出一種基于K-means算法的網(wǎng)絡(luò)流量異常檢測模型。該方法首先將網(wǎng)絡(luò)流量特征屬性量化為熵值進行分類,然后將K-means聚類分析算法運用在網(wǎng)絡(luò)流量異常檢測中,提高了檢測準確率,從而實現(xiàn)安全監(jiān)測預(yù)警。該模型與傳統(tǒng)的一些網(wǎng)絡(luò)流量異常檢測模型相比,具有更高的準確率。
關(guān)鍵詞:流量異常檢測;K-means算法;流量特征
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)不斷擴大,網(wǎng)絡(luò)威脅問題也越來越突出。各種異常事件與正常的業(yè)務(wù)流量混合在一起,特別是一些僵尸網(wǎng)絡(luò)、木馬病毒、拒絕服務(wù)、跨站腳本攻擊/跨站請求偽造(Cross Site Scripting/Cross-Site Request Forgery,XSS/CSRF)和其他攻擊[1]。為了有效識別和定位網(wǎng)絡(luò)流量異常情況,發(fā)現(xiàn)潛在的攻擊行為,保證網(wǎng)絡(luò)應(yīng)用的安全運行,異常流量檢測技術(shù)正面臨嚴峻挑戰(zhàn)。
傳統(tǒng)的網(wǎng)絡(luò)流量分類方法主要分為4種類型:基于端口的方法[2-3]、基于深度報文檢測(Deep Packet Inspection,DPI)的方法[4]、基于統(tǒng)計的方法[5]和基于行為的方法[6-7]。其中,基于端口的方法準確度比較低,基于DPI的方法不能處理加密的流量并且復(fù)雜度比較高,因此,目前研究較多的是基于統(tǒng)計和基于行為的方法,也有部分研究嘗試采用一些大數(shù)據(jù)分析方法[8-9]。隨著網(wǎng)絡(luò)應(yīng)用的逐漸增加,網(wǎng)絡(luò)流量特征的整體復(fù)雜性不斷增加,數(shù)據(jù)采集與數(shù)據(jù)分析之間的主觀判斷差異使得網(wǎng)絡(luò)異常流量檢測的準確性仍有待提高。本文提出一種基于K-means算法的網(wǎng)絡(luò)流量異常檢測模型,它將網(wǎng)絡(luò)流量特征屬性量化為熵值進行分類,然后將K-means聚類分析算法運用在網(wǎng)絡(luò)流量異常檢測,對異常流量進行聚類,從而提升檢測準確度。
1 ? ?基于K-means算法的網(wǎng)絡(luò)流量異常檢測模型
本模型按功能可分成數(shù)據(jù)預(yù)處理、訓(xùn)練與檢測3個模塊(見圖1)。數(shù)據(jù)預(yù)處理模塊首先獲取網(wǎng)絡(luò)數(shù)據(jù)包,然后分析協(xié)議和提取信息,得到原始網(wǎng)絡(luò)流量數(shù)據(jù)的基本特征信息。同時,對原始網(wǎng)絡(luò)流量數(shù)據(jù)進行預(yù)處理,得到可輸入模型的訓(xùn)練數(shù)據(jù)和能夠進行入侵檢測的實時數(shù)據(jù),其中,主要內(nèi)容是對流量信息熵的量化。訓(xùn)練模塊主要是使用K-means算法對訓(xùn)練數(shù)據(jù)進行訓(xùn)練,得到可以進行網(wǎng)絡(luò)流量異常檢測的模型。最后,在檢測模塊中,筆者用訓(xùn)練好的入侵檢測模型接收來自采集處理模塊的實時數(shù)據(jù)作為輸入,檢測出實時數(shù)據(jù)中的異常流量,與實際異常流量數(shù)據(jù)相比較是否正確。
1.1 ?流量信息熵量化
步驟7,檢查所有簇中是否含有僅包含新增簇中心點的孤立簇,如果有,則刪除該簇的中心點集和未標記樣本,k=k﹣1,并重復(fù)步驟2—6;如果沒有,則使用步驟6將確定的新k值和k個初始聚類中心點用作初始輸入,并且連續(xù)地執(zhí)行再分配。更新組中對象的平均值以更新聚類中心,直到聚類中心收斂,并獲得整個樣本集的k個分區(qū)。
2 ? ?實驗結(jié)果分析
為了評估網(wǎng)絡(luò)流量異常檢測模型,本文選擇使用3個常用的評估指標:檢測率、誤報率和未知攻擊檢測率,來對模型進行評估。其中,檢測率是指網(wǎng)絡(luò)流量異常檢測模型對異常流量的識別能力,誤報率是指網(wǎng)絡(luò)流量異常檢測模型針對正常樣本的建模能力,未知攻擊檢測率體現(xiàn)出網(wǎng)絡(luò)流量異常檢測模型對于未知攻擊的檢測能力,這3個指標的具體計算公式如下:
本文將采用KDD CUP 99數(shù)據(jù)集來對幾個網(wǎng)絡(luò)流量異常檢測模型去做相關(guān)訓(xùn)練和測試。該數(shù)據(jù)集中異常流量類型一般可以4類,分別為U2R,Probe,Dos與R2L。其中U2R指的是未授權(quán)的本地超級用戶特權(quán)訪問,Probe一般為平常所見的IP或端口掃描攻擊,拒絕服務(wù)攻擊(Denial of Service,DoS),R2L是遠程主機的未授權(quán)訪問,所以能夠全面地體現(xiàn)檢測模型的效率。
本文將與兩個傳統(tǒng)的流量異常檢測模型進行比較,一個是基于云模型,另一個是基于流量分析,前者主要是統(tǒng)計分析,后者主要是主成分分析,試驗比較結(jié)果如表1所示??梢钥闯?,本文模型在檢測率、誤報率和位置攻擊檢測率上都優(yōu)于傳統(tǒng)的流量異常檢測模型。
3 ? ?總結(jié)
本文提出的基于K-means算法的網(wǎng)絡(luò)流量異常檢測模型,首先將采集到的網(wǎng)絡(luò)流量特征屬性量化為熵值,方便后續(xù)的分類,然后再利用K-means算法對異常流量進行聚類分析,訓(xùn)練出檢測模型,該模型在檢測率、誤報率和位置攻擊檢測率上都優(yōu)于傳統(tǒng)的流量異常檢測模型。
[參考文獻]
[1]張月敏.探究計算機網(wǎng)絡(luò)流量異常的檢測和預(yù)測[J].技術(shù)與市場,2019(6):201.
[2]宋小芹.對等覆蓋網(wǎng)絡(luò)傳輸層異常流量模糊識別仿真[J].計算機仿真,2019(6):408-411.
[3]張嘉譽,章堅民,楊才明,等.基于信息物理融合的智能變電站過程層網(wǎng)絡(luò)異常流量檢測[J].電力系統(tǒng)自動化,2019(14):173-184.
[4]王浩東,成實,張銳,等.基于深度數(shù)據(jù)包檢測(DPI)及R平方值的數(shù)據(jù)承載網(wǎng)規(guī)劃方法的研究[J].信息通信,2019(5):182-184.
[5]費金龍,王禹,王天鵬,等.基于云模型的網(wǎng)絡(luò)異常流量檢測[J].計算機工程,2017(1):178-182.
[6]單玉潔,殷旭東,張書啟.基于流量分析的網(wǎng)絡(luò)安全檢測研究[J].信息與電腦(理論版),2018(6):205-207.
[7]徐久強,周洋洋,王進法,等.基于流時間影響域的網(wǎng)絡(luò)流量異常檢測[J].東北大學(xué)學(xué)報(自然科學(xué)版),2019(1):26-31.
[8]李寧.基于大數(shù)據(jù)的互聯(lián)網(wǎng)異常流量檢測研究[J].成都工業(yè)學(xué)院學(xué)報,2018(4):34-38.
[9]蒲曉川.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測研究[J].現(xiàn)代電子技術(shù),2018(3):84-87.