崔嘉
摘 要: 隨著信息技術(shù)的發(fā)展,對等網(wǎng)絡(luò)P2P信息流量經(jīng)常出現(xiàn)偏離正常范圍的異常情況,這里以決策樹算法為基礎(chǔ),對P2P流量檢測和流量異常時的檢測技術(shù)進(jìn)行研究。采用改進(jìn)的C4.5決策樹P2P流量檢測模型,通過P2P流量異常檢測模型對大量訓(xùn)練數(shù)據(jù)集的訓(xùn)練,實現(xiàn)了對錯誤的逐步修正,通過試驗室仿真試驗可知,經(jīng)過選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實現(xiàn)較好的分類效果,分類檢測率在94.6%~96.7%,較高的檢測率說明采用改進(jìn)的C4.5決策樹算法能有效地對P2P流量進(jìn)行檢測,為研究P2P流量異常檢測技術(shù)提供了參考。
關(guān)鍵詞: P2P; 流量信息; 結(jié)構(gòu)異常; 決策樹; 檢測技術(shù)
中圖分類號: TN711?34; TP393 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)09?0093?03
Abstract: With the development of information technology, the peer?to?peer (P2P) network information traffic often deviates from the normal range. The detection technology for P2P traffic detection and abnormal traffic is studied on the basis of the decision tree algorithm. The P2P traffic detection model based on improved C4.5 decision tree is used to train the massive training datasets by means of the P2P anomaly traffic detection model to modify the error gradually. The simulation test in laboratory was performed. The P2P network traffic classifier based on improved C4.5 decision tree has perfect classification effect after selecting the characteristics of the network traffic. The classification detection rate is 94.6%~96.7%, which shows that the improved C4.5 decision tree algorithm can detect the P2P traffic effectively, and provide the reference for studying the P2P anomaly traffic detection technology in future.
Keywords: P2P; traffic information; abnormal structure; decision tree; detection technology
0 引 言
目前,隨著信息技術(shù)的發(fā)展,對等網(wǎng)絡(luò)(P2P)信息流量增長越來越快[1?3]。根據(jù)國內(nèi)互聯(lián)網(wǎng)流量模式報告顯示,在整個互聯(lián)網(wǎng)流量中,P2P流量占到70%左右[4]。近年來,經(jīng)常出現(xiàn)網(wǎng)絡(luò)流量偏離正常范圍的異常情況,導(dǎo)致流量出現(xiàn)異常主要是由惡意網(wǎng)絡(luò)攻擊造成的,如DOS攻擊、蠕蟲傳播、僵尸網(wǎng)絡(luò)等攻擊,同時由于網(wǎng)絡(luò)偶發(fā)性線路中斷、配置失誤也會引起流量的異常,這就會造成網(wǎng)絡(luò)服務(wù)質(zhì)量下降,嚴(yán)重時會直接導(dǎo)致網(wǎng)絡(luò)癱瘓[5]。
P2P大量占用互聯(lián)網(wǎng)帶寬,影響用戶上網(wǎng)正常運行,檢測管控P2P流量是網(wǎng)絡(luò)管理難題[6]。因而在大規(guī)模網(wǎng)絡(luò)環(huán)境中,對網(wǎng)絡(luò)異常進(jìn)行檢測,同時對網(wǎng)絡(luò)異常提供預(yù)警信息,對維護(hù)網(wǎng)絡(luò)正常運行意義十分重大[7]。本文以決策樹算法為基礎(chǔ),對P2P流量檢測和流量異常時的檢測技術(shù)進(jìn)行研究。
1 對等網(wǎng)絡(luò)P2P概況
對等網(wǎng)絡(luò)P2P實質(zhì)上屬于分布式網(wǎng)絡(luò),參與者均可共享使用公共部分的一些硬件資源,如硬件處理和存儲能力,共享資源的服務(wù)、內(nèi)容由網(wǎng)絡(luò)提供,節(jié)點可對這些資源進(jìn)行直接訪問,不需要經(jīng)過任何中間實體。P2P最具有代表性的應(yīng)用是進(jìn)行文件共享,同時P2P的共享還有P2P計算、P2P形式的通信網(wǎng)絡(luò)等。P2P與客戶/服務(wù)器模型的區(qū)別是網(wǎng)絡(luò)中節(jié)點可對其他節(jié)點資源或服務(wù)進(jìn)行獲取,還可提供資源或服務(wù),這是P2P的基本思想。在P2P網(wǎng)絡(luò)中,每個節(jié)點具有對等的權(quán)利、義務(wù)、服務(wù)、通信、資源消費。
2 P2P流量監(jiān)控系統(tǒng)結(jié)構(gòu)
P2P流量監(jiān)控系統(tǒng)功能包括檢測網(wǎng)絡(luò)流量、控制網(wǎng)絡(luò)流量兩部分。對網(wǎng)絡(luò)流量進(jìn)行控制的前提是準(zhǔn)確檢測網(wǎng)絡(luò)流量。在進(jìn)行流量檢測時,流量特征和協(xié)議特征要進(jìn)行相互匹配,在未知流量匹配上以后,對其分類才能進(jìn)行識別,P2P流量檢測中必須具有協(xié)議特征庫的建立。同時,進(jìn)行流量控制操作必須具備前臺管理界面,以便進(jìn)行人機(jī)交互、流量控制策略的下發(fā)、流量識別結(jié)果的觀察等,并在數(shù)據(jù)庫中存儲檢測結(jié)果、控制策略信息、協(xié)議特征等,P2P流量監(jiān)控系統(tǒng)整體結(jié)構(gòu)如圖1所示。
P2P流量監(jiān)控系統(tǒng)工作流程:首先對網(wǎng)絡(luò)應(yīng)用流量數(shù)據(jù)進(jìn)行全面采集,其次是建立協(xié)議特征庫,對數(shù)據(jù)報文進(jìn)行離線分析,同時提取其特征碼,并建立協(xié)議特征庫。然后檢測網(wǎng)絡(luò)流量,對經(jīng)過流量監(jiān)控系統(tǒng)的未知流量,通過匹配算法將未知流量特征與協(xié)議規(guī)則相匹配,如匹配成功,則作為該協(xié)議識別給流量。最后對已識別流量進(jìn)行控制操作,完成阻斷訪問、限制流量速率。
3 基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識別算法
基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識別算法需要訓(xùn)練數(shù)據(jù),訓(xùn)練主要有兩步:訓(xùn)練進(jìn)行集中學(xué)習(xí),然后進(jìn)行構(gòu)造分類模型的測試;采用訓(xùn)練階段模型進(jìn)行未知數(shù)據(jù)的分類,計算識別準(zhǔn)確率,令訓(xùn)練集為:
式中:表示輸出類值。
在訓(xùn)練集中,找出輸入和輸出間的關(guān)系函數(shù),這就是分類的目的,通過函數(shù),輸入可輸出得到基于監(jiān)督的機(jī)器學(xué)習(xí)P2P流量識別分類器如圖2所示。
監(jiān)督學(xué)習(xí)是訓(xùn)練決策樹最常見的技術(shù)之一。這種決策樹技術(shù)對事先確定分類系統(tǒng)給出的信息高度依賴。對于決策樹來說,可通過分類系統(tǒng)辨別哪類屬性提供的信息最多,可用決策樹解決分類系統(tǒng)問題。
4 算法設(shè)計
4.1 C4.5多決策樹分類算法
經(jīng)過數(shù)據(jù)預(yù)處理模塊,訓(xùn)練數(shù)據(jù)集生成決策樹可處理屬性的二維表形式。設(shè)訓(xùn)練數(shù)據(jù)集全部屬性集合為。整個屬性集PE,分成個小屬性集,每個小屬性集各自獨立。屬性所有不同取值集合為。生成的棵決策樹為,數(shù)據(jù)分類為。表示數(shù)據(jù)集合,集合中第條記錄用表示。表示訓(xùn)練數(shù)據(jù)及測試數(shù)據(jù),第條記錄用表示。系統(tǒng)分辨矩陣用對角矩陣表示,每項定義如下:
4.2 P2P流量異常檢測
P2P流量異常檢測的實質(zhì)是通過訓(xùn)練大量數(shù)據(jù),逐步對錯誤進(jìn)行修正,形成精確預(yù)測模型。決策樹建立完后進(jìn)行數(shù)據(jù)集訓(xùn)練。訓(xùn)練數(shù)據(jù)集為TA,保存經(jīng)過某節(jié)點P2P類訓(xùn)練數(shù)據(jù)的數(shù)量為;保存經(jīng)過該節(jié)點類訓(xùn)練數(shù)據(jù)的數(shù)量為。
4.3 P2P屬性關(guān)鍵度決策樹分類算法
決策樹生成后,經(jīng)訓(xùn)練后,形成檢測模型,原始TCP/IP數(shù)據(jù)包被從網(wǎng)絡(luò)上截獲,經(jīng)過數(shù)據(jù)預(yù)處理后,TCP/IP數(shù)據(jù)由每棵子決策樹對其進(jìn)行判斷,對判斷結(jié)果進(jìn)行加權(quán)處理,得到最優(yōu)結(jié)果。第棵子決策樹用表示,存儲內(nèi)部節(jié)點數(shù)據(jù)訓(xùn)練的P2P類統(tǒng)計數(shù),存儲內(nèi)部節(jié)點數(shù)據(jù)訓(xùn)練的類統(tǒng)計數(shù),第棵子決策樹比率用表示,數(shù)據(jù)包在整個屬性集的比率用表示,關(guān)鍵度多決策樹分類算法流程圖如圖3所示。
根據(jù)屬性差異,可建立棵子決策樹,綜合考慮全部子決策樹屬性對分類的影響,能對整個問題進(jìn)行較好地反映,可使誤報率降低,檢測率提高。
5 仿真實驗
本文的實驗數(shù)據(jù)通過試驗室仿真試驗得到,仿真試驗采用的軟件為Sniffer,在實驗室PC(CPU為Athlon64 X2;雙核處理器4000+2.11 GHz;內(nèi)存2 GB)對網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行實時采集。在訓(xùn)練分類器實驗中,采用定時定量的P2P流量Data1,Data1數(shù)據(jù)量較小,實驗數(shù)據(jù)集見表1。
在測試分類器實驗中,采用Data2~Data5對虛警率、漏警率進(jìn)行嚴(yán)格測試,實驗數(shù)據(jù)集見表2。
由表2可以看出,選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實現(xiàn)較好的分類效果,分類檢測率在94.6%~96.7%。
6 結(jié) 語
本文以決策樹算法為基礎(chǔ),對P2P流量檢測和流量異常時的檢測技術(shù)進(jìn)行研究。通過試驗室仿真試驗,選擇網(wǎng)絡(luò)流量特征后,基于改進(jìn)的C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器能實現(xiàn)較好的分類效果,分類檢測率在94.6%~96.7%,較高的檢測率說明采用改進(jìn)的C4.5決策樹算法能有效地對P2P流量進(jìn)行檢測,為今后研究P2P流量異常檢測技術(shù)提供了參考。
參考文獻(xiàn)
[1] 柴琦,曹旭東,王洪蕾,等.P2P流量監(jiān)測系統(tǒng)的設(shè)計[J].電子設(shè)計工程,2016,24(11):64?67.
[2] 謝生鋒.基于數(shù)據(jù)挖掘的P2P流量檢測技術(shù)研究[J].計算機(jī)與網(wǎng)絡(luò),2015(13):71?73.
[3] 閆佳,應(yīng)凌云,劉海峰,等.結(jié)構(gòu)化對等網(wǎng)測量方法研究[J].軟件學(xué)報,2014,25(6):1301?1315.
[4] 王菁菁,林琛,陳珂,等.基于MapReduce的Flash P2P VoD系統(tǒng)異常監(jiān)測[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2013,52(4):459?465.
[5] 李建.基于流量的P2P僵尸網(wǎng)絡(luò)檢測[J].計算機(jī)時代,2016(5):45?48.
[6] 馬麗娜.基于機(jī)器學(xué)習(xí)的GTalk流量識別系統(tǒng)的設(shè)計與實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[7] 譚紅春,楊松濤,闞紅星.校園網(wǎng)P2P流量綜合檢測技術(shù)研究[J].長沙大學(xué)學(xué)報,2015,29(2):70?72.