張蕓
(濱州技術學院, 濱州 256603)
對網(wǎng)絡通信異常行為識別方法的相異度分析
張蕓
(濱州技術學院, 濱州 256603)
為了對網(wǎng)絡通信異常行為進行有效地識別,提出了一種基于相異度分析的識別方法,以該方法的數(shù)據(jù)基礎為Netflow網(wǎng)管數(shù)據(jù),并對具體的實現(xiàn)步驟進行了設計。通過實驗分析,證明了采用該識別方法能夠對網(wǎng)絡中通信行為異常、突發(fā)流量異常以及異常網(wǎng)絡攻擊等表征現(xiàn)象進行實時監(jiān)測,并且取得了良好的效果,使網(wǎng)絡運營單位的服務質量和網(wǎng)絡安全支撐服務能力取得了有效的提高。
相異度分析; 網(wǎng)絡通信異常; 識別
現(xiàn)階段,網(wǎng)絡安全技術已經(jīng)取得了突飛猛進的發(fā)展,產(chǎn)生了一系列的安全措施,比如入侵防御系統(tǒng)、入侵檢測系統(tǒng)、防火墻等,然而網(wǎng)路防范和網(wǎng)路攻擊是共同發(fā)展的。在網(wǎng)絡安全事件發(fā)生之前,怎樣才能夠快速地、及時地發(fā)現(xiàn)網(wǎng)絡異常行為,已然成為了目前一個重要的研究課題[1]?;诖耍疚奶岢隽嘶谙喈惗确治龇椒ǖ木W(wǎng)絡通信異常行為識別法,下面本文進行進一步分析。
1.1 基于地址的網(wǎng)絡通信行為的空間分析
1.1.1 地址相異度分析方法
NetFlow實際上就是一套網(wǎng)絡流量統(tǒng)計協(xié)議,路由器通過服務種類、協(xié)議類型、目的端口號、目的IP地址、源端口號、源IP地址和路由器輸入界面等這些控制信息來對NetFlow流進行區(qū)分[2-3]。當路由器無論何時接收到新的數(shù)據(jù)包的時候,路由器就對數(shù)據(jù)流中的這些控制信息進行檢查,對此數(shù)據(jù)包是否已經(jīng)是任何已經(jīng)記錄的NetFlow流進行判斷,如果不存在,那么將產(chǎn)生一條新的記錄;而在存在的情況下,那么將新收集的數(shù)據(jù)包相關信息整合到相應的NetFlow流的記錄當中去。
根據(jù)IPv4地址格式將網(wǎng)絡通信中的兩個地址進行劃分,分析地址的相異度,同時,以四元組的形式進行表達,兩個地址之間的實際差異并通過各個屬性值的差異進行比對[4]。因為IP地址屬于點十分制格式,并且每個隔點之間存在著差異,這就意味著地址類別是不同的,此外,高位數(shù)值的差異意味著網(wǎng)絡范圍的顯著差異,故而,我們可以抽象描述地址的相異度,同時展開量化分析[5-6]。
1.1.2 基于地址的平均相異度分析
地址相異度的提出,為下一步進行質心分析提供了理論依據(jù)。如果,在某一時間片Δt內,一個網(wǎng)絡節(jié)點a同時和n各目的地址存在網(wǎng)絡通信行為,那么我們可以將目的地址的集合記為B,然后,通過相關計算公式,就得到了節(jié)點a和集合B的n個元素之間地址相異度,此時,我們可以再將相異度標記為一個新的集合C,那么,我們就能夠通過計算,得到節(jié)點a到所有n個目的地址的平均相異度[7-8]。
1.2 基于地址的網(wǎng)絡通信行為的時間分析
為了對相異度之間差異的表征進行計算,然后,提出了偏移方差σ,主要指的是某一時間間隔Δti內,節(jié)點a和該時間間隔內全部目的地址的平均相異度與整個時間系列T下的平均相異度之間的差距。
擴展的Netflow數(shù)據(jù)采集系統(tǒng)的總體架構如圖1所示。
圖1 系統(tǒng)整體架構
該系統(tǒng)主要包含數(shù)據(jù)收集器和采集代理兩部分。本文采用Netflow數(shù)據(jù)作為訓練集的數(shù)據(jù)來源,創(chuàng)建合理的訓練集,然后通過協(xié)議生成法來進行構造。所謂的協(xié)議生成法指的是通過程序對各個協(xié)議的通訊模式進行模擬,并利用流量記錄的方式,將制定行為的網(wǎng)絡流量特征保存下來,這樣一來就構建了已知的不同類別網(wǎng)絡行為的訓練集合,在一定程度上以此種訓練集能夠有效地降低誤報率。通過協(xié)議生成法對網(wǎng)絡通訊進行模擬后,將由路由器生成的有關netflow數(shù)據(jù)收集起來,這樣一來就實現(xiàn)了訓練集的構造。具體步驟如下所示:
(1) 對訓練集數(shù)據(jù)中的時間信息和地址信息進行提取和預處理。
(2) 將相關數(shù)據(jù)信息導入數(shù)據(jù)庫,同時按照相關算法計算有關導出屬性。
(3) 選擇一個科學合理的時間長度,并對各個源IP地址所對應的各類數(shù)學參數(shù)的值進行計算。
(4) 將全部時間長度的數(shù)學參數(shù)進行計算,并計算偏移方差的值。
(5) 建立各個源IP地址的基本對照集,同時供驗證使用。
(6) 選取某一時間間隔的網(wǎng)絡數(shù)據(jù),分別代入模型,驗證結果。
本文選取的實驗數(shù)據(jù)為某個時間區(qū)間一臺網(wǎng)站服務器的NetFlow數(shù)據(jù),并對該時間區(qū)間內的主機NetFlow數(shù)據(jù)在1h內的訪問信息進行了解,在這個時間段內IP地址通信對的IP地址和主機連接次數(shù)構成信息。通過利用本文所提出的基于地址和時間相異度分析法,來比較和分析該網(wǎng)站的訪問情況。通過實驗我們得出了某主機近十天內10-11點之間的地址差異度距離對照值,如表1所示。
表1 主機近十天內10-11點之間的地址差異距離對照值
通過計算進而就得到了該主機的地地址相異距離平均值,如表2所示:
由表1、表2 分析,我們得到某主機在某時刻內地址差異分析圖,如圖2所示。
表2 主機10-11點之間的地址差異距離
圖2 地址差異分析圖
由圖2可知,在10:25-10:45之間的距離數(shù)值遠遠超過了差異度的可信 區(qū)間,同時和對照曲線存在著顯著區(qū)別,因此,我們就能夠判斷出該時間點內的主機流量有異常,進而推斷出此時間段的網(wǎng)絡行為存在異常。
針對網(wǎng)絡通信異常行為的識別,本文提出了基于相異度分析法,實現(xiàn)了互聯(lián)網(wǎng)運營單位支撐保障能力以及服務質量的提升,然而,令人遺憾的是該方法仍然存在著諸多亟待解決的問題,比如計算復雜、模型優(yōu)化等等,在未來的研究過程中需要進一步地充實和完善。
[1] 荊濤沼,李俊. 基于相異度分析的網(wǎng)絡通信異常行為識別方法[J].微電子學與計算機,2014,31(6):12-15.
[2] 肖宇,許煒,張晨,等.社交網(wǎng)絡中用戶區(qū)域影響力評估算法研究[J].微電子學與計算機,2012,7(7);58-63.
[3] 郭小芳,李鋒,劉慶華.一種有效的多元時間序列相似性度量算法分析[J].江西師范大學學報(自然科學版),2013,37(1):56-59.
[4] 鄧冠男.聚類分析中的相似度研究[J].東北電力大學學報,2013,33(02):156-161.
[5] 溫祥西,孟相如,馬志強,張永春.小時問尺度網(wǎng)絡流量混沌性分析及趨勢預測[J].電了學報,2012, 40(8):1609-1616.
[6] 高波,張欽宇,梁永生,等.基于EMD及ARMA的白相似網(wǎng)絡流量預測[J].通信學報,2011, Vol. 32, No.4: 47-56.
[7] 張賓,楊家海,吳建平.Internet流量模型分析與評述[J].軟件學報,2011, 22(1): 115-131.
[8] 吳樺,龔儉,楊望.一種基于雙重Counter Bloom Filter的長流識別算法[J].軟件學報,2010,Vo1.21, No.5: 1115-1126.
[9] 曹軍威,萬宇鑫,涂國煌,等.智能電網(wǎng)信息系統(tǒng)體系結構研究[J].計算機學報,2013, 36(1):143-167.
[10] Ye W, Cho K. Hybrid P2P traffic classification with heuristic rules and machine learning[J]. Soft Computing, 2014:1-13.
Analysis of the Abnormal Degree of Network Communication Distinguishing Behavior
Zhang Yun
(Binzhou Technical College, Shandong 256603, China)
In order to identify the abnormal behavior of network communication effectively, this paper proposes a recognition method based on dissimilarity analysis. The data base of the method is Netflow network management data, and the concrete implementation steps are designed. Then, through the experiment analysis and analysis, it is proved that this method can be used to monitor the phenomena such as abnormal communication behavior, sudden traffic anomaly and abnormal network attack in the network, and obtain good results, so that the network service unit's service quality and Network security support service capacity has been effectively improved.
dissimilarity analysis; network communication anomaly; recognition
張蕓(1980-),女,山東五蓮人,山東省濱州市技術學院,大學學歷,中級職稱,研究方向:網(wǎng)絡通信。
1007-757X(2017)08-0079-02
TP311
A
2017.01.28)