白 雪,努爾布力
(新疆大學 信息科學與工程學院,烏魯木齊 830046)
E-mail:409429237@qq.com
隨著網(wǎng)絡應用的普及,使用網(wǎng)絡的人群越來越多,網(wǎng)絡規(guī)模在日益增長的趨勢下網(wǎng)絡安全隱患也在不斷增大.在當前大規(guī)模的網(wǎng)絡環(huán)境中,如何對網(wǎng)絡安全進行保障成為了熱門的研究課題.目前對于網(wǎng)絡安全的研究從單一的入侵檢測技術到目前的網(wǎng)絡態(tài)勢感知,都對網(wǎng)絡安全數(shù)據(jù)分析的方法提出了更高的要求[1].
信息可視化與可視分析是一門通過用戶交互手段,對海量、復雜數(shù)據(jù)分析的新興領域,利用人的認識能力和感知能力,進行高效數(shù)據(jù)分析.目前網(wǎng)絡安全分析引入可視化為網(wǎng)絡安全工作提出了新的思路,通過可視化圖形可大大提高分析人員的主觀判斷,提高網(wǎng)絡異常判別的準確率與判別速度.
大多數(shù)網(wǎng)絡異常數(shù)據(jù)都來源于安全維護系統(tǒng)或原始網(wǎng)絡跟蹤記錄生成的系統(tǒng)日志,這種特殊類型的數(shù)據(jù)源允許大量的數(shù)據(jù)特性共存,可根據(jù)不同的特性進行可視化與分析.并且網(wǎng)絡流量數(shù)據(jù)可視化為分析人員提供了交互式的可視化工具,將人的感知能力集成到了網(wǎng)絡安全分析過程中.網(wǎng)絡異常涉及多種攻擊類型,使用可視化方法可發(fā)現(xiàn)不同攻擊類型的攻擊模式,在一個或多個視圖中同時展示不同特征的網(wǎng)絡流量數(shù)據(jù),以幫助網(wǎng)絡安全分析人員進行比較和關聯(lián).
目前網(wǎng)絡安全可視化研究面臨著一些問題:
1)網(wǎng)絡規(guī)模逐漸增大,拓撲結構日益復雜,產生的安全數(shù)據(jù)也呈海量增長.
2)多源異構的網(wǎng)絡安全數(shù)據(jù)給網(wǎng)絡安全診斷帶來了較高的困難,可視化技術如何融合多源數(shù)據(jù)、發(fā)揮自身優(yōu)勢是當前的研究熱點.
3)可視化技術可以提高人們對網(wǎng)絡異常的認知效率,但是如何幫助網(wǎng)絡管理人員快速建立對所監(jiān)管的網(wǎng)絡整體情況的有效認知,甚至是態(tài)勢評估,顯得尤為重要[2].
本文通過網(wǎng)絡安全可視化技術,使用網(wǎng)絡流量數(shù)據(jù),從網(wǎng)絡分析人員角度出發(fā),通過分析網(wǎng)絡態(tài)勢、流量狀況和網(wǎng)絡節(jié)點連接,定位到網(wǎng)絡異常時刻,針對異常數(shù)據(jù)進行細節(jié)展示,最終聚焦到具體的主機或端口,達到識別網(wǎng)絡異常狀況的目的.
網(wǎng)絡安全的發(fā)展,首先是對于入侵檢測技術的改進,到目前大規(guī)模網(wǎng)絡情況下的實時態(tài)勢感知,不斷改進數(shù)據(jù)融合算法使其在降低網(wǎng)絡負載的前提下,能夠提高數(shù)據(jù)融合的準確性與可用性.隨著網(wǎng)絡安全研究的不斷深入,網(wǎng)絡安全可視化近年來也成為了識別網(wǎng)絡異常的熱門方法.網(wǎng)絡安全數(shù)據(jù)通常包括網(wǎng)絡流量數(shù)據(jù)與網(wǎng)絡日志數(shù)據(jù),分析人員主要通過網(wǎng)絡安全數(shù)據(jù)來進行監(jiān)測,檢測其中異常的數(shù)據(jù)來識別網(wǎng)絡異常.但隨著網(wǎng)絡的使用范圍不斷擴大,網(wǎng)絡安全數(shù)據(jù)量持續(xù)增長,數(shù)據(jù)復雜度也不斷提高,給網(wǎng)絡安全分析檢測帶來了巨大的困難.研究人員通過多種方法來理解網(wǎng)絡安全數(shù)據(jù),其中人的視覺對于數(shù)據(jù)的判斷占據(jù)優(yōu)勢地位,網(wǎng)絡安全可視化則利用了人類的視覺優(yōu)勢,通過圖形的方式呈現(xiàn)網(wǎng)絡安全數(shù)據(jù)的規(guī)律,從中快速發(fā)掘網(wǎng)絡異常節(jié)點,分析得出其中隱含的信息;通過可交互的可視化方式,提高人的認知與判斷能力,進一步完善網(wǎng)絡安全研究.
網(wǎng)絡安全可視化是由Becker在1995年提出,IEEE Vis在2004年舉辦了第一屆國際網(wǎng)絡安全可視化會議VizSec(visualization for cyber security),自該會議之后,網(wǎng)絡安全可視化領域內的研究逐漸深入.趙穎等人從異常檢測、特征分析、關聯(lián)分析和態(tài)勢感知等不同層次的安全需求的角度對相關研究進行了綜述[3],陳為[4]等人從可視化任務流程、網(wǎng)絡警報可視化、異常網(wǎng)絡流量可視化、網(wǎng)絡攻擊模式可視化進行了分類,針對不同的數(shù)據(jù)類型給出了一定的可視分析方法綜述.大多數(shù)網(wǎng)絡異常數(shù)據(jù)最初來源于安全維護系統(tǒng)或原始網(wǎng)絡跟蹤記錄生成的系統(tǒng)日志,這種特殊類型的數(shù)據(jù)源允許一定數(shù)量的數(shù)據(jù)特性共存,其中每個特性都需要不同的可視化和分析方法.
Zhou等人在2005年設計了ENTVis[5],將基于熵的流量分析從時間空間擴展到視覺聚類空間,從而快速識別出發(fā)生相似網(wǎng)絡流量特征時的線性時間跨度.Abdullah K[6]設計使用水平時間軸疊加直方圖來可視化不同協(xié)議從不同端口發(fā)送的數(shù)據(jù)包數(shù)量.Yelizarov和Gamayunov[7]使用由透明四邊形連接的圓柱形符號來表示復雜攻擊中不同階段的攻擊.每個圓柱體大小和顏色的不同分別描述了嚴重性級別和攻擊類型.這些研究都是對單一的數(shù)據(jù)類型,針對該數(shù)據(jù)類型提出了相應的可視化分析圖形,并未針對不同的數(shù)據(jù)類型特性進行分析,得出的分析結果不能全面的覆蓋數(shù)據(jù)間內在的聯(lián)系.
綜上所述,網(wǎng)絡安全可視化在經(jīng)過十多年的發(fā)展,對網(wǎng)絡安全數(shù)據(jù)可視分析已經(jīng)有了一定的研究成果,但目前主要是針對單一數(shù)據(jù)類型的分析與基于此的可視化圖形提高,在對于網(wǎng)絡安全數(shù)據(jù)特性與可視化圖形交互功能的結合上有一定的缺失,并沒有大量的研究對網(wǎng)絡流量數(shù)據(jù)提出系統(tǒng)的分析方法,在如何通過多視圖協(xié)同交互分析方面還有一定的提升空間.
目前有研究人員提出了針對不同數(shù)據(jù)源的交互分析方法,中南大學趙穎[8]等人在2014年提出了一個自頂向下的網(wǎng)絡流量時序分析流程模型,對網(wǎng)絡安全數(shù)據(jù)進行了事件元組與統(tǒng)計元組融合的數(shù)據(jù)處理模型,設計了雷達圖與對比堆疊流圖對網(wǎng)絡安全數(shù)據(jù)進行可視分析;并設計了時序可視分析方法,通過對比堆疊流圖進行網(wǎng)絡異常定位;Wettach R[9]等人提出了讓網(wǎng)絡安全分析人員主動進行探索的交互式可視分析系統(tǒng),通過主動搜索挖掘日志數(shù)據(jù)間的關系.提出一種針對大規(guī)模網(wǎng)絡的拓撲可視化算法,何輝[10]等人通過將大規(guī)模數(shù)據(jù)分解為多個小規(guī)模數(shù)據(jù),通過力導引算法進行拓撲結構進行網(wǎng)絡異常檢測,并進行可視化展示.盡管現(xiàn)有的網(wǎng)絡安全分析方法能夠實現(xiàn)基本的異常數(shù)據(jù)展示與分析,但過多的交互操作使網(wǎng)絡安全檢測不能及時響應,未具有流程化的分析過程,只對單一數(shù)據(jù)源進行可視分析,缺乏網(wǎng)絡安全綜合分析.
圖1 網(wǎng)絡流量數(shù)據(jù)可視分析方法流程Fig.1 Flow of visual analysis method for network traffic data
目前對網(wǎng)絡安全分析不僅需要分析與展示網(wǎng)絡安全動態(tài),更需要對數(shù)據(jù)間的聯(lián)系進行分析,將可視化圖形與網(wǎng)絡流量數(shù)據(jù)特性進行結合,最終達到一定的網(wǎng)絡發(fā)展趨勢預測.故本文提出了多視圖協(xié)同的網(wǎng)絡流量數(shù)據(jù)可視分析方法,方法流程如圖1所示.通過流程化的分析讓網(wǎng)絡分析人員快速得到當前網(wǎng)絡發(fā)展態(tài)勢,并達到網(wǎng)絡異常檢測與分析的目的,從整體態(tài)勢到具體的異常節(jié)點進行分析,并通過多視圖全面展示網(wǎng)絡當前的動態(tài),通過多種可視化圖形與恰當?shù)慕换ナ侄问咕W(wǎng)絡分析人員更加精準的獲取網(wǎng)絡走向,分析網(wǎng)絡發(fā)展態(tài)勢.
網(wǎng)絡流量數(shù)據(jù)是典型的時間序列數(shù)據(jù),并且具有多維特征數(shù)據(jù).進行網(wǎng)絡狀態(tài)分析時,首先需要把握流量數(shù)據(jù)的整體態(tài)勢走向,通過網(wǎng)絡流量數(shù)據(jù)核心特征具體展示當前網(wǎng)絡狀況,直觀的得到網(wǎng)絡異常時間段.
在整體時序分析中,使用了堆疊流圖.普通的直方圖顯示的數(shù)據(jù)單一,且顯示數(shù)據(jù)數(shù)值不連貫;而堆疊圖可以顯示多個維度,通常用在表示多個事件在整體中所占的比例和某個時間段的變化走勢的比較[11].針對網(wǎng)絡流量數(shù)據(jù)的特性,我們需要顯示多維度數(shù)據(jù)且數(shù)據(jù)密度較大,將堆疊直方圖改為堆疊流圖可以使數(shù)據(jù)的過度更加平滑.在網(wǎng)絡安全中,使用對比堆疊流圖可以比較不同主機在一段時間內的流量變化情況,本文通過對比堆疊流圖,可以表示多類數(shù)據(jù)在整體態(tài)勢中的變化趨勢.
在此視圖中,以時間為橫軸,選取重點監(jiān)測的時序數(shù)據(jù),以1分鐘為度量單位進行求和統(tǒng)計,更加精準的定位異常發(fā)生的時間段,直觀顯示出網(wǎng)絡流量的波動情況并掌握網(wǎng)絡態(tài)勢.
根據(jù)整體時序分析得出異常時間段后,再進行異常狀態(tài)分析,進一步對異常時段細節(jié)數(shù)據(jù)進行展示,初步判斷網(wǎng)絡異常原因.網(wǎng)絡流量數(shù)據(jù)是典型的多維度數(shù)據(jù),其中含有大量數(shù)據(jù)信息,僅靠單個數(shù)據(jù)難以判斷網(wǎng)絡異常類型,如果不對原始數(shù)據(jù)進行處理,從中獲取有效信息較為困難.
本文使用平行坐標軸圖,通過多軸顯示網(wǎng)絡流量的多維數(shù)據(jù),但因網(wǎng)絡流量并沒有統(tǒng)一的維度,當多維度數(shù)據(jù)在同一視圖中展示時,不能達到直觀辨識的目的.故首先計算流量數(shù)據(jù)的信息熵,再通過歸一化處理將計算結果標準化.在大量的文獻研究中顯示[12],信息熵對于網(wǎng)絡安全研究有較大的作用.信息熵作為可以度量數(shù)據(jù)穩(wěn)定值得計量方式,數(shù)值越大,數(shù)據(jù)越是無序;在網(wǎng)絡安全研究中,采用信息熵作為數(shù)據(jù)處理方式,可以有效的區(qū)分有序數(shù)據(jù)與無序數(shù)據(jù).信息熵的大小可以判斷網(wǎng)絡連接和流量是否有序,歸一化處理可以使數(shù)值落在0~1之間.
在平行坐標軸圖中,各軸線體現(xiàn)出時間,源IP地址,目的IP地址,源端口、目的端口以及主要維度,都經(jīng)過信息熵與歸一化處理后分析.對于網(wǎng)絡流量數(shù)據(jù)中的特征值,當目的IP地址熵值越大,則代表活躍狀態(tài)的IP地址越多,網(wǎng)絡活動越無序;而熵值越小,則代表當前的網(wǎng)絡活動越有序[13].根據(jù)對于熵值與已知的異常時間段分析,就可初步分析異常時間段.
在異常狀態(tài)分析中通過多維數(shù)據(jù)對異常時刻進行分析后,異常主體分析可以針對異常時刻進行細節(jié)展示,比如說異常時間段的主機或端口連接.異常主體分析主要針對網(wǎng)絡連接的可視化,通過分析主機的連接狀況,確定網(wǎng)絡異常發(fā)生節(jié)點.
復雜網(wǎng)絡的可視化通常由力導引算法來實現(xiàn).通過設置視圖中的點與邊的權重,力導引圖能夠自動進行聚類,顯示出各點之間的相似關系[14].本文通過使用力導引圖根據(jù)網(wǎng)絡連接狀態(tài)自動完成聚類,通過統(tǒng)計不同節(jié)點之間的連接數(shù),根據(jù)圖標大小判斷該節(jié)點的活躍程度.在力導引圖中可以直觀看出主機或端口的連接關系,將節(jié)點使用的情況通過圖標大小映射,圖標越大代表該節(jié)點越活躍.
在力導引圖中對IP地址和端口連接數(shù)分別進行統(tǒng)計,計算出異常時間段內IP地址和端口的連接數(shù).可以得出連接數(shù)最高的節(jié)點,圖標越大代表該節(jié)點越活躍,快速找出被攻擊的網(wǎng)絡節(jié)點.
本文選用的實驗數(shù)據(jù)為加拿大網(wǎng)絡安全研究所提出的入侵檢測數(shù)據(jù)集CICIDS2017[15],數(shù)據(jù)捕獲期從2017年7月3日星期一上午9點開始,到2017年7月7日星期五下午5點結束,共計5天,其中包含良性網(wǎng)絡和7個常規(guī)攻擊數(shù)據(jù)流.測試基礎設施被劃分為兩個完全獨立的網(wǎng)絡,即受害網(wǎng)絡和攻擊網(wǎng)絡.在受害網(wǎng)絡中,覆蓋了所有常見和必要的設備,包括路由器、防火墻、交換機,以及常見的三種操作系統(tǒng)Windows、Linux和Macintosh的不同版本.加拿大網(wǎng)絡安全研究所使用CICFlowMeter軟件進行網(wǎng)絡流量特征提取,該軟件生成的網(wǎng)絡流量數(shù)據(jù)集具有時間戳,源和目標IP,源和目標端口,協(xié)議和攻擊的標記流.其標記流是通過網(wǎng)絡流量生成器和分析器,生成雙向流數(shù)據(jù),其中數(shù)據(jù)包有前向(源到目的地)和后向(目標到源)方向,因此可提取超過80個網(wǎng)絡流量特征.如持續(xù)時間,數(shù)據(jù)包數(shù),字節(jié)數(shù),可以在前后方向上分別計算分組長度等.
加拿大網(wǎng)絡安全研究所對提取的80個流量特征進行評估,為不同的攻擊類型選擇最佳短特征集.該評估方案,首先計算整個數(shù)據(jù)集中每個特征的重要性,然后將每個類上每個特征分割的標準化平均值與相應的特征重要性值相乘,得到初步結果.然后,用7種常用的機器學習算法對所選特征的性能和精度進行檢驗.最后,基于加拿大網(wǎng)絡安全研究所(CIC)最新提出的網(wǎng)絡安全數(shù)據(jù)集評估框架中的11個標準,綜合創(chuàng)建數(shù)據(jù)集的常見錯誤和批評,評估得到最終的最佳短特征集.
根據(jù)加拿大網(wǎng)絡研究所對網(wǎng)絡安全數(shù)據(jù)集的評估,本文實驗數(shù)據(jù)為CICIDS2017中星期五下午DDoS攻擊數(shù)據(jù),數(shù)據(jù)集特征包含有網(wǎng)絡流量數(shù)據(jù)常規(guī)特征與DDoS攻擊最佳短特征集(見表1),其中常規(guī)特征:Flow ID、Source IP、Source Port、Destination IP、Destination Port、Protocol、Timestamp和Label,DDoS攻擊最佳短特征集:Flow Duration、Bwd Packet Length Std、Flow IAT Std和Average Packet Size.
表1 DDoS攻擊數(shù)據(jù)指標Table 1 DDoS attack data indicators
分布式拒絕服務攻擊(Distributed denial of service,DDoS)是當今網(wǎng)絡最嚴重的威脅之一,已經(jīng)引起了世界各國的極大關注.DDoS攻擊是指消耗受害服務器資源,阻止目標為合法用戶提供服務的行為[16].在DDoS中,攻擊者利用僅存在于網(wǎng)絡和傳輸層的漏洞,向受害主機發(fā)送大量虛假數(shù)據(jù)包,耗盡服務器的帶寬和資源,導致目標對象的某些網(wǎng)絡服務無法正常工作甚至直接宕機.由于DDoS的攻擊特性可知,在攻擊時刻網(wǎng)絡數(shù)據(jù)流量有明顯增大[17],現(xiàn)通過可視分析方法于數(shù)據(jù)集中星期五下午DDoS攻擊的數(shù)據(jù)進行分析.
Step 1.整體時序分析.如圖2所示,在對比堆疊流圖中,將DDoS攻擊最佳短特征集流量數(shù)據(jù)進行分析,可直觀看到在星期五下午的某一時間段內有明顯峰值堆疊,通過交互操作可得出時間段為2017年7月7日3:56-4:16,在此期間數(shù)據(jù)呈異常狀態(tài).
Step 2.異常狀態(tài)分析.在整體時序分析中得出異常時間短后,通過異常狀態(tài)分析對比正常狀態(tài)與異常狀態(tài)差別,初步判定攻擊類型.通過圖3所示,在平行坐標軸圖中分析結果明顯分為兩部分數(shù)據(jù)內容;再進一步選擇已得出的數(shù)據(jù)異常時間段(見圖4),異常時間段的多項數(shù)值與正常時間段區(qū)別較大.可以觀察得到目的IP的熵值對比明顯較小,源IP地址熵值也較小,證明發(fā)起攻擊的主機較少,集中對單一IP地址發(fā)起攻擊,而源端口的熵值明顯較大.
圖2 (Step 1)對比堆疊流圖Fig.2 (Step 1)Comparative stacked stream graph
Step 3.異常節(jié)點分析.通過力導引圖對于具體的IP地址進行分析得出圖5,可以明顯觀察到圖中中間位置有多個節(jié)點圖標較大,判斷為活躍節(jié)點群組;再通過交互操作,選中活躍節(jié)點群組得到圖6,通過對圖6節(jié)點查看得知其群組中核心節(jié)點為192.168.10.50,在異常時間段內連接數(shù)達到159936次,有大量主機通過網(wǎng)關172.16.0.1對于該IP地址進行了攻擊.
圖3 (Step 2)整體數(shù)據(jù)平行坐標圖Fig.3 (Step 2)Overall data of parallel coordinate graph
圖4 (Step 2)異常時段數(shù)據(jù)平行坐標圖Fig.4 (Step 2)Anomaly period data of parallel coordinate graph
圖5 (Step 3)整體力導引圖Fig.5 (Step 3)Overall of force directed graph
圖6 (Step 3)細節(jié)力導引圖Fig.6 (Step 3)Details of force directed graph
以上的攻擊模式符合DDoS攻擊的特征,判斷為DDoS攻擊,后在該數(shù)據(jù)集官方文檔中得到驗證.
本文以分析流程為主的網(wǎng)絡安全可視化研究思路,通過整體時序分析、異常狀態(tài)分析和異常節(jié)點分析,由整體到細節(jié)的方式對網(wǎng)絡流量數(shù)據(jù)進行了分析檢測.最終用CICIDS數(shù)據(jù)集中的DDoS攻擊數(shù)據(jù)進行了驗證,證明該分析方法可以較好的支持分析人員從網(wǎng)絡流量時序數(shù)據(jù)中檢測網(wǎng)絡異常的整個過程.
該分析方法目前只能通過網(wǎng)絡安全數(shù)據(jù)集進行測試,并沒有應用到真實的網(wǎng)絡環(huán)境之中,如果將其使用在真實的網(wǎng)絡環(huán)境中,還需要做大量的改進效率和可用性.本文主要是通過從整體到細節(jié)的方式進行了網(wǎng)絡流量分析,在可視化方法上沒有進行過多的改進,在以后的工作中,可以結合完整分析流程與加深細節(jié)的可視化方法,不斷完善該分析方法,融合入網(wǎng)絡態(tài)勢感知,將其應用在真實網(wǎng)絡環(huán)境中.