郭倩林,張翰林
(1.青島大學(xué)智慧校園與信息化建設(shè)中心,山東 青島 266071;2.青島大學(xué)計算機科學(xué)技術(shù)學(xué)院,山東 青島 266071)
網(wǎng)絡(luò)技術(shù)的不斷更新和深入發(fā)展使人們對網(wǎng)絡(luò)依賴程度越來越高,網(wǎng)絡(luò)改變了人們工作和生活方式。但是網(wǎng)絡(luò)規(guī)模的擴大使其面臨的風(fēng)險也隨之增加[1]。
由于大規(guī)模集群網(wǎng)絡(luò)存在開放性和匿名性等特征,一些用戶出于某種競爭等目的惡意向互聯(lián)網(wǎng)系統(tǒng)發(fā)起大量疑似攻擊行為,導(dǎo)致網(wǎng)絡(luò)能源耗盡,甚至出現(xiàn)崩潰現(xiàn)象[2]。一旦網(wǎng)絡(luò)出現(xiàn)癱瘓,將會帶來巨大經(jīng)濟、資源損失。為此,人們經(jīng)常使用防火墻技術(shù)、攻擊檢測等方式對攻擊行為進行防范。但是這些方法檢測范圍有限,檢測到的攻擊信息也較為片面。因此網(wǎng)絡(luò)疑似攻擊自主檢測已經(jīng)成為熱點研究課題。
文獻[3]提出基于兩級分段模型的異構(gòu)數(shù)據(jù)處理和網(wǎng)絡(luò)攻擊檢測方法。整理分析異構(gòu)數(shù)據(jù)并對其進行建模分析,獲取在多核條件下模型分布特征,對模型做分布式訓(xùn)練,實現(xiàn)網(wǎng)絡(luò)攻擊行為檢測。
文獻[4]提出基于自適應(yīng)免疫計算的網(wǎng)絡(luò)攻擊檢測方法,利用密度聚類方法對自體訓(xùn)練數(shù)據(jù)做預(yù)處理,在聚類分析的基礎(chǔ)上,去除噪聲數(shù)據(jù)形成自體檢測器,然后結(jié)合自我檢測器構(gòu)成非自我檢測器,結(jié)合自適應(yīng)免疫計算檢測異常攻擊行為。
雖然上述兩種方法在一定程度上擴大了攻擊檢測范圍,改善了檢測片面性缺陷,但是不能結(jié)合攻擊的動態(tài)變換做自主調(diào)整,降低了檢測靈敏度。為此,本文利用模糊數(shù)據(jù)分離方法對大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測進行研究。通過聚類算法對疑似攻擊數(shù)據(jù)做模糊數(shù)據(jù)分離,構(gòu)建對檢測有價值的數(shù)據(jù)集合,根據(jù)聯(lián)合評分偏離度對數(shù)據(jù)集合中疑似攻擊數(shù)據(jù)進行判斷,進而實現(xiàn)對集群網(wǎng)絡(luò)疑似攻擊自主檢測。
在檢測疑似攻擊的過程中,首先需去除攻擊樣本數(shù)據(jù)中的冗余信息,保留具有較大特征值的主要成分。然后假設(shè)采集到的疑似攻擊樣本數(shù)據(jù)特征為xij∈X(i=j=1,2,…,N),則有
(1)
(2)
在此基礎(chǔ)上,根據(jù)式(3)計算樣本數(shù)據(jù)的主成分
(3)
如果主成分可以表示90%以上的數(shù)據(jù)特征,就可以將其當(dāng)做表示樣本特征的主成分值。若將最后確定的樣本特征主成分?jǐn)?shù)據(jù)表示為G=(xi,di),其中xi代表數(shù)據(jù)特征向量,di表示輸出期望值,對這些數(shù)據(jù)進行從高維到低維的映射,可將非線性關(guān)系變換成線性關(guān)系
(4)
式(4)中,φ表示高維空間特征值,w代表權(quán)重,b屬于偏移量。為滿足網(wǎng)絡(luò)疑似攻擊自主檢測過程的需要,需建立風(fēng)險評估函數(shù)并確保評估結(jié)果的平滑性,因此先設(shè)計一個風(fēng)險函數(shù)[5-6],表達式如下
(5)
式(5)中,ε表示評估誤差,C表示風(fēng)險系數(shù)。為準(zhǔn)確計算疑似攻擊風(fēng)險評估值,需帶入正向松弛變量ξ,且必須符合下述約束條件
(6)
大規(guī)模集群網(wǎng)絡(luò)節(jié)點間的連接存在擇優(yōu)性,從整體上看節(jié)點間具有密切的關(guān)系連接,但是這種連接并不是均勻分布。一些節(jié)點存在大量連接,屬于整體網(wǎng)絡(luò)的核心節(jié)點。因此,為提高疑似攻擊檢測精準(zhǔn)度,利用混合免疫方法對所有節(jié)點進行定義[7],并選擇最佳節(jié)點數(shù)、劃分代碼矢量,經(jīng)過對矢量集合中違背排名順序的節(jié)點進行識別,完成對疑似攻擊數(shù)據(jù)初步判斷。
假設(shè)s表示節(jié)點總數(shù)量,T(xt,yt)表示其中一部分節(jié)點坐標(biāo),將T(xt,yt)變換為二維矢量,L表示所有坐標(biāo)二維矢量組成的一個平面,通過下述公式將L平面分割成多個互不相交的子區(qū)域
(7)
(8)
式(8)中,v表示二維矢量的種類,m表示任意兩個矢量之間歐氏距離,e描述矢量誤差。然后假設(shè)μ表示第j類矢量集中數(shù)目,r表示矢量集合初始聚類中心,則通過下述公式能夠計獲取節(jié)點在疑似攻擊檢測區(qū)域的位置分布狀況
(9)
式(9)中,a表示所有節(jié)點狀態(tài)種類。如果f表示一個受到疑似攻擊的數(shù)據(jù)檢測序列,d為受攻擊數(shù)據(jù)所在子區(qū)域的距離序列,利用式(10)對大規(guī)模集群網(wǎng)絡(luò)疑似攻擊行為進行初步判斷
(10)
式(10)中,p表示節(jié)點次品率,A為網(wǎng)絡(luò)節(jié)點狀態(tài)種類集合。
以上分析能夠表明,在對網(wǎng)絡(luò)疑似攻擊自主檢測過程中,在對所有節(jié)點總數(shù)進行定義的基礎(chǔ)上,選擇合理節(jié)點數(shù)量,劃分代碼矢量,最終完成疑似攻擊初步判斷。
在實際的檢測過程中,疑似攻擊自體通常存在動態(tài)變換特征。因此,與其相對的自體耐受和檢測過程(抗體)同樣也是不斷變化的。自體動力學(xué)表達式如下:
S(t)=Sdead(t)-Svar iation(t)+Snew(t)
(11)
式中,Svar iation(t)表示變異自體,Snew(t)代表新形成自體,Sdead(t)則為淘汰自體。
為確保檢測器具有多樣性特征,利用隨機方法對一部分檢測器選擇,其余部分則采用基因自由組合方式生成[8]。這種方式可以確保網(wǎng)絡(luò)疑似攻擊檢測器檢測的準(zhǔn)確度。利用下式表示網(wǎng)絡(luò)攻擊候選檢測器
Inew(t)=Rrandom(Ag)+Rrandom(G(t))
(12)
式(12)中,Ag表示網(wǎng)絡(luò)攻擊檢測器集合,其實質(zhì)屬于二進制字符串,長度表示為l。基因庫動力學(xué)方程表示為
G(t)=G(t-1)-Gdead(t)+Gnew(t)
(13)
式(13)中,Gdead(t)表示在t時間點出現(xiàn)虛警的記憶細(xì)胞,Gnew(t)代表t時間點上發(fā)出反應(yīng)的抗體克隆細(xì)胞。在檢測過程中,對于不同變異攻擊行為,僅需要獲取克隆抗體,即可控制檢測器進化方向,改善系統(tǒng)對疑似攻擊風(fēng)險檢測能力[9]。在此基礎(chǔ)上,通過下式表示獲取較為成熟的網(wǎng)絡(luò)攻擊檢測器
(14)
式(14)中,Tnew(t)表示t時刻成熟的檢測器,Imaturation(t)則代表進化形成的檢測器,Tclone(t)為經(jīng)過克隆形成的檢測器。
綜上所述,網(wǎng)絡(luò)疑似攻擊的記憶檢測器動力學(xué)表達式如下
(15)
式(15)中,Mnew(t)表示新的記憶檢測器,Mother(t)表示從其它系統(tǒng)中得到的記憶檢測器,Mdead(t)表示自體記憶檢測器,且
Mnew(t)=Tactive(t)+Mclone(t)
(16)
式(16)中,Mclone(t)表示克隆檢測器集合。綜上所述,分別研究自體與抗體動力學(xué)表達式,為疑似攻擊檢測提供理論依據(jù)。
由于傳統(tǒng)算法在檢測過程中需要設(shè)置參數(shù)才可以檢測出疑似攻擊次數(shù),檢測過程較為復(fù)雜,因此本文在獲取檢測器動力學(xué)方程后,基于聚類的模糊數(shù)據(jù)分離方法對疑似攻擊進行檢測。在檢測過程中,對疑似攻擊的網(wǎng)絡(luò)信息做模糊數(shù)據(jù)分離,構(gòu)成疑似攻擊數(shù)據(jù)集合[10],詳細(xì)步驟如下:
步驟1:檢測過程中,假設(shè)H={h1,h2,…,hn}表示模糊數(shù)據(jù)集合,若該集合隸屬于空間Rp,因此可以表示為hn∈Rp。
步驟2:將誤差平方和函數(shù)當(dāng)作聚類函數(shù),表達式如下
(17)
式(17)中,uij表示檢測樣本中與數(shù)據(jù)點對應(yīng)的第j個聚類中心的隸屬度,V描述聚類中心數(shù)據(jù)集合。
步驟3:利用聚類方法能夠?qū)⑹?17)中J轉(zhuǎn)換成最小值的(U,V)。然后將全部聚類結(jié)果根據(jù)含有疑似攻擊數(shù)量多少排序,將Q當(dāng)作閾值,如果集合高于Q則表示為正常聚類集合;若小于Q,將其確定為疑似攻擊數(shù)據(jù)集合。
上述即為通過聚類方法對疑似攻擊模糊數(shù)據(jù)分離的全過程,為完成疑似攻擊檢測提供有力條件。
將聯(lián)合評分偏離度作為疑似攻擊判斷依據(jù)實現(xiàn)疑似攻擊自主檢測[11]。假設(shè)USr表示聯(lián)合評分偏離度,r表示對疑似攻擊數(shù)據(jù)的評分結(jié)果,uik表示支持?jǐn)?shù)據(jù)構(gòu)成集合,將其定義成數(shù)據(jù)支持度[12],表達式如下:
USr=|Uik|
(18)
不同類型疑似攻擊數(shù)據(jù)集合相對的攻擊子集不同,在任意一個子集中,攻擊數(shù)據(jù)一般會最大限度的偏離評分平均值,且存在相同偏離方向,由此準(zhǔn)確判斷出攻擊子集中存在的疑似攻擊數(shù)據(jù),以此實現(xiàn)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測。
為驗證本研究設(shè)計的大規(guī)模集群網(wǎng)絡(luò)疑似攻擊自主檢測方法的實際應(yīng)用性能,將本文方法與文獻[3]中的基于兩級分段模型的異構(gòu)數(shù)據(jù)處理和網(wǎng)絡(luò)攻擊檢測方法、文獻[4]中的基于自適應(yīng)免疫計算的網(wǎng)絡(luò)攻擊檢測方法進行仿真對比。
其它參數(shù)設(shè)置情況如下:網(wǎng)絡(luò)最大延時為17ms,數(shù)據(jù)集合中的樣本數(shù)量為2000個,鏈路容量為50Mb/s,節(jié)點緩存大小為300Packets,數(shù)據(jù)包共300個。
實驗分別從攻擊漏報率、檢測靈敏度以及誤檢率三方面對三種不同的檢測方法的應(yīng)用性能進行對比。
如果η表示所有網(wǎng)絡(luò)數(shù)據(jù)樣本總數(shù),k1表示實驗總次數(shù),k2表示正確檢測到的攻擊次數(shù),n表示實際受到攻擊數(shù)據(jù),則疑似攻擊檢測漏報率為
(19)
根據(jù)式(19)能夠看出,Er值越小,檢測精準(zhǔn)度越高。
若φ表示數(shù)據(jù)檢測平均代價,利用下式分別計算檢測靈敏度Ek與誤檢率Ec。
(20)
(21)
對攻擊漏報率、檢測靈敏度以及誤檢率三項指標(biāo)的檢測結(jié)果分別如圖1、圖2、圖3所示。
圖1 不同方法攻擊漏報率對比圖
從圖1中可以看出,三種方法漏檢率均處于10%以下,但是相對來說,本文方法的攻擊漏報率最低,這主要因為本文方法對網(wǎng)絡(luò)數(shù)據(jù)進行模糊分離,構(gòu)成疑似攻擊數(shù)據(jù)集合,使檢測過程更加全面,因此對攻擊行為的漏檢率較低,充分滿足疑似攻擊檢測對精準(zhǔn)度的要求。
圖2 不同檢測方法檢測靈敏度對比圖
圖3 不同檢測方法誤檢率對比圖
綜合圖2與圖3可知,本文方法的檢測靈敏度遠(yuǎn)遠(yuǎn)高于其它兩種方法,因此,相應(yīng)的誤檢率也較低,這是由于所提方法確定風(fēng)險評估函數(shù),對攻擊行為進行初步判定,保障網(wǎng)絡(luò)疑似攻擊檢測質(zhì)量。相對來說,基于自適應(yīng)免疫計算的攻擊檢測方法和基于兩級分段模型的攻擊檢測方法的檢測靈敏度不理想,相應(yīng)的誤檢率也會有所增加。
本研究利用模糊數(shù)據(jù)分離方法獲取聚類目標(biāo)函數(shù),在確定約束條件后,根據(jù)聯(lián)合評分偏離度實現(xiàn)大規(guī)模集群網(wǎng)絡(luò)疑似攻擊行為檢測。仿真結(jié)果表明,該方法對攻擊行為的漏檢率低,檢測靈敏度較高,可充分滿足檢測精度的要求。
然而,疑似攻擊檢測不能全面解決網(wǎng)絡(luò)安全問題,因此,在接下來的研究中,可以將這種方式與其它安全技術(shù)以及網(wǎng)絡(luò)結(jié)構(gòu)特征相結(jié)合,使之互相融合、補充,共同在一定范圍內(nèi)確保網(wǎng)絡(luò)系統(tǒng)安全穩(wěn)定運行。