徐 彬,黃春麟,吳 迪,滑 斌
(寧夏大學(xué)信息工程學(xué)院,寧夏 銀川 750021)
網(wǎng)絡(luò)安全[1]問(wèn)題日益凸顯,網(wǎng)絡(luò)危機(jī)一旦發(fā)生,將給用戶、企業(yè)甚至整個(gè)國(guó)家?guī)?lái)無(wú)法預(yù)估的損失,社會(huì)負(fù)面影響巨大。因此在問(wèn)題出現(xiàn)之前,對(duì)網(wǎng)絡(luò)入侵進(jìn)行檢測(cè)與防御,是規(guī)避網(wǎng)絡(luò)安全威脅的重要環(huán)節(jié)。網(wǎng)絡(luò)入侵檢測(cè)[2]實(shí)驗(yàn)測(cè)試方法,是測(cè)試網(wǎng)絡(luò)入侵檢測(cè)方法性能的關(guān)鍵。
文獻(xiàn)[3]方法提出基于改進(jìn)的深度信念網(wǎng)絡(luò)的入侵檢測(cè)方法。該方法利用改進(jìn)的DBN算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí);在算法中加入自適應(yīng)學(xué)習(xí)速率縮減模型訓(xùn)練時(shí)間,使用softmax分類方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類,依據(jù)分類結(jié)果識(shí)別網(wǎng)絡(luò)攻擊數(shù)據(jù),實(shí)現(xiàn)網(wǎng)絡(luò)的入侵檢測(cè)。該方法由于未能在入侵檢測(cè)前進(jìn)行數(shù)據(jù)去噪處理,導(dǎo)致該檢測(cè)方法的攻擊正確識(shí)別比例低。文獻(xiàn)[4]方法提出基于集成深度森林的入侵檢測(cè)方法。該方法首先依據(jù)卷積神經(jīng)網(wǎng)絡(luò)建立一個(gè)網(wǎng)絡(luò)檢測(cè)模型,使用Bagging集成策略分析網(wǎng)絡(luò)模型隱藏層結(jié)構(gòu),依據(jù)分析結(jié)果引入隨機(jī)森林機(jī)制,重構(gòu)模型隱藏層;再依據(jù)拼接向量機(jī)完成數(shù)據(jù)特征分類,結(jié)合優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型,完成網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的檢測(cè)。該方法在重構(gòu)模型時(shí)存在問(wèn)題,導(dǎo)致該方法的數(shù)據(jù)正確分類樣本比例低。文獻(xiàn)[5]方法提出基于支持向量機(jī)方法的網(wǎng)絡(luò)入侵檢測(cè)實(shí)驗(yàn)研究。該方法依據(jù)對(duì)網(wǎng)絡(luò)規(guī)則信息、邊界信息以及攻擊信息的界定劃分?jǐn)?shù)據(jù)攻擊類型;通過(guò)支持向量機(jī)完成網(wǎng)絡(luò)數(shù)據(jù)的分類,實(shí)現(xiàn)入侵?jǐn)?shù)據(jù)的檢測(cè)。該方法在進(jìn)行數(shù)據(jù)攻擊類型劃分時(shí)存在問(wèn)題,所以該方法的檢測(cè)性能差。
為解決上述網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)檢測(cè)過(guò)程中存在的問(wèn)題,提出面向分布式網(wǎng)絡(luò)入侵檢測(cè)的實(shí)驗(yàn)測(cè)試方法。
在對(duì)分布式網(wǎng)絡(luò)進(jìn)行入侵檢測(cè)前,需要通過(guò)網(wǎng)絡(luò)數(shù)據(jù)的去噪結(jié)果提取網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征。
首先設(shè)定網(wǎng)絡(luò)數(shù)據(jù)信號(hào)的母小波為L(zhǎng)2(R),母小波函數(shù)為δ(x),數(shù)據(jù)信號(hào)的連續(xù)小波變換過(guò)程如下式所示
(1)
式中,網(wǎng)絡(luò)數(shù)據(jù)連續(xù)小波變換結(jié)果表述成αf(a,χ)形式,尺度因子為a,位移因子為χ,符號(hào)因子為〈f(x),δ(x)〉,小波系數(shù)用α表述。
為簡(jiǎn)化信號(hào)變換計(jì)算流程,對(duì)獲取的信號(hào)尺度進(jìn)行二進(jìn)制離散處理,小波變換[6]的二進(jìn)制離散過(guò)程如下式所示
(2)
式中,i、k為常數(shù)。在信號(hào)處理過(guò)程中,使用Lipschitz指數(shù)計(jì)算網(wǎng)絡(luò)數(shù)據(jù)信號(hào)局部奇異值[7],過(guò)程如下式所示
|f(x)-f(x0)|=b|x-x0|β
(3)
式中,小波系數(shù)在網(wǎng)絡(luò)初始數(shù)據(jù)信號(hào)處的奇異指數(shù)標(biāo)記為β,奇異函數(shù)用|f(x)-f(x0)|表示,噪聲指數(shù)用b表述。函數(shù)平滑結(jié)果越好,說(shuō)明該位置數(shù)據(jù)信號(hào)的奇異指數(shù)越高。
由于分布式網(wǎng)絡(luò)數(shù)據(jù)中白噪聲信號(hào)分布較大,且為隨機(jī)分布形式,因此設(shè)定小波系數(shù)為f(x)∈L2(R),?x∈εx0,且母小波函數(shù)滿足連續(xù)變換特性,從而獲取網(wǎng)絡(luò)數(shù)據(jù)信號(hào)的l階消失矩,結(jié)果如下式所示
(4)
式中,信號(hào)極大模值用|αf(a,x)|表述。最后依據(jù)上述計(jì)算結(jié)果完成網(wǎng)絡(luò)數(shù)據(jù)信號(hào)的小波去噪。
依據(jù)數(shù)據(jù)去噪結(jié)果,使用Fisher理論[8]提取網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征。
2.2.1 獲取數(shù)據(jù)Fisher分值
Fisher理論是基于樣本數(shù)據(jù)距離提取樣本數(shù)據(jù)特征的特征選擇算法,當(dāng)數(shù)據(jù)樣本特征類別距離差最大,同類數(shù)據(jù)樣本距離最小時(shí),可依據(jù)Fisher理論尋找數(shù)據(jù)的最佳樣本特征。
設(shè)定網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)訓(xùn)練集為C={(p1,q1),(p2,q2),…,(px,qx)},特征維度空間表述為d形式,通過(guò)整合,將網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)訓(xùn)練樣本集分成正負(fù)兩個(gè)數(shù)據(jù)集類別,劃分過(guò)程如下式所示
L=wb/ws
(5)
(6)
2.2.2 基于支持向量機(jī)的特征抽取
基于上述獲取的數(shù)據(jù)Fisher分值[9],使用支持向量機(jī)分類算法計(jì)算數(shù)據(jù)訓(xùn)練集,尋找網(wǎng)絡(luò)數(shù)據(jù)最佳權(quán)值e。首先依據(jù)數(shù)據(jù)Fisher分值建立網(wǎng)絡(luò)數(shù)據(jù)的權(quán)值代價(jià)函數(shù)[10],過(guò)程如下式所示
(7)
式中,建立的網(wǎng)絡(luò)數(shù)據(jù)權(quán)值代價(jià)函數(shù)用ming(e)表述,網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)分別表述成qi、pi形式。通過(guò)函數(shù)轉(zhuǎn)換,將網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的二次規(guī)劃問(wèn)題,轉(zhuǎn)換成數(shù)據(jù)的對(duì)偶問(wèn)題,轉(zhuǎn)換過(guò)程如下式所示
(8)
式中,數(shù)據(jù)的對(duì)偶函數(shù)標(biāo)記為minE(φ),對(duì)偶因子標(biāo)記為μi。最后基于上述計(jì)算結(jié)果,獲取數(shù)據(jù)的最優(yōu)分類函數(shù),完成數(shù)據(jù)的特征抽取,過(guò)程如下式所示
(9)
通過(guò)上述網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征的提取,建立網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的馬爾可夫檢測(cè)模型[11],依據(jù)數(shù)據(jù)的訓(xùn)練結(jié)果,確定數(shù)據(jù)的攻擊行為,并使用該模型完成網(wǎng)絡(luò)數(shù)據(jù)的入侵檢測(cè)。
設(shè)定網(wǎng)絡(luò)數(shù)據(jù)入侵特征為r,數(shù)據(jù)訓(xùn)練樣本標(biāo)記為A=A1+A2,且A1為正常樣本數(shù)據(jù),A2為入侵樣本數(shù)據(jù),基于隱馬爾可夫模型固定語(yǔ)法,建立隱馬爾可夫模型,標(biāo)記為M=(W,H,K),其中,數(shù)據(jù)狀態(tài)集表述成W形式,狀態(tài)轉(zhuǎn)移矩陣表述成H,狀態(tài)輸出矩陣表述成K形式,模型輸出概率獲取結(jié)果如下式所示
P(sH|M)=∑wT∈Wsp(L-w1)
p(w1↑s1)p(w1-x2)…p(wM↑sM)
(10)
式中,WT為數(shù)據(jù)狀態(tài)序列值,狀態(tài)集合標(biāo)記成Ws。
基于貝葉斯原理[12],設(shè)定模型得到最大后驗(yàn)概率為P(M|A),依據(jù)相關(guān)模型語(yǔ)法完成后驗(yàn)概率的獲取,過(guò)程如下式所示
(11)
若式中模型概率已知,通過(guò)計(jì)算可獲取數(shù)據(jù)集A的元素概率乘積P(ai|M),結(jié)果如下式所示
(12)
由于模型的復(fù)雜度會(huì)影響模型狀態(tài)以及狀態(tài)轉(zhuǎn)移數(shù)據(jù)量的大小,所以要通過(guò)對(duì)P(M)=(N+1)NH+NK的計(jì)算獲取模型的最佳先驗(yàn)概率值。其中,模型最佳狀態(tài)值標(biāo)記為N,狀態(tài)轉(zhuǎn)移向量表述成NH形式,狀態(tài)輸出標(biāo)記為NK。
基于上述分析結(jié)果可知,模型的求解問(wèn)題可看作為模型的迭代過(guò)程,通過(guò)整合獲取的模型狀態(tài)向量值,完成模型的求解。設(shè)定模型迭代序列為{M1,M2,…,Mk,Mk+1},通過(guò)迭代計(jì)算,尋找出模型的最佳狀態(tài),實(shí)現(xiàn)模型的訓(xùn)練。
設(shè)定模型的異常測(cè)度為sH,獲取結(jié)果如下式所示
η(sH)=-lnP(sH|M)
(13)
式中,獲取的數(shù)據(jù)異常測(cè)度標(biāo)記為η(sH),網(wǎng)絡(luò)數(shù)據(jù)的狀態(tài)概率用P(sH|M)表述。設(shè)定網(wǎng)絡(luò)數(shù)據(jù)狀態(tài)概率P(sH|M)的最佳取值范圍為[0,1],異常測(cè)度值為[0,∞],以此獲取數(shù)據(jù)的異常類型值,過(guò)程如下式所示
A1=arg min[P(A0|A1,τ)+P(A1|A0,τ)]
(14)
式中,劃分系數(shù)標(biāo)記為τ,數(shù)據(jù)異常概率值標(biāo)記為P(A1|A0,τ),正常概率標(biāo)記為P(A0|A1,τ)。
分布式網(wǎng)絡(luò)的入侵?jǐn)?shù)據(jù)檢測(cè)[13,14]流程如下:
1)采集分布式網(wǎng)絡(luò)數(shù)據(jù),使用小波變換方法獲取數(shù)據(jù)信號(hào)奇異值,完成數(shù)據(jù)信號(hào)的去噪處理。
2)使用Fisher理論提取網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征。
3)通過(guò)上述網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)特征[15]的提取,建立網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)的馬爾可夫檢測(cè)模型。
4)通過(guò)對(duì)模型先驗(yàn)概率以及后驗(yàn)概率的獲取,完成模型的訓(xùn)練。
5)將網(wǎng)絡(luò)數(shù)據(jù)放入訓(xùn)練好的模型中進(jìn)行分類,尋找其中的網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù),完成網(wǎng)絡(luò)入侵檢測(cè)。
為了驗(yàn)證上述分布式網(wǎng)絡(luò)入侵檢測(cè)方法的整體有效性,需要對(duì)此方法進(jìn)行測(cè)試。
分別采用面向分布式網(wǎng)絡(luò)入侵檢測(cè)的實(shí)驗(yàn)測(cè)試方法(所提方法)、基于改進(jìn)的深度信念網(wǎng)絡(luò)的入侵檢測(cè)方法(文獻(xiàn)[3]方法)、基于集成深度森林的入侵檢測(cè)方法(文獻(xiàn)[4]方法)進(jìn)行測(cè)試。
在進(jìn)行分布式網(wǎng)絡(luò)入侵檢測(cè)時(shí),可依據(jù)檢測(cè)到的網(wǎng)絡(luò)異常數(shù)據(jù)量以及正常數(shù)據(jù)量完成檢測(cè)方法的檢測(cè)性能。通過(guò)網(wǎng)絡(luò)入侵檢測(cè)時(shí)網(wǎng)絡(luò)攻擊的精準(zhǔn)檢測(cè)數(shù)量σ、正確數(shù)據(jù)誤報(bào)數(shù)量ω、檢測(cè)正確數(shù)量η以及錯(cuò)誤攻擊節(jié)點(diǎn)估計(jì)成正常節(jié)點(diǎn)數(shù)量λ的整合,獲取網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)異常檢測(cè)方法的性能檢測(cè)指標(biāo),分別為網(wǎng)絡(luò)數(shù)據(jù)遭受攻擊時(shí)的正確識(shí)別比例(DR),數(shù)據(jù)正確分類樣本比例(Accuracy)以及檢測(cè)出的攻擊數(shù)據(jù)中真正產(chǎn)生攻擊行為的數(shù)據(jù)比例(precision),獲取過(guò)程如下式所示
(15)
采用上述三種網(wǎng)絡(luò)入侵檢測(cè)方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè),基于上述三種性能檢測(cè)指標(biāo),完成檢測(cè)方法的檢測(cè)性能測(cè)試。
1)檢測(cè)方法的DR值對(duì)比
DR指標(biāo)是測(cè)試網(wǎng)絡(luò)入侵檢測(cè)方法檢測(cè)性能的重要指標(biāo)之一。DR值越大,說(shuō)明檢測(cè)方法的檢測(cè)性能越好,反之則越差。采用上述三種網(wǎng)絡(luò)入侵檢測(cè)方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí),測(cè)試三種方法的DR值,檢測(cè)結(jié)果如圖1所示。
圖1 不同檢測(cè)方法的DR值測(cè)試結(jié)果
分析圖1可知,網(wǎng)絡(luò)數(shù)據(jù)量的增加會(huì)影響檢測(cè)方法的DR值。所提方法在進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí),檢測(cè)出的DR值高于文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法的DR值測(cè)試結(jié)果,文獻(xiàn)[3]方法測(cè)試結(jié)果遠(yuǎn)低于所提方法,略高于文獻(xiàn)[4]方法測(cè)試結(jié)果,文獻(xiàn)[4]方法的測(cè)試結(jié)果不理想。這主要是因?yàn)樗岱椒ㄔ谶M(jìn)行網(wǎng)絡(luò)入侵檢測(cè)前,使用小波變換方法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了去噪處理,所以該方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí)的DR值高。
2)檢測(cè)方法的Accuracy值對(duì)比
在進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí),Accuracy值同樣為檢測(cè)性能的重要指標(biāo),檢測(cè)方法的Accuracy值越高,說(shuō)明檢測(cè)方法的檢測(cè)性能越好,反之則越差?;谏鲜鋈N檢測(cè)方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè),對(duì)比三種方法的Accuracy值,測(cè)試結(jié)果如圖2所示。
圖2 不同檢測(cè)方法的Accuracy值測(cè)試結(jié)果
分析圖2可知,數(shù)據(jù)量的增加會(huì)降低檢測(cè)方法的Accuracy值。所提方法測(cè)試出的Accuracy值會(huì)隨著測(cè)試數(shù)據(jù)量的增加而有所下降,但是當(dāng)數(shù)據(jù)量超出一定范圍后,所提方法會(huì)將Accuracy值測(cè)試結(jié)果穩(wěn)定在固定范圍內(nèi)。文獻(xiàn)[3]方法在測(cè)試前期測(cè)試結(jié)果高于文獻(xiàn)[4]方法的測(cè)試結(jié)果,但是隨著測(cè)試的進(jìn)行,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)增加至30萬(wàn)條時(shí),文獻(xiàn)[4]方法測(cè)試結(jié)果反超文獻(xiàn)[3]方法,僅次于所提方法。由此可知,所提方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí)的Accuracy值高。
3)檢測(cè)方法的precision值對(duì)比
使用所提方法、文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè),測(cè)試三種檢測(cè)方法的precision值,測(cè)試結(jié)果如圖3所示。
圖3 不同檢測(cè)方法的precision值對(duì)比結(jié)果
分析圖3可知,隨著數(shù)據(jù)量的增加,三種檢測(cè)方法的precision值都出現(xiàn)了不同程度的下降趨勢(shì)。所提方法測(cè)試出的precision值高于文獻(xiàn)[3]方法以及文獻(xiàn)[4]方法測(cè)試結(jié)果,文獻(xiàn)[3]方法略低于所提方法,高于文獻(xiàn)[4]方法測(cè)試結(jié)果,文獻(xiàn)[4]方法測(cè)試結(jié)果最差。由此可知所提方法進(jìn)行網(wǎng)絡(luò)入侵檢測(cè)時(shí)的precision值高。
針對(duì)傳統(tǒng)網(wǎng)絡(luò)入侵檢測(cè)方法中存在的問(wèn)題,提出面向分布式網(wǎng)絡(luò)入侵檢測(cè)的實(shí)驗(yàn)測(cè)試方法。該方法首先依據(jù)數(shù)據(jù)去噪結(jié)果提取數(shù)據(jù)特征值;再使用隱馬爾可夫理論建立網(wǎng)絡(luò)入侵檢測(cè)模型;最后通過(guò)該模型完成網(wǎng)絡(luò)的異常數(shù)據(jù)識(shí)別,實(shí)現(xiàn)網(wǎng)絡(luò)的入侵檢測(cè)。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,得出所提方法具有較好的檢測(cè)性能。