任立勝,陳紅紅,包永紅
(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)技術(shù)與信息管理系,內(nèi)蒙古 呼和浩特 010018)
隨著科學(xué)技術(shù)的快速發(fā)展與網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)異常事件也變得越來越頻繁。為了創(chuàng)造性能與安全相互平衡[1]的運(yùn)行環(huán)境,人們對網(wǎng)絡(luò)異常行為的識(shí)別技術(shù)提出了更高的要求,不僅要求識(shí)別技術(shù)的精度高,還要求其具備優(yōu)良的準(zhǔn)確性。其中的關(guān)鍵就是對網(wǎng)絡(luò)異常行為識(shí)別技術(shù)做出升級和優(yōu)化[2]。通過上述分析可知網(wǎng)絡(luò)異常行為識(shí)別方法成為目前亟需解決的問題和人們研究的熱點(diǎn)。
王澤偉[3]等人在先驗(yàn)知識(shí)的基礎(chǔ)上構(gòu)建基于時(shí)空融合的雙層卷積神經(jīng)網(wǎng)絡(luò)模型,然后將網(wǎng)絡(luò)流量的連續(xù)光流幀作為模型的輸入向量,最后將模型遷徙學(xué)習(xí)算法投入到模型中加快迭代次數(shù),完成網(wǎng)絡(luò)異常行為的識(shí)別。該方法沒有剔除網(wǎng)絡(luò)行為流量中的噪聲,導(dǎo)致方法的異常識(shí)別準(zhǔn)確率較低。李偉[4]等人首先將深度學(xué)習(xí)算法與半監(jiān)督模式融合,得到關(guān)于網(wǎng)絡(luò)流量的雙極殘差,并以此構(gòu)建出雙極殘差神經(jīng)網(wǎng)絡(luò)模型,然后將該模型作為網(wǎng)絡(luò)異常行為識(shí)別的核心模型,在模型中標(biāo)記出網(wǎng)絡(luò)流量的特征,最后采用擾動(dòng)混合算法生成具有差異性的分類器,并將特征輸入到分類器中,通過加權(quán)增量學(xué)習(xí)算法實(shí)現(xiàn)流量的狀態(tài)分類,完成網(wǎng)絡(luò)異常行為的識(shí)別。該方法沒有在訓(xùn)練模型中引入核函數(shù),導(dǎo)致方法的訓(xùn)練精度低、進(jìn)而導(dǎo)致網(wǎng)絡(luò)異常行為識(shí)別精度低。袁麗欣[5]等人首先提取網(wǎng)絡(luò)流量的內(nèi)容、屬性、分布情況作為三大特征向量,然后將特征向量輸入到XGBoots分類器中完成向量的隨機(jī)選擇,最后在分類器的基礎(chǔ)上構(gòu)建GBM分類模型實(shí)現(xiàn)網(wǎng)絡(luò)流量的類型分類,完成網(wǎng)絡(luò)異常行為的識(shí)別。該方法沒有消除網(wǎng)絡(luò)流量中存在的噪聲數(shù)據(jù),導(dǎo)致方法的異常行為識(shí)別準(zhǔn)確率較低。
為了解決上述方法中存在的問題,提出基于流量行為特征的網(wǎng)絡(luò)異常行為識(shí)別方法。
為了避免網(wǎng)絡(luò)流量中的噪聲對異常行為識(shí)別過程產(chǎn)生干擾,首先采用提升小波變換法剔除網(wǎng)絡(luò)流量中的噪聲[6]。提升小變換法的流程如圖1所示。
圖1 提升小波變換降噪法流程
具體步驟如下:
1)利用提升小波變換法處理網(wǎng)絡(luò)中的流量時(shí),根據(jù)小波變換的奇偶互相關(guān)性[7]可以將網(wǎng)絡(luò)流量序列分裂成奇數(shù)序列與偶數(shù)序列,公式如下所示:
split(Ri)=[pi-1,qi-1]
(1)
式中,split表示分裂函數(shù);Ri表示第i個(gè)流量序列;p表示偶數(shù)序列;q表示奇數(shù)序列。
2)在網(wǎng)絡(luò)流量的奇數(shù)序列與偶數(shù)序列之間,必然存在一定的關(guān)聯(lián)性,因此可以利用奇數(shù)序列來預(yù)測和控制偶數(shù)序列。此時(shí)需要引入預(yù)測因子,公式如下所示:
ei-1=qi-1-Q(pi-1)
(2)
式中,e表示預(yù)測值與實(shí)際值之間的相對誤差;Q表示引入的預(yù)測因子。
3)近似系數(shù)作為網(wǎng)絡(luò)流量中的低頻組成部位,可以通過引入更新因子[8]來獲取近似系數(shù)。然后重復(fù)實(shí)行步驟1)與步驟2),可以獲得網(wǎng)絡(luò)流量的多級分解。分解公式如下所示:
Ri=V(ei-1)+pi-1
(3)
式中,V表示引入的更新因子。
4)將完成多級分解后的網(wǎng)絡(luò)流量重新融合,通過該融合過程實(shí)現(xiàn)噪聲的剔除,完成網(wǎng)絡(luò)流量的降噪處理,公式如下所示:
(4)
式中,merge表示融合函數(shù)。
針對降噪后的網(wǎng)絡(luò)流量,采用矢量量化技術(shù)與主題模型算法提取其中的行為特征[9,10],具體步驟如下:
1)將降噪后的網(wǎng)絡(luò)流量劃分成若干簇(以量化失真作為終止劃分的依據(jù)條件),然后將簇的中心點(diǎn)作為新的簇頭不斷劃分,直到相鄰兩次的劃分結(jié)果量化失真率小于基本閾值。公式如下所示:
(5)
式中,a表示網(wǎng)絡(luò)流量樣本集合;aj表示第j個(gè)網(wǎng)絡(luò)流量樣本;D表示簇間樣本點(diǎn)的距離;α表示量化失真程度;l表示迭代次數(shù);m表示劃分總次數(shù);n表示樣本點(diǎn)的總數(shù)量。
2)在劃分好的簇中,一般存在兩個(gè)平行不相交的序列,分別用I和P表示。則每一個(gè)(I,P)對應(yīng)著一個(gè)網(wǎng)絡(luò)流量行為特征項(xiàng),然后將矢量量化算法引入到行為特征項(xiàng)中,可以得到網(wǎng)絡(luò)流量的特征量序列。公式如下所示:
(6)
3)基于矢量量化技術(shù)與主題模型的特征提取方法,將網(wǎng)絡(luò)流量的特征量序列輸入到主題模型中,從中提取出流量的行為特征。主題模型的表達(dá)方式如下所示:
(7)
式中,β表示條件概率;u表示概率分布;v表示潛在參數(shù);s表示特征量序列中的詞匯組合;Dirichlet表示狄利克雷函數(shù);χ表示均勻分布的控制參數(shù)。
4)主題模型的運(yùn)算是在不同主題的概率分布程度上實(shí)現(xiàn)的,為此引入吉布斯抽樣法[11]計(jì)算出網(wǎng)絡(luò)流量隱含主題的分布概率,完成網(wǎng)絡(luò)流量行為特征的提取,公式如下所示:
u(β,v,s)=u(β|χ)∏u(s|v,D)
(8)
將提取的流量行為特征輸入到支持向量機(jī)中,通過向量機(jī)的二分類結(jié)果實(shí)現(xiàn)網(wǎng)絡(luò)異常行為的識(shí)別,原理如圖2所示。
圖2 支持向量機(jī)的二分類原理
具體步驟如下:
作為不同屬性的構(gòu)成矢量,所提取的流量行為特征具有不同維度的分布取值范圍。首先采用歸一化算法使不同維度的流量行為特征值映射[12]到同一維度中,得到具有相同量綱的流量行為特征,公式如下所示:
(9)
式中,b′表示特征值集合中的歸一化值;b表示特征集合中的任意特征;maxb表示集合中該類特征的最大值;minb表示集合中該類特征的最小值。
利用支持向量機(jī)對網(wǎng)絡(luò)流量行為特征分類過程中,將提取的流量行為特征的每一個(gè)字節(jié)作為輸入向量,將一個(gè)循環(huán)周期作為迭代計(jì)算的完整流程,可用如下公式表示:
z={T,ID,b1,b2,…}
(10)
式中,z表示支持向量機(jī)的輸入向量;T表示循環(huán)周期;ID表示網(wǎng)絡(luò)中的消息。
將網(wǎng)絡(luò)中的流量狀態(tài)標(biāo)簽自定義為k∈[-1,1],其中,1代表流量正常行為;-1表示流量異常行為。在支持向量機(jī)中投入非線性約束條件,公式如下所示:
(11)
式中,φ表示松弛系數(shù);ε、g均表示分類超平面參數(shù)。
由于網(wǎng)絡(luò)流量行為特征中的參數(shù)具有非線性性質(zhì),因此需要引入核函數(shù)[13]將流量行為特征重新映射到新的空間。本文中核函數(shù)選取的是徑向基函數(shù),公式如下所示:
(12)
式中,H表示核函數(shù)(徑向基函數(shù));φ表示映射方式。
在核函數(shù)的基礎(chǔ)上,計(jì)算出支持向量機(jī)在分類超平面中的對偶分裂形式[14],公式如下所示:
(13)
式中,s.t.表示約束性質(zhì);E表示最佳參數(shù)。
最佳參數(shù)值可以通過訓(xùn)練樣本集中的網(wǎng)格搜索得到,而在支持向量機(jī)模型中由超平面唯一的解(ε*,z*)決定,公式如下所示:
(14)
得到最佳參數(shù)值后,輸出支持向量機(jī)的分類結(jié)果x,將結(jié)果為1的網(wǎng)絡(luò)流量視為正常行為;結(jié)果為-1的網(wǎng)絡(luò)流量視為異常行為,完成網(wǎng)絡(luò)異常行為的識(shí)別[15]。分類結(jié)果的公式如下所示:
x=sign[∑bkH(b)+g]
(15)
為了驗(yàn)證所提方法的整體有效性,需要對其進(jìn)行如下測試。自主開發(fā)并搭建模擬實(shí)驗(yàn)臺(tái),為各個(gè)方法的網(wǎng)絡(luò)異常行為識(shí)別測試提供硬件基礎(chǔ)與軟件條件。其中各個(gè)硬件系統(tǒng)參數(shù)如下:CPU型號(hào)i5-12400F、內(nèi)存128GB、處理內(nèi)核12(8+4)、Windows10主顯示器、實(shí)驗(yàn)平臺(tái)MatlabR2015a。
為了保證實(shí)驗(yàn)的公正性與主觀性,測試分別在三組數(shù)據(jù)集中完成。其中MAWILAB數(shù)據(jù)集是由網(wǎng)絡(luò)流量數(shù)據(jù)與其對應(yīng)的標(biāo)簽文檔生成的、ISP數(shù)據(jù)集是來自于2021年某物流公司采集的流量數(shù)據(jù)、ISCX數(shù)據(jù)集是由固定規(guī)則的系統(tǒng)生成。這些數(shù)據(jù)集中的異常樣本是由網(wǎng)絡(luò)特定領(lǐng)域下的標(biāo)準(zhǔn)來定義的,實(shí)驗(yàn)數(shù)據(jù)集的具體參數(shù)如表1所示。
表1 不同的實(shí)驗(yàn)數(shù)據(jù)集參數(shù)
將識(shí)別精度(AUC-ROC)、識(shí)別準(zhǔn)確率(AUC-PR)作為評價(jià)指標(biāo),對所提方法、文獻(xiàn)[3]方法和文獻(xiàn)[4]方法進(jìn)行對比測試。
1)AUC-ROC
AUC-ROC是表示各個(gè)方法在網(wǎng)絡(luò)異常行為識(shí)別結(jié)果中,真陽率與假陽率之間的變動(dòng)曲線與坐標(biāo)軸所包圍的面積。其值越高,表明方法的識(shí)別精度越高;其值越低,表明方法的識(shí)別精度越低。
分別采用上述三種方法識(shí)別三組實(shí)驗(yàn)數(shù)據(jù)集,對比不同方法的AUC-ROC數(shù)值,測試結(jié)果分別如圖3(a)、圖3(b)、圖3(c)所示。
圖3 AUC-ROC測試結(jié)果
分析圖3可知,無論針對哪組數(shù)據(jù)集的異常行為識(shí)別,所提方法的AUC-ROC數(shù)值均高于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的AUC-ROC數(shù)值,說明針對網(wǎng)絡(luò)異常行為的識(shí)別,所提方法的識(shí)別精度高于文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的識(shí)別精度。這是因?yàn)樗岱椒ㄔ诋惓P袨樽R(shí)別之前,首先采用提升小波變換法剔除網(wǎng)絡(luò)流量中的噪聲,避免識(shí)別過程受到的噪聲干擾,以此降低噪聲對識(shí)別效果的影響。
2)AUC-PR
AUC-PR是指各個(gè)方法在網(wǎng)絡(luò)異常行為識(shí)別結(jié)果中,準(zhǔn)確率與召回率之間的曲線與坐標(biāo)軸之間的面積,是評價(jià)各個(gè)方法對異常樣本的識(shí)別能力,其值越高,表明方法的識(shí)別準(zhǔn)確率越高;其值越低,表明方法的識(shí)別準(zhǔn)確率越低。
進(jìn)一步采用上述三種方法識(shí)別三組實(shí)驗(yàn)數(shù)據(jù)集,對比不同方法的AUC-PR數(shù)值,測試結(jié)果分別如圖4(a)、圖4(b)、圖4(c)所示。
由圖4可知,針對網(wǎng)絡(luò)異常行為的識(shí)別,無論在哪組數(shù)據(jù)集測試中,所提方法的AUC-PR數(shù)值均高于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法的AUC-PR數(shù)值,說明所提方法的異常行為識(shí)別準(zhǔn)確率高于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法的識(shí)別準(zhǔn)確率。且該方法的AUC-PR數(shù)值比較穩(wěn)定,沒有出現(xiàn)明顯波動(dòng),而文獻(xiàn)[3]方法與文獻(xiàn)[4]方法的AUC-PR數(shù)值上下波動(dòng)較大,說明所提方法的準(zhǔn)確率穩(wěn)定性強(qiáng)于文獻(xiàn)[3]方法與文獻(xiàn)[4]方法的穩(wěn)定性。
所提方法在對網(wǎng)絡(luò)異常行為識(shí)別過程中,采用了提升小波變換法剔除了網(wǎng)絡(luò)流量中的噪聲,預(yù)處理后的網(wǎng)絡(luò)流量消除了自身的冗余數(shù)據(jù),進(jìn)而在識(shí)別過程中不受噪聲數(shù)據(jù)的影響,在一定程度上提高了方法的異常行為識(shí)別準(zhǔn)確率。
目前網(wǎng)絡(luò)異常行為識(shí)別方法存在識(shí)別精度低、識(shí)別準(zhǔn)確率低等問題。為此提出基于流量行為特征的網(wǎng)絡(luò)異常行為識(shí)別方法。采用提升小波變換法剔除了網(wǎng)絡(luò)流量中的噪聲,然后采用矢量量化技術(shù)與主題模型算法提取其中的特征,最后將特征輸入到支持向量機(jī)模型中實(shí)現(xiàn)分類,完成網(wǎng)絡(luò)異常行為的識(shí)別。提高了識(shí)別精度和識(shí)別準(zhǔn)確率的同時(shí),在一定程度上為網(wǎng)絡(luò)識(shí)別技術(shù)奠定了基礎(chǔ)。雖然所提方法具有一定的有效性,但是由于網(wǎng)絡(luò)中的惡意行為類型隨著攻擊技術(shù)的發(fā)展逐漸增多,因此,接下來將進(jìn)一步研究面向更多惡意行為識(shí)別的方法,以提升所提方法的應(yīng)用范圍與應(yīng)用效果。