梁 碩,韓翔宇,李 慧,王書(shū)強(qiáng)
(1. 邯鄲學(xué)院河北省光纖生物傳感與通信器件重點(diǎn)實(shí)驗(yàn)室,河北 邯鄲 056005;2. 邯鄲學(xué)院信息工程學(xué)院,河北 邯鄲 056005;3. 河北工程大學(xué)信息與電氣工程學(xué)院,河北 邯鄲 056038)
人類正處于信息社會(huì)的偉大時(shí)代,網(wǎng)絡(luò)信息的飛速普及,使其在各個(gè)領(lǐng)域均得到廣泛應(yīng)用。人類利用信息網(wǎng)絡(luò)可以實(shí)現(xiàn)購(gòu)物以及通信等。通過(guò)信息化全面推進(jìn)我國(guó)社會(huì)的進(jìn)步以及經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)進(jìn)步的同時(shí)各種安全隱患也日益明顯。作為網(wǎng)絡(luò)安全保障體系結(jié)構(gòu)的重要組成部分,分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)可以在網(wǎng)絡(luò)系統(tǒng)中的若干關(guān)鍵點(diǎn)收集信息,同時(shí)分析網(wǎng)絡(luò)節(jié)點(diǎn)是否存在異常情況[1-2]。
國(guó)內(nèi)相關(guān)專家針對(duì)分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)方面的內(nèi)容展開(kāi)了大量研究,例如盧光躍等人[3]通過(guò)傳感器位置構(gòu)建近鄰圖信號(hào)模型,將濾波處理前后圖信號(hào)的平滑度比例作為依據(jù)構(gòu)建統(tǒng)計(jì)檢驗(yàn)量,通過(guò)統(tǒng)計(jì)檢驗(yàn)量完成網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)。神顯豪等人[4]對(duì)正常數(shù)據(jù)和注入故障后形成的異常數(shù)據(jù)歸一化后映射形成灰度圖片,將其作為卷積神經(jīng)網(wǎng)絡(luò)輸入特征,通過(guò)卷積層自主學(xué)習(xí)數(shù)據(jù)特征,進(jìn)而實(shí)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)異常數(shù)據(jù)檢測(cè)。董書(shū)琴等人[5]將流量檢測(cè)準(zhǔn)確率為依據(jù),對(duì)隱藏層層數(shù)和每層節(jié)點(diǎn)數(shù)量尋優(yōu)處理,獲取搜索空間內(nèi)最優(yōu)SDA結(jié)構(gòu),引入小批量梯度下降方法對(duì)優(yōu)化后的SDA訓(xùn)練處理,同時(shí)構(gòu)建異常檢測(cè)分類器,通過(guò)分類器完成異常檢測(cè)。但以上方法存在檢測(cè)率以及檢測(cè)時(shí)間不足的問(wèn)題。
為了解決以上方法中存在的問(wèn)題,提出一種基于數(shù)據(jù)挖掘的分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,所提方法不僅能夠準(zhǔn)確檢測(cè)網(wǎng)絡(luò)異常節(jié)點(diǎn),同時(shí)還能夠有效降低檢測(cè)耗時(shí)。
在分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)領(lǐng)域,通常情況下,使用的數(shù)據(jù)具有比較高的區(qū)分能力。引入數(shù)據(jù)挖掘技術(shù)的提取網(wǎng)絡(luò)異常節(jié)點(diǎn)特征,優(yōu)先需要設(shè)定數(shù)據(jù)維度,通過(guò)數(shù)據(jù)挖掘方法在訓(xùn)練集中提取n維數(shù)據(jù),將其轉(zhuǎn)換為k維數(shù)據(jù)。將數(shù)據(jù)集合中的樣本聚合處理形成k個(gè)不連續(xù)的簇,同時(shí)提取不同簇的簇中心,獲取在對(duì)應(yīng)階段的簇中心。
經(jīng)過(guò)不同階段的操作后,將獲取的數(shù)據(jù)集Dk利用一種隨機(jī)分類算法建立一個(gè)挖掘模型。在執(zhí)行任務(wù)數(shù)據(jù)分類過(guò)程中[6-7],需要將數(shù)據(jù)集Dk轉(zhuǎn)換為全新的數(shù)據(jù),根據(jù)挖掘模型獲取對(duì)應(yīng)的分類結(jié)果。
經(jīng)過(guò)上述分析可知,數(shù)據(jù)集中的樣本是以單位展開(kāi)訓(xùn)練操作。將分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)數(shù)據(jù)自動(dòng)劃分為多個(gè)簇,詳細(xì)的操作步驟為:
1)在數(shù)據(jù)集Dk中隨機(jī)選擇k個(gè)數(shù)據(jù)樣本作為k個(gè)簇的初始簇中心集合,對(duì)應(yīng)的集合表達(dá)式如下:
(1)
2)對(duì)于初始簇中心集合Ck中的各個(gè)樣本而言,需要計(jì)算樣本和各個(gè)簇之間的距離,對(duì)比獲取距離最近的簇d(i,j)min,對(duì)應(yīng)的計(jì)算式為:
(2)
式中,V(s,t)代表簇中心總數(shù);Cq(u)代表各個(gè)簇中心的距離總和。
3)重復(fù)上述操作步驟,直至全部簇中心不再發(fā)生任何變化,以均方誤差作為判定依據(jù),構(gòu)建以下形式的目標(biāo)函數(shù)U(x,y):
(3)
式中,ux,y代表平方錯(cuò)誤函數(shù)。
在完成目標(biāo)函數(shù)的建立后,需要將原始數(shù)據(jù)集轉(zhuǎn)換為全新的數(shù)據(jù)集,同時(shí)將維度為n的特征向量應(yīng)用到不同的簇中心內(nèi),直至形成全新的數(shù)據(jù)樣本,確保特征空間內(nèi)的數(shù)據(jù)樣本維度和數(shù)量完全一致。
為了準(zhǔn)確描述不同類型樣本在特征空間內(nèi)的距離遠(yuǎn)近,通過(guò)歐式距離計(jì)算隨機(jī)兩個(gè)數(shù)據(jù)樣本(x1,x2,…,xn)和(u1,u2,…,un)之間的距離dis(x1,u1),對(duì)應(yīng)的計(jì)算式如下:
(4)
在一個(gè)已經(jīng)完成簇類劃分的數(shù)據(jù)集中,樣本xi中的距離是由dis(x1,u1),…,dis(xk,uk)來(lái)計(jì)算。具體而言,將屬于訓(xùn)練集Dk的數(shù)據(jù)樣本距離Dist(xj,uj)定義為式(5)的形式:
(5)
經(jīng)過(guò)數(shù)據(jù)集轉(zhuǎn)換處理后,將獲取的全新訓(xùn)練數(shù)據(jù)集構(gòu)建挖掘模型[8-9],通過(guò)構(gòu)建的挖掘模型提取分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)特征,詳細(xì)的操作步驟如下所示:
(6)
(7)
上式中,mj代表數(shù)據(jù)樣本的總數(shù)。
3)計(jì)算分布式網(wǎng)絡(luò)中任意兩個(gè)數(shù)據(jù)樣本之間的相似程度Sim(xj,uj),也可以通過(guò)隨機(jī)兩個(gè)簇之間的相似程度衡量,對(duì)應(yīng)的計(jì)算式為:
(8)
4)將全部數(shù)據(jù)樣本從高維轉(zhuǎn)換到低維空間內(nèi),通過(guò)計(jì)算一個(gè)數(shù)據(jù)樣本和簇對(duì)應(yīng)中心的距離之和形成全新的特征,也就是獲取分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)特征。
通過(guò)BP神經(jīng)網(wǎng)絡(luò)完成分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)主要模型兩個(gè)部分[10-11],分別為分類器建立和分類器訓(xùn)練。將分布式網(wǎng)絡(luò)劃分為訓(xùn)練集和測(cè)試集兩種。在分類器建立階段,將訓(xùn)練集引入到BP神經(jīng)網(wǎng)絡(luò)中展開(kāi)訓(xùn)練,當(dāng)其達(dá)到設(shè)定的迭代次數(shù)或者滿足精度需求,則終止訓(xùn)練。
BP神經(jīng)網(wǎng)絡(luò)是由三個(gè)部分組成,分別為輸入層、隱含層、輸出層。
設(shè)定a={a1,a2,…,an}代表神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),則神經(jīng)元的輸出loj可以表示為式(11)的形式:
(9)
式中,φij代表神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)維數(shù);θ(m,n)代表神經(jīng)網(wǎng)絡(luò)的連接權(quán)值。
設(shè)定輸出層的輸出為b={b1,b2,…,bn},輸出層各個(gè)神經(jīng)元的輸出bn可以表示為式(10)的形式:
(10)
式中,αij代表神經(jīng)網(wǎng)絡(luò)隱含層的閾值;u(m,n)代表神經(jīng)網(wǎng)絡(luò)的輸出層閾值。
通過(guò)不同層輸出可以獲取對(duì)應(yīng)層的連接權(quán)值矩陣W1和W2,如式(11)和式(12)所示:
(11)
(12)
經(jīng)過(guò)上述分析,BP神經(jīng)網(wǎng)絡(luò)在完成一次正向?qū)W習(xí)過(guò)程,輸出層形成對(duì)應(yīng)的輸出結(jié)果,將獲取的實(shí)際輸出結(jié)果和預(yù)測(cè)結(jié)果兩者對(duì)比,假設(shè)兩者的差值比較大,則誤差呈反向傳播[12-13]。
隨機(jī)給定一組學(xué)習(xí)樣本數(shù)據(jù),設(shè)定f代表數(shù)據(jù)樣本實(shí)際輸入,g代表給定輸入對(duì)應(yīng)的預(yù)期輸出結(jié)果。當(dāng)任意一條數(shù)據(jù)輸入到BP神經(jīng)網(wǎng)絡(luò)后,BP神經(jīng)網(wǎng)絡(luò)的實(shí)際輸出和預(yù)期輸出兩者之間的差值即為網(wǎng)絡(luò)誤差,則誤差可以表示為式(13)的形式
(13)
式中,G(t,v)代表網(wǎng)絡(luò)誤差;τx代表隨機(jī)一條數(shù)據(jù)的方差;p(u,v)代表神經(jīng)元的預(yù)期輸出。
在實(shí)際應(yīng)用過(guò)程中,輸入數(shù)據(jù)是無(wú)數(shù)條的,產(chǎn)生的誤差也是無(wú)限個(gè),所以需要考慮全部產(chǎn)生的總體誤差。展開(kāi)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的主要目的就是將總體誤差下調(diào)至最低。所以,總體誤差可以稱為全部數(shù)據(jù)的方差和,為了確保分類器的性能,必須對(duì)總體優(yōu)化展開(kāi)優(yōu)化調(diào)整。
設(shè)定υ代表BP神經(jīng)網(wǎng)絡(luò)中的隨機(jī)一個(gè)連接權(quán)值,通過(guò)梯度下降方法求解BP神經(jīng)網(wǎng)絡(luò)權(quán)值的修正量Δτ(x,y):
(14)
式中,Δτ(x,y)代表BP神經(jīng)網(wǎng)絡(luò)權(quán)值的修正量;β(x,y)代表學(xué)習(xí)率;ρ(u,v)代表訓(xùn)練總次數(shù);η(x,y)代表預(yù)期輸出差距;l(x,y)代表期望輸出差距。
在BP神經(jīng)網(wǎng)絡(luò)中,需要對(duì)數(shù)據(jù)樣本多次學(xué)習(xí)有效提升模型的泛化性,其中,模型對(duì)樣本學(xué)習(xí)的次數(shù)就是迭代次數(shù)。每次迭代均代表模型對(duì)樣本特征的學(xué)習(xí)程度。在學(xué)習(xí)過(guò)程中,還需要特別注意一個(gè)問(wèn)題,學(xué)習(xí)次數(shù)過(guò)多會(huì)導(dǎo)致迭代次數(shù)增加,模型出現(xiàn)過(guò)擬合現(xiàn)象,會(huì)降低檢測(cè)結(jié)果的準(zhǔn)確性。為了有效避免上述問(wèn)題的發(fā)生,需要尋找最佳迭代次數(shù),引入Hebb學(xué)習(xí)規(guī)則執(zhí)行尋優(yōu),詳細(xì)的學(xué)習(xí)規(guī)則如式(15)所示:
(15)
式中,H(x,y,z)代表神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則;?t代表神經(jīng)元的活躍系數(shù)。
對(duì)應(yīng)離散時(shí)間的學(xué)習(xí)規(guī)則可以表示為式(16)的形式:
(16)
基于分布式的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過(guò)程如下所示:
1)對(duì)神經(jīng)網(wǎng)絡(luò)中的全部參數(shù)初始化處理;
2)完成第1個(gè)樣本向量接收后,需要在神經(jīng)網(wǎng)絡(luò)中加入一個(gè)神經(jīng)元,同時(shí)設(shè)定對(duì)應(yīng)的初值;
3)判斷學(xué)習(xí)是否接收,假設(shè)是,則停止學(xué)習(xí);反之,則需要接收一個(gè)新的樣本向量,同時(shí)返回步驟2)。
對(duì)于單層的分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)而言[14-15],只可以執(zhí)行誤用或者異常檢測(cè),對(duì)于功能比較強(qiáng)大的異常節(jié)點(diǎn)而言,具有一定的局限性。經(jīng)過(guò)上述分析,采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器,分類器的詳細(xì)組成結(jié)構(gòu)如圖1所示。
圖1 基于BP神經(jīng)網(wǎng)絡(luò)的分類器組成結(jié)構(gòu)
為了得到更加滿意的檢測(cè)效果,對(duì)分類器優(yōu)化處理,優(yōu)先設(shè)定一個(gè)相似度閾值,則多個(gè)分類器之間的相似度矩陣Timt×t如式(17)所示:
(17)
將n個(gè)分類器劃分到同一個(gè)類中,進(jìn)而獲取初始類。同時(shí)計(jì)算全部分類器之間的相似度,選取相似度取值比較大的分類器,將其合并到一個(gè)類內(nèi),形成一個(gè)全新的分類器,即優(yōu)化處理后的分類器。將2.1小節(jié)提取到的特征全部輸入到分類器內(nèi),完成分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)。
為了驗(yàn)證基于數(shù)據(jù)挖掘的分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)方法(所提方法)的有效性,實(shí)驗(yàn)測(cè)試在VS2005平臺(tái)下完成。
對(duì)分布式網(wǎng)絡(luò)中的全部節(jié)點(diǎn)數(shù)據(jù)匯總處理,采用所提方法、基于圖信號(hào)處理的無(wú)線傳感器網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)算法(參考文獻(xiàn)[3]方法)與基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)節(jié)點(diǎn)異常數(shù)據(jù)檢測(cè)方法(參考文獻(xiàn)[4]方法)對(duì)節(jié)點(diǎn)狀態(tài)測(cè)試,實(shí)驗(yàn)結(jié)果如表1所示:
表1 不同方法對(duì)分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)狀態(tài)測(cè)試
分析表1中的實(shí)驗(yàn)數(shù)據(jù)可知,采用所提方法可以準(zhǔn)確判斷分布式網(wǎng)絡(luò)節(jié)點(diǎn)的運(yùn)行狀態(tài),而另外兩種方法獲取的判斷結(jié)果并不準(zhǔn)確,進(jìn)而全面驗(yàn)證了所提方法的優(yōu)越性。
驗(yàn)證集為2000組隨機(jī)分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)數(shù)據(jù),訓(xùn)練后分別對(duì)比三種不同方法的檢測(cè)率和檢測(cè)耗時(shí),詳細(xì)的實(shí)驗(yàn)測(cè)試結(jié)果如圖2所示。
圖2 分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)率測(cè)試結(jié)果對(duì)比
分析圖2中的實(shí)驗(yàn)數(shù)據(jù)可知,隨著節(jié)點(diǎn)數(shù)量增加,對(duì)應(yīng)各個(gè)方法的檢測(cè)率也在不斷發(fā)生變化。所提方法的異常節(jié)點(diǎn)檢測(cè)率在90%以上,而其它兩種方法的檢測(cè)率低于所提方法。由此可以得出,所提方法的分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)率最高,說(shuō)明所提方法具有良好的檢測(cè)性能。
分析圖3中的實(shí)驗(yàn)數(shù)據(jù)可知,各個(gè)檢測(cè)方法的檢測(cè)耗時(shí)會(huì)隨著節(jié)點(diǎn)數(shù)量的增加而增加。在三種方法中,所提方法的檢測(cè)耗時(shí)明顯更低一些,保持在1.50s內(nèi),而參考文獻(xiàn)[3]方法與參考文獻(xiàn)[4]方法的耗時(shí)高于所提方法。由此可以得出,所提方法能夠以最短的時(shí)間檢測(cè)出分布式網(wǎng)絡(luò)中的異常節(jié)點(diǎn)。
圖3 不同方法的檢測(cè)耗時(shí)測(cè)試結(jié)果對(duì)比
為了準(zhǔn)確檢測(cè)出分布式網(wǎng)絡(luò)異常節(jié)點(diǎn),提出一種基于數(shù)據(jù)挖掘的分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)方法。通過(guò)數(shù)據(jù)挖掘技術(shù),提取網(wǎng)絡(luò)異常節(jié)點(diǎn)特征。采用BP神經(jīng)網(wǎng)絡(luò),完成分布式網(wǎng)絡(luò)異常節(jié)點(diǎn)檢測(cè)。實(shí)驗(yàn)證明,所提方法不僅可以準(zhǔn)確檢測(cè)分布式異常網(wǎng)絡(luò)節(jié)點(diǎn),同時(shí)還可以提升檢測(cè)效率。雖然所提方法取得了比較滿意的成果,但是仍然存在不足,在未來(lái)的研究中,可以引入更多優(yōu)質(zhì)的數(shù)據(jù)挖掘方法。