劉冰
摘要:多層傳感網(wǎng)由于其不同層次的異常特征差異較大,導(dǎo)致其異常數(shù)據(jù)識別存在一定的困難。傳統(tǒng)的識別方法多以數(shù)據(jù)流量異常為參照指標(biāo),并在建模過程中需要明確不同層次之間的關(guān)聯(lián),否則就無法設(shè)置檢測閾值,因此導(dǎo)致了誤報警情況頻發(fā)。該文提出將貝葉斯信念網(wǎng)絡(luò)引入到多層傳感網(wǎng)異常數(shù)據(jù)檢測模型中,并通過評估函數(shù)來測試不同的網(wǎng)絡(luò)結(jié)構(gòu)與多層傳感網(wǎng)中某一層的契合度,隨后采用壓縮候選方法來分析異常數(shù)據(jù)間的依賴關(guān)系,從而對采集到的數(shù)據(jù)樣本進(jìn)行篩選,最終挖掘出異常數(shù)據(jù)。
關(guān)鍵詞:多層傳感網(wǎng);異常數(shù)據(jù);數(shù)據(jù)挖掘;識別模型
中圖分類號:TP393? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)22-0189-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
多層傳感網(wǎng)在現(xiàn)代工業(yè)生產(chǎn)的實(shí)時監(jiān)控領(lǐng)域內(nèi)發(fā)揮了重要的作用,是動態(tài)調(diào)節(jié)設(shè)備運(yùn)轉(zhuǎn)狀態(tài),保障生產(chǎn)水平的主要方式之一。隨著精細(xì)化控制理念的提出,監(jiān)控系統(tǒng)對數(shù)據(jù)采集與分析的標(biāo)準(zhǔn)不斷提高,多層傳感網(wǎng)的異常數(shù)據(jù)導(dǎo)致的負(fù)面影響日益突出,傳統(tǒng)的異常檢測方法誤警率高,且檢出率也不甚理想,迫切需要改進(jìn)。目前,借助高效的數(shù)據(jù)挖掘技術(shù),對網(wǎng)絡(luò)中多層傳感器故障數(shù)據(jù)進(jìn)行可靠的識別與分類已經(jīng)成了該領(lǐng)域內(nèi)研究的熱點(diǎn)。多層傳感網(wǎng)最大的特點(diǎn)就是其不同層次的異構(gòu)性較大,因而也導(dǎo)致了不同層次內(nèi)由于傳感器故障而監(jiān)測到的異常數(shù)據(jù)特征多樣化,這也是典型的故障特征“斷層”問題的根本原因。
2 多層傳感網(wǎng)異常數(shù)據(jù)檢測機(jī)制分析
多層傳感網(wǎng)目前已經(jīng)得到了廣泛應(yīng)用,尤其在一些特殊環(huán)境下,更是控制系統(tǒng)獲取被控對象實(shí)時狀態(tài)信息的首選模式。由于多層傳感網(wǎng)本身的復(fù)雜性和異構(gòu)性,導(dǎo)致監(jiān)測信息無法快速的與其對應(yīng)的被控對象之間形成映射關(guān)聯(lián),增加了分析的難度。傳統(tǒng)的基于數(shù)據(jù)流量異常的檢測模式主要流程如下:
首先引入干擾因子[β∈[0,1]],其作用是對決策樹的分類質(zhì)量進(jìn)行評估,通過對該參數(shù)的計(jì)數(shù)實(shí)現(xiàn)對樣本的采樣次數(shù)進(jìn)行調(diào)整,同時根據(jù)該參數(shù)的取值與偏差節(jié)點(diǎn)同根節(jié)點(diǎn)之間的差距,與樹深(出現(xiàn)誤差的層數(shù))相映射,從而描述當(dāng)前節(jié)點(diǎn)分類的誤差程度,顯然,當(dāng)[β]=1時表示分類正確。其次,當(dāng)前節(jié)點(diǎn)的[β]值比之前節(jié)點(diǎn)更加趨向于0時,表明分類誤差加劇,此時構(gòu)造替代子樹來改善分類質(zhì)量:在初始屬性分叉處,若新樣本屬性模糊信息增益相對較大,則以其為根節(jié)點(diǎn),構(gòu)造一棵新的子樹。最后,為了實(shí)現(xiàn)對替代子樹的約束,確保其落在合理的分類范圍之內(nèi),也需要評價該子樹的分類精確度,并同原樹相比,根據(jù)增量來靈活的調(diào)整子樹的[β]值。
該流程中最關(guān)鍵的環(huán)節(jié)就是需要在滑動窗口中設(shè)定一個閾值[ξ],設(shè)滑動窗口涵蓋的樣本群體個數(shù)為[W],而[W]為干擾因子計(jì)數(shù)[βcount],規(guī)定當(dāng)[W≤ξ]時,判定節(jié)點(diǎn)性能異常,需進(jìn)行糾正,通過替代子樹縮小滑動窗口,直至[W>ξ]。由此可見,對于該檢測方法而言,最關(guān)鍵的就是選取合適的閾值[ξ],從而保障判定結(jié)果的準(zhǔn)確性。但多層傳感網(wǎng)由于其異構(gòu)性較大,因此很難確定一個合理的定值[ξ],這也是傳統(tǒng)檢測方法普遍質(zhì)量不高的重要原因。
3 基于貝葉斯信念網(wǎng)絡(luò)的檢測模型優(yōu)化方案
傳感器網(wǎng)絡(luò)異常的主要原因是傳感器節(jié)點(diǎn)出現(xiàn)故障,從而發(fā)出了異常突變的信號,并導(dǎo)致一系列的連鎖反應(yīng),最終使得監(jiān)測模型發(fā)生重大的偏差。由于該過程動態(tài)性極強(qiáng),因此很難通過傳統(tǒng)方法進(jìn)行自適應(yīng)的判定。貝葉斯網(wǎng)絡(luò)可通過概率描述數(shù)據(jù)集內(nèi)所有樣本之間的關(guān)聯(lián),而個別數(shù)據(jù)的丟失或異常不會改變整體的描述結(jié)論,從而也不會對分類結(jié)果產(chǎn)生影響。因此,將貝葉斯信念網(wǎng)絡(luò)的理念引入到多層傳感網(wǎng)的異常檢測模型當(dāng)中,可顯著的提高檢測機(jī)制的動態(tài)性與準(zhǔn)確性,有效的改善誤報警現(xiàn)象。
3.1 貝葉斯信念網(wǎng)絡(luò)原理
定義1:對于一個任意樣本集[x=X1,X2,…Xn],若其中的一條聯(lián)合條件概率散布,則有:
[B=G,θ]? ? ? ? ? ? ? ? ? (1)
上式中,[X]為某一單一樣本,用m維向量表示;[G]為有向無環(huán)圖,該圖頂點(diǎn)即為樣本集中的某個樣本,弧度的大小則用以表示函數(shù)依賴關(guān)系的高低;θ代表建模過程中預(yù)定的參數(shù)組合。
定義2:如果有一條弧從變量Y連接到了X,則Y是X的雙親或者直接前驅(qū),反之則為其后繼。節(jié)點(diǎn)群中任一節(jié)點(diǎn),除了與其后繼節(jié)點(diǎn)構(gòu)建關(guān)聯(lián)外,與其他節(jié)點(diǎn)均保持獨(dú)立。[G]中某個節(jié)點(diǎn)[Xi]的所有前驅(qū)節(jié)點(diǎn)構(gòu)建的集合為[Pa(Xi)]。
定義3:對于所有的[Xi],[Pa(Xi)]的取值[x1]存在以下參數(shù):[θxi/Pa(Xi)=P(xiPa(Xi))],則貝葉斯信念網(wǎng)絡(luò)給定的變量集合[Xi]上的聯(lián)合條件概率分布為:
[PB(X1,X2,…Xn)=i=1nPB(xiPa(Xi))]? ? ? ? ? ?(2)
3.2 異常識別模型的設(shè)計(jì)
將貝葉斯算法引入到多層傳感網(wǎng)異常識別模型中,可將其作用過程描述如下:首先將樣本集[D=x1,x2,…xn]定義為一組故障數(shù)據(jù)訓(xùn)練樣本,其中[xi]是X的實(shí)例,根據(jù)貝葉斯網(wǎng)絡(luò)的運(yùn)算機(jī)制,可通過一個估算函數(shù)[S(B|D)]來完成針[xi]的貝葉斯網(wǎng)絡(luò)的構(gòu)建,同時也運(yùn)用該函數(shù)來評價任意一種網(wǎng)絡(luò)拓?fù)渑c故障數(shù)據(jù)樣本間的適應(yīng)度,從而收斂至一個最符合的解,即在所有可能的網(wǎng)絡(luò)拓?fù)洚?dāng)中,是硬度最高的故障數(shù)據(jù)樣本。在傳統(tǒng)的貝葉斯網(wǎng)絡(luò)算法中,其搜索機(jī)制必須在雙親變量的n-1個候選節(jié)點(diǎn)中遍歷,而并沒有充分利用變量之間的關(guān)聯(lián)特征,導(dǎo)致了大量的無效計(jì)算,提高了算法的空間復(fù)雜度,因此效果不好。本文提出在父節(jié)點(diǎn)之間設(shè)置互斥關(guān)聯(lián),從而大幅壓縮查詢規(guī)模的優(yōu)化思路,即通過一個依賴度量函數(shù)[H(X,Y)]來評估兩個多層傳感器故障數(shù)據(jù)[(X,Y)]間的依賴程度,[H(X,Y)]值越大,關(guān)聯(lián)性越強(qiáng),其成為父子的可能性就越大,反之亦然。根據(jù)[H(X,Y)]的計(jì)算,可以掌握所有傳感器異常數(shù)據(jù)間的關(guān)聯(lián)性,并快速獲取某個樣本[Xi]的所有父節(jié)點(diǎn)數(shù)據(jù),并對其進(jìn)行集中檢索。改進(jìn)后的識別模型算法如下:
Step 1:設(shè)置輸入端,構(gòu)建多層傳感網(wǎng)異常數(shù)據(jù)集[D=x1,x2,…xn]中某一樣本的貝葉斯信念網(wǎng)絡(luò)[Bn],設(shè)定估算函數(shù)[S(B|D)]和參數(shù)k。
Step 2:設(shè)置輸出端,對任意的異常數(shù)據(jù)樣本[Xi],返回一個k候選父集[Ci]。
Step 3:針對樣本集中的任意樣本[Xj],計(jì)算[H(Xi,Xj),Xi≠Xj]。
Step 4:選擇計(jì)算結(jié)果中權(quán)值最高的的k-1個樣本,[l=|Pa(Xi)|],候選集合[Ci=Pa(Xi)Y{X1,X2,…,Xk-1}]返回[Ci]。
4 實(shí)驗(yàn)與分析
為論證本文提出的優(yōu)化模型在多層傳感網(wǎng)異常數(shù)據(jù)的檢測過程中能夠發(fā)揮其作用,特進(jìn)行模擬實(shí)驗(yàn)。模擬環(huán)境為VisualC++6.0。預(yù)定采集到的樣本總數(shù)為n,所有數(shù)據(jù)的特征由集合[g1,g2,…,gm]描述,樣本群中包含的異常數(shù)據(jù)規(guī)模為p,所有數(shù)據(jù)的平均散布系數(shù)是μ。采用下式評價異常檢出的正確率:
[Ψ=n-pg2i-μ×100%]? ? ? ? ? ? ? ? (3)
為了對比分析本文方法的有效性,引入傳統(tǒng)的檢測方法作為參照,共同完成了10輪模擬測試,并將數(shù)據(jù)匯總,如表1所示。
效果對比如圖1所示。
通過對比分析后可以發(fā)現(xiàn),本文提出的優(yōu)化模型明顯提高了對異常數(shù)據(jù)檢出的準(zhǔn)確率,得益于貝葉斯信念網(wǎng)絡(luò)在多維特征解間的關(guān)聯(lián)分析能力,模型可以更加合理的評估某條樣本出現(xiàn)異常的概率,同時也基于本文提出的父節(jié)點(diǎn)關(guān)聯(lián)互斥方法,模型的計(jì)算規(guī)模得到了有效的壓縮,使得整個算法的復(fù)雜度并未提高。
5 結(jié)論
目前,隨著各種智能算法的不斷提出,對于大規(guī)模數(shù)據(jù)的實(shí)時監(jiān)控能力得到了顯著的加強(qiáng)。多層傳感網(wǎng)由于層數(shù)多,傳感器種類差異大,因此其故障特征多樣,導(dǎo)致數(shù)據(jù)異常的種類較多,很難采用統(tǒng)一的檢測標(biāo)準(zhǔn)進(jìn)行評測,因此異常檢出率不高,且誤報警情況一直無法得到有效控制。本文提出的基于貝葉斯信念網(wǎng)絡(luò)的多層傳感網(wǎng)異常數(shù)據(jù)檢測模型,充分利用了貝葉斯信念網(wǎng)絡(luò)強(qiáng)大的樣本關(guān)聯(lián)能力,以及對多個樣本進(jìn)行聯(lián)立評估的方法,有效改善了原本針對孤立樣本進(jìn)行單獨(dú)評價的機(jī)制造成的問題,通過評估函數(shù)評估各個可能的網(wǎng)絡(luò)結(jié)構(gòu)與樣本多層傳感器故障數(shù)據(jù)間的適應(yīng)度,找到最符合數(shù)據(jù)異常特征的解,并以此為基礎(chǔ)展開搜索,根據(jù)異常數(shù)據(jù)間的依賴關(guān)系,構(gòu)建出異常數(shù)據(jù)樣本集,實(shí)現(xiàn)了多層傳感網(wǎng)的異常檢測目標(biāo)。
參考文獻(xiàn):
[1] 于強(qiáng).基于模糊關(guān)聯(lián)規(guī)則并行挖掘算法的飛行數(shù)據(jù)處理[J].微計(jì)算機(jī)信息,2009,5(3):148-150.
[2] 李浪,李仁發(fā).基于數(shù)據(jù)流異常挖掘的入侵檢測系統(tǒng)設(shè)計(jì)[J].科學(xué)技術(shù)與工程,2008,8(13):3500-3503.
[3] 李國徽,陳輝.挖掘數(shù)據(jù)流任意滑動時間窗口內(nèi)頻繁模式[J].軟件學(xué)報,2008,19(10): 2585-2596.
【通聯(lián)編輯:代影】