陳文慶
(1.江蘇師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221000;2.中國(guó)勞動(dòng)關(guān)系學(xué)院 應(yīng)用技術(shù)學(xué)院,北京 100048)
船舶通信網(wǎng)絡(luò)數(shù)據(jù)異常會(huì)導(dǎo)致信息傳輸故障、數(shù)據(jù)處理失誤和系統(tǒng)任務(wù)失效等問(wèn)題,因此,加強(qiáng)通信網(wǎng)絡(luò)失效節(jié)點(diǎn)異常數(shù)據(jù)檢測(cè)識(shí)別技術(shù)越發(fā)重要。
文獻(xiàn)[1]以船舶通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為基礎(chǔ)構(gòu)建數(shù)據(jù)模型,計(jì)算各個(gè)節(jié)點(diǎn)綜合數(shù)值判斷是否存在異常。但該方法計(jì)算量過(guò)大且操作復(fù)雜,誤差率較高。文獻(xiàn)[2]通過(guò)建立多層通信網(wǎng)絡(luò)結(jié)構(gòu)模型,根據(jù)探測(cè)策略對(duì)節(jié)點(diǎn)信息進(jìn)行檢測(cè)。但該方法自動(dòng)化程度較低,工作難度較高。
針對(duì)傳統(tǒng)方法存在的不足,本文提出一種基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法。通過(guò)聚類算法對(duì)船舶通信網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行識(shí)別檢測(cè)和特征提取,構(gòu)建自動(dòng)檢測(cè)目標(biāo)函數(shù)判斷異常數(shù)據(jù)信息節(jié)點(diǎn),采用離散序列算法對(duì)失效節(jié)點(diǎn)進(jìn)行數(shù)據(jù)挖掘,具有良好的靈活性和精準(zhǔn)性。
基于數(shù)據(jù)挖掘技術(shù)中的聚類算法對(duì)船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)進(jìn)行自動(dòng)識(shí)別,首先需要檢測(cè)提取通信網(wǎng)絡(luò)中的信息數(shù)據(jù),將所有特征數(shù)據(jù)按照既定序列整合到數(shù)據(jù)處理系統(tǒng)中形成樣本合集,設(shè)定為系統(tǒng)需要進(jìn)行識(shí)別檢測(cè)的數(shù)據(jù)點(diǎn)集合[3–4]。根據(jù)系統(tǒng)設(shè)定的船舶通信節(jié)點(diǎn)異常數(shù)據(jù)閾值,對(duì)數(shù)據(jù)屬性和特征密度進(jìn)行分類提取,通過(guò)聚類運(yùn)算得到不同特征數(shù)據(jù)集[5–6]。為了進(jìn)一步提高通信網(wǎng)絡(luò)數(shù)據(jù)特征聚類結(jié)果,本文選取高階統(tǒng)計(jì)量算法對(duì)特征提取進(jìn)行優(yōu)化。設(shè)目標(biāo)數(shù)據(jù)集為M={m1,m2,···,mm},單個(gè)數(shù)據(jù)特征提取最優(yōu)解集合為Um={um1,um2,···umm},整體最優(yōu)解集合為Ua={ua1,ua2,···,uam},則異常數(shù)據(jù)特征識(shí)別提取方法如下:
其中:ei為檢測(cè)數(shù)據(jù)集中第i個(gè)節(jié)點(diǎn)的失效異常數(shù)據(jù);α,β分別為不同特征序列的特征提取加速優(yōu)化系數(shù);r1,r2為隨機(jī)參數(shù)。
經(jīng)過(guò)優(yōu)化后的特征提取結(jié)果具有更好的相關(guān)性,更能夠突出網(wǎng)絡(luò)數(shù)據(jù)的特征值,有利于進(jìn)一步實(shí)現(xiàn)聚類分析運(yùn)算[7–8]。
特征提取后的異常節(jié)點(diǎn)數(shù)據(jù)傳輸?shù)椒诸悪z測(cè)程序,采用聚類算法對(duì)樣本數(shù)據(jù)屬性進(jìn)行檢測(cè)處理。設(shè)定優(yōu)化后的數(shù)據(jù)集為M′,異常數(shù)據(jù)權(quán)值為K,則將異常數(shù)據(jù)聚類到對(duì)應(yīng)聚類中心可表示為:
式中:L(1)為異常數(shù)據(jù)聚類集合;μij為異常數(shù)據(jù)樣本映射到聚類中心的模糊隸屬度;Li,Lj為異常數(shù)據(jù)對(duì)應(yīng)聚類數(shù) 值[9–10]。
設(shè)定存在多維度異常數(shù)據(jù)特征集合,選取不同特征點(diǎn)數(shù)據(jù)集重復(fù)上述計(jì)算過(guò)程,多次進(jìn)行聚類運(yùn)算,得到多項(xiàng)異常數(shù)據(jù)特征檢測(cè)分類結(jié)果。為了進(jìn)一步提高聚類效果,可引入數(shù)據(jù)密度系數(shù)進(jìn)行檢驗(yàn):
其中:Xi為i節(jié)點(diǎn)數(shù)據(jù)聚類結(jié)果優(yōu)化數(shù)值;δ為聚類數(shù)據(jù)集密度系數(shù);rb為數(shù)據(jù)特征密度指標(biāo)半徑。
聚類后的通信網(wǎng)絡(luò)節(jié)點(diǎn)如圖1 所示。
圖1 聚類后的通信網(wǎng)絡(luò)節(jié)點(diǎn)Fig.1 Communication network nodes after clustering
根據(jù)圖1 可對(duì)特征閾值進(jìn)行分選,所得比值結(jié)果越小,說(shuō)明聚類效果越好。
船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)數(shù)據(jù)挖掘流程如圖2 所示。
圖2 船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)數(shù)據(jù)挖掘流程Fig.2 The data mining process of the failure node of the ship communication network
基于上述數(shù)據(jù)特征識(shí)別提取和優(yōu)化分類,對(duì)船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)數(shù)據(jù)進(jìn)行挖掘。由于導(dǎo)致通信網(wǎng)絡(luò)失效的原因各不相同,不能采用單一的方差和平方差運(yùn)算方式進(jìn)行識(shí)別,容易造成較大誤差。選用基于熵目標(biāo)函數(shù)的數(shù)據(jù)檢測(cè)方法構(gòu)建目標(biāo)函數(shù),由于船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)存在較強(qiáng)的隨機(jī)性,需要引入熵值對(duì)異常數(shù)據(jù)不確定性進(jìn)行描述。將待檢測(cè)的數(shù)據(jù)按照聚類結(jié)果依次導(dǎo)入目標(biāo)函數(shù)識(shí)別系統(tǒng),設(shè)定t時(shí)刻異常數(shù)據(jù)特征為x(t),第i個(gè)樣本的特征屬性為xi(t),則構(gòu)建的目標(biāo)函數(shù)為:
式中:S為引入的熵值;S2為熵的樣本平方差;γ,λ為目標(biāo)函數(shù)的權(quán)重系數(shù),該函數(shù)即為失效節(jié)點(diǎn)異常數(shù)據(jù)自動(dòng)檢測(cè)識(shí)別的目標(biāo)函數(shù)。
將經(jīng)過(guò)聚類運(yùn)算整合后的初始數(shù)據(jù)集按照時(shí)間序列載入函數(shù)運(yùn)算程序,算法自動(dòng)檢索半徑為R,表示運(yùn)算數(shù)據(jù)覆蓋范圍,根據(jù)特征聚類結(jié)果,設(shè)定異常信息數(shù)據(jù)特征閾值Y和運(yùn)算迭代次數(shù)i,則適用于檢索半徑的適應(yīng)目標(biāo)函數(shù)為:
其中:?為設(shè)定的目標(biāo)值;e為隨機(jī)樣本失效節(jié)點(diǎn)數(shù)值。
導(dǎo)入檢索半徑后代入樣本數(shù)值,進(jìn)行多次迭代運(yùn)算,通過(guò)多次迭代后能夠得到趨近于最優(yōu)解的數(shù)據(jù)識(shí)別結(jié)果。所有特征集合數(shù)據(jù)按照上述步驟依次在運(yùn)算程序中循環(huán)迭代,輸出后的結(jié)果進(jìn)入自動(dòng)檢測(cè)循環(huán)。輸出的數(shù)據(jù)需要與設(shè)定標(biāo)準(zhǔn)數(shù)值值域進(jìn)行比較,不滿足任意值域條件的數(shù)據(jù),則判斷為對(duì)應(yīng)問(wèn)題所在的異常數(shù)據(jù)。若滿足值域要求,則重復(fù)上述計(jì)算步驟再次檢驗(yàn)數(shù)據(jù)是否存在異常,若檢測(cè)判定數(shù)據(jù)為異常數(shù)據(jù),則結(jié)束循環(huán),判定該數(shù)據(jù)為失效節(jié)點(diǎn)產(chǎn)生的異常數(shù)據(jù)。
為了驗(yàn)證基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法的實(shí)際應(yīng)用效果,設(shè)定對(duì)比實(shí)驗(yàn),選用傳統(tǒng)的基于智能定位的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法、船舶無(wú)線通信網(wǎng)絡(luò)故障節(jié)點(diǎn)自動(dòng)定位方法進(jìn)行實(shí)驗(yàn)對(duì)比。通信網(wǎng)絡(luò)原始節(jié)點(diǎn)分布狀態(tài)如圖3 所示。
圖3 通信網(wǎng)絡(luò)原始節(jié)點(diǎn)分布狀態(tài)Fig.3 Distribution of original nodes of communication network
同時(shí)選用3 種方法,對(duì)通信網(wǎng)絡(luò)內(nèi)部的節(jié)點(diǎn)進(jìn)行分類,得到的分類結(jié)果如圖4 所示??芍?,傳統(tǒng)的基于智能定位的船通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法對(duì)失效節(jié)點(diǎn)識(shí)別的準(zhǔn)確率較低,無(wú)法準(zhǔn)確區(qū)分出失效節(jié)點(diǎn),船舶無(wú)線通信網(wǎng)絡(luò)故障節(jié)點(diǎn)自動(dòng)定位方法對(duì)正常節(jié)點(diǎn)的識(shí)別準(zhǔn)確率較低,本文提出的識(shí)別方法能夠精準(zhǔn)地檢測(cè)出異常失效節(jié)點(diǎn),實(shí)現(xiàn)自動(dòng)識(shí)別。
圖4 通信網(wǎng)絡(luò)原始節(jié)點(diǎn)識(shí)別結(jié)果Fig.4 Identification results of original nodes of communication network
根據(jù)圖4 分類結(jié)果,得到不同的識(shí)別方法的識(shí)別準(zhǔn)確率實(shí)驗(yàn)結(jié)果如表1 所示。由表1 可知,本文提出的基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法的識(shí)別準(zhǔn)確率在99%以上,基于智能定位的識(shí)別方法準(zhǔn)確率低于72.69%,基于自動(dòng)定位的識(shí)別方法準(zhǔn)確率低于86.02%,識(shí)別能力較低。
表1 識(shí)別準(zhǔn)確率實(shí)驗(yàn)結(jié)果Tab.1 Experimental results of recognition accuracy
識(shí)別耗時(shí)實(shí)驗(yàn)結(jié)果如圖5 所示。可知,本文提出的基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法的耗時(shí)時(shí)間低于4 s,能夠在短時(shí)間內(nèi)實(shí)現(xiàn)節(jié)點(diǎn)識(shí)別。
圖5 識(shí)別耗時(shí)實(shí)驗(yàn)結(jié)果Fig.5 Recognition time-consuming experiment results
本文提出基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)失效節(jié)點(diǎn)自動(dòng)識(shí)別方法,得出以下結(jié)論:
1)通過(guò)聚類算法對(duì)船舶通信網(wǎng)絡(luò)中的海量數(shù)據(jù)進(jìn)行識(shí)別提取,根據(jù)時(shí)間序列劃分?jǐn)?shù)據(jù)節(jié)點(diǎn),引入優(yōu)化系數(shù)提高特征提取的相關(guān)性,再通過(guò)聚類運(yùn)算對(duì)節(jié)點(diǎn)特征數(shù)據(jù)進(jìn)行分類檢測(cè),多次迭代和密度系數(shù)檢驗(yàn)也有利于進(jìn)一步提高聚類分析的效果。
2)以聚類結(jié)果為初始數(shù)據(jù)構(gòu)建熵目標(biāo)函數(shù),在自動(dòng)檢索半徑內(nèi)對(duì)異常數(shù)據(jù)進(jìn)行自動(dòng)識(shí)別檢測(cè),具有良好的靈活性。
3)采用離散序列算法對(duì)通信網(wǎng)絡(luò)失效節(jié)點(diǎn)進(jìn)行數(shù)據(jù)挖掘,能夠提高數(shù)據(jù)處理效率和精準(zhǔn)度。
綜上所述,本文研究方法具有良好的應(yīng)用效果,能夠有效提高失效節(jié)點(diǎn)自動(dòng)檢測(cè)的效率。后續(xù):因數(shù)據(jù)干擾因素較多,應(yīng)加強(qiáng)對(duì)數(shù)據(jù)識(shí)別和提取過(guò)程中干擾因素的篩除,減少數(shù)據(jù)的復(fù)雜性,從而進(jìn)一步提高數(shù)據(jù)檢測(cè)精準(zhǔn)度。