葉青張劍
(武漢數(shù)字工程研究所 武漢 430205)
隨著軍隊(duì)信息化程度的不斷提高,各種武器裝備、通信系統(tǒng)、指揮控制系統(tǒng)、情報(bào)處理系統(tǒng)都向數(shù)字化方式轉(zhuǎn)變,指揮員將面對(duì)全方位、多兵種、復(fù)雜環(huán)境下的高科技戰(zhàn)爭(zhēng)[1]。因此,如何處理大量戰(zhàn)場(chǎng)信息,給指揮員提供可靠、有用的戰(zhàn)場(chǎng)信息,幫助指揮員進(jìn)行正確、有效的決策,成為取得戰(zhàn)場(chǎng)優(yōu)勢(shì)的關(guān)鍵[2]。從信息優(yōu)勢(shì)轉(zhuǎn)化為決策優(yōu)勢(shì)進(jìn)而提高戰(zhàn)斗力,就需要對(duì)戰(zhàn)場(chǎng)信息進(jìn)行快速、精準(zhǔn)的處理。
戰(zhàn)場(chǎng)上在長(zhǎng)期對(duì)遠(yuǎn)距離域進(jìn)行觀察和監(jiān)控后,獲得了大量的數(shù)據(jù),通過(guò)對(duì)這些數(shù)據(jù)的分析處理可以形成一種易于指揮員理解并能輔助其決策的電磁環(huán)境的表達(dá)方式。它包括輻射源目標(biāo)態(tài)勢(shì)、裝備用頻狀態(tài)、電磁環(huán)境信息,它們可以為電子對(duì)抗、頻譜管控、航路規(guī)劃等指控功能提供準(zhǔn)確的數(shù)據(jù)支撐,同時(shí)能為指揮員提供豐富且便于理解的信息表現(xiàn)形式,使其更好地認(rèn)清和理解戰(zhàn)場(chǎng)電磁環(huán)境[3]。
在現(xiàn)代戰(zhàn)爭(zhēng)中,電磁頻譜是極其重要的戰(zhàn)爭(zhēng)資源,它影響甚至決定著戰(zhàn)爭(zhēng)的進(jìn)程和結(jié)局。電磁頻譜是電磁信號(hào)在頻域的表現(xiàn)形態(tài),它將信號(hào)在時(shí)間域中的波形轉(zhuǎn)變?yōu)轭l率域的頻譜,進(jìn)而可以對(duì)信號(hào)的信息作定量解釋[4]。電磁頻譜是唯一能支持機(jī)動(dòng)作戰(zhàn)、分散作戰(zhàn)和高強(qiáng)度作戰(zhàn)的重要媒質(zhì),被稱為與地面、海洋、空間和太空并存的第五維戰(zhàn)場(chǎng),所以,對(duì)戰(zhàn)場(chǎng)進(jìn)行頻域分析是十分必要的[5]。為了能夠及時(shí)準(zhǔn)確地發(fā)現(xiàn)戰(zhàn)場(chǎng)上地方電磁環(huán)境的突發(fā)變化并進(jìn)行分析處理,達(dá)到預(yù)警敵方戰(zhàn)略的變化效果,就需要對(duì)電磁頻譜數(shù)據(jù)的異常變化進(jìn)行分析。
本文選取通過(guò)偵察獲取到的數(shù)據(jù)中的戰(zhàn)場(chǎng)固定區(qū)域內(nèi)十一個(gè)頻段上目標(biāo)數(shù)量的變化進(jìn)行異常分析。
聚類分析是一種重要的異常數(shù)據(jù)檢測(cè)方法,它利用相似性度量,把樣本集組織成若干個(gè)有意義的子集,相似度較高的樣本歸為一類,相似度較小或不相似的樣本則在不同的類中[6]。通過(guò)這樣的劃分,可戰(zhàn)場(chǎng)固定區(qū)域內(nèi)十一個(gè)頻段上目標(biāo)數(shù)量樣本集中的正常數(shù)據(jù)和異常數(shù)據(jù)區(qū)分開(kāi)來(lái)。當(dāng)前的聚類算法大多采用距離作為樣本間的相似性度量,這是一種樣本間的模糊關(guān)系、反映樣本間的相似程度[7]。
經(jīng)典的K均值聚類算法采用歐式距離度量不同樣本間的相似程度。一般來(lái)說(shuō),對(duì)于兩個(gè)n維向量X和Y,用歐式距離計(jì)算它們的距離:
但是,歐氏距離將樣本的不同屬性(即各指標(biāo)或各變量)之間的差別等同對(duì)待,算法對(duì)于向量不同下標(biāo)之間的關(guān)聯(lián)性和相似性沒(méi)有考慮,這一點(diǎn)有時(shí)不能滿足實(shí)際要求。因?yàn)閷?duì)于一個(gè)目標(biāo)的頻段變化,跨度大與跨度小所代表的實(shí)際意義,是有很大差別的,而通過(guò)歐式距離所算出的結(jié)果是一致的,這就導(dǎo)致結(jié)果產(chǎn)生了很大的偏差[8]。所以,針對(duì)上述缺點(diǎn),本文對(duì)K-means聚類算法進(jìn)行改進(jìn),將歐氏距離用二次型距離替代,以適應(yīng)我們所研究的場(chǎng)景。
2.2.1 K-means聚類算法
K-means算法又叫K-平均或K均值算法,是一種使用最廣泛的聚類算法。它將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn),算法的主要思想是通過(guò)迭代過(guò)程把數(shù)據(jù)集劃分為不同的類別,使得評(píng)價(jià)聚類性能的測(cè)度函數(shù)達(dá)到最優(yōu),從而使生成的每個(gè)聚類內(nèi)緊湊,聚類間獨(dú)立[9]。
算法的計(jì)算流程:首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)[10]。
2.2.2 基于二次型距離的K-means聚類算法
二次型距離源于統(tǒng)計(jì)學(xué)領(lǐng)域的Mahalanobis距離[11],其計(jì)算公式為
其中,X和Y為兩個(gè)n維向量,∑為向量各元素之間距離的協(xié)方差矩陣,要求逆矩陣存在。我們通常利用一個(gè)相關(guān)矩陣A來(lái)取代∑的逆矩陣,來(lái)反映向量中各元素之間的相關(guān)程度。A中的元素計(jì)算如下:
其中,dij為直方圖第i個(gè)子區(qū)間與第j個(gè)子區(qū)間之間的空間距離,即dij= ||i-j,dmax=max(dij),此時(shí),上式變?yōu)槎涡途嚯x的標(biāo)準(zhǔn)形式:
特別的,當(dāng)相似度矩陣為n階單位矩陣時(shí),二次型距離即轉(zhuǎn)化為歐氏距離的平方,因?yàn)榇藭r(shí)除對(duì)角線外的元素均為零,即不存在元素之間的相似性關(guān)系。
根據(jù)十一個(gè)頻段(HF,VHF,UHF,L,S,C,X,Ku,K,Ka,mm)的分類構(gòu)造相似性矩陣:
這種計(jì)算方式考慮了直方圖元素之間的相似性,可以讓結(jié)果更符合我們對(duì)直方圖距離的直觀感受。
2.3.1 選取數(shù)據(jù)集
為了判斷所要檢測(cè)的當(dāng)天數(shù)據(jù)是否異常,我們需要可以參照的數(shù)據(jù)來(lái)進(jìn)行對(duì)比,也就是歷史數(shù)據(jù)。但是歷史數(shù)據(jù)每天不斷產(chǎn)生,比較龐雜,這些數(shù)據(jù)中大多為正常數(shù)據(jù),但是也可能存在異常數(shù)據(jù),所以需要先將這些數(shù)據(jù)進(jìn)行處理,篩選出可用于訓(xùn)練的數(shù)據(jù)。此時(shí)采用基于二次型距離的K-MEANS聚類算法,得到可用的數(shù)據(jù)集。
由于戰(zhàn)場(chǎng)的形勢(shì)是在不斷變化的,選取過(guò)長(zhǎng)的時(shí)間周期的數(shù)據(jù)進(jìn)行處理可能產(chǎn)生較大的誤差,所以我們將待檢測(cè)數(shù)據(jù)前30天的數(shù)據(jù)作為一個(gè)周期。為了提高對(duì)比數(shù)據(jù)的合理性,將一天24小時(shí)的數(shù)據(jù)分為12段,統(tǒng)計(jì)從0點(diǎn)開(kāi)始,每?jī)蓚€(gè)小時(shí)段中各個(gè)頻段中的目標(biāo)數(shù)量,將這30個(gè)數(shù)據(jù)作為一組數(shù)據(jù)集,從而得到一共12組數(shù)據(jù)集。
2.3.2 數(shù)據(jù)處理
通過(guò)基于二次型距離的K-MEANS聚類算法分別處理這12組數(shù)據(jù)。
在處理之前,需要先選取k值。針對(duì)K-means聚類算法需要事先給出k的初始值這一問(wèn)題,考慮到只需要區(qū)分?jǐn)?shù)據(jù)是否為異常,故可以將k的值固定設(shè)為2,僅將數(shù)據(jù)劃分為正常聚類和異常聚類。這樣既解決了每次執(zhí)行算法都要進(jìn)行賦值的麻煩,又避免了算法重復(fù)執(zhí)行來(lái)選取最優(yōu)k值時(shí)不必要的時(shí)間花銷,從而簡(jiǎn)化算法,減少能量消耗,提高效率。
然后開(kāi)始數(shù)據(jù)處理。
第一步:通過(guò)改進(jìn)后的K-means聚類算法進(jìn)行分簇,分簇之后,得到正常值簇和異常值簇兩個(gè)簇,獲取正常值簇的簇心C。
第二步:計(jì)算所有數(shù)據(jù)與正常值簇的簇心之間的二次型距離:
其中,Xi表示第i個(gè)數(shù)據(jù)。
第三步,計(jì)算平均距離:
其中n表示數(shù)據(jù)的總數(shù)。
第四步:比較數(shù)據(jù)集中所有數(shù)據(jù)與簇心之間的二次型距離,若某個(gè)數(shù)據(jù)與簇心之間的二次型距離大于當(dāng)前的平均距離,即
那么將該數(shù)據(jù)點(diǎn)歸入疑似異常點(diǎn)集。
第五步:計(jì)算該聚類內(nèi)全部數(shù)據(jù)點(diǎn)到簇心距離標(biāo)準(zhǔn)差:
第六步:比較所有疑似異常點(diǎn)到簇心的距離跟平均距離之差與該聚類內(nèi)全部數(shù)據(jù)點(diǎn)到簇心距離標(biāo)準(zhǔn)差S的1.67倍(取置信區(qū)間為90%),如果大于后者,即
則認(rèn)為該數(shù)據(jù)為異常數(shù)據(jù)[12]。
第七步:檢測(cè)待測(cè)數(shù)據(jù)是否為異常值。計(jì)算待測(cè)數(shù)據(jù)與正常值簇心之間的二次型距離,根據(jù)第四步、第五步和第六步的步驟,判斷此待測(cè)數(shù)據(jù)是否異常。
本文所有實(shí)驗(yàn)均在Matlab平臺(tái)上進(jìn)行。
設(shè)定在一個(gè)固定域內(nèi),將連續(xù)30天的偵察數(shù)據(jù)分12組共360個(gè)樣本數(shù)據(jù)通過(guò)2.3.2節(jié)所述方法進(jìn)行處理,仿真結(jié)果如表1所示。
表1 仿真結(jié)果
仿真結(jié)果符合預(yù)期,說(shuō)明通過(guò)本文所述方法,良好地分析出戰(zhàn)場(chǎng)固定區(qū)域內(nèi)24小時(shí)各個(gè)時(shí)間段中各頻段上目標(biāo)數(shù)量變化的異常情況。
針對(duì)戰(zhàn)場(chǎng)在對(duì)遠(yuǎn)距離域進(jìn)行觀察和監(jiān)控后,獲得大量數(shù)據(jù)在頻域上的異常數(shù)據(jù)分析處理問(wèn)題,提出了一種將二次型距離與K-means聚類算法相結(jié)合的改進(jìn)的K-means聚類算法以適用于我們所研究的場(chǎng)景。該方法表明通過(guò)數(shù)據(jù)分析計(jì)算后,良好地分析出戰(zhàn)場(chǎng)固定區(qū)域內(nèi)24小時(shí)各個(gè)時(shí)間段中各頻段上目標(biāo)數(shù)量變化的異常情況,以達(dá)到預(yù)警的效果。然而在樣本數(shù)量較大時(shí),聚類計(jì)算速度受到影響。因此如何改進(jìn)計(jì)算方法以提高計(jì)算速度和減小誤差,今后仍應(yīng)該繼續(xù)深入研究。