李其芳
(陸軍軍官學(xué)院,安徽 合肥 230031)
軍隊(duì)若要具備信息系統(tǒng)的體系作戰(zhàn)能力,就必須爭(zhēng)奪制信息權(quán)。信息戰(zhàn)爭(zhēng)中,復(fù)雜電磁環(huán)境是信息化戰(zhàn)場(chǎng)的基本特征。若想打贏信息化條件下的戰(zhàn)爭(zhēng),就必須加速深入研究復(fù)雜電磁環(huán)境下的戰(zhàn)場(chǎng)電磁環(huán)境問(wèn)題,通信聯(lián)絡(luò)就是在這樣的環(huán)境中展開(kāi)的。隨著新軍事變革的不斷推進(jìn),戰(zhàn)爭(zhēng)的形態(tài)已經(jīng)發(fā)生了轉(zhuǎn)化,信息為先導(dǎo)和主導(dǎo)。在這樣的環(huán)境下,無(wú)疑對(duì)作為信息流通紐帶、作戰(zhàn)要素橋梁的戰(zhàn)場(chǎng)通信提出了更高的要求。
信息化戰(zhàn)場(chǎng)條件下的通信干擾主要可以分為人為有意干擾、人為無(wú)意干擾和環(huán)境自然干擾。人為有意干擾主要來(lái)自敵方有目的性的通信干擾,有可能是阻塞式干擾;無(wú)意干擾主要是己方通訊設(shè)備和一些民用設(shè)施發(fā)出的電磁波等造成的互擾;自然干擾主要有雷電,磁場(chǎng)等環(huán)境因素。通信裝備要采用什么方法在如此大量的各種錯(cuò)綜復(fù)雜的通信數(shù)據(jù)中篩選出有價(jià)值的信息提高通信聯(lián)絡(luò)效率,成為了本文研究的重點(diǎn)。
目前數(shù)據(jù)挖掘的主要算法有信號(hào)處理法、關(guān)聯(lián)規(guī)則法、神經(jīng)網(wǎng)絡(luò)法、粗糙集法、遺傳算法、統(tǒng)計(jì)學(xué)法等。但是這些算法都有自身的特點(diǎn),也存在著缺陷,例如傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)法,其組成的神經(jīng)網(wǎng)絡(luò)是非構(gòu)造性的,每一部分的關(guān)聯(lián)都比較大,只要有任何微小的改動(dòng)都會(huì)改變整體的效果,使網(wǎng)絡(luò)變得不穩(wěn)定[1]。張鈸院士和張鈴教授在M-P神經(jīng)元模型的基礎(chǔ)上,提出一種稱為構(gòu)造性神經(jīng)網(wǎng)絡(luò)[2]的新型網(wǎng)絡(luò)模型。覆蓋算法屬于該構(gòu)造性神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,利用數(shù)據(jù)自身特點(diǎn),有目的性地構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)以分層的形式構(gòu)建,網(wǎng)絡(luò)功能被分割成不同的、相對(duì)獨(dú)立的模塊。每個(gè)模塊有獨(dú)立解決整個(gè)問(wèn)題其中一部分的能力,在學(xué)習(xí)階段處理的數(shù)據(jù)也不相同。
首先網(wǎng)絡(luò)結(jié)構(gòu)中的各個(gè)模塊比較簡(jiǎn)單,各模塊的功能是處理整個(gè)問(wèn)題其中的一部分,問(wèn)題也相對(duì)容易,很難受到其他數(shù)據(jù)的影響,容易訓(xùn)練,相對(duì)簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)提高了網(wǎng)絡(luò)的可靠性;其次,各個(gè)模塊相對(duì)獨(dú)立,可同時(shí)進(jìn)行訓(xùn)練,效率高,便于在時(shí)間緊迫時(shí)快速計(jì)算;最后,硬件更易實(shí)現(xiàn),構(gòu)造若干簡(jiǎn)單的模塊再將其連接起來(lái)比直接構(gòu)建整個(gè)計(jì)算網(wǎng)絡(luò)更容易,實(shí)現(xiàn)模塊化。
構(gòu)造性神經(jīng)網(wǎng)絡(luò)的主旨是將無(wú)限大的區(qū)域分為相對(duì)獨(dú)立的有限區(qū)域,將學(xué)習(xí)問(wèn)題通過(guò)非線性變換變?yōu)榉謪^(qū)問(wèn)題,將多區(qū)域復(fù)雜性問(wèn)題進(jìn)行簡(jiǎn)單化,可以實(shí)現(xiàn)多種類別樣本的同時(shí)劃分;將神經(jīng)元的功能局部化,將非局部性的劃分區(qū)域變換為局部性劃分區(qū)域,因此其計(jì)算量少,速度快。
正定核函數(shù)是解算微分方程的一個(gè)非常有用的工具。Mercer定理[3]在其嚴(yán)格定義的基礎(chǔ)上給出了正定核函數(shù)的特征分解。高斯核函數(shù)是一種普遍使用的核函數(shù),因?yàn)楦咚购撕瘮?shù)對(duì)應(yīng)的特征空間是無(wú)窮維的,有限的樣本在該特征空間肯定是線性可分的。任何連續(xù)分布均可由等方差高斯密度的有限混合任意逼近。在近似的意義下,僅研究有限高斯混合密度就足夠了。通過(guò)這種思想可以利用有限高斯混合密度為覆蓋算法構(gòu)建概率模型[4]。
設(shè)X1…,Xn是樣本為n的獨(dú)立分布隨機(jī)樣本,其中Xi是m維隨機(jī)向量,其概率密度函數(shù)為f(x)。f(xi)可表示成:
其中,fj(xi)為觀察值xi是第j分量時(shí)的條件概率密度函數(shù)。
若fj(x)為1維高斯分布,式(1)可表示為
設(shè)有n個(gè)m維樣本,分成w類。首先利用基本覆蓋算法求得覆蓋組為
設(shè)覆蓋第i類點(diǎn)的覆蓋組為
對(duì)每個(gè)覆蓋組取特征函數(shù)表示,但是這種表示不能反映樣本在覆蓋中的具體分布情況。若引入高斯函數(shù)[5](以覆蓋的中心 aij為高斯核函數(shù)的均值,取半徑為決策函數(shù)為
其中,βij是與各覆蓋中樣本點(diǎn)的密度有關(guān)的參數(shù)。
式(3)可理解為高斯函數(shù)的覆蓋算法得到的決策函數(shù)。通過(guò)以上變換后,可以從概率的角度來(lái)思考、解決問(wèn)題。式(3)是一個(gè)有限混合概率模型,因此可以利用最大似然的算法求得其參數(shù)。這樣就以概率的角度解決了為函數(shù)確定參數(shù)的問(wèn)題。下面本文將概率統(tǒng)計(jì)中的方法引入該計(jì)算網(wǎng)絡(luò)的分類學(xué)習(xí)[8],即把覆蓋算法與概率統(tǒng)計(jì)模型有機(jī)結(jié)合起來(lái),為覆蓋算法找到了全局優(yōu)化的解決方法[9]。
假設(shè)給定w類分類的訓(xùn)練樣本集K={K1,K2…,Kw},算法實(shí)現(xiàn)步驟如下:
首先,采用覆蓋算法,求出各個(gè)覆蓋組{C1,C2…,Cw}。在計(jì)算的過(guò)程中要注意對(duì)球形領(lǐng)域所覆蓋點(diǎn)數(shù)的考察,在學(xué)習(xí)獲得覆蓋組的過(guò)程中主要就是對(duì)是否完全覆蓋的反復(fù)考察和計(jì)算。具體計(jì)算程序如圖1。
圖1 學(xué)習(xí)獲得覆蓋組程序圖
其次,以覆蓋中心為高斯核函數(shù)均值,取半徑為方差,對(duì)每一覆蓋Cij引入高斯核函數(shù)。
最后,利用最大似然迭代EM算法進(jìn)行最大似然擬合。
利用EM方法求解最大似然問(wèn)題,難點(diǎn)是如何正確地選取混合模型分量個(gè)數(shù)的問(wèn)題。這個(gè)問(wèn)題可利用覆蓋算法求得的覆蓋,作為EM算法的迭代起始值,能夠得到比較好地解決。因?yàn)槔酶采w算法求得的覆蓋組,基本上已是次優(yōu)的覆蓋,在此基礎(chǔ)上再利用EM算法進(jìn)行迭代就能很快求到最優(yōu)解。這也是對(duì)覆蓋算法的概率模型進(jìn)行改進(jìn)的成功所在。
該實(shí)驗(yàn)將基于覆蓋算法的概率模型的信息篩選算法應(yīng)用到短波無(wú)線電通信對(duì)抗偵察中的信息獲取篩選部分[6],用來(lái)驗(yàn)證實(shí)際效果。
實(shí)驗(yàn)包含三個(gè)部分:1)信號(hào)接收機(jī),將采集信號(hào)作為分析數(shù)據(jù);2)訓(xùn)練采集信號(hào)的一部分作為樣本,利用上述模型進(jìn)行聚類分析;3)用另外部分的信號(hào)數(shù)據(jù)作為測(cè)試對(duì)比,用來(lái)檢驗(yàn)該模型的信息篩選效果。
本實(shí)驗(yàn)利用某型號(hào)的短波接收機(jī),控制其在20MHz至30MHz頻段內(nèi),按照5MHz步進(jìn),按照從低到高循環(huán)進(jìn)行不斷的搜索,在本試驗(yàn)中以3min為一個(gè)周期,搜索到任何一頻點(diǎn),駐留短暫的時(shí)隙(例如75ms),此時(shí)從已經(jīng)連接電腦的接收機(jī)的頻率輸出端采集信號(hào)并存入數(shù)據(jù)庫(kù)或直接分析。接收機(jī)的中頻輸出頻率設(shè)置270kHz,帶寬設(shè)置為3kHz,采用帶通采樣的方式,采樣頻率設(shè)為25kHz。由于采集的數(shù)據(jù)是時(shí)域數(shù)據(jù),不便于分析,在這里把采樣的時(shí)域數(shù)據(jù)利用快速傅立葉變換轉(zhuǎn)化為頻域數(shù)據(jù)后存入數(shù)據(jù)庫(kù),經(jīng)過(guò)一段時(shí)間所采集的樣本達(dá)到所需要的數(shù)據(jù)量時(shí)再進(jìn)行分析處理。利用前一部分被采集的數(shù)據(jù)作為訓(xùn)練樣本,構(gòu)造神經(jīng)網(wǎng)絡(luò),再用另一部分作為測(cè)試樣本,用于進(jìn)行對(duì)比測(cè)試[7]。
圖2是在20MHz至30MHz頻段之間,連續(xù)十個(gè)小時(shí)的信號(hào)頻占統(tǒng)計(jì)圖,約200個(gè)數(shù)據(jù)點(diǎn),橫軸為頻率,縱軸為時(shí)間,圖中點(diǎn)的虛實(shí)代表該對(duì)應(yīng)的頻率和時(shí)間上信號(hào)的類別。實(shí)點(diǎn)表示環(huán)境中的雜波,虛點(diǎn)表示有用的信號(hào)。這樣的模擬數(shù)據(jù)符合實(shí)際情況和環(huán)境需要。有用的信號(hào)淹沒(méi)在其他電臺(tái)信號(hào)、噪聲干擾等,跳頻信號(hào)頻率不容易被提取。為了有效獲取信息,對(duì)圖2所示數(shù)據(jù)進(jìn)行預(yù)處理,經(jīng)算法處理,剔除干擾過(guò)濾噪聲后,頻率占用度如圖3所示,絕大部分噪聲被有效地濾除。
圖2 接收信號(hào)頻占圖
圖3 算法處理作的頻占圖
利用覆蓋算法的概率模型得到的改進(jìn)覆蓋算法,并與原覆蓋算法進(jìn)行數(shù)據(jù)挖掘,信息篩選得到的對(duì)比結(jié)果如表1所示。
表1 不同方法實(shí)驗(yàn)結(jié)果表
從表1得出,利用改進(jìn)覆蓋算法對(duì)有用信息進(jìn)行篩選,在過(guò)程中所用時(shí)間和正確率比原覆蓋算法和核覆蓋算法都有很大提高,這是由于改進(jìn)的算法從整體出發(fā),對(duì)所有測(cè)試樣本都能到達(dá)最優(yōu)化。
本文從海量數(shù)據(jù)挖掘的方向考慮,在神經(jīng)元幾何意義的基礎(chǔ)上,介紹覆蓋算法的原理以及經(jīng)典算法;然后在覆蓋算法的基礎(chǔ)上,利用高斯函數(shù)的概率意義(高斯分布),為覆蓋算法建立一個(gè)有限混合概率模型,提出了覆蓋算法的概率模型,對(duì)覆蓋算法進(jìn)行改進(jìn),給出了一種新的算法,即基于覆蓋算法的概率模型的海量數(shù)據(jù)挖掘算法;利用這種改進(jìn)的算法組建神經(jīng)網(wǎng)絡(luò),在保持計(jì)算復(fù)雜度不變的前提下,引入全局優(yōu)化模型,擴(kuò)大了覆蓋算法的使用范圍,提高了算法的精度,適合大規(guī)模數(shù)據(jù)挖掘。最后的實(shí)驗(yàn)驗(yàn)證了算法的實(shí)效性。此算法優(yōu)化后,可應(yīng)用于復(fù)雜電磁環(huán)境下的通信聯(lián)絡(luò)組織,用于將有價(jià)值的數(shù)據(jù)分離出來(lái),提高了通信效率,增強(qiáng)了通信的有效性。
[1] 張鈴,張鈸.多層反饋神經(jīng)網(wǎng)絡(luò)的FP學(xué)習(xí)和綜合算法[J].軟件學(xué)報(bào),1997,8(4):252-258.
[2] 張鈴,張鈸.人工神經(jīng)網(wǎng)絡(luò)理論及應(yīng)用[M].杭州:科學(xué)技術(shù)出版社,1997年.
[3] 張莉.SVM與核方法研究[D].西安:西安電子科技大學(xué),2002.
[4] 趙姝,張燕平,張媛,等.基于交叉覆蓋算法的入侵檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2005(1):141-143.
[5] 張燕平,張鈴,段震.構(gòu)造性核覆蓋算法在圖像識(shí)別中的應(yīng)用[J].中國(guó)圖象圖形學(xué)報(bào),2004,9(11):1304-1308.
[6] 張旻,陳加興.基于粒度計(jì)算和覆蓋算法的信號(hào)樣式識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2003(24):56-59.
[7] 王倫文,張鈴,張旻.一種適合于無(wú)線電監(jiān)測(cè)的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2004(4):37-40.
[8] Heckman D.,Geiger D.,Chickering D.,Learning Bayesian Networks:the Combination of Knowledge and Statistical Data.Machine Learning[J].1995,20(3):197-243.
[9] Heckman D.,Mandani A.,Wellman M.,Real-World Applications of Bayesian Networks[J].Communications of the ACM,1995,8(3):38-45.