,
(1. 北京理工大學(xué)機電學(xué)院,北京 100081;2. 北京遙感設(shè)備研究所,北京 100854)
輻射源的模式識別是指在接收的輻射源信號中提取其特征信息,進行歸納、學(xué)習(xí)與記憶,當(dāng)該輻射源信號再次出現(xiàn)時能夠迅速反應(yīng)。模式識別可細分為模式分類與模式學(xué)習(xí)兩項中心任務(wù)。前者是判斷樣本在模式空間中的歸屬,后者對前者分類器的判決參數(shù)進行訓(xùn)練,形成分類判決的條件。具有自主學(xué)習(xí)能力是認(rèn)知電子偵察系統(tǒng)的重要特征[1],因此,作為其學(xué)習(xí)引擎核心的模式識別算法應(yīng)具有在線自主學(xué)習(xí)的能力,以適應(yīng)戰(zhàn)場中隨時可能出現(xiàn)的新的電磁威脅信號。
目前對認(rèn)知電子戰(zhàn)尚處于初級階段,相關(guān)文獻多是對概念和整體架構(gòu)的介紹,較少涉及內(nèi)部算法的研究。而以往關(guān)于電子偵察系統(tǒng)文獻中對輻射源模式識別的研究工作主要集中在信號模式分類上,方法包括決策樹[2]、神經(jīng)網(wǎng)絡(luò)[3-4]、支持向量機[5-6]等。然而這些算法的缺點在于其學(xué)習(xí)能力普遍較差。基于決策樹的分類器一般需要預(yù)先設(shè)計好判決模型,無法在線自主改變;而神經(jīng)網(wǎng)絡(luò)與支持向量一般需要較長時間的訓(xùn)練才能夠達到理想效果。另外,上述算法一般只能對信號分類做出非此即彼的硬判決,而不是給出信號歸屬的概率。針對這些問題,本文提出了基于高斯混合模型輻射源模式識別算法,該算法能夠就信號在特征空間中的分布規(guī)律進行在線學(xué)習(xí),并在模式分類中給出樣本歸屬的概率,而不是非此即彼硬判決。另外,為了進一步提高算法學(xué)習(xí)的效率,提出基于空間網(wǎng)格劃分的快速EM算法,以更好地適應(yīng)電子戰(zhàn)系統(tǒng)對實時性的要求。
認(rèn)知電子偵察設(shè)備承擔(dān)認(rèn)知電子戰(zhàn)系統(tǒng)信息感知的任務(wù),截獲并搜集敵方輻射源的信號,從而識別敵方部隊、武器或電子能力的類型和位置分布,實現(xiàn)戰(zhàn)場電子對抗態(tài)勢感知,從而指導(dǎo)進一步的行動,對關(guān)鍵信息鏈路實施電子干擾或?qū)ζ湮锢砥脚_進行硬性打擊。
現(xiàn)代電子戰(zhàn)場的環(huán)境日趨復(fù)雜,信號密度呈幾何級數(shù)增加,偵察接收機的帶寬內(nèi)通常不再是單純的目標(biāo)信號,還存在各種各樣的干擾。這里所說的干擾不僅指有意破壞性對方信息鏈路的壓制或欺騙干擾,也包括戰(zhàn)場上同時工作的其他雷達或電臺的信號(包括己方與敵方),這些信號與目標(biāo)信號在時域、頻域、空域相互交織,能夠被電子戰(zhàn)偵收設(shè)備同時捕捉到。在以往的系統(tǒng)中,往往需要精確已知其頻點、調(diào)制、到達角等先驗知識,進行多維度信息匹配來識別目標(biāo)信號。然而在某些場合中,我們無法通過事先偵察等手段預(yù)知敵方信號的工作參數(shù),這就需要在現(xiàn)場對信號樣本進行收集,學(xué)習(xí)歸納其模式,形成動態(tài)知識庫,從而實現(xiàn)對相似信號樣本的快速識別。
以信號波形分類問題為例,假設(shè)空間中包括2FSK、4FSK、BPSK、QPSK四種調(diào)制的通信信號,它們在特征空間中的分布如圖1所示(這里選取文獻[2]中的三個特征值Gama_max、Sigma_AF和Sigma_AP,形成3維特征空間3,信噪比為5 dB)。已知4FSK和QPSK樣本在空間中的分布模式,要解決的問題是,如何對2FSK和BPSK的分布進行建模,將其加入分類器的模式庫中,并對未來的樣本給出歸屬于庫中某種模式的概率。
需要說明,本文的輻射源模式識別算法不僅是針對信號調(diào)制類型的識別,更是一種在時間、頻率、調(diào)制、空間位置等多維度廣義特征空間中的通用輻射源分類識別算法。對信號特征空間的選擇和提取不在本文的研究范圍內(nèi),主要的研究內(nèi)容是在特征空間確定后如何對其中的未知模式進行在線學(xué)習(xí)與分類。下面對算法進行詳細介紹。
由于輻射源信號種類的多樣性,以及信號傳播環(huán)境的復(fù)雜性,信號樣本在特征空間中可能會呈現(xiàn)出不規(guī)則的分布。而高斯混合模型就提供了這樣一種可對任意復(fù)雜模式進行擬合的手段。
通過信號樣本在D維特征空間D中的大量累積(對于高采樣率的電子偵察系統(tǒng)很容易達到),可以獲得每一種信號模式在特征空間中的分布密度,該分布密度反映了模式h分布概率的空間密度函數(shù)ph(x),其中x是屬于D的D維特征向量。高斯混合模型GMM具有對各種形式的概率密度函數(shù)進行統(tǒng)一擬合的能力[7]。GMM定義為K個高斯分布的加權(quán)和,每個高斯分布稱為一個分量,表示為:
(1)
因為每個GMM分量可以捕捉局部的數(shù)據(jù)特征,而混合模型有能將所有這些局部特征進行綜合,形成全面且具體的分布函數(shù)。這樣避免了為每一種特征值的組合定義專門的密度函數(shù),增加了模式分類器的通用性、靈活性與可擴展性。
GMM的擬合可以用EM算法實現(xiàn)。EM算法可以從不完全數(shù)據(jù)集中獲得對參數(shù)的極大似然估計,是一種有效而又實用的機器學(xué)習(xí)算法。這里所謂的“不完全數(shù)據(jù)”是指對參數(shù)直接進行似然估計比較困難,而在引入輔助性的參數(shù)(這些參數(shù)通常表征樣本背后隱含的信息)后就會比較順利,于是將原始觀察數(shù)據(jù)加上輔助性數(shù)據(jù)稱為“完全的數(shù)據(jù)”。
EM算法的每一步迭代包括:1)E步驟——期望步驟(Expectation Step);2)M步驟——極大似然步驟(Maximum Likelihood Step)。EM算法利用極大似然的原則,首先對模型參數(shù)給出一個初始猜測,然后開始進行迭代,以獲得更佳的估計模型參數(shù),可證明它在一定意義下可靠地收斂到局部極大,當(dāng)似然函數(shù)值是有界的時候,迭代序列收斂到一個穩(wěn)定值的上確界[8]。
EM算法的基本原理如下:假設(shè)觀察到的數(shù)據(jù)是X,完全數(shù)據(jù)Y=(X,Z),Z是缺失數(shù)據(jù)。θ是GMM模型參數(shù),在Z缺失的情況下,X關(guān)于θ的似然函數(shù)p(X|θ)很復(fù)雜,難以對θ進行極大似然估計。先對確實數(shù)據(jù)Z進行假設(shè),這樣就可能得到一個關(guān)于θ的似然函數(shù)p(X,Z|θ),以便對模型參數(shù)θ進行優(yōu)化?;剡^頭來,利用優(yōu)化后的模型又可以對Z的上一次假定進行評價和改進。如此迭代,將獲得對Z及θ的局部最優(yōu)估計。具體步驟如下[8]:
設(shè)置輔助函數(shù)(2),該函數(shù)表示在已知上一步模型參數(shù)θt-1的情況下,完全數(shù)據(jù)對數(shù)似然函數(shù)的數(shù)學(xué)期望。
(2)
令rik?p(zi=k|xi,θt-1),代表第k個分量在數(shù)據(jù)元素xi中占據(jù)的份額。則:
(3)
在E步驟中,估計rik的值:
(4)
在M步驟中,估計每一個分量的權(quán)重πk為:
(5)
rik是第k個分量在元素xi中占據(jù)的份額,rk代表第k個分量在所有樣本數(shù)據(jù)中所占的總份額,N為樣本總數(shù)。
對于高斯分布來說,θk包括均值向量μk以及協(xié)方差矩陣Σk。
(6)
(7)
在完成對πk以及θk的估計之后,將其代入步驟進行新一輪迭代,從而獲得GMM表達式(1)中未知參數(shù)的穩(wěn)定估計。
可以看出,EM算法的每一次迭代都需要遍歷所有的數(shù)據(jù)元素,對于大樣本來說,計算量非常龐大。當(dāng)需要對GMM模型進行在線擬合,系統(tǒng)的實時性會受到很大影響。因此本文設(shè)計一種基于網(wǎng)格空間的快速EM算法。其主要思想是將空間進行網(wǎng)格量化,并將網(wǎng)格的權(quán)重納入EM估計的計算中。
如圖3所示,特征空間被劃分為L個單元格,設(shè)第j個單元格中存在Mj個數(shù)據(jù)元素,每一個單元格中元素的特征向量用xij表示,其中i=(1,2,…,Mj),j=(1,2,…,L)。
EM算法中的E步驟為:
(8)
對同一單元格,rijk是一樣的,將其統(tǒng)一表示為rjk。這樣只需要對每個單元格計算一次即可。則:
(9)
由于經(jīng)過了網(wǎng)格量化,特征向量xij近似用網(wǎng)格中心點的向量xj表示。每個單元格的均值向量μk以及協(xié)方差矩陣Σk的計算為:
(10)
(11)
其中,Mj代表了不同單元格因內(nèi)部元素數(shù)目不同在整體參數(shù)估計中的權(quán)重??梢?,通過網(wǎng)格化處理,EM算法的計算復(fù)雜度從O(NK)降低到O(LK),其中N為樣本點數(shù),L為網(wǎng)格單元數(shù),K為所需的GMM分量個數(shù)??梢娪嬎懔勘粯O大縮減,而且不管樣本點數(shù)N有多少,只要采用同一種空間網(wǎng)格劃分方式,L即為固定數(shù)值。從而使計算量擺脫樣本點數(shù)的限制。
下面對上述方法的計算量和擬合精度進行仿真分析。30 000個樣本在特征平面上的分布如圖4(a)所示,用64×64的網(wǎng)格量化,GMM模型采用4個分量擬合。網(wǎng)格化EM算法得到的擬合結(jié)果如圖4(b)所示,得到的擬合參數(shù)如表1所示。同時,對同一組數(shù)據(jù)用逐點計算的方法進行GMM擬合,得到的四個GMM分量的參數(shù)如表2所示。與表1中的數(shù)值對比,二者的吻合程度較高。在計算時間上,采用相同的電腦和Matlab版本,逐點EM算法的計算時間是14 361 ms,而網(wǎng)格EM算法的計算時間是2 930 ms。
采用網(wǎng)格化的處理方法非常適用于電子偵察系統(tǒng),其理由包括如下兩點:
1) 在現(xiàn)實系統(tǒng)中,受限于噪聲及量化誤差等因素的制約,參數(shù)的測量精度會存在上限,此時對數(shù)據(jù)采用更高的表達精度是沒有意義的,為了不浪費系統(tǒng)的處理器資源,只需要將網(wǎng)格分辨率與該、上限匹配即可。
GMM分量均值μk協(xié)方差Σkπk1[19.368,0.426]2.00050.01150.01150.00010.02372[23.681,0.416]17.3395-0.0028-0.00280.00030.46723[27.526,0.439]32.7413-0.0563-0.05630.00070.31494[16.901,0.423]2.57760.00060.00060.00050.1940
表2 逐點擬合的GMM分量參數(shù)Tab.2 The GMM component parameters of dotk-by-dot EM method
2) GMM的擬合準(zhǔn)確度與樣本積累的數(shù)量有很大關(guān)系,數(shù)量越大,其分布概率越明顯、越穩(wěn)定。采用網(wǎng)格化的方法擺脫了樣本點數(shù)與計算量的關(guān)系,可以積累更多的點獲得更精確的分布概率,這一點對于實時系統(tǒng)具有十分重要的意義。
輻射源模式識別算法完成對接收信號的分類與學(xué)習(xí)。對于信號樣本,首先判斷其是否與已知的輻射源模式吻合。根據(jù)存儲的GMM模型得到樣本在各種模式中的似然概率,設(shè)樣本為x,則樣本歸屬模式h的似然概率為:
(12)
其中,模式h的GMM由序號K1至Kh的分量擬合而成。
遍歷所有模式,若最大似然概率超過門限,則給出樣本的歸屬,否則啟動模式學(xué)習(xí)進程。在模式學(xué)習(xí)中,需要經(jīng)過一段時間的樣本積累獲得穩(wěn)定的統(tǒng)計特性,然后通過聚類分析(為了與本文的網(wǎng)格化擬合算法統(tǒng)一,采用了一種基于分水嶺變換的網(wǎng)格聚類方法[9])在特征空間中分離出待學(xué)習(xí)的新樣本集,利用基于網(wǎng)格空間的快速EM算法在線擬合其GMM模型,加入分類器的動態(tài)知識庫,即可完成對未定義信號模式的學(xué)習(xí)。整體流程圖如5所示。
第1步,對新出現(xiàn)輻射源的學(xué)習(xí):
仿真條件如下:接收機帶寬為20 MHz,信噪比為5 dB,采用和差比幅測角體制。初始狀態(tài)下,方位角、俯仰角二維空間中分布著兩個輻射源,其樣本集即圖6(a)編號為1、2的點簇,這兩個輻射源已保存在GMM模型庫中。新出現(xiàn)的輻射源為編號為3的點簇,其中包含500個樣本。
算法能夠識別出新出現(xiàn)的輻射源,并啟動學(xué)習(xí)進程,對其進行聚類與GMM擬合學(xué)習(xí),最終系統(tǒng)中的GMM模型庫如圖6(b)所示。
第2步,對樣本分類:
采用相同的仿真設(shè)置,隨機產(chǎn)生樣本,歸屬于上述三個輻射源其中之一,經(jīng)過1 000次蒙特卡洛試驗,樣本分類準(zhǔn)確率為99.53%。樣本分類結(jié)果如圖7所示。
假定的應(yīng)用場景是雷達脈沖信號的分類,信號類型包括常規(guī)脈沖、線性調(diào)頻、BPSK巴克碼、Costas離散頻率編碼四種。信號參數(shù)如表3所示。
信號特征選用文獻[10]中的4種特征,分別是:
1)歸一化復(fù)包絡(luò)能量譜密度最大值ρmax。
2)歸一化復(fù)包絡(luò)平方的能量譜密度最大值ρ2,max。
4)信號時頻分布的離散能量聚集區(qū)的數(shù)量Nobj。
表3 測試樣本信號參數(shù)Tab.3 The parameters of testing signals
采用這些特征可以保證上述4種信號在特征空間中有較好的區(qū)分度和內(nèi)聚性。
信號脈沖各20 000個,前一半用于分類器的自主學(xué)習(xí),后一半用于檢驗分類器的效果。各信號類型隨機出現(xiàn),出現(xiàn)的總次數(shù)基本一致。各個信號的參數(shù)如表4所示。噪聲為加性高斯白噪聲,在各信噪比下,由自主訓(xùn)練的分類器對信號的正確分類概率如表4所示,在SNR為10 dB的情況下,正確率達到了98%以上。
表4 信號的正確識別概率(%)Tab.4 The accuracy of signal recognition
本文提出了基于高斯混合模型的輻射源模式識別算法。該算法能夠?qū)Ω黝愝椛湓催M行在線學(xué)習(xí),對各種模式的適應(yīng)性較強,能夠形成模式的似然概率模型。仿真分析表明:算法能夠?qū)Ω黝愝椛湓催M行在線學(xué)習(xí)與分類,適應(yīng)性較強,且計算效率較傳統(tǒng)EM算法有較大提高。本算法的主要缺點在于當(dāng)特征空間維數(shù)升高時,計算量將呈幾何級數(shù)遞增。因此在未來的工作中,可就具體的應(yīng)用場景嘗試特征值的精簡、空間降維、子空間聯(lián)合判斷等途徑研究進一步提高算法計算速度的方法。
[1]張春磊, 楊小牛. 認(rèn)知電子戰(zhàn)初探[J]. 通信對抗, 2013(2):1-4.
[2] Nandi A K, Azzouz E. Algorithms for automatic modulation recognition of communication signals[J]. Communications IEEE Transactions on, 1998, 46(4):431-436.
[3]陸淵章, 陸錦軍, 張冰. 基于等價型模糊神經(jīng)網(wǎng)絡(luò)的戰(zhàn)場輻射源識別算法[J]. 現(xiàn)代雷達, 2015, 37(1):49-51.
[4] 顧陽陽. 基于流形學(xué)習(xí)的雷達輻射源識別技術(shù)[D]. 西安:西安電子科技大學(xué), 2014.
[5] 張葛祥. 雷達輻射源信號智能識別方法研究[D]. 成都: 西南交通大學(xué), 2005.
[6] 潘瑩. 典型信號模式識別算法的研究與應(yīng)用[D]. 北京:北京郵電大學(xué), 2014.
[7] Yu Guoshen. Solving inverse problems with piecewise linear estimators: from gaussian mixture models to structured sparsity[J]. IEEE Transactions on Image Processing, 2012, 21(5): 2481-2499.
[8] Murphy Kevin P. Machine Learning A Probabilistic Perspective[M]. New York: the MIT press, 2012.
[9] Lolla S V G, Hoberock L. Improved unsupervised clustering over watershed-based clustering[C]// Ninth International Conference on Machine Learning and Applications. IEEE Computer Society, 2010:253-259.
[10] Jarmo Lundén, Visa Koivunen. Automatic radar waveform recognition[J]. IEEE journal of selected topics in signal processing, 2007, 1(1): 201-213.