李 蒙,朱衛(wèi)綱
(裝備學(xué)院 a.研究生管理大隊;b光電裝備系,北京 101416)
?
數(shù)據(jù)庫樣本缺失下的雷達輻射源識別*
李 蒙**a,朱衛(wèi)綱b
(裝備學(xué)院 a.研究生管理大隊;b光電裝備系,北京 101416)
目前,基于機器學(xué)習(xí)的雷達輻射源識別技術(shù)大多以訓(xùn)練集和測試集同分布為假設(shè),當雷達數(shù)據(jù)庫樣本不足導(dǎo)致與信號真實分布存在偏差時,傳統(tǒng)的分類方法效果不佳。為此,將遷移學(xué)習(xí)理論引入識別系統(tǒng),設(shè)計了一種基于結(jié)構(gòu)發(fā)現(xiàn)與再平衡的雷達輻射源信號識別方法。通過對數(shù)據(jù)庫和待識別輻射源信號樣本進行聚類分析發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)信息,通過重采樣處理修正其分布差異。將新采樣數(shù)據(jù)輸入支持向量機進行訓(xùn)練并對偵收樣本進行識別。仿真實驗表明,在新訓(xùn)練樣本集上學(xué)習(xí)的模型對測試集的分類性能有了很大的提升。
雷達輻射源識別;遷移學(xué)習(xí);結(jié)構(gòu)發(fā)現(xiàn);再平衡;支持向量機
雷達輻射源識別作為雷達偵察中的關(guān)鍵環(huán)節(jié),在雷達對抗中具有十分重要的作用。其任務(wù)是基于雷達數(shù)據(jù)庫中樣本對偵察得到的雷達信號進行分析,從而確定該輻射源的體制、狀態(tài)、用途、型號、威脅等級等信息[1]。
雷達輻射源識別問題可以歸結(jié)為模式分類問題,即根據(jù)提取的特征參數(shù)結(jié)合雷達數(shù)據(jù)庫信息的一個分類過程。機器學(xué)習(xí)(Machine Learning)作為一種智能的數(shù)據(jù)分析工具,可以模擬人類學(xué)習(xí)行為,使計算機程序隨著經(jīng)驗的積累不斷提高自身性能,受到了輻射源識別領(lǐng)域?qū)W者的廣泛關(guān)注。自20世紀80年代英國海軍將人工神經(jīng)網(wǎng)絡(luò)引入輻射源識別[2]以來,國內(nèi)外學(xué)者不斷探索機器學(xué)習(xí)在雷達輻射源識別領(lǐng)域的應(yīng)用,并在神經(jīng)網(wǎng)絡(luò)[3]、支持向量機[4]以及集成學(xué)習(xí)[5]等方面取得了不錯的效果。但是,這些實驗都是基于訓(xùn)練集和測試集同分布實現(xiàn)的,在實際中,往往由于偵察的時間和條件有限導(dǎo)致偵收樣本不足以反映信號的真實分布,使得識別效果大打折扣。
遷移學(xué)習(xí)(Transfer Learning)放寬了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)服從獨立同分布的假設(shè),使得參與學(xué)習(xí)的領(lǐng)域或任務(wù)可以服從不同的邊緣概率分布或條件概率分布,被認為是在最小監(jiān)督代價下進行機器學(xué)習(xí)的一種嶄新策略[6],已經(jīng)廣泛應(yīng)用于文本分類[7]、視頻識別[8]、自然語言處理[9]等領(lǐng)域。本文探索了遷移學(xué)習(xí)在雷達輻射源信號識別中的應(yīng)用,針對雷達數(shù)據(jù)庫樣本缺失導(dǎo)致待識別信號與數(shù)據(jù)庫樣本分布存在偏差的情況,引入BRSD[10](Bias Reduction via Structure Discovery)遷移算法,設(shè)計了一種適用于數(shù)據(jù)庫樣本缺失的雷達輻射源識別方法,對多功能相控陣雷達信號工作狀態(tài)進行了有效識別。
圖1 雷達輻射源識別原理框圖Fig.1 Principle block diagram of radar emitter identification
3.1 理論分析
當待識別輻射源信號與雷達數(shù)據(jù)庫數(shù)據(jù)存在偏差時,兩者的聯(lián)合分布是不相同的,即PS(x,y)≠PT(x,y)。由于數(shù)據(jù)庫樣本與待識別樣本具有不同的分布,將基于DS學(xué)習(xí)的模型c′(x)應(yīng)用到DT中就難以保證模型的可信度?;诮Y(jié)構(gòu)發(fā)現(xiàn)與再平衡的遷移學(xué)習(xí)通過分析源領(lǐng)域與目標域的數(shù)據(jù)分布產(chǎn)生一個新的訓(xùn)練樣本集用于訓(xùn)練分類器,以提高學(xué)習(xí)模型在目標數(shù)據(jù)集的泛化能力。
為了便于理解,用二維數(shù)據(jù)二分類的例子來演示本文方法的基本思路。如圖2所示,訓(xùn)練樣本用實心點表示,待識別樣本用空心點表示,三角形和正方形分別表示不同類別。由圖2(a)可以看出,當訓(xùn)練樣本與待識別樣本分布存在偏差時,由訓(xùn)練樣本得到的學(xué)習(xí)模型對待識別樣本的識別結(jié)果較差。通過對整個數(shù)據(jù)集進行聚類(圖2(b))尋找結(jié)構(gòu)信息,然后通過重采樣過程從每個聚類簇中按相同比例選擇一組與待分類樣本分布偏差較小的新訓(xùn)練樣本集(圖2(c))進行訓(xùn)練,新訓(xùn)練的學(xué)習(xí)模型(圖2(d))對待識別樣本有了較好的分類結(jié)果。
圖2 基于結(jié)構(gòu)發(fā)現(xiàn)與再平衡的遷移學(xué)習(xí)示意圖Fig.2 Schematic diagram of transfer learning based on structure discovery and re-balancing
對總數(shù)據(jù)集D=DS∪DN進行聚類處理來探求數(shù)據(jù)的結(jié)構(gòu)信息,理論上可以采用任何具有良好性能的聚類算法。
假設(shè)聚類后得到NC個簇{C1,C2,…,CNC}。樣本再平衡環(huán)節(jié),綜合考慮數(shù)據(jù)標記可信度和數(shù)據(jù)代表性,從每個簇Ci中按相同比例選擇標記可信度高,且最能代表該簇分布的樣本數(shù)據(jù)作為新訓(xùn)練樣本數(shù)據(jù)。
數(shù)據(jù)標記可信度表示為
(1)
數(shù)據(jù)代表性表示為
(2)
當聚類簇包含樣本較少時,假設(shè)內(nèi)部數(shù)據(jù)分布是相同的??梢宰C明[12],從每個聚類簇中按照相同比例選取的新訓(xùn)練樣本與總數(shù)據(jù)集的分布是一致無偏的。
3.2 算法實現(xiàn)
3.2.1BRSD算法
BRSD算法不需要直接估計域分布,且能夠修正不同類型的域間差異。算法流程如下:
輸入:標記數(shù)據(jù)集DS,未標記數(shù)據(jù)集DT,樣本預(yù)測比例α。
輸出:新的訓(xùn)練樣本集S。
(1)令總數(shù)據(jù)集D=DS∪DT;
(2)對D進行聚類分析,生成NC個聚類簇{C1,C2,…,CNC}=C;
(3)基于式(1)和式(2)將Ci中樣本按相同權(quán)重相加進行綜合降序排列;
(4)按比例α從每個簇中選取新樣本si;
(5)生成新的訓(xùn)練樣本集S。
3.2.2 基于BRSD的雷達輻射源信號識別算法
通過提取雷達信號特征構(gòu)建特征向量,使用BRSD算法可以有效修正數(shù)據(jù)庫樣本與待識別樣本的分布偏差,實現(xiàn)偵收信號的有效識別。綜合上述分析,設(shè)計算法如下:
輸入:數(shù)據(jù)庫樣本XS,待識別樣本XT。
輸出:待識別樣本XT的標簽YT。
(1)對XS和XT進行歸一化處理;
(2)執(zhí)行BRSD算法,生成新訓(xùn)練樣本S;
(3)將S輸入到分類器中進行訓(xùn)練,得到學(xué)習(xí)模型M;
(4)用學(xué)習(xí)模型M對XT的類別進行預(yù)測;
(5)得到標簽集合YT及相信輻射源信號工作狀態(tài)信息。
經(jīng)過改進的雷達輻射源識別系統(tǒng)如圖3所示。
圖3 改進后的雷達輻射源識別框圖Fig.3 Block diagram of improved radar emitter identification
對于多功能雷達而言,要確定其威脅程度,單純的型號識別是遠遠不夠的。多功能雷達所展現(xiàn)的能力和威脅程度與其正在執(zhí)行的任務(wù)和工作狀態(tài)有關(guān)。因此,以某多功能相控陣雷達不同工作狀態(tài)的信號為實驗數(shù)據(jù)庫,模擬數(shù)據(jù)庫樣本缺失時的雷達輻射源信號識別。信號各維特征參數(shù)信息如表1所示,其中搜索模式1、2、3分別表示近程搜索、中程搜索、遠程搜索,RF表示載頻,PRI表示脈沖重復(fù)間隔,PW表示脈沖寬度,PA表示脈沖幅度,IBW表示帶寬。
表1 雷達信號特征參數(shù)Tab.1 Characteristic parameter of radar signal
根據(jù)信號統(tǒng)計特征仿真生成樣本,按比例剔除部分樣本后將剩余樣本作為原始數(shù)據(jù)庫,缺失率為剔除樣本占總樣本的比例。
利用經(jīng)典的K-means和DBSCAN算法對本文數(shù)據(jù)集進行聚類。實驗表明,K-means算法實驗結(jié)果雖然是經(jīng)過多次實驗取的平均值,但實驗結(jié)果還是存在較大起伏,聚類效果依賴于人為設(shè)置的子類個數(shù)。由于關(guān)于待識別輻射源信號聚類簇數(shù)量的先驗信息較少,因此認為K-means算法不適合雷達輻射源信號的聚類。而DBSCAN算法是基于密度的聚類算法,不需要人為設(shè)置子類個數(shù),并且可以自動丟棄識別為噪聲的樣本點,受離群點的影響較小,實驗結(jié)果比較穩(wěn)定。
以α=NS/(NS+NT)為比例重新采樣實現(xiàn)樣本再平衡,并與直接使用數(shù)據(jù)庫樣本作為訓(xùn)練集訓(xùn)練分類器的識別效果進行比較。實驗進行10次仿真并取平均后的結(jié)果如表2所示,加粗數(shù)據(jù)為遷移算法處理后的識別結(jié)果。
表2 不同缺失和誤差下分類識別率Tab.1 Identification rate under different missing and error
在4%誤差條件下對比遷移算法處理前后的識別結(jié)果如圖4所示??梢钥闯觯敂?shù)據(jù)庫樣本存在缺失時,直接使用數(shù)據(jù)庫樣本訓(xùn)練的分類器識別率在缺失率大于30%后顯著下降;而進行樣本再平衡后訓(xùn)練的分類器識別率雖略有下降,但基本保持穩(wěn)定,證明了方法的有效性。
圖4 改進前后識別結(jié)果對比Fig.4 Comparison of identification result before and after improvement
固定數(shù)據(jù)庫缺失70%的條件,檢驗所提方法對誤差的敏感程度,識別結(jié)果如圖5所示??梢钥闯?,與直接使用數(shù)據(jù)庫樣本訓(xùn)練分類器進行識別的方法相比,在一定誤差范圍內(nèi),本文方法能夠有效提高雷達信號的正確識別率。但是,當誤差超過6%時,識別率會有明顯下降;測量誤差超過9%以后,正確識別率則會低于傳統(tǒng)方法。這是由于不同類別信號在特征空間的距離較小,聚類過程受測量誤差影響較大,造成識別效果迅速惡化。
圖5 測量誤差對識別效果的影響Fig.5 Effect of measurement error on identification effect
固定缺失和誤差,探索重采樣比例對識別效果的影響,實驗結(jié)果如圖6所示??梢钥闯觯斨夭蓸颖壤?15%時,正確識別率基本趨于穩(wěn)定,即當數(shù)據(jù)庫樣本數(shù)量大于總樣本的15%時,NS/(NS+NT)能夠滿足重采樣比例需求。
圖6 重采樣比例對識別效果的影響Fig.5 Effect of resampling ratio on identification effect
本文針對雷達數(shù)據(jù)庫與信號真實分布存在偏差時分類效果不佳的問題,提出了一種基于遷移學(xué)習(xí)的雷達輻射源識別方法。該方法通過發(fā)現(xiàn)樣本分布結(jié)構(gòu)縮小訓(xùn)練集與待識別樣本的分布偏差,有效解決了因偵收數(shù)據(jù)量不足等造成的訓(xùn)練樣本缺失時的輻射源識別問題。為分析樣本分布,該方法需要對信號進行聚類分析,導(dǎo)致測量誤差較大時識別效果不佳,如何提高大誤差條件下的識別率將是下一階段研究的重點。
[1] 游屈波,吳耀云,哈章.輻射源識別系統(tǒng)中分類器設(shè)計及其應(yīng)用[J].電子信息對抗技術(shù),2011,26(3):20-24. YOU Qubo,WU Yaoyun,HA Zhang. Design and application of classifier for emitter recognition[J].Electronic Information Warfare Technology,2011,26(3):20-24.(in Chinese)
[2] ROE J,PUDNER A. The real-time implementation of emitter identification for ESM[J]//Proceedings of 1994 IEE Colloquium on Signal Processing in Electronic Warfare.London:IET,1994:1-6.
[3] ANDERSON J A,GATELY M T,PENZ P A,et al.Radar signal categorization using a neural network[J].Proceedings of the IEEE,1990,78(10):1646-1657.
[4] ZHANG G X,JIN W D,HU L Z. Radar emitter signal recognition based on support vector machines[C] //Proceedings of the 8th International Conference on Control,Automation,Robotics and Vision.Kunming:IEEE,2004:826-831.
[5] 方敏,王寶樹.基于Boosting的模糊分類規(guī)則集成學(xué)習(xí)及應(yīng)用[J].宇航學(xué)報,2005(5):640-643,675. FANG Min,WANG Baoshu.Ensemble learning and application of fuzzy classification rules based on boosting[J].Journal of Astronautics,2005(5):640-643,675.(in Chinese)
[6] 龍明盛.遷移學(xué)習(xí)問題與方法研究[D].北京:清華大學(xué),2014. LONG Mingsheng. Transfer learning:problems and methods[D]. Beijing:Tsinghua University,2014.(in Chinese)
[7] ZHUANG F,LUO P,DU C.Triplex transfer learning: exploiting both shared and distinct concepts for text classification [J].IEEE Transactions on Cybernetics,2014,44(7):1911-1203.
[8] PATEL V M,GOPALAN R,RUONAN L.Visual domain adaptation:a survey of recent advances[J].IEEE Signal Processing Magazine,2015,32(3):53-69.
[9] MORI S.Domain adaptation in natural language processing(transfer of knowledge) [J].Journal of Japanese Society for Artificial Intelligence,2012,27(4):365-372.
[10] REN J T,SHI X X,F(xiàn)AN W. Type independent correction of sample selection bias via structural discovery and re-balancing[C]∥Proceedings of the SDM.Auckland:ACM,2008:565-576.
[11] PETER F. Machine learning: the art and science of algorithms that make sense of data[M].Cambridge: Cambridge University Press,2012.
[12] 劉 振,楊俊安,劉輝. 模糊近鄰密度聚類與重采樣的遷移學(xué)習(xí)算法[J].信號處理,2016,32(6):651-659. LIU Zhen,YANG Junan,LIU Hui.Transfer learning with fuzzy neighborhood density clustering and re-sampling[J]. Journal of Signal Processing,2016,32(6):651-659.(in Chinese)
[13] 王小川,史峰,郁磊. MATLAB神經(jīng)網(wǎng)絡(luò)43個案例分析[M].北京:北京航空航天大學(xué)出版社,2013.
Radar Emitter Identification in Database Sample Missing Condition
LI Menga,ZHU Weigangb
(a.Department of Graduate Management;b.Department of Photoelectric Equipment,The Academy of Equipment,Beijing 101416,China)
Present radar emitter identification based on machine learning technology mostly assumes that training set and test set are same. When the radar database and the true distribution of the signals are biased,the traditional classification method is ineffective. Thus,the theory of transfer learning is introduced into the identification system,and a radar emitter signal identification method based on structural discovery and re-balancing is proposed. By means of database data and target data clustering analysis and resampling,the distribution is corrected and the new data is put to support vector machine(SVM) for training and identifying reconnaissance samples. The simulation results show that the classification performance of the support vector machine model in the new training sample set has been greatly improved.
radar emitter identification;transfer learning;structural discovery;re-balancing;support vector machine(SVM)
10.3969/j.issn.1001-893x.2017.07.009
李蒙,朱衛(wèi)綱.數(shù)據(jù)庫樣本缺失下的雷達輻射源識別[J].電訊技術(shù),2017,57(7):784-788.[LI Meng,ZHU Weigang.Radar emitter identification in database sample missing condition[J].Telecommunication Engineering,2017,57(7):784-788.]
2016-10-28;
2017-02-23 Received date:2016-10-28;Revised date:2017-02-23
TN971
A
1001-893X(2017)07-0784-05
李 蒙(1992—),男,山東無棣人,碩士研究生,主要研究方向為軍事信息處理;
Email:wdyzlimeng@163.com
朱衛(wèi)綱(1973—),女,陜西西安人,副教授、碩士生導(dǎo)師,主要研究方向為現(xiàn)代信號處理理論與應(yīng)用。
**通信作者:wdyzlimeng@163.com Corresponding author:wdyzlimeng@163.com