顧楚梅,曹建軍,魏志虎,徐雨芯
(1. 南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院,江蘇 南京210044;2. 國防科技大學(xué)第六十三研究所,江蘇 南京210007)
輻射源個(gè)體識(shí)別(Specific Emitter Identification,SEI)利用輻射源信號(hào)中提取的有關(guān)各種設(shè)備的本質(zhì)差異特征來實(shí)現(xiàn)對不同輻射源個(gè)體的識(shí)別。在無線通信安全領(lǐng)域,通信網(wǎng)絡(luò)非法攻擊的現(xiàn)象日益嚴(yán)重,通過預(yù)處理、提取入侵的輻射源特征并進(jìn)行分類識(shí)別,為保證通信網(wǎng)絡(luò)安全提供了支持。在軍事應(yīng)用上,為防止敵方的通信設(shè)備對我方進(jìn)行干擾,可利用輻射源個(gè)體識(shí)別技術(shù)來識(shí)別敵方設(shè)備并進(jìn)行一定干預(yù),具有重要的戰(zhàn)略戰(zhàn)術(shù)意義[1]。
為識(shí)別輻射源個(gè)體,需要對來源于輻射源設(shè)備的信號(hào)進(jìn)行預(yù)處理、特征提取和分類識(shí)別[2]。而通常特征提取后得到的輻射源信號(hào)特征維數(shù)較大,且常含有不相關(guān)或冗余特征,這將會(huì)降低分類器的分類性能。利用特征選擇(Feature Selection,FS)的降維功能可以很好地解決這一問題[3]。
特征選擇是一種數(shù)據(jù)預(yù)處理方法,使用某種評價(jià)標(biāo)準(zhǔn)從原始搜索空間中選擇特征子集。要求在特征子集盡可能小的情況下準(zhǔn)確識(shí)別目標(biāo)。
特征選擇模型通常采用兩類目標(biāo)函數(shù):某種集合距離函數(shù)和分類器的分類測試結(jié)果。集合距離函數(shù)計(jì)算復(fù)雜度較低但分類正確率也相對較低;分類器的分類測試結(jié)果針對性強(qiáng),分類正確率較高但這種方法的計(jì)算復(fù)雜度也相對較高[4]。
特征選擇的主要困難為搜索空間隨特征數(shù)的增加呈現(xiàn)指數(shù)級增長,如何采取高效的搜索策略往往決定了特征選擇問題能否有效求解。傳統(tǒng)的特征子集搜索策略包括:順序向前搜索、順序向后搜索、順序向前浮動(dòng)搜索和順序向后浮動(dòng)搜索[5]。演化計(jì)算技術(shù)具有良好的全局搜索能力,與傳統(tǒng)的搜索策略相比,其主要優(yōu)勢為不需要領(lǐng)域知識(shí)和對搜索空間做任何假設(shè),除此以外,其基于種群機(jī)制的特點(diǎn)能夠在一次運(yùn)行中產(chǎn)生多種結(jié)果,更適合用來進(jìn)行特征選擇以確保能同時(shí)滿足較小特征子集個(gè)數(shù)和較大分類正確率的目標(biāo)。一些基于演化計(jì)算的特征選擇算法有蟻群算法、粒子群算法和遺傳算法等[6]。
蟻群優(yōu)化(Ant Colony Optimization,ACO)算法是受自然界螞蟻覓食行為啟發(fā)而廣泛應(yīng)用的一種啟發(fā)式算法,該算法的優(yōu)點(diǎn)主要是信息正反饋、較強(qiáng)魯棒性及并行分布式計(jì)算等[7]。最早被用于解決旅行商問題,隨后其它組合優(yōu)化問題如背包問題和特征選擇問題也能運(yùn)用蟻群算法得到解決[8]。文獻(xiàn)[9]提出了一種利用ACO求解特征子集的方法,利用特征向量圖來搜索特征子集。但該方法較易陷入局部最優(yōu)解且穩(wěn)定性不高。文獻(xiàn)[10]提出一種基于改進(jìn)蟻群求解特征子集的入侵檢測方法,對進(jìn)行預(yù)處理后的數(shù)據(jù)集根據(jù)信息熵理論初步提取特征,用改進(jìn)蟻群算法進(jìn)一步求解特征子集。但該算法的訓(xùn)練時(shí)間并未顯著減少。文獻(xiàn)[11]提出了一種融合蟻群算法和隨機(jī)森林的特征選擇方法,將隨機(jī)森林的重要度評分作為蟻群算法的啟發(fā)式信息,但該算法僅對ACO的啟發(fā)式信息進(jìn)行優(yōu)化,創(chuàng)新性較低。文獻(xiàn)[12]提出了一種基于二元全連通圖的最小冗余最大相關(guān)蟻群算法,特征節(jié)點(diǎn)通過訪問概率隨機(jī)訪問,子節(jié)點(diǎn)通過先驗(yàn)知識(shí)選擇,該方法能有效降低特征選擇的時(shí)間開銷。文獻(xiàn)[13]提出了一種基于圖的螞蟻系統(tǒng)(Graph-Based Ant System,GBAS),該算法基于構(gòu)造圖提出了等效路徑的概念,將問題的無序信息和有向圖的路徑相結(jié)合,實(shí)現(xiàn)了將無序信息轉(zhuǎn)化為有序信息,該方法提高了蟻群算法的性能。
綜上,為解決輻射源信號(hào)維數(shù)較大問題,提出了一種基于蟻群優(yōu)化特征選擇的輻射源個(gè)體識(shí)別方法。給出以最大分類正確率和最小特征子集規(guī)模為目標(biāo)的特征選擇數(shù)學(xué)模型;特征選擇的目標(biāo)函數(shù)使用分類器的分類正確率;搜索算法使用蟻群優(yōu)化算法。實(shí)驗(yàn)表明相比于傳統(tǒng)的特征子集搜索策略,提出的方法能在降低特征數(shù)目的同時(shí)提高輻射源信號(hào)的分類正確率。
為實(shí)現(xiàn)對不同輻射源個(gè)體的識(shí)別,首先利用相關(guān)信號(hào)分析技術(shù)[14],對采集信號(hào)進(jìn)行預(yù)處理并從中提取出一定數(shù)量的特征,這些提取出的特征可以構(gòu)造一個(gè)特征集set={t|t=1, 2,…,T,T∈N},set集中特征對應(yīng)的特征向量記為V?,F(xiàn)有W類的Y個(gè)特征向量樣本,記Vwyt,w=1, 2,…,W,y=1, 2,…,Y,t=1, 2,…,T,為第w類中第y個(gè)樣本向量的第t個(gè)特征值。
特征選擇的過程即根據(jù)上述特征向量樣本從集合set中選擇基數(shù)為q的一個(gè)特征子集subsetq,使該子集對應(yīng)的特征向量樣本滿足某種目標(biāo)函數(shù)。
根據(jù)所研究的問題即輻射源信號(hào)個(gè)體識(shí)別問題的本質(zhì)是分類問題,特征選擇和分類器的性能相關(guān)聯(lián)。因此直接使用分類器的分類正確率作為特征選擇的目標(biāo)函數(shù)。實(shí)驗(yàn)部分中的數(shù)據(jù)集為從兩個(gè)電臺(tái)發(fā)出的輻射源信號(hào)數(shù)據(jù),旨在通過輻射源個(gè)體識(shí)別技術(shù)識(shí)別兩個(gè)電臺(tái)進(jìn)而分析電臺(tái)的性質(zhì)、屬性和危險(xiǎn)等級等,本質(zhì)上是一個(gè)二分類問題,故可以采用支持向量機(jī)(Support Vector Machine,SVM)作為分類器。
對使用分類器的分類正確率作為目標(biāo)函數(shù)的特征選擇算法,特征選擇問題可以描述為:從集合set中根據(jù)目標(biāo)函數(shù)得到一個(gè)基數(shù)為q的特征子集subsetq,subsetq所含特征對應(yīng)的特征向量樣本分類正確率P最高。數(shù)學(xué)模型為
(1)
minq
(2)
s.t.|subsetq|=q,1≤q (3) 2.2.1 蟻群優(yōu)化 以最大分類正確率和最小特征子集規(guī)模作為優(yōu)化目標(biāo),引用文獻(xiàn)[13]中的GBAS算法求解。 引入GBAS,根據(jù)輻射源信號(hào)特征選擇問題構(gòu)造有向圖,如圖1所示。 圖1 子集問題構(gòu)造圖的有向圖 上圖輻射源信號(hào)特征子集問題構(gòu)造圖的有向圖中,有向圖的邊代表備選特征,路徑映射為一個(gè)求得的輻射源信號(hào)特征子集。節(jié)點(diǎn)dk(k=1, 2,…,q+1),在d1處人為設(shè)定螞蟻的數(shù)量為A,每只螞蟻根據(jù)有向圖邊上的信息素量和啟發(fā)式信息隨機(jī)獨(dú)立地選擇從某一個(gè)節(jié)點(diǎn)di走到下一個(gè)節(jié)點(diǎn)dj,此問題中,即隨機(jī)地選擇下一個(gè)信號(hào)數(shù)據(jù)。其中n為特征總數(shù)(特征提取后得到的輻射源信號(hào)特征總數(shù)),q為螞蟻在一次搜索過程中找到的解的個(gè)數(shù),eij表示螞蟻在步驟j時(shí)選擇第i個(gè)特征。 引用路徑選擇概率公式來實(shí)現(xiàn)圖1中螞蟻的路徑構(gòu)建,如(4)式所示。 (4) 式(4)中τij(s)為s(s=1, 2,…)時(shí)刻邊eij上的信息素量,初始化信息素量τij(0)=0;用禁忌表tabua(a=1, 2,…,A)記錄第a只螞蟻?zhàn)哌^的邊;α,β分別為信息素量和啟發(fā)式因子的重要程度;ηi是啟發(fā)式因子且為內(nèi)部信息,表示選擇第i個(gè)元素的期望程度,視情況而定具體表達(dá)式。 針對本文研究的信號(hào)數(shù)據(jù)的特點(diǎn),啟發(fā)式因子ηi的公式如下。 (5) 信息素量隨迭代次數(shù)變化,一次迭代完成后,按照一定的規(guī)則對信息素進(jìn)行更新,信息素更新公式如下 (6) 式中ρ為信息素?fù)]發(fā)系數(shù);tabus為s時(shí)刻選擇的特征路徑;φ’(tabus)為要進(jìn)行信息素增強(qiáng)路徑的目標(biāo)函數(shù)值,為信息素增量公式;Q為常數(shù)(根據(jù)ρ值確定,調(diào)節(jié)信息素增量的大小)。 2.2.2 蟻群算法流程圖 基于蟻群優(yōu)化特征選擇的輻射源個(gè)體識(shí)別算法可以概括為:首先依據(jù)路徑轉(zhuǎn)移概率公式構(gòu)建某條路徑;然后根據(jù)目標(biāo)函數(shù)即分類器的分類正確率來判斷當(dāng)前解是否為最優(yōu)解,進(jìn)而更新信息素。算法終止條件為達(dá)到設(shè)定的最大運(yùn)行次數(shù)。 其流程圖如圖2所示。 圖2 蟻群算法特征選擇流程圖 3.1.1 數(shù)據(jù)準(zhǔn)備 實(shí)驗(yàn)在1臺(tái)i7-4770 3.40GHz 4核處理器、24GB內(nèi)存的電腦上運(yùn)行,開發(fā)環(huán)境為Matlab R2017a。實(shí)驗(yàn)數(shù)據(jù)來源于兩個(gè)相同型號(hào)的輻射源電臺(tái),采集環(huán)境為基本無噪聲的干凈環(huán)境,兩個(gè)電臺(tái)發(fā)出的信號(hào)數(shù)據(jù)分別在10種不同的采集狀態(tài)下獲得。10種采集狀態(tài)下信號(hào)具體參數(shù)如表1所示。 表1 信號(hào)參數(shù) 3.1.2 預(yù)處理 為統(tǒng)一數(shù)據(jù)樣本的數(shù)量級、增加可比性及加快算法收斂速度,采用Z-score標(biāo)準(zhǔn)歸一化對特征值進(jìn)行標(biāo)準(zhǔn)化[15],公式如下。 (7) Z-score標(biāo)準(zhǔn)歸一化將原始的數(shù)據(jù)轉(zhuǎn)換到某個(gè)范圍,且不會(huì)改變原始數(shù)據(jù)排列順序。歸一化后,不同數(shù)量級的特征在數(shù)值上進(jìn)行了統(tǒng)一,提高了分類器的正確率;最優(yōu)解的尋優(yōu)過程更為平緩,容易正確地收斂到最優(yōu)解。 對原始I/Q采樣數(shù)據(jù)取模,可得到信號(hào)的頻域表達(dá),信號(hào)I/Q兩路采樣可以降低采樣率且保留原始信號(hào)的信息。為保證信號(hào)數(shù)據(jù)的多樣性,現(xiàn)將實(shí)驗(yàn)數(shù)據(jù)擴(kuò)展,分別為:取模后的信號(hào)數(shù)據(jù)、I路信號(hào)數(shù)據(jù)和Q路信號(hào)數(shù)據(jù)。然后經(jīng)過信號(hào)其它預(yù)處理過程及基于集成特征提取算法,依據(jù)信號(hào)時(shí)頻域的特點(diǎn),對信號(hào)進(jìn)行兩層提升小波包分解[14]。選取12個(gè)統(tǒng)計(jì)量(均值、平均幅值、方根幅值、標(biāo)準(zhǔn)差、有效值、峰-峰值、波形指標(biāo)、脈沖指標(biāo)、峰值指標(biāo)、偏斜度、峭度和峪度指標(biāo))及各頻帶內(nèi)能量。對于求幅值后的信號(hào)數(shù)據(jù),按組(每組4096個(gè)數(shù)據(jù))進(jìn)行特征提取,得到重構(gòu)原時(shí)域信號(hào)的12個(gè)統(tǒng)計(jì)特征參數(shù)(1-12)、小波包分解的第二層四個(gè)節(jié)點(diǎn)系數(shù)的各12個(gè)特征參數(shù)(13-60)、四個(gè)單支重構(gòu)信號(hào)的各12個(gè)統(tǒng)計(jì)特征參數(shù)(61-108)和4個(gè)標(biāo)準(zhǔn)化相對能量(109-112)。對于I路信號(hào)數(shù)據(jù),用相同的方法得到特征113-224,對于Q路信號(hào),得到特征225-336。構(gòu)建特征集set={t|t=1, 2,…, T, T=336}。每個(gè)電臺(tái)分別在每種采集狀態(tài)下選取200組數(shù)據(jù)(共得到2000組數(shù)據(jù)),得到兩臺(tái)電臺(tái)的2×2000個(gè)特征向量,選取總特征向量的3/4用來訓(xùn)練,1/4用來測試。 上述實(shí)驗(yàn)數(shù)據(jù)在無噪聲的干凈環(huán)境下采集得到,為模擬信號(hào)的普遍實(shí)際狀態(tài),在實(shí)驗(yàn)前可先將信噪比分別調(diào)整為10dB和5dB,特征提取分別得到特征集set={t|t=1, 2,…, T, T=336},再按提出的算法進(jìn)行特征選擇并進(jìn)行實(shí)驗(yàn)。 將文獻(xiàn)[5]中基于類間類內(nèi)距離比的向前搜索算法選擇特征子集與文中基于蟻群優(yōu)化算法選擇特征子集的結(jié)果進(jìn)行比較。 文獻(xiàn)[5]方法:基于類間類內(nèi)距離比的向前搜索特征選擇算法分別計(jì)算每類第t個(gè)特征的類間平均距離和類內(nèi)平均距離,并計(jì)算第t個(gè)特征的類間類內(nèi)平均距離比rt,類間類內(nèi)平均距離比rt反映了特征t分類的難易程度。按照rt對特征進(jìn)行排序,選取前q個(gè)rt較大的特征作為分類器的輸入。用訓(xùn)練樣本計(jì)算set中每一特征的類間類內(nèi)平均距離比,得到的結(jié)果如圖3所示。 圖3 特征類間類內(nèi)距離比 根據(jù)圖3,選取前20個(gè)rt較大的特征,圖中為虛線上方特征,按照rt對特征進(jìn)行排序取q=1,2,3,…,20構(gòu)成特征子集。分類器使用SVM(采用rbf核函數(shù),gamma=0.4,C=100),分類正確率與特征子集基數(shù)q的關(guān)系如圖4所示。 圖4 特征選擇算法對比 本文方法:基于蟻群優(yōu)化的特征選擇算法參數(shù)初始化:τij(0)=1,α=1,β=1,ρ=0.2,Q=0.02,螞蟻數(shù)A=45,最大迭代次數(shù)Nc=200。采用SVM分類器(采用rbf核函數(shù),gamma=0.4,C=100)。分別取q=1,2,3,…,20,為降低蟻群優(yōu)化算法螞蟻初始位置的隨機(jī)性對最終結(jié)果的影響,重復(fù)實(shí)驗(yàn)10次取平均分類正確率,平均分類正確率與最優(yōu)特征子集基數(shù)q的關(guān)系如圖4所示。 根據(jù)圖4,基于類間類內(nèi)距離比的向前搜索算法得到的最優(yōu)q值為17,分類正確率為77.2%;基于蟻群優(yōu)化的輻射源信號(hào)特征選擇算法得到的最優(yōu)q值為14,分類正確率為85%。 當(dāng)q值相同時(shí),明顯可以觀察出使用基于蟻群優(yōu)化的輻射源信號(hào)特征選擇算法選出的特征子集比基于類間類內(nèi)距離比的向前搜索算法選擇特征子集的分類正確率有較高提升,說明使用提出的算法選出的特征子集更能表示電臺(tái)的本質(zhì)特性從而區(qū)分這兩個(gè)電臺(tái),進(jìn)而分析電臺(tái)的危險(xiǎn)等級,在現(xiàn)代數(shù)字化信息戰(zhàn)場取得優(yōu)勢;隨著q值的增加,使用蟻群優(yōu)化算法選出的特征子集分類正確率總體上呈現(xiàn)出先增后減的趨勢,如圖中表明當(dāng)q=14時(shí),特征選擇的效果最好,這也滿足了算法的目標(biāo),即從規(guī)模和分類效果綜合衡量選取最好的特征子集。 實(shí)驗(yàn)3.2中數(shù)據(jù)在基本干凈無噪聲的環(huán)境下采集得到,為模擬信號(hào)的實(shí)際狀態(tài),現(xiàn)通過添加高斯白噪聲改變信噪比條件(10dB, 5dB),再進(jìn)行特征提取分別得到特征集set={t|t=1, 2,…, T, T=336},分別取基數(shù)q=1,2,3,…, 20,分別使用基于類間類內(nèi)距離比的向前搜索算法和基于蟻群優(yōu)化的輻射源信號(hào)特征選擇算法得到最優(yōu)特征子集,實(shí)驗(yàn)結(jié)果如表2所示。 表2 不同信噪比下最大分類正確率 根據(jù)表2,當(dāng)輸入經(jīng)過高斯白噪聲處理更低信噪比數(shù)據(jù)時(shí),提出方法的分類正確率仍普遍高于文獻(xiàn)[5]方法的分類正確率,進(jìn)一步驗(yàn)證了基于蟻群優(yōu)化特征選擇的輻射源個(gè)體識(shí)別方法優(yōu)于傳統(tǒng)的特征子集搜索方法。隨著信噪比的降低,輻射源信號(hào)的分類正確率呈下降趨勢,當(dāng)信噪比為5dB時(shí),分類正確率為63.4%,效果較差。在處理實(shí)際信號(hào)數(shù)據(jù)時(shí),當(dāng)噪聲嚴(yán)重影響分類結(jié)果時(shí),需要對輻射源信號(hào)進(jìn)行預(yù)處理如降噪等來提高分類識(shí)別的效果。 本文提出了基于蟻群優(yōu)化特征選擇的輻射源個(gè)體識(shí)別方法,建立了輻射源信號(hào)特征選擇的數(shù)學(xué)模型,并用蟻群優(yōu)化算法進(jìn)行求解。 1)以分類器的分類正確率作為特征選擇的目標(biāo)函數(shù),同時(shí)滿足最大分類正確率和最小特征子集規(guī)模的要求,建立了特征選擇數(shù)學(xué)模型; 2)使用蟻群優(yōu)化算法,基于子集問題的構(gòu)造圖,采用路徑轉(zhuǎn)移概率公式進(jìn)行路徑搜索,利用基于等效路徑增強(qiáng)的信息素更新策略公式,求解了輻射源信號(hào)特征選擇模型; 3)結(jié)果表明,相比基于類間類內(nèi)距離比的向前搜索算法,提出的基于蟻群優(yōu)化特征選擇的輻射源個(gè)體識(shí)別方法選出的特征子集分類正確率進(jìn)一步提升,性能更優(yōu),為正確分類識(shí)別輻射源個(gè)體提供了新思路。2.2 求解模型的蟻群算法設(shè)計(jì)
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)準(zhǔn)備與預(yù)處理
3.2 特征選擇算法比較結(jié)果
3.3 不同信噪比下測試結(jié)果
4 結(jié)論