賈 鑫, 蔣 磊, 郭京京, 齊子森
(1.空軍工程大學信息與導航學院,西安,710077;2.93184部隊, 北京,100076)
隨著人工智能技術廣泛應用于軍事領域,新科技將推動戰(zhàn)爭形態(tài)向智能化演變,同時帶來更大機遇和挑戰(zhàn)[1]。通信輻射源個體識別是情報偵察和電子支援的前提,是跟蹤目標輻射源位置和獲取敵方通信網(wǎng)絡的基礎。電磁頻譜作為連接陸、海、空、天、網(wǎng)等作戰(zhàn)空間的紐帶,隨著戰(zhàn)場通信設備的種類和數(shù)量日益增多,空間電磁環(huán)境復雜度進一步提升,通信輻射源個體識別難度不斷加大,目前已成為信號處理領域的研究熱點之一。
輻射源個體識別(specific emitter identification, SEI)技術也被稱為射頻指紋識別技術(Radio Frequency Fingerprinting, RFF),是一種通過測量射頻信號的外部特征并提取發(fā)射器特定信息識別發(fā)射源的技術[2]。該技術不依賴信號傳輸內(nèi)容,通過直接提取發(fā)射設備硬件的細微特征進行識別,提取的細微特征即為射頻指紋[3]。射頻指紋來源于硬件設備制造時的偏差,無法避免和偽造,具有通用性、穩(wěn)定性、唯一性、可測量性和獨立性[4]。SEI的核心在于射頻指紋信息的提取和分類。一般情況下可分為2類:①基于人工的輻射源個體識別方法;②基于深度神經(jīng)網(wǎng)絡的輻射源個體識別方法[5]。基于人工的輻射源個體識別方法又可分為基于瞬態(tài)特征的識別方法[6-8]和基于穩(wěn)態(tài)特征的識別方法[9-11]。基于瞬態(tài)特征的識別方法,通過提取設備狀態(tài)切換過程中的瞬態(tài)特征進行個體識別。此類方法中提取的瞬態(tài)特征與設備指紋特征直接相關,但其持續(xù)時間短,難以獲得,并且對設備的精密度以及采集條件要求較高,因此并未被廣泛應用?;诜€(wěn)態(tài)特征的識別方法利用設備功率穩(wěn)定期間采集的穩(wěn)態(tài)特征進行個體識別。相較于瞬態(tài)特征,該特征更易提取,但計算分析復雜度較高?;谌斯さ妮椛湓磦€體識別方法原理清晰、特征明確、魯棒性強,但隨著物聯(lián)網(wǎng)技術的快速發(fā)展,設備類型和數(shù)量急劇增加,導致上述方法出現(xiàn)復雜度較高、泛化性較差、識別率較低等問題,已逐漸難以滿足大規(guī)模數(shù)據(jù)和高實時性的要求[12]。部分學者提出了基于無監(jiān)督的通信輻射源個體識別方法以解決上述問題。李昕等[13-14]提出了基于密度峰值算法進行通信輻射源個體識別,在信噪比為20 dB時,識別準確率為64%以上,隨后其利用核密度估計及熱擴散方程改進算法,在信噪比為20 dB時,識別準確率為68%以上。
基于深度學習的通信輻射源個體識別技術按照數(shù)據(jù)預處理方法可分為3類:第1類是數(shù)據(jù)降維處理的方法;第2類是數(shù)據(jù)轉(zhuǎn)為圖像處理的方法;第3類是I/Q信號直接處理的方法。第1類方法是對原始數(shù)據(jù)特征提取后進行降維處理,再對降維后的數(shù)據(jù)進行分類識別。Ding等[15]利用CNN對降維后的矩形積分雙譜進行個體識別,較好地實現(xiàn)了對多個通用軟件無線電外圍設備的識別。第2類方法是將數(shù)據(jù)轉(zhuǎn)換成圖像,再利用CNN網(wǎng)絡進行識別。Peng等[16]通過差分星座軌跡圖來提取ZigBee設備的射頻指紋特征,并利用K均值聚類的方法完成分類識別,實驗對54個ZigBee設備在信噪比為30 dB和15 dB的情況下,識別準確率分別達到99.1 %和93.8 %。第3類方法是直接對I/Q數(shù)據(jù)進行特征提取及分類識別。Liu等[17]利用深度雙向長短期記憶網(wǎng)絡和一維殘差卷積網(wǎng)絡的組合,對基帶I/Q信號進行特征提取,實現(xiàn)了較低計算量下的個體識別。以上3類方法被學者們大量研究,其中第1類方法數(shù)據(jù)量較低,但從高維到低維特征轉(zhuǎn)換中難以避免特征損失。第2類方法更吻合深度神經(jīng)網(wǎng)絡的特征提取要求,效率更高、魯棒性更強,但轉(zhuǎn)換為圖像過程中存在部分特征丟失。第3類方法無需進行數(shù)據(jù)預處理,在保證特征信息完整的前提下可充分發(fā)揮深度神經(jīng)網(wǎng)絡的特征提取能力,因此被視為基于深度學習的通信輻射源個體識別方法的發(fā)展趨勢。
上述基于深度學習的通信輻射源個體識別方法均在有監(jiān)督條件下進行,其前提條件是需要大量有標簽數(shù)據(jù),但在非合作通信場景下,獲取未知目標的先驗信息極為困難,無法制作足夠的有標簽數(shù)據(jù)樣本,導致基于有監(jiān)督的深度學習方法性能惡化,無法滿足此場景下的個體識別需求,因此廣大學者開始研究基于無監(jiān)督深度學習的通信輻射源個體識別方法。深度聚類方法作為無監(jiān)督深度學習方法的主流之一,被廣泛應用于計算機視覺,音頻,圖形,文本等諸多領域,并取得巨大成功[18-20]。
深度聚類算法通過將深度神經(jīng)網(wǎng)絡與淺層聚類分析有效融合,實現(xiàn)了在潛在特征空間中進行聚類分析,使數(shù)據(jù)特征區(qū)別度擴大,更好地進行聚類分析。深度聚類算法通常分為分步深度聚類算法和聯(lián)合深度聚類算法2類。第1類是先利用深度學習模型進行特征降維,然后再進行聚類分析。Tschannen等[21]通過訓練的深度自編碼器來學習表征特征,并將這些特征作為K-means方法的輸入來完成聚類。Huang等[22]學習關聯(lián)矩陣和實例表示,然后通過對關聯(lián)矩陣的譜聚類來完成深度聚類,并取得較好效果。第2類則是在模型的訓練過程中,特征表示和聚類標簽同時學習優(yōu)化。張旭[23]提出聯(lián)合深度圖聚類與目標檢測的SLAM算法,在保證實時性的前提下,提高了SLAM系統(tǒng)的定位精度。邢若葦[24]利用實例-簇級別對比聚類算法,在實力級別和簇級別均融合類別信息,并同時進行特征學習和簇分配,并取得較好聚類效果。由于分步深度聚類方法中特征提取和聚類是獨立進行的,因此特征提取和聚類分析融合度可能較低,導致聚類效果不理想;聯(lián)合深度聚類方法同步進行特征提取和聚類分析,可以有效避免所提特征與聚類網(wǎng)絡融合度低的問題。
聯(lián)合深度聚類模型中最典型的為采用自編碼器結構的模型,其通過使輸出逼近輸入,實現(xiàn)對輸入數(shù)據(jù)的深層特征學習,因其簡單有效,而被廣泛應用于聯(lián)合深度聚類方法[25]。1986年,Rumelhart等[26]最先提出了采用編碼器結構的聯(lián)合深度聚類模型的相關概念。由于其本身優(yōu)異的特征學習能力,在近年來成為深度聚類領域中廣泛使用的網(wǎng)絡結構。2016年,Xie等[27]對已有方法進行改進,提出了深度嵌入式聚類(deep embedded clustering,DEC),通過自訓練目標分布迭代優(yōu)化來同時優(yōu)化表征特征和聚類分配的整體框架,來提升效果。本文在DEC的基礎上,提出了基于深度聚類的通信輻射源個體識別算法。
本文基于聯(lián)合深度聚類方法,設計了針對通信輻射源個體識別的算法,設計流程如圖1所示。數(shù)據(jù)預處理是通過對原始復值I/Q數(shù)據(jù)進行切分,得到2路實值I/Q數(shù)據(jù)之后,進行數(shù)據(jù)切割和加噪處理,并根據(jù)實際需求劃分訓練集和測試集,完成網(wǎng)絡訓練數(shù)據(jù)集的生成。表征學習中采用了自編碼器結構,利用變分自編碼器的編碼器和解碼器完成信號樣本的特征壓縮與樣本重構,通過最小化重構信號樣本與初始信號樣本的均方誤差實現(xiàn)網(wǎng)絡的優(yōu)化更新,完成對信號樣本的深層特征提取。分類識別中采用了劃分聚類算法中的K-means聚類算法,其思想是計算樣本與聚類中心的歐氏距離劃分各樣本所屬的聚類簇[28],通過最小化樣本和所屬聚類簇中心的距離實現(xiàn)樣本分類。
圖1 基于深度聚類的通信輻射源個體識別流程
基于深度聚類的通信輻射源個體識別模型網(wǎng)絡結構如圖2所示。
圖2 基于深度聚類的通信輻射源個體識別網(wǎng)絡
本文算法為實現(xiàn)對通信輻射源個體的精準分類識別,同時匹配I/Q數(shù)據(jù)的輸入,將整體網(wǎng)絡設計為表征學習和聚類過程。采用了自編碼器結構,包含編碼器與解碼器。編碼器由輸入層、3層卷積層、1層全連接層構成,主要完成原始I/Q數(shù)據(jù)到低維特征的提取過程。解碼器由3層反卷積層和輸出層構成,主要完成由低維特征重構原始數(shù)據(jù)的過程。輸入層將數(shù)據(jù)處理模塊I/Q數(shù)據(jù)樣本進行維度變換,由m×n維轉(zhuǎn)換成m×2×n×1維??紤]到樣本維度大小,通過二維卷積conv2D,以same模式對m×2×n×1維樣本進行卷積操作,即對每個樣本的邊緣進行補零,確保卷積得到的樣本尺寸保持一致。卷積核尺寸為(1,8),特征通道數(shù)分別為32、64、128個,分別提取得到m×32,m×64,m×128維特征,之后采用Relu函數(shù)進行激活。該函數(shù)是具有分段線性的線性整流單元(deep sparse rectifier neural networks),可以促進梯度的反向傳播,降低反向函數(shù)的運算量,其部分激活特性相當于對網(wǎng)絡施加了稀疏正則化,對網(wǎng)絡的魯棒性和泛化能力有一定的提升。解碼器采用3層反卷積層來重構原始I/Q數(shù)據(jù),并通過反向傳播算法,最小化重構I/Q數(shù)據(jù)與原始I/Q數(shù)據(jù)差異,促進網(wǎng)絡學習到通信輻射源網(wǎng)絡個體特征。3層反卷積層的網(wǎng)絡參數(shù)與卷積層的參數(shù)對稱布置。聚類過程中為了簡化網(wǎng)絡結構與降低運算復雜度,采用了K-means算法進行聚類分析。首先隨機選擇要分成簇的個數(shù)k,并隨機選擇k個數(shù)據(jù)點作為初始質(zhì)心,隨后計算每個數(shù)據(jù)點與質(zhì)心之間的距離并進行簇分配,更新質(zhì)心位置,不斷進行迭代,直到最后質(zhì)心穩(wěn)定后停止迭代。
1.3.1 損失函數(shù)
本文深度聚類網(wǎng)絡的損失函數(shù)為聯(lián)合損失函數(shù),由重建損失函數(shù)和聚類損失函數(shù)共同構建。重建損失是自編碼器原始數(shù)據(jù)和解碼器重構出的數(shù)據(jù)之間的均方誤差,表達式為:
式中:n為樣本數(shù)量;xi為原始數(shù)據(jù)樣本;gθ(·)為解碼器函數(shù);fφ(·)為編碼器函數(shù)。通過最小化重建損失Lrec使提取到的特征盡可能接近原始數(shù)據(jù)特征[29]。
聚類損失采用KL散度,KL散度可度量2個分布之間的差異指標,從而最大化真實分布X與擬合分布Y之間的差異,其表達式為:
(2)
式中:yij為提取特征得到的點Si與聚類中心Ui的相似程度,可用t分布進行度量,其具體表達式為:
(3)
式中:α為t分布的自由度。
真實分布X的表達式為:
(4)
1.3.2 評估指標
為了更好地調(diào)試和優(yōu)化網(wǎng)絡結構性能,對網(wǎng)絡進行具體性能分析,本文采用了3類評估指標對深度聚類網(wǎng)絡的性能進行評價,包含識別準確率(accuracy)、標準互信息指數(shù)(normalized mutual information,NMI)和調(diào)整蘭德指數(shù)(adjusted Rand index,ARI)。ACC表示正確分配的結果數(shù)量樣本占該樣本總量的百分比,其計算式為:
(5)
式中:n為樣本總數(shù);li為真實簇標簽;ci為算法輸出的預測簇標簽;m(ci) 為映射函數(shù)表示真實標簽與預測標簽之間一一映射,一般使用匈牙利算法進行實現(xiàn)。
標準互信息指數(shù)(NMI)是利用2個數(shù)據(jù)分布的信息熵來衡量其接近程度,其計算式為:
式中:I(l;c) 為真實標簽與預測標簽之間的互信息程度;H(l)為真實標簽的熵值;H(c) 為預測標簽的熵值。
ARI表示真實類別與聚類劃分類別的重疊程度,其計算式為:
以上3類評估指標值域是0到1,指標越高,意味著劃分越準,聚類效果越好。
本實驗基于Python下的Tensorflow、Pytorch深度學習框架完成,所使用的硬件平臺為Intel(R) Core(TM) i7-10875H CPU,GPU為NVDIA GeForce RTX 3090。
采用的數(shù)據(jù)集為5種ZigBee設備的實采信號[16],5種設備的樣本來自于各自對應的5段原始信號(9個幀段)。將每種設備采集到的復值數(shù)據(jù)進行切分得到I路和Q路實值數(shù)據(jù),并按列拼接后進行加噪處理,得到2×M維數(shù)據(jù),再進行樣本切片后得到1 441個2×256維的I/Q數(shù)據(jù)樣本。將這些I/Q數(shù)據(jù)樣本進行混合,生成實驗數(shù)據(jù)集。利用生成數(shù)據(jù)集中信噪比為20 dB的數(shù)據(jù),進行網(wǎng)絡預訓練,將訓練好的網(wǎng)絡參數(shù)保存,并進行實驗。
圖3為深度聚類網(wǎng)絡損失函數(shù)曲線圖,從圖中可以看到,隨著訓練輪次增加,網(wǎng)絡損失逐漸降低并趨于穩(wěn)定,說明深度聚類網(wǎng)絡在訓練過程中收斂較好。
圖3 網(wǎng)絡損失函數(shù)曲線圖
圖4為不同樣本長度下的識別性能曲線圖。圖4(a)為不同信噪比條件下,樣本長度分別為64、128、256時,5個通信輻射源個體的平均識別準確率,從圖中可以看出,樣本長度為256的識別準確率最高,在信噪比為15 dB時,3種樣本長度的識別準確率均接近一致,達到了100%。圖4(b)為不同信噪比條件下,3種樣本長度下2類評估指標的變化,從圖中可知,樣本長度為256的2類評估指標最高,3種樣本長度下的評估指標隨信噪比的升高逐漸增大。
圖5為10 dB信噪比下的3種樣本長度分類效果圖,通過對比圖5(a)~圖5(c),可以看出,10 dB信噪比下,長度為256的分類識別效果最好。
(a)識別準確率
(b)評估指標
(a)樣本長度為64
(b)樣本長度為128
(c)樣本長度為256
通過以上實驗可知:相同信噪比條件下,樣本長度較長的通信輻射源個體識別效果較好;隨著信噪比升高,不同樣本長度的識別效果逐漸變好,并趨于100%。
圖6為0~15 dB信噪比下的分類混淆矩陣,由圖可得:隨著信噪比的提高,5類個體的識別準確率均有所提高;在0 dB下,平均識別準確率達到了85%以上,說明了在較低信噪比下,個體識別準確率仍可以保持較高;在15 dB下,5類個體的識別準確率趨于穩(wěn)定并達到100%。
圖7為不同信噪比下5類個體的識別性能圖,由圖7(a)可知,隨著信噪比的提升,5類個體的識別準確率均有所提高,在0 dB以上時,通信輻射源個體的識別準確率均在85%以上,證明本文方法對5類個體均有效;由圖7(b)可得,3類評估指標隨著信噪比的提升逐漸升高,在10 dB時趨于1,證明了本文方法的有效性。
圖8為0~20 dB下樣本長度為128的信噪比分類效果圖。通過對比各個子圖結果可知,樣本長度為128時,隨著信噪比的升高,5個通信輻射源個體識別效果逐漸變好,信噪比越高,5個通信輻射源個體的類間距越大,分類效果越好,直觀地證明了本文方法可以較好地完成通信輻射源個體的識別。
(a)混淆矩陣(SNR=0 dB)
(b)混淆矩陣(SNR=5 dB)
(c)混淆矩陣(SNR=10 dB)
(d)混淆矩陣(SNR=15 dB)
(a)識別準確率
(b)評估指標
(a)-5 dB (b)0 dB
(c)5 dB (d)10 dB
(e)15 dB(f)20 dB
將本文算法與典型的無監(jiān)督算法進行對比實驗。實驗設置:5種ZigBee設備的實采信號,添加高斯白噪聲得到-5~20 dB信噪比的信號,將不同信噪比下的信號數(shù)據(jù)切分為長度為128的樣本,并隨機抽取其中的4 000個樣本組成實驗數(shù)據(jù)集。
圖9為本文算法與4種無監(jiān)督算法的性能對比。其中,基于密度峰值聚類(density peaks clustering,DPC)算法是基于傳統(tǒng)深度聚類方法[13],K-means++[30]、Dbscan[31]是典型的無監(jiān)督機器學習方法,infoGan方法是在Dbscan上加入先驗特征的深度學習算法[32]。從圖9可以看出,本文所設計的算法在不同信噪比條件下較其他4種方法擁有更好的識別準確率,因此本文所用的基于深度聚類的方法較傳統(tǒng)聚類方法和經(jīng)典無監(jiān)督機器學習方法的識別率有所提高,進一步證明了本文設計的基于深度聚類的通信輻射源個體識別方法的有效性和可靠性。
圖9 算法性能對比
本文針對非合作通信條件下缺乏足夠有標簽樣本的通信輻射源個體識別的問題,提出了基于深度聚類網(wǎng)絡的通信輻射源個體識別方法,通過自編碼器的特征提取與數(shù)據(jù)重構能力,增強了對原始I/Q數(shù)據(jù)的指紋特征提取性能,并用聯(lián)合優(yōu)化的方式實現(xiàn)特征提取與聚類分析的更新優(yōu)化,實現(xiàn)了無監(jiān)督條件下的通信輻射源個體分類,仿真結果表明文中方法在信噪比0 dB以上時可以達到85%以上的識別準確率,證明了本文方法的有效性和穩(wěn)定性。