陳 濤, 張 穎,*, 胡學晶, 肖易寒
(1. 哈爾濱工程大學信息與通信工程學院, 黑龍江 哈爾濱 150001;2. 哈爾濱工程大學先進船舶通信與信息技術工業(yè)和信息化部重點實驗室, 黑龍江 哈爾濱 150001)
隨著現(xiàn)代軍事電子干擾、電子偵察技術的不斷發(fā)展,雷達面臨的電磁環(huán)境日益復雜[1],有效攻擊對方電子系統(tǒng)和有效保護己方電子系統(tǒng)以阻止和破壞對方電子設備對電磁的利用都尤為重要,因此作戰(zhàn)平臺需要配備雷達、干擾機等,而功能單一且相互獨立的作戰(zhàn)設備占用大量資源且相互之間有較強電磁干擾,嚴重影響作戰(zhàn)能力。未來系統(tǒng)化戰(zhàn)爭武器裝備趨向于向一機多能的方向發(fā)展。近年來,有一些學者研究了雷達干擾一體化共享信號的方法。文獻[2]提出了一種基于雙載頻偽隨機二相編碼信號的干擾探測一體化信號波形。文獻[3]提出了一種偽碼噪聲調頻與線性調頻復合調制的探測干擾共享波形。文獻[4]應用遺傳算法設計了一種基于正交頻分復用的雷達通信一體化共享信號波形優(yōu)化方法。文獻[5]根據(jù)干擾帶寬設計了探測干擾一體化信號波形。文獻[6]研究了具有低截獲概率的雷達干擾波形設計。同時,隨著認知雷達[7]的發(fā)展,一些基于智能算法的雷達干擾波形設計也得到了廣泛關注。文獻[8]通過模仿蝙蝠的認知學習過程,將信息反饋給發(fā)射機,實現(xiàn)自適應探測和處理。文獻[9]提出了基于Q學習的智能雷達對抗方法。文獻[10]提出了基于強化學習的認知干擾波形設計,有效地對雷達檢測環(huán)節(jié)進行了干擾。 文獻[11]提出了基于深度Q網絡(deep Q-network, DQN)的干擾決策方法。上述論文更多是從雷達角度出發(fā)設計具有噪聲壓制特性的探測干擾一體化信號。受此啟發(fā),本文考慮從干擾的角度出發(fā)設計一體化信號,使發(fā)射的干擾信號還具有探測功能。
首先介紹了一體化信號的工作場景,在此基礎上對一體化信號進行了建模。同時,從模糊函數(shù)以及恒虛警概率(constant false alarm rate, CFAR)[20]檢測技術的角度設計了探測干擾一體化性能評價函數(shù)。其中,DQN作為一種智能算法,針對數(shù)據(jù)量大的狀態(tài)空間具有良好的決策能力,尤其是在實際環(huán)境中,雷達信號形式不固定使得傳統(tǒng)干擾庫方法無法滿足實際需求[12-13]。因此,采用DQN算法進行求解,獲取最優(yōu)一體化波形,最后通過對比仿真驗證了該方法的有效性。
干擾信號可以分為壓制干擾信號和欺騙干擾信號[14],欺騙干擾信號主要是在對方雷達信號的基礎上設計干擾信號。而本文設計的探測干擾一體化信號是欺騙干擾信號,即將探測信號隱藏在干擾信號中,一體化信號的工作場景如圖1所示。圖1中,假設對方雷達發(fā)射雷達信號s(t),己方在檢測到對方雷達信號后,將s(t)信號與調制信號u(t)進行相干調制,得到干擾信號f(t),對方將接收到的干擾信號誤認為自己發(fā)射的雷達信號,然后經過一個系統(tǒng)函數(shù)為h(t)的匹配濾波器進行濾波處理,得到信號y(t),同時干擾信號f(t)又可作為己方的探測信號,對其他目標進行探測。
圖1 一體化信號工作場景Fig.1 Working scenarios of integrated signal
為了解決距離與距離分辨率相矛盾的問題,現(xiàn)代雷達普遍采用脈沖壓縮雷達,而線性調頻(linear frequency modulation,LFM)信號[15]是脈沖壓縮雷達常用的一種調制信號,因此假設針對LFM信號設計干擾信號。考慮到偵察干擾機不能同時收發(fā),而數(shù)字射頻存儲(digital radio frequency memory,DRFM)[16]是一種應用高速數(shù)字采樣與存儲技術來實現(xiàn)對微波信號存儲與轉發(fā)功能的技術,因此大多數(shù)干擾機采用間歇采樣轉發(fā)干擾技術[17-19]。該技術可將接收到的大時寬脈沖壓縮信號分成若干個短脈沖進行發(fā)射,其原理如圖2所示。
圖2 間歇采樣重復轉發(fā)干擾原理圖Fig.2 Schematic diagram of intermittent sampling and repeated forwarding interference
圖2中,T為截獲到的雷達信號,Ts為間歇采樣周期,τ為采樣時間,η為轉發(fā)時間。當η=τ(即轉發(fā)時間倍數(shù)a=1)時,信號為均勻間歇采樣轉發(fā)干擾信號。截獲到的LFM信號s(t)的一般表達式為
(1)
式中:fc為載波頻率;T為信號持續(xù)時間;B為帶寬;K=B/T為調頻斜率;gT(t)為矩形信號,表達式為
(2)
信號s(t)匹配濾波器的系統(tǒng)函數(shù)為
(3)
LFM信號經過匹配濾波器的輸出為
(4)
式中:*表示卷積;-T≤t≤T。采樣信號u(t)的表達式為
(5)
式中:δ(·)為沖激函數(shù)。干擾信號f(t)經過一次延時轉發(fā)τ得到:
f1(t)=s(t-τ)u(t-τ)
(6)
經過匹配濾波得到:
y1(t)=f1(t)*h(t)=
(7)
式中:fs為間歇采樣頻率。重復轉發(fā)a次后的干擾信號脈壓輸出為
(8)
對雷達信號進行間歇采樣轉發(fā)干擾在時域上也可體現(xiàn)為對雷達信號進行脈沖幅度調制,新的間歇采樣轉發(fā)干擾機制如圖3所示。
圖3中,固定最小采樣時間單元τ,編碼序列中的“0”代表采樣。若出現(xiàn)一個“0”,則采樣時間為τ,若連續(xù)出現(xiàn)兩個“0”,則采樣時間為2τ,以此類推;“1”代表轉發(fā),此轉發(fā)為將前一時刻的所有采樣信號進行轉發(fā),連續(xù)出現(xiàn)“1”意為將前一時刻的采樣信號重復轉發(fā)。
圖3 非均勻間歇采樣重復轉發(fā)干擾原理Fig.3 Principle of non-uniform intermittent sampling and repeated forwarding interference
例如,當序列為“0100110001”時,出現(xiàn)4個1,對應轉發(fā)時間依次為τ、2τ、2τ、3τ,意為非均勻轉發(fā)。為了易于書寫,不妨對序列先進行擴展,使得每一位碼元對應的碼元寬度均為τ,即可將上述序列擴展為“01001111000111”。
可令二進制序列{βn,0≤n≤N}的擴展序列為{εl,0≤l≤L},其中L代表擴展后的序列長度,擴展序列的第l個碼元對應的幅度包絡al(t)可表示為
al(t)=εlgτ(t)*δ(t-lτ)
(9)
式中:,εl的取值范圍為(0,1);τ為最小采樣時間單元。gτ(t)為矩形信號,其表達式為
(10)
轉發(fā)信號f(t)可表示為
(11)
式中:fl(t)為第l個碼元對應發(fā)射的短脈沖,表達式為
(12)
式中:I為當碼元為1時,此碼元前的連0串個數(shù)。由分析可知,最終的轉發(fā)信號f(t)取決于編碼序列,而編碼序列充分體現(xiàn)了非均勻間歇采樣時間以及轉發(fā)次數(shù)的取值,因此編碼序列的選取成為了問題的關鍵。
轉發(fā)信號f(t)除了應具備干擾特性,還應具備雷達探測特性。CFAR技術是針對大時寬帶寬積信號的一種有效檢測手段,因此可從雷達檢測環(huán)節(jié)分析干擾性能。探測信號能夠從回波信號中得到目標的運動信息,而模糊函數(shù)在一定程度上反映了距離和速度分辨力,因此可以從模糊函數(shù)的角度分析探測性能。
在一定的信噪比下,雷達根據(jù)系統(tǒng)的檢測概率Pd和虛警概率Pf的要求確定檢測門限,當信號的強度超過該門限時,說明檢測到目標。CFAR能夠自適應調整檢測門限,是現(xiàn)代雷達普遍采用的一種檢測技術,其原理如圖4所示。
圖4 CFAR原理Fig.4 Principle of CFAR
CFAR算法常用的方法有單元平均CFAR(cell averaging CFAR, CA-CFAR)、最大選擇CFAR(greatest order CFAR, GO-CFAR)、最小選擇CFAR(smallest order CFAR, SO-CFAR)。以CA-CFAR為例,檢測門限Si由左右N個參考單元的均值與檢測因子β相乘得到。為了對雷達檢測環(huán)節(jié)進行干擾以達到掩蓋真實信號的目的,應提高雷達檢測門限,即提高參考單元信號的幅度值。參考單元的幅度值與信號脈壓后的幅度有關,即設計的干擾信號脈壓后假目標的個數(shù)越多,幅度越大且干擾效果越好。因此不妨將干擾信號脈壓后信號幅度標準差與均值之比d作為評價干擾性能的標準。
d的表達式為
(13)
模糊函數(shù)是分析雷達探測性能的重要工具,主要用來刻畫雷達信號分辨鄰近目標運動距離與速度的能力。理想的模糊函數(shù)應具有“圖釘”形狀,即能量主要集中在主瓣,旁瓣能量均勻分開。一體化信號f(t)的模糊函數(shù)可以定義為
(14)
時延分辨常數(shù)Cμ可表示為
(15)
根據(jù)時延分辨常數(shù)可定義距離分辨率為
(16)
式中:c代表光速。多普勒分辨常數(shù)Cν可表示為
(17)
根據(jù)多普勒分辨常數(shù)可定義速度分辨率為
(18)
式中:λ代表發(fā)射信號波長。當雷達信號的距離分辨力以及速度分辨力越大,即距離和速度分辨率越小,則說明雷達信號的探測性能越好。根據(jù)式(16)和式(18)可知,當光速c以及發(fā)射信號波長λ為定值時,時延分辨常數(shù)Cμ與多普勒分辨常數(shù)Cν越小,則雷達信號的距離和速度分辨率越小,探測性能越好。
通過以上分析可知,探測干擾一體化信號的設計應從兩個方面考慮:一是雷達探測性能最佳,即信號距離分辨率以及速度分辨率盡可能小;二是干擾性能最佳,即干擾信號脈壓后假目標的個數(shù)越大幅度越高,脈壓后信號幅度均值與標準差之比d盡可能大。因此可以轉化為求最大值問題,目標函數(shù)可以定義為
(19)
目標函數(shù)確定后,需要對目標函數(shù)求解,獲取最優(yōu)的編碼序列。其中,Fu、Fv分別為單目標時式(13)、式(15)的倒數(shù)對應的最大值,Fd為單目標時式(13)對應的最大值,目的是將各項進行歸一化處理,ω1、ω2分別為探測性能和干擾性能的權重,可根據(jù)實際情況進行調節(jié)。
與強化學習不同的是,深度強化學習適用于狀態(tài)連續(xù)或者狀態(tài)數(shù)據(jù)量大的空間。本文中每一組不同的編碼序列對應一個狀態(tài),總體的狀態(tài)量可以表示為
(20)
式中:Numstate為總狀態(tài)量;T為雷達信號長度;τ為最小采樣時間。隨著序列長度的變化,編碼類型也會成指數(shù)倍增加,因此數(shù)據(jù)量大,而強化學習的狀態(tài)和動作值是離散且有限的。若將連續(xù)空間離散化,則離散點空間數(shù)據(jù)量大,不利于Q表的更新,且不足以保證泛化能力,因此可選擇DQN算法進行優(yōu)化序列求解。
DQN更新公式為
Q(st,at)←
Q(st,at)+α[rt+γmaxat+1Q(st+1,at+1)-Q(st,at)]
(21)
式中:α表示學習率;rt表示獎勵函數(shù);γ表示折扣因子;maxat+1Q(st+1,at+1)表示在下一狀態(tài)st+1時取動作at+1可以得到的Q的最大值。DQN的四元組為
智能體:己方干擾機。
環(huán)境:對方雷達。
初始狀態(tài)s0:隨機產生一組長度為L的二進制序列,再固定序列第一位為0,即先采樣,后轉發(fā)。
動作值at:此刻碼元的取值為0或1,采用ε-Greedy算法,以ε的概率隨機選取,以1-ε的概率進行利用。
下一時刻狀態(tài)st+1:采取動作at后產生的新的二進制序列。
獎勵函數(shù)rt:目標函數(shù)R,即目標函數(shù)越大,獎勵越大。
圖5 基于DQN的一體化波形設計框圖Fig.5 Integrated waveform design block diagram based on DQN
將DQN算法應用到一體化波形設計中的流程如圖6所示。
圖6 基于DQN的一體化波形設計流程Fig.6 Integrated waveform design flowchart based on DQN
為了驗證基于DQN的探測干擾一體化信號波形優(yōu)化設計方法的有效性,分別從探測性能與干擾性能方面進行分析驗證。同時,將從傳統(tǒng)的均勻間歇采樣轉發(fā)設計一體化信號以及采用遺傳算法、強化學習算法求解的最優(yōu)編碼序列進行對比分析。
算法采用Python語言和TensorFlow深度學習框架進行編寫。LFM信號設計參數(shù)如表1所示。
表1 LFM參數(shù)設置
其中,初始序列可隨機選擇,DQN網絡參數(shù)根據(jù)經驗設置如表2所示。
表2 DQN網絡參數(shù)設置
在200步后開始學習,每隔5步學習一次,并用估計值網絡參數(shù)更新真實值網絡。此外,分別設置強化學習的獎勵值為式(13)、式(15)以及式(17)的倒數(shù),依次得到Fd、Fμ、Fν的最大值。再根據(jù)式(19)可知,不同權重ω1、ω2的取值對應的目標函數(shù)值也不相同,不妨令ω1=0.5、ω2=0.5,最終得到的一體化信號時域仿真如圖7所示。
圖7 一體化信號時域圖Fig.7 Time domain diagram of integrated signal
一體化信號的各維模糊函數(shù)如圖8所示。圖8分別從各個維度展示了經過深度Q學習后的一體化信號,其中藍色代表一體化信號(即非均勻間歇采樣轉發(fā)信號),橙色代表均勻間歇采樣轉發(fā)信號,均勻間歇采樣信號的采樣周期為0.25 μs。由圖8可以看出,進過深度Q學習后的干擾信號的各維模糊函數(shù)能量主要集中在主瓣,更接近理想的“圖釘”形狀,而均勻間歇采樣轉發(fā)后的干擾信號模糊函數(shù)能量不集中,旁瓣峰值比明顯高于非均勻間歇采樣一體化信號。
圖8 一體化信號各個維度模糊函數(shù)圖Fig.8 Fuzzy function diagram of each integrated signal dimension
以下將分析一體化信號的干擾性能。不妨設置雷達接收窗的距離范圍為12 000~15 000 m。目標位置在13 500 m處,對各信號進行脈壓處理,干信比25 dB, 取雷達的距離分辨率為15 m,距離單元的個數(shù)為200,采用單元平均恒虛警算法,參考單元長度為12,門限因子為10-6,仿真如圖9所示。
圖9 CFAR門限圖Fig.9 Threshold diagram of CFAR
圖9中,藍色線為非均勻間歇采樣信號,橙色線為均勻間歇采樣信號脈壓后的曲線。由圖9可以看出,均勻間歇采樣信號脈壓后的主假目標離真實目標近,次假目標離主假目標遠,真實目標仍有可能被檢測到,而非均勻間歇采樣一體化信號脈壓后假目標個數(shù)增多,對真實目標實現(xiàn)了壓制干擾的效果。綠色虛線代表經過深度Q學習后的非均勻間歇采樣一體化信號的檢測門限,紅色虛線代表均勻間歇采樣干擾信號的檢測門限,可知經過深度Q學習后的一體化信號門限明顯提高,真實目標被淹沒在假目標中,而均勻間歇采樣信號的門限提升不明顯,真實目標仍有可能被檢測到。DQN算法的誤差曲線如圖10所示,由圖10可知最佳訓練步數(shù)在1 000~1 200之間。
圖10 DQN算法的誤差曲線Fig.10 Error curve of DQN algorithm
以上說明,無論是從探測性能或是從干擾性能方面分析,進過DQN算法學習后的非均勻間歇采樣的一體化干擾信號性能明顯優(yōu)于均勻間歇采樣干擾信號。
下面將分析深度Q學習在不同初始狀態(tài)下的收斂效果。在仿真時,初始狀態(tài)二進制序列隨機產生,再固定第一位為0。不妨固定一組全1序列,再隨機產生3組二序列進行對比分析。雷達參數(shù)設置如表1所示,各組收斂結果如表3所示。
表3 不同初始狀態(tài)對應的收斂效果
由表3可知,不同初始狀態(tài)的算法收斂時間不相同,收斂值的大小也不相同,相比于運算時間,初始狀態(tài)對最終收斂值的大小影響不大,因此在進行仿真時,可隨機產生初始狀態(tài)。
基于DQN的探測干擾一體化波形優(yōu)化設計算法的時間估算方法為
T(n)=O(ntnm)
(22)
式中:nt代表每一次循環(huán)內部時間步的數(shù)量;nm代表主循環(huán)的數(shù)量。
在進行不同算法對比分析時,各算法均在PyCharm軟件平臺下采用Python語言進行編寫。
(1) 遺傳算法
遺傳算法作為一種尋優(yōu)算法,也得到了廣泛應用,其將用于決策的變量作為運算對象,可以直接對集合、序列等進行操作。遺傳算法的參數(shù)設置如表4所示。
表4 遺傳算法的參數(shù)設置
首先產生40組二進制編碼序列,計算每一組序列對應的一體化信號的適應度函數(shù),適應度函數(shù)為式(19)中的目標函數(shù),即目標函數(shù)越大,適應度函數(shù)越大。其余雷達參數(shù)設置與表1相同。遺傳算法不同種群的R值仿真如圖11所示。
圖11 初始種群和最終種群的R值Fig.11 Value of R of the initial population and the final population
圖11中,藍色圓圈為初始40個種群對應的目標函數(shù)R值,橙線為最終種群的R值,由圖11可知,最終種群的R值臨近最大值。
(2) 強化學習算法
與深度Q學習不同的是,強化學習會根據(jù)每一動作對應的狀態(tài)值生成一個Q表,用于Q值的更新。強化學習的四元組與DQN相同,其參數(shù)設置如表5所示,雷達參數(shù)設置與表1相同。
表5 強化學習參數(shù)設置
當雷達信號長度為20 μs時,遺傳算法、強化學習算法以及DQN算法的目標函數(shù)收斂曲線與迭代次數(shù)的關系如圖12所示。
圖12 不同算法收斂效果Fig.12 Convergence effects of different algorithms
由圖12可以看出,強化學習算法與DQN算法在收斂時對應的迭代次數(shù)約為112次,目標函數(shù)值約為0.82;遺傳算法在收斂時對應的迭代次數(shù)約為125次,目標函數(shù)值約為0.725。由此可以得出,當狀態(tài)量較少時,強化學習算法的收斂效果與DQN的收斂效果差距不明顯。相對于遺傳算法,DQN算法收斂更快,且最優(yōu)解的質量Δi提高了13.10%,最優(yōu)解的質量提高公式為:
(23)
式中:ValGA為遺傳算法收斂時的目標函數(shù)值;ValDQN為DQN算法收斂時的目標函數(shù)值。因此,本文提出的DQN算法能夠提高最優(yōu)解的質量。
(3) 增大狀態(tài)量時不同算法收斂效果分析
根據(jù)式(20),固定最小采樣時間為0.125 μs,改變雷達信號長度,雷達信號越長,狀態(tài)量越大。因此,分別取雷達信號長度為20 μs、40 μs、60 μs、80 μs、100 μs,不同算法的目標函數(shù)收斂效果如圖13所示。
圖13 不同算法收斂效果Fig.13 Convergence effects of different algorithms
3種算法在雷達信號長度不同時,最優(yōu)解方差如表6所示。
表6 不同算法最優(yōu)解方差對比
由表6可知,當雷達信號長度增加時,3種算法中,DQN算法的最優(yōu)解最穩(wěn)定,強化學習算法其次,遺傳算法最末。
以上說明,當狀態(tài)量小時,DQN算法與強化學習算法的收斂效果相同,而相比于遺傳算法,DQN算法最優(yōu)解的質量提高了13.10%;當狀態(tài)量增大時,相對于遺傳算法和強化學習算法,DQN算法的收斂值更大,最優(yōu)解更穩(wěn)定。
本文考慮將探測信號隱藏在干擾信號中,提出了一種基于非均勻間歇采樣重復轉發(fā)的探測干擾一體化信號波形。該一體化信號將探測信號隱藏在干擾信號中,誤導對方將探測信號判斷為干擾信號,從而降低截獲概率。首先,建立了一體化信號模型,根據(jù)距離、速度分辨率以及一體化信號脈壓后幅度均值與標準差之比建立了目標函數(shù);然后,通過DQN算法求解目標函數(shù),得到最優(yōu)的一體化信號波形。同時,將遺傳算法以及強化學習算法作為對比實驗。仿真結果表明,當編碼狀態(tài)量小時,DQN算法與強化學習算法收斂效果一致。與遺傳算法相比,DQN算法最優(yōu)解的質量提高了13.10%;當編碼狀態(tài)量增大時,相對于遺傳算法和強化學習算法,DQN算法的收斂值更優(yōu),最優(yōu)解更穩(wěn)定。