馮路為, 劉松濤, 徐華志
(海軍大連艦艇學(xué)院信息系統(tǒng)系, 遼寧 大連 116018)
在未來(lái)戰(zhàn)場(chǎng)環(huán)境中,信息優(yōu)勢(shì)逐漸成為交戰(zhàn)雙方爭(zhēng)奪的首要目標(biāo),而電子對(duì)抗是獲取信息優(yōu)勢(shì)的重要手段之一[1]。隨著各個(gè)國(guó)家對(duì)雷達(dá)的重視程度不斷加強(qiáng),雷達(dá)發(fā)展趨于智能化,對(duì)比普通雷達(dá),智能雷達(dá)發(fā)射的多為變化復(fù)雜的脈沖信號(hào),同時(shí)開始利用相控陣電掃方式取代傳統(tǒng)雷達(dá)的機(jī)械式掃描方式[2],各種新概念新體制的智能雷達(dá)現(xiàn)已廣泛應(yīng)用于民用和軍事領(lǐng)域,在遠(yuǎn)程預(yù)警、反導(dǎo)和區(qū)域防空等領(lǐng)域發(fā)揮了很大作用。因此,針對(duì)非合作方智能雷達(dá),干擾方正面臨著極其復(fù)雜的電子對(duì)抗環(huán)境,傳統(tǒng)的對(duì)抗手段在面對(duì)智能雷達(dá)時(shí)已無(wú)法進(jìn)行快速有效的干擾,干擾效果不斷降低[3]。
在此背景下,如何有效地對(duì)智能雷達(dá)實(shí)施干擾是干擾決策技術(shù)的新興問題和研究熱點(diǎn)。目前,學(xué)者們已提出一系列基于強(qiáng)化學(xué)習(xí)的干擾決策方法,比如:李云杰等[4]通過將認(rèn)知技術(shù)引入雷達(dá)干擾決策問題中,利用Q-學(xué)習(xí)算法設(shè)計(jì)了雷達(dá)認(rèn)知干擾決策的過程;邢強(qiáng)等[5]通過分析雷達(dá)工作模式的識(shí)別過程,提高了結(jié)合Q-學(xué)習(xí)算法進(jìn)行雷達(dá)對(duì)抗方法的功能性與實(shí)時(shí)性;張柏開等[6]提出了一種基于深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network,DQN)雷達(dá)干擾決策方法,對(duì)Q-學(xué)習(xí)算法進(jìn)行了改進(jìn),定量分析先驗(yàn)知識(shí)對(duì)干擾決策的影響,較好地完成了對(duì)多功能雷達(dá)的干擾決策任務(wù)。此外,周脈成[7]提出了基于博弈論的雷達(dá)干擾決策方法,有效解決了電子對(duì)抗過程中如何選擇雷達(dá)有源干擾樣式的問題。孫宏偉等[8]將D-S(Dempster-Shafer)證據(jù)理論結(jié)合到傳統(tǒng)電子干擾模式選擇過程中,以解決電子對(duì)抗裝備選擇干擾模式的問題。張思齊[9]將部分可觀測(cè)馬爾可夫決策過程(partially observable Markov decision process, POMDP)引入雷達(dá)干擾決策問題中,提出了一種對(duì)工作模式數(shù)已知雷達(dá)的干擾決策方法。雖然上述方法能夠?yàn)橹悄芾走_(dá)干擾決策提供借鑒,但由于沒有充分考慮戰(zhàn)場(chǎng)環(huán)境的復(fù)雜性,難以有效應(yīng)用到智能雷達(dá)的對(duì)抗過程。
為了解決上述問題,本文基于POMDP模型將動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)的特點(diǎn)結(jié)合[10],設(shè)計(jì)干擾決策方法,實(shí)現(xiàn)在信息部分已知情況下的最優(yōu)決策。具體思路為干擾方偵察設(shè)備通過接收的雷達(dá)信號(hào)特征生成脈內(nèi)參數(shù)和脈間參數(shù),根據(jù)參數(shù)特征判斷雷達(dá)工作狀態(tài);當(dāng)干擾實(shí)施后,依據(jù)雷達(dá)工作狀態(tài)的改變形成新的環(huán)境空間,將參數(shù)的信息熵作為評(píng)估干擾效果的依據(jù),采用貝葉斯濾波更新干擾方對(duì)環(huán)境的信念,開始新的干擾決策過程,完成實(shí)時(shí)在線動(dòng)態(tài)干擾,極大提高了對(duì)工作狀態(tài)未知的智能雷達(dá)干擾的效率和準(zhǔn)確率。
POMDP模型是一種在信息部分可知條件下決策的理想模型,通過不斷優(yōu)化構(gòu)建的模型逐步生成最優(yōu)策略。在實(shí)際干擾決策過程中,由于對(duì)抗雙方自身的非合作性,干擾方僅能通過以往的對(duì)抗經(jīng)驗(yàn)獲取敵方雷達(dá)的部分參數(shù)信息,基于智能雷達(dá)狀態(tài)的多變性以及參數(shù)的部分可知性,本文提出了基于POMDP模型的干擾決策方法用于非合作方的電子對(duì)抗過程[11]。
通過分析智能雷達(dá)對(duì)抗的特點(diǎn),文中POMDP模型包括以下7個(gè)元素。
(1) 狀態(tài)空間S:在干擾決策過程中為智能雷達(dá)的狀態(tài)集用來(lái)表示雷達(dá)工作時(shí)的各個(gè)狀態(tài)。例如,以目前比較先進(jìn)的相控陣?yán)走_(dá)為例,具有多目標(biāo)搜索、跟蹤、引導(dǎo)和測(cè)量參數(shù)等諸多功能。
(2) 觀測(cè)空間C:智能雷達(dá)干擾決策問題中,觀測(cè)空間主要是指干擾方通過信號(hào)偵收設(shè)備獲取的雷達(dá)參數(shù)信息集合。
(3) 行動(dòng)空間A:表示干擾方在電子對(duì)抗過程中可以采取的干擾行動(dòng),記為干擾策略集。
(4) 轉(zhuǎn)移概率函數(shù)T(s′|s,a):表示智能體在雷達(dá)工作狀態(tài)為s時(shí)通過實(shí)施干擾行動(dòng)a后使目標(biāo)雷達(dá)工作狀態(tài)變?yōu)閟′的概率。
(5) 觀測(cè)概率P(c|z):z為環(huán)境狀態(tài)真值,測(cè)量概率表示智能體在某個(gè)狀態(tài),此時(shí)實(shí)際雷達(dá)狀態(tài)為z時(shí),偵收設(shè)備測(cè)量為c的概率,反映在實(shí)際對(duì)抗過程中為干擾方獲取敵方雷達(dá)參數(shù)信息時(shí)的不確定度。
(6) 回報(bào)函數(shù)R(s,a):表示在采取某一種行動(dòng)a后的立即回報(bào)值。在干擾決策過程中,用實(shí)施不同干擾方式后雷達(dá)威脅等級(jí)變化情況來(lái)定義R值,具體如下:
(1)
(7)γ為折扣因子:代表對(duì)未來(lái)回報(bào)的重視程度,其取值將完全累加到回報(bào)函數(shù)中,γ值越大認(rèn)為當(dāng)前收益與未來(lái)收益相比越不重要。
依據(jù)這些參數(shù)建立基于POMDP的干擾決策模型,將POMDP模型用一個(gè)包含所需信息的七元組M=表示。
通過設(shè)計(jì)一種循環(huán)的方法,實(shí)現(xiàn)干擾決策的目的,具體對(duì)抗過程如下。
(1) 首先讓智能體隨機(jī)選擇幾種不同的干擾方式并通過雷達(dá)狀態(tài)的改變信息得到一個(gè)初始的數(shù)據(jù)集,建立POMDP模型。
(2) 有了基本的初始數(shù)據(jù)集以后,對(duì)于模式已知的雷達(dá)工作狀態(tài),運(yùn)用POMDP模型的貪婪策略做出行為決策,讓智能體選擇算法中的回報(bào)函數(shù)R值最大的一種模式進(jìn)行干擾,通過傳感器的反饋數(shù)據(jù)得到結(jié)果,利用信息熵進(jìn)行干擾評(píng)估和效果分析。
(3) 當(dāng)面對(duì)雷達(dá)工作狀態(tài)未知的情況時(shí),可根據(jù)當(dāng)前已有信息來(lái)預(yù)測(cè)未知雷達(dá)狀態(tài)的信息。根據(jù)未知狀態(tài)的雷達(dá)參數(shù),結(jié)合已有的預(yù)測(cè)樣本集,選擇信息熵最大的干擾模式對(duì)雷達(dá)進(jìn)行干擾,將得到的數(shù)據(jù)運(yùn)用貝葉斯濾波來(lái)更新對(duì)環(huán)境的信念,從而完成了未知雷達(dá)狀態(tài)的歸類、特點(diǎn)分析以及最優(yōu)方式的選擇,最大化這一步觀察的信息量,周而復(fù)始直至目標(biāo)雷達(dá)轉(zhuǎn)換到威脅等級(jí)較低的模式,則認(rèn)為完成了一次最優(yōu)干擾策略的選擇,圖1為POMDP模型實(shí)現(xiàn)對(duì)抗功能的流程圖。
圖1 干擾對(duì)抗流程圖Fig.1 Flow chart of jamming countermeasure
雷達(dá)狀態(tài)識(shí)別技術(shù)在智能雷達(dá)對(duì)抗過程中起著非常重要的作用。通過準(zhǔn)確快速識(shí)別智能雷達(dá)所處狀態(tài),能夠結(jié)合對(duì)應(yīng)的干擾策略集A為每種態(tài)勢(shì)分配所對(duì)應(yīng)的回報(bào)函數(shù),使整個(gè)POMDP算法具有邊學(xué)習(xí)邊對(duì)抗的能力。在雷達(dá)狀態(tài)識(shí)別方面,目前識(shí)別的主要方式是基于脈沖描述字(pulse description word,PDW)和輻射源描述字(emitter description word, EDW)分析實(shí)現(xiàn)。PDW={tTOA,θAOA,fRF,τPW,AP,F}用來(lái)表示雷達(dá)信號(hào)的脈內(nèi)參數(shù)變化情況,其中tTOA為脈沖到達(dá)時(shí)間,θAOA為脈沖到達(dá)方位角,fRF為載波頻率,τPW為脈沖寬度,AP為脈沖幅度,F為脈內(nèi)調(diào)制參數(shù);EDW由脈沖重復(fù)間隔(pulse repetition interval, PRI)、天線掃描參數(shù)與脈內(nèi)參數(shù)組成,用來(lái)表示雷達(dá)信號(hào)的脈間參數(shù)變化情況并作為對(duì)輻射源的全方位描述。
將雷達(dá)信號(hào)的脈內(nèi)參數(shù)和脈間參數(shù)變化情況映射為智能雷達(dá)對(duì)抗中的雷達(dá)狀態(tài)量ST,如圖2所示,通過分析雷達(dá)狀態(tài)的威脅等級(jí)變化情況對(duì)當(dāng)前所采用的干擾行動(dòng)進(jìn)行加強(qiáng)或者替換,使干擾決策過程具備邊學(xué)習(xí)邊對(duì)抗的認(rèn)知功能。
圖2 雷達(dá)狀態(tài)識(shí)別Fig.2 Radar state recognition
信念分布是基于智能雷達(dá)工作模式數(shù)未知的特點(diǎn)引入的特殊表達(dá)方式,用來(lái)表征智能體對(duì)未知環(huán)境的認(rèn)知程度,本文采用非參數(shù)的、基于樣本的方法來(lái)表示系統(tǒng)中信念的概率分布[12]。將對(duì)抗方式明確的雷達(dá)狀態(tài)定義為已知狀態(tài),智能體對(duì)所有已知狀態(tài)的信念表示為nZ個(gè)樣本值和對(duì)應(yīng)的權(quán)重,即:
Z={(zj,wj),j=1,2,…,nz}
(2)
式中:nz為樣本值的個(gè)數(shù);zj為樣本值;wj為樣本值所對(duì)應(yīng)的權(quán)重,wj∈(0,1)。樣本值及對(duì)應(yīng)的權(quán)重通過非參數(shù)的形式表征了智能體對(duì)環(huán)境信念的認(rèn)知,該方法可以用來(lái)描述更全面的分布空間,并能夠?qū)ο到y(tǒng)中未知變量的非線性變換過程進(jìn)行建模分析[13]。
設(shè)計(jì)貝葉斯濾波來(lái)實(shí)現(xiàn)對(duì)環(huán)境信念的預(yù)測(cè)和更新[14],具體包括兩步。
(2) 根據(jù)生成的未知雷達(dá)狀態(tài)預(yù)測(cè)樣本集,利用POMDP模型給予干擾機(jī)干擾手段。干擾機(jī)采用系統(tǒng)給出的最佳干擾樣式實(shí)施干擾,干擾完成后對(duì)當(dāng)前雷達(dá)狀態(tài)參數(shù)進(jìn)行多次偵收分析得到測(cè)量均值Cm,一般測(cè)量概率服從標(biāo)準(zhǔn)差為σ的高斯分布,因此可將參數(shù)測(cè)量的后驗(yàn)概率分布定義[15]為
(3)
式中:η為規(guī)范化因子;P(z)是預(yù)測(cè)樣本集中的先驗(yàn)概率;P(c|z)為干擾設(shè)備進(jìn)行多次偵收分析雷達(dá)參數(shù)得到的測(cè)量概率。這一步通過計(jì)算參數(shù)測(cè)量的后驗(yàn)概率完成了貝葉斯濾波的更新過程,將jam定義為可供智能體選擇的干擾樣式樣本集:
jam={Zk,k=1,2,…,njam}
(4)
式中:Zk為加權(quán)環(huán)境樣本集;njam為智能體已知干擾樣式個(gè)數(shù)。
POMDP模型的解被稱為策略,建立策略的回報(bào)函數(shù)R(s,a),表示在狀態(tài)為s時(shí),采取行動(dòng)a后所得到的立即回報(bào)。引入值函數(shù)VT(s)來(lái)表示策略所獲得的長(zhǎng)期回報(bào)的大小[16]為
(5)
式中:γ∈[0,1]。通過值函數(shù)可以得到策略的遞歸函數(shù)為
(6)
此時(shí),最優(yōu)策略可以計(jì)算為
(7)
本文的目標(biāo)是讓智能體自主地學(xué)習(xí)環(huán)境,對(duì)于未知的雷達(dá)狀態(tài),自主選擇對(duì)抗方式。對(duì)于最優(yōu)策略的效果,選取信息熵作為評(píng)估依據(jù),其定義如下:
H(z)=E[log2I(z)]
(8)
式中:I(z)為目標(biāo)雷達(dá)處于某種狀態(tài)時(shí)包含的信息量。
為了驗(yàn)證本文基于POMDP模型的干擾決策方法對(duì)抗智能雷達(dá)的優(yōu)越性,在Matlab環(huán)境下對(duì)提出方法進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)平臺(tái)參數(shù)為Intel(R) Core(TM) i7-10750H CPU@2.60 GHz處理器,16G內(nèi)存,未使用顯卡加速。采用干擾機(jī)對(duì)環(huán)境的尋優(yōu)時(shí)長(zhǎng)和決策準(zhǔn)確率作為定量評(píng)價(jià)指標(biāo),將其與傳統(tǒng)Q-學(xué)習(xí)法[17]以及經(jīng)驗(yàn)決策法對(duì)比分析。
一般認(rèn)為智能雷達(dá)具有多種不同的工作狀態(tài),只有采取合適的干擾方式才能夠逐步降低目標(biāo)雷達(dá)工作狀態(tài)的威脅等級(jí)。例如,當(dāng)某型智能雷達(dá)在某一時(shí)刻處于制導(dǎo)狀態(tài)時(shí),實(shí)施干擾后雷達(dá)可能丟失部分參數(shù)信息導(dǎo)致自身無(wú)法持續(xù)鎖定目標(biāo),從而使雷達(dá)只能轉(zhuǎn)移到威脅等級(jí)較低的成像狀態(tài);繼續(xù)施加干擾,雷達(dá)的成像精度和準(zhǔn)確度下降,雷達(dá)轉(zhuǎn)為測(cè)距狀態(tài);再進(jìn)行干擾,雷達(dá)檢測(cè)不到目標(biāo)轉(zhuǎn)化為粗搜索狀態(tài),可以認(rèn)為該干擾過程效果較為顯著。雷達(dá)在受到干擾時(shí)一般不會(huì)由已知的最高威脅等級(jí)狀態(tài)直接轉(zhuǎn)變?yōu)樽畹屯{等級(jí)狀態(tài)。
表1 雷達(dá)工作狀態(tài)庫(kù)Table 1 Radar working state database
圖3 目標(biāo)狀態(tài)概率分布Fig.3 Target state probability distribution
圖4 狀態(tài)初始輸入Fig.4 Status initial input
圖5 貝葉斯濾波更新環(huán)境信念Fig.5 Bayesian filtering updates environmental beliefs
圖6 二次更新環(huán)境信念Fig.6 Second renewal of environmental beliefs
圖7 輸出決策結(jié)果Fig.7 Output decision results
通過對(duì)POMDP模型的仿真實(shí)驗(yàn),智能體完成了一個(gè)干擾決策過程??梢钥闯?當(dāng)基于POMDP模型的干擾決策方法在面對(duì)未知智能雷達(dá)狀態(tài)時(shí),計(jì)算出當(dāng)前已知狀態(tài)信息熵,通過分析未知雷達(dá)狀態(tài)的參數(shù)特征,利用貝葉斯濾波對(duì)其進(jìn)行分步?jīng)Q策有較高的準(zhǔn)確度,并且系統(tǒng)得到最優(yōu)策略時(shí)間僅為3.7 s,如表2所示。同時(shí),用概率分布的形式表征出其他干擾方式可能帶來(lái)的效果與影響,即使沒有正確預(yù)測(cè)出雷達(dá)的工作狀態(tài),但通過結(jié)合以往干擾決策信息,POMDP方法仍能以一定概率選擇出次優(yōu)干擾方式。
表2 POMDP模型決策時(shí)間Table 2 POMDP model decision time s
經(jīng)驗(yàn)決策法是指干擾方利用模板匹配技術(shù),針對(duì)參數(shù)體制不變的雷達(dá)建立豐富的先驗(yàn)知識(shí)庫(kù),通過直接觀測(cè)雷達(dá)參數(shù)并結(jié)合庫(kù)內(nèi)先驗(yàn)知識(shí)自動(dòng)選擇干擾樣式類型。由于雷達(dá)方與干擾方固有的非合作屬性,導(dǎo)致干擾方在實(shí)際電子對(duì)抗過程中一般無(wú)法獲得敵方雷達(dá)的全部參數(shù)信息,雷達(dá)工作狀態(tài)只能通過主觀分析觀測(cè)值估計(jì)確定,干擾決策時(shí)再依據(jù)即時(shí)收益R(s,a)的大小選擇相應(yīng)的干擾樣式。然而,隨著智能雷達(dá)的迅速發(fā)展,干擾方獲取和利用先驗(yàn)知識(shí)的難度大大增加,干擾方執(zhí)行某種干擾行動(dòng)后無(wú)法獲取最終的效果反饋,不能根據(jù)目標(biāo)雷達(dá)狀態(tài)的實(shí)時(shí)變化情況相應(yīng)調(diào)整己方的干擾策略,導(dǎo)致在干擾決策過程中操作人員主觀性較強(qiáng),干擾效率始終較低;如果干擾機(jī)錯(cuò)誤地識(shí)別了目標(biāo)雷達(dá)當(dāng)前所處的工作狀態(tài),更會(huì)對(duì)干擾策略選取結(jié)果造成影響。
傳統(tǒng)Q-學(xué)習(xí)法可以看作是一個(gè)增量式動(dòng)態(tài)規(guī)劃過程,通過不斷迭代計(jì)算狀態(tài)與動(dòng)作對(duì)的映射函數(shù),使算法的收益總和最大值趨于收斂,系統(tǒng)輸出最優(yōu)策略。通過對(duì)系統(tǒng)進(jìn)行恰當(dāng)?shù)某跏蓟?可以大幅減少雷達(dá)干擾決策過程中最優(yōu)策略的輸出時(shí)長(zhǎng),極大地提高了干擾決策的效率。但是該方法在計(jì)算過程中,需要不斷迭代更新收斂值,當(dāng)雷達(dá)狀態(tài)增加時(shí),決策過程的計(jì)算復(fù)雜度大幅上升并出現(xiàn)“維數(shù)災(zāi)難”問題[18],導(dǎo)致系統(tǒng)的收斂精度大幅下降,收益總和收斂時(shí)產(chǎn)生的系統(tǒng)誤差對(duì)最優(yōu)干擾策略的選取造成很大的影響;并且該方法只有在學(xué)習(xí)過程完成時(shí)才能更新系統(tǒng)的狀態(tài)值函數(shù),整體決策周期長(zhǎng)、學(xué)習(xí)效率低。
為了體現(xiàn)基于POMDP模型決策方法的優(yōu)越性,利用3種方法在同等仿真條件下進(jìn)行實(shí)驗(yàn),結(jié)果如圖8所示。
圖8 3種方法決策效果對(duì)比圖Fig.8 Comparison of decision-making effects of three methods
本文提出了一種基于POMDP的干擾決策方法來(lái)引導(dǎo)實(shí)現(xiàn)對(duì)戰(zhàn)場(chǎng)非合作方智能雷達(dá)的有效干擾。首先通過分析智能雷達(dá)對(duì)抗任務(wù)的特點(diǎn)建立POMDP模型;然后以信息熵作為評(píng)估標(biāo)準(zhǔn),干擾機(jī)選擇信息熵最大的干擾樣式不斷嘗試,輸出最優(yōu)干擾策略;最后采用非參數(shù)的形式反映智能體對(duì)環(huán)境的認(rèn)知,利用貝葉斯濾波完成對(duì)干擾庫(kù)中未知雷達(dá)狀態(tài)的信念更新。仿真結(jié)果表明,所提方法對(duì)部分未知雷達(dá)的干擾過程取得了較好的效果,與傳統(tǒng)Q-學(xué)習(xí)法以及經(jīng)驗(yàn)決策法相比,決策準(zhǔn)確率和效率優(yōu)勢(shì)明顯。