馬子杰, 謝擁軍
(北京航空航天大學(xué)電子信息工程學(xué)院, 北京 100191)
巡航導(dǎo)彈是一種打擊精度高、生存能力強(qiáng)、作戰(zhàn)效費(fèi)比高的戰(zhàn)術(shù)打擊裝備,但近年來(lái)通過(guò)整合海陸空天防御武器裝備形成體系化反導(dǎo)防御系統(tǒng)的構(gòu)想得到驗(yàn)證和實(shí)現(xiàn),如美軍“海軍綜合防空火控”(Navy Integrated Fire Control and Control Air, NIFC-CA)系統(tǒng),其預(yù)警探測(cè)范圍和攔截打擊能力較單個(gè)作戰(zhàn)平臺(tái)都有了巨大的提升,巡航導(dǎo)彈的作戰(zhàn)能力受到挑戰(zhàn),沒有隱身性能的巡航導(dǎo)彈將無(wú)法完成作戰(zhàn)目標(biāo)。傳統(tǒng)的巡航導(dǎo)彈隱身方法是通過(guò)結(jié)構(gòu)設(shè)計(jì)和材料選取來(lái)降低導(dǎo)彈雷達(dá)散射截面(radar cross section, RCS),現(xiàn)在巡航導(dǎo)彈的態(tài)勢(shì)感知能力不斷提升,可以將傳統(tǒng)隱身手段與突防技術(shù)手段相結(jié)合,進(jìn)一步提高隱身突防效能。動(dòng)態(tài)隱身就是基于突防技術(shù)手段提出的隱身策略,巡航導(dǎo)彈通過(guò)自主感知戰(zhàn)場(chǎng)威脅,利用規(guī)避飛行或背景隱藏,降低在航跡上的雷達(dá)探測(cè)概率和攔截概率,確保巡航導(dǎo)彈在體系作戰(zhàn)中的作戰(zhàn)能力,這就需要研究體系作戰(zhàn)下巡航導(dǎo)彈的動(dòng)態(tài)隱身航跡規(guī)劃算法。
深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩大分支結(jié)合的成果,是目前動(dòng)態(tài)規(guī)劃領(lǐng)域的研究熱點(diǎn)。近年來(lái)深度強(qiáng)化學(xué)習(xí)發(fā)展迅速,應(yīng)用領(lǐng)域不斷擴(kuò)展,其開始被應(yīng)用于武器裝備智能航跡規(guī)劃和導(dǎo)彈制導(dǎo)律的研究,用以解決航跡規(guī)劃實(shí)時(shí)性問(wèn)題。文獻(xiàn)[23]和文獻(xiàn)[24] 提出了基于深度強(qiáng)化學(xué)習(xí)的控制制導(dǎo)律,提升了制導(dǎo)的精度和魯棒性。文獻(xiàn)[25]探究了反導(dǎo)攔截系統(tǒng)的智能攔截策略,其算法能給出特定場(chǎng)景下是否發(fā)射攔截導(dǎo)彈、何時(shí)發(fā)射攔截導(dǎo)彈及發(fā)射后的最優(yōu)導(dǎo)引律。文獻(xiàn)[26]提出了一種能規(guī)避靜態(tài)禁飛區(qū)和威脅區(qū)的無(wú)人機(jī)自主航跡規(guī)劃方法。文獻(xiàn)[27]在二維平面構(gòu)建了靜態(tài)威脅區(qū),巡飛彈基于深度強(qiáng)化學(xué)習(xí)算法避開威脅飛行區(qū)打擊目標(biāo),提升了巡飛彈的自主突防能力。
綜上所述,目前巡航導(dǎo)彈動(dòng)態(tài)航跡規(guī)劃算法研究中針對(duì)預(yù)警雷達(dá)的威脅建模都屬于靜態(tài)建模,這難以適應(yīng)對(duì)決策實(shí)時(shí)性要求較高的動(dòng)態(tài)戰(zhàn)場(chǎng)環(huán)境。因此,為了真實(shí)地反映動(dòng)態(tài)戰(zhàn)場(chǎng)環(huán)境,對(duì)體系作戰(zhàn)全過(guò)程進(jìn)行動(dòng)態(tài)建模,搭建了一個(gè)體系仿真平臺(tái),利用該平臺(tái)在深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法獎(jiǎng)勵(lì)函數(shù)中同時(shí)引入了探測(cè)概率獎(jiǎng)勵(lì)和攔截脫靶量獎(jiǎng)勵(lì),更全面地反映了巡航導(dǎo)彈突防時(shí)面臨的體系作戰(zhàn)威脅,能進(jìn)行體系作戰(zhàn)下的巡航導(dǎo)彈智能航跡規(guī)劃。
現(xiàn)代信息化戰(zhàn)爭(zhēng)是體系作戰(zhàn),作戰(zhàn)時(shí)體系內(nèi)各傳感器和武器系統(tǒng)共享信息和對(duì)敵方威脅協(xié)同打擊,其防空反導(dǎo)的作戰(zhàn)范圍和打擊精度都大幅提升。為了評(píng)估體系作戰(zhàn)下武器的真實(shí)突防效能,需要搭建相應(yīng)的體系作戰(zhàn)仿真平臺(tái)。
圖1是巡航導(dǎo)彈突防NIFC-CA作戰(zhàn)體系的典型場(chǎng)景圖。巡航導(dǎo)彈的攻擊目標(biāo)是艦船,期間有巡邏的預(yù)警機(jī)探測(cè)威脅和艦載攔截導(dǎo)彈的攔截威脅。
圖1 巡航導(dǎo)彈突防場(chǎng)景示意圖Fig.1 Schematic diagram of cruise missile penetration scenarios
圖2是預(yù)警雷達(dá)仿真平臺(tái)界面,采用E-2D預(yù)警機(jī)作為發(fā)射雷達(dá)平臺(tái),利用隨機(jī)粗糙海面或地面數(shù)學(xué)模型模擬真實(shí)飛行環(huán)境,考慮地雜波和海雜波對(duì)低空飛行巡航導(dǎo)彈的影響,計(jì)算出巡航導(dǎo)彈在低空飛行時(shí)的RCS,模擬機(jī)載雷達(dá)進(jìn)行必要的回波信號(hào)處理,設(shè)定巡航導(dǎo)彈被檢測(cè)出的最大門限電壓值,最終給出目標(biāo)被探測(cè)概率。
圖2 預(yù)警雷達(dá)仿真平臺(tái)界面Fig.2 Early warning radar simulation platform interface
艦載攔截導(dǎo)彈攔截仿真系統(tǒng)的界面如圖3所示,仿真系統(tǒng)中可以導(dǎo)入巡航導(dǎo)彈和艦船的外形模型文件、運(yùn)動(dòng)軌跡文件和相應(yīng)的速度矢量文件。根據(jù)預(yù)警雷達(dá)信號(hào)判斷是否發(fā)射艦載攔截導(dǎo)彈進(jìn)行截?fù)?。攔截導(dǎo)彈制導(dǎo)方式為比例導(dǎo)引法,最大法向過(guò)載為25 g,廣義卡爾曼濾波模型階數(shù)為5,比例系數(shù)為4,過(guò)載響應(yīng)時(shí)間取為0.5 s。
圖3 艦載攔截導(dǎo)彈攔截仿真平臺(tái)界面Fig.3 Interface of shipborne interceptor missile interception simulation platform
Markov決策過(guò)程(Markov decision process, MDP)是一種求解在可描述場(chǎng)景下智能體獲得最大回報(bào)策略的方法,常被應(yīng)用于自動(dòng)控制、動(dòng)態(tài)規(guī)劃等問(wèn)題。馬爾可夫過(guò)程一個(gè)重要的性質(zhì)就是馬爾可夫過(guò)程的下一狀態(tài)僅與當(dāng)前時(shí)刻的狀態(tài)有關(guān),而與過(guò)去時(shí)刻的狀態(tài)沒有關(guān)系。在MDP中,智能體下一時(shí)刻的動(dòng)作也只與當(dāng)前的狀態(tài)有關(guān)。巡航導(dǎo)彈突防過(guò)程為一個(gè)MDP,需要對(duì)導(dǎo)彈運(yùn)動(dòng)模型、狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)進(jìn)行建模。
為了反映巡航導(dǎo)彈和NIFC-CA作戰(zhàn)體系的對(duì)抗過(guò)程,在獎(jiǎng)勵(lì)函數(shù)中引入了探測(cè)概率降低獎(jiǎng)勵(lì)和巡航導(dǎo)彈與攔截導(dǎo)彈相對(duì)距離獎(jiǎng)勵(lì):
(1)
(2)
式中:為預(yù)警雷達(dá)探測(cè)概率,當(dāng)探測(cè)概率小于50%時(shí)認(rèn)為雷達(dá)未能探測(cè)到目標(biāo),將其獎(jiǎng)勵(lì)設(shè)為0;為比例系數(shù);為巡航導(dǎo)彈和攔截導(dǎo)彈的距離。
DDPG算法是DeepMind公司將確定性策略梯度算法與Actor-Critic 網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合提出的一種用以解決復(fù)雜連續(xù)控制問(wèn)題的算法,這一算法具有良好的擴(kuò)展性與適應(yīng)性,基于該算法可以使用相同的網(wǎng)絡(luò)參數(shù)解決一類連續(xù)控制問(wèn)題。
DDPG算法求解流程圖如圖4所示。其中Actor 網(wǎng)絡(luò)輸入狀態(tài)、輸出動(dòng)作,Critic網(wǎng)絡(luò)輸入狀態(tài)和動(dòng)作,輸出在這一狀態(tài)下采取這個(gè)動(dòng)作的評(píng)估值。由于巡航導(dǎo)彈、目標(biāo)、預(yù)警機(jī)和攔截彈的狀態(tài)和動(dòng)作信息在時(shí)間上均是連續(xù)的,故其狀態(tài)空間中各樣本不是獨(dú)立的,只使用單個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)過(guò)程很不穩(wěn)定,為解決這個(gè)問(wèn)題,DDPG算法引入了經(jīng)驗(yàn)回放機(jī)制,引入目標(biāo)Actor網(wǎng)絡(luò)和目標(biāo)Critic網(wǎng)絡(luò),與現(xiàn)實(shí)網(wǎng)絡(luò)獨(dú)立訓(xùn)練。首先現(xiàn)實(shí)Actor網(wǎng)絡(luò)與環(huán)境進(jìn)行交互訓(xùn)練,得到狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)及下一時(shí)刻狀態(tài),將這4個(gè)數(shù)據(jù)放入經(jīng)驗(yàn)池中,得到一定的樣本空間后,現(xiàn)實(shí)Critic網(wǎng)絡(luò)從經(jīng)驗(yàn)池中提取樣本進(jìn)行訓(xùn)練,得到值;目標(biāo)網(wǎng)絡(luò)也進(jìn)行同樣的訓(xùn)練,每間隔一定時(shí)間就利用現(xiàn)實(shí)網(wǎng)絡(luò)參數(shù)更新目標(biāo)網(wǎng)絡(luò)。訓(xùn)練完成后通過(guò)Actor網(wǎng)絡(luò)輸出高維的具體動(dòng)作。
圖4 DDPG算法求解流程圖Fig.4 DDPG algorithm solving flowchart
神經(jīng)網(wǎng)絡(luò)的作用是為了建立狀態(tài)到動(dòng)作以及狀態(tài)動(dòng)作到評(píng)估值的映射。本文所采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,包含輸入層、隱藏層和輸出層。Actor網(wǎng)絡(luò)包含兩層隱藏層,均為256個(gè)單元數(shù),權(quán)重均初始化為0.5,隱藏層使用selu激活函數(shù),輸出層使用tanh激活函數(shù)。Critic網(wǎng)絡(luò)同時(shí)將狀態(tài)和動(dòng)作作為輸入,輸入層和輸出層間有兩層隱藏層,均為512個(gè)單元數(shù),使用selu激活函數(shù),輸出層只有一個(gè)單元,因?yàn)閯?dòng)作-價(jià)值函數(shù)無(wú)邊界故不使用激活函數(shù)。
圖5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Neural network structure
體系作戰(zhàn)下的巡航導(dǎo)彈智能航跡規(guī)劃算法程序主要包含參數(shù)和數(shù)據(jù)輸入模塊、動(dòng)作和動(dòng)作評(píng)價(jià)網(wǎng)絡(luò)、樣本儲(chǔ)存模塊、模型訓(xùn)練模塊、模型測(cè)試模塊。其中,模型測(cè)試模塊可以評(píng)估神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)訓(xùn)練參數(shù)的好壞,其流程圖如圖6所示,其中的初始參數(shù)為巡航彈、攔截彈、目標(biāo)、預(yù)警機(jī)起始位置及其機(jī)動(dòng)性能數(shù)據(jù),以及目標(biāo)和預(yù)警機(jī)的運(yùn)動(dòng)軌跡、巡航導(dǎo)彈RCS庫(kù)。
圖6 模型測(cè)試流程圖Fig.6 Model test flowchart
仿真場(chǎng)景示意圖見圖1,本文設(shè)定的巡航導(dǎo)彈突防場(chǎng)景中包括巡航導(dǎo)彈、預(yù)警機(jī)、艦船目標(biāo)及攔截導(dǎo)彈等武器裝備。預(yù)警機(jī)在7 000 m高空以“跑道型”航線巡邏,其航線中心點(diǎn)距目標(biāo)艦船的水平距離為60 km,巡航導(dǎo)彈發(fā)射時(shí)和目標(biāo)艦船相距300 km,發(fā)射后貼近海面飛行,攔截導(dǎo)彈的發(fā)射點(diǎn)位于目標(biāo)艦船上。其中巡航導(dǎo)彈的最大巡航速度為300 m/s,攔截導(dǎo)彈的最大速度為1 000 m/s。本文仿真時(shí)將其轉(zhuǎn)化到空間直角坐標(biāo)系中進(jìn)行,并且進(jìn)行了1 000倍的縮放。
本算法基于Windows操作系統(tǒng)開發(fā),使用了Python編程語(yǔ)言和Tensorflow架構(gòu),計(jì)算硬件為64G DDR4內(nèi)存和GTX2060顯卡。深度強(qiáng)化學(xué)習(xí)超參數(shù)優(yōu)化設(shè)計(jì)后設(shè)置如下:策略網(wǎng)絡(luò)學(xué)習(xí)率為0.001,動(dòng)作網(wǎng)絡(luò)學(xué)習(xí)率為0.000 5,折扣因子為0.95,目標(biāo)網(wǎng)絡(luò)更新系數(shù)為0.005,經(jīng)驗(yàn)回放池容量為10 000。
本文首先探究了僅考慮預(yù)警威脅下的動(dòng)態(tài)隱身航跡規(guī)劃問(wèn)題。首先基于該場(chǎng)景對(duì)DDPG算法進(jìn)行訓(xùn)練,圖7為訓(xùn)練完成后輸出的航跡規(guī)劃模型的一個(gè)測(cè)試結(jié)果,該測(cè)試對(duì)抗場(chǎng)景中預(yù)警機(jī)以跑道型航跡巡邏,目標(biāo)艦船貼近海面直線航行,巡航導(dǎo)彈以一條低可探測(cè)性航跡成功擊中目標(biāo)。
圖7 預(yù)警威脅下的動(dòng)態(tài)隱身航跡規(guī)劃Fig.7 Dynamic stealth track planning under early warning threat
本文以訓(xùn)練每回合獎(jiǎng)勵(lì)值為指標(biāo)判斷策略是否不再顯著提升,訓(xùn)練每回合獎(jiǎng)勵(lì)值趨于平緩時(shí)認(rèn)為訓(xùn)練達(dá)到收斂。如果巡航導(dǎo)彈發(fā)射時(shí)就引入巡航導(dǎo)彈和攔截導(dǎo)彈相對(duì)距離獎(jiǎng)勵(lì),由于訓(xùn)練目標(biāo)不明確,收斂周期更長(zhǎng),訓(xùn)練20個(gè)回合,模型還沒有收斂;故對(duì)于巡航導(dǎo)彈和攔截導(dǎo)彈相對(duì)距離獎(jiǎng)勵(lì)引入一個(gè)判斷,當(dāng)巡航導(dǎo)彈和攔截導(dǎo)彈相對(duì)距離小于3 km時(shí)才考慮攔截導(dǎo)彈的威脅,其訓(xùn)練每回合獎(jiǎng)勵(lì)值如圖8所示,訓(xùn)練第11個(gè)回合即可收斂。
圖8 獎(jiǎng)勵(lì)函數(shù)改進(jìn)前后不同訓(xùn)練回合數(shù)下的獎(jiǎng)勵(lì)值Fig.8 Reward value under different numbers of training rounds before and after the reward function is improved
典型體系作戰(zhàn)場(chǎng)景下訓(xùn)練后攻防軌跡圖如圖9所示,航跡生成時(shí)間為0.21 s。由于將仿真縮放1 000倍到空間直角坐標(biāo)系,不使用深度強(qiáng)化學(xué)習(xí)下攔截彈脫靶量為0.039 m,使用深度強(qiáng)化學(xué)習(xí)后,攔截導(dǎo)彈脫靶量為0.58 m,引入深度強(qiáng)化學(xué)習(xí)后可以提高巡航導(dǎo)彈在典型體系作戰(zhàn)場(chǎng)景下的生存能力,進(jìn)而提高突防概率。
圖9 體系作戰(zhàn)下的動(dòng)態(tài)隱身航跡規(guī)劃Fig.9 Dynamic stealth track planning in system combat
現(xiàn)代信息化戰(zhàn)爭(zhēng)是體系作戰(zhàn),本課題組搭建了一個(gè)體系仿真平臺(tái)用以評(píng)估體系作戰(zhàn)效能。體系作戰(zhàn)背景下,僅采用傳統(tǒng)隱身策略的巡航導(dǎo)彈突防能力大幅降低,本文采用深度強(qiáng)化學(xué)習(xí)算法實(shí)時(shí)調(diào)整巡航導(dǎo)彈航跡,降低在航跡上的雷達(dá)探測(cè)概率和提高被攔截脫靶量,進(jìn)而提高戰(zhàn)場(chǎng)生存能力,實(shí)現(xiàn)面對(duì)敵方傳感器的動(dòng)態(tài)隱身。該算法訓(xùn)練完成后可實(shí)時(shí)生成突防機(jī)動(dòng)指令,其求解時(shí)間遠(yuǎn)低于傳統(tǒng)航跡規(guī)劃算法;而且具備良好的擴(kuò)展性與遷移性,可用于不同的突防對(duì)抗場(chǎng)景中。