蔣慶吉,王小剛,白瑜亮,李 瑜
(1. 哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001;2. 北京空天技術(shù)研究所,北京 100074)
再入滑翔飛行器(Reentry glide vehicle,RGV)憑借其特殊的飛行速域和空域正成為當(dāng)前航空航天領(lǐng)域的研究熱點(diǎn)[1-4]。與此同時,以愛國者-3為代表的各類典型防空反導(dǎo)攔截系統(tǒng)正在升級換代以應(yīng)對高超聲速武器的威脅,應(yīng)對再入滑翔飛行器的攔截方法也在不斷更新[5-8]。高超聲速武器打擊的戰(zhàn)略價值目標(biāo)周圍通常布有嚴(yán)密的防空攔截系統(tǒng),如何在規(guī)避攔截器的前提下仍能精確命中既定目標(biāo)成為當(dāng)前亟待解決的問題。
再入滑翔飛行器的機(jī)動策略一般包括程序式機(jī)動[9-10]、基于最優(yōu)控制理論等的解析機(jī)動[11-12]與彈道優(yōu)化[13]等方法。近年來,許多學(xué)者針對再入滑翔飛行器俯沖段的機(jī)動策略進(jìn)行了廣泛研究。Shen等[3]將考慮終端目標(biāo)的軌跡優(yōu)化問題依次轉(zhuǎn)化為非凸最優(yōu)控制問題和二階錐規(guī)劃問題,提出一種可變信賴域的連續(xù)二階錐優(yōu)化方法,在時間消耗和最優(yōu)性之間取得平衡。王洋等[11]通過制導(dǎo)誤差與法向機(jī)動速度構(gòu)造滑模面,提出了一種新型機(jī)動制導(dǎo)律,在保證導(dǎo)彈末段打擊精度的同時提高了機(jī)動能力。Sun等[12]基于微分博弈理論研究了包含攻擊者、目標(biāo)和防御者的最優(yōu)制導(dǎo)律。朱建文等[14]在俯沖平面及轉(zhuǎn)彎平面內(nèi)分別設(shè)計(jì)了正弦形式的視線角參考運(yùn)動,以落速最大為性能指標(biāo),利用最優(yōu)控制對其進(jìn)行跟蹤,機(jī)動突防最優(yōu)制導(dǎo)方法,能夠?qū)崿F(xiàn)機(jī)動飛行,且能夠高精度地滿足終端落角及落點(diǎn)約束。李靜琳等[15]針對再入滑翔飛行器再入末段機(jī)動與精確打擊問題,從最優(yōu)控制角度出發(fā),提出了一種考慮攔截彈動力學(xué)特性的最優(yōu)機(jī)動突防彈道優(yōu)化方法,獲得了再入滑翔飛行器的最大機(jī)動能力。再入滑翔飛行器在俯沖段面臨各種攔截器威脅從而無法精確命中目標(biāo),因此有必要開展俯沖段博弈機(jī)動研究以規(guī)避攔截并完成打擊任務(wù)。
現(xiàn)有文獻(xiàn)通常假定攔截器模型已知,在特定場景條件下進(jìn)行突防制導(dǎo)律推導(dǎo),所得結(jié)果往往具有一定局限性。在實(shí)際博弈機(jī)動中面臨的問題有:1)攔截器發(fā)射窗口未知,再入滑翔飛行器完成對攔截器的機(jī)動之后不一定具備修正落點(diǎn)偏差至零的能力;2)由于探測設(shè)備約束,再入滑翔飛行器較難連續(xù)不間斷獲取攔截器信息,信息更新具有一定周期性;3)攔截器未建模動態(tài)和實(shí)際飛行差異帶來的不確定性問題:在解析方法中通常假設(shè)攔截器以固定導(dǎo)引系數(shù)對再入滑翔飛行器進(jìn)行攔截,然而在真實(shí)戰(zhàn)場環(huán)境下,往往難以獲取對方制導(dǎo)律參數(shù),這將使解析方法存在建模偏差,造成實(shí)際飛行的反攔截任務(wù)失敗;4)計(jì)算效率問題,作戰(zhàn)環(huán)境瞬息萬變,需要再入滑翔飛行器在較短時間內(nèi)即給出機(jī)動參數(shù),傳統(tǒng)優(yōu)化方法難以完成在線實(shí)時輸出最優(yōu)解。
深度強(qiáng)化學(xué)習(xí)算法是近年來發(fā)展迅速的一類人工智能算法,其在處理序貫決策問題方面具備天然優(yōu)勢。深度強(qiáng)化學(xué)習(xí)算法在機(jī)械臂控制[16-17]、導(dǎo)彈攔截制導(dǎo)設(shè)計(jì)[18-19]、無人機(jī)航跡規(guī)劃[20-21]、航天器姿態(tài)控制[22]等領(lǐng)域得到廣泛應(yīng)用,對解決傳統(tǒng)優(yōu)化算法計(jì)算耗時長、局部收斂等問題上取得較好效果。深度強(qiáng)化學(xué)習(xí)算法將決策問題描述為馬爾科夫決策過程,智能體根據(jù)觀測到的環(huán)境狀態(tài)輸出決策動作,動作作用于環(huán)境模型產(chǎn)生獎勵和狀態(tài)更新[23]。其中,應(yīng)用于連續(xù)狀態(tài)空間、離散動作空間的經(jīng)典算法是深度Q學(xué)習(xí)(Deep Q-learning,DQN)算法[24],應(yīng)用于連續(xù)狀態(tài)空間、連續(xù)動作空間的是深度確定性策略梯度(Deep deterministic policy gradient,DDPG)算法[25-26]。為解決稀疏獎勵問題,Schaul等[27]基于DQN算法提出優(yōu)先經(jīng)驗(yàn)回放(Prioritized experie-nce replay,PER)方法。PER大大改善了樣本利用效率,在自動駕駛[28]、船舶避障[29]、無人機(jī)空投決策[30]等問題上取得較好效果。
為借助深度神經(jīng)網(wǎng)絡(luò)解決復(fù)雜狀態(tài)空間序貫決策問題,將再入滑翔飛行器在俯沖段的機(jī)動飛行過程建模為馬爾科夫過程,對狀態(tài)、動作、獎勵等基本要素進(jìn)行適應(yīng)性設(shè)計(jì)。針對連續(xù)狀態(tài)空間和動作空間的特點(diǎn),選取DDPG算法對飛行器的智能機(jī)動參數(shù)進(jìn)行訓(xùn)練。由于再入滑翔飛行器在被攔截或命中目標(biāo)點(diǎn)之前缺乏獎勵信號,深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練面臨稀疏獎勵問題。在傳統(tǒng)DDPG算法的基礎(chǔ)上進(jìn)行多項(xiàng)改進(jìn),結(jié)合優(yōu)先經(jīng)驗(yàn)回放方法對時序差分絕對值較高的樣本經(jīng)驗(yàn)進(jìn)行優(yōu)先回放,對高價值樣本進(jìn)行多次利用,從而提高樣本利用效率,實(shí)現(xiàn)決策網(wǎng)絡(luò)的快速收斂。仿真表明,收斂后的機(jī)動決策網(wǎng)絡(luò)能夠輸出穩(wěn)定有效的機(jī)動參數(shù),在典型場景完成對攔截器規(guī)避后精確到達(dá)目標(biāo)點(diǎn),并且調(diào)用決策網(wǎng)絡(luò)時間較短,能滿足彈載計(jì)算機(jī)實(shí)時要求。
不考慮地球自轉(zhuǎn),再入滑翔飛行器在俯沖段的動力學(xué)方程如下:
(1)
式中:V為速度;D為阻力;m為質(zhì)量;g為引力加速度;γ為路徑角;L為升力;σ為傾側(cè)角;r為地心距離;ψ為航向角;θ為經(jīng)度;φ為地心緯度。在速度、高度確定的情況下,D,L的大小取決于當(dāng)前時刻攻角α。
飛行器的剩余航程RL計(jì)算為
RL=Rearccos(sinφsinφtar+cosθcosθtarcos(θ-θtar))
(2)
式中:θtar和φtar為目標(biāo)經(jīng)度和緯度;Re為地球半徑。
在發(fā)射坐標(biāo)系(慣性系)和彈道坐標(biāo)系下,攔截飛行器運(yùn)動學(xué)與動力學(xué)方程如下:
(3)
式中:XI,YI,ZI為攔截器的位置在發(fā)射系下的直角坐標(biāo)分量;VI為速度大小;θI為彈道傾角;ψI為彈道偏角;ny,nz為彈道系下的過載分量。
攔截器采用比例導(dǎo)引律對再入滑翔飛行器進(jìn)行攔截,制導(dǎo)律的形式為
(4)
在碰撞時刻,攔截器的零控脫靶量計(jì)算如下:
(5)
式中:Rrel,Vrel為相對位置和相對速度矢量。
約束模型:考慮攔截器的單通道最大過載約束為NImax,實(shí)際過載應(yīng)滿足
(6)
式中:ny為彈道系下法向過載,nz為彈道系下橫向過載,滿足aI=[ny,nz]T;NImax取為20。
首先對再入滑翔飛行器與攔截器的博弈機(jī)動飛行場景作如下假設(shè):
1)再入滑翔飛行器航向角偏差為0,在不機(jī)動飛行且無攔截器時可在射面內(nèi)導(dǎo)引命中目標(biāo)點(diǎn);
2)攔截器發(fā)射位置分布在再入滑翔飛行器目標(biāo)點(diǎn)周邊,且第一次被再入滑翔飛行器探測到時已完成主動段飛行,位于一定高度位置;
3)再入滑翔飛行器在碰撞前10 s開始進(jìn)行機(jī)動飛行,且獲取攔截器準(zhǔn)確探測數(shù)據(jù)周期為1 s。
建立如圖1所示的博弈機(jī)動飛行場景模型。
圖1 對抗作戰(zhàn)場景示意圖
如圖1所示,任務(wù)場景可以描述為再入滑翔飛行器自M點(diǎn)出發(fā),朝向目標(biāo)點(diǎn)O進(jìn)行俯沖段導(dǎo)引飛行。在無攔截器攔截情況下,其將沿M,M1,M2,O到達(dá)目標(biāo);在有攔截且自身不進(jìn)行機(jī)動的情況下,其飛行經(jīng)歷時間tzk后至M1點(diǎn),首次探測到位于T點(diǎn)的攔截器,之后攔截器經(jīng)T1,T2,C1點(diǎn)命中目標(biāo),其中M2和T2點(diǎn)為兩飛行器在碰撞前10 s的位置。為模擬并簡化攔截器的指控系統(tǒng),對攔截器的發(fā)射時間和初始位置、速度進(jìn)行隨機(jī)化建模。設(shè)M點(diǎn)在地面的投影點(diǎn)為M′。以O(shè)點(diǎn)為原點(diǎn),OM′為X軸,垂直于X軸指向上為Y軸建立攔截器的發(fā)射坐標(biāo)系。設(shè)T1點(diǎn)的坐標(biāo)(XI0,YI0,ZI0)隨機(jī)產(chǎn)生區(qū)域如圖2所示,滿足:
圖2 攔截器初始位置分布
(7)
設(shè)攔截器在T1點(diǎn)時的速度大小為VI0,此時再入滑翔飛行器位于M1點(diǎn)的坐標(biāo)為(XH0,YH0,ZH0),二者距離為r0。假設(shè)攔截器的速度指向?yàn)樵偃牖栾w行器-攔截器連線方向,則可得攔截器速度方向?yàn)?/p>
(8)
式中:θI0和ψI0為初始彈道傾角和彈道偏角。
在機(jī)動飛行場景中,再入滑翔飛行器在M2點(diǎn)通過獲取的態(tài)勢信息進(jìn)行首次機(jī)動,飛行一個決策步長時間后到達(dá)M3點(diǎn),此時攔截器的導(dǎo)引彈道改變到達(dá)T3點(diǎn)。然后再入滑翔飛行器繼續(xù)根據(jù)新的態(tài)勢信息進(jìn)行機(jī)動參數(shù)解算,依次飛過M4,M5等點(diǎn)。攔截器經(jīng)過T4,T5等點(diǎn)后在C2點(diǎn)脫靶自毀,再入滑翔飛行器繼續(xù)對目標(biāo)點(diǎn)O導(dǎo)引。
考慮到再入滑翔飛行器在每個決策時刻對機(jī)動參數(shù)進(jìn)行計(jì)算,則俯沖段機(jī)動問題可以被轉(zhuǎn)化為一個序列決策問題:在一定的初始態(tài)勢下,飛行器如何在連續(xù)的多個決策時間點(diǎn)輸出機(jī)動參數(shù)。
其中,再入滑翔飛行器的場景(M點(diǎn))隨機(jī)變量有初始速度V0、初始路徑角γ0、初始高度H0、射程RL;攔截器的場景(T1點(diǎn))隨機(jī)變量有首次被探測時間tzk、初始速度大小VI0、發(fā)射系下初始位置坐標(biāo)(XI0,YI0,ZI0)和導(dǎo)引系數(shù)K。
強(qiáng)化學(xué)習(xí)問題是建立在馬爾科夫決策過程(Markov decision process,MDP)上的,MDP是一種通過交互式學(xué)習(xí)來實(shí)現(xiàn)目標(biāo)的理論框架。實(shí)施決策及進(jìn)行學(xué)習(xí)的主體(再入滑翔飛行器)被稱為智能體,智能體之外所有與其相互作用的事物(攔截器、既定目標(biāo)等)都被稱為環(huán)境。這些事物持續(xù)進(jìn)行交互,智能體選擇動作,環(huán)境對動作做出相應(yīng)響應(yīng),并向智能體呈現(xiàn)新的狀態(tài)。環(huán)境也會產(chǎn)生一個獎勵信號,即是智能體在動作選擇過程中想要累積最大化的目標(biāo),交互過程如圖3所示。
圖3 馬爾科夫決策過程中的交互
在每個離散時刻(再入滑翔飛行器俯沖段的決策步)t=0,1,2,3,…,智能體觀測到所在環(huán)境狀態(tài)的特征表達(dá)(或特征)St∈S,并且在此基礎(chǔ)上選擇一個動作At∈A(S)。下一時刻,作為其動作的結(jié)果,智能體接收到一個數(shù)值化的收益Rt∈R?R,并進(jìn)入一個新的狀態(tài)St+1。從而,智能體所處的MDP會給出如下序列:S0,A0,R1,S1,R2,S2,A2,R3,…,直到仿真交互結(jié)束。智能體的優(yōu)化目標(biāo)是最大化所獲取的累積獎勵G0:
(9)
式中:λ為折扣因子;Ri為第i步的獎勵。
基于深度強(qiáng)化學(xué)習(xí)算法研究俯沖段博弈機(jī)動問題,首先需要對其馬爾科夫決策過程進(jìn)行建模,即選取和設(shè)計(jì)刻畫俯沖段博弈機(jī)動決策過程的狀態(tài)、動作和獎勵規(guī)范。
1) 狀態(tài)空間:強(qiáng)化學(xué)習(xí)的策略學(xué)習(xí)依賴于“狀態(tài)”的概念,因?yàn)樗茸鳛椴呗院蛢r值函數(shù)的輸入,同時又作為仿真模型的輸入與輸出。對于再入滑翔飛行器,狀態(tài)變量應(yīng)反映出其飛行狀態(tài)與機(jī)動飛行任務(wù),并盡可能降低數(shù)據(jù)維度、減少信息冗余。假設(shè)攔截器運(yùn)動信息被有效探測,狀態(tài)變量定義為
St=[Ht,RLt,Vt,σt,Δψt,HIt,RIt,VIt,σIt,ΔψIt]
(10)
式中:前5項(xiàng)依次代表再入滑翔飛行器在t時刻的高度、剩余航程、速度、路徑角、航向角偏差,后5項(xiàng)依次為攔截器在t時刻的高度、已飛航程(相對O點(diǎn))、速度、路徑角、航向角偏差(相對O點(diǎn))。
2) 動作空間:動作反映了控制變量對于模型狀態(tài)的改變能力,是決策網(wǎng)絡(luò)的輸出值。
根據(jù)再入滑翔飛行器動力學(xué)方程,在飛行過程中,能夠控制其每一時刻受力情況的是攻角和傾側(cè)角。然而,直接將攻角、傾側(cè)角的大小作為決策量有可能出現(xiàn)控制量突變的情況,將無法滿足控制系統(tǒng)要求。因此選取攻角變化率和傾側(cè)角變化率作為決策的動作變量,其大小范圍可通過動作變量的歸一化進(jìn)行限幅控制。因此動作變量定義如下:
(11)
3) 獎勵規(guī)范:實(shí)時獎勵函數(shù)(收益信號)定義了強(qiáng)化學(xué)習(xí)問題中的目標(biāo),其設(shè)計(jì)準(zhǔn)則應(yīng)與俯沖段博弈機(jī)動目的(規(guī)避攔截器與到達(dá)目標(biāo)點(diǎn))對應(yīng)。再入滑翔飛行器終止時刻落點(diǎn)偏差記為Lf,滿足:
(12)
式中:RLf為仿真終止時刻的剩余航程;Hf為仿真終止時刻的高度。
設(shè)計(jì)連續(xù)的分段線性獎勵函數(shù)如下:
RL=
(13)
(14)
式中:R為實(shí)際設(shè)計(jì)的總獎勵函數(shù);RL為與落點(diǎn)相關(guān)的獎勵函數(shù);L0為攔截器殺傷距離,根據(jù)經(jīng)驗(yàn)取為10 m。當(dāng)LZEM>L0時認(rèn)為規(guī)避成功,此時總獎勵由落點(diǎn)偏差決定。
由于規(guī)避威脅是一個需首先滿足的強(qiáng)約束,故和脫靶量相關(guān)的獎勵項(xiàng)呈現(xiàn)出如式(14)所示的二元形式。而由于落點(diǎn)偏差變化范圍大,采取式(13)所示的連續(xù)形式獎勵則利于策略根據(jù)梯度收斂。
如圖4所示,首先給出傳統(tǒng)DDPG算法的架構(gòu),然后基于優(yōu)先經(jīng)驗(yàn)回放(Prioritized experience replay,PER)[27]方法給出DDPG算法的改進(jìn)項(xiàng),最后給出基于改進(jìn)的PER-DDPG算法對博弈機(jī)動策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練的流程。
圖4 算法實(shí)現(xiàn)框架
考慮到本文研究的再入滑翔飛行器俯沖段機(jī)動決策過程中,狀態(tài)空間和動作空間連續(xù)變化,使用DDPG算法對機(jī)動參數(shù)決策求解具備天然優(yōu)勢。DDPG算法基于Actor-Critic(AC)架構(gòu),其核心是4個神經(jīng)網(wǎng)絡(luò),分別是:在線決策(Actor)網(wǎng)絡(luò)π(s|θπ),負(fù)責(zé)根據(jù)狀態(tài)變量輸出決策動作;在線評價(Critic)網(wǎng)絡(luò)Q(s,a|θQ),負(fù)責(zé)對狀態(tài)-動作值函數(shù)進(jìn)行估計(jì);目標(biāo)決策網(wǎng)絡(luò)π(s|θπ′),作為在線策略網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo);目標(biāo)評價網(wǎng)絡(luò)Q(s,a|θQ′),作為在線評價網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)。DDPG算法策略提升的本質(zhì)是根據(jù)時序差分(TD)進(jìn)行策略的學(xué)習(xí)訓(xùn)練。
在AC框架下,算法通過對“狀態(tài)-動作”值函數(shù)Q(s,a)的估計(jì)優(yōu)化實(shí)現(xiàn)對策略π的迭代更新。其中,Q(s,a)表征的是策略在當(dāng)前狀態(tài)s下采取動作a后能夠獲取的累積回報(bào)的期望值:
(15)
對于最優(yōu)的Q(s,a),其滿足如下貝爾曼方程:
(16)
相應(yīng)地,狀態(tài)值函數(shù)V(s)表征在當(dāng)前狀態(tài)s下按照策略π繼續(xù)決策能獲取的累積回報(bào)期望值:
V(st)=E[Gt|st]
(17)
依據(jù)確定性策略梯度,可對參數(shù)θπ更新如下:
(18)
考慮到再入滑翔飛行器面臨探索空間大、有效樣本少的困難,基于PER方法對DDPG進(jìn)行改進(jìn):
1)建立自適應(yīng)動作噪聲方法
傳統(tǒng)DDPG算法在訓(xùn)練過程中使用一個OU噪聲[25]對策略進(jìn)行探索,但在實(shí)際應(yīng)用中噪聲參數(shù)需要根據(jù)訓(xùn)練效果進(jìn)行調(diào)節(jié),否則容易出現(xiàn)訓(xùn)練低收益階段探索不足、高收益階段利用不足的問題。為解決此問題,采取自適應(yīng)方差的高斯噪聲設(shè)計(jì)。定義最近任務(wù)成功率Srate為其在最近100個仿真回合中飛行任務(wù)成功的比率。建立均值為0的自適應(yīng)高斯噪聲Na~N(0,δ),方差δ隨最近任務(wù)成功率變化:
δ=10-2×(1-Srate)
(19)
2)使用時序差分誤差優(yōu)先經(jīng)驗(yàn)回放方法
在標(biāo)準(zhǔn)DDPG算法中,算法采用無差別采樣方法對數(shù)據(jù)進(jìn)行訓(xùn)練,這對于獎勵信號豐富的任務(wù)能夠較快收斂,但對于可行解稀少、獎勵稀疏的任務(wù),有效樣本利用效率非常低而難以獲取策略梯度,因此根據(jù)TD誤差進(jìn)行優(yōu)先經(jīng)驗(yàn)回放。對每個樣本,計(jì)算TD誤差如下:
ei=Ri+λQ′(Si+1,π′(Si+1|θπ′)|θQ′)-Q(Si,Ai|θQ)
(20)
當(dāng)基礎(chǔ)經(jīng)驗(yàn)回放池填滿之后,按照TD誤差的絕對值對所有樣本進(jìn)行優(yōu)先級計(jì)算:
pi=|ei|+ε
(21)
式中:pi為優(yōu)先級;ε為一極小正值。
對基礎(chǔ)經(jīng)驗(yàn)池中的每條樣本計(jì)算采樣概率:
(22)
式中:υ表示使用優(yōu)先級的程度,取為0.7[27]。
然而,若按照上述概率對回放池中的樣本進(jìn)行采樣,將造成采樣數(shù)據(jù)分布與實(shí)際仿真交互數(shù)據(jù)分布不一致,使得神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的刻畫具有一定偏差,從而無法完成最終的收斂任務(wù)。因此,需要采取重要性采樣方法對不同采樣概率的樣本進(jìn)行采樣,第i個樣本的重要性采樣權(quán)重定義為
(23)
式中:N為經(jīng)驗(yàn)池中的數(shù)據(jù)樣本數(shù)量;β是調(diào)節(jié)權(quán)重的因子,取值范圍為0~1,當(dāng)其取1時表示對優(yōu)先級采樣概率進(jìn)行完全修正,仿真中取為0.5[27]。
考慮重要性采樣權(quán)重后,則Critic網(wǎng)絡(luò)的損失函數(shù)的計(jì)算如下:
(24)
式中:NS為批量樣本個數(shù)。
3)使用成功樣本優(yōu)先經(jīng)驗(yàn)回放方法
除了采用TD優(yōu)先經(jīng)驗(yàn)回放方法外,考慮到策略探索前期成功樣本極少、策略網(wǎng)絡(luò)梯度難以產(chǎn)生有效梯度對策略進(jìn)行改善,使用成功樣本優(yōu)先經(jīng)驗(yàn)回放方法。即在策略網(wǎng)絡(luò)訓(xùn)練的前期,構(gòu)造一個成功樣本經(jīng)驗(yàn)庫,維護(hù)100組成功樣本。在對DDPG算法進(jìn)行一步參數(shù)更新前,從成功樣本庫隨機(jī)取出若干樣本放到經(jīng)驗(yàn)回放池。
4)對終端收斂性能進(jìn)行局部調(diào)整。為保證DDPG算法在進(jìn)行到任務(wù)較高成功率的訓(xùn)練后期仍具備較好的參數(shù)更新性能,使用修正的單輪訓(xùn)練方法。在訓(xùn)練前期,每回合對Actor網(wǎng)絡(luò)進(jìn)行更新的次數(shù)為Nupdate,在Srate>90%時調(diào)整為N′update=0.2Nupdate。
基于改進(jìn)PER-DDPG的算法步驟為
1) 使用隨機(jī)參數(shù)θπ初始化Actor網(wǎng)絡(luò)π(s|θπ),使用隨機(jī)參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(s,a|θQ);
2) 將在線網(wǎng)絡(luò)參數(shù)拷貝給對應(yīng)的目標(biāo)網(wǎng)絡(luò),即θπ′←θπ,θQ′←θQ;
3) 初始化基礎(chǔ)經(jīng)驗(yàn)回放池RB(容量3000)和成功樣本經(jīng)驗(yàn)回放池RS(容量100);確定批量采樣容量大小BS;
4) 對于每一次俯沖段博弈機(jī)動飛行仿真:
a. 初始化自適應(yīng)探索噪聲N的方差δ;
b. 初始化仿真交互環(huán)境,即對再入滑翔飛行器的初始射程、飛行高度、速度大小、飛行路徑角進(jìn)行隨機(jī),攔截器的首次被探測時間、初始位置、速度等進(jìn)行隨機(jī),確定模型積分仿真時間步長tstep1=0.01 s和決策時間步長tstep2=2 s,獲取到再入滑翔飛行器智能體的初始觀測S0;
c. 對于每一個決策步長(t=0,1,2,…):
i)將觀測的狀態(tài)量輸入策略網(wǎng)絡(luò)再加上探索噪聲得到當(dāng)前決策動作輸出:At=π(St|θπ)+Na;
ii)決策動作傳遞到仿真交互環(huán)境中,再入滑翔飛行器在當(dāng)前飛行時刻tsim對決策動作At進(jìn)行解析,得到每個積分步長下的當(dāng)前攻角和當(dāng)前傾側(cè)角:
(25)
式中:αi和σi分別為當(dāng)前積分步長的攻角和傾側(cè)角,αi-1和σi-1為上一積分步長的攻角和傾側(cè)角。
攔截器對再入滑翔飛行器進(jìn)行導(dǎo)引飛行直至?xí)r刻tsim+tstep2或到達(dá)脫靶時刻(命中或脫靶);
智能體通過一個決策步長的仿真過程獲取到新的狀態(tài)St+1和即時獎勵Rt;
iii)將元組
d. 從經(jīng)驗(yàn)池中采樣學(xué)習(xí)(執(zhí)行Nupdate次)
采取SumTree的形式對基礎(chǔ)經(jīng)驗(yàn)池中的樣本進(jìn)行BS次數(shù)據(jù)采樣,獲取到BS條訓(xùn)練數(shù)據(jù)。
采用均勻隨機(jī)方法,從成功樣本經(jīng)驗(yàn)池中獲取到SS條訓(xùn)練數(shù)據(jù)。令NS=BS+SS,則以上共得到NS個
ii)對NS個樣本分別計(jì)算
yi=Ri+λQ′(Si+1,π′(Si+1|θπ′)|θQ′)
(26)
iii)計(jì)算NS個樣本的平均損失函數(shù)
(27)
使用Adam優(yōu)化器進(jìn)行參數(shù)θQ的更新;
vii)計(jì)算Actor網(wǎng)絡(luò)的平均策略梯度
(28)
使用Adam優(yōu)化器進(jìn)行參數(shù)θπ的更新;
viii)使用如下公式對目標(biāo)網(wǎng)絡(luò)參數(shù)軟更新:
(29)
式中:τ為神經(jīng)網(wǎng)絡(luò)軟更新系數(shù),取為0.005;
e. 若再入滑翔飛行器完成對攔截器的機(jī)動且落點(diǎn)精度滿足指標(biāo),此回合樣本序列為成功樣本,則將整回合狀態(tài)轉(zhuǎn)移元組存儲到RS中;
f. 計(jì)算連續(xù)成功概率,根據(jù)式(19)更新δ。
仿真初始條件設(shè)置如下:
1)對抗場景初始運(yùn)動參數(shù)范圍。
2)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及超參數(shù)設(shè)置。參考經(jīng)典DDPG確定兩類神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)和超參數(shù)。
使用DDPG算法和改進(jìn)PER-DDPG算法分別對俯沖段機(jī)動決策模型進(jìn)行訓(xùn)練,訓(xùn)練過程的相關(guān)結(jié)果如圖5和圖6所示。
圖5 平均累積回報(bào)值隨回合數(shù)變化曲線
圖6 最近100回合成功次數(shù)
從圖5和圖6可以看出,改進(jìn)的PER-DDPG算法在訓(xùn)練到達(dá)2 631個仿真回合后收斂,在訓(xùn)練末期任務(wù)成功率穩(wěn)定達(dá)到95%以上水平;相比而言,傳統(tǒng)DDPG算法的收斂性較差,最高任務(wù)成功率不足70%。算法訓(xùn)練過程中,兩個神經(jīng)網(wǎng)絡(luò)的損失函數(shù)變化曲線如圖7和圖8所示。
圖7 Actor網(wǎng)絡(luò)的損失函數(shù)
圖8 Critic網(wǎng)絡(luò)的損失函數(shù)
隨著訓(xùn)練進(jìn)行,Critic網(wǎng)絡(luò)的損失函數(shù)逐漸降低,Actor網(wǎng)絡(luò)的損失函數(shù)逐漸逼近最大期望回報(bào)的負(fù)值。在本文提出的動態(tài)噪聲方差下,近100回合平均累積回報(bào)不斷上升,策略的確得到了持續(xù)提升。直至訓(xùn)練收斂,近100回合成功次數(shù)由訓(xùn)練前的不足30躍升為95以上,說明算法實(shí)現(xiàn)了既定效果。
為了校驗(yàn)決策神經(jīng)網(wǎng)絡(luò)在典型場景中的有效性,根據(jù)表1范圍進(jìn)行參數(shù)隨機(jī)生成如表3所示。表4給出了4種仿真場景下的統(tǒng)計(jì)結(jié)果。
表1 場景設(shè)置參數(shù)
表2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
表3 4種場景下的初始參數(shù)
表4 不同場景的校驗(yàn)結(jié)果
從圖9~圖12可以看出,決策網(wǎng)絡(luò)訓(xùn)練完成后,其輸出的再入滑翔飛行器俯沖段博弈機(jī)動軌跡均可規(guī)避攔截器的攔截,且能夠準(zhǔn)確到達(dá)目標(biāo)點(diǎn);飛行路徑角、攻角、傾側(cè)角變化較為平滑,能夠滿足控制系統(tǒng)要求;飛行過程中的最大總過載也在其能力范圍內(nèi)(<20),這表明剖面機(jī)動軌跡設(shè)計(jì)能夠滿足飛行能力要求。從圖13和圖14可以看出,攔截器在飛行前期能夠依據(jù)導(dǎo)引飛行鎖定再入滑翔飛行器,但經(jīng)過后者的多次機(jī)動后,攔截需用過載均在飛行末段達(dá)到可用過載閾值(20),導(dǎo)引彈道無法完成對再入滑翔飛行器的攔截。
圖9 攔截器發(fā)射系X-Z平面對抗彈道
圖10 攔截器發(fā)射系X-Y平面對抗彈道
圖11 再入滑翔飛行器的法向過載隨時間變化曲線
圖12 再入滑翔飛行器的橫向過載隨時間變化曲線
圖13 攔截器的法向過載隨時間變化曲線
圖14 攔截器的橫向過載隨時間變化曲線
綜上,在校驗(yàn)的4個場景中,決策網(wǎng)絡(luò)可以完成機(jī)動飛行任務(wù)。
使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行智能在線決策的優(yōu)勢在于將在線計(jì)算壓力轉(zhuǎn)移到離線訓(xùn)練中。在線使用時,彈載計(jì)算機(jī)只需在每個制導(dǎo)決策周期將觀測的狀態(tài)量數(shù)組輸入給決策神經(jīng)網(wǎng)絡(luò),即可得到機(jī)動參數(shù),從而實(shí)現(xiàn)智能博弈機(jī)動,完成既定任務(wù)。
為對決策網(wǎng)絡(luò)有效性進(jìn)行評估,開展統(tǒng)計(jì)校驗(yàn)。使用表1所示范圍的場景參數(shù)進(jìn)行1000次仿真校驗(yàn)。計(jì)算平臺CPU為Intel(R) Core(TM) i7-8700U,內(nèi)存8 GB,決策網(wǎng)絡(luò)每1 000次的調(diào)用時間為0.361~0.403 s,平均單次調(diào)用時間小于0.5 ms,具備較好的實(shí)時性。經(jīng)統(tǒng)計(jì),同時滿足再入滑翔飛行器落點(diǎn)偏差小于10 m且攔截器脫靶量大于10 m的樣本個數(shù)為927,即說明決策網(wǎng)絡(luò)輸出的策略成功率大于90%。仿真校驗(yàn)的脫靶量分布結(jié)果如圖15所示。
圖15 攔截器脫靶量樣本分布
仿真校驗(yàn)的落點(diǎn)偏差分布結(jié)果如圖16所示。
圖16 落點(diǎn)偏差樣本分布
針對攔截器的未知特性,對場景初始參數(shù)進(jìn)行調(diào)整,得到?jīng)Q策網(wǎng)絡(luò)在攔截器不同未知特性下的結(jié)果如表5所示。
表5 攔截器未知特性下的校驗(yàn)結(jié)果
從校驗(yàn)結(jié)果可知,決策神經(jīng)網(wǎng)絡(luò)具備較好的泛化能力,在攔截器不同未知特性下仍能保持較高的任務(wù)成功率,相較于訓(xùn)練過程末期的任務(wù)成功率最高降低不到5%,表明所提出的智能博弈機(jī)動策略對未知參數(shù)的抗干擾能力較強(qiáng)。
面向再入滑翔飛行器,針對其俯沖段博弈機(jī)動問題進(jìn)行深入研究,取得以下成果:首先,將俯沖段博弈機(jī)動問題建模為馬爾科夫決策過程,定義了狀態(tài)、動作與獎勵函數(shù);然后,針對傳統(tǒng)DDPG算法進(jìn)行改進(jìn),對經(jīng)驗(yàn)回放機(jī)制和探索噪聲設(shè)計(jì)進(jìn)行優(yōu)化,提出了基于改進(jìn)PER-DDPG的俯沖段博弈機(jī)動決策算法,提高了訓(xùn)練初期的尋優(yōu)能力和后期的收斂性能。最后,在多場景飛行仿真校驗(yàn)和大規(guī)模泛化能力校驗(yàn)中,統(tǒng)計(jì)數(shù)據(jù)驗(yàn)證了決策算法在進(jìn)行機(jī)動決策上的有效性。針對不同場景,算法具備較強(qiáng)的泛化性,可為再入滑翔飛行器的俯沖段智能博弈機(jī)動飛行提供參考。