陳中原, 韋文書, 陳萬春
(1.北京航空航天大學(xué) 宇航學(xué)院, 北京 100191; 2.中國運載火箭技術(shù)研究院, 北京 100076)
近年來,為提升打擊效能,協(xié)同制導(dǎo)技術(shù)得到越來越多的關(guān)注[1-5]。協(xié)同制導(dǎo)的多發(fā)導(dǎo)彈可以看作是僅基于簡單控制律即可相互協(xié)作以實現(xiàn)任務(wù)目標的多智能體系統(tǒng)[6]。多發(fā)導(dǎo)彈協(xié)同作戰(zhàn)在效能上要優(yōu)于單個高技術(shù)和高成本的飛行器。此外,多發(fā)導(dǎo)彈構(gòu)成的多智能體系統(tǒng)也會比單個飛行器具有更強的作戰(zhàn)能力[7]。其中,多發(fā)處于不同初始條件的導(dǎo)彈實現(xiàn)對目標的同時打擊是一個極具挑戰(zhàn)的問題[8-9]。
目前,多彈同時攻擊協(xié)同制導(dǎo)律可以分為兩類:
1) 第1類是為協(xié)同制導(dǎo)系統(tǒng)指定期望的攻擊時間。Cho等[10]提出了一種非奇異滑模制導(dǎo)律使導(dǎo)彈在指定的時間打擊目標;Liu等[11]基于自適應(yīng)滑模設(shè)計了一種指定攻擊時間和攻擊角度的制導(dǎo)律。然而,為處于不同初始條件下的多發(fā)導(dǎo)彈指定同一個攻擊時間顯然是有困難的。此外,各發(fā)導(dǎo)彈間沒有交互,降低了多彈協(xié)同制導(dǎo)系統(tǒng)對環(huán)境的感知能力。
2) 另一類是由系統(tǒng)中的各發(fā)導(dǎo)彈相互協(xié)調(diào),對齊攻擊時間。Jeon等[7]對比例導(dǎo)引制導(dǎo)律(簡稱PN制導(dǎo)律)進行拓展,設(shè)計了多彈協(xié)同攻擊制導(dǎo)律。然而,該制導(dǎo)律要求每發(fā)導(dǎo)彈都要有整個系統(tǒng)的全局信息,為集中式控制,通訊負擔(dān)較重。此后,Zhou等[12]基于李雅普諾夫理論設(shè)計了有限時間收斂的分布式協(xié)同攻擊制導(dǎo)律。Sinha等[13]設(shè)計了一種超螺旋滑模制導(dǎo)律,使制導(dǎo)指令更加平滑。李文等[14]基于一致性理論,選取飛行器與目標的相對距離和接近速度為協(xié)調(diào)變量,設(shè)計了無動力飛行器在速度時變情況下的分布式時間協(xié)同三維制導(dǎo)方法。
在導(dǎo)彈制導(dǎo)方面,Cottrell等[17]設(shè)計了神經(jīng)網(wǎng)絡(luò)最優(yōu)攔截制導(dǎo)律,減小了燃料消耗,有利于實現(xiàn)攔截器的小型化。然而,基于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)網(wǎng)絡(luò)[18]的制導(dǎo)律需要最優(yōu)化樣本進行訓(xùn)練,樣本數(shù)量一定程度上決定了智能制導(dǎo)律可應(yīng)用的交戰(zhàn)環(huán)境,即某些不在樣本中的交戰(zhàn)環(huán)境可能使制導(dǎo)律失效。
為了簡化制導(dǎo)律設(shè)計,提高制導(dǎo)律魯棒性,Gaudet等[19]基于元強化學(xué)習(xí)設(shè)計了攔截器末制導(dǎo)律。南英等[20]對傳統(tǒng)深度Q網(wǎng)絡(luò)(DQN)的記憶池生成方法進行改進,提出了一種基于Markov決策過程的彈道導(dǎo)彈中段突防控制模型。強化學(xué)習(xí)技術(shù)不需要深度學(xué)習(xí)所需要的樣本,也無需設(shè)計控制器的結(jié)構(gòu),可自主探索實現(xiàn)獎勵值最大的動作。然而,上述智能制導(dǎo)律僅針對單個彈,而不是“彈群”。胡仕友等[21]總結(jié)了導(dǎo)彈武器智能精確制導(dǎo)技術(shù)的發(fā)展現(xiàn)狀并對發(fā)展趨勢做了分析,指出開展多彈間信息交互與協(xié)同處理技術(shù)研究,實現(xiàn)群體的分布式智能化協(xié)作,是未來導(dǎo)彈武器智能精確制導(dǎo)技術(shù)發(fā)展的重要方向。
基于深度確定性策略梯度(DDPG)的強化學(xué)習(xí)算法,引入Actor和Critic神經(jīng)網(wǎng)絡(luò)用于動作的選取和獎勵值的逼近,用于解決復(fù)雜連續(xù)的控制問題[22-23]。本文基于DDPG設(shè)計了多彈同時攻擊協(xié)同制導(dǎo)律。為了降低協(xié)同制導(dǎo)系統(tǒng)的通訊負擔(dān),利用多智能體思想,使協(xié)同制導(dǎo)系統(tǒng)中的每發(fā)導(dǎo)彈只需與自己的鄰居進行通訊,實現(xiàn)了分布式協(xié)同制導(dǎo)。此外,本文方法不再假設(shè)初始航向角誤差為小角度[7,10],因而具有更廣的應(yīng)用范圍。
考慮如圖1所示的n發(fā)導(dǎo)彈和一個靜止目標間的平面交戰(zhàn)幾何關(guān)系,圖1中:vmi為第i發(fā)導(dǎo)彈的速度;θi為彈道傾角;ri為第i為導(dǎo)彈和目標的相對距離;λi為彈目視線角;σi為第i發(fā)導(dǎo)彈的航向角誤差;ami為導(dǎo)彈指令加速度。系統(tǒng)的非線性交戰(zhàn)動力學(xué)方程為
圖1 多彈協(xié)同制導(dǎo)平面交戰(zhàn)幾何關(guān)系Fig.1 Planar engagement geometry
(1)
需要說明的是,這里假設(shè)各發(fā)導(dǎo)彈的速度大小為常值,導(dǎo)彈加速度的方向垂直于導(dǎo)彈速度。
由于本文所研究的是氣動控制的導(dǎo)彈,也就是只有速度方向可被氣動力控制,而導(dǎo)彈的軸向速度是不可控的。因此,制導(dǎo)指令垂直于速度方向。另外,導(dǎo)彈末制導(dǎo)階段飛行距離和制導(dǎo)時間較短,目標為靜止目標,可忽略導(dǎo)彈速度大小變化,因此導(dǎo)彈速度假設(shè)為常值。
(2)
(3)
式中:Ni為比例導(dǎo)引常數(shù)。然而小角度假設(shè)不能夠接近實際,因此本文中考慮初始航向角誤差較大時,剩余飛行時間由(4)式估計,即
(4)
隨著協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈數(shù)量的增加,圖論成為描述導(dǎo)彈間信息交互關(guān)系的有力工具??紤]一個有n發(fā)導(dǎo)彈的協(xié)同制導(dǎo)系統(tǒng),系統(tǒng)拓撲可以表達為Gs=(Vs,Es,As),其中:Vs={1,2,…,n}為拓撲圖形中頂點的集合,代表每發(fā)導(dǎo)彈的位置;Es?Vs×Vs拓撲圖形中邊的集合;As=[aij]是拓撲圖形Gs的鄰接矩陣[24]。頂點i和頂點j的邊由(j,i)∈Es來表達,代表第i發(fā)導(dǎo)彈可以獲取第j發(fā)導(dǎo)彈的信息。鄰接矩陣As定義為:當且僅當(j,i)∈Es時,aij=1,如果(j,i)?Es則aij=0.此外,鄰居的集合定義為Ni={j∶(j,i)∈Es}.第i個頂點的自由度由di來表示,di為第i發(fā)導(dǎo)彈鄰居的個數(shù)。拓撲圖形Gs的自由度矩陣可以表達為Δ=diag{di},i∈[1,2,…,n].拓撲圖形Gs的拉普拉斯矩陣La定義為
La=Δ-As,
(5)
La代表了多彈協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈間的信息交互關(guān)系。
根據(jù)文獻[25-27]:若多導(dǎo)彈協(xié)同制導(dǎo)拓撲的基礎(chǔ)圖是固定且無向的,當且僅當拓撲圖連通時,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致;若拓撲的基礎(chǔ)圖為有向圖,當且僅當拓撲圖含有一個生成樹時,利用強化學(xué)習(xí)算法,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致。
針對多導(dǎo)彈協(xié)同制導(dǎo)系統(tǒng), 需設(shè)計一個分布式協(xié)同制導(dǎo)方案,使多發(fā)導(dǎo)彈在不同初始條件下實現(xiàn)同時打擊目標。根據(jù)(2)式,若各發(fā)導(dǎo)彈的剩余飛行時間達到一致,那么多發(fā)導(dǎo)彈即可實現(xiàn)對目標的同時打擊。定義剩余飛行時間估計的一致性誤差為
(6)
即第i發(fā)導(dǎo)彈與其鄰居間估計剩余飛行時間的誤差。
因此,需要設(shè)計一個協(xié)同制導(dǎo)律來實現(xiàn)下面3個目標:
1) 所有導(dǎo)彈都要擊中目標,即脫靶量為0 m;
2) 所有導(dǎo)彈剩余飛行時間估計的一致性誤差要變?yōu)? s,實現(xiàn)同時攻擊;
3) 當剩余飛行時間估計的一致性誤差為0 s時,各發(fā)導(dǎo)彈可利用簡單的制導(dǎo)律繼續(xù)飛行,當有剩余飛行時間誤差時,繼續(xù)進行調(diào)整。
由于傳統(tǒng)方法在設(shè)計制導(dǎo)律時需要仔細調(diào)整制導(dǎo)律中的各個參數(shù),來實現(xiàn)期望的性能。本文將嘗試應(yīng)用強化學(xué)習(xí)技術(shù)來設(shè)計制導(dǎo)律,無需關(guān)心制導(dǎo)律結(jié)構(gòu)及參數(shù)設(shè)計,實現(xiàn)智能協(xié)同制導(dǎo)。
受文獻[25]的啟發(fā),協(xié)同制導(dǎo)律的結(jié)構(gòu)設(shè)計為
(7)
(8)
如1.1節(jié)所述,剩余飛行時間的估計表達式為
(9)
其對時間的1階導(dǎo)數(shù)為
(10)
那么多彈協(xié)同制導(dǎo)系統(tǒng)剩余飛行時間一致性誤差對時間的導(dǎo)數(shù)可等效為如(11)式所示的非線性系統(tǒng):
(11)
(12)
式中:q(x(t))為脫靶量和一致性誤差的函數(shù)。
本文目標就是尋找一個狀態(tài)反饋控制器u*=Φ(x),使得非線性系統(tǒng)式的性能指標式達到最小化。求解該問題的一種常用方法就是將該最優(yōu)控制問題轉(zhuǎn)化為Hamilton-Jacobi-Bellman方程,即
(13)
式中:J*(x)為一個值函數(shù),其表達式為
(14)
若求解出Hamilton-Jacobi-Bellman方程,則最優(yōu)控制量的表達式為
(15)
然而,對于非線性系統(tǒng),得到Hamilton-Jacobi-Bellman方程的解析解是極其困難的,尤其是問題的維度比較高時[28-29]。隨著人工智能技術(shù)的發(fā)展,上述問題的性能指標函數(shù)可采用策略梯度法進行優(yōu)化[30]。
本文采用的是基于策略梯度下降的深度神經(jīng)網(wǎng)絡(luò)DDPG強化學(xué)習(xí)算法,該算法是一個不基于模型、在線、異步策略的強化學(xué)習(xí)方法。DDPG算法利用Actor-Critic神經(jīng)網(wǎng)絡(luò)來生成使長期回報最大化的最優(yōu)動作。Actor網(wǎng)絡(luò)基于當前的觀測給出最佳動作,Critic網(wǎng)絡(luò)基于當前的觀測和動作給出獎勵值估計。DDPG的觀測量可以為連續(xù)或離散的,而動作空間是連續(xù)的。Critic網(wǎng)絡(luò)并不需要評價所有動作來選出最佳動作,只關(guān)注當前Actor網(wǎng)絡(luò)生成的動作。
圖2 DDPG算法的結(jié)構(gòu)Fig.2 Structure of DDPG algorithm
2.2.1 狀態(tài)空間設(shè)計
為實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同打擊,各發(fā)導(dǎo)彈的脫靶量要盡量小,且每發(fā)導(dǎo)彈的攻擊時間要一致。因此,強化學(xué)習(xí)算法的狀態(tài)空間設(shè)計為
S=[r1…ri…rnξ1…ξi…ξn]T.
(16)
2.2.2 動作空間設(shè)計
動作空間定義為制導(dǎo)律(7)式中的協(xié)同控制項,即
(17)
2.2.3 獎勵函數(shù)設(shè)計
如1.3節(jié)所述,需要讓脫靶量和剩余飛行時間的誤差盡量小。當脫靶量小于1 m時,獎勵值加10;且當剩余飛行時間誤差小于0.02 s時,獎勵值加10.因此,獎勵函數(shù)設(shè)計為
(18)
2.2.4 行為策略設(shè)計
如圖2所示,DDPG算法中包含了4個函數(shù)估計器,即:
1) Actor網(wǎng)絡(luò)μ(S):輸入為觀測S,輸出為使長期回報最大化的動作。
2) 目標Actor網(wǎng)絡(luò)μ′(S′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Actor網(wǎng)絡(luò)參數(shù)值周期性地更新目標Actor網(wǎng)絡(luò)。
3) Critic網(wǎng)絡(luò)Q(S,A):輸入為觀測S和動作A,輸出相應(yīng)的長期回報的期望。
4) 目標Critic網(wǎng)絡(luò)Q′(S′,A′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Critic網(wǎng)絡(luò)參數(shù)值周期性地更新目標Critic網(wǎng)絡(luò)。
需要指出的是,μ(S)和μ′(S′)有相同的結(jié)構(gòu)和參數(shù),Q(S,A)和Q′(S,A)有相同的結(jié)構(gòu)和參數(shù)。當訓(xùn)練結(jié)束時,訓(xùn)練好的最優(yōu)策略存儲于Actor網(wǎng)絡(luò)μ(S)中。
DDPG算法的訓(xùn)練過程中會在每個步長都更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),具體算法如下:
1) 用隨機參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(S,A),并用同樣的參數(shù)初始化目標Critic網(wǎng)絡(luò)Q′(S′,A′), 即θQ=θQ′.
2) 用隨機參數(shù)θμ初始化Actor網(wǎng)絡(luò)μ(S),并用同樣的參數(shù)初始化目標Actor網(wǎng)絡(luò)μ′(S′),即θμ=θμ′.
3) 對于訓(xùn)練中的每個步長:
(1) 對于當前的觀測S,選擇動作A=μ(S)+w,其中w為噪聲模型中的隨機噪聲。
(2) 執(zhí)行動作A.觀測獎勵R及后續(xù)的觀測S′.
(3) 在經(jīng)驗池中存儲經(jīng)驗(S,A,R,S′)。
(4) 從經(jīng)驗池中隨機取出一小批M個經(jīng)驗(Sk,Ak,Rk,S′k),k=1,2,3,…,M.
(5) 如果S′k是最終狀態(tài),則設(shè)置值函數(shù)目標yi=Ri.否則,
yi=Ri+γQ′(S′k,μ′(S′k|θμ)|θQ′)。
(19)
值函數(shù)目標是經(jīng)驗獎勵Rk和折扣未來回報的和。為了計算累計獎勵,DDPG算法首先將后續(xù)的觀測S′k從經(jīng)驗池中傳到目標Actor網(wǎng)絡(luò)來生成下一步的動作。然后算法將下一步的動作傳到目標Critic網(wǎng)絡(luò)得出累計獎勵。
(6) 通過使經(jīng)驗值損失L最小化更新Critic網(wǎng)絡(luò)參數(shù):
(20)
(7) 利用下面的采樣策略梯度使期望的折扣獎勵最大化來更新Actor網(wǎng)絡(luò)參數(shù):
(21)
(22)
(23)
式中:Gai為Critic網(wǎng)絡(luò)相對于Actor網(wǎng)絡(luò)輸出動作的梯度;Gμi為Actor網(wǎng)絡(luò)輸出動作相對于Actor網(wǎng)絡(luò)參數(shù)的梯度。本文中,采用隨機梯度下降法進行梯度更新。
(8) 基于如下目標網(wǎng)絡(luò)參數(shù)更新方法來更新Actor和Critic網(wǎng)絡(luò)參數(shù):
① 平滑:每個時間步長利用平滑因子τ來更新目標網(wǎng)絡(luò)參數(shù),即:
目標Critic網(wǎng)絡(luò)參數(shù)更新
θQ′=τθQ+(1-τ)θQ′;
(24)
目標Actor網(wǎng)絡(luò)參數(shù)更新
θμ′=τθμ+(1-τ)θμ′.
(25)
② 周期性更新:不進行平滑處理時周期性地更新目標參數(shù),即平滑因子τ=1.
③ 周期性平滑:周期性地更新目標參數(shù),并進行平滑處理。
Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)在完成訓(xùn)練后,實際在線使用時,輸入為彈目相對距離和剩余飛行時間估計的一致性誤差,輸出為2.1節(jié)(7)式中所涉及的協(xié)同控制項,從而實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同制導(dǎo)。
考慮交戰(zhàn)場景中有2發(fā)不同初始條件的導(dǎo)彈和一個靜止目標,決策優(yōu)化過程中,交戰(zhàn)場景的初始條件設(shè)置如表1所示。
如表1所示,導(dǎo)彈1和導(dǎo)彈2的初始位置和速度均不相同,目標垂直位置坐標隨機從1 000 m、1 500 m、2 000 m中隨機選取,這樣導(dǎo)彈初始的航向角誤差也會隨著變化,使DDPG算法不會僅僅學(xué)習(xí)一條彈道,能夠適應(yīng)更廣范圍的交戰(zhàn)初始條件。
表1 決策優(yōu)化的初始條件Tab.1 Initial conditions for policy optimation
DDPG算法訓(xùn)練過程中的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別設(shè)置為α1=0.000 1和α2=0.001,折算因子設(shè)置為γ=0.99.訓(xùn)練停止條件設(shè)置為訓(xùn)練次數(shù)達到915次。
訓(xùn)練過程中每次仿真的獎勵值及最近5次仿真獎勵值的平均值如圖3所示。從圖3中可以看到,隨著訓(xùn)練的進行,獎勵值波動上升,訓(xùn)練500次后,獎勵值穩(wěn)定在500左右,勵值期望也在逐漸收斂。
圖3 DDPG算法策略優(yōu)化訓(xùn)練過程Fig.3 Training progress of policy optimation of DDPG algorithm
算法測試過程中目標初始垂直坐標取為1 000~1 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價強化學(xué)習(xí)協(xié)同制導(dǎo)律的制導(dǎo)效果。
以目標垂直坐標為1 500 m為例,比例導(dǎo)引系數(shù)N=4,PN制導(dǎo)律、傳統(tǒng)協(xié)同比例(CPN)制導(dǎo)律[7]、強化學(xué)習(xí)協(xié)同比例導(dǎo)引(RL-CPN)制導(dǎo)律的彈道如圖4所示。由圖4可見:PN制導(dǎo)律的彈道比較平滑,但是2發(fā)導(dǎo)彈的攻擊時間分別為5.26 s和5.36 s,有0.1 s的差別,即未實現(xiàn)同時攻擊;CPN制導(dǎo)律實現(xiàn)了2發(fā)導(dǎo)彈的同時攻擊,攻擊時間均為5.35 s,但彈道轉(zhuǎn)彎次數(shù)較多,說明導(dǎo)彈在交戰(zhàn)過程中不斷調(diào)整制導(dǎo)指令來對齊剩余飛行時間;RL-CPN制導(dǎo)律為了實現(xiàn)同時打擊,相應(yīng)的彈道在制導(dǎo)初期開始進行必要的機動來對齊剩余飛行時間,轉(zhuǎn)彎機動次數(shù)較少,最終2發(fā)導(dǎo)彈均在5.35 s實現(xiàn)了對目標的同時攻擊。RL-CPN和CPN制導(dǎo)律的指令加速度如圖 5所示,可見在交戰(zhàn)結(jié)束時,制導(dǎo)指令并沒有飽和,因此導(dǎo)彈有能力精確命中目標。但本文中獎勵函數(shù)未考慮燃料消耗,因此RL-CPN制導(dǎo)律的制導(dǎo)指令幅值較大,在后續(xù)工作中需要進一步探索燃料最優(yōu)的RL-CPN制導(dǎo)律。
圖4 二維協(xié)同打擊的彈道對比Fig.4 Comparative trajectories of 2-D engagement
圖5 RL-CPN和CPN制導(dǎo)律的導(dǎo)彈指令加速度Fig.5 Commands acceleration of CPN and RL-CPN
1 000次仿真的統(tǒng)計結(jié)果如表2所示。從表2中可以看出:RL-CPN制導(dǎo)律的攻擊時間誤差平均值為0.001 s,而PN制導(dǎo)律的攻擊時間誤差為0.101 219 8 s,二者相差了兩個數(shù)量級;與CPN制導(dǎo)律相比,RL-CPN制導(dǎo)律的脫靶量和攻擊時間誤差也相對較小,也就是說,RL-CPN制導(dǎo)律的制導(dǎo)精度更高。
表2 制導(dǎo)律性能的對比Tab.2 Comparation of guidance laws
為了進一步驗證RL-CPN制導(dǎo)律的有效性,本文一些未在訓(xùn)練中使用的數(shù)據(jù)將用來進行測試。設(shè)置目標垂直位置2 000~2 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價RL-CPN制導(dǎo)律的制導(dǎo)效果。
仿真結(jié)果如表3所示,從中可見RL-CPN制導(dǎo)律的脫靶量依然小于PN制導(dǎo)律和CPN制導(dǎo)律的脫靶量。此外,RL-CPN制導(dǎo)律的脫靶量標準差也比PN制導(dǎo)律和CPN制導(dǎo)律的小,說明RL-CPN制導(dǎo)律的性能更加穩(wěn)定。RL-CPN制導(dǎo)律的攻擊時間誤差為0.006 239 s,依然較PN制導(dǎo)律的小一個量級。盡管RL-CPN制導(dǎo)律的攻擊時間誤差在本仿真場景中略大于CPN制導(dǎo)律,但是其脫靶量僅為CPN制導(dǎo)律的約1/3,對于同時打擊而言更具有實戰(zhàn)意義。
表3 拓展交戰(zhàn)場景進行制導(dǎo)律性能的對比Tab.3 Comparation of guidance laws in extended engagement scenarios
圖6、圖7、圖8分別為對RL-CPN制導(dǎo)律、CPN制導(dǎo)律和PN制導(dǎo)律的脫靶量進行了直方圖統(tǒng)計。由圖6、圖7、圖8可以看出:RL-CPN制導(dǎo)律脫靶量集中在0~1 m;而PN制導(dǎo)律的分布則比較均勻,出現(xiàn)較大脫靶量的次數(shù)更多;CPN制導(dǎo)律的脫靶量在3.5~4.0 m區(qū)間出現(xiàn)的頻次則更多,這也說明了RL-CPN制導(dǎo)律的制導(dǎo)精度更高。這是因為本文所考慮的是非線性交戰(zhàn)動力學(xué)模型,剩余飛行時間的估計和制導(dǎo)律的設(shè)計不再基于文獻[7]所考慮小角度假設(shè)下的線性動力學(xué)模型。強化學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何非線性函數(shù),因此本文制導(dǎo)律可獲得較高的制導(dǎo)精度。
圖6 RL-CPN制導(dǎo)律的統(tǒng)計直方圖Fig.6 Miss distance histogram of RL-CPN
圖7 CPN制導(dǎo)律的統(tǒng)計直方圖Fig.7 Miss distance histogram of CPN
圖8 PN制導(dǎo)律的統(tǒng)計直方圖Fig.8 Miss distance histogram of PN
另外,考慮目標運動狀態(tài)的不確定性也是一項值得研究的工作。若考慮目標機動的不確定性,強化學(xué)習(xí)算法在訓(xùn)練時就要給定一些目標機動的場景,如目標做常值機動、Bang-Bang機動、正弦機動等,隨機選取機動幅值的大小和頻率來構(gòu)造訓(xùn)練環(huán)境,算法收斂后,令目標執(zhí)行一些訓(xùn)練未遇到的機動幅度大小和頻率,對算法進行測試。最后,結(jié)合仿真結(jié)果來評價考慮目標機動的不確定性時強化學(xué)習(xí)協(xié)同制導(dǎo)律的效果。
本文設(shè)計了一種基于強化學(xué)習(xí)算法的協(xié)同制導(dǎo)律,可以實現(xiàn)多發(fā)導(dǎo)彈對目標的同時打擊。通過仿真實驗,得出主要結(jié)論如下:
1) RL-CPN制導(dǎo)律實現(xiàn)了分布式協(xié)同,不再需要提前指定某攻擊時刻,而是各發(fā)導(dǎo)彈根據(jù)剩余飛行時間誤差這一協(xié)調(diào)變量生成制導(dǎo)指令,進而實現(xiàn)剩余飛行時間的一致性,達到同時打擊的目的。利用圖論理論,各發(fā)導(dǎo)彈不需要“彈群”的全局信息,只需與其鄰居進行通訊,降低了通訊負擔(dān)。
2) RL-CPN制導(dǎo)律脫靶量較小,各發(fā)導(dǎo)彈之間的剩余飛行時間誤差較小,制導(dǎo)精度高,能夠適應(yīng)線下學(xué)習(xí)未訓(xùn)練的交戰(zhàn)場景。
3) 基于強化學(xué)習(xí)算法設(shè)計制導(dǎo)律,極大簡化了制導(dǎo)律設(shè)計過程,無需考慮控制器的結(jié)構(gòu),也免去了控制器的調(diào)參過程,縮短了制導(dǎo)律的設(shè)計周期。
4) 由于未考慮導(dǎo)彈的燃料消耗因素,RL-CPN制導(dǎo)律燃料消耗較大,在后續(xù)工作中可以進一步優(yōu)化。
本文后續(xù)工作可進一步拓展智能協(xié)同制導(dǎo)的應(yīng)用場景,考慮導(dǎo)彈速度是時變的以及導(dǎo)彈軸向速度可控的情況,以提高多彈同時攻擊的制導(dǎo)精度。此外,可將本文方法擴展為三維協(xié)同制導(dǎo),除考慮燃料消耗最優(yōu)需求外,也可考慮攻擊角度約束及避障、避撞等約束,實現(xiàn)多發(fā)導(dǎo)彈在多約束條件下的智能協(xié)同制導(dǎo)。