康冰冰, 姜 濤, 曹 建, 魏曉晴
(海軍航空大學(xué), 山東 煙臺(tái) 264001)
毀傷目標(biāo)首先考慮的因素是武器彈藥能否命中目標(biāo)或者脫靶量是否在一定的毀傷范圍內(nèi)。 與非制導(dǎo)武器相比, 制導(dǎo)武器極大的提高了命中目標(biāo)的精度, 保證了毀傷效果。 制導(dǎo)律是制導(dǎo)武器提高命中精度的核心之一, 制導(dǎo)律一般通過(guò)最優(yōu)控制、 李雅普諾夫穩(wěn)定性理論、 滑??刂频人惴╗1]設(shè)計(jì), 最常用的制導(dǎo)律是比例導(dǎo)引律及其偏置形式[2]。
在實(shí)際作戰(zhàn)中, 彈目交會(huì)情形和目標(biāo)易損特性等也極大的影響作戰(zhàn)使用效率, 如攻擊混凝土結(jié)構(gòu)、 鋼制結(jié)構(gòu)等堅(jiān)硬目標(biāo)時(shí), 彈著角過(guò)小容易發(fā)生跳彈; 攻擊艦船、 建筑物等目標(biāo)時(shí), 導(dǎo)彈以一定的方向攻擊目標(biāo)的易損部位, 可以增加毀傷效果。 因此, 針對(duì)特定目標(biāo), 尤其是地面、 海面目標(biāo), 制導(dǎo)武器以一定的角度攻擊目標(biāo), 可以達(dá)到更好毀傷效果。
針對(duì)固定目標(biāo), 文獻(xiàn)[3]利用計(jì)算幾何學(xué)設(shè)計(jì)了制導(dǎo)律, 調(diào)整終點(diǎn)碰撞線, 導(dǎo)彈能以指定落角攻擊目標(biāo), 通過(guò)調(diào)整軌跡長(zhǎng)度控制導(dǎo)彈飛行時(shí)間; 文獻(xiàn)[4]利用直線飛行的虛擬領(lǐng)彈建立幾何關(guān)系, 采用最優(yōu)控制使跟蹤彈飛行軌跡與虛擬領(lǐng)彈同步, 實(shí)現(xiàn)了特定落角攻擊目標(biāo); 文獻(xiàn)[5]利用最優(yōu)控制推導(dǎo)帶落角約束的偏置比例制導(dǎo)律; 文獻(xiàn)[6]推導(dǎo)了三維協(xié)同制導(dǎo)律, 制導(dǎo)過(guò)程分為協(xié)同、 比例導(dǎo)引兩個(gè)階段, 基于此研究了導(dǎo)彈以不同的落角攻擊目標(biāo)的協(xié)同制導(dǎo)律[7]; 文獻(xiàn)[8]利用李雅普諾夫穩(wěn)定性定理, 設(shè)計(jì)制導(dǎo)誤差并進(jìn)行收斂設(shè)計(jì), 實(shí)現(xiàn)了具有固定落角的協(xié)同制導(dǎo); 文獻(xiàn)[9]以比例制導(dǎo)律為基礎(chǔ)設(shè)計(jì)了具有固定落角約束的制導(dǎo)律, 且收斂時(shí)間固定。
針對(duì)具有約束的制導(dǎo)問(wèn)題, 傳統(tǒng)的設(shè)計(jì)方法一般計(jì)算比較復(fù)雜, 有的還需要做一些近似處理。 近年來(lái), 隨著人工智能的發(fā)展, 智能算法開(kāi)始進(jìn)入武器領(lǐng)域, 文獻(xiàn)[10]綜述了智能航跡規(guī)劃算法, 對(duì)強(qiáng)化學(xué)習(xí)、 神經(jīng)網(wǎng)絡(luò)、 深度學(xué)習(xí)等算法進(jìn)行了分析; 文獻(xiàn)[11]利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)導(dǎo)彈撞擊目標(biāo)的時(shí)間, 實(shí)現(xiàn)導(dǎo)彈協(xié)同攻擊固定目標(biāo); 文獻(xiàn)[12]針對(duì)機(jī)動(dòng)目標(biāo)采用DDPG設(shè)計(jì)了制導(dǎo)律, 與比例制導(dǎo)律、 改進(jìn)的比例制導(dǎo)律相比, 脫靶量更小, 攔截效果更好; 文獻(xiàn)[13]采用Q-learning、 EBDQN設(shè)計(jì)了導(dǎo)航比具有自適應(yīng)特性的末制導(dǎo)律, 與傳統(tǒng)方法相比, 脫靶量更小, 更加穩(wěn)定; 文獻(xiàn)[14]設(shè)計(jì)了DQN與神經(jīng)網(wǎng)絡(luò)結(jié)合的制導(dǎo)律, 與DQN制導(dǎo)律相比, 脫靶量更小; 文獻(xiàn)[15]設(shè)計(jì)了基于TD3算法的制導(dǎo)律, 制導(dǎo)律的泛化特性較好; 文獻(xiàn)[16]設(shè)計(jì)了基于TRPO的強(qiáng)化學(xué)習(xí)制導(dǎo)律, 與比例制導(dǎo)律相比, 具有更好的攔截效果; 文獻(xiàn)[17]設(shè)計(jì)了基于蒙特卡洛和Q-learning的兩種強(qiáng)化學(xué)習(xí)的導(dǎo)航比, 與傳統(tǒng)比例制導(dǎo)律相比, 具有更好的攔截效果; 文獻(xiàn)[18]基于分層強(qiáng)化學(xué)習(xí)算法研究了空戰(zhàn)決策, 結(jié)果表明訓(xùn)練的模型能有效提高輔助決策效率; 文獻(xiàn)[19]利用DDPG算法構(gòu)建了制導(dǎo)、 控制一體化框架, 算法直接輸出舵偏量, 該算法的能耗更低。
比例制導(dǎo)律及其變型是應(yīng)用廣泛的制導(dǎo)律, 當(dāng)彈目交會(huì)狀態(tài)有一定約束時(shí), 尤其是目標(biāo)存在一定的速度時(shí), 傳統(tǒng)制導(dǎo)律能否適應(yīng)復(fù)雜的戰(zhàn)場(chǎng)環(huán)境值得分析。 由于強(qiáng)化學(xué)習(xí)在制導(dǎo)律設(shè)計(jì)上展現(xiàn)出了獨(dú)特的優(yōu)勢(shì), 受此啟發(fā), 本文采用強(qiáng)化學(xué)習(xí)算法, 針對(duì)具有落角約束的制導(dǎo)問(wèn)題展開(kāi)研究, 并與傳統(tǒng)的最優(yōu)制導(dǎo)律(擴(kuò)展比例制導(dǎo)律)對(duì)比分析, 驗(yàn)證了強(qiáng)化學(xué)習(xí)制導(dǎo)律的有效性和對(duì)戰(zhàn)場(chǎng)環(huán)境的適應(yīng)性。
圖1 彈目幾何關(guān)系Fig.1 The geometry of the missile and its target
彈目幾何關(guān)系可以用下式表示:
(1)
(2)
(3)
ζ=η-θ
(4)
整理式(2)~(4)得
(5)
最優(yōu)制導(dǎo)律(Optimal Guidance Law, OPL)是傳統(tǒng)成熟的制導(dǎo)律, 設(shè)初始彈目距離l=l0, 終端彈目交會(huì)時(shí)彈目距離接近0, 令lF=0, 終端落角約束為θF。
在以上約束條件下, 性能指標(biāo)函數(shù)設(shè)定為
(6)
式中:n≥0。
根據(jù)最優(yōu)制導(dǎo)律的求解方法得到加速度[2]:
(7)
式(7)是擴(kuò)展比例制導(dǎo)律的形式, 考慮到空面導(dǎo)彈的過(guò)載限制, 本文令加速度滿足-90≤aM≤90。
在機(jī)器學(xué)習(xí)中, 各種學(xué)習(xí)算法通常需要批量的輸入數(shù)據(jù)和對(duì)應(yīng)的輸出數(shù)據(jù)或標(biāo)簽數(shù)據(jù), 這些數(shù)據(jù)集還應(yīng)滿足獨(dú)立同分布。 通過(guò)對(duì)數(shù)據(jù)的訓(xùn)練, 機(jī)器學(xué)習(xí)尋得數(shù)據(jù)的內(nèi)在規(guī)律, 訓(xùn)練好的模型可以對(duì)一個(gè)輸入數(shù)據(jù)進(jìn)行輸出預(yù)測(cè), 并且預(yù)測(cè)值與觀測(cè)值一致或預(yù)測(cè)誤差很小。 但是在一些情況下, 數(shù)據(jù)是序列的, 不滿足獨(dú)立同分布。 例如導(dǎo)彈制導(dǎo)問(wèn)題, 前一時(shí)刻與后一時(shí)刻的制導(dǎo)飛行數(shù)據(jù)間有強(qiáng)相關(guān)關(guān)系, 需要連續(xù)的制導(dǎo)飛行數(shù)據(jù)才能確定制導(dǎo)律的好壞, 一個(gè)特定時(shí)刻的加速度值無(wú)法做出正確的判斷。 這就是強(qiáng)化學(xué)習(xí)要解決的問(wèn)題。
強(qiáng)化學(xué)習(xí)基本原理如圖2所示, 智能體是做出決策的機(jī)器, 智能體感知環(huán)境狀態(tài)st計(jì)算出相應(yīng)決策動(dòng)作at, 動(dòng)作at作用于環(huán)境產(chǎn)生了獎(jiǎng)勵(lì)r, 環(huán)境進(jìn)入下一個(gè)狀態(tài)st+1, 智能體根據(jù)新的狀態(tài)做下一個(gè)決策。 依照一定的算法, 可以計(jì)算出使累計(jì)獎(jiǎng)勵(lì)最大的決策動(dòng)作序列, 這就是強(qiáng)化學(xué)習(xí)的思想。
圖2 強(qiáng)化學(xué)習(xí)Fig.2 Reinforcement learning
強(qiáng)化學(xué)習(xí)的核心是馬爾科夫決策過(guò)程, 馬爾科夫決策過(guò)程可由一個(gè)五元組[S,A,P,r,γ]表示。S為由狀態(tài)構(gòu)成的集合, 狀態(tài)可以是離散的, 也可以是連續(xù)的;A為由動(dòng)作構(gòu)成的集合, 動(dòng)作集合可以是有限的, 也可以是無(wú)限的;r為獎(jiǎng)勵(lì)函數(shù), 通常表示為r(s,a),r的值由狀態(tài)s及動(dòng)作a共同確定, 考慮到動(dòng)作a影響狀態(tài)s, 在某些情況下r也可表示為r(s);P(s′|s,a)為狀態(tài)轉(zhuǎn)移的概率函數(shù), 即在狀態(tài)s下采取動(dòng)作a進(jìn)入下一個(gè)狀態(tài)s′的概率;γ為折扣參數(shù), 通常是介于0到1之間的數(shù)。
為了判斷智能體決策的優(yōu)劣, 將t時(shí)刻以后的獎(jiǎng)勵(lì)相加得到Gt, 并稱(chēng)為回報(bào):
(8)
考慮到馬爾科夫決策過(guò)程可能處于無(wú)限循環(huán), 折扣參數(shù)γ<1可以避免回報(bào)無(wú)限的大。rt是現(xiàn)時(shí)刻得到的獎(jiǎng)勵(lì)值, 而t+1時(shí)刻以后的獎(jiǎng)勵(lì)rt+i是對(duì)未來(lái)的估計(jì)值, 存在一定的不確定性。 降低折扣參數(shù)可以提高現(xiàn)時(shí)刻獎(jiǎng)勵(lì)的重要程度, 同時(shí)降低未來(lái)時(shí)刻的不確定性。
這樣智能體以最大化回報(bào)的期望為目標(biāo), 以當(dāng)前狀態(tài)為輸入, 輸出一個(gè)動(dòng)作。 智能體選擇動(dòng)作的規(guī)則或者函數(shù)稱(chēng)為策略π, 可表示為
π(a|s)=P(At=a|St=s)
(9)
式中:P為概率函數(shù), 表示智能體根據(jù)輸入狀態(tài)s輸出動(dòng)作a的概率。 如果P是在輸入狀態(tài)s輸出動(dòng)作集A的概率分布, 則這個(gè)策略是隨機(jī)性策略, 策略根據(jù)概率采樣輸出一個(gè)動(dòng)作a; 如果在輸入狀態(tài)s下輸出一個(gè)確定的動(dòng)作, 即輸出該動(dòng)作的概率,P=1, 則這個(gè)策略就是確定性策略。
判斷策略的好壞是通過(guò)貝爾曼期望方程實(shí)現(xiàn)的:
Qπ(s,a)=γ∑P(s′|s,a)∑π(a′|s′)·
Qπ(s′,a′)+r(s,a)
(10)
Vπ(s)=∑π(a|s)r(s,a)+∑π(a|s)·
(γ∑P(s′|s,a)Vπ(s′))
(11)
式中:Qπ(s,a)為策略π下的動(dòng)作價(jià)值函數(shù);Vπ(s)為策略π下的狀態(tài)價(jià)值函數(shù)。
DDPG算法是可以處理連續(xù)動(dòng)作空間的離線學(xué)習(xí)策略。 DDPG算法框架如圖3所示, 策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)均使用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。 策略網(wǎng)絡(luò)用于擬合狀態(tài)s與動(dòng)作a的函數(shù)關(guān)系a(s), 策略網(wǎng)絡(luò)在動(dòng)作價(jià)值的評(píng)判下, 通過(guò)訓(xùn)練尋找最優(yōu)策略。 估計(jì)網(wǎng)絡(luò)用來(lái)擬合狀態(tài)s、 動(dòng)作a與獎(jiǎng)勵(lì)r的函數(shù)關(guān)系r(s,a), 通過(guò)離線的數(shù)據(jù)進(jìn)行訓(xùn)練。 策略網(wǎng)絡(luò)、 評(píng)價(jià)網(wǎng)絡(luò)和環(huán)境構(gòu)成了一個(gè)完整的馬爾可夫決策過(guò)程。 估計(jì)策略網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)具有相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 神經(jīng)網(wǎng)絡(luò)參數(shù)分別為σ和σ′。 估計(jì)評(píng)價(jià)網(wǎng)絡(luò)和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)具有相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 神經(jīng)網(wǎng)絡(luò)參數(shù)分別為ω和ω′。 采用兩套相同評(píng)價(jià)網(wǎng)絡(luò)和策略網(wǎng)絡(luò)是為了防止神經(jīng)網(wǎng)絡(luò)參數(shù)變化過(guò)于劇烈, 解決神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的問(wèn)題。 估計(jì)網(wǎng)絡(luò)實(shí)時(shí)更新參數(shù)ω和σ, 目標(biāo)網(wǎng)絡(luò)按照下式軟更新參數(shù)ω′和σ′:
圖3 DDPG算法Fig.3 DDPG algorithm
ω′=τω+(1-τ)ω′
(12)
σ′=τσ+(1-τ)σ′
(13)
式中: 0<τ≤1。
估計(jì)評(píng)價(jià)網(wǎng)絡(luò)按照下式, 最小化目標(biāo)損失更新網(wǎng)絡(luò)參數(shù)ω:
(14)
估計(jì)策略網(wǎng)絡(luò)采用鏈?zhǔn)椒▌t最大化Qw梯度策略更新估計(jì)策略網(wǎng)絡(luò)參數(shù)σ:
(15)
式中:ai=μσ(si)。
DDPG算法具體流程如下:
(1) 用隨機(jī)參數(shù)初始化估計(jì)策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò);
(2) 復(fù)制估計(jì)網(wǎng)絡(luò)參數(shù)至目標(biāo)網(wǎng)絡(luò)并初始化;
(3) 隨機(jī)初始狀態(tài)s1和噪聲, 利用估計(jì)網(wǎng)絡(luò)循環(huán)計(jì)算并與環(huán)境交互, 保存得到的st,at,rt,st+1至經(jīng)驗(yàn)池;
(4) 獲得足夠的樣本后, 采樣N個(gè)數(shù)據(jù)組si,ai,ri,si+1;
(5) 采用式(14)最小化目標(biāo)函數(shù)L, 并更新估計(jì)策略網(wǎng)絡(luò)的參數(shù)σ;
(6) 采用式(15), 通過(guò)梯度上升方法最大化Qw, 并更新估計(jì)評(píng)價(jià)網(wǎng)絡(luò)的參數(shù)ω;
(7) 采用式(12)~(13)軟更新目標(biāo)策略網(wǎng)絡(luò)參數(shù)σ′和目標(biāo)評(píng)價(jià)網(wǎng)絡(luò)參數(shù)ω′;
(8) 用更新后的估計(jì)網(wǎng)絡(luò)繼續(xù)采樣、 保存, 重復(fù)步驟4~7。 訓(xùn)練過(guò)程中, 按照一定的規(guī)則逐漸降低噪聲直至為0。
(16)
以上獎(jiǎng)勵(lì)函數(shù)的目的是將彈目視線角θ收斂到θF, 并使導(dǎo)彈沿彈目視線(彈目視線θF)飛行。 此時(shí), 導(dǎo)彈可能飛向目標(biāo), 也可能遠(yuǎn)離目標(biāo), 因此當(dāng)導(dǎo)彈遠(yuǎn)離目標(biāo)時(shí)進(jìn)行懲罰。 只要能保證導(dǎo)彈沿彈目視線角為θF的彈目視線飛向目標(biāo), 導(dǎo)彈能夠命中目標(biāo)。
式(1)~(4)構(gòu)成環(huán)境, 在初始條件下DDPG算法與環(huán)境交互。
動(dòng)作a是加速度, 考慮空面導(dǎo)彈的過(guò)載限制, 令動(dòng)作滿足-90≤a≤90。
為了保證訓(xùn)練模型的泛化能力, 末制導(dǎo)初始時(shí)刻導(dǎo)彈M在服從中心為(-5 000 m, 5 000 m), 方差為500的正態(tài)分布的隨機(jī)位置; 導(dǎo)彈速度vM=300 m/s; 終端落角θF為服從均勻分布[-1.4,-0.3]的隨機(jī)位置; 彈道傾角η為服從以0為中心, 方差為0.2的正態(tài)分布的隨機(jī)位置。 在不同初始條件下對(duì)模型訓(xùn)練, 得到穩(wěn)定的強(qiáng)化學(xué)習(xí)制導(dǎo)律。
為分析強(qiáng)化學(xué)習(xí)制導(dǎo)律的特性, 設(shè)置3種不同初始條件進(jìn)行分析, 如圖4~8所示。
圖4 加速度變化情況Fig.4 Acceleration changes
圖5 彈目距離變化情況Fig.5 Change in distance of missile and target
圖6 導(dǎo)彈位置變化情況Fig.6 Change in missile position
初始條件1: 導(dǎo)彈位置(-5 000 m, 5 000 m), 終端落角為-1.1, 彈道傾為0, 最優(yōu)制導(dǎo)律式(7)中n=1。
初始條件2: 導(dǎo)彈位置(-5 000 m, 4 500 m), 終端落角為-0.8, 彈道傾為0.1, 最優(yōu)制導(dǎo)律式(7)中n=0。
初始條件3: 導(dǎo)彈位置(-4 000 m, 4 500 m), 終端落角為-1.0, 彈道傾為0.2, 最優(yōu)制導(dǎo)律式(7)中n=2。
從圖中可以看出, 在3種不同初始條件下, 強(qiáng)化學(xué)習(xí)制導(dǎo)律均能以期望的落角命中目標(biāo), 且加速度在允許范圍內(nèi), 彈道平滑。 本文訓(xùn)練的模型泛化能力較好, 能夠滿足制導(dǎo)要求。
通過(guò)對(duì)比可以發(fā)現(xiàn): 最優(yōu)制導(dǎo)律在末制導(dǎo)初始時(shí)刻加速度值較大, 尤其是圖4(c)中以最大過(guò)載飛行時(shí)間較長(zhǎng); 在制導(dǎo)末時(shí)刻加速度的絕對(duì)值會(huì)有一個(gè)增大, 尤其是圖4(a)中加速度的絕對(duì)值急劇增加。 強(qiáng)化學(xué)習(xí)制導(dǎo)律在末制導(dǎo)初始時(shí)刻所需的加速度較小, 在制導(dǎo)末時(shí)刻加速度接近0, 加速度變化比較平緩。 從圖7中可以看出, 與最優(yōu)制導(dǎo)律相比, 強(qiáng)化學(xué)習(xí)制導(dǎo)律收斂到固定攻擊角度的速度更快。 從圖8中可以看出, 與最優(yōu)制導(dǎo)律相比, 強(qiáng)化學(xué)習(xí)制導(dǎo)律能夠使速度更快的指向LOS方向。
圖7 彈目視線角變化情況Fig.7 Change in line of sight angle of missile and target
圖8 導(dǎo)彈方向誤差角變化情況Fig.8 Change in missile direction error angle
為分析目標(biāo)為低速面目標(biāo)時(shí)的制導(dǎo)律特性, 令動(dòng)目標(biāo)勻速直線運(yùn)動(dòng), 以目標(biāo)速度為15 m/s, 速度方向服從均勻分布[-π,π]為條件, 在訓(xùn)練好的固定目標(biāo)強(qiáng)化學(xué)習(xí)制導(dǎo)律的基礎(chǔ)上繼續(xù)進(jìn)行訓(xùn)練, 得到了穩(wěn)定的強(qiáng)化學(xué)習(xí)制導(dǎo)律。
設(shè)定初始條件4: 導(dǎo)彈位置(-5 000 m,5 000 m), 終端落角為-1.0, 彈道傾為0.2, 目標(biāo)速度方向?yàn)?, 最優(yōu)制導(dǎo)律式(7)中n=2。
強(qiáng)化學(xué)習(xí)制導(dǎo)律和最優(yōu)制導(dǎo)律均能命中目標(biāo), 如圖9所示。 運(yùn)動(dòng)的目標(biāo)使彈目視線一直在變化, 這致使制導(dǎo)律需要不斷的調(diào)整導(dǎo)彈的飛行方向, 修正制導(dǎo)誤差有一定的滯后性。 從仿真結(jié)果圖9(c)中可以看出, 最優(yōu)制導(dǎo)律的終端落角為-0.92, 終端落角的誤差為0.08; 強(qiáng)化學(xué)習(xí)制導(dǎo)律的終端落角為-0.97, 終端落角的誤差為0.03。 強(qiáng)化學(xué)習(xí)制導(dǎo)律在應(yīng)對(duì)運(yùn)動(dòng)目標(biāo)的多約束制導(dǎo)問(wèn)題上具有更好的效果, 能更好適應(yīng)變化的戰(zhàn)場(chǎng)環(huán)境。
圖9 初始條件4Fig.9 Condition 4
針對(duì)空面導(dǎo)彈以一定的落角攻擊面目標(biāo)的問(wèn)題, 本文采用DDPG算法進(jìn)行了制導(dǎo)律設(shè)計(jì)并進(jìn)行訓(xùn)練。 DDPG制導(dǎo)律仿真結(jié)果表明: 模型的泛化能力較好, 能以期望的落角命中目標(biāo), 且加速度在允許范圍內(nèi), 彈道平滑, 在不同初始條件下均能夠滿足制導(dǎo)要求。 DDPG制導(dǎo)律比最優(yōu)制導(dǎo)律有更快的收斂速度、 更好的加速度特性。 針對(duì)低速移動(dòng)目標(biāo), DDPG制導(dǎo)律的終端落角誤差比最優(yōu)制導(dǎo)律小, 能更好的適應(yīng)制導(dǎo)過(guò)程中的變化的戰(zhàn)場(chǎng)環(huán)境。