宋宏川,詹浩,夏露,李向陽(yáng),劉艷
(1.西北工業(yè)大學(xué) 航空學(xué)院,西安710072)
(2.西安地平線電子科技有限公司,西安710072)
現(xiàn)代空戰(zhàn)根據(jù)雷達(dá)探測(cè)范圍和使用武器類型可分為超視距空戰(zhàn)和近距空戰(zhàn)。隨著機(jī)載雷達(dá)和空空導(dǎo)彈性能的提升,空戰(zhàn)在超視距階段結(jié)束戰(zhàn)斗的比例已從20世紀(jì)80年代的不足30%上升到21世紀(jì)初的超過(guò)50%[1]。因此,如何在有限的機(jī)動(dòng)能力下,使用高效的逃逸機(jī)動(dòng)策略提高戰(zhàn)斗機(jī)對(duì)中距空空導(dǎo)彈的規(guī)避、逃逸能力,對(duì)于提高其空戰(zhàn)生存力至關(guān)重要[2]。
飛機(jī)規(guī)避導(dǎo)彈問(wèn)題是追逃對(duì)策的一種,導(dǎo)彈是追擊者,根據(jù)導(dǎo)引律策略追擊飛機(jī);飛機(jī)是逃逸者,決策最優(yōu)控制策略逃脫導(dǎo)彈的追擊。傳統(tǒng)的飛機(jī)規(guī)避導(dǎo)彈通常采用專家系統(tǒng)法[3-7]、微分對(duì)策法[8-10]、最優(yōu)控制法[11-13]以及模型預(yù)測(cè)法[14-15]求解最優(yōu)或次優(yōu)逃逸機(jī)動(dòng)。專家系統(tǒng)法極其依賴人類專家的先驗(yàn)知識(shí),當(dāng)導(dǎo)彈或飛機(jī)子系統(tǒng)變化時(shí),人類專家需要分析新的子系統(tǒng)并再次給出新逃逸機(jī)動(dòng)策略。微分對(duì)策、最優(yōu)控制以及模型預(yù)測(cè)方法都依賴于明確完備的數(shù)學(xué)模型,需要對(duì)復(fù)雜的微分方程求解析或數(shù)值解。飛機(jī)規(guī)避導(dǎo)彈問(wèn)題包括眾多復(fù)雜非線性系統(tǒng),各個(gè)子系統(tǒng)建模不免存在誤差,這無(wú)疑加大了以上方法求解飛機(jī)規(guī)避導(dǎo)彈策略的難度。
近年來(lái)隨著人工智能的發(fā)展,強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合衍生出了一系列無(wú)需建模,只通過(guò)端到端學(xué)習(xí),便能夠?qū)崿F(xiàn)從原始輸入到輸出的直接控制算法[16]。深度確定性策略梯度算法(Deep Deterministic Policy Gradient,簡(jiǎn)稱DDPG)是其中一種可應(yīng)用于連續(xù)動(dòng)作空間的免模型算法[17]。國(guó)內(nèi)外已經(jīng)將該算法應(yīng)用于不同的領(lǐng)域。WANG M等[18]利用DDPG算法研究了平面小車的追逃問(wèn)題;S.YOU等[19]和R.Cimurs等[20]利用該算法研究了智能體在避開(kāi)動(dòng)態(tài)和靜止障礙物的同時(shí),追擊目標(biāo)的導(dǎo)航問(wèn)題。上述研究中動(dòng)態(tài)障礙物的動(dòng)力學(xué)和運(yùn)動(dòng)學(xué)模型相對(duì)簡(jiǎn)單,相比于逃逸者,追擊者并沒(méi)有速度和機(jī)動(dòng)性的絕對(duì)優(yōu)勢(shì)且追擊者并未采用有效的追擊策略。范鑫磊等[21]將DDPG算法應(yīng)用于導(dǎo)彈規(guī)避決策訓(xùn)練,仿真驗(yàn)證了四種典型初始態(tài)勢(shì)下逃逸策略的有效性,但在其研究中,空空導(dǎo)彈和規(guī)避飛機(jī)均采用簡(jiǎn)化模型,未考慮導(dǎo)彈導(dǎo)引律、飛機(jī)導(dǎo)彈氣動(dòng)模型以及飛機(jī)導(dǎo)彈相對(duì)運(yùn)動(dòng)模型,且其初始態(tài)勢(shì)的范圍相對(duì)較少,未與典型的逃逸策略進(jìn)行對(duì)比,未能對(duì)DDPG算法學(xué)習(xí)到的逃逸策略有效性作出更精確的評(píng)價(jià)。
針對(duì)以上問(wèn)題,本文基于DDPG算法,構(gòu)建一套導(dǎo)彈規(guī)避訓(xùn)練系統(tǒng)。首先建立導(dǎo)彈飛機(jī)追逃模型,包括飛機(jī)導(dǎo)彈質(zhì)點(diǎn)模型(考慮氣動(dòng)特性和推力特性)、空空導(dǎo)彈的導(dǎo)引律和殺傷率模型以及飛機(jī)導(dǎo)彈相對(duì)運(yùn)動(dòng)模型;再介紹DDPG算法并設(shè)計(jì)基于DDPG算法的導(dǎo)彈追逃問(wèn)題獎(jiǎng)勵(lì);然后將導(dǎo)彈追逃問(wèn)題建模為基于DDPG算法的強(qiáng)化學(xué)習(xí)問(wèn)題,構(gòu)建基于DDPG算法的導(dǎo)彈規(guī)避訓(xùn)練系統(tǒng);最后將基于DDPG算法的導(dǎo)彈規(guī)避訓(xùn)練系統(tǒng)自主學(xué)習(xí)到的逃逸機(jī)動(dòng)策略與四種基于專家先驗(yàn)知識(shí)的經(jīng)典逃逸機(jī)動(dòng)進(jìn)行對(duì)比,以驗(yàn)證基于DDPG算法的逃逸機(jī)動(dòng)策略的有效性。
本文使用的導(dǎo)彈飛機(jī)追逃模型包括:飛機(jī)和導(dǎo)彈的質(zhì)點(diǎn)模型、導(dǎo)彈的制導(dǎo)律模型、殺傷率模型以及導(dǎo)彈飛機(jī)相對(duì)運(yùn)動(dòng)模型等。
飛機(jī)規(guī)避導(dǎo)彈追逃模型的假設(shè)條件包括:(1)飛機(jī)和導(dǎo)彈都使用質(zhì)點(diǎn)模型,考慮飛機(jī)和導(dǎo)彈的升阻特性和推力特性;(2)導(dǎo)彈采用比例導(dǎo)引制導(dǎo)律;(3)不考慮風(fēng)的影響;(4)忽略側(cè)滑角[9,22]。
飛機(jī)和導(dǎo)彈的質(zhì)點(diǎn)運(yùn)動(dòng)學(xué)模型為
式中:x,y,z分別為地軸系的三軸坐標(biāo),x軸指向正北,y軸指向正東,z軸豎直向下;V為飛行器飛行速度;˙為V在地軸系三個(gè)軸上的分量;γ為爬升角,表示速度和水平面夾角;χ為航跡方位角,表示飛行器飛行速度V在水平面的投影與x軸的夾角。
飛行器的質(zhì)點(diǎn)動(dòng)力學(xué)模型表示為[22]
式中:˙分別為飛行器速度變化率、爬升角變化率以及航跡方位角變化率;nt,nn,μ為飛行器的控制量,其中nt為沿速度方向的切向過(guò)載,控制飛行器的加減速;nn為沿飛行器升力方向的法向過(guò)載,控制升力方向上的運(yùn)動(dòng);μ為航跡傾斜角;g為重力加速度。
式中:L,分別為升力和阻力;T為發(fā)動(dòng)機(jī)推力;m為飛機(jī)質(zhì)量;α為飛行器迎角。
在導(dǎo)彈飛機(jī)追逃模型中,受飛機(jī)升力、阻力和推力的限制,飛機(jī)切向過(guò)載ntt∈[-2,1],法向過(guò)載nnt∈[-4,8],航跡傾斜角μt∈[-π,π]。(下標(biāo)t,m分別表示飛機(jī)(目標(biāo))和導(dǎo)彈。)
導(dǎo)彈飛機(jī)相對(duì)運(yùn)動(dòng)示意圖如圖1所示,[xm,ym,zm]T,[xt,yt,zt]T分別表示導(dǎo)彈和飛機(jī)在地軸系的位置矢量,D表示導(dǎo)彈相對(duì)飛機(jī)的位移,也稱為瞄準(zhǔn)線。
圖1 導(dǎo)彈飛機(jī)相對(duì)運(yùn)動(dòng)模型Fig.1 Missile-aircraft engagement geometry model
導(dǎo)彈與飛機(jī)的距離:
Vm,Vt分別為導(dǎo)彈和飛機(jī)速度矢量,導(dǎo)彈相對(duì)飛機(jī)速度:
瞄準(zhǔn)線變化率(導(dǎo)彈和飛機(jī)遠(yuǎn)離為正)為
瞄準(zhǔn)線角速度矢量:
瞄準(zhǔn)線角速度大?。?/p>
圖2 飛機(jī)前置角和導(dǎo)彈進(jìn)入角Fig.2 The aircraft bearing angle and the missile aspect angle
瞄準(zhǔn)線方位角可表示為
水平面內(nèi)飛機(jī)前置角(飛機(jī)速度與瞄準(zhǔn)線之間的夾角):
式中:χt為飛機(jī)航跡方位角。
水平面內(nèi)導(dǎo)彈進(jìn)入角(導(dǎo)彈速度方向與瞄準(zhǔn)線之間的夾角):
式中:χm為導(dǎo)彈航跡方位角。
空空導(dǎo)彈采用比例導(dǎo)引律,比例系數(shù)為
式中:Vm為導(dǎo)彈飛行速度大??;C為常數(shù)。
當(dāng)瞄準(zhǔn)線距離小于導(dǎo)彈殺傷半徑或小于1.5倍距離變化率與時(shí)間步長(zhǎng)的乘積時(shí),判定導(dǎo)彈命中飛機(jī)。
式中:kr為導(dǎo)彈殺傷半徑;Δt為仿真時(shí)間步長(zhǎng);∨為數(shù)學(xué)符號(hào)“或”。
本文忽略導(dǎo)彈和飛機(jī)的探測(cè)傳感器以及電子對(duì)抗模型,只從運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的角度考慮導(dǎo)彈失效條件,當(dāng)且僅當(dāng)導(dǎo)彈遠(yuǎn)離目標(biāo)(D˙>0)時(shí),導(dǎo)彈失效。
強(qiáng)化學(xué)習(xí)是智能體通過(guò)試錯(cuò)的機(jī)制和環(huán)境交互,目標(biāo)是找到一個(gè)最優(yōu)策略使得從環(huán)境中得到最大化的總獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)可以被建模成一個(gè)馬爾科夫過(guò)程(S,A,P,R),其中S表示狀態(tài)集合,A表示動(dòng)作集合,P表示狀態(tài)遷移模型,R表示獎(jiǎng)勵(lì)函數(shù)。在時(shí)間步長(zhǎng)t內(nèi),智能體處于st∈S狀態(tài),根據(jù)策略π采取動(dòng)作at∈A,收到獎(jiǎng)勵(lì)rt。環(huán)境響應(yīng)動(dòng)作at,并向智能體呈現(xiàn)新的狀態(tài)st+1∈S。時(shí)間步 長(zhǎng)t的 總 獎(jiǎng) 勵(lì) 為其 中γ∈[0,1]為折扣率。智能體的目的是學(xué)習(xí)到一個(gè)能最大化期望獎(jiǎng)勵(lì)的策略[23]。
策略π下?tīng)顟B(tài)st采取動(dòng)作at的期望動(dòng)作值函數(shù):
利用貝爾曼方程遞歸迭代更新估計(jì)動(dòng)作值函數(shù)Q,直到找到最優(yōu)策略。動(dòng)作值函數(shù)使用貝爾曼方程估計(jì)[23]:
DDPG算法是一種不依賴模型的基于actorcritic架構(gòu)的深度強(qiáng)化學(xué)習(xí)算法,由策略網(wǎng)絡(luò)和動(dòng)作值網(wǎng)絡(luò)構(gòu)成。其中,確定性策略μ(st|θμ)由參數(shù)為θμ的神經(jīng)網(wǎng)絡(luò)表示,動(dòng)作值函數(shù)Q(st,at|θQ)由參數(shù)為θQ的神經(jīng)網(wǎng)絡(luò)表示[17,24]。
critic網(wǎng)絡(luò)的輸出標(biāo)簽由貝爾曼方程估計(jì)得到,用yt表示:
critic網(wǎng)絡(luò)的損失:
critic網(wǎng)絡(luò)根據(jù)式(18)使用反向傳播方法,對(duì)參數(shù)θQ進(jìn)行優(yōu)化。
actor網(wǎng)絡(luò)使用策略梯度優(yōu)化,策略梯度指預(yù)期收益函數(shù)J對(duì)策略函數(shù)參數(shù)θμ的梯度[17]
式中:ρμ為確定性策略的狀態(tài)分布。
D.Silver等[25]證 明 了 若 ?θμμ(st|θμ)和?a Q(st,at|θQ)存在,則確定性策略梯度?θμJ存在。
DDPG借鑒深度Q網(wǎng)絡(luò)(Deep Q Network)的經(jīng)驗(yàn)池技術(shù),把每一步的經(jīng)驗(yàn)e=(st,at,rt,st+1)存儲(chǔ)在經(jīng)驗(yàn)池D={e1,e2,...em}中。由于在計(jì)算critic網(wǎng)絡(luò)的損失函數(shù)時(shí),yt依賴于Q網(wǎng)絡(luò),而Q網(wǎng)絡(luò)同時(shí)也在訓(xùn)練,會(huì)造成訓(xùn)練過(guò)程不穩(wěn)定。因此,在actor和critic中分別建立目標(biāo)網(wǎng)絡(luò)對(duì)當(dāng)前動(dòng)作進(jìn)行估計(jì)。目標(biāo)網(wǎng)絡(luò)延遲更新,訓(xùn)練更穩(wěn)定,收斂性更好。
不同于監(jiān)督學(xué)習(xí)可以使用標(biāo)簽,強(qiáng)化學(xué)習(xí)必須通過(guò)嘗試去發(fā)現(xiàn)采取何種策略才能獲取最大的獎(jiǎng)勵(lì),因此稀疏獎(jiǎng)勵(lì)問(wèn)題是深度強(qiáng)化學(xué)習(xí)應(yīng)用于實(shí)際的核心問(wèn)題。稀疏獎(jiǎng)勵(lì)在強(qiáng)化學(xué)習(xí)任務(wù)中廣泛存在。智能體只有在完成任務(wù)時(shí),才能獲得獎(jiǎng)勵(lì),中間過(guò)程無(wú)法獲得獎(jiǎng)勵(lì)[26]。
本文增加人為設(shè)計(jì)的“密集”獎(jiǎng)勵(lì),也被稱為成型獎(jiǎng)勵(lì)。在智能體完成任務(wù)的過(guò)程中,通過(guò)成型獎(jiǎng)勵(lì)引導(dǎo)飛機(jī)成功規(guī)避導(dǎo)彈。
在智能體未得到最終結(jié)果之前,成型獎(jiǎng)勵(lì)可以評(píng)價(jià)智能體的策略。因此成型獎(jiǎng)勵(lì)的設(shè)計(jì)要準(zhǔn)確,否則將導(dǎo)致策略函數(shù)收斂到局部最優(yōu)。越復(fù)雜的強(qiáng)化學(xué)習(xí)問(wèn)題,影響?yīng)剟?lì)的因素越多,成型獎(jiǎng)勵(lì)設(shè)計(jì)的難度越大。
本文利用導(dǎo)彈飛機(jī)相對(duì)態(tài)勢(shì)參數(shù)設(shè)計(jì)成型獎(jiǎng)勵(lì)(式(20)),引導(dǎo)飛機(jī)規(guī)避導(dǎo)彈,加快算法的收斂速度。
式中:D0為導(dǎo)彈與飛機(jī)初始距離;為瞄準(zhǔn)線變化 率 絕 對(duì) 值 的 最 大 值;Ci,i=1,2,…,6分 別 為 各 分 項(xiàng) 獎(jiǎng)勵(lì)在總獎(jiǎng)勵(lì)中的權(quán)重系數(shù);r d為導(dǎo)彈與飛機(jī)距離獎(jiǎng)勵(lì),為導(dǎo)彈與飛機(jī)距離變化率獎(jiǎng)勵(lì),(r d和描述了飛機(jī)導(dǎo)彈的距離態(tài)勢(shì));rλ為飛機(jī)前置角獎(jiǎng)勵(lì),r q為導(dǎo)彈進(jìn)入角獎(jiǎng)勵(lì),(rλ和r q描述了飛機(jī)導(dǎo)彈的角度態(tài)勢(shì));r Ma為飛機(jī)飛行馬赫數(shù)獎(jiǎng)勵(lì),其目的是防止飛機(jī)失速;r h為飛機(jī)飛行高度獎(jiǎng)勵(lì),其目的是防止飛機(jī)撞地。
本文方法對(duì)局部成組偏好的處理方式是剛性的,若采用柔性方式處理,則有2種可能的方案:①在DSM和耦合矩陣中的特定構(gòu)件對(duì)之間分別增加權(quán)重值和相似度值,其缺點(diǎn)是容易導(dǎo)致算法的病態(tài)收斂問(wèn)題[8];②將特定的模塊化驅(qū)動(dòng)因素、構(gòu)件及其之間的映射關(guān)系從DPM/MIM中抽取出來(lái)單獨(dú)放入新矩陣,并將新矩陣的聚類準(zhǔn)則作為多目標(biāo)優(yōu)化算法的額外優(yōu)化目標(biāo)。該方案使得多目標(biāo)優(yōu)化問(wèn)題變?yōu)楦呔S多目標(biāo)優(yōu)化問(wèn)題,其缺點(diǎn)是大大增加了算法計(jì)算負(fù)擔(dān),且優(yōu)化質(zhì)量下降。
稀疏獎(jiǎng)勵(lì)存在于絕大部分強(qiáng)化學(xué)習(xí)問(wèn)題中,即任務(wù)完成后的獎(jiǎng)勵(lì)。飛機(jī)規(guī)避導(dǎo)彈問(wèn)題的稀疏獎(jiǎng)勵(lì)是導(dǎo)彈飛機(jī)的交戰(zhàn)結(jié)果,表示為
式中:γt∈[0,1]為折扣系數(shù);tm為交戰(zhàn)結(jié)果產(chǎn)生的時(shí)刻,即終局時(shí)刻;t∈[0,tm]為當(dāng)前時(shí)刻;missed表示飛機(jī)規(guī)避成功;hit則表示導(dǎo)彈成功命中飛機(jī);C7為成功規(guī)避獎(jiǎng)勵(lì)的權(quán)重系數(shù)。
結(jié)合式(20)~式(21),可得到總獎(jiǎng)勵(lì)表達(dá)式:
式(20)和(21)中各獎(jiǎng)勵(lì)權(quán)重系數(shù)Ci,i=1,2,…,7需要結(jié)合獎(jiǎng)勵(lì)參數(shù)的取值范圍確定。
首先選取的是C7的值,因?yàn)楦鶕?jù)式(21),規(guī)避成功獎(jiǎng)勵(lì)為C7·1,被擊中或墜毀的獎(jiǎng)勵(lì)為0。本文選取C7=40,即成功逃逸后的獎(jiǎng)勵(lì)為40。根據(jù)C7=40綜合考慮式(20)各個(gè)獎(jiǎng)勵(lì)的取值范圍,Ci,i=1,2,…,6的值如表1所示。
表1 獎(jiǎng)勵(lì)系數(shù)值Table 1 The values of reward coefficients
把飛機(jī)規(guī)避導(dǎo)彈問(wèn)題建模為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,飛機(jī)與導(dǎo)彈在時(shí)刻t的運(yùn)動(dòng)參數(shù)和相對(duì)態(tài)勢(shì)為強(qiáng)化學(xué)習(xí)的狀態(tài)st,飛機(jī)t時(shí)刻的控制指令為強(qiáng)化學(xué)習(xí)的動(dòng)作at,導(dǎo)彈飛機(jī)的追逃模型是強(qiáng)化學(xué)習(xí)的環(huán)境。
基于DDPG強(qiáng)化學(xué)習(xí)方法、導(dǎo)彈飛機(jī)追逃模型及飛機(jī)規(guī)避導(dǎo)彈的獎(jiǎng)勵(lì)設(shè)計(jì),可建立飛機(jī)規(guī)避導(dǎo)彈訓(xùn)練系統(tǒng),如圖3所示。
圖3 基于DDPG的飛機(jī)規(guī)避導(dǎo)彈訓(xùn)練系統(tǒng)Fig.3 The missile evasion training system based on the DDPG
基于DDPG的飛機(jī)規(guī)避導(dǎo)彈訓(xùn)練系統(tǒng)的狀態(tài)st共8個(gè),如表2所示。動(dòng)作at共3個(gè),如表3所示。
表2和表3中的狀態(tài)st和動(dòng)作at分別為actor網(wǎng)絡(luò)的輸入和輸出。輸入和輸出的量都在-1到1之間,輸入輸出根據(jù)各自取值范圍進(jìn)行歸一化和反歸一化。
表2 飛機(jī)規(guī)避導(dǎo)彈訓(xùn)練系統(tǒng)的狀態(tài)Table 2 T he states of the missile evasion training system
表3 飛機(jī)規(guī)避導(dǎo)彈訓(xùn)練系統(tǒng)的動(dòng)作Table 3 The actions of the missile evasion training system
基于DDPG的智能體只依賴飛機(jī)規(guī)避導(dǎo)彈環(huán)境產(chǎn)生并存儲(chǔ)在經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)據(jù)和式(22)的獎(jiǎng)勵(lì)設(shè)計(jì),在沒(méi)有其他先驗(yàn)知識(shí)的情況下,通過(guò)訓(xùn)練找到行之有效的逃逸機(jī)動(dòng)策略。
空空導(dǎo)彈攻擊區(qū)是指空空導(dǎo)彈發(fā)射時(shí)刻能夠命中目標(biāo)的空間區(qū)域。導(dǎo)彈攻擊區(qū)與許多因素有關(guān),包括導(dǎo)彈和飛機(jī)的初始速度和高度、導(dǎo)彈離軸發(fā)射角、目標(biāo)進(jìn)入角、導(dǎo)彈制導(dǎo)律和目標(biāo)機(jī)動(dòng)方式等。它不僅是衡量空空導(dǎo)彈攻擊能力的指標(biāo),也是衡量目標(biāo)飛機(jī)逃逸機(jī)動(dòng)策略有效性的指標(biāo)。在其他影響因素相同的前提下,飛機(jī)逃逸機(jī)動(dòng)對(duì)應(yīng)的導(dǎo)彈攻擊區(qū)越小表明飛機(jī)逃逸機(jī)動(dòng)越有效。
考慮到超視距空戰(zhàn)場(chǎng)景中,導(dǎo)彈迎面發(fā)射對(duì)目標(biāo)飛機(jī)的威脅最大,因此本文將攻擊區(qū)的范圍限制在飛機(jī)前置角-30°~30°的范圍內(nèi),本文使用如圖4所示的攻擊區(qū)作為逃逸機(jī)動(dòng)策略的評(píng)價(jià)標(biāo)準(zhǔn)。
圖4 飛機(jī)前置角-30°~30°攻擊區(qū)Fig.4 The attack zone of aircraft bearing angle ranging from-30°to 30°
智能體訓(xùn)練的初始場(chǎng)景配置如下:飛機(jī)位置不變,始終在原點(diǎn),航向正北。導(dǎo)彈初始位置在以飛機(jī)為圓心,半徑20~40 km,飛機(jī)前置角-30°~30°的閉合范圍內(nèi)(圖4閉合線部分),導(dǎo)彈的航向始終指向飛機(jī)??紤]導(dǎo)彈從載機(jī)發(fā)射,導(dǎo)彈初始高度和馬赫數(shù)取決于載機(jī)的高度和馬赫數(shù)。因此本文設(shè)置飛機(jī)導(dǎo)彈的初始高度都為8 000 m,初始馬赫數(shù)都為0.9。導(dǎo)彈發(fā)射后會(huì)急劇加速,導(dǎo)彈馬赫數(shù)隨飛行時(shí)間變化如圖5所示,最大馬赫數(shù)大于5.0。
圖5 導(dǎo)彈飛行馬赫數(shù)隨時(shí)間變化Fig.5 The missile Mach number changes with time
總共訓(xùn)練約70萬(wàn)次,仿真共生成2.3億組經(jīng)驗(yàn)(e=(st,at,rt,st+1))數(shù)據(jù)。
訓(xùn)練過(guò)程與結(jié)果如圖6所示,x形符號(hào)表示飛機(jī)以非正常飛行狀態(tài)(失速或撞地)結(jié)束仿真,圓形符號(hào)表示飛機(jī)被導(dǎo)彈擊中,三角符號(hào)表示飛機(jī)成功規(guī)避導(dǎo)彈。
圖6 訓(xùn)練過(guò)程與結(jié)果Fig.6 Training process and results
從圖6(a)可以看出:在前1 000代訓(xùn)練中,飛機(jī)失速或撞地占52.6%,被導(dǎo)彈擊中占47.3%,飛機(jī)只成功規(guī)避一次導(dǎo)彈。此時(shí)智能體尚未學(xué)會(huì)控制飛機(jī)正常飛行,更無(wú)法規(guī)避導(dǎo)彈。
第2 000代~3 000代的訓(xùn)練結(jié)果如圖6(b)所示,可以看出:飛機(jī)失速或撞地占15.5%,被導(dǎo)彈擊中次數(shù)占70.9%,飛機(jī)成功規(guī)避導(dǎo)彈占13.6%。此時(shí)智能體已能逐漸控制飛機(jī)飛行,然而還未能有效規(guī)避導(dǎo)彈。
最后1 000代的訓(xùn)練結(jié)果如圖6(c)所示,可以看出:飛機(jī)失速或撞地只占總數(shù)的2.7%,被導(dǎo)彈擊中占37.0%,飛機(jī)成功規(guī)避導(dǎo)彈占總數(shù)的60.3%。此時(shí)智能體已自主學(xué)習(xí)到一種飛機(jī)規(guī)避導(dǎo)彈策略,能在約25 km外規(guī)避導(dǎo)彈。
智能體學(xué)習(xí)到的逃逸機(jī)動(dòng)策略如圖7所示,實(shí)線為飛機(jī),虛線為導(dǎo)彈。圖7(a)是逃逸機(jī)動(dòng)的三維軌跡圖,圖7(b)和圖7(c)是以地軸系x坐標(biāo)為橫坐標(biāo),地軸系y坐標(biāo)和高度h分別為縱坐標(biāo)的飛機(jī)導(dǎo)彈飛行軌跡圖。三角形表示起點(diǎn),實(shí)心圓表示終點(diǎn)。圖7(b)中y軸正方向向下。
圖7 基于DDPG算法的逃逸機(jī)動(dòng)策略Fig.7 The evasive maneuver strategy based on the DDPG algorithm
從圖7可以看出:智能體實(shí)現(xiàn)的逃逸機(jī)動(dòng)策略為導(dǎo)彈發(fā)射后,飛機(jī)急劇轉(zhuǎn)彎,盡快把導(dǎo)彈置于尾后,轉(zhuǎn)彎的同時(shí)降低高度直至5 000 m左右,最后拉起飛機(jī)成功規(guī)避導(dǎo)彈。
參考文獻(xiàn)[4-5,7,27]對(duì)飛機(jī)規(guī)避導(dǎo)彈問(wèn)題的研究,總結(jié)出四種典型的依賴導(dǎo)彈規(guī)避先驗(yàn)知識(shí)的逃逸機(jī)動(dòng)策略。
(1)定直平飛:逃逸飛機(jī)保持初始高度、速度和航向飛行。
(2)蛇形機(jī)動(dòng):逃逸飛機(jī)航跡方位角χ在一定幅值范圍內(nèi)連續(xù)周期性變化。
(3)水平置尾機(jī)動(dòng):逃逸飛機(jī)以最大穩(wěn)定盤旋角速度轉(zhuǎn)彎至置尾(飛機(jī)與導(dǎo)彈航向偏差小于5°),然后以加力狀態(tài)平飛逃逸。
(4)置尾下降機(jī)動(dòng):逃逸飛機(jī)以大于90°滾轉(zhuǎn)角邊轉(zhuǎn)彎邊下降直至飛機(jī)與導(dǎo)彈航向偏差小于5°,后改出下降在低空以加力狀態(tài)平飛逃逸。
典型逃逸機(jī)動(dòng)策略如圖8所示。
圖8 典型逃逸機(jī)動(dòng)策略Fig.8 The classic evasive maneuver strategies
與智能體訓(xùn)練導(dǎo)彈規(guī)避的初始條件相同,各個(gè)典型逃逸機(jī)動(dòng)的攻擊區(qū),如圖9所示。
圖9 典型機(jī)動(dòng)策略下的攻擊區(qū)Fig.9 The attack zones of classic maneuver strategies
結(jié)合圖6(c)和圖9得到典型機(jī)動(dòng)策略和智能體自主學(xué)習(xí)的逃逸機(jī)動(dòng)策略的攻擊區(qū)對(duì)比圖,如圖10所示。
圖10 所有逃逸機(jī)動(dòng)策略攻擊區(qū)對(duì)比圖Fig.10 The attack zones of all evasive maneuver strategies
從圖10可以看出:所有逃逸機(jī)動(dòng)策略的攻擊區(qū)從大到小依次為:平飛機(jī)動(dòng)>蛇形機(jī)動(dòng)>水平置尾機(jī)動(dòng)≈智能體實(shí)現(xiàn)的逃逸機(jī)動(dòng)>置尾下降機(jī)動(dòng)。
綜上所述,利用深度確定性策略算法實(shí)現(xiàn)的逃逸機(jī)動(dòng),在沒(méi)有任何飛機(jī)規(guī)避導(dǎo)彈先驗(yàn)知識(shí)的情況下,攻擊區(qū)優(yōu)于蛇形機(jī)動(dòng),與水平置尾機(jī)動(dòng)持平,稍劣于置尾下降機(jī)動(dòng)。
(1)本文所構(gòu)建的基于DDPG算法的導(dǎo)彈規(guī)避訓(xùn)練系統(tǒng)表明,智能體在不依賴導(dǎo)彈規(guī)避先驗(yàn)知識(shí)、僅憑借仿真數(shù)據(jù)和獎(jiǎng)勵(lì)的情況下,最終能夠自主學(xué)習(xí)到一種有效的逃逸機(jī)動(dòng)策略。
(2)通過(guò)與四種典型逃逸機(jī)動(dòng)策略的攻擊區(qū)相比,智能體逃逸機(jī)動(dòng)攻擊區(qū)僅次于置尾下降攻擊區(qū),但智能體實(shí)現(xiàn)的逃逸機(jī)動(dòng)策略對(duì)導(dǎo)彈規(guī)避的先驗(yàn)知識(shí)需求最少。