高樹一,林德福,鄭多,*,胡馨予
1.北京理工大學(xué) 宇航學(xué)院,北京 100081
2.北京理工大學(xué) 徐特立學(xué)院,北京 100081
隨著現(xiàn)代作戰(zhàn)理念向體系轉(zhuǎn)變,單體武器裝備發(fā)揮的作戰(zhàn)效能正變得愈加有限,未來智能化戰(zhàn)爭將是多智能體間的協(xié)同作戰(zhàn),群體間的博弈對抗將貫穿戰(zhàn)爭始末。針對復(fù)雜作戰(zhàn)環(huán)境中的集群目標(biāo)攔截問題,需要考慮集群目標(biāo)可能的突防手段,研究立體化多層次的智能協(xié)同攔截策略,以提升攔截成功率和任務(wù)效能。
集群目標(biāo)的協(xié)同攔截可以分為2個子問題:一是多目標(biāo)攔截的目標(biāo)分配問題;二是攔截方集群協(xié)同打擊問題。針對以上2個問題,國內(nèi)外相關(guān)研究人員已開展了一定的研究工作。多目標(biāo)攔截的目標(biāo)分配問題屬于任務(wù)分配問題,文獻[1]利用脫靶距離和視線角速率構(gòu)造了適合于多對多作戰(zhàn)的攔截概率函數(shù),提出了一種具有固定和自適應(yīng)分組約束的任務(wù)分配方法,簡化分配過程進而提升了作戰(zhàn)效能。文獻[2]通過攻防雙方作戰(zhàn)態(tài)勢設(shè)計評估模型,進而結(jié)合強化學(xué)習(xí)算法提出了一種智能任務(wù)分配方法,合理的評估模型搭配強化學(xué)習(xí)智能算法不僅簡化了分配問題,同時賦予分配算法智能屬性。文獻[3]提出了一種協(xié)作的滾動優(yōu)化控制器,所提出的控制器通過在規(guī)劃范圍內(nèi)估計可收集的獎勵來順序地解決優(yōu)化問題,并對行動范圍執(zhí)行控制,從而實現(xiàn)攔截任務(wù)分配。文獻[4]提出了一種預(yù)測規(guī)劃攔截的方法,該方法允許在檢測到目標(biāo)軌跡變化時重新規(guī)劃攔截路徑,可以高效的解決協(xié)同攔截問題。文獻[5]提出了一種基于動態(tài)態(tài)勢評估的多目標(biāo)任務(wù)分配方法,該方法綜合考慮攔截集群的協(xié)作能力,并采用遺傳算法對攔截目標(biāo)分配策略進行優(yōu)化,通過仿真驗證了算法的有效性。文獻[6]結(jié)合路徑長度成本以及集群機動成本提出了一種目標(biāo)分配方案,并通過創(chuàng)建Delaunay加權(quán)樹并在樹中搜索最優(yōu)路徑,實現(xiàn)了基于航路點的作戰(zhàn)路徑規(guī)劃,該文獻將目標(biāo)分配問題表述為基于多約束問題的路徑搜索問題,進而優(yōu)化目標(biāo)分配策略。上述文獻在群目標(biāo)任務(wù)分配方面具有較好的實踐意義,在協(xié)同攔截作戰(zhàn)中預(yù)先制定的目標(biāo)分配策略雖然能夠簡化攔截問題,但是所消耗的時間于戰(zhàn)爭是不利的,未來戰(zhàn)場迫切需要將分配方法融合在協(xié)同打擊中,進而提高作戰(zhàn)效率。
在協(xié)同攔截機動策略方面,目前開展的研究主要包括打擊時間協(xié)同、角度約束協(xié)同和智能協(xié)同3種攔截方式。關(guān)于基于打擊時間協(xié)同的集群攔截策略,國內(nèi)外相關(guān)學(xué)者進行了大量的研究。文獻[7]通過分析多飛行器指定時間和預(yù)估飛行時間的誤差作為反饋,提出了系數(shù)隨時間變化的多飛行器協(xié)同攔截方法,該方法具有一定的自適應(yīng)性,能夠結(jié)合制導(dǎo)控制的不同階段實時調(diào)整系數(shù),進而提升攔截精度。文獻[8]基于協(xié)同控制理論,設(shè)計了一種結(jié)合空間協(xié)同和時間協(xié)同的攔截制導(dǎo)律模型,實現(xiàn)多飛行器間視線角在規(guī)定時間內(nèi)收斂到期望值,該方法綜合考慮時間空間約束,在此基礎(chǔ)上設(shè)計相應(yīng)的策略模型。文獻[9]基于超螺旋控制方法提出了攻擊時間控制協(xié)同攔截制導(dǎo)方法,該方法基于滑膜控制設(shè)計攔截策略,在考慮攻擊時間約束的前提下提升制導(dǎo)精度,具有較強的工程實用性。文獻[10]提出了一種能夠依據(jù)當(dāng)前作戰(zhàn)態(tài)勢實時調(diào)節(jié)攻擊時間的協(xié)同攔截策略,并且通過仿真實驗驗證了算法有效性。有關(guān)時間協(xié)同的方法是協(xié)同作戰(zhàn)的研究重點,但區(qū)別于不同的戰(zhàn)場情況,與角度有關(guān)的協(xié)同方法有時更為重要。關(guān)于基于角度約束協(xié)同的集群攔截策略,相關(guān)研究人員開展了一定的研究。文獻[11]基于最優(yōu)控制的方法設(shè)計了帶有角度約束的協(xié)同制導(dǎo)策略,通過為飛行器預(yù)先設(shè)定攔截角度進而控制集群以指定的角度構(gòu)型攔截目標(biāo),該方法綜合考慮角度約束和制導(dǎo)精度,具有一定的工程實用性。文獻[12]將前置角和彈目距離綜合考慮,設(shè)計出一種領(lǐng)從式協(xié)同攔截方法,該方法依據(jù)前置角變化設(shè)計制導(dǎo)率,同時融合領(lǐng)從式協(xié)同策略,對攔截效能有較為積極的作用。文獻[13]在考慮落角約束的基礎(chǔ)上設(shè)計了自適應(yīng)的協(xié)同攔截制導(dǎo)方法,該方法能夠結(jié)合作戰(zhàn)場景的變化調(diào)節(jié)協(xié)同制導(dǎo)策略,進而實現(xiàn)飽和攻擊。文獻[14]提出了一種將視線角速率與二階滑模技術(shù)相結(jié)合的角度約束協(xié)同制導(dǎo)方法,具有較強的工程實用性。文獻[15]基于非奇異終端滑??刂评碚撛O(shè)計出一種能夠以期望撞擊角攔截機動目標(biāo)的協(xié)同制導(dǎo)方法,該方法作為滑膜控制的變體,較好的適用于協(xié)同作戰(zhàn)中,具有良好的工程實用性。文獻[16]研究了具有無向通信拓撲結(jié)構(gòu)的協(xié)同制導(dǎo)問題,提出了一種分布式協(xié)同制導(dǎo)策略,以實現(xiàn)具有碰撞角約束的協(xié)同打擊。文獻[17]基于非線性問題轉(zhuǎn)化為線性二次微分的方法,提出了一種考慮碰撞角和時間約束的次優(yōu)制導(dǎo)方法,仿真結(jié)果表明該方法適用于導(dǎo)彈齊射發(fā)射作戰(zhàn)場景。上述角度協(xié)同方法考慮落角約束、視線角約束等限制,對制導(dǎo)控制方法進行了理論推導(dǎo)。綜合分析時間和角度協(xié)同2種方法,由于復(fù)雜戰(zhàn)場中狀態(tài)空間維數(shù)的上升,傳統(tǒng)的基于最優(yōu)控制、非線性控制等的制導(dǎo)方法將難以適應(yīng)。
近年來人工智能技術(shù)發(fā)展迅速,部分學(xué)者針對基于智能算法的協(xié)同攔截策略設(shè)計問題展開相關(guān)研究。文獻[18]將飛行器對抗任務(wù)離散化后,提出了一種能夠應(yīng)對復(fù)雜環(huán)境的智能對抗策略,該方法采用分層強化學(xué)習(xí)的方法,有效的提升了模型訓(xùn)練的收斂速度,解決了群體對抗中的稀疏獎勵問題。文獻[19]基于多智能體強化學(xué)習(xí)理論設(shè)計了一種多飛行器攻防對抗自主決策算法,在無人飛行器集群協(xié)同對抗環(huán)境中進行了仿真驗證。文獻[20]利用粒子群算法,基于協(xié)同博弈理論求解了多飛行器博弈過程的納什均衡,該方法在不使用任何線性化近似的情況下,使問題的基本收益最大化,從而顯著提升導(dǎo)彈性能。文獻[21]基于強化學(xué)習(xí)算法提出了一種適應(yīng)于多智能體博弈的狼群優(yōu)化算法,該方法中學(xué)習(xí)率可以根據(jù)環(huán)境變化自主調(diào)整,通過仿真實驗表明狼群優(yōu)化算法在多智能體隨機博弈中的合理性。文獻[22]基于啟發(fā)式蟻群算法提出了一種多飛行器的協(xié)同攔截過程中的路徑規(guī)劃方法,該算法通過求解友機對目標(biāo)的最優(yōu)分配來確定機動策略,仿真實驗表明該方法優(yōu)于普通的蟻群算法,是一種適用于協(xié)同作戰(zhàn)的高效算法。文獻[23]基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法設(shè)計了一種飛行器的制導(dǎo)控制一體化方法,該方法綜合考慮飛行器的運動學(xué)和動力學(xué)特性,將強化學(xué)習(xí)算法與制導(dǎo)控制原理相結(jié)合,提升機動策略的作戰(zhàn)效能。文獻[24]結(jié)合協(xié)同進化算法和模型預(yù)測控制方法設(shè)計了一種飛行器軌跡規(guī)劃方法,該方法用于處理飛行器編隊控制問題,相比于傳統(tǒng)的模型預(yù)測控制方法提升了算法漸進穩(wěn)定性。文獻[25]研究了一種基于障礙維數(shù)的連續(xù)粒子群優(yōu)化算法來優(yōu)化攔截入侵者的防御路徑,相比于傳統(tǒng)的粒子群算法,該方法更適應(yīng)于攔截作戰(zhàn)中狀態(tài)空間維數(shù)大的仿真場景。文獻[26]采用深度確定性策略梯度算法建立了飛行器模型,并利用多飛行器的協(xié)同參數(shù)構(gòu)造獎勵函數(shù),從而引導(dǎo)飛行器進行協(xié)同作戰(zhàn)。
隨著來襲飛行器性能和突防策略的多元化發(fā)展,未來戰(zhàn)場中飛行器間的攻防對抗將以集群博弈的方式出現(xiàn)?,F(xiàn)有的協(xié)同攔截方法雖然具備一定的攔截能力,但較難適用于動態(tài)博弈條件下的群目標(biāo)攔截任務(wù)。因此將智能理論與攔截策略相結(jié)合賦予攔截器協(xié)同博弈能力是未來打贏高對抗戰(zhàn)爭的迫切需求。
本文面向未來集群目標(biāo)協(xié)同攔截的任務(wù)需求,基于強化學(xué)習(xí)原理研究提出了一種多飛行器攔截博弈對抗策略自學(xué)習(xí)智能方法。針對傳統(tǒng)方法中難以應(yīng)對高維連續(xù)狀態(tài)動作空間的問題,將傳統(tǒng)的多智能體強化學(xué)習(xí)方法與近端策略優(yōu)化思想相結(jié)合,采用集中式評判-分布式執(zhí)行的算法架構(gòu),提出了一種適用于飛行器集群目標(biāo)攔截作戰(zhàn)環(huán)境的智能對抗算法。研究提出的智能攔截博弈對抗算法具有以下優(yōu)勢:
1)將近端策略優(yōu)化方法融入到多智能體環(huán)境中,有效解決了強化學(xué)習(xí)訓(xùn)練中步長難以確定的問題。
2)基于集中-分布式算法框架,將廣義優(yōu)勢函數(shù)結(jié)合到價值函數(shù)設(shè)計中,引入梯度更新限幅機制,一定程度上提升了算法的收斂性。
3)將攔截目標(biāo)分配過程與協(xié)同攔截策略一體化設(shè)計,研究提出了具有自主進化能力的多目標(biāo)智能協(xié)同攔截策略,提高群目標(biāo)攔截效能。
在飛行器攔截博弈對抗中,對抗雙方可分別描述為進攻飛行器群體與攔截飛行器群體。進攻飛行器群體需要打擊高價值目標(biāo)區(qū)域,飛行方向指向目標(biāo)區(qū)域位置,并保證一定的精度。防御飛行器群體則需要實現(xiàn)對高價值目標(biāo)區(qū)域的防御,攔截進攻飛行器。本文重點研究攻防雙方對抗過程中防御方集群的協(xié)同攔截策略,提升防御方集群博弈對抗能力,立足于集群作戰(zhàn)中的多目標(biāo)協(xié)同攔截,從而實現(xiàn)防御方集群對進攻方集群飛行器的飽和攻擊,進而實現(xiàn)對高價值目標(biāo)區(qū)域的防御作戰(zhàn)目的。飛行器在飛行過程中通過機載設(shè)備,可以感知作戰(zhàn)信息。在博弈對抗中,防御飛行器相對于入侵飛行器的態(tài)勢關(guān)系主要從博弈雙方關(guān)于相對運動關(guān)系的態(tài)勢進行描述,作戰(zhàn)博弈對抗必須同時滿足位置要求和角度要求。如圖1所示,環(huán)境中包括目標(biāo)區(qū)域、進攻飛行器、防御飛行器,其中,(xi,yi)|i=1,2,…n為飛行器的位置坐標(biāo)。
圖1 多飛行器攔截博弈問題Fig.1 Multi-aircraft interception game problem
本文以某固定翼飛行器為研究對象,考慮一個二維平面協(xié)同攔截場景,如圖2所示。其中,下標(biāo)M和T分別表示防御方飛行器和進攻方飛行器;x,y為二維空間中飛行器的位置坐標(biāo);q和r分別表示飛行器間的視線角和相對距離;γ為飛行器速度方向與x軸的夾角,即航向角;V和a分別表示飛行器的速度大小和側(cè)向加速度大小。
圖2 二維平面協(xié)同攔截場景Fig.2 2D plane collaborative interception scenario
某單體飛行器的二維空間運動學(xué)模型可以簡化描述為
執(zhí)行攔截任務(wù)過程中,描述攻防雙方飛行器的相對運動關(guān)系方程可以表示為
式中:r為二維空間中飛行器之間的距離;q為飛行器之間的視線角大??;VT為進攻飛行器的速度大?。籚M為進攻飛行器的速度大?。沪肨為進攻飛行器的速度航向角;γM為攔截飛行器的速度航向角;定義沿著視線和垂直視線方向的相對速度分別為Vr=˙,Vq=˙。
對Vr和Vq求導(dǎo)可得
式 中:aTr=aTsin(q-γT),aTq=aTcos(q-γT)為進攻方飛行器沿視線方向和垂直于視線方向的 加 速 度 ;aMr=aMsin(q-γM),aMq=aMcos(q-γM)為防御方飛行器沿著視線和垂直于視線方向的加速度。
飛行器速度航向角和過載之間存在著以下關(guān)系:
式中:nM為防御飛行器的法向過載指令;nT是進攻飛行器的法向過載指令;g為重力加速度。
本文考慮了實際飛行中飛行器能力限制,設(shè)定飛行器的最大飛行速度Vmax和過載的范圍限制,攻防雙方飛行器最大速度為Vmax=45 m/s,最大過載為nmax=1。
針對群體目標(biāo)智能化攔截問題,本節(jié)基于多智能體深度強化學(xué)習(xí)算法提出了一種多飛行器群體攔截博弈對抗的智能決策方法,通過感知到的作戰(zhàn)環(huán)境和敵我態(tài)勢信息,自主學(xué)習(xí)攔截策略,體現(xiàn)智能系統(tǒng)的自學(xué)習(xí)和自進化屬性。
在面對多飛行器作戰(zhàn)環(huán)境時,傳統(tǒng)的策略梯度算法會出現(xiàn)訓(xùn)練過程中策略更新步長難以確定的問題。因此本文采取了近端策略優(yōu)化算法,在面對復(fù)雜的多飛行器攔截博弈對抗作戰(zhàn)環(huán)境中提出了新的目標(biāo)函數(shù),可以在算法訓(xùn)練的過程中實現(xiàn)小批量更新,避免訓(xùn)練結(jié)果發(fā)散。
不同于傳統(tǒng)強化學(xué)習(xí)算法中使用所執(zhí)行動作的對數(shù)概率梯度,近端策略優(yōu)化算法依據(jù)新舊策略之間的比率進而提出新目標(biāo),即
式中:πθ(a|s)當(dāng)前策略函數(shù);πθold(a|s)為更新前的策略函數(shù);A為優(yōu)勢函數(shù)。
本文將近端策略優(yōu)化算法與廣義優(yōu)勢函數(shù)估計方法相結(jié)合,同時融合clip算法以限制策略更新幅度。定義評估飛行器行為策略的目標(biāo)函數(shù):
式中:clip算法的作用是將新舊策略之間的比率限制在[1-ε,1+ε]之內(nèi),根據(jù)廣義優(yōu)勢估計函數(shù)At的不同取值,clip算法可以分為2種情況,如圖3所示。圖中紅線表示Jclipθ的取值,從而防止訓(xùn)練過程中策略的大幅更新,估計形式為式(7)所示。
圖3 clip算法模型Fig.3 clip algorithm model
式 中:σt=rt+γV(st+1)-V(st);r為 獎 勵 值;γ為衰減因子;V(st)為此時刻的價值函數(shù)。
本文將多飛行器攔截博弈對抗作戰(zhàn)場景描述為一個合作的多智能體強化學(xué)習(xí)問題,采用集中式評判分布式執(zhí)行算法架構(gòu),該方法模型如圖4所示,仿真環(huán)境中多智能體圍繞共同目標(biāo)進行分工與協(xié)作,涌現(xiàn)群體智能。
圖4 集中式評價分布式執(zhí)行算法框架Fig.4 Centralized evaluation distributed execution algorithm framework
為適應(yīng)多飛行器對抗作戰(zhàn)場景,本文將近端策略優(yōu)化算法和集中式評價分布式執(zhí)行框架相結(jié)合,提出了一種適用于集群對抗的多智能體強化學(xué)習(xí)算法。為應(yīng)對復(fù)雜作戰(zhàn)環(huán)境下值函數(shù)以及策略梯度計算復(fù)雜的問題,引入深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)去擬合強化學(xué)習(xí)中的評判函數(shù)以及策略函數(shù)。多智能體深度強化學(xué)習(xí)算法模型如圖5所示。
圖5 多智能體深度強化學(xué)習(xí)算法模型Fig.5 Multi-agent deep reinforcement learning algorithm model
飛行器攔截策略訓(xùn)練過程分為評判和執(zhí)行2個部分,單體飛行器同時具有攻防對抗策略π和策略的評判模塊Q,本文用神經(jīng)網(wǎng)絡(luò)擬合評判函數(shù)以及策略函數(shù),如圖6所示。并引入經(jīng)驗回放機制,使訓(xùn)練數(shù)據(jù)通過經(jīng)驗回放機制中的重要性采樣獲得,從而在一定程度上改善了算法的收斂性。
圖6 算法架構(gòu)Fig.6 Algorithm architecture
1)評判模塊
神經(jīng)網(wǎng)絡(luò)具有替代非線性函數(shù)的能力,因此本文使用多層循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來近似評價策略的值函數(shù)。相比于傳統(tǒng)的全連接網(wǎng)絡(luò),RNN增加了前后時序的關(guān)系,在訓(xùn)練過程中將前序信息應(yīng)用于當(dāng)前輸出的計算中,提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練的收斂性能。
評判模塊通過計算狀態(tài)價值函數(shù)V(st)和Vtarget(st)更新神經(jīng)網(wǎng)絡(luò)參數(shù)ω,Critic評判網(wǎng)絡(luò)優(yōu)化的損失函數(shù)如式(8)所示:
用于擬合值函數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,基于時間差分算法優(yōu)化損失函數(shù)進而更新神經(jīng)網(wǎng)絡(luò)參數(shù)。
圖7 值函數(shù)神經(jīng)網(wǎng)絡(luò)Fig.7 Value function neural network
2)執(zhí)行模塊
在集中式訓(xùn)練和分布式執(zhí)行的框架下,策略神經(jīng)網(wǎng)絡(luò)在執(zhí)行時只利用飛行器自身的觀測狀態(tài)生成飛行器的機動策略。本文使用神經(jīng)網(wǎng)絡(luò)擬合策略函數(shù),如圖8所示。定義每架單體飛行器的參數(shù)化機動策略為πθi,θ是機動策略的參數(shù),同時為Actor執(zhí)行模塊定義一個策略優(yōu)化目標(biāo)函數(shù):
圖8 策略神經(jīng)網(wǎng)絡(luò)Fig.8 Strategic neural network
式中:θ為策略網(wǎng)絡(luò)參數(shù);At為評判網(wǎng)絡(luò)估計的優(yōu)勢函數(shù);πθold(at|st)代表收集經(jīng)驗的原始網(wǎng)絡(luò),πθ(at|st)為利用更新后的策略;clip函數(shù)將概率比限制在一個合理的范圍;ε為一個超參數(shù)。以At作為優(yōu)化目標(biāo),At>0時增加πθ(at∣St)的概率,反之At≤0則減小πθ(at∣St)的概率。
將飛行器間的對抗作戰(zhàn)任務(wù)建模為部分可觀馬爾科夫決策過程,如圖9所示。將飛行器群體構(gòu)成一個整體智能無人系統(tǒng),對智能無人系統(tǒng)中的相關(guān)變量定義如下:i=1,2,…,n表示各個飛行器的編號,n為飛行器的總數(shù)量;所有飛行器的聯(lián)合動作空間為A;所有飛行器的聯(lián)合動作為at;所有飛行器下一時刻的聯(lián)合動作為at+1;飛行器的聯(lián)合狀態(tài)空間為S,聯(lián)合狀態(tài)為st;每架飛行器的感知信息為oti∈st;各個飛行器的獎勵為rti。
圖9 作戰(zhàn)場景馬爾可夫建模Fig.9 Markov modeling of operational scenario
在算法訓(xùn)練過程中,飛行器接受環(huán)境觀測信息產(chǎn)生機動策略,通過值函數(shù)對策略進行評估優(yōu)化,直到訓(xùn)練生成最優(yōu)值函數(shù)Q*(s,ai)和最優(yōu)策略π*。算法中局部觀測信息和全局觀測信息交匯融合提升了多智能體群體博弈的對抗性能。作戰(zhàn)過程中算法流程如圖10所示,其中TD表示時序差分方法(Temporal Difference,TD)。
圖10 強化學(xué)習(xí)過程Fig.10 Reinforcement learning process
第2節(jié)基于深度強化學(xué)習(xí)方法,建立了多飛行器智能攔截博弈對抗作戰(zhàn)模型,本節(jié)對模型中的觀測空間和獎勵函數(shù)進行設(shè)計。
多智能體深度強化學(xué)習(xí)模型訓(xùn)練過程中,單個智能體的局部觀測值以及輸入給評價網(wǎng)絡(luò)的整體觀測值都對模型訓(xùn)練具有較大影響。強化學(xué)習(xí)算法的核心在于與環(huán)境交互,每個智能體觀測到的信息都對策略的學(xué)習(xí)有著較大影響。本文中單個飛行器與環(huán)境交互過程中觀測的環(huán)境信息包括3部分,可表述為
在式(10)中,與視線角速率相關(guān)的觀測信息為
式中:V為攔截飛行器的速度;λ˙為攔截飛行器i與環(huán)境中其他入侵飛行器的視線角速率。
在式(10)中,表示距離的觀測信息為
式中:進攻飛行器和防御飛行器的相對距離使用(pt,pm)=‖pt-pm‖來表示,其中,pt為進攻飛行器的位置,pm為防御飛行器的位置。
在式(10)中,表示速度矢量前置角的觀測信息為
式中:γm為攔截飛行器的速度航向角;是攔截飛行器和入侵飛行器的視線角。
在多飛行器攔截博弈對抗作戰(zhàn)場景中,防御方飛行器的作戰(zhàn)目標(biāo)是以較小耗能逼近進攻飛行器,從而實現(xiàn)攔截打擊。深度強化學(xué)習(xí)理論中獎勵函數(shù)設(shè)計對博弈策略的學(xué)習(xí)尤為重要,針對多飛行器攔截博弈對抗任務(wù)場景,如果僅使用終端攔截回報會使獎勵函數(shù)設(shè)計稀疏,從而導(dǎo)致策略學(xué)習(xí)過程缺乏反饋引導(dǎo),導(dǎo)致飛行器博弈策略訓(xùn)練緩慢。本文結(jié)合作戰(zhàn)任務(wù)場景攔截過程中飛行器間的距離關(guān)系和角度關(guān)系設(shè)計獎勵函數(shù),下面對己方攔截飛行器的獎勵函數(shù)進行描述。
攔截飛行器的獎勵函數(shù)包括4部分。分別是基于飛行器間相對距離的獎勵、基于飛行器間前置角的獎勵,攔截成功的單體獎勵和集群終端獎勵,可描述為
單體飛行器攔截終端獎勵S表示為
式中:Z為攔截飛行器的集合;fm為布爾變量,當(dāng)攔截飛行器成功攔截入侵飛行器時為1,否則為0;經(jīng)過仿真驗證設(shè)置超參數(shù)為K1=800。
集群攔截終端獎勵P1表示為
式中:fB為布爾變量,當(dāng)進攻集群全部被攔截時為1,否則為0;經(jīng)過仿真驗證設(shè)置超參數(shù)為K2=4×103。
基于飛行器相對距離獎勵P2表示為
式中:U為進攻飛行器的集合;經(jīng)過仿真驗證設(shè)置超參數(shù)K3=0.5。
基于飛行器間前置角的獎勵P3表示為
式中:經(jīng)過仿真驗證設(shè)置超參數(shù)為K4=0.65,K5=0.3。
為驗證算法在多飛行器智能攔截場景中的有效性,本文設(shè)計了多飛行器攔截博弈對抗仿真環(huán)境,基于不同的任務(wù)類型以及飛行器的分布情況設(shè)置了作戰(zhàn)仿真實例進行仿真實驗。
在仿真實驗中,程序運行的服務(wù)器采用Ubuntu18.04系統(tǒng),搭載Intel Core i7 9700F處理器,顯卡型號為Nvidia GeForce GTX 3090。模型訓(xùn)練采用并行計算方法,設(shè)定進程數(shù)為64,仿真環(huán)境步長為0.06 s。
使用5架飛行器構(gòu)成防御集群進行訓(xùn)練,仿真程序?qū)崿F(xiàn)流程如圖11所示。
圖11 算法訓(xùn)練流程圖Fig.11 Algorithm training flow chart
多飛行器智能攔截博弈對抗作戰(zhàn)環(huán)境中防御方飛行器策略訓(xùn)練算法使用的訓(xùn)練參數(shù)如表1所示。
表1 算法訓(xùn)練參數(shù)設(shè)置Table 1 Setting of algorithm training parameters
為了便于觀察算法訓(xùn)練狀態(tài),防止訓(xùn)練過程中出現(xiàn)梯度消失等現(xiàn)象,對算法獎勵值的收斂性能進行了監(jiān)測。以3架飛行器協(xié)同攻擊目標(biāo)作戰(zhàn)場景為例,算法訓(xùn)練過程獎勵曲線如圖12所示;在相同條件下使用多智能體深度確定性策略梯度下降算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)進行策略訓(xùn)練時,得到獎勵曲線如圖13所示。
圖12 本文算法獎勵函數(shù)曲線Fig.12 Reward function curve of our algorithm
圖13 MADDPG獎勵函數(shù)曲線Fig.13 Reward function curve of MADDPG
根據(jù)獎勵函數(shù)曲線(圖12)可知,在算法訓(xùn)練過程中,飛行器集群的行為獎勵收益值保持比較平穩(wěn)的狀態(tài)緩慢增加,在訓(xùn)練回合數(shù)到達12.5×104次之后獎勵函數(shù)曲線逐漸收斂;根據(jù)獎勵函數(shù)曲線(圖13)分析可知,MADDPG算法訓(xùn)練回合數(shù)到達17.5×104后才開始收斂。相比于傳統(tǒng)算法而言,本文所提智能算法收斂所需的回合數(shù)更少,收斂更加穩(wěn)定。仿真結(jié)果表明,在集群攔截任務(wù)中智能對抗算法收斂較快,獎勵曲線較為光滑。
為了驗證研究提出的飛行器智能對抗博弈算法,本文根據(jù)進攻飛行器的數(shù)量不同設(shè)定了4種典型作戰(zhàn)場景,針對不同場景分別訓(xùn)練飛行器集群攔截作戰(zhàn)策略模型。4種典型作戰(zhàn)場景情況如表2所示,攻防雙方初始化階段隨機性條件設(shè)置如下,防御集群生成的初始位置與目標(biāo)區(qū)域的距離RM0∈[0,100] m,防御集群的初始速度VM0∈[15,25] m/s,初始速度方向隨機。進攻集群隨機生成的初始位置與目標(biāo)區(qū)域的距離RT0∈[500,600] m,進 攻 集 群 的 初 始 速 度VT0∈[15,45] m/s,初始速度方向與彈目連線的夾角<30°。
表2 作戰(zhàn)場景設(shè)置Table 2 Operational scenario setting
本文針對訓(xùn)練得到的4種場景下的機動策略模型分別進行仿真測試,驗證算法的有效性。仿真場景中,防護目標(biāo)被隨機設(shè)置在固定位置,5架防御飛行器在防護目標(biāo)區(qū)域附近隨機地部署。進攻飛行器的位置在一定的限制范圍內(nèi)隨機生成,每個飛行器的能力約束包括飛行速度限制、過載能力限制等。設(shè)定作戰(zhàn)場景中攔截成功的判定方法為脫靶量<5 m。4種典型作戰(zhàn)場景的初始參數(shù)如表3所示。
表3 仿真環(huán)境參數(shù)Table 3 Simulation environment parameters
1)5架防御vs 1架進攻
針對1架進攻飛行器攻擊防護目標(biāo)的情況,仿真環(huán)境初始參數(shù)如表3所示,其中進攻方采取的機動策略為比例導(dǎo)引法,則飛行器集群攔截任務(wù)的仿真結(jié)果如圖14所示,其中,D-UAV表示防御飛行器,A-UAV表示進攻飛行器。由位置曲線(圖14(a))分析可知,基于近端策略優(yōu)化的多智能體強化學(xué)習(xí)算法訓(xùn)練得到的機動策略模型能夠?qū)?架進攻飛行器來襲實施成功攔截。由法向過載曲線(圖14(b))可知,機動策略模型輸出的法向過載指令在限制范圍內(nèi),指令變化平滑,航向角變化平穩(wěn),適于飛行器跟蹤控制。軸向過載曲線(圖14(c))表明,為了快速實現(xiàn)攔截任務(wù),神經(jīng)網(wǎng)絡(luò)輸出相應(yīng)的軸向過載指令,提升飛行器的速度,使得防御方飛行器群體更加高效快速的實現(xiàn)攔截任務(wù)。
圖14 5架防御vs1架進攻協(xié)同攔截仿真結(jié)果Fig.14 5 defense vs 1 attack cooperative intercept countermeasure simulation results
從位置曲線(圖13(a))可以看出,防御方飛行器各自采取較為平滑的飛行路線去攔截進攻方,在保證成功率的同時縮短攔截路程,減少作戰(zhàn)耗能。
仿真結(jié)果表明,采用本文所提的智能協(xié)同策略可以對單體進攻飛行器進行有效攔截,實現(xiàn)高精準(zhǔn)度打擊。針對多對一攔截問題,相比于按照自身能力約束分別對目標(biāo)進行攔截的方法,智能協(xié)同策略能夠利用飛行器間的協(xié)作機制執(zhí)行任務(wù),具有一定的實際應(yīng)用價值。
2)5架防御vs2架進攻
針對2架進攻飛行器攻擊防護目標(biāo)的情況,仿真環(huán)境初始參數(shù)如表3所示,其中進攻方采取的機動策略為比例導(dǎo)引法,防御方采取智能機動策略,作戰(zhàn)仿真情況如圖15所示。由位置曲線(圖15(a))分析可知,強化學(xué)習(xí)方法訓(xùn)練得到的智能機動策略能夠?qū)崿F(xiàn)智能打擊任務(wù)分配,在面對兩架進攻飛行器時,機動策略模型綜合考慮防御飛行器和進攻飛行器的距離優(yōu)勢和角度優(yōu)勢進行智能分配,提升了攔截效率。
圖15 5架防御vs 2架進攻協(xié)同攔截仿真結(jié)果Fig.15 5 defense vs 2 attack cooperative intercept countermeasure simulation results
由法向過載曲線(圖15(b))可知,防御方飛行器過載變化較為平滑,并且保持在過載約束范圍內(nèi)。由軸向過載曲線(圖15(c))可知,在飛行器發(fā)動機推力作用下,攔截方飛行器加速飛行,提升攔截方速度優(yōu)勢,縮短攔截時間提升攔截效率。在攔截進攻飛行器2時,防御集群通過多個打擊角度攔截進攻飛行器,在攔截進攻飛行器1時,防御飛行器1作為主要攔截器迎擊進攻飛行器,防御飛行器2作為防御飛行器1的補充打擊確保攔截成功。
仿真結(jié)果表明,集群協(xié)同條件下防御方可以更好發(fā)揮動態(tài)博弈優(yōu)勢,提高攔截成功率,最大化對抗收益。多對多攔截體現(xiàn)了本文所提的智能機動策略具有良好的任務(wù)分配能力,通過與環(huán)境的不斷交互,神經(jīng)網(wǎng)絡(luò)可以根據(jù)不同的作戰(zhàn)場景訓(xùn)練得到對應(yīng)的協(xié)同打擊策略。
3)5架防御vs 3架進攻
針對3架進攻飛行器攻擊防護目標(biāo)的情況,仿真環(huán)境初始參數(shù)如表3所示,其中進攻方采取的機動策略為比例導(dǎo)引法,防御方采取智能機動策略,仿真結(jié)果如圖16所示。由位置曲線(圖16(a))分析可知,強化學(xué)習(xí)智能機動策略不僅可以引導(dǎo)飛行器精準(zhǔn)打擊目標(biāo),同時可以根據(jù)進攻飛行器的飛行狀態(tài)實現(xiàn)合理的攔截任務(wù)分配,機動策略模型產(chǎn)生的智能任務(wù)分配如表4所示,以使得防御集群以合理的方式完成攔截任務(wù),精準(zhǔn)打擊目標(biāo)。由過載曲線(圖16(b)和圖16(c))分析可知,防御方飛行器集群采用的智能策略綜合考慮攔截耗能和過載限制等因素,提升了多飛行器攔截效能。由航向角曲線(圖16(d))分析可知,攔截過程中飛行器航向角變化平穩(wěn),適用飛行器控制。由速度曲線(圖16(e))分析可知,攔截過程中飛行器均勻加速至約束限制,提升攔截速率。
表4 任務(wù)分配情況Table 4 Task allocation
圖16 5架防御vs 3架進攻協(xié)同攔截仿真結(jié)果Fig.16 5 defense vs 3 attack cooperative intercept countermeasure simulation results
由于各飛行器初始位置及指向均隨機,為了能夠更好的攔截進攻飛行器,防御方在初始階段采取較大過載將飛行方向偏向進攻飛行器,從而減少攔截時間。具有相同攔截目標(biāo)的飛行器之間具有一定的合作效能,防御飛行器2和5從2個方向逼近進攻飛行器2,保證攔截成功的同時縮短打擊時間。
仿真結(jié)果表明,通過在進攻方飛行器兩側(cè)構(gòu)建合適的圍捕態(tài)勢,使得目標(biāo)難以逃逸,同時也能保證攔截方飛行軌跡平滑,防止機動指令過大。在集群對抗過程中,本文所提機動策略模型可以對進攻飛行器集群進行有效攔截,隨著目標(biāo)數(shù)量的增多,機動策略生成的任務(wù)分配方案使整體攔截效能顯著提升。
4)5架防御vs 4架進攻
針對4架進攻飛行器攻擊防護目標(biāo)情況,仿真環(huán)境初始參數(shù)如表3所示,其中進攻方采取的機動策略為比例導(dǎo)引法,防御方采取智能機動策略,仿真結(jié)果如圖17所示。隨著進攻方飛行器數(shù)量的增多,智能機動策略模型生成的目標(biāo)分配策略展現(xiàn)出較強的優(yōu)勢,分配結(jié)果如表4所示,在保證充分?jǐn)r截的前提下合理的分配火力,提升攔截效率,更加精準(zhǔn)全面地完成攔截任務(wù)。
圖17 5架防御vs 4架進攻協(xié)同攔截仿真結(jié)果Fig.17 5 Defense vs 4 attack cooperative intercept countermeasure simulation resultsTask allocation
由仿真結(jié)果中的位置曲線(圖17(a))以及過載曲線(圖17(b)和圖17(c))分析可知,攔截過程中防御集群綜合考慮戰(zhàn)場因素,不僅將過載限定在規(guī)定范圍內(nèi),同時減少作戰(zhàn)耗能,便于實現(xiàn)精準(zhǔn)打擊。由位置曲線(圖17(a))可以看出在攔截初始階段智能模型對作戰(zhàn)任務(wù)進行了合理分配,防御飛行器1和防御飛行器2協(xié)同攔截進攻飛行器1,其余的3架防御飛行器分別攔截剩余目標(biāo)。在面對4架進攻飛行器時,防御方飛行器基于各自的位置速度進行目標(biāo)的最優(yōu)分配,在相互通訊的基礎(chǔ)之上,防御方群體能夠以較為平滑的軌跡運動,同時實現(xiàn)自主協(xié)同全面攔截。
本仿真示例中進攻飛行器數(shù)量較多,防御方集群采用本文所設(shè)計的智能策略能夠以高成功率完成攔截任務(wù),驗證了研究提出的協(xié)同智能攔截策略的有效性。
通過上述仿真的分析可知,基于近端策略優(yōu)化的多智能體深度強化學(xué)習(xí)算法訓(xùn)練得到的機動策略模型在攔截任務(wù)中有較好的表現(xiàn)。為了驗證算法效能,針對4種作戰(zhàn)情況,采用訓(xùn)練得到的強化學(xué)習(xí)策略模型進行1 000次仿真測試實驗,統(tǒng)計仿真結(jié)果如表5所示。
表5 1 000次作戰(zhàn)仿真結(jié)果統(tǒng)計Table 5 1 000 battle simulation results statistics
上述仿真結(jié)果表明,基于5架飛行器訓(xùn)練得到的智能協(xié)同攔截模型可以很好的應(yīng)用于多架進攻飛行器的攔截任務(wù)中,基于近端策略優(yōu)化的多智能體深度強化學(xué)習(xí)算法對飛行器集群的行為決策具有良好的適應(yīng)能力和泛化能力。由1架進攻飛行器的仿真結(jié)果可以看出,對于數(shù)量較少的來襲目標(biāo),飛行器集群可以很好的完成預(yù)定的攔截任務(wù)。其他作戰(zhàn)情況中,來襲的進攻飛行器數(shù)量增多,強化學(xué)習(xí)模型輸出的智能攔截策略能夠?qū)崿F(xiàn)智能任務(wù)分配,同時保證作戰(zhàn)過程中的全面打擊。在多架來襲進攻飛行器的作戰(zhàn)情況分析中,5架飛行器在飛行過程中依據(jù)強化學(xué)習(xí)策略模型智能生成任務(wù)分配模型,實現(xiàn)了多飛行器集群的智能攔截。
綜上所述,深度強化學(xué)習(xí)為飛行器集群去中心化、自主化和自治化提供一種智能化解決途徑,將強化學(xué)習(xí)算法應(yīng)用在飛行器集群攔截作戰(zhàn)任務(wù)中可以在一定程度上提升裝備的智能水平和能力,具有一定的現(xiàn)實意義。
在集群作戰(zhàn)環(huán)境中給飛行器賦予智能,從而實現(xiàn)作戰(zhàn)過程中的智能決策,是一個非常有挑戰(zhàn)性的任務(wù)。本文針對來襲群體目標(biāo)的智能協(xié)同攔截機動策略問題,研究了多智能體深度強化學(xué)習(xí)在飛行器攻防對抗中的創(chuàng)新應(yīng)用,提出了基于近端策略優(yōu)化算法的智能協(xié)同攔截機動策略,仿真結(jié)果表明本文研究提出的智能協(xié)同攔截可以提升群體目標(biāo)攔截的效能和智能化水平。主要結(jié)論如下所示。
1)研究提出的智能協(xié)同攔截算法可以有效實現(xiàn)飛行器以合理的打擊分配策略攔截進攻集群。通過強化學(xué)習(xí)訓(xùn)練過程中的高效探索和自學(xué)習(xí)進化,提升了攔截任務(wù)分配的效率和智能化水平,節(jié)省了前期任務(wù)分配時間,增加攔截效能。
2))與現(xiàn)有執(zhí)行攔截任務(wù)需獲提供大量額外復(fù)雜的戰(zhàn)場環(huán)境信息不同,提出的協(xié)同攔截策略通過對作戰(zhàn)場景針對性的分析,可以僅用可感知的部分作戰(zhàn)環(huán)境信息制定高效協(xié)同攔截策略,減少對群里目標(biāo)攔截中態(tài)勢信息數(shù)量和維度的感知要求,降低信息感知難度。
3)提出的基于近端策略優(yōu)化算法的多智能體深度強化學(xué)習(xí)算法提出應(yīng)用了小批量更新、集中式訓(xùn)練-分布式執(zhí)行等方法提升算法訓(xùn)練效率,同時提升了算法的適應(yīng)性,降低了訓(xùn)練的數(shù)據(jù)需求,減少了時間成本,提升智能協(xié)同攔截算法的訓(xùn)練效率。
4)提出的多飛行器智能攔截博弈對抗策略采取集中式訓(xùn)練-分布式執(zhí)行的方法,既提升了訓(xùn)練效率,又在執(zhí)行中采取分布式架構(gòu),降低了對群體協(xié)同信息交互的要求,對實際工程應(yīng)用具有一定的參考價值。
5)提出的智能協(xié)同攔截策略既借鑒了現(xiàn)有解析制導(dǎo)律來進行觀測空間的設(shè)計,又利用強化學(xué)習(xí)賦予了協(xié)同攔截策略自學(xué)習(xí)、自優(yōu)化的屬性,提升收斂性的同時又增加了自學(xué)習(xí)智能屬性,對群體博弈對抗作戰(zhàn)場景具有一定的實際和借鑒意義。