陳燦,莫靂,鄭多,*,程子恒,林德福
1. 北京理工大學(xué) 宇航學(xué)院,北京 100081 2. 北京理工大學(xué) 無人機自主控制技術(shù)北京市重點實驗室,北京 100081
隨著單體無人機技術(shù)的快速發(fā)展和成熟應(yīng)用,無人機的協(xié)同作戰(zhàn)已經(jīng)成為可能,多無人機間的協(xié)同攻防對抗逐漸成為未來空戰(zhàn)的重要模態(tài)。多無人機通過環(huán)境感知,判斷周圍態(tài)勢,依據(jù)一定的攻防策略,采取攻擊、避讓、分散、集中、協(xié)作、援助等行為,實現(xiàn)攻防對抗。多無人機間的協(xié)同攻防對抗可以描述為復(fù)雜多約束條件下的最優(yōu)決策問題,包含追逃博弈和領(lǐng)土防御博弈兩個子問題。在追逃博弈中,追逃雙方通過采取最優(yōu)化的策略來快速接近或遠離對手,態(tài)勢變化迅速;在領(lǐng)土防御博弈中,態(tài)勢優(yōu)劣取決于入侵者、防御者和目標三者之間的幾何關(guān)系,策略求解空間大。而結(jié)合了領(lǐng)土防御和追逃博弈的無人機攻防對抗問題狀態(tài)空間維數(shù)高,態(tài)勢復(fù)雜多變,攻防策略多樣,導(dǎo)致求解的難度急劇增大,需要更加高效的決策算法。
追逃博弈和領(lǐng)土防御博弈是空戰(zhàn)、搜索和安防等領(lǐng)域中的核心科學(xué)問題,一直是學(xué)者們爭相研究的難點和熱點。面向此類問題,傳統(tǒng)的研究主要在一對一條件下,依托于微分博弈理論和最優(yōu)控制理論,對追逃博弈和領(lǐng)土防御博弈的決策問題進行研究。其思想是將微分博弈問題的求解轉(zhuǎn)化為變分問題[1-2],進而通過求解哈密頓-雅克比方程,求得最優(yōu)策略的解析解。早在20世紀60年代,Isaacs[1]就從數(shù)學(xué)的角度分析了追逃博弈和領(lǐng)土防御博弈等雙人零和博弈問題的特性,提出了最優(yōu)策略的解析解法。文獻[3]基于變分學(xué)研究了導(dǎo)彈的制導(dǎo)問題,推導(dǎo)得比例導(dǎo)引律。文獻[4]則基于極大極小值原理提出了一種哈密頓-雅克比方程的廣義求解方法,研究了一對一的追逃博弈問題。攻防對抗最優(yōu)解的解析解通常存在求解難度大,甚至無解的問題。而數(shù)值方法可以利用計算機的強大計算能力,迭代求解最優(yōu)策略。例如,有學(xué)者將牛頓法[5]和梯度法[6]應(yīng)用于微分對策數(shù)值解的求解。文獻[7]則采用自適應(yīng)動態(tài)規(guī)劃算法在線求解哈密頓-雅克比方程。
考慮攻防雙方機動能力之間的差異,低機動能力的一方需要通過增加數(shù)量來彌補個體能力差異。已經(jīng)有文獻研究了多個追蹤者和單個逃逸者的追逃博弈問題,以及多個防御者和單個入侵者的領(lǐng)土防御博弈問題。在多對一的博弈中,基于微分博弈理論和最優(yōu)控制理論的方法一般通過一些規(guī)則和假設(shè),建立微分博弈模型以求解最優(yōu)策略。如文獻[8]基于導(dǎo)彈的命中順序的假設(shè)研究了兩個導(dǎo)彈攔截單個目標的最優(yōu)制導(dǎo)律。文獻[9]則基于兩個追蹤者與單個逃逸者的幾何關(guān)系,通過坐標轉(zhuǎn)換建立微分博弈模型,求解最優(yōu)協(xié)同追蹤策略。
當(dāng)無人機數(shù)量增多時,微分博弈的建模過程趨于復(fù)雜,所需的規(guī)則或假設(shè)增多,求解最優(yōu)的協(xié)同對抗策略的難度將顯著增加。針對該問題,現(xiàn)有文獻提出了不依賴微分博弈模型的決策方法,包括基于仿生學(xué)[10-12]和幾何學(xué)[13-14]的決策方法、基于模糊控制理論的決策方法[15]以及基于強化學(xué)習(xí)的決策方法[16-19]等?;诜律鷮W(xué)和幾何學(xué)的決策方法受到自然界中捕獵和覓食現(xiàn)象的啟發(fā),提出基于攻防雙方幾何關(guān)系的變化,設(shè)計控制策略。如Isler等[10]將隨機策略與獅子的追捕策略相結(jié)合,研究了兩個追蹤者對一個高速運動的逃逸者的協(xié)同追捕;Yamaguchi[11]研究了多對一的追逃博弈,模擬捕獵行為提出了一種帶反饋的分布式控制器;文獻[12]研究了多追蹤者具有轉(zhuǎn)彎速率約束時,多對一的追逃博弈,提出了一種受魚類覓食行為啟發(fā)的協(xié)同追捕策略;文獻[13]研究了多對一的平面追逃問題,提出了基于泰森多邊形的協(xié)同追捕策略;文獻[14]則提出了基于阿波羅圓的多對一協(xié)同追捕策略?;谀:刂评碚揫15]的方法依據(jù)專家知識和對抗規(guī)則離散化博弈狀態(tài)和行為策略,簡化博弈模型。如文獻[15]利用模糊規(guī)則離散化多無人機空戰(zhàn)問題,并采用粒子群算法求解納什均衡策略。而在強化學(xué)習(xí)[16,18]和模糊控制與強化學(xué)習(xí)相結(jié)合[17,19-20]的方法中無需微分博弈模型,智能體可以通過與環(huán)境的交互、學(xué)習(xí)和優(yōu)化對抗策略。如文獻[16]提出將Q學(xué)習(xí)算法與基于運動模式的反應(yīng)式控制結(jié)構(gòu)相結(jié)合,研究了在有障礙的環(huán)境中,多個追蹤者對單個有速度優(yōu)勢的逃逸者的協(xié)同追捕;文獻[17]提出了基于模糊Actor-Critic算法的分布式控制器用于研究多追蹤者單逃逸者的追逃博弈問題;加拿大卡爾頓大學(xué)的團隊[18-19]研究了Minimax-Q[21]算法、狼爬山策略學(xué)習(xí)(Wolf Policy Hill Climbing, Wolf-PHC)[22]算法、模糊Q學(xué)習(xí)[20]和模糊Actor-Critic算法[17]在一對一和二對一的領(lǐng)土防御博弈中的應(yīng)用。
隨著無人機協(xié)同技術(shù)的發(fā)展和應(yīng)用,未來戰(zhàn)爭中無人機的攻防對抗將以復(fù)雜環(huán)境下雙方能力非對稱的多對多博弈的形式出現(xiàn),現(xiàn)有的針對一對一、多對一博弈問題的研究方法將難以適用。
本文面向未來空中作戰(zhàn)任務(wù)需求,研究了存在障礙區(qū)和隱蔽區(qū)約束的復(fù)雜環(huán)境下,高機動能力的進攻無人機與低機動能力的防御無人機之間的非對稱條件下多對多協(xié)同攻防對抗問題。由于約束條件多、個體-群體交叉耦合以及雙方態(tài)勢交替演化、復(fù)雜多變等因素,難以求得無人機協(xié)同攻防策略的解析解。因此,本文提出基于多智能體強化學(xué)習(xí)算法[23],通過無人機與環(huán)境的不斷交互,使無人機自主地學(xué)習(xí)和優(yōu)化協(xié)同對抗策略。為了兼顧算法收斂性能與決策效率,文中將多智能體自主學(xué)習(xí)特性與神經(jīng)網(wǎng)絡(luò)的強大擬合能力相結(jié)合,利用輸入全局信息的集中式評判來提升無人機學(xué)習(xí)能力和保證訓(xùn)練收斂,利用輸入局部感知信息的分布式執(zhí)行滿足在線實時決策。在此基礎(chǔ)上,建立高擬真的對抗環(huán)境,基于相同的決策架構(gòu),通過構(gòu)造不同的獎懲機制,充分考慮多維環(huán)境變量進行攻防雙方對抗訓(xùn)練,以提升分布式?jīng)Q策算法的泛化能力,賦予無人機在多約束、高動態(tài)和強對抗復(fù)雜環(huán)境的強自適應(yīng)能力。
多無人機協(xié)同攻防對抗問題可描述為有限任務(wù)區(qū)域內(nèi),多無人機圍繞特定目標的攻防博弈。無人機通過機載導(dǎo)航裝置可以測量自身的位置和速度,通過機載探測雷達可以感知與其他無人機、障礙物和隱蔽區(qū)的相對位置。如圖1所示,環(huán)境中包括任務(wù)目標、若干障礙物和隱蔽區(qū),當(dāng)無人機進入隱蔽區(qū)將無法被感知到其位置。其中,(xi,yi)為第i架無人機的位置坐標,(xT,yT)為任務(wù)目標中心點的位置坐標,(xl,yl)為障礙物中心點的位置坐標,(xs,ys)為隱蔽區(qū)中心點的位置坐標。攻防對抗包含兩個博弈子問題:
1) 目標攻防(領(lǐng)土防御博弈)
進攻無人機攻擊目標,而防御無人機負責(zé)保護目標,攔截進攻無人機。
2) 追逃博弈
在限定區(qū)域內(nèi),防御無人機追捕進攻無人機,進攻無人機躲避防御無人機的追捕。
本文一體化考慮兩個博弈子問題定義了攻防雙方的獎勵反饋,令每個防御無人機在捕獲一個進攻無人機后獲得獎勵,在目標被入侵后獲得懲罰;而每個進攻無人機被捕獲后獲得懲罰,在入侵目標后獲得獎勵。
(1)
(2)
式中:Rr和Rb分別為防御無人機和進攻無人機的個體獎勵。進攻無人機和防御無人機的博弈狀態(tài)近似使用對抗雙方無人機之間的歐式距離和進攻無人機與目標之間的歐式距離表示。進攻無人機與防御無人機的歐式距離可表示為
(3)
進攻無人機與目標的歐式距離表示為
(4)
式中:pr為防御無人機的位置;pb為進攻無人機的位置;pT為目標中心的位置。防御無人機成功攔截進攻無人機需滿足的條件為二者的歐式距離
圖1 多無人機攻防對抗問題Fig.1 Multi-UAV attack-defense game
小于防御無人機捕獲半徑:
(5)
同理,進攻無人機成功入侵目標需滿足的條件為
(6)
式中:er為防御無人機的捕獲半徑;eb為進攻無人機的攻擊半徑;eT為目標區(qū)域半徑。
本文以多旋翼無人機為研究對象,其個體無人機的運動學(xué)模型可以簡化為
(7)
式中,p為無人機的位置;v為速度矢量;a為加速度控制量;λ為無人機的阻力加速度。本文考慮多旋翼無人機的氣動特性和動力系統(tǒng)的限制,確定了無人機的最大飛行速度vmax和最大加速度amax。其中,攻防雙方機動能力不同,即非對稱機動能力,故:
1) 進攻無人機具有速度快、機動性強的優(yōu)勢,其最大速度為vmax=15 m/s,最大加速度為amax=4.5 m/s2。
2) 防御無人機的速度較慢,機動性較弱,其最大速度為vmax=10 m/s,最大加速度為amax=3 m/s2。
受多智能體強化學(xué)習(xí)理論的啟發(fā),本文將單個無人機描述為具有感知、判斷和執(zhí)行能力的智能體,多無人機系統(tǒng)描述為一個多智能體系統(tǒng),無人機多智能體系統(tǒng)通過與環(huán)境的不斷交互,學(xué)習(xí)協(xié)同攻擊和防御策略,涌現(xiàn)協(xié)同智能。
在單智能體強化學(xué)習(xí)中,智能體通過與環(huán)境的交互學(xué)習(xí)行為策略。如圖2所示,多無人機強化學(xué)習(xí)在此基礎(chǔ)上,使無人機在訓(xùn)練時不僅與環(huán)境交互,還與其他無人機交互,從而學(xué)習(xí)協(xié)同對抗策略。
圖2 多無人機強化學(xué)習(xí)基本框架Fig.2 Multi-UAV reinforcement learning framework
多無人機強化學(xué)習(xí)的過程屬于部分可觀測馬爾科夫決策過程(POMDP)。POMDP可以通過
1)n為無人機的個數(shù)。
4) 所有無人機的運動學(xué)共同構(gòu)成多無人機系統(tǒng)的狀態(tài)轉(zhuǎn)移函數(shù)T。
(8)
式中:γ為折扣因子,代表某一時刻獎勵的權(quán)重。本文利用由累積總回報定義的狀態(tài)-動作值函數(shù)來評估每個無人機的行為策略:
(9)
圖3 強化學(xué)習(xí)過程Fig.3 Reinforcement learning process
僅依賴于局部信息的分布式執(zhí)行,可以增強無人機決策的實時性,降低其對通信的依賴,提升系統(tǒng)的魯棒性。然而,若訓(xùn)練時僅使用局部信息會導(dǎo)致策略梯度估計的高方差,且會由于缺少對整體態(tài)勢的評估,使無人機難以學(xué)習(xí)高效的協(xié)同對抗策略。因此本文提出集中式評判和分布式執(zhí)行的算法架構(gòu),使每個無人機在訓(xùn)練時使用所有無人機的觀測和行為信息,而在執(zhí)行時僅使用無人機自身的觀測信息,這樣做可以降低梯度估計的方差,保證算法穩(wěn)定收斂,同時兼顧無人機決策的效率與性能。
本文提出的算法受到執(zhí)行-評價(Actor-Critic)算法的啟發(fā),其可分為評判模塊和執(zhí)行模塊兩部分:執(zhí)行模塊表示無人機的行為策略,輸入為無人機自身的觀測信息;評判模塊表示無人機的集中式狀態(tài)-動作值函數(shù),輸入為多無人機系統(tǒng)的全局信息。本文在同一個多無人機系統(tǒng)中將攻防雙方無人機一體化考慮,雙方基于各自的任務(wù)目的使用不同的獎懲機制,因此每個無人機都獨立地訓(xùn)練一個集中式的狀態(tài)-動作值函數(shù),從而構(gòu)造一種多無人機的集中式評判-分布式執(zhí)行決策算法。算法基本架構(gòu)如圖4所示,每個無人機包含一個對抗策略π和評判模塊Q,在執(zhí)行時僅使用π依據(jù)感知信息輸出動作,而在訓(xùn)練中則利用Q對策略進行評價并引導(dǎo)策略優(yōu)化。
將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,并借鑒深度Q學(xué)習(xí)(Deep Q-learning Network, DQN)[24]算法的思想,利用神經(jīng)網(wǎng)絡(luò)提升無人機對攻防態(tài)勢的預(yù)測能力[25]和復(fù)雜情況下的決策能力。通過引入目標神經(jīng)網(wǎng)絡(luò)和經(jīng)驗回放機制,改善神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以穩(wěn)定收斂的問題。對于第i架無人機,其學(xué)習(xí)算法的組成及訓(xùn)練流程如圖5所示。無人機的執(zhí)行模塊依據(jù)在訓(xùn)練環(huán)境中T時刻的觀測來執(zhí)行決策,將訓(xùn)練環(huán)境返回的狀態(tài)、行為、獎勵等信息存入到經(jīng)驗存儲單元中。評判模塊和執(zhí)行模塊均包含主神經(jīng)網(wǎng)絡(luò)和目標神經(jīng)網(wǎng)絡(luò),其訓(xùn)練數(shù)據(jù)來自對經(jīng)驗存儲單元的隨機采樣,即經(jīng)驗回放。主神經(jīng)網(wǎng)絡(luò)的參數(shù)通過優(yōu)化函數(shù)模塊更新,而目標神經(jīng)網(wǎng)絡(luò)的參數(shù)通過復(fù)制主神經(jīng)網(wǎng)絡(luò)的參數(shù)獲得,且復(fù)制滯后于主神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。當(dāng)訓(xùn)練收斂后,即完成策略優(yōu)化,每個無人機可以僅通過將自身的感知信息輸入策略神經(jīng)網(wǎng)絡(luò)來輸出動作指令,進行決策。
圖4 多無人機執(zhí)行-評判算法框架Fig.4 Multi-UAV actor-critic algorithm framework
圖5 無人機i攻防決策學(xué)習(xí)算法Fig.5 Decision making and training algorithm of UAVi
2.2.1 評判模塊:集中式值函數(shù)
(10)
L(ω)=Ext,at,rt,xt+1[(Qi(xt,at|ωM)-yi)2]
(11)
式中:t表示樣本數(shù)據(jù)的時間戳;ωT為目標神經(jīng)網(wǎng)絡(luò)遲滯更新的權(quán)重參數(shù)矩陣;ωM為主神級網(wǎng)絡(luò)實時更新的權(quán)重參數(shù)矩陣。
為了擬合值函數(shù),建立含有4層全連接層的神經(jīng)網(wǎng)絡(luò),如圖6所示。通過隨機梯度下降優(yōu)化式(11) 中的損失函數(shù)來更新網(wǎng)絡(luò)參數(shù)。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的具體參數(shù)如表1所示。
圖6 值函數(shù)神經(jīng)網(wǎng)絡(luò)Fig.6 Neural network of value function
2.2.2 執(zhí)行模塊
表1 值函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Neural network of value function structure parameters
J(θi)=Ex~pπ,a~πθ[Gi]
(12)
根據(jù)之前定義的狀態(tài)-動作值函數(shù),對于隨機性策略,目標函數(shù)的梯度[26]為
(13)
根據(jù)Silver在確定性策略梯度(Deterministic Policy Gradient, DPG)算法的論文[26]中給出的確定性策略的存在性證明,在使用經(jīng)驗回放機制時,目標函數(shù)的策略梯度如式(15)所示:
(14)
(15)
式中:D表示無人機的經(jīng)驗存儲單元。
目標函數(shù)J(θi)是狀態(tài)-動作值函數(shù)的無偏估計量,本文直接使用評判模塊的主神經(jīng)網(wǎng)絡(luò)輸出的狀態(tài)-動作值函數(shù)替代J(θi),定義策略神經(jīng)網(wǎng)絡(luò)的損失函數(shù)L(θi), 根據(jù)策略梯度可計算損失函數(shù)的梯度,從而優(yōu)化策略參數(shù)。
(16)
式中:ki為第i架無人機的動作空間大小;第2項是各個無人機動作空間的正則化,用于降低攻防兩類無人機的動作空間大小差異對神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響;c為正則化系數(shù)。
探索和利用是強化學(xué)習(xí)的主要矛盾之一,探索是嘗試不同的行為從而收集更多的數(shù)據(jù)樣本來進行學(xué)習(xí),利用則是指基于當(dāng)前信息做出最優(yōu)決策。為提高學(xué)習(xí)算法的探索能力,使用高斯分布在無人機的動作和估計其他無人機的動作中加入隨機性。因此,策略神經(jīng)網(wǎng)絡(luò)和目標策略神經(jīng)網(wǎng)絡(luò)的輸出分為兩部分:具體的動作值(平均值μ)和方差σ,執(zhí)行模塊的神經(jīng)網(wǎng)絡(luò)輸出的動作值為
(17)
式中:N(0,1)為標準正態(tài)分布。
圖7 策略神經(jīng)網(wǎng)絡(luò)Fig.7 Policy neural network
如果在攻防對抗的訓(xùn)練中,無人機只有最終回報,會使得訓(xùn)練過程缺乏環(huán)境反饋引導(dǎo),導(dǎo)致策略的學(xué)習(xí)過程緩慢。因此,此處設(shè)計獎勵函數(shù)提供額外的回報來提高學(xué)習(xí)效率。下面分別對進攻和防御無人機的獎勵函數(shù)進行描述:
1) 進攻無人機的獎勵函數(shù)包括基于目標距離的獎勵、被捕獲懲罰和越界懲罰3部分,可描述為
Rb=Rd+Pb+Pc
(18)
獎勵Rd表示為
(19)
懲罰函數(shù)表示為
(20)
(21)
式中:τ為二維正方形任務(wù)區(qū)域的邊界值;R為場景內(nèi)防御無人機的集合。
2) 防御無人機的獎勵函數(shù)包括防御無人機與距離最近的進攻無人機的距離,以及目標被攻擊的懲罰,表示為
(22)
本文將多無人機協(xié)同攻防對抗問題離散化,取定仿真步長1 s,任務(wù)區(qū)域為200 m×200 m的正方形區(qū)域,訓(xùn)練中多無人機協(xié)同攻防場景的參數(shù)見表2,其中障礙區(qū)和隱蔽區(qū)分別為半徑15 m和半徑25 m的圓域。
多無人機強化學(xué)習(xí)算法的訓(xùn)練中,取優(yōu)化函數(shù)模塊的學(xué)習(xí)率α=0.01,折扣因子γ=0.95,單回合最大步數(shù)為50,單次采樣樣本量為1 024組,采樣周期為100步,正則化系數(shù)c=0.001。
表2 仿真環(huán)境設(shè)置Table 2 Parameters of simulation environment
通過所有無人機的平均單回合總回報評估算法,每隔1 000個回合計算一次平均總回報,一個回合即一次攻防對抗。訓(xùn)練過程中所有無人機、防御無人機和進攻無人機的平均每回合總回報曲線如圖8所示,由圖可知整個多無人機系統(tǒng)中,攻防雙方先后學(xué)習(xí)到了有效的防御策略和進攻策略。約35 000回合后,訓(xùn)練開始收斂。
在訓(xùn)練20 000回合后測試了訓(xùn)練效果,測試場景設(shè)置與訓(xùn)練場景設(shè)置相同。圖9分別展示了無人機在20 000回合的訓(xùn)練后學(xué)習(xí)到的進攻策略和防御策略。圖中,曲線表示無人機的運動軌跡,箭頭表示無人機每一時刻的速度矢量。分析圖9可知,防御無人機和進攻無人機可以完成進攻或防御任務(wù),但是完成效率較低,協(xié)同對抗策略不完善。
圖8 學(xué)習(xí)過程Fig.8 Learning process
圖9 訓(xùn)練測試結(jié)果Fig.9 Test result during training
首先對攻防雙方采用集中評判-分布執(zhí)行算法結(jié)構(gòu)的兩組仿真算例進行仿真,分別體現(xiàn)協(xié)同進攻策略和協(xié)同防御策略。
1) 協(xié)同進攻
圖10 無人機協(xié)同進攻的功防軌跡和態(tài)勢演化Fig.10 Trajectory and situation evolution of UAVs cooperative attack
由圖10可知,對抗開始后,防御無人機1和防御無人機2共同追蹤進攻無人機1和進攻無人機2至右上角區(qū)域,形成了協(xié)同追捕的態(tài)勢。之后,進攻無人機2采取“分散”的策略,向與之前相反的逃逸方向快速機動。最后,進攻無人機2利用速度和加速度的優(yōu)勢從防御無人機追捕的空隙中突防,成功入侵目標,測試結(jié)果體現(xiàn)了訓(xùn)練后進攻無人機的協(xié)同智能。再分析圖11可知,進攻無人機和防御無人機均滿足各自最大速度和最大加速度約束條件,進攻無人機充分利用自身的機動能力優(yōu)勢突防。
2) 協(xié)同防御
分析圖12可知,對抗開始后的第1階段,進攻無人機向一側(cè)運動,防御無人機1和2開始追蹤進攻無人機,而防御無人機3低速運動。在第2階段,進攻無人機做快速轉(zhuǎn)彎機動,進攻無人機1向相反方向運動,無人機2向下方運動。第3階段,防御無人機1和2繼續(xù)追蹤進攻無人機1,而防御無人機3預(yù)判了進攻無人機2的行為,成功將其攔截。最后,防御無人機1和2追蹤進攻無人機1至任務(wù)區(qū)域右上角,并形成了“上下夾擊”的態(tài)勢,進攻無人機均被成功捕獲。測試結(jié)果體現(xiàn)了訓(xùn)練后防御無人機的協(xié)同智能。結(jié)合圖13分析可知,在進攻和防御無人機均滿足各自最大速度和最大加速度約束的條件下,防御無人機通過協(xié)同策略彌補了低機動能力的劣勢。
圖11 無人機速度和加速度曲線(協(xié)同進攻)Fig.11 Velocity and acceleration of UAVs (cooperative attack)
圖12 無人機協(xié)同防御的軌跡和態(tài)勢演化Fig.12 Trajectories and situation evolution of UAV cooperative defense
為了測試研究提出的無人機協(xié)同對抗算法性能,將本文提出的利用全局信息集中評判(即集中評判)與僅依賴個體無人機觀測信息和動作信息評判(即局部評判)訓(xùn)練得到的策略神經(jīng)網(wǎng)絡(luò)模型進行對抗。經(jīng)過1 000回合對抗仿真,統(tǒng)計結(jié)果如表3所示。其中,成功率為無人機達成目標的回合數(shù)所占比例,限時未分勝負率表示限定時間內(nèi)不分勝負的回合數(shù)所占比例。
圖13 無人機速度和加速度曲線(協(xié)同防御)Fig.13 Velocity and acceleration of UAVs (cooperative defense)
表3 1 000回合攻防對抗仿真結(jié)果統(tǒng)計
根據(jù)表3可知,當(dāng)攻防雙方均采用本文提出的集中評判算法結(jié)構(gòu)訓(xùn)練個體無人機時,攻防成功率差距較小。而當(dāng)攻防雙方,一方采用集中評判算法結(jié)構(gòu),另一方采用局部信息評判算法結(jié)構(gòu)訓(xùn)練個體無人機時,集中評判結(jié)構(gòu)的成功率明顯高于局部信息評判結(jié)構(gòu)的成功率,成功率相差達到2倍以上。因此,相比于僅依賴局部信息訓(xùn)練的局部評判算法結(jié)構(gòu),本文提出的集中評判-分布執(zhí)行算法結(jié)構(gòu)可令無人機評判模塊在訓(xùn)練時評估策略對攻防雙方整體態(tài)勢的影響,使無人機可以預(yù)測整體態(tài)勢的變化,從而獲得更高效的協(xié)同對抗策略。
本文針對有限空域內(nèi)多旋翼無人機的協(xié)同攻防對抗問題,考慮對抗雙方不同的機動能力約束,提出了一種基于集中式評判訓(xùn)練和分布式執(zhí)行的多無人機強化學(xué)習(xí)算法,兼顧學(xué)習(xí)速度與執(zhí)行效率,賦予無人機自學(xué)習(xí)和進化的協(xié)同對抗決策能力,主要結(jié)論如下:
1) 集中式評判和分布式執(zhí)行的算法架構(gòu)能夠保證學(xué)習(xí)算法訓(xùn)練的快速穩(wěn)定收斂,文中提出的多無人機強化學(xué)習(xí)算法賦予無人機在與環(huán)境不斷交互中的自學(xué)習(xí)和進化能力。
2) 集中式評判和分布式執(zhí)行的算法架構(gòu)使無人機能通過集中式評判學(xué)習(xí)高效率的協(xié)同攻防策略,同時實現(xiàn)了多無人機的分布式?jīng)Q策,使無人機能夠僅依靠個體局部感知信息,實現(xiàn)多對多協(xié)同攻防對抗,涌現(xiàn)群體智能。
3) 高動態(tài)對抗仿真算例表明,研究提出的多無人機強化學(xué)習(xí)算法在攻防過程中能夠適時地避障、躲藏,增加無人機復(fù)雜環(huán)境的動態(tài)適應(yīng)能力。低機動能力無人機通過彼此協(xié)作,可以彌補機動能力劣勢,實現(xiàn)“以智勝強”。
4) 文中提出的集中式評判和分布式執(zhí)行多無人機強化學(xué)習(xí)算法兼顧分布式?jīng)Q策的要求與策略性能,賦予無人機高效的學(xué)習(xí)能力和協(xié)同協(xié)作能力,為復(fù)雜環(huán)境下空中多無人機協(xié)同攻防推演和決策提供了一種智能化的方法,亦為空中無人系統(tǒng)對抗研究提供了一種新思路。