陳宇軒,王國強(qiáng)*,羅 賀,馬瀅瀅
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009;2.過程優(yōu)化與智能決策教育部重點實驗室,安徽 合肥 230009;3.智能互聯(lián)系統(tǒng)安徽省實驗室,安徽 合肥 230009)
隨著無人化、自動化和人工智能等技術(shù)的飛速發(fā)展,現(xiàn)代空戰(zhàn)無人機(jī)間的交互需求不斷提高,多無人機(jī)協(xié)同作戰(zhàn)逐漸成為空戰(zhàn)的主要形式[1-2]。無人機(jī)間通過自主協(xié)同,將單個無人機(jī)優(yōu)勢轉(zhuǎn)化為編隊的整體優(yōu)勢,實現(xiàn)“1+1>2”的空中作戰(zhàn)效果[3]。多無人機(jī)協(xié)同目標(biāo)分配能夠利用分散的單機(jī)作戰(zhàn)資源,合理有序地分配目標(biāo)進(jìn)行打擊,是提升打擊效能與作戰(zhàn)能力的有效途徑之一[4]。
近年來,大量學(xué)者主要對空戰(zhàn)中給定雙方態(tài)勢下的靜態(tài)目標(biāo)分配問題展開研究[5-14],僅考慮單次目標(biāo)分配,然而真實空戰(zhàn)瞬息萬變,作戰(zhàn)前的目標(biāo)分配方案可能隨著對抗時間的進(jìn)行而不再適用當(dāng)前環(huán)境,對此,決策者需要根據(jù)復(fù)雜、動態(tài)變化的戰(zhàn)場環(huán)境找準(zhǔn)改變當(dāng)前決策的關(guān)鍵時機(jī),及時更改初始決策以達(dá)到整體作戰(zhàn)收益最大或作戰(zhàn)代價最小的目的。因此,有效的目標(biāo)重分配將成為對抗過程中改變局勢、由劣轉(zhuǎn)優(yōu)和有效增強(qiáng)我方優(yōu)勢的重大舉措。
目前,針對空戰(zhàn)過程中目標(biāo)重分配問題的研究文獻(xiàn)較少。其中,龔陽等[15]將目標(biāo)數(shù)量變化作為決策觸發(fā)依據(jù),并采用高斯分量權(quán)值方法進(jìn)行目標(biāo)重分配;張陽等[16]和劉振等[17]通過設(shè)計簡單的規(guī)則得到?jīng)Q策觸發(fā)時機(jī),并運用基于協(xié)議規(guī)則的算法模擬無人機(jī)目標(biāo)分配;楊尚君等[18]同時考慮固定周期和突發(fā)事件作為重分配觸發(fā)規(guī)則,并采用混合細(xì)菌覓食算法進(jìn)行任務(wù)重分配。綜上,當(dāng)前對于多無人機(jī)協(xié)同目標(biāo)重分配的研究多注重于重決策結(jié)果本身,而決策觸發(fā)時機(jī)的選取大多都是基于規(guī)則或通過閾值來設(shè)定的,這類方法原理簡單、易于實現(xiàn),但忽視了空戰(zhàn)場景中的對抗性。同時,在這種不確定信息下的求解存在搜索空間大、參數(shù)變化大等特點,用常規(guī)算法求解具有很大的局限性,這就對目標(biāo)重分配觸發(fā)時機(jī)的求解方法與求解質(zhì)量提出了更高的要求。
隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在智能決策方面取得了重大突破。目前,在重部署[19]、重調(diào)度[20]和重規(guī)劃[21-22]等方面均有大量的研究。這些研究對本文以強(qiáng)化學(xué)習(xí)方法求解目標(biāo)重分配問題具有一定的啟發(fā)?;谏鲜龇治?,首先定義了多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配問題,并建立了多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配總體框架,以所有無人機(jī)的狀態(tài)信息作為輸入得到目標(biāo)重分配時機(jī);然后,針對稀疏獎勵難題,結(jié)合雙方無人機(jī)態(tài)勢優(yōu)勢,設(shè)計了雙層獎勵回報方法,加快策略網(wǎng)絡(luò)收斂速度;最后,基于VR-Forces的多無人機(jī)協(xié)同空戰(zhàn)仿真平臺,驗證了本文方法的有效性。
本文研究的多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配問題可以描述為:在超視距環(huán)境中,紅方無人機(jī)探測到藍(lán)方無人機(jī),并根據(jù)空戰(zhàn)態(tài)勢優(yōu)勢、自身作戰(zhàn)能力以及對手能力威脅等因素,判斷出需要重決策的關(guān)鍵時刻T,在T時刻進(jìn)行目標(biāo)重分配,每架無人機(jī)按照目標(biāo)重分配方案向新目標(biāo)飛行并進(jìn)行后續(xù)對抗,從而在對抗過程中占據(jù)優(yōu)勢,重復(fù)上述過程直至對抗結(jié)束。
多無人機(jī)目標(biāo)重分配過程如圖1所示。環(huán)境中包括紅方無人機(jī)和藍(lán)方無人機(jī),其中,T時刻紅方無人機(jī)根據(jù)敵我雙方的態(tài)勢信息判斷是否觸發(fā)目標(biāo)重分配。
圖1 多無人機(jī)目標(biāo)重分配過程Fig.1 Multi UAV target re-assignment process
假定紅方無人機(jī)數(shù)量為M,藍(lán)方無人機(jī)數(shù)量為N,每架無人機(jī)搭載的武器數(shù)量為Z,z∈Z,最大探測距離為DRmax,最大攻擊距離為DMmax,且每枚導(dǎo)彈對目標(biāo)的毀傷概率已知,當(dāng)無人機(jī)的探測范圍內(nèi)出現(xiàn)對方無人機(jī)時,進(jìn)行首次目標(biāo)分配,目標(biāo)分配后無人機(jī)會向被分配的目標(biāo)方向飛行,設(shè)DRiBj表示紅方i無人機(jī)與藍(lán)方j(luò)無人機(jī)之間的距離,滿足DRiBj≤DMmax時,發(fā)射一枚導(dǎo)彈,每個無人機(jī)執(zhí)行目標(biāo)分配方案時只能攻擊一個目標(biāo),當(dāng)z=0時,不再執(zhí)行目標(biāo)分配方案。
設(shè)紅方的目標(biāo)重分配的觸發(fā)結(jié)果為at∈{0,1},其中,at=0表示紅方無人機(jī)在t時刻不改變當(dāng)前目標(biāo)分配方案,at=1表示紅方無人機(jī)在t時刻進(jìn)行目標(biāo)重分配,目標(biāo)重分配結(jié)果包括以下4種:
① 紅方1號無人機(jī)攻擊藍(lán)方1號無人機(jī),紅方2號無人機(jī)攻擊藍(lán)方1號無人機(jī);
② 紅方1號無人機(jī)攻擊藍(lán)方2號無人機(jī),紅方2號無人機(jī)攻擊藍(lán)方1號無人機(jī);
③ 紅方1號無人機(jī)攻擊藍(lán)方1號無人機(jī),紅方2號無人機(jī)攻擊藍(lán)方2號無人機(jī);
④ 紅方1號無人機(jī)攻擊藍(lán)方2號無人機(jī),紅方2號無人機(jī)攻擊藍(lán)方2號無人機(jī)。
無人機(jī)狀態(tài)示意圖如圖2所示。對于對抗過程中的每一個無人機(jī),可獲取到的狀態(tài)參數(shù)用X表示,X=(x,y,z,v,θ,φ),其中,(x,y,z)表示無人機(jī)的三維坐標(biāo),v表示無人機(jī)的速度,θ表示無人機(jī)的俯仰角,φ表示無人機(jī)的航向角。
圖2 無人機(jī)狀態(tài)示意Fig.2 Schematic diagram of UAV status
以最大化摧毀藍(lán)方目標(biāo)數(shù)量和最小化紅方損失作為目標(biāo)函數(shù),則目標(biāo)函數(shù)F為:
F=max(∑nj-∑mi),nj∈{0,1},mi∈{0,1}
i=1,2,…,M,j=1,2,…,N,
(1)
式中,nj=1表示藍(lán)方無人機(jī)j被摧毀,nj=0表示藍(lán)方無人機(jī)j存活;mi=1表示紅方無人機(jī)i被摧毀,mi=0表示紅方無人機(jī)i存活。
多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法的總體框架如圖3所示。
圖3 多無人機(jī)目標(biāo)重分配總體框架Fig.3 General framework of multi-UAV target re-assignment
該框架包含多無人機(jī)協(xié)同目標(biāo)重分配過程和Actor-Critic強(qiáng)化學(xué)習(xí)框架2大部分,其中,多無人機(jī)協(xié)同目標(biāo)重分配全過程表示:設(shè)計出一個目標(biāo)重分配觸發(fā)機(jī)制,通過無人機(jī)傳感器獲取到的信息,實時解算出目標(biāo)重分配的觸發(fā)時刻T,并在時刻T通過調(diào)用現(xiàn)有目標(biāo)分配模塊的方式求解目標(biāo)分配方案,最后根據(jù)更新后的目標(biāo)分配方案進(jìn)行后續(xù)對抗。Actor-Critic強(qiáng)化學(xué)習(xí)框架表示:智能體根據(jù)環(huán)境得到狀態(tài)信息s,s∈S,輸入到Actor網(wǎng)絡(luò)中求解出相應(yīng)動作a,a∈A,環(huán)境會根據(jù)輸出的動作產(chǎn)生改變,并計算出一個獎勵回報R反饋給Critic網(wǎng)絡(luò),同時,Critic網(wǎng)絡(luò)會根據(jù)環(huán)境給予的獎勵回報R計算TD誤差修正Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò),最后不斷循環(huán)以上過程。綜上,本文采用訓(xùn)練好的Actor網(wǎng)絡(luò)作為目標(biāo)重分配觸發(fā)機(jī)制來解決多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配問題。因此,結(jié)合Actor-Critic框架對多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配過程構(gòu)建馬爾科夫決策過程(MDP)。
MDP簡單說就是一個智能體(agent)采取行動(action)從而改變自己的狀態(tài)(state)獲得獎勵(reward)與環(huán)境(environment)發(fā)生交互的循環(huán)過程。可以由公式M=表示:
①S:有限狀態(tài)集合,為雙方所有無人機(jī)的狀態(tài)數(shù)據(jù)X=(x,y,z,v,θ,φ),包括4架無人機(jī)的位置坐標(biāo)(x,y,z),俯仰角θ,航向角φ和速度v等參數(shù),共24維輸入數(shù)據(jù);
②A:有限動作集合,目標(biāo)重分配的觸發(fā)結(jié)果at∈{0,1},觸發(fā)結(jié)果包括目標(biāo)分配at=1和維持不變at=0兩種,共2維輸出數(shù)據(jù);當(dāng)觸發(fā)結(jié)果為目標(biāo)分配時,無人機(jī)會根據(jù)新的目標(biāo)分配結(jié)果,朝目標(biāo)飛機(jī)方向飛行,當(dāng)目標(biāo)達(dá)到我方無人機(jī)的攻擊范圍內(nèi)時發(fā)射一枚空空導(dǎo)彈;
③T(S,a,S′)~Pr(s′|s,a):根據(jù)當(dāng)前狀態(tài)s和動作a預(yù)測下一個狀態(tài)s′,Pr表示從狀態(tài)s采取行動a轉(zhuǎn)移到s′的概率;
④ 獎勵回報R:R(s,a)=E[Rt+1|s,a],表示agent采取某個動作后的即時獎勵。
采用強(qiáng)化學(xué)習(xí)方法進(jìn)行學(xué)習(xí)的過程就是使獲得累計獎勵回報最大化的過程,即:
(2)
多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法的運行過程偽代碼如下:
基于2.1節(jié)多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法的總體框架,下面對總體框架中的Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)進(jìn)行詳細(xì)設(shè)計。
2.2.1 Critic網(wǎng)絡(luò)
在多無人機(jī)協(xié)同空戰(zhàn)的過程中,Critic網(wǎng)絡(luò)輸入的是雙方無人機(jī)的狀態(tài)信息,輸出為對當(dāng)前局勢的評判值,即狀態(tài)值函數(shù)。神經(jīng)網(wǎng)絡(luò)可以對非線性函數(shù)無限逼近,因此,建立了一個多層神經(jīng)網(wǎng)絡(luò)來擬合狀態(tài)值函數(shù)。通過Critic網(wǎng)絡(luò)分別計算當(dāng)前的狀態(tài)值函數(shù)V(st)=E[Rt+1+γV(St+1)|St=s]和下一時刻的狀態(tài)值函數(shù)V(st+1),同時計算二者間的時間差分誤差(TD誤差),得到Loss函數(shù),最后采用函數(shù)優(yōu)化器更新Critic網(wǎng)絡(luò)參數(shù),即:
FLoss=V(st)φ(t),
(3)
w′←w+β·FLoss,
(4)
式中,β為Critic網(wǎng)絡(luò)學(xué)習(xí)率;φ(t)為TD誤差,計算公式為:
φ(t)=rt+1+γV(st+1)-V(st)。
(5)
為了擬合狀態(tài)值函數(shù),采用含有2層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏層神經(jīng)元取25,激活函數(shù)采用Relu函數(shù),如圖4所示。通過隨機(jī)梯度下降優(yōu)化損失函數(shù),更新網(wǎng)絡(luò)參數(shù)。
圖4 Critic網(wǎng)絡(luò)設(shè)計Fig.4 Critic network design
2.2.2 Actor網(wǎng)絡(luò)
在多無人機(jī)協(xié)同空戰(zhàn)的過程中,Actor網(wǎng)絡(luò)輸入的是雙方無人機(jī)的狀態(tài)信息,輸出目標(biāo)重分配的觸發(fā)結(jié)果。用參數(shù)化的行為策略Pθ表示紅方無人機(jī)選擇的動作,θ是策略的參數(shù),即Pθ(s|a)表示在策略θ參數(shù)下,紅方無人機(jī)處于狀態(tài)s執(zhí)行動作a的概率。同時結(jié)合在Critic網(wǎng)絡(luò)得到的TD誤差φ(t)計算Loss函數(shù)值,進(jìn)而更新Actor網(wǎng)絡(luò)參數(shù),即:
θ′←θ+α·(rt+1+γVπ(st+1)-Vπ(st))lnPθ(at|st)。
(6)
Actor網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,與Critic網(wǎng)絡(luò)結(jié)構(gòu)相似,采用含有2層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏層神經(jīng)元取25,隱藏層激活函數(shù)采用Relu函數(shù),輸出層激活函數(shù)采用softmax函數(shù),通過隨機(jī)梯度下降優(yōu)化損失函數(shù),更新網(wǎng)絡(luò)參數(shù)。
圖5 Actor網(wǎng)絡(luò)設(shè)計Fig.5 Actor network design
在多無人機(jī)協(xié)同空戰(zhàn)的場景下,采用強(qiáng)化學(xué)習(xí)方法往往存在稀疏獎勵問題,僅有對抗雙方無人機(jī)的損毀才可以得到明確的獎勵,對抗中不能立刻得到客觀的回報,這就導(dǎo)致獎勵回報難以人為設(shè)計且存在主觀性和經(jīng)驗性,進(jìn)而影響模型的訓(xùn)練效率。因此,針對此問題,設(shè)計了全局和局部2部分相結(jié)合的雙層獎勵回報,如圖6所示。
圖6 獎勵回報設(shè)計思路Fig.6 Reward design ideas
本文獎勵回報的設(shè)計遵循以下2個原則:
① 以最大化摧毀藍(lán)方無人機(jī)數(shù)量和最小化紅方損失作為主要目標(biāo)。
② 紅方在對抗過程中盡量增大對抗優(yōu)勢。
因此,獎勵回報的設(shè)計主要考慮無人機(jī)存活情況以及態(tài)勢優(yōu)勢,設(shè)計如下所示:
r=r0+r1,
(7)
式中,r為獎勵回報;r0為全局獎勵回報;r1為局部獎勵回報。
(1) 全局獎勵回報
全局獎勵回報具體設(shè)計如下:
r0=k*(N-p)+(-k)*(M-q),
(8)
式(8)表示當(dāng)發(fā)生藍(lán)方無人機(jī)損毀時,獲得k獎勵回報;同理,發(fā)生紅方無人機(jī)損毀,獲得-k獎勵回報。r0為全局獎勵回報;M為紅方無人機(jī)初始數(shù)量;N為藍(lán)方無人機(jī)初始數(shù)量;q為紅方無人機(jī)存活數(shù)量;p為藍(lán)方無人機(jī)存活數(shù)量。
(2) 局部獎勵回報
局部獎勵回報又稱引導(dǎo)型獎勵回報,由距離獎勵回報、角度獎勵回報以及速度獎勵回報3部分組成,具體設(shè)計如下:
r1=r11+r12+r13,
(9)
式中,r1為局部獎勵回報;r11為距離獎勵回報;r12為角度獎勵回報;r13為速度獎勵回報。
① 距離獎勵回報r11
(10)
(11)
(12)
式中,DRmax為最大搜索距離;DMmax為最大攻擊距離;DRiBj為紅方無人機(jī)i到藍(lán)方無人機(jī)j的距離;DLmax為紅方無人機(jī)i與藍(lán)方無人機(jī)j的初始距離;m為距離系數(shù)。
② 角度獎勵回報r12
(13)
(14)
③ 速度獎勵回報r13
(15)
(16)
(17)
式中,v0為最佳攻擊速度;vRi為紅方無人機(jī)i速度;vBj為藍(lán)方無人機(jī)j速度;vmax為無人機(jī)最大速度。
基于多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配問題的典型案例,詳細(xì)說明了驗證本文方法的仿真環(huán)境;對所提出方法進(jìn)行參數(shù)敏感性分析,分析本文方法的最優(yōu)超參數(shù);針對所設(shè)計的獎勵回報,分析出超參數(shù)k的最佳取值;在多種典型對抗場景進(jìn)行仿真實驗,分析方法有效性;針對本文所設(shè)計的全局獎勵回報和局部獎勵回報,設(shè)計消融實驗,分別研究全局獎勵回報和局部獎勵回報對算法性能的影響。
3.1.1 基于VR-Forces開發(fā)的仿真環(huán)境
本文基于VR-Forces環(huán)境搭建了多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)分配仿真平臺[28],該平臺由紅方子系統(tǒng)、藍(lán)方子系統(tǒng)、白方子系統(tǒng)以及強(qiáng)化學(xué)習(xí)算法子系統(tǒng)4部分組成,并在同一局域網(wǎng)下進(jìn)行通信。
多無人機(jī)協(xié)同對抗仿真系統(tǒng)如圖7所示。該仿真系統(tǒng)包括紅方子系統(tǒng)、白方子系統(tǒng)、藍(lán)方子系統(tǒng)和目標(biāo)分配子系統(tǒng),采用分布式架構(gòu)部署在4臺機(jī)器上,紅方加載本文方法與藍(lán)方基線觸發(fā)規(guī)則進(jìn)行對抗,同時紅藍(lán)雙方均布有目標(biāo)分配算法,白方通過加載批處理模塊和數(shù)據(jù)記錄模塊進(jìn)行訓(xùn)練和結(jié)果顯示。
圖7 多無人機(jī)協(xié)同對抗仿真系統(tǒng)Fig.7 Multi-UAV cooperative confrontation simulation system
其中,紅方子系統(tǒng)作為客戶端,目標(biāo)重分配子系統(tǒng)作為服務(wù)端,通過采用websockets協(xié)議實現(xiàn)子系統(tǒng)間的通信,進(jìn)行數(shù)據(jù)的交互,發(fā)送的數(shù)據(jù)使用json格式進(jìn)行封裝。目標(biāo)重分配子系統(tǒng)接收到數(shù)據(jù)后,需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)補(bǔ)全和數(shù)據(jù)歸一化等預(yù)處理再輸入到算法中進(jìn)行仿真訓(xùn)練。仿真系統(tǒng)的軟硬件參數(shù)如表1所示,目標(biāo)重分配觸發(fā)機(jī)制參數(shù)如表2所示。
表1 軟硬件環(huán)境參數(shù)Tab.1 Software and hardware environment parameters
表2 目標(biāo)重分配觸發(fā)機(jī)制參數(shù)Tab.2 Target re-assignment trigger mechanism parameters
3.1.2 實驗場景介紹
2對2典型對抗場景示意圖如圖8所示。仿真對抗區(qū)域為50 km×80 km的矩形區(qū)域,共有4架無人機(jī),其中2架藍(lán)方無人機(jī),2架紅方無人機(jī),每個無人機(jī)的武器數(shù)量為4個,每個無人機(jī)具有相同的毀傷概率,對抗仿真時長取3 min為一局。
圖8 2對2典型對抗場景示意Fig.8 Schematic diagram of 2V2 typical confrontation scenario
(1) 評價指標(biāo)定義
在仿真單局對抗結(jié)束時,根據(jù)對抗雙方無人機(jī)的剩余數(shù)量,定義了3種仿真實驗結(jié)果,具體如下:
① 紅方獲勝:單局仿真結(jié)束時,紅方剩余的無人機(jī)數(shù)量多于藍(lán)方;
② 紅方平局:單局仿真結(jié)束時,紅方和藍(lán)方剩余的無人機(jī)數(shù)量相同;
③ 紅方失?。簡尉址抡娼Y(jié)束時,紅方剩余的無人機(jī)數(shù)量少于藍(lán)方。
在分析仿真對抗勝率變化時,采用Li等[25]提出的獲勝率和失敗率,具體計算如下:
對抗勝率 = 勝場 /(勝場 + 敗場)×100%,
失敗率 = 敗場 /(勝場 + 敗場)×100%。
(2) 典型對抗場景設(shè)計
在多無人機(jī)協(xié)同對抗過程中,對抗雙方之間的優(yōu)劣勢主要和對抗雙方無人機(jī)的數(shù)量、性能以及相對態(tài)勢有關(guān)。當(dāng)雙方無人機(jī)的數(shù)量、性能相同時,對抗雙方之間的優(yōu)劣勢主要和雙方無人機(jī)的相對態(tài)勢有關(guān)[26-27]。對此,通過調(diào)整對抗雙方無人機(jī)的位置、角度,分別設(shè)計了紅方優(yōu)勢、紅方劣勢和雙方均勢情形下的典型對抗場景。
(3) 基線觸發(fā)規(guī)則
參考張陽等[16]設(shè)定的決策觸發(fā)規(guī)則作為目標(biāo)重分配基線觸發(fā)規(guī)則,包括:
① 當(dāng)雙方無人機(jī)數(shù)量變化;
② 當(dāng)對方無人機(jī)進(jìn)入探測范圍。
(4) 目標(biāo)分配算法
進(jìn)行仿真實驗時,雙方無人機(jī)的目標(biāo)分配算法均采用馬瀅瀅等[4]提出的基于混合整數(shù)規(guī)劃轉(zhuǎn)換的雙矩陣博弈目標(biāo)分配算法。
(5) 實驗組與對照組
在同一典型對抗場景下分別進(jìn)行實驗組和對照組2類實驗,通過對比多個典型對抗場景下實驗組和對照組的數(shù)據(jù)進(jìn)行實驗分析。
① 實驗組
紅方:基于Actor-Critic算法的多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法,目標(biāo)分配算法;
藍(lán)方:基線觸發(fā)規(guī)則,目標(biāo)分配算法。
② 對照組
紅方:基線觸發(fā)規(guī)則,目標(biāo)分配算法;
藍(lán)方:基線觸發(fā)規(guī)則,目標(biāo)分配算法。
在參數(shù)敏感性分析實驗中,通過調(diào)整Critic網(wǎng)絡(luò)學(xué)習(xí)率β,比較在同一場景下對抗的獲勝場次、平局場次和失敗場次,分析出學(xué)習(xí)率變化對仿真對抗的影響。只需要改變Critic網(wǎng)絡(luò)學(xué)習(xí)率就可以調(diào)整網(wǎng)絡(luò)的更新幅度,因此無需對Actor網(wǎng)絡(luò)參數(shù)進(jìn)行敏感性分析。
學(xué)習(xí)率分別取10-1,10-2,10-3,10-4和10-5,并在不同場景下進(jìn)行400場仿真對抗,不同學(xué)習(xí)率下的實驗結(jié)果如表3所示。
表3 參數(shù)敏感性分析仿真實驗結(jié)果Tab.3 Experimental results of parameter sensitivity analysis
由表3可知,在獲勝場次上,當(dāng)學(xué)習(xí)率取10-3時,獲勝場次最高160場,其次是學(xué)習(xí)率取10-2,10-4時,獲勝場次高于140場;在失敗場次上,當(dāng)學(xué)習(xí)率取10-3時,失敗場次最少,為110場,其次是學(xué)習(xí)率取10-1,10-4時,失敗場次低于130場。因此,在參數(shù)敏感性分析實驗中,學(xué)習(xí)率的最佳取值為10-3。
在獎勵回報設(shè)計實驗中,通過改變?nèi)知剟罨貓蟪瑓?shù)k,來調(diào)整全局獎勵回報和局部獎勵回報間的占比關(guān)系,從而分析獎勵回報取值變化對對抗勝率的影響,超參數(shù)k分別取1,3,5,7和9,并進(jìn)行400場仿真對抗,不同全局獎勵回報超參數(shù)k下的對抗勝率如圖9所示。
由圖9可知,當(dāng)超參數(shù)k=1,k=3和k=5時,對抗勝率隨著場數(shù)的增加而增加,k=5時對抗勝率增長幅度最大,k=1時對抗勝率增長幅度最小,由此可見,當(dāng)k=1和k=3時,由于全局獎勵回報的占比過少,導(dǎo)致對抗勝率增長緩慢;當(dāng)超參數(shù)k=7時,在001~100場、101~200場的訓(xùn)練中,對抗勝率最高、提升的最快,然而,在201~300場的訓(xùn)練中發(fā)生了大幅度的下降,由此可見,全局獎勵回報的占比過高時,淡化了局部獎勵回報的作用,造成了訓(xùn)練的不穩(wěn)定;超參數(shù)k=9時,在101~200場的訓(xùn)練中發(fā)生了大幅度的下降,后續(xù)對抗勝率持續(xù)升高,最終略高于k=3和k=7時的對抗勝率。綜上,當(dāng)k=5時訓(xùn)練可以穩(wěn)定提升對抗勝率,因此,在后續(xù)實驗中超參數(shù)k=5。
為了本文方法的有效性,在每個場景下分別做400次仿真對抗實驗,與對照組實驗進(jìn)行對比,分析該方法的有效性。均勢場景下對抗結(jié)果如圖10所示,優(yōu)勢場景下對抗結(jié)果如圖11所示,劣勢場景下對抗結(jié)果如圖12所示。
圖10 均勢場景下對抗結(jié)果Fig.10 Confrontation results under power-balanced scenarios
圖11 優(yōu)勢場景下對抗結(jié)果Fig.11 Confrontation results under advantageous scenario
圖12 劣勢場景下對抗結(jié)果Fig.12 Confrontation results under disadvantageous scenario
從實驗可以看出,在3種典型對抗場景下,采用本文方法的效果均不同程度地優(yōu)于基線方法。由圖10可以看出,在均勢場景中采用本文方法,平局場數(shù)增加7局,失敗場數(shù)降低38局,獲勝場次增加31局;由圖11可以看出,優(yōu)勢場景中實驗組比對照組的獲勝場次增加39局,失敗場次減少6局,可以看出在優(yōu)勢場景下采用本文方法可以增大優(yōu)勢,對抗勝率;由圖12可以看出,劣勢場景中實驗組比對照組的獲勝場次增加23局,失敗場次減少55局,可以看出在劣勢場景下采用本文方法可以改變劣勢,從而提高勝率。
在3種不同的典型對抗場景下的勝率變化如圖13、圖14和圖15所示。
圖13 均勢場景下勝率變化Fig.13 Change of winning rate under power-balanced scenario
圖14 優(yōu)勢場景下勝率變化Fig.14 Change of winning rate under advantageous scenario
圖15 劣勢場景下勝率變化Fig.15 Change of winning rate under disadvantageous scenario
由圖13可以看出,在均勢場景中采用本文方法,對抗勝率持續(xù)上升,與訓(xùn)練次數(shù)成正比關(guān)系。同時,由圖14和圖15可以看出,在優(yōu)勢場景、劣勢場景下對抗勝率隨訓(xùn)練次數(shù)的增加均有不同程度的上升。綜上可見,本文所提出的多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配方法能夠有效地提升空戰(zhàn)對抗的勝率。
本文所設(shè)計的獎勵回報包含全局獎勵回報和局部獎勵回報2部分,為分析全局獎勵回報和局部獎勵回報對算法性能的影響,設(shè)計消融實驗,實驗設(shè)置如表4所示。
表4 消融實驗設(shè)置Tab.4 Setting of ablation experiment
其中,AC-全局表示僅包含全局獎勵回報;AC-局部表示僅包含局部獎勵回報。本文算法、AC-全局和AC-局部算法隨著對抗場數(shù)的增加,對抗勝率的變化情況如圖16所示。
圖16 消融實驗勝率變化Fig.16 Change of winning rate of ablation experiment
可以看出,僅采用局部獎勵回報的AC-局部算法隨著訓(xùn)練次數(shù)的增加,對抗勝率持續(xù)上升,然而相比于本文算法,對抗勝率上升緩慢;僅采用全局獎勵回報的AC-全局算法訓(xùn)練時,對抗勝率變化上下浮動較大,在101~200場和301~400場的訓(xùn)練中對抗勝率發(fā)生了大幅度的下降,缺乏一定的穩(wěn)定性。由此可見,本文算法在穩(wěn)定性和有效性上均優(yōu)于單一采用全局獎勵回報或局部獎勵回報的算法,驗證了本文雙層獎勵回報的必要性。
多無人機(jī)協(xié)同空戰(zhàn)中存在許多不確定性、實時性等特點,給目標(biāo)重分配問題帶來了許多新的變化,基于強(qiáng)化學(xué)習(xí)的思想,設(shè)計了基于Actor-Critic算法的多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配框架,并結(jié)合空戰(zhàn)場景的需求構(gòu)建了Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)模型,設(shè)計了解決空戰(zhàn)稀疏獎勵問題的雙層回報函數(shù)。實驗結(jié)果表明,本文求解方法的有效性。在后續(xù)工作中,一方面將進(jìn)一步考慮空戰(zhàn)中的分布式作戰(zhàn)特點,基于多智能體強(qiáng)化學(xué)習(xí)對多無人機(jī)協(xié)同空戰(zhàn)目標(biāo)重分配問題進(jìn)行了研究;另一方面,目標(biāo)重分配屬于空戰(zhàn)重決策問題之一,在未來的工作中可以嘗試對戰(zhàn)術(shù)決策、角色分配等環(huán)節(jié)進(jìn)行重決策。