馬 悅, 吳 琳, 許 霄
(1. 國防大學(xué)研究生院, 北京 100091; 2. 中國人民解放軍 31002部隊, 北京 100091;3. 國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 北京 100091)
協(xié)同目標(biāo)分配,決定了兵力運用的科學(xué)性和合理性,是將作戰(zhàn)意圖落地為作戰(zhàn)行動的關(guān)鍵環(huán)節(jié)[1]。在同一時間或空間范圍內(nèi),多個作戰(zhàn)單元為完成同一項作戰(zhàn)任務(wù)或相互之間存在邏輯關(guān)系的多個作戰(zhàn)任務(wù)時,需從時間、空間和效果等角度考慮,進(jìn)行目標(biāo)或火力的合理分配,以最大作戰(zhàn)效費比和最小作戰(zhàn)風(fēng)險獲得最優(yōu)打擊效果。
協(xié)同目標(biāo)分配是一種典型的非線性多項式完全問題,決策空間隨問題規(guī)模(即作戰(zhàn)單元數(shù)目和作戰(zhàn)目標(biāo)數(shù)目)增大呈指數(shù)級增長,求解結(jié)果的的實時性、準(zhǔn)確性和有效性將直接影響軍事對抗中能否取得最佳作戰(zhàn)效果。在軍事運籌領(lǐng)域,協(xié)同目標(biāo)分配通常被規(guī)約為兵力分配、火力分配或武器目標(biāo)分配(weapon target assignment, WTA)等問題[2-3],常用求解方法可分為傳統(tǒng)規(guī)劃方法[4]、模擬退火(simulated annealing, SA)算法[5-6]、蟻群優(yōu)化(ant colony optimization, ACO)算法[7]、粒子群優(yōu)化(partical swarm optimization, PSO)算法[8-11]、進(jìn)化算法(evolutionary algorithm, EA)[12-15]和合同網(wǎng)協(xié)議(contract net protocol, CNP)[16]?,F(xiàn)有研究雖從不同角度對各種算法進(jìn)行了改進(jìn),并成功應(yīng)用于不同場景,但關(guān)于動態(tài)不確定環(huán)境下的協(xié)同目標(biāo)分配研究較少,且難以保證大規(guī)模目標(biāo)分配問題的求解效率。
在分布式作戰(zhàn)自同步理論中[17],協(xié)同關(guān)系體現(xiàn)為作戰(zhàn)單元“自底向上組織復(fù)雜戰(zhàn)爭的行為”。將作戰(zhàn)單元構(gòu)建為智能體,協(xié)同目標(biāo)分配問題便轉(zhuǎn)化為多智能體協(xié)作(multi-agent cooperation, MAC)問題,多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)[18]在解決類似協(xié)作問題上有著廣泛應(yīng)用[19-23]。據(jù)此,通過分析協(xié)同目標(biāo)分配的軍事內(nèi)涵,構(gòu)建了基于MARL的協(xié)同目標(biāo)分配模型,采用局部策略評分和集中式策略推理,利用Advantage Actor-Critic算法進(jìn)行策略學(xué)習(xí),以期能夠?qū)崿F(xiàn)簡單場景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場景,從而有效實現(xiàn)大規(guī)模目標(biāo)分配。
為在統(tǒng)一語義框架下描述協(xié)同目標(biāo)分配問題,定義以下相關(guān)概念。
作戰(zhàn)單元,指能夠獨立遂行作戰(zhàn)任務(wù)的基本作戰(zhàn)單位,為執(zhí)行作戰(zhàn)任務(wù)提供作戰(zhàn)資源。在協(xié)同目標(biāo)分配中,作戰(zhàn)單元是不可再分割的基本作戰(zhàn)單位或作戰(zhàn)平臺。
作戰(zhàn)目標(biāo),指戰(zhàn)場上存在且具有一定軍事價值的客觀實體,是作戰(zhàn)單元執(zhí)行作戰(zhàn)任務(wù)時所作用的客觀對象。
作戰(zhàn)協(xié)同關(guān)系,指多個作戰(zhàn)單元在同一時空范圍內(nèi)執(zhí)行同一作戰(zhàn)任務(wù)或具有邏輯關(guān)系的不同作戰(zhàn)任務(wù)時,在空間部署、時間銜接、目標(biāo)分配、火力分配和效果達(dá)成等方面,所形成的相互照應(yīng)、相互配合和優(yōu)劣互補(bǔ)的關(guān)系。
協(xié)同目標(biāo)分配描述過程中,定義以下符號。
(1) Tg={tg1,tg2,…,tgN}:打擊目標(biāo)清單列表,N為打擊目標(biāo)總數(shù)。
(2)U={u1,u2,…,uM}:進(jìn)攻方可用作戰(zhàn)單元列表,M為作戰(zhàn)單元總數(shù)。
(3)W={w1,w2,…,wL}:進(jìn)攻方可用彈藥類型列表,L為彈藥類型總數(shù)。
(4) Vtg={vtg1,vtg2,…,vtgN}:各作戰(zhàn)目標(biāo)被摧毀后的收益價值列表。vtgi為打擊目標(biāo)tgi被摧毀后的收益價值,i∈{1,2,…,N}。
(5) Vu={vu1,vu2,…,vuM}:各作戰(zhàn)單元被摧毀后的損失價值列表。vuj為作戰(zhàn)單元uj被摧毀后的損失價值,j∈{1,2,…,M}。
(6) Vw={vw1,vw2,…,vwL}:各類型彈藥消耗單位數(shù)量后的損失價值列表。vwl為wl類型彈藥消耗單位數(shù)量后的損失價值,l∈{1,2,…,L}。
(7) Tglt=(tglt,1,tglt,2,…,tglt,N):執(zhí)行第t次分配方案時被摧毀目標(biāo)清單。tglt,i表示目標(biāo)tgi是否被摧毀,tglt,i=1表示被摧毀,否則tglt,i=0。
(8) Ult=(ult,1,ult,2,…,ult,M):執(zhí)行第t次目標(biāo)分配方案時被摧毀單元清單。ult,j表示單元uj是否被摧毀,ult,j=1表示被摧毀,否則ult,j=0。
(9) Wlt=(wlt,1,wlt,2,…,wlt,L):執(zhí)行第t次目標(biāo)分配方案時進(jìn)攻方的彈藥消耗清單。wlt,l表示wl類型彈藥的消耗數(shù)量。
(10) Vlsumt:執(zhí)行第t次目標(biāo)分配方案時防守方的彈藥消耗價值總量。
(11) Wut,j=(wt,j,1,wt,j,2,…,wt,j,L):執(zhí)行第t次目標(biāo)分配方案時進(jìn)攻方作戰(zhàn)單元uj的掛載。wj,l為作戰(zhàn)單元uj掛載的wl類型彈藥的數(shù)目。
(12)RPro=[rprol,i]L×N:進(jìn)攻方各類彈藥對不同作戰(zhàn)目標(biāo)的命中毀傷概率矩陣。rprol,i為wl類型彈藥對作戰(zhàn)目標(biāo)tgi的命中毀傷概率。
(13)BPro=(bpro1,bpro2,…,bproM):防守方一體化聯(lián)合防空反導(dǎo)對進(jìn)攻方各作戰(zhàn)單元的綜合命中毀傷概率矩陣。bproj為對作戰(zhàn)單元uj的綜合命中毀傷概率。
考慮使命任務(wù)、彈目匹配以及作戰(zhàn)效費比等因素建立數(shù)學(xué)模型,如下所示:
(1)
(1) 模型變量
令變量xi,j,t表示在第t次作戰(zhàn)目標(biāo)分配時,是否指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi。當(dāng)指派單元uj打擊目標(biāo)tgi時,xi,j,t=1,否則xi,j,t=0。因此,模型變量為
X=[xi,j,t]N×M×T
(2)
式中:T為作戰(zhàn)過程中進(jìn)行目標(biāo)分配的總次數(shù);模型變量規(guī)模為N×M×T,在相同問題背景下,隨著決策次數(shù)T的增大呈線性增長。
(2) 目標(biāo)函數(shù)
模型目標(biāo)函數(shù),衡量了作戰(zhàn)效果的大小。參數(shù)α和β,用于平衡兩部分計算結(jié)果對目標(biāo)函數(shù)值的影響;F1(X)表示任務(wù)使命完成度,計算方法如下所示:
(3)
式中:Rle和Ble分別表示作戰(zhàn)結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。
F2(X)/F3(X)表示作戰(zhàn)效費比;F2(X)表示作戰(zhàn)過程中摧毀敵方作戰(zhàn)目標(biāo)和消耗敵方彈藥所產(chǎn)生的總收益;F3(X)表示作戰(zhàn)過程中自身作戰(zhàn)單元被摧毀和彈藥消耗所產(chǎn)生的總損失,計算方法如下所示:
(4)
(3) 約束條件
1)Φ(t)表示執(zhí)行第t次目標(biāo)分配方案所產(chǎn)生的結(jié)果。根據(jù)各方彈目匹配關(guān)系及命中毀傷概率(BPro與RPro),執(zhí)行作戰(zhàn)目標(biāo)分配方案Xt,得到進(jìn)攻方作戰(zhàn)單元損失情況Ult和彈藥消耗情況Wlt、敵方作戰(zhàn)目標(biāo)被摧毀情況Tglt和彈藥消耗總價值Vlsumt。
(5)
MAC問題的聯(lián)合狀態(tài)動作空間,隨著智能體與任務(wù)數(shù)目的增多呈指數(shù)級增長。大規(guī)模作戰(zhàn)場景下的協(xié)同策略訓(xùn)練,對訓(xùn)練時間和計算能力具有更高要求。因此,如何能夠?qū)崿F(xiàn)簡單場景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場景,是有效解決大規(guī)模協(xié)同目標(biāo)分配問題的關(guān)鍵。諸多學(xué)者針對上述類似問題,或利用空間近鄰性構(gòu)建獎勵函數(shù)和任務(wù)分配策略以期實現(xiàn)可泛化應(yīng)用模型[24-25],或使用集中式評價方法以期解決分散策略學(xué)習(xí)問題[26-27]。而Carion提出了一種學(xué)習(xí)預(yù)測模型及訓(xùn)練方法[28],為解決本文問題提供了很好的借鑒。
考慮遠(yuǎn)期決策對當(dāng)前收益影響的衰減,動作價值函數(shù)如下所示:
qπ(St,At)=E(Rt+1+γqπ(St+1,At+1)|St,At)
(6)
式中:St為時刻t作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài);E(·)為求解期望值的函數(shù)。
問題目標(biāo)是通過學(xué)習(xí)獲取一個最優(yōu)協(xié)同目標(biāo)分配策略,保證所有作戰(zhàn)單元的協(xié)同打擊行動能夠使獎勵函數(shù)在長期內(nèi)達(dá)到最大化,如下所示:
(7)
在此,構(gòu)建基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練及應(yīng)用框架,如圖1所示,具體流程如下。
圖1 基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練與應(yīng)用Fig.1 Training and application of cooperative targets assignment model based on MARL
步驟 1基于深度強(qiáng)化學(xué)習(xí)優(yōu)化協(xié)同目標(biāo)分配策略。在此,“智能體”是進(jìn)攻方的各作戰(zhàn)單元,“動作”是作戰(zhàn)單元選擇打擊哪個作戰(zhàn)目標(biāo),“環(huán)境”是本文實驗平臺-計算機(jī)兵棋推演系統(tǒng)的模擬仿真環(huán)境,“狀態(tài)”為所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)。在每一步學(xué)習(xí)中,采用“集中式策略推理模型”獲取目標(biāo)分配方案,各作戰(zhàn)單元根據(jù)分配方案和固定行動規(guī)則對作戰(zhàn)目標(biāo)進(jìn)行打擊,兵棋系統(tǒng)會實時返回各棋子狀態(tài)和交戰(zhàn)結(jié)果。而后,依據(jù)系統(tǒng)環(huán)境返回的收益值信息,利用基于多層神經(jīng)網(wǎng)絡(luò)的“評分模型”對該步目標(biāo)分配方案進(jìn)行優(yōu)劣評價,評價值用于優(yōu)化策略。
步驟 2最優(yōu)協(xié)同目標(biāo)分配策略的模擬執(zhí)行。在利用計算機(jī)兵棋系統(tǒng)對某次聯(lián)合火力打擊進(jìn)行模擬仿真時,每隔一段時間Δt,依據(jù)最優(yōu)協(xié)同目標(biāo)分配策略生成目標(biāo)分配方案,各作戰(zhàn)單元依據(jù)當(dāng)前方案實時調(diào)整打擊對象。當(dāng)完成打擊任務(wù)后,將得到一個隨時間變化的“作戰(zhàn)目標(biāo)分配方案序列”。作戰(zhàn)單元在各目標(biāo)分配方案中分配得到的作戰(zhàn)目標(biāo),組成了該作戰(zhàn)單元的打擊目標(biāo)序列;作戰(zhàn)目標(biāo)在各目標(biāo)分配方案中是否被打擊,形成了不同作戰(zhàn)目標(biāo)之間的先后打擊順序。
2.1.1 協(xié)同目標(biāo)分配方案表示
在決策時刻t,一個確定的策略π會根據(jù)所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)〈S1,t,S2,t〉,給出能夠獲取最大回報的聯(lián)合動作At=maxπ(S1,t,S2,t,t)。At實質(zhì)就是時刻t的協(xié)同目標(biāo)分配方案,可用分配矩陣Bt等價表示,如下所示:
(8)
式中:bi,j表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi,如果打擊則bi,j=1,否則bi,j=0。
若每隔時間Δt生成一次作戰(zhàn)目標(biāo)分配方案,當(dāng)完成打擊任務(wù)后,將會得到該作戰(zhàn)場景下的一個作戰(zhàn)目標(biāo)分配方案序列,如下所示:
B=[B1,B2,…,Bt,…,BT]
(9)
2.1.2 底層固定行動規(guī)則
當(dāng)給定分配矩陣Bt后,各作戰(zhàn)單元將會按照固定行動規(guī)則對指派的作戰(zhàn)目標(biāo)進(jìn)行打擊。作戰(zhàn)單元的行動規(guī)則包括:作戰(zhàn)單元自動規(guī)劃打擊目標(biāo)的最短路徑;作戰(zhàn)目標(biāo)進(jìn)入射程范圍后,作戰(zhàn)單元將根據(jù)自身掛載的命中毀傷概率,計算彈藥發(fā)射數(shù)量;作戰(zhàn)單元消耗完自身彈藥或油料后將自動退出作戰(zhàn)。上述行動規(guī)劃均由計算機(jī)兵棋系統(tǒng)自動完成,符合軍事規(guī)范并在長期應(yīng)用中得到驗證。因此,學(xué)習(xí)任務(wù)將聚焦于分配策略π的學(xué)習(xí),而作戰(zhàn)單元對作戰(zhàn)目標(biāo)的具體打擊行為不需要進(jìn)行訓(xùn)練。
2.1.3 獎勵函數(shù)
根據(jù)協(xié)同目標(biāo)分配模型的目標(biāo)函數(shù),構(gòu)建強(qiáng)化學(xué)習(xí)的單步獎勵函數(shù),計算方法如下所示:
(10)
式中:Rt表示在第t步得到的單步獎勵值;bvs和blst表示防守方作戰(zhàn)目標(biāo)及彈藥的總價值與第t步時被摧毀/消耗后的總收益;rvs和rlst表示進(jìn)攻方作戰(zhàn)單元及彈藥的總價值與第t步時被摧毀/消耗后的總損失;d標(biāo)識作戰(zhàn)過程是否結(jié)束,若結(jié)束則d=1,否則d=0;r_d為作戰(zhàn)結(jié)束時的獎勵值;Rle和Ble分別表示作戰(zhàn)過程結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。
評分模型根據(jù)作戰(zhàn)單元和作戰(zhàn)目標(biāo)的狀態(tài),評價當(dāng)前策略的優(yōu)劣。在此,采用多層神經(jīng)網(wǎng)絡(luò)構(gòu)建局部評分模型,通過不斷學(xué)習(xí)優(yōu)化模型參數(shù)來提高模型評分的精確度,可用h(s1,i,s2,j,θ1)和g(s1,i,s1,k,θ2)表示。其中,h(·)對作戰(zhàn)單元與作戰(zhàn)目標(biāo)的分配關(guān)系進(jìn)行評分,反映了指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣;g(·)對作戰(zhàn)目標(biāo)之間的打擊順序進(jìn)行評分,反映了作戰(zhàn)目標(biāo)tgi與tgk先后打擊順序的優(yōu)劣;s2,j表示作戰(zhàn)單元uj的狀態(tài);s1,i和s1,k分別表示作戰(zhàn)目標(biāo)tgi與tgk的狀態(tài);θ1和θ2分別為兩個神經(jīng)網(wǎng)絡(luò)的參數(shù)。
在某一決策時刻,經(jīng)過評分后可得到兩個評分矩陣H和G,分別如下所示:
(11)
(12)
式中:hθ1(i,j)表示對作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的評分;gθ2(i,k)表示對作戰(zhàn)目標(biāo)tgi與tgk打擊順序的評分。
評分模型h(·)和g(·)分別采用結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),如圖2所示。h(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)單元和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量;g(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)目標(biāo)和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量。作戰(zhàn)單元和作戰(zhàn)目標(biāo)的特征狀態(tài),包括類型、位置、自身價值、彈藥攜帶量和彈藥單位價值。輸入數(shù)據(jù)經(jīng)過批標(biāo)準(zhǔn)化層和4個全連接層后,輸出評分?jǐn)?shù)值。
圖2 評分模型神經(jīng)網(wǎng)絡(luò)Fig.2 Scoring model neural network
協(xié)同策略推理模型主要負(fù)責(zé)根據(jù)評分矩陣H和G確定能夠獲取最大評分總數(shù)的分配矩陣Bt。在協(xié)同目標(biāo)分配策略π為確定性策略時,分配矩陣Bt只與當(dāng)前t時刻各作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)有關(guān)。在學(xué)習(xí)過程中,分配矩陣Bt還取決于評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。因此,可使用參數(shù)化Bt(S1,S2,θ1,θ2)表示分配矩陣。
一種貪婪的策略推理,是將作戰(zhàn)單元指派給h(·)分?jǐn)?shù)最高的作戰(zhàn)目標(biāo)。但貪婪地選擇分?jǐn)?shù)最大的作戰(zhàn)單元打擊作戰(zhàn)目標(biāo),實質(zhì)是默認(rèn)打擊目標(biāo)的效益與指派打擊該目標(biāo)的作戰(zhàn)單元數(shù)目呈正比例關(guān)系。然而,當(dāng)作戰(zhàn)單元和作戰(zhàn)目標(biāo)數(shù)目較多時,打擊某一作戰(zhàn)目標(biāo)的總收益,會隨著指派作戰(zhàn)單元的數(shù)目增大而趨于飽和,從而導(dǎo)致嚴(yán)重的資源浪費。因此,需要限制打擊同一作戰(zhàn)目標(biāo)的作戰(zhàn)單元數(shù)量。
此外,還需要考慮不同作戰(zhàn)目標(biāo)的先后打擊順序。當(dāng)考慮作戰(zhàn)目標(biāo)之間的約束關(guān)系時,可能會出現(xiàn)兩種極端情況:一種情況是作戰(zhàn)目標(biāo)之間的相關(guān)關(guān)系較弱,則作戰(zhàn)單元會被“分散”指派給各個作戰(zhàn)目標(biāo)并同時執(zhí)行打擊任務(wù);另一種情況是作戰(zhàn)目標(biāo)之間存在較強(qiáng)的相關(guān)關(guān)系,則作戰(zhàn)單元會被“集中”指派去打擊重要性較大的作戰(zhàn)目標(biāo),而后按照重要性順序依次打擊其他作戰(zhàn)目標(biāo)。在實際作戰(zhàn)中,作戰(zhàn)目標(biāo)之間的重要性對比關(guān)系,應(yīng)處于上述兩種極端情況之間。
協(xié)同策略推理過程,可表示為
(13)
式中,bi,j為分配矩陣Bt(S1,S2,θ1,θ2)中第i行第j列的元素,表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi;h(i,j,θ1)為評分矩陣H中第i行第j列的元素,表示指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣程度;g(i,k,θ2)為評分矩陣G中第i行第k列的元素,表示對作戰(zhàn)目標(biāo)tgi與tgk的打擊順序的評分;約束條件∑bi,j≤1,表示指派作戰(zhàn)單元uj打擊的作戰(zhàn)目標(biāo)數(shù)目最多為1;φi(si)表示打擊作戰(zhàn)目標(biāo)tgi的最大彈藥需求量,使用φi,j(si,sj)表示作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的打擊效果;約束條件∑φi,j(si,sj)bi,j≤φi(si)表示指派打擊作戰(zhàn)目標(biāo)tgi的作戰(zhàn)單元的打擊效果之和不能超出該作戰(zhàn)目標(biāo)的打擊需求。
協(xié)同目標(biāo)分配策略的優(yōu)化,需要通過學(xué)習(xí)算法實現(xiàn)。在此,將“評分”視為一個負(fù)責(zé)頂層決策的虛擬中心智能體的“動作”,將“評分模型”作為需要學(xué)習(xí)的“策略”,將協(xié)同策略推理過程和仿真模擬環(huán)境統(tǒng)一看作為學(xué)習(xí)“環(huán)境”,通過A2C (advantage actor-critic)算法[29-30]進(jìn)行策略優(yōu)化。策略網(wǎng)絡(luò)Actor用于逼近“評分模型”,評價網(wǎng)絡(luò)Critic用于逼近整個“環(huán)境”運行產(chǎn)生的累計回報。學(xué)習(xí)優(yōu)化的基本過程,如圖3所示,具體步驟如下。
圖3 基于A2C算法的學(xué)習(xí)過程Fig.3 Learning process based on A2C
步驟 1策略網(wǎng)絡(luò)Actor為第2.2節(jié)中所構(gòu)建的評分模型。神經(jīng)網(wǎng)絡(luò)接收當(dāng)前作戰(zhàn)單元和作戰(zhàn)目標(biāo)的空間分布狀態(tài),通過網(wǎng)絡(luò)前向傳播計算評分矩陣H和G。然后,將H和G作為“動作”輸出給協(xié)同策略推理模型。
步驟 2協(xié)同策略推理模型根據(jù)評分矩陣H和G,通過策略推理制定協(xié)同目標(biāo)分配方案,具體方法如第2.3節(jié)所述。然后,將協(xié)同目標(biāo)分配方案下達(dá)給各作戰(zhàn)單元,各作戰(zhàn)單元按照底層固定的行動策略執(zhí)行目標(biāo)打擊任務(wù)。
步驟 3評價網(wǎng)絡(luò)Critic接收目標(biāo)分配方案單步執(zhí)行后產(chǎn)生的獎勵值,單步獎勵值的計算方法如式(11)所示。然后,通過神經(jīng)網(wǎng)絡(luò)的前向傳播計算執(zhí)行“動作”H和G所產(chǎn)生的評價值,并更新優(yōu)化網(wǎng)絡(luò)參數(shù)。最后,將計算得到的關(guān)于收益的TD-error輸出給策略網(wǎng)絡(luò)Actor。
步驟 4策略網(wǎng)絡(luò)Actor接收TD-error后,更新優(yōu)化評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。
步驟 5迭代上述過程,直至學(xué)習(xí)結(jié)束。
在某型計算機(jī)兵棋系統(tǒng)上,以聯(lián)合火力打擊為例,驗證本文協(xié)同目標(biāo)分配方法。
(1) 實驗設(shè)計與數(shù)據(jù)
實驗背景:為保證聯(lián)合任務(wù)部隊能夠順利渡海登陸,現(xiàn)對敵沿岸雷達(dá)陣地、防空陣地、機(jī)場和指揮所進(jìn)行聯(lián)合火力打擊。
實驗思路:構(gòu)建兩個不同復(fù)雜度的實驗場景,如表1所示;在小場景中進(jìn)行模型訓(xùn)練,而后在相同場景下,應(yīng)用訓(xùn)練好的模型進(jìn)行仿真模擬,驗證模型構(gòu)建和訓(xùn)練的合理性;最后,將訓(xùn)練好的模型直接泛化應(yīng)用的大場景中,驗證解決大規(guī)模問題的有效性。實驗數(shù)據(jù):敵我雙方武器平臺、作戰(zhàn)目標(biāo)及彈藥的價值系數(shù),是綜合造價和影響己方作戰(zhàn)程度而計算的評價值。敵方一體化防空反導(dǎo),彈藥類型以W表示,其價值系數(shù)為0.05。綜合考慮武器平臺性能及掛載類型、作戰(zhàn)目標(biāo)性質(zhì)以及彈目匹配關(guān)系,敵我雙方的“武器-目標(biāo)”命中毀傷概率,如表2所示。
表1 武器平臺和作戰(zhàn)目標(biāo)信息Table 1 The data of platform and operational targets
表2 武器-目標(biāo)命中毀傷概率Table 2 Hit and kill probability of weapon-target
(2) 小場景下模型訓(xùn)練與驗證
由于“武器-目標(biāo)”命中毀傷概率小于1,即便訓(xùn)練得到的策略最優(yōu),也會出現(xiàn)收益值很差的情況。在此,將每一輪訓(xùn)練的總回報,設(shè)置為本次訓(xùn)練總回報與前一輪訓(xùn)練總回報的綜合值,計算方法如下所示:
(14)
根據(jù)本文方法構(gòu)建評分模型、推理模型和學(xué)習(xí)模型,利用計算機(jī)兵棋系統(tǒng)進(jìn)行1 050輪學(xué)習(xí)訓(xùn)練。訓(xùn)練過程中,綜合回報值隨訓(xùn)練次數(shù)的變化曲線,如圖4所示??梢?基于A2C算法的策略優(yōu)化方法能夠保證策略回報值趨于收斂,從而得到最優(yōu)協(xié)同目標(biāo)分配策略。
圖4 仿真實驗結(jié)果Fig.4 Results of simulation experiment
在相同場景下,使用訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真驗證,統(tǒng)計以下信息:模擬仿真回報值,如圖5(a)所示;任務(wù)完成度(作戰(zhàn)目標(biāo)的摧毀數(shù)目與初始數(shù)目之比)和進(jìn)攻方作戰(zhàn)單元剩余率,如圖5(b)所示。
圖5 小場景下模型驗證結(jié)果Fig.5 Results of model verification in small scenes
(3) 大場景下模型泛化應(yīng)用
在大場景下,不進(jìn)行任何學(xué)習(xí)訓(xùn)練,直接使用小場景中訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真泛化應(yīng)用驗證,統(tǒng)計信息如圖6所示。
圖6 大場景下模型泛化應(yīng)用結(jié)果Fig.6 Results of model generalization application in large scenes
(4) 實驗結(jié)果分析
1)在小場景驗證實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的77%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的78.6%,而能夠保證自身損失不超過50%的模擬次數(shù)占總次數(shù)的48.6%。雖然存在我方損失很大而敵方損失較小的情況,但非協(xié)同分配策略導(dǎo)致,而是由于敵我雙方命中毀傷概率小于1產(chǎn)生的小概率隨機(jī)結(jié)果。因此,訓(xùn)練優(yōu)化的策略能夠保證進(jìn)攻方以較小損失完成聯(lián)合火力打擊任務(wù)。
2) 在大場景泛化應(yīng)用實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的62.9%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的71.4%。相比小場景實驗,進(jìn)攻方的作戰(zhàn)單元損失較大且收益平均值較小。主要原因是大場景下作戰(zhàn)目標(biāo)是小場景的2.75倍,而武器平臺只是小場景的1.9倍,因此進(jìn)攻方會產(chǎn)生更大的損失。但訓(xùn)練優(yōu)化的策略,依舊能夠保證進(jìn)攻方以較大概率完成聯(lián)合火力打擊任務(wù)。
本文針對傳統(tǒng)方法難以實現(xiàn)動態(tài)不確定環(huán)境下的大規(guī)模協(xié)同目標(biāo)分配問題,提出了基于MARL的協(xié)同目標(biāo)分配方法。通過策略分層將學(xué)習(xí)任務(wù)聚焦于頂層分配策略的學(xué)習(xí),構(gòu)建了策略評分模型和策略推理模型,并基于A2C算法進(jìn)行策略的優(yōu)化學(xué)習(xí)。實驗結(jié)果表明,基于多智能體系統(tǒng)對作戰(zhàn)單元協(xié)同作戰(zhàn)行為進(jìn)行建模,能夠形象地刻畫協(xié)同作戰(zhàn)的演化內(nèi)因;基于A2C算法的策略優(yōu)化方法,能夠確保最優(yōu)協(xié)同目標(biāo)分配策略的有效生成;而生成的最優(yōu)目標(biāo)分配策略,能夠在執(zhí)行時以較好的效果完成聯(lián)合火力打擊任務(wù)。