李 琛,黃炎焱,張永亮,陳天德
(1.南京理工大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210094;2.陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)
兵棋推演是基于棋盤來描述地形、地貌,用棋子來描述作戰(zhàn)實(shí)體和事件,引入作戰(zhàn)經(jīng)驗(yàn)和時(shí)間,以“人在回路”的決策形成基于實(shí)戰(zhàn)化規(guī)則的作戰(zhàn)模擬系統(tǒng)。
近年來,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)在圍棋對(duì)抗[1-2]、機(jī)器人[3-4]、自動(dòng)駕駛[5-7]、對(duì)抗類游戲[8-9]等領(lǐng)域廣泛應(yīng)用。將強(qiáng)化學(xué)習(xí)等人工智能技術(shù)應(yīng)用在作戰(zhàn)推演,能夠一定程度上為指揮員提供參考和借鑒。在軍事應(yīng)用方面,兵棋推演可以作為強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的驗(yàn)證平臺(tái)。將人工智能技術(shù)應(yīng)用于兵棋推演,形成智能戰(zhàn)術(shù)兵棋,對(duì)于未來的作戰(zhàn)指揮具有一定的意義。將強(qiáng)化學(xué)習(xí)的方法利用在兵棋推演中,能夠充分發(fā)揮強(qiáng)化學(xué)習(xí)的探索作用,對(duì)于提升兵棋推演的戰(zhàn)術(shù)水平、獲取復(fù)盤數(shù)據(jù)等有著重要的意義。
文獻(xiàn)[10]通過蘭徹斯特模型對(duì)兵棋的減負(fù)過程和作戰(zhàn)結(jié)果進(jìn)行了仿真分析,為兵棋規(guī)則設(shè)計(jì)提供了依據(jù)和參考。文獻(xiàn)[11]針對(duì)回合制六角格兵棋,使用AlphaZero深度強(qiáng)化學(xué)習(xí)來自動(dòng)學(xué)習(xí)作戰(zhàn)游戲過程。文獻(xiàn)[12]將模糊Petri網(wǎng)的知識(shí)表示與推理方法應(yīng)用于兵棋推演,利用圖的特征用不同的符號(hào)表示不同的變量,從而形成一個(gè)簡(jiǎn)潔的PN映射,作用于兵棋推演的兵力表示和推理決策。文獻(xiàn)[13]著力于兵棋推演數(shù)據(jù)的采集分析和處理,并基于數(shù)據(jù)搭建了兵棋推演的分析系統(tǒng)。目前,兵棋推演方面的研究面向規(guī)則、智能算法和作戰(zhàn)方案評(píng)估[14]等。智能算法方面多基于規(guī)則和數(shù)據(jù)分析,因此開展基于強(qiáng)化學(xué)習(xí)的兵棋推演算法研究,有助于提高兵棋推演的智能化水平,相較于人人對(duì)抗,基于強(qiáng)化學(xué)習(xí)的兵棋推演能夠創(chuàng)造更多的數(shù)據(jù)進(jìn)行篩選。
基于規(guī)則的兵棋推演算法缺少針對(duì)不同想定的適應(yīng)能力,本文針對(duì)兵棋算子的行動(dòng)決策和戰(zhàn)術(shù)決策的不同特點(diǎn),側(cè)重于利用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行行動(dòng)決策并結(jié)合基于規(guī)則的戰(zhàn)術(shù)決策,提出應(yīng)用于兵棋推演的基于演員-評(píng)論家(Actor-Critic)強(qiáng)化學(xué)習(xí)框架[15]的一種多智能體決策方法,分析了兵棋行動(dòng)決策與馬爾可夫決策過程(Markov decision process,MDP)的適應(yīng)性;分析了行動(dòng)決策的獎(jiǎng)勵(lì)設(shè)計(jì)(Reward Shaping)[16]過程以優(yōu)化訓(xùn)練的速度和效果;完整介紹了兵棋推演算法設(shè)計(jì);最后選取實(shí)驗(yàn)想定進(jìn)行仿真對(duì)比其他方法來驗(yàn)證本文方法的效果和合理性。
強(qiáng)化學(xué)習(xí)中包含的要素之一為環(huán)境狀態(tài)轉(zhuǎn)換模型,表示為一個(gè)概率模型,即在狀態(tài)s下如果采取一定的動(dòng)作a,則轉(zhuǎn)換到下一個(gè)狀態(tài)s′。在非理想環(huán)境下,狀態(tài)轉(zhuǎn)換的過程需要考慮到新狀態(tài)s′之前的所有環(huán)境要素s1,s2,…,sn,顯然這種方式在會(huì)使得模型狀態(tài)的轉(zhuǎn)換非常復(fù)雜,強(qiáng)化學(xué)習(xí)假設(shè)狀態(tài)轉(zhuǎn)換符合馬爾可夫性,狀態(tài)轉(zhuǎn)換只與上一個(gè)狀態(tài)有關(guān),即
(1)
兵棋推演的行動(dòng)決策過程中,下一步的選擇只與上一步的環(huán)境狀態(tài)觀測(cè)量有關(guān),因此本文的行動(dòng)決策遵循MDP。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)大類,能夠通過Bellman方程來求解交互問題[17],從而改進(jìn)并最終達(dá)到目的的一種學(xué)習(xí)方式[18]。強(qiáng)化學(xué)習(xí)使得智能體最終形成一種策略,使得其為了達(dá)成目的而使獎(jiǎng)勵(lì)值最大化[19-20]。Littman[21]在20世紀(jì)90年代提出了以MDP為框架的多智能體強(qiáng)化學(xué)習(xí),將強(qiáng)化學(xué)習(xí)的思想和算法應(yīng)用到多智能體系統(tǒng)中,往往會(huì)考慮智能體間的競(jìng)爭(zhēng)、合作等關(guān)系[22-23]。
深度Q網(wǎng)絡(luò)(deepQ-network,DQN)融合了深度神經(jīng)網(wǎng)絡(luò)[24]和Q-Learning[25],是一種基于值的深度強(qiáng)化學(xué)習(xí)方法。Q-Learning在環(huán)境中選擇值最大的方向進(jìn)行學(xué)習(xí)[26],即
Qπ(st,at)=
E[Rt+1+γRt+2+γ2Rt+3+…|st,at]
(2)
PolicyGradient即梯度下降法,基于值的強(qiáng)化學(xué)習(xí)方法如DQN需要對(duì)值函數(shù)進(jìn)行更新,然后才能反映到策略當(dāng)中,而值函數(shù)的一些小小的改變可能導(dǎo)致策略選取動(dòng)作完全改變,尤其在兵棋環(huán)境中會(huì)震蕩更強(qiáng)、收斂更難,而基于策略的強(qiáng)化學(xué)習(xí)方法[27]在這個(gè)問題上會(huì)更有優(yōu)勢(shì)。
(3)
PolicyGradient的最終目的最大化目標(biāo)函數(shù),J(θ)考慮單步的馬爾可夫過程,R(s,a)表示獎(jiǎng)勵(lì)函數(shù),推導(dǎo)可得
(4)
即對(duì)目標(biāo)函數(shù)J(θ)求導(dǎo)最終轉(zhuǎn)化為了對(duì)策略π求梯度。
產(chǎn)生式規(guī)則是目前戰(zhàn)術(shù)知識(shí)常用且有效的表示方法。機(jī)器學(xué)習(xí)中的“規(guī)則”通常是指語義明確、能描述數(shù)據(jù)分布所隱含的客觀規(guī)律或領(lǐng)域概念[28],實(shí)現(xiàn)規(guī)則的方式是當(dāng)檢測(cè)到規(guī)則滿足某前提條件后,那么這條規(guī)則就會(huì)按照既定的規(guī)定去執(zhí)行。
產(chǎn)生式戰(zhàn)術(shù)規(guī)則系統(tǒng)的結(jié)構(gòu)和規(guī)則執(zhí)行過程如圖1所示,采用專家數(shù)據(jù)加入初始的動(dòng)態(tài)數(shù)據(jù)庫,并存儲(chǔ)戰(zhàn)術(shù)決策的結(jié)果,通過指定合理的規(guī)則庫產(chǎn)生相應(yīng)的戰(zhàn)術(shù)決策。
圖1 產(chǎn)生式戰(zhàn)術(shù)規(guī)則Fig.1 Production tactics rules
強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)函數(shù)可以看作是一個(gè)映射關(guān)系,即智能體所做出的動(dòng)作在當(dāng)前環(huán)境中的好壞程度。大部分的狀態(tài)動(dòng)作空間中,獎(jiǎng)勵(lì)信號(hào)都為0,即為獎(jiǎng)勵(lì)稀疏性。
如圖2所示,從S1出發(fā)到Sn-1最終獲得獎(jiǎng)勵(lì)值的過程中,在第一回合,每個(gè)單步執(zhí)行并不帶來獎(jiǎng)勵(lì)值,即不管這個(gè)單步是好是壞都不產(chǎn)生獎(jiǎng)勵(lì)值,只有達(dá)到目標(biāo)之后才能獲得獎(jiǎng)勵(lì)值。
圖2 獎(jiǎng)勵(lì)稀疏性Fig.2 Sparsity of reward
在兵棋推演環(huán)境中,MDP的狀態(tài)空間往往都很大,并且單個(gè)算子所采取的動(dòng)作選擇也較多,導(dǎo)致了智能體首次達(dá)到目標(biāo)的概率非常低,智能體首次達(dá)到目標(biāo)的概率為
(5)
式中,|A|為智能體所能采取的動(dòng)作的數(shù)量;S是達(dá)到目標(biāo)所用的單步數(shù)。從式(5)可以直觀地看出,在兵棋推演這種大狀態(tài)空間、智能體動(dòng)作選擇多的環(huán)境下,P會(huì)很低,大量的無意義探索會(huì)導(dǎo)致算法收斂速度很慢,訓(xùn)練時(shí)間長(zhǎng)等問題。
既然回合更新不適用于兵棋推演環(huán)境,則選擇單步更新,對(duì)單步的好壞進(jìn)行評(píng)價(jià),對(duì)智能體給予額外的獎(jiǎng)勵(lì),即
R=R′+r(s,a,s′)
(6)
式中,R是最終的總獎(jiǎng)勵(lì)值;R′是達(dá)到目標(biāo)所獲得的獎(jiǎng)勵(lì)值;r(s,a,s′)是單步更新的獎(jiǎng)勵(lì)值,如圖3所示。這個(gè)過程稱之為RewardShaping。
圖3 Reward Shaping補(bǔ)償Fig.3 Reward Shaping compensate
目前陸戰(zhàn)兵棋推演一般圍繞一個(gè)或幾個(gè)奪控點(diǎn)展開攻勢(shì)[29]。兵棋算子在地圖中的可行動(dòng)范圍較大,如果采取獲勝/失敗這樣的獎(jiǎng)勵(lì)方式,由于紅藍(lán)雙方隨機(jī)性太強(qiáng),即使訓(xùn)練中一方獲勝并獲得正向的獎(jiǎng)勵(lì)值,也無法佐證獲勝方本次的行動(dòng)是值得獎(jiǎng)勵(lì)的。
對(duì)奪控點(diǎn)進(jìn)行占領(lǐng)和對(duì)對(duì)手的打擊是獲勝的必要條件,因此本文獎(jiǎng)勵(lì)函數(shù)的設(shè)置與算子和目標(biāo)奪控點(diǎn)的距離變化率有關(guān)。當(dāng)算子出界時(shí)給予懲罰,當(dāng)算子到達(dá)目標(biāo)奪控點(diǎn)時(shí)給予獎(jiǎng)勵(lì)值,當(dāng)算子距離目標(biāo)奪控點(diǎn)更近時(shí)給予額外獎(jiǎng)勵(lì)值。本文中的獎(jiǎng)勵(lì)函數(shù)設(shè)置如下:
(7)
式中,R0為奪取奪控點(diǎn)獲得的獎(jiǎng)勵(lì)值;當(dāng)算子出界時(shí)給予-R0的獎(jiǎng)勵(lì)值;x為當(dāng)前狀態(tài)下算子距離奪控點(diǎn)的距離;x′為在當(dāng)前狀態(tài)下選擇動(dòng)作a后距離奪控點(diǎn)的距離,而
(8)
式中,X為算子的起始點(diǎn)距離奪控點(diǎn)的距離標(biāo)量;ε為變化率修正系數(shù)。
本文的算法應(yīng)用于一種回合制六角格形式的智能戰(zhàn)術(shù)兵棋推演,以全國兵棋推演大賽“鐵甲突擊群”兵棋推演平臺(tái)[29]為基礎(chǔ)做了適當(dāng)?shù)暮?jiǎn)化,以便于對(duì)算法進(jìn)行驗(yàn)證。其中簡(jiǎn)化修改的部分如下所述。本文算法應(yīng)用的兵棋地圖對(duì)實(shí)地地形圖進(jìn)行了格式化處理,針對(duì)給作戰(zhàn)行動(dòng)可能產(chǎn)生影響的要素進(jìn)行了量化,主要地形包括開闊地、從林地和城鎮(zhèn)居民地。通過分析可知,地形因素會(huì)對(duì)算子收到的傷害裁決以及被觀察視野產(chǎn)生影響。這就需要建制為連排級(jí),裝備為武器級(jí),一個(gè)六角格的建模為實(shí)際中的200m,高程為10m。棋子的類型包括重型坦克和步戰(zhàn)車,其中坦克和步戰(zhàn)車每一單步均可向六角格的6個(gè)方向機(jī)動(dòng),且坦克具備行進(jìn)間射擊能力,即在本次機(jī)動(dòng)之后可以進(jìn)行一次直瞄射擊,而戰(zhàn)車只能選擇機(jī)動(dòng)或直瞄射擊中的一個(gè)動(dòng)作。在任意算子到達(dá)奪控點(diǎn)之后任意算子都可以用一次行動(dòng)機(jī)會(huì)占領(lǐng)奪控點(diǎn)。每局推演獲勝的條件為占領(lǐng)奪控點(diǎn)或全殲對(duì)方算子。回合制六角格形式兵棋推演的推演流程如表1所示,表格中所有動(dòng)作執(zhí)行一次為一個(gè)單步,當(dāng)有一方達(dá)成勝利條件后回合結(jié)束。
表1 回合制六角格兵棋推演的推演流程Table 1 Deduction process of the turn based hexagonal wargame
Actor-Critic算法是一種單步更新的深度強(qiáng)化學(xué)習(xí)算法,結(jié)合了基于值和基于策略的方法,可具有連續(xù)的狀態(tài)和動(dòng)作[30]。策略π(a|s)表示選擇輸出動(dòng)作的概率,Qπ(a|s)即為采取策略π(a|s)獲得的獎(jiǎng)勵(lì)值。Qπ(a|s)越大,其對(duì)應(yīng)選擇的輸出動(dòng)作的概率就越大。π(a|s)沿著梯度的方向進(jìn)行學(xué)習(xí)更新,策略梯度可寫為
(9)
傳統(tǒng)Actor-Critic算法在兵棋推演中的實(shí)現(xiàn)如圖4所示。
圖4 傳統(tǒng)Actor-Critic算法在兵棋推演中的實(shí)現(xiàn)Fig.4 Implementation of traditional Actor-Critic algorithm in wargame
Actor-Critic算法框圖如圖4(a)所示。利用上述Actor-Critic算法能夠?qū)崿F(xiàn)戰(zhàn)術(shù)行動(dòng)的動(dòng)態(tài)決策,但是只能針對(duì)單算子進(jìn)行訓(xùn)練。從圖4(b)可以看出,利用Actor-Critic算法實(shí)現(xiàn)的兵棋算子行動(dòng)部署,每一個(gè)算子都有獨(dú)立的一套網(wǎng)絡(luò):Actor網(wǎng)絡(luò)根據(jù)自身的狀態(tài)觀測(cè)量產(chǎn)生動(dòng)作,Critic網(wǎng)絡(luò)同樣根據(jù)自身的狀態(tài)觀測(cè)量變化和動(dòng)作進(jìn)行評(píng)判更新。由于彼此間的互不關(guān)聯(lián),無法分享彼此的狀態(tài)信息,相當(dāng)于兵棋算子彼此間獨(dú)自決策。
由于是兵棋環(huán)境,本文考慮的多智能體算子間的關(guān)系是合作,即多智能體算子均為本方算子,可以共享信息。兵棋推演中的合作需要算子根據(jù)自身具體環(huán)境采取動(dòng)作,但是后方的指揮需要分享彼此的信息綜合考慮。結(jié)合戰(zhàn)場(chǎng)實(shí)際,算子即作戰(zhàn)單位擁有自身獲取的局部狀態(tài)觀測(cè)量,而指揮員即Critic擁有全局狀態(tài)觀測(cè)量對(duì)作戰(zhàn)單位進(jìn)行指導(dǎo)。本文算子的行動(dòng)部署采取分布式執(zhí)行、集中式訓(xùn)練的方法,即每個(gè)算子的Actor都只能根據(jù)自身的信息采取動(dòng)作,而每個(gè)算子的Critic都要根據(jù)全部信息來進(jìn)行更新和反饋。
本文采取如圖5所示的算法整體思路。
圖5 算法整體思路Fig.5 Overall idea of algorithm
在對(duì)方未進(jìn)入射程之前,先讓算子優(yōu)先到達(dá)奪控點(diǎn)附近展開行動(dòng)。在既可以戰(zhàn)斗也可以機(jī)動(dòng)時(shí),根據(jù)二者之間的收益平衡來確定動(dòng)作。
3.4.1 行動(dòng)決策
多智能體的訓(xùn)練方式如圖6所示。算子的行動(dòng)決策建立有Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),記算子為agenti(i=1,2,…,n)。局部狀態(tài)觀測(cè)量φ(si)是每個(gè)算子能夠觀察到的態(tài)勢(shì)信息集合,包括:本方算子agenti的橫坐標(biāo)和縱坐標(biāo),對(duì)方算子的橫坐標(biāo)和縱坐標(biāo),奪控點(diǎn)d的橫坐標(biāo)和縱坐標(biāo),以及攻擊臨界值τ。全局狀態(tài)觀測(cè)量φ(s)=φ(s1)∪φ(s2)∪…∪φ(sn),即所有局部狀態(tài)觀測(cè)量的并集。
每個(gè)算子agenti的Actor網(wǎng)絡(luò)都根據(jù)局部狀態(tài)觀測(cè)量φ(si)選擇動(dòng)作ai,此時(shí)不考慮其他算子的影響;每個(gè)Critic網(wǎng)絡(luò)的輸入會(huì)將對(duì)應(yīng)算子的動(dòng)作ai以及行動(dòng)后的全局狀態(tài)觀測(cè)量φ(s)考慮在內(nèi),且每個(gè)算子都擁有自己的獎(jiǎng)勵(lì)值;而每個(gè)算子的Actor網(wǎng)絡(luò)更新時(shí),Critic網(wǎng)絡(luò)輸出的狀態(tài)估計(jì)差值會(huì)輸入進(jìn)行更新,以此來調(diào)整Actor網(wǎng)絡(luò)。
圖6 多智能體訓(xùn)練方式Fig.6 Training mode of multi-agent
算法1 分布執(zhí)行集中訓(xùn)練算子行動(dòng)決策算法for回合=1,最大訓(xùn)練回合數(shù): 初始化所有局部狀態(tài)觀測(cè)量φ(s1),φ(s2),…,φ(si) for單步=1,最大訓(xùn)練步數(shù):在Actor網(wǎng)絡(luò)中輸入φ(si),輸出動(dòng)作ai基于動(dòng)作ai得到新的狀態(tài)觀測(cè)量φ′(si)以及獎(jiǎng)勵(lì)值ri在Critic網(wǎng)絡(luò)中輸入全局狀態(tài)觀測(cè)量φ(s)得到價(jià)值vi和v′i更新Critic:通過最小化L(θi)=[(ri+γv′i)-vi]12更新Actor:θj←θj+αΔθjlogπθj(St,ai)δφ(si)←φ′(si)endfor endfor
3.4.2 戰(zhàn)術(shù)決策
兵棋算子的戰(zhàn)術(shù)決策基于規(guī)則庫進(jìn)行選擇。與神經(jīng)網(wǎng)絡(luò)這樣的“黑箱模型”相比,規(guī)則具有更好的可解釋性,能夠使用戶更直觀地對(duì)判別過程有所了解。在兵棋推演的實(shí)驗(yàn)環(huán)境中,每一步選擇有兩個(gè)維度,即移動(dòng)或射擊。而由于行動(dòng)決策的不確定性以及開火對(duì)象的不確定性,由于兵棋地圖狀態(tài)空間大,會(huì)使得訓(xùn)練的收斂速度很慢,很可能一場(chǎng)都贏不了,導(dǎo)致大量的無意義訓(xùn)練。
針對(duì)以上環(huán)境的特性,本文對(duì)兵棋算子的戰(zhàn)術(shù)決策擬定了如圖7所示的戰(zhàn)術(shù)決策規(guī)則。動(dòng)態(tài)數(shù)據(jù)庫包含了根據(jù)專家數(shù)據(jù)擬定的初始攻擊臨界值τ,其意義在于當(dāng)算子既能夠射擊也能夠機(jī)動(dòng)時(shí),選擇哪一個(gè)動(dòng)作能夠獲得最大的收益,τ會(huì)隨著算子的訓(xùn)練過程進(jìn)行如下更新:
(10)
式中,常量Rw l為最終勝利或者失敗獲得的獎(jiǎng)勵(lì)值;σ為修正系數(shù)。
圖7 戰(zhàn)術(shù)決策規(guī)則Fig.7 Tactics decision rules
以如圖8所示的城鎮(zhèn)居民地遭遇戰(zhàn)示例想定進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。紅藍(lán)雙方各包含一個(gè)坦克算子和一個(gè)戰(zhàn)車算子,每個(gè)算子代表一定編制,坐標(biāo)2 422所在的六角格即為奪控點(diǎn)。如表2所示為紅藍(lán)雙方兵力屬性和部署表。每個(gè)算子每回合可以向6個(gè)方向中的一個(gè)六角格行動(dòng)但不允許越界,或?qū)砷_火對(duì)象進(jìn)行射擊,且智能體每次只能選擇機(jī)動(dòng)或者射擊中的一個(gè)動(dòng)作。一方算子全殲另一方算子或有一方取得對(duì)奪控點(diǎn)的控制,則為獲勝方。
圖8 想定示例Fig.8 Scenario example
表2 紅藍(lán)雙方算子屬性和部署表Table 2 Properties and deployment table of red and blue operators
實(shí)驗(yàn)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均通過Tensorflow庫進(jìn)行搭建。Actor網(wǎng)絡(luò)包含有兩個(gè)隱藏層;Critic網(wǎng)絡(luò)包含有兩個(gè)隱藏層,學(xué)習(xí)率為0.01。訓(xùn)練均選擇300回合以對(duì)比訓(xùn)練效果。Critic和Actor的網(wǎng)絡(luò)連接結(jié)構(gòu)分別如圖9和圖10所示。
圖9 Critic網(wǎng)絡(luò)搭建Fig.9 Critic network’s building
圖10 Actor網(wǎng)絡(luò)搭建Fig.10 Actor network’s building
圖11中每個(gè)算子采用Actor-Critic封閉網(wǎng)絡(luò),即各自的評(píng)價(jià)網(wǎng)絡(luò)彼此不分享信息,其平均步數(shù)-回合曲線如圖11所示。圖12為采用Actor各自分布式執(zhí)行Critic集中式訓(xùn)練分享信息的平均步數(shù)-回合曲線。
圖11 封閉訓(xùn)練算子的平均步數(shù)-回合曲線Fig.11 S-E curve of closed training agents
圖12 分布執(zhí)行集中訓(xùn)練的平均步數(shù)-回合曲線Fig.12 S-E curve of distributed execution and centralized training
從圖11和圖12可以看出,兩種訓(xùn)練方式算子的步數(shù)都隨著訓(xùn)練過程越來越少,這意味著算子以更短的路徑向奪控點(diǎn)行進(jìn)。相對(duì)于前者,采用分布式執(zhí)行集中訓(xùn)練的算子在100回合之后平均步數(shù)更加穩(wěn)定,且顯然平均單步數(shù)是更少的。因此在本文的實(shí)驗(yàn)環(huán)境中,Critic網(wǎng)絡(luò)整合全局狀態(tài)觀測(cè)量的集中訓(xùn)練能夠讓算子的行動(dòng)決策更加高效穩(wěn)定。
圖13為采用第一種封閉網(wǎng)絡(luò)訓(xùn)練的平均獎(jiǎng)勵(lì)值-回合曲線,在約100回合之后,平均獎(jiǎng)勵(lì)值曲線朝著正值的方向快速收斂。
圖13 封閉訓(xùn)練算子的每回合獎(jiǎng)勵(lì)值-回合曲線Fig.13 R-E curve of closed training agents
圖14為采用分布執(zhí)行集中訓(xùn)練的算子每回合平均獎(jiǎng)勵(lì)值-回合曲線,相比于圖13中的方法,其平均獎(jiǎng)勵(lì)值更高,穩(wěn)定性顯著增強(qiáng),并且提前開始收斂。
圖14 分布執(zhí)行集中訓(xùn)練每回合獎(jiǎng)勵(lì)值-回合曲線Fig.14 R-E curve of distributed execution and centralized training
從圖12和圖14可以看出,在經(jīng)歷了同樣多的訓(xùn)練回合數(shù)之后,分布執(zhí)行集中訓(xùn)練算子的單步波動(dòng)程度小且數(shù)值較小,這意味著無意義的動(dòng)作更少,因?yàn)槟承o意義的機(jī)動(dòng)動(dòng)作會(huì)導(dǎo)致后續(xù)連續(xù)的無意義動(dòng)作,往往會(huì)導(dǎo)致單步數(shù)量的急劇上升從而產(chǎn)生波動(dòng)。另一方面的優(yōu)點(diǎn),從每回合獎(jiǎng)勵(lì)值-回合曲線能夠看出,獎(jiǎng)勵(lì)值波動(dòng)程度小且較高,而獎(jiǎng)勵(lì)值意味著單步執(zhí)行動(dòng)作的正確性以及獲勝。
圖15為采用分布執(zhí)行集中訓(xùn)練的算子總獎(jiǎng)勵(lì)值-回合曲線,算子的總獎(jiǎng)勵(lì)值在經(jīng)歷短暫的探索階段后,受限于算子的隨機(jī)選擇,呈整體的波動(dòng)上升階段,證明了基于Actor-Critic框架下的分布式執(zhí)行集中式訓(xùn)練的多算子強(qiáng)化學(xué)習(xí)的有效性。
圖15 分布執(zhí)行集中訓(xùn)練總獎(jiǎng)勵(lì)值-回合曲線Fig.15 Total rewards-episodes curve of distributed execution and centralized training
本文基于Actor-Critic框架和產(chǎn)生式戰(zhàn)術(shù)規(guī)則對(duì)兵棋推演的多智能體決策方法進(jìn)行了研究。行動(dòng)決策根據(jù)采用分布式執(zhí)行、集中式訓(xùn)練的方法,Critic網(wǎng)絡(luò)接收全局狀態(tài)觀測(cè)信息從而兼顧了兩個(gè)算子的狀態(tài)信息;每個(gè)算子都擁有獨(dú)立的Actor網(wǎng)絡(luò)接收Critic網(wǎng)絡(luò)學(xué)習(xí)產(chǎn)生的觀測(cè)誤差并根據(jù)算子的局部狀態(tài)觀測(cè)量生成下一步動(dòng)作。
本文通過對(duì)比基于彼此封閉Actor-Critic算法訓(xùn)練兵棋推演算子的方法,驗(yàn)證本文方法的有效性。從第一組對(duì)比的回合-平均步數(shù)曲線可以看出,不論是單算子采用封閉的Actor-Critic網(wǎng)絡(luò)訓(xùn)練還是采用分布執(zhí)行集中訓(xùn)練,算子總體的平均步數(shù)隨著訓(xùn)練回合的推進(jìn),都在波動(dòng)變小,這也驗(yàn)證了Actor-Critic框架應(yīng)用于本文所述的回合制六角格兵棋推演的應(yīng)用場(chǎng)景中的有效性。但相比于算子間態(tài)勢(shì)信息不共享的方法,分布執(zhí)行集中訓(xùn)練的方法的優(yōu)點(diǎn)在于Critic網(wǎng)絡(luò)分享彼此信息,使得算子獲得的態(tài)勢(shì)信息更為豐富,這對(duì)于加快訓(xùn)練的速度以及訓(xùn)練后得到的模型的穩(wěn)定性作用明顯。如上所述,本文對(duì)Actor-Critic框架應(yīng)用于回合制六角格智能戰(zhàn)術(shù)兵棋提出了一種決策方法。