胡 水
(中國(guó)人民解放軍陸軍指揮學(xué)院,南京 210000)
隨著高新技術(shù)在軍事領(lǐng)域的不斷發(fā)展運(yùn)用,武器裝備的性能參數(shù)和造價(jià)越來(lái)越多,現(xiàn)代作戰(zhàn)體系越來(lái)越復(fù)雜,作戰(zhàn)訓(xùn)練成本也同步激增。文獻(xiàn)[1]介紹為控制訓(xùn)練成本和節(jié)約人力物力資源,各國(guó)使用仿真技術(shù)模擬作戰(zhàn)訓(xùn)練。近年來(lái),以深度強(qiáng)化學(xué)習(xí)為代表的人工智能技術(shù)快速發(fā)展,直接從模擬戰(zhàn)場(chǎng)原始數(shù)據(jù)中快速提取特征,使得對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行描述、感知并進(jìn)一步自主決策成為可能。將人工智能技術(shù)應(yīng)用于兵棋推演,形成戰(zhàn)術(shù)兵棋智能體,對(duì)培養(yǎng)智能化作戰(zhàn)指揮員打贏未來(lái)戰(zhàn)爭(zhēng)具有深遠(yuǎn)意義。
文獻(xiàn)[2]通過(guò)蘭徹斯特模型對(duì)兵棋的勝負(fù)過(guò)程和作戰(zhàn)結(jié)果進(jìn)行仿真分析,為兵棋規(guī)則的設(shè)計(jì)提供依據(jù)和參考。文獻(xiàn)[3]針對(duì)六角格回合制兵棋,使用AlphaZero 深度強(qiáng)化學(xué)習(xí)來(lái)自動(dòng)學(xué)習(xí)作戰(zhàn)游戲過(guò)程。文獻(xiàn)[4]將模糊Petri 網(wǎng)的知識(shí)表示與推理方法應(yīng)用于兵棋推演,在圖的特征中用不同符號(hào)表示不同變量,從而形成1 個(gè)簡(jiǎn)潔的PN 映射,并將其用于兵棋推演的兵力表示和推理決策。文獻(xiàn)[5]通過(guò)對(duì)兵棋推演數(shù)據(jù)進(jìn)行采集分析和處理,并基于數(shù)據(jù)搭建兵棋推演分析系統(tǒng)。文獻(xiàn)[6]介紹目前兵棋推演方面的研究面向規(guī)則智能算法、作戰(zhàn)方案評(píng)估等。智能算法多基于規(guī)則和數(shù)據(jù)分析,因此,開展基于深度強(qiáng)化學(xué)習(xí)的兵棋推演算法研究有助于提高兵棋推演的智能化水平,相較于人與人之間的兵棋推演對(duì)抗,基于強(qiáng)化學(xué)習(xí)的兵棋推演能夠篩選更多的數(shù)據(jù)。文獻(xiàn)[7]利用馬爾可夫決策過(guò)程、神經(jīng)網(wǎng)絡(luò)等方法,增強(qiáng)AI 推演行動(dòng)反饋及指揮策略應(yīng)用能力,以逐步提高AI 在兵棋系統(tǒng)的對(duì)抗推演水準(zhǔn)。文獻(xiàn)[8]深入分析軍事輔助決策走向智能化所面臨的難題和挑戰(zhàn),僅根據(jù)深度學(xué)習(xí)是無(wú)法實(shí)現(xiàn)AI 對(duì)于高位輸入做出最優(yōu)的決策,因此,針對(duì)已有AI 在人機(jī)對(duì)戰(zhàn)中所做的失誤決策,提出將深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法相結(jié)合的新一代智能兵棋推演算法。
目前,深度強(qiáng)化學(xué)習(xí)的研究主要應(yīng)用于博弈方向以及人機(jī)對(duì)抗方向,其中,深度Q 學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Network,DQN)能有效完成對(duì)環(huán)境狀態(tài)的態(tài)勢(shì)理解與決策構(gòu)建的準(zhǔn)確性。文獻(xiàn)[9]介紹記憶函數(shù)的引入將在可自我博弈的基礎(chǔ)上完成對(duì)模型的快速訓(xùn)練并獲得較優(yōu)的準(zhǔn)確性。但是,在兵棋推演系統(tǒng)中智能體設(shè)計(jì)上,面對(duì)瞬息萬(wàn)變的戰(zhàn)場(chǎng)環(huán)境與錯(cuò)綜復(fù)雜的作戰(zhàn)場(chǎng)景,智能體的數(shù)據(jù)學(xué)習(xí)周期較長(zhǎng),策略產(chǎn)出與模型訓(xùn)練收斂都需要較長(zhǎng)時(shí)間。文獻(xiàn)[10]基于深度強(qiáng)化學(xué)習(xí)的思想和方式實(shí)現(xiàn)智能算法,雖然提高了AI 在兵棋系統(tǒng)的對(duì)抗推演水準(zhǔn),但是較長(zhǎng)周期的策略產(chǎn)出是其最大的弊端。
本文聚焦于智能體在兵棋推演系統(tǒng)中自主決策產(chǎn)出過(guò)程的改進(jìn),在傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的基礎(chǔ)上提出適用于兵棋推演的低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)(Low Advantage Policy-Value Network,LAPVN)智能決策模型,有助于智能體加快產(chǎn)出作戰(zhàn)決策,設(shè)計(jì)符合兵棋規(guī)則的戰(zhàn)場(chǎng)態(tài)勢(shì)感知方法,提高策略的合理性。
狀態(tài)-價(jià)值函數(shù)Vπ(st)定義如下:
其中:Vπ(st)用于評(píng)判戰(zhàn)場(chǎng)狀態(tài)st下策略函數(shù)π的好壞程度。在大多數(shù)場(chǎng)景中智能體的狀態(tài)-價(jià)值函數(shù)是離散變量。策略函數(shù)π由策略網(wǎng)絡(luò)π(a|st;θ)近似表示。智能體在t時(shí)刻的狀態(tài)-價(jià)值函數(shù)如下:
其中:Qπ(st,a)表示t時(shí)刻動(dòng)作-價(jià)值函數(shù),表示在狀態(tài)st下執(zhí)行動(dòng)作a后獲得的價(jià)值。若消去環(huán)境狀態(tài)S可得:
由于V(S;θ)值可用于反映在環(huán)境狀態(tài)S下策略函數(shù)π的完備性,因此當(dāng)J(θ)越高時(shí),V(S;θ)也越高,說(shuō)明策略網(wǎng)絡(luò)對(duì)于完備策略函數(shù)的近似度越高,即策略網(wǎng)絡(luò)做出的策略是一個(gè)完備的策略。但是J(θ)具有一定的閾值約束。文獻(xiàn)[11-12]利用策略梯度算法提高J(θ)。策略梯度的定義[13]如式(4)所示:
通過(guò)梯度上升不斷更新策略網(wǎng)絡(luò)π(a|S;θ)參數(shù)θ。
在策略梯度算法中,動(dòng)作-價(jià)值函數(shù)Qπ并不是已知的,且直接計(jì)算需要大量的計(jì)算資源。因此,在策略梯度算法中將動(dòng)作-價(jià)值函數(shù)Qπ(st,at)近似為qt。近似方法通常有Reinforce 和神經(jīng)網(wǎng)絡(luò)近似方法。
Reinforce 方法:假定智能體在T時(shí)刻完成計(jì)算,在完成過(guò)程中統(tǒng)計(jì)(s1,a1,r1,s2,a2,r2,…,sT,aT,rT)。此時(shí)可得到任意時(shí)刻t的折扣回報(bào):
由于動(dòng)作-價(jià)值函數(shù)定義Qπ(st,at)=E[Ut],ut是動(dòng)作-價(jià)值函數(shù)Qπ的無(wú)偏估計(jì),因此可用ut近似Qπ,即:
其中:qt為當(dāng)前t時(shí)刻的動(dòng)作-價(jià)值函數(shù)值。
神經(jīng)網(wǎng)絡(luò)近似方法:文獻(xiàn)[14-15]借鑒了DQN的思想,利用另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)Qπ(w)近似動(dòng)作-價(jià)值函數(shù)。
策略網(wǎng)絡(luò)π(a|S;θ)用于近似策略函數(shù)π,給出當(dāng)前狀態(tài)S下的動(dòng)作a,通過(guò)策略梯度算法中梯度上升方式更新網(wǎng)絡(luò)參數(shù)θ。價(jià)值網(wǎng)絡(luò)q(S,a;w)用于近似動(dòng)作-價(jià)值函數(shù)Qπ,評(píng)判動(dòng)作a的好壞程度,以改進(jìn)策略網(wǎng)絡(luò)。文獻(xiàn)[16-17]通過(guò)時(shí)間差分(Temporal-Difference,TD)算法中梯度下降方式更新網(wǎng)絡(luò)參數(shù)w。此時(shí),狀態(tài)-價(jià)值函數(shù)如式(7)所示:
狀態(tài)-價(jià)值函數(shù)用于對(duì)當(dāng)前環(huán)境狀態(tài)打分,評(píng)分高低反映智能體可獲勝的概率,更新θ是為了增加V(S;θ,w),價(jià)值網(wǎng)絡(luò)q(S,a;w)在θ更新過(guò)程中對(duì)動(dòng)作打分起著監(jiān)督作用。更新w是為了提高對(duì)動(dòng)作評(píng)分的精準(zhǔn)度,環(huán)境給出的獎(jiǎng)勵(lì)r起監(jiān)督作用。
算法1 所示為在神經(jīng)網(wǎng)絡(luò)中θt和wt的更新過(guò)程,st、θt、wt作為輸 入,θt+1、wt+1作為輸 出,步驟主要有:
1)對(duì)at~π(?|st;θ)進(jìn)行采樣,得到動(dòng)作at;
2)執(zhí)行動(dòng)作at,得到新的環(huán)境狀態(tài)st+1;
5)計(jì)算δt=qt-(rt+γ?qt+1);
6)計(jì)算價(jià)值網(wǎng)絡(luò)梯度?wt與策略網(wǎng)絡(luò)梯度?θt:
7)更 新θ與w:wt+1←wt-α?δt??wt,θt+1←θt+β?qt??θt;
8)得到7)中wt+1與θt+1。
針對(duì)兵棋智能體決策模型訓(xùn)練時(shí)間長(zhǎng)、策略產(chǎn)出效率較低的問(wèn)題,本文提出一種策略網(wǎng)絡(luò)更新的改進(jìn)方法,以縮短策略產(chǎn)出周期,加快模型訓(xùn)練的收斂速度。
智能兵棋推演決策模型框架由戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型、作戰(zhàn)場(chǎng)景判斷模型、智能決策模型與作戰(zhàn)動(dòng)作指令模型組成,如圖1 所示。
圖1 基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策框架Fig.1 Framework of intelligent wargame deduction decision based on deep reinforcement learning
戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型將兵棋推演仿真平臺(tái)獲取到的戰(zhàn)場(chǎng)仿真數(shù)據(jù)構(gòu)建為智能體所能感知的戰(zhàn)場(chǎng)環(huán)境狀態(tài)st,并將其作為作戰(zhàn)場(chǎng)景判斷模型和智能決策模型的輸入。文獻(xiàn)[18]介紹在兵棋博弈中指揮決策或行為的優(yōu)劣評(píng)估,難以通過(guò)人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來(lái)判斷,因此,基于軍事規(guī)則先驗(yàn)知識(shí)指導(dǎo)智能決策模型最終策略的產(chǎn)出。智能決策模型將收到的戰(zhàn)場(chǎng)態(tài)勢(shì)信息,經(jīng)公共卷積層進(jìn)行態(tài)勢(shì)感知,并提取特征向量,再分別發(fā)送給策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)根據(jù)收到的特征信息輸出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)下所有動(dòng)作概率,得到可行動(dòng)作概率集;價(jià)值網(wǎng)絡(luò)根據(jù)收到的特征信息輸出對(duì)當(dāng)前戰(zhàn)場(chǎng)狀態(tài)st執(zhí)行動(dòng)作at的評(píng)分,并接收兵棋推演仿真平臺(tái)的戰(zhàn)場(chǎng)狀態(tài)環(huán)境反饋信息。作戰(zhàn)動(dòng)作指令模型將獲取到的智能體動(dòng)作指令下達(dá)到兵棋推演仿真平臺(tái)。該框架實(shí)現(xiàn)了智能體從戰(zhàn)場(chǎng)態(tài)勢(shì)感知、作戰(zhàn)場(chǎng)景判斷、智能決策產(chǎn)出以及最后的指令下達(dá)。
戰(zhàn)場(chǎng)態(tài)勢(shì)感知用于幫助智能體構(gòu)建狀態(tài)空間,主要包含戰(zhàn)場(chǎng)地圖信息、棋子信息、作戰(zhàn)場(chǎng)景規(guī)則信息等。其中,戰(zhàn)場(chǎng)地圖信息為智能體提供所處戰(zhàn)場(chǎng)環(huán)境的視野,幫助智能體理解其戰(zhàn)場(chǎng)作戰(zhàn)環(huán)境與作戰(zhàn)任務(wù),棋子信息為智能體提供所擁有的作戰(zhàn)兵力,幫助智能體判斷其力量編組與作戰(zhàn)目標(biāo),作戰(zhàn)場(chǎng)景規(guī)則信息將為智能體提供指令規(guī)則,幫助智能體識(shí)別其作戰(zhàn)指令決策來(lái)源,理解作戰(zhàn)指令下達(dá)的合理性。文獻(xiàn)[19]介紹實(shí)時(shí)感知并準(zhǔn)確理解戰(zhàn)場(chǎng)態(tài)勢(shì),挖掘復(fù)雜態(tài)勢(shì)中的隱藏信息,是指揮員做出正確決策規(guī)劃的基礎(chǔ)。
本文提出兵棋智能體對(duì)于戰(zhàn)場(chǎng)環(huán)境的感知方法,通過(guò)劃分不同的戰(zhàn)場(chǎng)要素實(shí)體,將智能體所獲得的大規(guī)模戰(zhàn)場(chǎng)初始信息數(shù)據(jù)進(jìn)行分類與提取,以得到戰(zhàn)場(chǎng)要素結(jié)果,并構(gòu)造為智能體的輸入矩陣,有助于智能體進(jìn)行戰(zhàn)場(chǎng)感知。
兵棋智能體策略網(wǎng)絡(luò)受兵棋推演對(duì)抗問(wèn)題中較復(fù)雜因素的影響,存在策略產(chǎn)出較慢且訓(xùn)練效率較低的問(wèn)題,而策略梯度算法可以幫助策略網(wǎng)絡(luò)更新其網(wǎng)絡(luò)參數(shù)。因此,本文在隨機(jī)策略梯度中引入基準(zhǔn)線(Baseline)進(jìn)行改進(jìn),以提高策略網(wǎng)絡(luò)訓(xùn)練效率。
文獻(xiàn)[20]將Baseline 定義為1 個(gè)不依賴動(dòng)作A的函數(shù)b。與傳統(tǒng)策略梯度更新方式不同,若向策略梯度中加入Baseline,在期望不變的情況下減小策略梯度的方差,使策略網(wǎng)絡(luò)的收斂速度加快。在策略梯度中引入函數(shù)b,則:
策略函數(shù)π為概率密度函數(shù)。式(8)中關(guān)于a求和后結(jié)果為1,因此式(8)結(jié)果為0,引入Baseline 的策略梯度將保證期望不變,即:
由于直接求策略梯度中的期望代價(jià)較高,因此利用蒙特卡洛對(duì)期望求近似值。在t時(shí)刻智能體通過(guò)隨機(jī)抽樣采取的動(dòng)作為at~π(?|st;θ),令:
其中:g(at)為策略梯度的無(wú)偏估計(jì)。由于at是通過(guò)隨機(jī)抽樣得到的,因此隨機(jī)梯度可得:
文獻(xiàn)[21]介紹了若b的選擇越接近于Qπ,則隨機(jī)策略梯度g(at)的方差越小,策略網(wǎng)絡(luò)訓(xùn)練時(shí)收斂速度越快。
由于在兵棋推演中戰(zhàn)場(chǎng)狀態(tài)st先于兵棋指令A(yù)被觀測(cè),而且不依賴于A,因此狀態(tài)-價(jià)值函數(shù)Vπ(st)的評(píng)估結(jié)果只與當(dāng)前戰(zhàn)場(chǎng)狀態(tài)有關(guān)。Vπ(st)定義如下:
Vπ(st)反映在當(dāng)前狀態(tài)下采取任何行動(dòng)的預(yù)期回報(bào),非常接近Qπ,需要的計(jì)算成本和參數(shù)量較少,較容易實(shí)現(xiàn)和調(diào)整。因此,在策略網(wǎng)絡(luò)更新時(shí)引入Vπ(st)作為Baseline,在策略網(wǎng)絡(luò)更新時(shí),隨機(jī)策略梯度方差會(huì)很小,能夠提高策略網(wǎng)絡(luò)在訓(xùn)練時(shí)的穩(wěn)定性。由于Baseline 的引入提供了1 個(gè)較好的起點(diǎn)和參考點(diǎn),因此會(huì)加快策略網(wǎng)絡(luò)的收斂速度。此時(shí)的隨機(jī)梯度計(jì)算式如下:
其中:動(dòng)作-價(jià)值函數(shù)Qπ由Reinforce 方法近似得到。本文根據(jù)優(yōu)先經(jīng)驗(yàn)回放池[22]中的數(shù)據(jù)可計(jì)算得到Qπ的近似值ut。狀態(tài)-價(jià)值函數(shù)Vπ(S)根據(jù)式(1)使用另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)V(S;w)近似。隨機(jī)梯度可近似:
狀態(tài)-價(jià)值網(wǎng)絡(luò)參數(shù)更新:因?yàn)閯?dòng)作-價(jià)值函數(shù)Vπ是對(duì)回報(bào)Ut的期望,因此可用Reinforce 方法觀測(cè)到的折扣回報(bào)ut擬合Qπ得到預(yù)測(cè)誤差。預(yù)測(cè)誤差的計(jì)算式如下:
梯度下降更新狀態(tài)-價(jià)值網(wǎng)絡(luò)中參數(shù)ω,參數(shù)ω的計(jì)算式如下:
其中:γ為學(xué)習(xí)率。
此外,算法2 所示為引入Baseline 的策略網(wǎng)絡(luò)參數(shù)更新方法。戰(zhàn)場(chǎng)狀態(tài)st和策略網(wǎng)絡(luò)參數(shù)θt作為輸入,下一時(shí)刻的策略網(wǎng)絡(luò)參數(shù)θt+1作為輸出,步驟主要有:
1)從at~π(?|st;θ)采樣,得到動(dòng)作at;
2)近似qt,qt≈Qπ(st,at);
3)近似策略梯度g(at;θ):
4)策略網(wǎng)絡(luò)參數(shù)θt通過(guò)梯度上升更新,β是學(xué)習(xí)率,θt+1的計(jì)算式如下:
5)根據(jù)4)計(jì)算結(jié)果得到下一時(shí)刻策略網(wǎng)絡(luò)參數(shù)θt+1。
隨著策略網(wǎng)絡(luò)訓(xùn)練加深,引入的Baseline 函數(shù)b會(huì)越來(lái)越接近動(dòng)作-價(jià)值函數(shù)Qπ,在后續(xù)訓(xùn)練時(shí)收斂速度會(huì)不斷加快。
低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)基于策略-價(jià)值網(wǎng)絡(luò),其低優(yōu)勢(shì)來(lái)源于優(yōu)勢(shì)函數(shù)。優(yōu)勢(shì)函數(shù)定義如下:
優(yōu)勢(shì)函數(shù)表示在狀態(tài)S下,某動(dòng)作a相對(duì)于平均而言的優(yōu)勢(shì)性。在本文優(yōu)勢(shì)函數(shù)恰好存在于式(13)中,若A(S,a)的值越小,說(shuō)明該動(dòng)作具有平均性。在策略網(wǎng)絡(luò)中表現(xiàn)的隨機(jī)梯度方差越小,這種低優(yōu)勢(shì)性將加快模型訓(xùn)練速度。
低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)訓(xùn)練框架如圖2 所示。
圖2 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)訓(xùn)練框架Fig.2 Training framework of low advantage policy-value network
策略網(wǎng)絡(luò)將給出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)st下的1 個(gè)經(jīng)評(píng)價(jià)空間修正后自認(rèn)為較優(yōu)的作戰(zhàn)方案at,經(jīng)戰(zhàn)場(chǎng)控制執(zhí)行。價(jià)值網(wǎng)絡(luò)為策略網(wǎng)絡(luò)給出的動(dòng)作at評(píng)分值q。策略網(wǎng)絡(luò)根據(jù)q不斷改進(jìn)自身策略(更新w)以迎合價(jià)值網(wǎng)絡(luò)判斷,并結(jié)合低優(yōu)勢(shì)性,加快策略網(wǎng)絡(luò)的收斂速度,戰(zhàn)場(chǎng)環(huán)境給出的獎(jiǎng)勵(lì)rt不斷提高價(jià)值網(wǎng)絡(luò)評(píng)分的專業(yè)性和準(zhǔn)確性(更新θ),使價(jià)值網(wǎng)絡(luò)的打分更加合理。
在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)中將當(dāng)前戰(zhàn)場(chǎng)狀態(tài)提取為特征向量,因此在特征提取時(shí)可共用卷積層與池化層。輸入信息首先經(jīng)過(guò)3 層全卷積網(wǎng)絡(luò),分別使用32、64、128 個(gè)3×3 的過(guò)濾器,設(shè)置為ReLU 激活函數(shù),以避免神經(jīng)元節(jié)點(diǎn)輸出恒為0 的問(wèn)題,緩解了梯度消失問(wèn)題。公共卷積層將提取到的特征向量分別輸入到策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。
公共卷積層通過(guò)共享權(quán)重增加效率和泛化能力,經(jīng)過(guò)3 層全卷積網(wǎng)絡(luò)所提取的特征向量后,包含戰(zhàn)場(chǎng)環(huán)境的局部特征,如地形的邊緣、地形類別等,還包括戰(zhàn)場(chǎng)的全局特征,如戰(zhàn)場(chǎng)布局與比例等。這些信息有助于策略網(wǎng)絡(luò)生成合理的動(dòng)作概率集,如根據(jù)地形類別特征幫助機(jī)動(dòng)決策規(guī)劃,根據(jù)戰(zhàn)場(chǎng)布局特征幫助尋找合理的直瞄打擊位置。
對(duì)于策略網(wǎng)絡(luò),設(shè)置4 個(gè)1×1 的過(guò)濾器進(jìn)行降維處理,再接1 個(gè)全連接層,使用Softmax 激活函數(shù)對(duì)輸出信息進(jìn)行歸一化處理,輸出兵棋的可行動(dòng)作概率,供智能體AI 進(jìn)行動(dòng)作選擇。
對(duì)于價(jià)值網(wǎng)絡(luò),設(shè)置4 個(gè)1×1 的過(guò)濾器進(jìn)行降維處理,再設(shè)置1 個(gè)具有64 個(gè)神經(jīng)元的全連接層,最后再接1 個(gè)使用Tanh 激活函數(shù)的全連接層,將輸出信息約束到[-1,1]之間作為戰(zhàn)場(chǎng)狀態(tài)好壞的評(píng)分。
本文的價(jià)值網(wǎng)絡(luò)是對(duì)狀態(tài)-價(jià)值函數(shù)Vπ的近似,而非傳統(tǒng)動(dòng)作-價(jià)值函數(shù)Qπ的近似。價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)都設(shè)置了過(guò)濾器進(jìn)行降維處理,從而將輸入的高維狀態(tài)矩陣降維到1 個(gè)較低維度的特征空間。這種降維操作可能會(huì)丟失輸入狀態(tài)矩陣中的某些特征信息,導(dǎo)致在計(jì)算過(guò)程時(shí)出現(xiàn)偏差。若降維操作過(guò)于強(qiáng)烈,可能會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)欠擬合現(xiàn)象。但是,降維操作可以大幅降低神經(jīng)網(wǎng)絡(luò)的計(jì)算量,有效減少神經(jīng)網(wǎng)絡(luò)的參數(shù)量并縮短計(jì)算時(shí)間,提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,通過(guò)降低輸入矩陣維度,從而降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,進(jìn)而減少神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合的風(fēng)險(xiǎn)。本文在實(shí)驗(yàn)中不斷調(diào)整過(guò)濾器數(shù)量,以選擇適當(dāng)?shù)慕稻S策略,最終將過(guò)濾器數(shù)量設(shè)置為4,使神經(jīng)網(wǎng)絡(luò)在保證準(zhǔn)確性、計(jì)算效率和泛化能力的同時(shí)降低過(guò)擬合出現(xiàn)概率。
智能體狀態(tài)空間由4 個(gè)二值矩陣和1 個(gè)多值矩陣描述,并作為輸入信息輸入到低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)中。低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)的輸入矩陣如圖3所示。
圖3 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)的輸入矩陣Fig.3 Input matrix of low advantage policy-value network
根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)感知信息,分別構(gòu)造地形矩陣、兵棋位置矩陣(我方兵棋位置矩陣和敵方兵棋位置矩陣)、敵方上一步矩陣、是否為先手矩陣。
地形矩陣反映地圖上每個(gè)位置的地形類型,如平坦地、山地、灘涂等。地形可以影響部隊(duì)的機(jī)動(dòng)速度、隱蔽性、攻擊防御力等方面,對(duì)作戰(zhàn)有著非常重要的影響。
兵棋位置矩陣記錄了每個(gè)兵棋在地圖上的位置,由于兵棋的種類、數(shù)量、位置等都會(huì)對(duì)作戰(zhàn)結(jié)果產(chǎn)生重要影響,因此加入位置矩陣可直接反映兵棋位置,間接反映兵棋數(shù)量。策略網(wǎng)絡(luò)通過(guò)兵棋位置矩陣可以更充分了解戰(zhàn)場(chǎng)上的兵棋分布情況,從而制定更加合理的戰(zhàn)術(shù)。在本文中,我方兵棋位置矩陣描述當(dāng)前己方部隊(duì)以及友軍的情況。敵方兵棋位置矩陣描述敵方部隊(duì)情況。
敵方上一步矩陣記錄了上一個(gè)動(dòng)作對(duì)應(yīng)的狀態(tài)矩陣,策略網(wǎng)絡(luò)通過(guò)上一步矩陣可充分了解到戰(zhàn)場(chǎng)狀態(tài)的變化情況,從而更準(zhǔn)確預(yù)測(cè)下一步可能的變化趨勢(shì),有助于策略網(wǎng)絡(luò)學(xué)習(xí)作戰(zhàn)的規(guī)則和戰(zhàn)術(shù)。在本文中,敵方上一步矩陣描述敵方情況。
是否為先手矩陣記錄了當(dāng)前局面是先手還是后手,該因素對(duì)作戰(zhàn)對(duì)抗的勝負(fù)非常重要。先手可率先展開攻勢(shì),占據(jù)更有利的位置。因此,是否為先手矩陣的加入是有必要的。
這4 類矩陣的加入使神經(jīng)網(wǎng)絡(luò)更全面地了解戰(zhàn)場(chǎng)狀態(tài)和作戰(zhàn)規(guī)則,從而更準(zhǔn)確預(yù)測(cè)下一步?jīng)Q策,制定更加合理的戰(zhàn)術(shù)。
策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的公共卷積層將從輸入信息中提取棋盤狀態(tài)的特征形成特征向量,將特征向量分別交給策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)進(jìn)行后續(xù)處理。策略網(wǎng)絡(luò)輸出對(duì)于當(dāng)前戰(zhàn)場(chǎng)狀態(tài)下每個(gè)動(dòng)作的概率,供兵棋AI 參考動(dòng)作選擇。價(jià)值網(wǎng)絡(luò)輸出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)對(duì)于兵棋AI的好壞,供策略網(wǎng)絡(luò)訓(xùn)練和博弈時(shí)參考。
本實(shí)驗(yàn)平臺(tái)硬件配置使用移動(dòng)版的NVIDA GeForce RTX3070 Ti顯卡,Python 編程語(yǔ) 言被用 于軟件配置上,具體的軟硬件配置如表1 所示。
表1 實(shí)驗(yàn)配置軟硬件信息 Table 1 Experimental configuration software and hardware information
為研究當(dāng)前算法的可行性,本文設(shè)置一種具有代表性的作戰(zhàn)場(chǎng)景,紅藍(lán)雙方圍繞島嶼奪控進(jìn)行兵棋推演,場(chǎng)景設(shè)計(jì)示意圖如圖4 所示。
戰(zhàn)場(chǎng)環(huán)境大小為16×16,以六角格坐標(biāo)量化棋盤,這種六角格結(jié)構(gòu)使得相鄰的六角格之間可以沿6 個(gè)方向進(jìn)行機(jī)動(dòng)。從六角格的對(duì)稱性分析,在計(jì)算時(shí)其中心點(diǎn)到6 條邊的距離是相等的,并將距離設(shè)定為100 m。六角格可以更貼近實(shí)際作戰(zhàn)環(huán)境,適應(yīng)不規(guī)則形狀和不同大小的場(chǎng)景,如凹型與凸型環(huán)境。該場(chǎng)景主要包含水面、灘涂、平地和植被4 類地形。六角格戰(zhàn)場(chǎng)環(huán)境參數(shù)說(shuō)明如表2 所示。
表2 六角格戰(zhàn)場(chǎng)環(huán)境參數(shù) Table 2 Parameters of hexagonal grid battlefield environmental
六角格戰(zhàn)場(chǎng)環(huán)境的地形決定其通行等級(jí)與限制等級(jí)的數(shù)值,數(shù)值越高,通行難度越大。地形與通行等級(jí)和限制等級(jí)的關(guān)系如表3 所示。
表3 地形與通行等級(jí)和限制等級(jí)的關(guān)系 Table 3 Relationship between terrain and passability levels and restriction levels
平坦地與疏林的限制等級(jí)與通行等級(jí)都為1,對(duì)機(jī)動(dòng)值的消耗最少。沙泥灘、沙礫灘和密林的限制等級(jí)為1,通行等級(jí)為2,對(duì)機(jī)動(dòng)值消耗較高。在只有為平坦地和疏林的戰(zhàn)場(chǎng)環(huán)境中,兵棋1 個(gè)回合最多能走4 格,而在沙泥灘、沙礫灘、密林等這類地形中,最多能走2 格。深海的限制等級(jí)與通行等級(jí)最高,兵棋一般是無(wú)法進(jìn)行機(jī)動(dòng)的。
高程變化從0~50,每增加1,平均海拔高度增加10 m,紅藍(lán)雙方的所有棋子在該場(chǎng)景內(nèi)對(duì)抗。本文實(shí)驗(yàn)所設(shè)定的主要戰(zhàn)役規(guī)則如下:
1)戰(zhàn)役最終勝利目標(biāo)為殲滅敵方單位,雙方初始血量為100,任意一方數(shù)量歸零則戰(zhàn)役結(jié)束,表明另一方奪控了島嶼。
2)在每次迭代開始時(shí),紅藍(lán)棋子的初始位置在島嶼中隨機(jī)產(chǎn)生,且不會(huì)出現(xiàn)在彼此射程之內(nèi),以增加戰(zhàn)役的隨機(jī)性,使得每次戰(zhàn)斗都具有一定的不確定性,智能體需要靈活應(yīng)對(duì)。
3)雙方擁有相同的武器裝備,當(dāng)執(zhí)行射擊直瞄時(shí),按距離增加造成的傷害逐步減小,直至超出射程無(wú)法射擊。當(dāng)執(zhí)行射擊間瞄時(shí),通過(guò)貝塔分布進(jìn)行傷害修正,以模擬現(xiàn)實(shí)中的射擊情況,智能體在射擊時(shí)對(duì)距離和瞄準(zhǔn)進(jìn)行權(quán)衡,以達(dá)到最佳的戰(zhàn)術(shù)效果。
4)該場(chǎng)景中兵棋自身觀測(cè)范圍是有限的,同時(shí)高程差與地形也會(huì)影響射擊通視情況,可能無(wú)法準(zhǔn)確命中目標(biāo)。為模擬現(xiàn)實(shí)中復(fù)雜的戰(zhàn)場(chǎng)環(huán)境,智能體通過(guò)觀測(cè)和推理來(lái)確定目標(biāo)位置和可行的決策方案,以便更好地應(yīng)對(duì)戰(zhàn)斗情況。
5)六角格間高程差與地形的限制等級(jí)會(huì)影響棋子能否機(jī)動(dòng)進(jìn)入該六角格,地形的通行等級(jí)會(huì)影響棋子的機(jī)動(dòng)性能。為模擬地形的復(fù)雜性和機(jī)動(dòng)力的不同,智能體需要根據(jù)環(huán)境狀態(tài)矩陣中包含的地形信息和自身狀態(tài)進(jìn)行合理移動(dòng)決策,以便更好地適應(yīng)戰(zhàn)斗環(huán)境并實(shí)現(xiàn)作戰(zhàn)目標(biāo)。
該作戰(zhàn)規(guī)則的實(shí)際性較高,殲滅敵方單位也是一種常見的勝利目標(biāo),雙方初始血量為100 也能夠反映兵棋在戰(zhàn)斗中的真實(shí)受損情況與作戰(zhàn)時(shí)的持久性。同時(shí),兵棋初始位置的隨機(jī)性能增加戰(zhàn)術(shù)的多樣性。武器裝備產(chǎn)生的傷害按距離增加逐漸減小也符合實(shí)際射擊的物理規(guī)律,而間瞄時(shí)按貝塔分布進(jìn)行傷害修正也能更全面地考慮移動(dòng)射擊時(shí)對(duì)于打擊精度的影響。在實(shí)際作戰(zhàn)中六角格間的高程差和地形對(duì)機(jī)動(dòng)進(jìn)入該六角格的限制也是需要考慮的因素之一。同時(shí),該規(guī)則較為簡(jiǎn)單,不涉及復(fù)雜的戰(zhàn)術(shù)和策略,易于理解和操作,因此具有一定的普適性。除此之外,在一些實(shí)際戰(zhàn)斗中需要考慮兵棋有限的觀測(cè)范圍以及地形對(duì)通視情況的影響,因此,這些規(guī)則應(yīng)用于不同的戰(zhàn)場(chǎng)環(huán)境中,例如城市、叢林、沙漠等不同類型的地形。但是,該規(guī)則也存在一定的局限性,由于不同類型的戰(zhàn)斗可能存在其他不同的勝利目標(biāo),因此需要根據(jù)實(shí)際情況進(jìn)行調(diào)整。
該推演實(shí)驗(yàn)博弈過(guò)程、規(guī)則和勝負(fù)標(biāo)準(zhǔn)具有一定的代表性,并且在實(shí)驗(yàn)驗(yàn)證過(guò)程和方法對(duì)比上有利于分析與驗(yàn)證。
本文對(duì)該低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型和文獻(xiàn)[23]所提的傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)模型運(yùn)用于兵棋問(wèn)題環(huán)境中并進(jìn)行訓(xùn)練,訓(xùn)練效果對(duì)比如圖5所示。
圖5 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)和傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的損失值下降趨勢(shì)Fig.5 Decrease trend of loss values between low advantage policy-value network and traditional policy-value network
從圖5 可以看出,在400 次自博弈對(duì)抗訓(xùn)練中,2 種模型的損失函數(shù)總體呈下降趨勢(shì)。低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)損失值從開始的5.3 下降到2.3,并且在前300 次迭代訓(xùn)練中,損失值下降較快,之后下降的趨勢(shì)比較平緩。傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的損失值從5.7 下降至3.0,并且在前100 次迭代訓(xùn)練中,損失值下降較快,在100~250 次迭代訓(xùn)練中下降趨勢(shì)較為平緩,之后下降較快。因此,引入Baseline 的低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型損失值下降的趨勢(shì)與效果都優(yōu)于傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)模型。
為評(píng)估低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型對(duì)真實(shí)策略的擬合度,本文引入文獻(xiàn)[24]所提的KL 散度進(jìn)行評(píng)測(cè),KL 散度趨勢(shì)如圖6 所示。
圖6 KL 散度趨勢(shì)Fig.6 Trend of KL divergence
從圖6 可以看出,低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型進(jìn)行400 次迭代訓(xùn)練,KL 散度在剛開始訓(xùn)練時(shí)比較振蕩。隨著迭代訓(xùn)練次數(shù)的增加,KL 散度值越來(lái)越平穩(wěn),并且非常接近于0,說(shuō)明低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的擬合策略近似其真實(shí)策略,在該實(shí)驗(yàn)場(chǎng)景中能得到最優(yōu)策略。
在進(jìn)行博弈訓(xùn)練時(shí),本文將蒙特卡洛樹搜索算法(MCTS)[25-26]作為對(duì)抗方參與同低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的訓(xùn)練。當(dāng)?shù)蛢?yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型迭代訓(xùn)練達(dá)50 次后,與MCTS 進(jìn)行博弈評(píng)估,進(jìn)行10 局對(duì)抗,并將定義的勝負(fù)率作為評(píng)估標(biāo)準(zhǔn)。勝負(fù)率的定義如下:
其中:wwin為低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的場(chǎng)數(shù);ttie為平局?jǐn)?shù)。表4 所示為在400 次迭代過(guò)程中MCTS 勝負(fù)率的變化,開始時(shí)MCTS 的搜索深度為1 000。MCTS 的勝負(fù)率變化趨勢(shì)如圖7 所示。
表4 MCTS 的勝負(fù)率變化 Table 4 Changes in win-loss ratio of MCTS
圖7 MCTS 的勝負(fù)率變化趨勢(shì)Fig.7 Change trend of win-loss ratio of MCTS
在每50 次迭代訓(xùn)練的對(duì)弈中,若低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型10 局完勝時(shí),MCTS 算法的搜索深度將增加1 000,在提高其指揮決策能力的同時(shí)保存算法模型的參數(shù)。圖7 所示為進(jìn)行7 次模型評(píng)估,在第6 次對(duì)抗MCTS 算法獲取完勝后,本文將MCTS 的搜索深度提高到2 000,第7 次對(duì)抗僅負(fù)2 局,說(shuō)明在此迭代階段,模型已初步具備人類指揮員的作戰(zhàn)能力。
為進(jìn)一步驗(yàn)證LAPVN 決策的合理性,本文將訓(xùn)練好的LAPVN 智能決策模型與文獻(xiàn)[27]所提的基于博弈樹搜索算法中極大值-極小值(Max-Min)、α-β剪枝搜索算法以及搜索深度為3 000 的MCTS算法分別進(jìn)行50 局對(duì)抗。由于博弈樹搜索算法適用于對(duì)稱性博弈,因此本文在此處的對(duì)比實(shí)驗(yàn)進(jìn)行修改,將作戰(zhàn)場(chǎng)景規(guī)則4)中兵棋的局部觀測(cè)修改為全局性觀測(cè),以式(19)的勝負(fù)率作為對(duì)比指標(biāo),實(shí)驗(yàn)結(jié)果如圖8 所示。
圖8 不同網(wǎng)絡(luò)的博弈對(duì)抗Fig.8 Game adversaries among different networks
從圖8(a)和圖8(b)可以看出,在兵棋推演對(duì)抗中LAPVN 的決策較為合理,博弈對(duì)抗時(shí)間也較短,同時(shí)從圖8(c)可以看出,LAPVN 與博弈樹搜索算法中2 類算法的勝負(fù)率在0.7 以上,對(duì)抗MCTS 算法的勝負(fù)比超過(guò)了0.7。
本文提出基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策方法。在策略梯度中引入狀態(tài)-價(jià)值函數(shù),實(shí)現(xiàn)對(duì)策略網(wǎng)絡(luò)的改進(jìn)。在理論推導(dǎo)與兵棋推演上的實(shí)驗(yàn)結(jié)果表明,在策略網(wǎng)絡(luò)更新時(shí)將狀態(tài)-價(jià)值函數(shù)作為Baseline,加快模型訓(xùn)練時(shí)的收斂速度,策略網(wǎng)絡(luò)對(duì)于真實(shí)策略函數(shù)的擬合程度也非常接近。隨著迭代訓(xùn)練的加深,該算法與MCTS 算法的對(duì)抗表現(xiàn)更優(yōu)的決策水平。下一步將對(duì)如何提高Baseline 中動(dòng)作-價(jià)值函數(shù)的擬合效率進(jìn)行研究,實(shí)現(xiàn)對(duì)價(jià)值網(wǎng)絡(luò)的改進(jìn)與優(yōu)化。