閆雪飛,李新明,劉 東,劉德生,李 強
(裝備學院復雜電子系統(tǒng)仿真實驗室,北京 101416)
海灣戰(zhàn)爭以來,體系SoS(System-of Systems)作戰(zhàn)成為主要的作戰(zhàn)方式,武器裝備體系WSoS(Weapon equipment SoS)[1,2]成為各國軍隊發(fā)展的主要立足點,尤其是網(wǎng)絡(luò)信息體系頂層架構(gòu)的提出,進一步表明了體系支撐作戰(zhàn)的重要性。然而,作為一個典型的復雜系統(tǒng),WSoS的不確定性、復雜性以及巨量性使得作戰(zhàn)仿真研究面臨巨大的挑戰(zhàn),目前,針對WSoS的作戰(zhàn)仿真研究[3,4]還遠未達到成熟的地步。
指揮與控制C2(Command and Control)是作戰(zhàn)仿真研究的一項核心技術(shù),也是影響戰(zhàn)爭勝負的重要因素。傳統(tǒng)的C2研究主要集中于戰(zhàn)術(shù)層次,屬于微觀層面,這是由于戰(zhàn)術(shù)層次的實體行為模型較易建立,武器平臺的運用規(guī)則相對簡單,不確定性相對較小,流程相對固定[5]。而戰(zhàn)役層次的C2研究則很少見諸文獻,這是由于戰(zhàn)役層次的C2行為屬于宏觀層次,考慮的對象不再是單個作戰(zhàn)實體,而是多個作戰(zhàn)單元,不僅要考慮我方兵力分布,還要考慮敵方態(tài)勢信息,既跨物理域,又跨信息域、認知域,涉及的范圍更廣、考慮的因素更多,一直以來都是作戰(zhàn)仿真研究領(lǐng)域的難點。
人工智能的迅猛發(fā)展,尤其是令人矚目的谷歌AlphaGo在圍棋領(lǐng)域取得的重要突破,表明了基于機器學習的C2建模的可行性。AlphaGo推動了兩項與人工智能相關(guān)的技術(shù):神經(jīng)網(wǎng)絡(luò)技術(shù)以及強化學習RL(Reinforcement Learning)技術(shù)。神經(jīng)網(wǎng)絡(luò)是一種有效的復雜問題離散表示方法[6,7],而RL則相當于不確定性環(huán)境中的訓練樣本,兩者結(jié)合具有巨大的發(fā)展?jié)摿?,是作?zhàn)仿真C2研究的主要發(fā)展趨勢。為此,針對WSoS作戰(zhàn)仿真具有的不確定性、復雜性特點,以及戰(zhàn)役層次C2認知行為的實際條件,本文以GRBF(Gauss Radial Basis Function)神經(jīng)網(wǎng)絡(luò)作為指揮Agent認知域的離散模型,基于RL技術(shù)驅(qū)動神經(jīng)網(wǎng)絡(luò)的進化,提出了基于RL的SoS對抗仿真戰(zhàn)役層次C2算法,并對算法的可行性以及性能進行了作戰(zhàn)仿真研究,以期為WSoS戰(zhàn)役層次的認知決策技術(shù)提供一種有效的解決途徑,也為未來WSoS的智能化C2研究進行一定的初步探索。
目前,常用的針對作戰(zhàn)Agent認知決策的主要技術(shù)包括三種方法:一種是個性優(yōu)化;另一種是Rule-based算法,對應(yīng)于反應(yīng)型Agent;第三種是基于BDI(Belief Desire Intention)的認知型Agent,如表1所示??梢钥闯觯捎赪SoS的Agent數(shù)目更多、組成要素與內(nèi)部結(jié)構(gòu)更加復雜、不確定性更高,使得傳統(tǒng)的決策算法已經(jīng)不能有效適用于復雜WSoS的認知決策研究。RL作為一種無師在線決策技術(shù),在無需任何先驗知識的情況下即可實現(xiàn)對未知環(huán)境的學習,對不確定環(huán)境具有自適應(yīng)能力,因此被廣泛用于復雜環(huán)境的作戰(zhàn)Agent自主決策研究[8]。楊萍等[9]將強化學習引入智能體模糊戰(zhàn)術(shù)機動決策模型中,有效地解決了馬爾科夫決策過程狀態(tài)轉(zhuǎn)移規(guī)律難以獲得時的模型求解問題;馬耀飛等[6]基于強化學習對戰(zhàn)術(shù)層面仿真航空兵的空戰(zhàn)機動決策問題進行了研究;徐安等[7]基于RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)和Q-learning算法對飛行器三維空間的隱蔽接敵策略進行了學習研究。上述研究為RL在體系對抗仿真中的應(yīng)用提供了一個良好的開端,但也存在一些明顯不足:大部分研究針對的并非是體系對抗情形,且以戰(zhàn)術(shù)層次為主;部分針對對抗決策的情景比較簡單,與實際戰(zhàn)爭中的多回合連續(xù)對抗樣式區(qū)別較大。
Table 1 Traditional cognition and decision algorithms for the battle Agent
鑒于RL算法對未知空間的自適應(yīng)優(yōu)勢,本文提出一種基于改進Q-learning的面向體系對抗的戰(zhàn)役層次認知決策算法,基于跨步差分學習解決單步差分學習用于時間離散指控Agent認知時序存在的兩個顯著問題。此外,為了解決指揮Agent的不確定性問題,傳統(tǒng)的RL認知決策算法的做法是在整個作戰(zhàn)回合結(jié)束后再進行Q函數(shù)的信度分配,效率較低。例如,楊克巍等[10]對基于半自治作戰(zhàn)Agent的Profit-sharing增強學習進行的實驗研究。因此,跨步差分的另一個優(yōu)點是將整個作戰(zhàn)回合分為多個有效的學習階段,當滿足一定的條件后,即進行Q函數(shù)的差分學習,進而提高了學習效率。
Figure 1 UML framework of the WSoS architecture based on AOP圖1 基于AOP的WSoS UML結(jié)構(gòu)框架
目前針對體系的相關(guān)實驗研究均以自行組合構(gòu)造為主[11],在對文獻[12]體系架構(gòu)發(fā)展的基礎(chǔ)上,設(shè)計的基于AOP(Agent Oriented Programming)的WSoS UML框圖如圖1所示。其中箭頭上面的數(shù)字含義表示所指Agent的數(shù)目,1代表1個,1..*代表1個或者多個,0..*代表0個或者多個,例如1個武器裝備體系由多個Agent組成。該框架設(shè)計的基本初衷一方面是為了盡可能囊括現(xiàn)實世界中各種類型的裝備,另一方面是為了給武器裝備體系的復雜特征[11]提供一個衍生基礎(chǔ),例如修復Agent和補給Agent對于體系的演化性具有重要的影響。
此外,該框架與最新提出的網(wǎng)絡(luò)信息體系NISoS(Network Information SoS)架構(gòu)相契合,其中,通信Agent(CCAgent)可組成NISoS中的基礎(chǔ)網(wǎng),感知Agent(SCAgent)可組成NISoS中的感知網(wǎng),打擊Agent(ATAgent)可組成NISoS中的火力網(wǎng),補給Agent(SUAgent)以及修復Agent(RPAgent)可組成NISoS中的保障網(wǎng),指揮Agent(CMAgent)可組成NISoS中的決策網(wǎng),進而可為NISoS的作戰(zhàn)仿真研究提供一個實驗參考。
為了實現(xiàn)WSoS的作戰(zhàn)仿真研究,基于Java語言自主開發(fā)了一款作戰(zhàn)仿真原型系統(tǒng),并為不同種類的Agent構(gòu)建了3D幾何模型用于可視化分析。原型系統(tǒng)采用分布式進程調(diào)度架構(gòu),離散時間仿真協(xié)議進行設(shè)計開發(fā),共包含6種類型的Agent,對應(yīng)于WSoS的結(jié)構(gòu)框架,其中CCAgent、SCAgent、ATAgent、SUAgent、RPAgent通過系統(tǒng)提供的項目編輯界面進行參數(shù)的編輯并添加到仿真體系,而CMAgent根據(jù)體系的層次結(jié)構(gòu)由系統(tǒng)自動添加,其依據(jù)是為每個編隊設(shè)計一個CMAgent。原型系統(tǒng)的物理作戰(zhàn)空間是按照Java 3D標準定制的100×100(m2)的三維幾何地圖,在作戰(zhàn)開始時,紅藍雙方的兵力被分別自動部署在地圖的左右兩側(cè),當仿真開始后,雙方會相向運動,直到在中間區(qū)域遭遇并展開對抗。其中,戰(zhàn)術(shù)層次的決策行為相對簡單,可采用有限狀態(tài)機實現(xiàn)。而CMAgent隸屬于戰(zhàn)役層次,負責對所屬Agent的宏觀指揮與控制,決策行為比較復雜,是論文研究的重點。
由于系統(tǒng)基于時間離散模型進行調(diào)度,因此CMAgent的決策行為是以仿真時鐘為單位進行的,其主要目的是在當前感知態(tài)勢的基礎(chǔ)上進行決策,其認知域描述如表2所示,考慮到RPAgent的量少(通常紅藍雙方各有一個),故忽略其影響。圖2為CMAgent的決策行動原理示意圖,其中的Agent代表的是紅方的一個編隊,只有一個CMAgent,而其他類型的Agent則不止一個,這些戰(zhàn)術(shù)層Agent會始終與CMAgent分別保持在一個固定的距離之內(nèi)??梢钥闯?,前進行動的原理比較直觀,對于進攻行動,作戰(zhàn)Agent會根據(jù)CMAgent發(fā)送的優(yōu)先打擊目標執(zhí)行相應(yīng)的逼近行動;而對于撤退行動,CMAgent會首先根據(jù)敵我數(shù)目對比計算出前、后、左、右四個方向的敵軍力量,例如OL-EL=-10代表左方敵軍比友軍多10個,最終,根據(jù)計算結(jié)果,CMAgent會決定向右方移動。
圖2中,O為友軍Agent數(shù)目,E為敵軍Agent數(shù)目,L代表左方,R代表右方,F(xiàn)代表前方,B代表后方。
如果將CMAgent的態(tài)勢信息作為狀態(tài)空間S={s1,s2,…,sn},將可采取的決策指令作為行為集合A={a1,a2,…,am},則CMAgent的認知可以視為從S到A的一個映射,即f(s)→a,其中s∈S,a∈A,在RL領(lǐng)域中,通常將其稱為一個策略π,而最合理的映射即對應(yīng)于RL領(lǐng)域中的最優(yōu)策略為π*。由于仿真進程是以仿真時鐘為單位向前推進的,因此CMAgent的認知行為也是以仿真時鐘為單位,即在每一個仿真時鐘步t,CMAgent都會根據(jù)當前狀態(tài)st選擇一個合理的行為at,進而完成一次決策。在WSoS框架基礎(chǔ)上,結(jié)合RL算法的概念以及作戰(zhàn)實際情形,對CMAgent認知行為的六條假設(shè)如表3所示。
Table 3 Hypothesis of the cognition anddecision actions for the CMAgent
Table 2 Description of the cognition domain of the CMAgent
Figure 2 Principle diagram of the decision actions for the CMAgent圖2 指揮Agent的決策行動原理示意圖
可以看出,CMAgent認知過程的不確定性、隨機性和未知性均要高于其他應(yīng)用領(lǐng)域,僅能根據(jù)自身的有限信息進行策略的學習。
為了壓縮參數(shù)空間,也為了使學習成果更具一般性,需要首先對用到的學習參數(shù)進行歸一化,其意義類似于流體力學中的無量綱化,這對實驗結(jié)果至關(guān)重要。主要包括狀態(tài)空間參數(shù)的歸一化以及獎賞參數(shù)的歸一化。狀態(tài)空間的歸一化公式如下所示:
(1)
其中,δ是一個極小值,其意義是避免除零,根據(jù)歸一化公式,CMAgent的狀態(tài)空間可由四維參數(shù)向量(Nc,Nsc,Nsu,Na)表示。獎賞信息的歸一化公式為:
.5∈(-0.5,0.5)
(2)
其中,KE為殺死敵軍數(shù)目,KO為死亡友軍數(shù)目,δ的意義同前??梢钥闯觯攔>0時,CMAgent得到的是正獎賞,當r<0時,CMAgent得到的是負獎賞,獎賞的好壞一目了然。通過以上對學習參數(shù)的歸一化處理,使得學習數(shù)據(jù)更具普遍性和可比性。
傳統(tǒng)的Q函數(shù)采用表格進行狀態(tài)空間的離散,然而,當狀態(tài)空間是連續(xù)的且維數(shù)較多時,表格離散法會面臨“分割難題”,并且學習效率較低??紤]到GRBF神經(jīng)網(wǎng)絡(luò)的離散性能以及泛化能力,可以采用GRBF神經(jīng)網(wǎng)絡(luò)對Q函數(shù)進行離散[6,7]。所謂泛化能力是指即使某個樣本沒有學習,GRBF神經(jīng)網(wǎng)絡(luò)也能估計其輸出,而這是表格離散法不能做到的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。由圖3可知,GRBF神經(jīng)網(wǎng)絡(luò)由四層組成,第一層為輸入層,第二層為離散層,第三層為隱含層,第四層為輸出層。其中,離散層的等寬離散公式如下所示:
(3)
Figure 3 Discretization of the Q table based on the GRBF neural network圖3 基于GRBF神經(jīng)網(wǎng)絡(luò)的Q離散
可以算出,輸入狀態(tài)空間的樣本數(shù)目最大為54=625個,可以想象采用傳統(tǒng)離散方法的復雜性,其輸出層輸出的是對應(yīng)動作的Q值,共有7個動作,其計算公式為:
(4)
(5)
其中,徑向基函數(shù)bi(s)的計算公式如下所示:
,i=1,2,…,m
(6)
其中,ci是第i個基函數(shù)的中心,與s具有相同的維度,σi是第i個基函數(shù)的寬度,m是隱含層的個數(shù),‖s-ci‖為輸入狀態(tài)與基函數(shù)中心的歐氏距離。
Q-learning利用時間差分TD(Temporal Difference)公式直接估計狀態(tài)-動作(s-a)對的期望值,采用Q*(s,a)表示,對應(yīng)于行為選擇策略π*。假設(shè)Q*(s,a)的當前估計值用Q(s,a)表示,下一時刻的值用Vt(s)來表示,根據(jù)TD公式有:
Qt(s,a)=Qt-1(s,a)+αtVt(s)-Qt-1(s,a)
(7)
Qt(s,a)=Qt-1(s,a)+
(8)
其中t表示當前仿真時鐘步,αt表示學習速率。可以看出,Q-learning的迭代公式采用的是單步差分公式,即在每個時間步都進行Q表(狀態(tài)-動作對表格)的學習。而實際上,對于基于WSoS對抗仿真的戰(zhàn)役層次指揮Agent認知決策問題,有兩個顯著的特點:一是指揮Agent的狀態(tài)并非在每個時間步都會發(fā)生變遷,往往連續(xù)多個仿真時鐘步都是同一個狀態(tài),即st=st-m;二是單步獎賞值rt非常小甚至趨于零,即Agent在st時采取一個動作at后沒有收到任何回報,因此也就無法對Qt(s,a)的好壞進行評價??赏ㄟ^某次仿真的某指揮Agent認知過程時序圖進一步印證這兩個特點,如圖4所示,其中X軸為仿真時刻,Y軸為狀態(tài)編號,Z軸為獎賞值。
Figure 4 Time sequence change of the cognition domain of the CMAgent for a battle simulation圖4 某次作戰(zhàn)仿真的CMAgent認知域時序變化圖
由圖4可以看出,狀態(tài)不變或者單步獎賞值為零的時刻居多,并且狀態(tài)與獎賞值變化之間沒有絕對關(guān)聯(lián),狀態(tài)變化獎賞值不一定變化,獎賞值變化狀態(tài)不一定變化??紤]到這兩種特殊情況,一是狀態(tài)未改變,二是獎賞值為零,均不適合進行差分學習,反而會造成計算資源的浪費,為此,提出跨步時間差分STD(Stride Temporal Difference)的Q-leaning迭代公式,即用于Q值更新的獎賞值不是單步獎賞,而是未來N步的累積獎賞值R,相應(yīng)地,Q表不會立即更新,而是當R大于一定的閾值R′或者狀態(tài)發(fā)生改變后再進行更新。采用STD-Q不僅能夠解決上述問題,而且能夠提高仿真效率,同時能夠增強學習信號,使針對Q(s,a)的估計也更加準確,尤其是對于不確定性極高的體系對抗環(huán)境。
假設(shè)Vt-m(st-m)是t-m時刻狀態(tài)st-m對應(yīng)的新的Q*值,根據(jù)TD公式,可得Q函數(shù)在t時刻的更新公式如下所示:
Qt(st,a)=Qt-m(st-m,a)+
αtVt-m(st-m)-Qt-m(st-m,a)
(9)
又由于在Q表更新之前:
Vt-m(st-m)=rt-m+γVt-m+1(st-m+1)
Vt-m+1(st-m+1)=rt-m+1+γVt-m+2(st-m+2)
?
Vt-1(st-1)=rt-1+γVt(st)
則有:
Vt-m(st-m)=rt-m+γVt-m+1(st-m+1)=
rt-m+γ[rt-m+1+γVt-m+2(st-m+2)]=
rt-m+γrt-m+1+γ2Vt-m+2(st-m+2)=
rt-m+γrt-m+1+γ2[rt-m+2+γVt-m+3(st-m+3)]=
rt-m+γrt-m+1+γ2rt-m+2+γ3Vt-m+3(st-m+3)=…=
rt-m+γrt-m+1+γ2rt-m+2+…+γm-1rt-1+
γmVt(st)=rt-m+γrt-m+1+γ2rt-m+2+…+
(10)
將式(10)代入式(9)得到最終的STD-Q函數(shù)更新公式如下所示:
(11)
Figure 5 Cognition and learning framework of the CMAgent based on STD-Q圖5 基于STD-Q的CMAgent認知學習框架
(12)
學習過程以周期計數(shù),當一個回合的作戰(zhàn)結(jié)束時視為一個學習周期的結(jié)束,其學習框架如圖5所示。基于STD-Q的WSoS戰(zhàn)役層次CMAgent的決策過程如下:
步驟1初始化CMAgent的GRBF神經(jīng)網(wǎng)絡(luò),通過k-means聚類設(shè)置GRBF的中心和寬度,設(shè)定最大學習周期數(shù)K,令k=1;
步驟5執(zhí)行決策指令at,轉(zhuǎn)到新的狀態(tài)st+1;
步驟6如果仿真沒有分出勝負或者t小于最大仿真步數(shù),返回步驟3;
步驟8k=k+1,如果k>K則結(jié)束學習,否則轉(zhuǎn)步驟2。
5.2.1 不同隱含層節(jié)點數(shù)的效能分析
得到的體系對抗結(jié)果如圖6所示,為不同隱含層節(jié)點數(shù)目對應(yīng)的STD-Q算法作戰(zhàn)效能(由勝率和總獎賞共同評估),其中m∈{2,10,20,30,…,610,620}(m最小不能小于2,最大不大于625),勝率W由獲勝次數(shù)除以學習周期計算(當對方兵力完全被消滅或者將一定會被完全消滅時視為獲勝),總獎賞RALL的計算公式為:
Table 4 Decision rule of theCMAgent based on rule-based
RALL=((KBI-KBE)+δ)/((KBI-KBE)+δ+(KRI-KRE)+δ)-0.5
(13)
其中,KBI為開始時敵軍總數(shù),KBE為周期結(jié)束時敵軍總數(shù),KRI為開始時友軍總數(shù),KRE為周期結(jié)束時友軍總數(shù)。由圖6可知,藍方W以及RALL要優(yōu)于紅方,當m∈{2,10,20,30,…,200}時,藍方占有絕對優(yōu)勢,勝率幾乎為1,但當200 Figure 6 Operational effectiveness changes of the red and blue camp varied with number of nodes of the hidden layer圖6 紅藍雙方作戰(zhàn)效能隨隱含層節(jié)點數(shù)目的變化 圖7為總用時隨m的變化,可以看出隨著m的增大,總用時總體保持增加的趨勢,但當m∈{100,110,…,200}時出現(xiàn)了一個波峰,這是由誤差導致的,通過多次仿真取均值或增大最大仿真步長可以有效消除其影響。根據(jù)以上的分析,m在{2,10,20,…,100}之內(nèi)選擇最佳。 Figure 7 Total time consumption changes with the number of nodes of the hidden layer 圖7 總用時隨隱含層節(jié)點數(shù)目的變化 5.2.2 算法的收斂性分析 Figure 8 Development of the total repay value of the red and blue camps changes with learning cycles 圖8 紅藍雙方總獎賞值隨學習周期的演化 5.2.3 可視化仿真回溯分析 為了探索算法的優(yōu)勢根源,選擇算法收斂時的一組對抗數(shù)據(jù)進行可視化仿真回溯分析,圖9為不同階段下紅藍雙方可視化對抗情景。其中,圖9a表示對抗開始時雙方尋敵作戰(zhàn)情景,圖9b是雙方在中間發(fā)生遭遇后開始作戰(zhàn),圖9c是雙方激戰(zhàn)階段,從圖9d時刻開始,藍方開始占據(jù)優(yōu)勢,之后,紅方依據(jù)撤退規(guī)則開始執(zhí)行撤退行為,如圖9e所示,而藍方則一直在追擊并打掉了紅方的大本營(RPAgent),由于此時紅方已經(jīng)無處可退,且有生兵力已經(jīng)全部陣亡,獲勝概率為零,被系統(tǒng)判定為負,使得對抗過程提前結(jié)束,最終,采用STD-Q的藍方獲得最后勝利,如圖9f所示。 Figure 9 Typical visualization scene of the red-blue confrontation process圖9 典型的紅藍雙方對抗可視化情景(N為兵力數(shù)目) 進一步對雙方的對抗情景進行多次反復可視化回溯分析,發(fā)現(xiàn)藍方勝利的直接因素主要表現(xiàn)在兩方面:一是與藍方優(yōu)先選擇空中目標進行攻擊有一定的關(guān)聯(lián),并且藍方的火力打擊更加協(xié)調(diào);二是藍方地面兵力一直在進行小范圍機動,這使得紅方的炮彈存在大量的落空,避免了藍方地面兵力的大量傷亡,而激戰(zhàn)過程中的紅方地面兵力則一直保持靜止,使得藍方炮彈“彈無虛發(fā)”,致使紅方的傷亡十分嚴重,最終不敵藍方潰敗。以上只是對雙方對抗過程的一種粗略的可視化分析,實際的對抗過程十分復雜,具有更多的復雜因素有待挖掘。 考慮到RL在復雜環(huán)境、不確定性環(huán)境以及未知環(huán)境中的求解優(yōu)勢,本文提出了基于跨步差分Q-leaning的體系對抗智能認知決策算法,并通過武器裝備體系對抗仿真實驗進行了驗證,表明了算法的有效性;同時表明,基于GRBF神經(jīng)網(wǎng)絡(luò)的狀態(tài)空間離散方法能夠有效應(yīng)對體系對抗環(huán)境下指揮Agent認知域狀態(tài)連續(xù)多維的分割難題,并且以較少的隱層節(jié)點數(shù)即可獲得優(yōu)異的決策效能。研究對于體系對抗仿真環(huán)境下戰(zhàn)役層次指揮Agent認知決策以及信息化對抗環(huán)境下輔助指揮員進行決策具有一定的參考價值。6 結(jié)束語