李承興,高桂清,鞠金鑫,蔣 振
(火箭軍工程大學(xué), 西安 710025)
隨著人工智能學(xué)習(xí)技術(shù)的日趨發(fā)展,以Alphago為首的圍棋AI掀起“人機(jī)大戰(zhàn)”的潮流。在兵棋推演系統(tǒng)中通過(guò)利用基于大量兵棋對(duì)抗數(shù)據(jù)的深度增強(qiáng)學(xué)習(xí)人工智能技術(shù)方法,提升計(jì)算機(jī)AI的學(xué)習(xí)與進(jìn)化能力,模擬人的思維方式,實(shí)現(xiàn)對(duì)抗經(jīng)驗(yàn)的快速積累,同步提高對(duì)抗水準(zhǔn)的同時(shí),幫助裝備保障推演指揮員改善、提高指揮策略、謀略水平。
參與學(xué)習(xí)過(guò)程的機(jī)器稱為智能體,增強(qiáng)學(xué)習(xí)的本質(zhì)是智能體通過(guò)嘗試與環(huán)境反饋而完善策略的過(guò)程。智能體的學(xué)習(xí)過(guò)程基于環(huán)境感知,通過(guò)付出行為動(dòng)作得到反饋,并根據(jù)結(jié)果進(jìn)行學(xué)習(xí)優(yōu)化。深度增強(qiáng)學(xué)習(xí)的原理主要包括兩方面:馬爾科夫決策過(guò)程(MDP)與神經(jīng)網(wǎng)絡(luò)。
1) 馬爾科夫決策過(guò)程(MDP)。一個(gè)完整的MDP是一系列狀態(tài)S與動(dòng)作A的組合,智能體通過(guò)動(dòng)作完成狀態(tài)轉(zhuǎn)變,而馬爾科夫過(guò)程的基本假設(shè)是每個(gè)狀態(tài)只與上一個(gè)狀態(tài)相關(guān)。一個(gè)MDP一般由五要素構(gòu)成:{S,A,{Psa},γ,R},其中:
智能體在狀態(tài)s0的情況下采取動(dòng)作a0,并按照Psa的轉(zhuǎn)移概率到s1,在這個(gè)過(guò)程中產(chǎn)生了回值r0,按照以上步驟完成的決策過(guò)程可以用圖1表示。
在MDP基本元素確定后由于增強(qiáng)學(xué)習(xí)過(guò)程之中很多行動(dòng)并不能立刻得到回報(bào),而是延遲到行動(dòng)結(jié)果產(chǎn)生時(shí),因而一步回報(bào)函數(shù)r(s,a)并不能具備表示策略好壞的能力。為了解決上述問(wèn)題,需要定義值函數(shù)來(lái)體現(xiàn)整個(gè)策略π的回報(bào)(π定義了各種狀態(tài)對(duì)應(yīng)的行動(dòng))。常用的值函數(shù)如下:
(1)
在狀態(tài)s下采用策略π時(shí):考慮未來(lái)回報(bào)與即時(shí)回報(bào)擁有不同權(quán)重。增強(qiáng)學(xué)習(xí)最終的目標(biāo)是最大化值函數(shù),因而最優(yōu)化的π可以定義為
π*=arg maxVπ(s),(?s)
(2)
即在每個(gè)狀態(tài)下均能取到最大值函數(shù)的動(dòng)作集合π。
一般一個(gè)狀態(tài)下可以對(duì)應(yīng)有多個(gè)動(dòng)作,進(jìn)而延伸出能夠清楚表示出不同動(dòng)作下的回報(bào)動(dòng)作效用函數(shù)Q函數(shù),記為Q(s,a)。Q函數(shù)可以簡(jiǎn)單地理解為一張表格,即記錄下每個(gè)狀態(tài)s下采用動(dòng)作a對(duì)應(yīng)的回報(bào)值。Q表的更新迭代規(guī)則為:
(3)
式(3)中表示在狀態(tài)s下采取動(dòng)作a時(shí),i+1輪參數(shù)等于第i輪的參數(shù)r與轉(zhuǎn)化后的狀態(tài)s′下能夠取得的最大回報(bào)之和。Q函數(shù)動(dòng)態(tài)更新,最初初始化為0矩陣。
2) 神經(jīng)網(wǎng)絡(luò)。對(duì)于裝備維修保障兵棋而言,上述最小化值函數(shù)的過(guò)程能夠很好地得到最優(yōu)化的策略集π,但是當(dāng)狀態(tài)集較大的情況,Vπ(s)對(duì)應(yīng)的值空間將無(wú)比巨大,隨之而來(lái)的需要模擬的次數(shù)也將使得算法失去時(shí)間上的可行性。在這種情況下,需要采用相似的方法進(jìn)行處理,即使用新的函數(shù)表示值函數(shù)。新函數(shù)在任意輸入的情況下均能給出近似輸出,即Vπ(s,W)≈Vπ(s),其中W為新函數(shù)的參數(shù)集。對(duì)于新的函數(shù),需要通過(guò)更新參數(shù)W來(lái)逼近最優(yōu)值函數(shù),這個(gè)更新過(guò)程即優(yōu)化過(guò)程。
對(duì)于海量狀態(tài)集且不確定函數(shù)形式的情況,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)是最優(yōu)解法。監(jiān)督學(xué)習(xí)是給定數(shù)據(jù)與結(jié)果,利用結(jié)果更新參數(shù)使得輸出盡可能逼近結(jié)果。神經(jīng)網(wǎng)絡(luò)通過(guò)梯度下降法,根據(jù)損失函數(shù)更新網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)函數(shù)逼近。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的最終結(jié)果是大量神經(jīng)元的參數(shù),即W。
對(duì)于推演狀態(tài)動(dòng)作空間極大的過(guò)程,直接最優(yōu)化Q函數(shù)時(shí)間限制無(wú)法滿足,因而采用神經(jīng)網(wǎng)絡(luò)代替Q值的方法,即深度Q學(xué)習(xí)。深度Q學(xué)習(xí)的過(guò)程按照準(zhǔn)備、訓(xùn)練和應(yīng)用3個(gè)層次遞進(jìn),其中準(zhǔn)備階段包括狀態(tài)與行動(dòng)空間的確定、回報(bào)的確定;訓(xùn)練階段包括隨機(jī)模擬數(shù)據(jù)生成、神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練;應(yīng)用階段即采用貪心或最長(zhǎng)路徑算法確定最優(yōu)策略。
1.2.1 準(zhǔn)備階段
1) 狀態(tài)空間。狀態(tài)空間是Q學(xué)習(xí)中的主線,各種狀態(tài)對(duì)應(yīng)需要的動(dòng)作收益即Q學(xué)習(xí)目標(biāo)。在裝備維修保障兵棋系統(tǒng)中,其狀態(tài)空間包括推演過(guò)程中每個(gè)回合結(jié)束后可能出現(xiàn)所有局面情況,可能出現(xiàn)復(fù)雜度較高的場(chǎng)景,因而可以對(duì)狀態(tài)進(jìn)行分類(lèi),如分離狀態(tài)、交戰(zhàn)狀態(tài)、受損狀態(tài)、維修狀態(tài),其中分離狀態(tài)是指雙方并未接觸,各自執(zhí)行任務(wù);交戰(zhàn)狀態(tài)一般包含襲擾的過(guò)程;受損狀態(tài)即裝備受損且未被維修的狀態(tài);維修狀態(tài)則是維修過(guò)程狀態(tài),每個(gè)狀態(tài)空間包含多種狀態(tài),但是具有極大的相似性。
2) 動(dòng)作空間。動(dòng)作空間是智能體在一定狀態(tài)下進(jìn)行的操作行為統(tǒng)稱,分為全局和局部。全局動(dòng)作是指整個(gè)過(guò)程中所有動(dòng)作的集合,而局部動(dòng)作則是針對(duì)特定狀態(tài)采用的動(dòng)作,局部動(dòng)作有助于減小動(dòng)作空間,集中處理相應(yīng)狀態(tài)。在裝備維修保障兵棋中,動(dòng)作空間等同于命令數(shù)據(jù)。局部動(dòng)作空間是在特定場(chǎng)景下的命令集,如修理狀態(tài)命令主要集中在修理命令上。
3) 回報(bào)?;貓?bào)是Q學(xué)習(xí)的目標(biāo),是動(dòng)作帶來(lái)的狀態(tài)轉(zhuǎn)變的收益。裝備維修保障兵棋中回報(bào)的確定主要包括裝備損傷、物資消耗與維修結(jié)果,并根據(jù)其重要程度分別復(fù)制不同的回報(bào)。紅方最終目的是取得損傷最小、消耗最少且維修成果最好的局面,而藍(lán)方則是在自己消耗最少的情況下盡可能使得紅方損傷最大。
1.2.2 訓(xùn)練階段
1) 隨機(jī)模擬數(shù)據(jù)生成。在狀態(tài)與動(dòng)作空間確定后,遍歷所有狀態(tài)與動(dòng)作序列在時(shí)間上不現(xiàn)實(shí),因而采用隨機(jī)初始化初始情況,并根據(jù)當(dāng)前狀態(tài)空間下的可選動(dòng)作,按照選定的概率分布,隨機(jī)選擇動(dòng)作模擬。通過(guò)一系列模擬生成不同類(lèi)型的數(shù)據(jù)資料,為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)提供數(shù)據(jù)參考。
在裝備維修保障兵棋中,確定想定場(chǎng)景之后的步驟均能夠根據(jù)相應(yīng)的空間執(zhí)行動(dòng)作,模擬完成推演,推演的結(jié)束是維修任務(wù)的完成。在隨機(jī)模擬數(shù)據(jù)完成后,一套狀態(tài)動(dòng)作序列的所有回報(bào)均能用于網(wǎng)絡(luò)訓(xùn)練。
2) 網(wǎng)絡(luò)訓(xùn)練。對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程可以看作Q表的更新過(guò)程。第一步對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,通過(guò)在網(wǎng)絡(luò)上做出相應(yīng)的動(dòng)作行為觸發(fā)神經(jīng)元,最終由此得到相應(yīng)的反饋輸出進(jìn)行在線學(xué)習(xí)。每個(gè)狀態(tài)動(dòng)作序列按順序投入訓(xùn)練,不同的是每輪訓(xùn)練完成時(shí),需要保留本輪的網(wǎng)絡(luò)參數(shù)為W-,用于下一輪更新相應(yīng)的Q值,其損失函數(shù)即兩輪之間Q值之差的平方,利用梯度下降法更新網(wǎng)絡(luò)。
由此可見(jiàn),網(wǎng)絡(luò)訓(xùn)練就是Q表的生成,利用網(wǎng)絡(luò)對(duì)多種不同狀態(tài)的規(guī)律提取能力節(jié)省了大量存儲(chǔ)空間。直觀上理解為:在一次機(jī)動(dòng)任務(wù)完成過(guò)程中存在多個(gè)不同的狀態(tài),這些狀態(tài)中采取襲擾而產(chǎn)生的結(jié)果可能是相似的。
1.2.3 應(yīng)用階段
應(yīng)用階段就是將訓(xùn)練好的網(wǎng)絡(luò)用于實(shí)際策略選取的過(guò)程。在Q值完全精確的情況下,智能體只需要在每個(gè)狀態(tài)下選擇回報(bào)最高的動(dòng)作進(jìn)行操作,即能夠保證最優(yōu)的最終結(jié)果,這種策略稱為貪心法。在實(shí)際操作過(guò)程中,智能體遍歷通過(guò)當(dāng)前狀態(tài)下的動(dòng)作空間實(shí)現(xiàn)貪心。為避免局部最優(yōu)解的影響,通常還可以采用最長(zhǎng)路徑算法優(yōu)化貪心法,增加貪心的步驟而更加靠近全局最優(yōu)解法。
通過(guò)裝備維修保障過(guò)程中的裝備受損和機(jī)動(dòng)維修分隊(duì)抵達(dá)受損裝備位置點(diǎn)等具體內(nèi)容,探討人工智能技術(shù)理論在推演中的狀態(tài)、動(dòng)作量化,狀態(tài)轉(zhuǎn)移與回報(bào)值確定以及深度學(xué)習(xí)3個(gè)方面增強(qiáng)學(xué)習(xí)能力的應(yīng)用方式方法。
機(jī)動(dòng)分隊(duì)抵達(dá)受損位置后開(kāi)始維修過(guò)程的模擬是對(duì)狀態(tài)的量化。在學(xué)習(xí)過(guò)程中采用一個(gè)狀態(tài)矩陣來(lái)表示當(dāng)前狀態(tài),設(shè)置當(dāng)前受損裝備所在部隊(duì)番號(hào)為K,機(jī)動(dòng)分隊(duì)代號(hào)為X,則針對(duì)當(dāng)前維修過(guò)程的狀態(tài)進(jìn)行量化,如表1所示。其中各型狀態(tài)取值如表2所示。
表1 機(jī)動(dòng)維修分隊(duì)維修狀態(tài)類(lèi)型量化
表2 機(jī)動(dòng)維修分隊(duì)維修狀態(tài)類(lèi)型取值
狀態(tài)的改變即為狀態(tài)矩陣中對(duì)應(yīng)屬性值的改變。馬爾科夫決策過(guò)程中的動(dòng)作,可以狹義地理解為兵棋系統(tǒng)中的指令。維修過(guò)程中的指令只針對(duì)維修處置。同樣采用當(dāng)前受損裝備所在部隊(duì)番號(hào)為K,機(jī)動(dòng)分隊(duì)番號(hào)為L(zhǎng),則動(dòng)作可以用指令向量描述如表3所示。
表3 維修指令向量描述
注:指令源棋子指執(zhí)行命令棋子,指令目標(biāo)棋子指命令所影響棋子,如受損單位
狀態(tài)的轉(zhuǎn)移主要包含兩方面因素,狀態(tài)轉(zhuǎn)移的概率以及轉(zhuǎn)移后新的狀態(tài)。在MDP中每個(gè)狀態(tài)轉(zhuǎn)移的過(guò)程即是變化的過(guò)程,狀態(tài)轉(zhuǎn)移的概率即引發(fā)狀態(tài)變化的多種裁決過(guò)程的概率集合,而轉(zhuǎn)移后的概率即裁決的最終結(jié)果。在維修過(guò)程中,維修指令下達(dá)后開(kāi)始維修過(guò)程,每次維修都有成功的概率,即狀態(tài)轉(zhuǎn)移概率,而利用隨機(jī)數(shù)判定的維修結(jié)果即是新的狀態(tài)。具體應(yīng)用中設(shè)置當(dāng)前的狀態(tài)為St,此時(shí)的行動(dòng)集為A(其中動(dòng)作集包括a1與a2,分別代指維修與放棄維修)。當(dāng)前狀態(tài)中詳細(xì)描述了受損裝備的受損等級(jí)、維修棋子的維修等級(jí)與維修能力值。采取不同動(dòng)作的狀態(tài)轉(zhuǎn)移概率描述如下:
1) 采取動(dòng)作a2。在采取動(dòng)作a2,即放棄維修的情況下,當(dāng)前狀態(tài)St向下一個(gè)狀態(tài)轉(zhuǎn)移的概率為0,即狀態(tài)不會(huì)改變。
2) 采取動(dòng)作a1。采取動(dòng)作a1,即立刻維修的情況下,當(dāng)前狀態(tài)的下一個(gè)狀態(tài)St+1共有兩種可能:
第1種情況下,在St+1中裝備維修成功,則受損裝備k等級(jí)將為0,同時(shí)維修棋子l的維修能力值減去相應(yīng)消耗值,此時(shí)的P(St,St+1)即為裁決表中維修成功的概率p;
第2種情況下,在St+1中裝備維修失敗,則受損裝備k等級(jí)保持不變,同時(shí)維修棋子l的維修能力值減去相應(yīng)消耗值,此時(shí)的P(St,St+1)為1減去裁決表中維修成功的概率p,即1-p;
如上所述,兵棋中狀態(tài)轉(zhuǎn)移概率依照相應(yīng)的動(dòng)作由裁決表決定。
在確定狀態(tài)轉(zhuǎn)移概率后,動(dòng)作的回報(bào)值由狀態(tài)之間的差異確定。狀態(tài)矩陣表示方法的優(yōu)點(diǎn)在于一步或多步回報(bào)均可采用矩陣差值的方式求得,針對(duì)維修過(guò)程的回報(bào)值考慮維修成果以及維修過(guò)程中的消耗,回報(bào)函數(shù)表示為
回報(bào)=Ea(α1×裝備受損等級(jí)之差+
α2×維修能力值消耗)
(4)
式(4)中,α1,α2為兩種屬性的回報(bào)權(quán)重,滿足等級(jí)差越大回報(bào)越大,維修能力值消耗越大,回報(bào)越小的原則。而Ea表示采取動(dòng)作a時(shí)的回報(bào)期望。
確定了狀態(tài)轉(zhuǎn)移概率與回報(bào)值函數(shù),即可通過(guò)馬爾科夫決策過(guò)程模擬動(dòng)作過(guò)程,獲取最佳行動(dòng)策略。
兵棋的狀態(tài)空間包括了整個(gè)棋局所有單位的狀態(tài)信息,而每個(gè)狀態(tài)下對(duì)應(yīng)的動(dòng)作集差異巨大。在不同狀態(tài)下動(dòng)作集基礎(chǔ)上,狀態(tài)空間疊乘動(dòng)作空間范圍過(guò)大帶來(lái)存儲(chǔ)空間與查詢時(shí)間過(guò)大的問(wèn)題。通過(guò)狀態(tài)轉(zhuǎn)移概率與回報(bào)函數(shù),利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)的方式能夠有效模擬整個(gè)狀態(tài)行為空間。
維修過(guò)程中,每個(gè)狀態(tài)可以由二維的狀態(tài)矩陣表征,相應(yīng)的動(dòng)作由一維的指令向量表征,將狀態(tài)矩陣展開(kāi)成一維,并拼接動(dòng)作向量形成的長(zhǎng)向量Vec為神經(jīng)網(wǎng)絡(luò)的輸入,相應(yīng)計(jì)算得到的回報(bào)值為神經(jīng)網(wǎng)絡(luò)的輸出,整體流程如圖2所示。
假設(shè)狀態(tài)矩陣為M*N維,動(dòng)作向量為1*K維,展開(kāi)拼接所得的輸入向量為1*(M*N+K)維,通過(guò)給定的回報(bào)期望來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。在狀態(tài)矩陣的動(dòng)作向量大量變化過(guò)程中,神經(jīng)網(wǎng)絡(luò)記錄其回報(bào)特征,模擬每種狀態(tài)與動(dòng)作情況下的期望回報(bào),從而解決Q值表過(guò)大的問(wèn)題。
當(dāng)前部隊(duì)在使用各型訓(xùn)練系統(tǒng)的過(guò)程中存在效能發(fā)揮不佳、資源分配不均等一系列問(wèn)題,兵棋系統(tǒng)在汲取部隊(duì)?wèi)?yīng)用訓(xùn)練系統(tǒng)過(guò)程中的實(shí)際情況和短板問(wèn)題基礎(chǔ)上,通過(guò)對(duì)人工智能技術(shù)理論領(lǐng)域的認(rèn)識(shí)和分析,以技術(shù)展望的角度探究融合MDP和神經(jīng)網(wǎng)絡(luò)技術(shù),從而增強(qiáng)裝備維修保障兵棋系統(tǒng)的深度策略學(xué)習(xí)能力,為更好發(fā)揮系統(tǒng)潛能,提高應(yīng)用的質(zhì)量效益提供了方法思路。
1) 提高訓(xùn)練對(duì)抗水準(zhǔn)。策略學(xué)習(xí)的過(guò)程主要有兩部分:線下學(xué)習(xí)與在線增強(qiáng)學(xué)習(xí)。線下學(xué)習(xí)是建立在多次對(duì)弈的數(shù)據(jù)基礎(chǔ)上,通過(guò)數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)作為增強(qiáng)學(xué)習(xí)的近似值函數(shù),在對(duì)弈時(shí)利用在線增強(qiáng)學(xué)習(xí)達(dá)到最優(yōu)化策略的目的。以往經(jīng)驗(yàn)的積累只能夠通過(guò)汲取歷史資料或?qū)嵺`演習(xí)任務(wù)和平時(shí)訓(xùn)練而來(lái),且經(jīng)驗(yàn)的傳遞具有極大的限制性。機(jī)器學(xué)習(xí)的過(guò)程是經(jīng)驗(yàn)積累的過(guò)程,通過(guò)大量數(shù)據(jù)抽象出最直接有效的策略,機(jī)器學(xué)習(xí)具備一次性與進(jìn)化性,一次性是指通過(guò)一波訓(xùn)練得到的結(jié)果將能夠永久保存,而進(jìn)化性則是表示訓(xùn)練完成的網(wǎng)絡(luò)參數(shù)能夠根據(jù)推演活動(dòng)任務(wù)的區(qū)別、時(shí)代的變化而進(jìn)行遷移訓(xùn)練,在已有的經(jīng)驗(yàn)基礎(chǔ)上學(xué)習(xí)新的策略。
2) 挖掘資源利用效率。充分發(fā)掘兵棋系統(tǒng)的潛力,除了通過(guò)棋局復(fù)盤(pán)積累經(jīng)驗(yàn)以外,充分的訓(xùn)練過(guò)程必不可少。裝備維修保障兵棋的推演對(duì)抗活動(dòng)需要導(dǎo)調(diào)員和紅藍(lán)方推演者,這意味著每次訓(xùn)練需要一定的人力資源。此外,與類(lèi)型、崗位的推演者進(jìn)行對(duì)弈有助于受訓(xùn)指揮員應(yīng)對(duì)不同思想和指揮風(fēng)格的對(duì)抗者,這是有效提升訓(xùn)練質(zhì)量對(duì)人力提出的功能需求,而經(jīng)由學(xué)習(xí)產(chǎn)生的AI具有多樣性與復(fù)用性,多樣性是指AI能夠通過(guò)改變訓(xùn)練數(shù)據(jù)而模擬不同風(fēng)格的對(duì)弈者,為指揮員提供多樣的訓(xùn)練效果。復(fù)用性是計(jì)算機(jī)帶有的特性,即一個(gè)AI能夠同時(shí)參與多人對(duì)弈,不同于一對(duì)一的真人對(duì)弈,利用有效的資源充分發(fā)揮了計(jì)算機(jī)系統(tǒng)的潛能效益。
3) 有效充當(dāng)多重角色。推演過(guò)程中,增強(qiáng)訓(xùn)練產(chǎn)生的策略除了用作AI以外,還能夠?yàn)橥蒲菡咛峁┳顑?yōu)化的指揮策略建議及驗(yàn)證完善任務(wù)方案。通過(guò)確定模型,AI計(jì)算出的策略在一定的概率范圍內(nèi)浮動(dòng),不因推演者心理情緒的波動(dòng)而產(chǎn)生偏差,體現(xiàn)出計(jì)算機(jī)的絕對(duì)理性,并且通過(guò)強(qiáng)大的計(jì)算能力,AI能夠根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)情況模擬出多種策略方案并選取最優(yōu)解。雖然計(jì)算機(jī)在創(chuàng)造性上存在短板,但是在多數(shù)情況下,由大量數(shù)據(jù)累計(jì)的計(jì)算及先驗(yàn)知識(shí)得出的結(jié)論對(duì)推演指揮員還是具有一定的參考意義。
:
[1] 石崇林.基于數(shù)據(jù)挖掘的兵棋推演數(shù)據(jù)分析方法研究[D].北京:國(guó)防科學(xué)技術(shù)大學(xué),2014.
[2] 杜羨.基于分布式徑向基網(wǎng)絡(luò)的板形識(shí)別模型研究[D].秦皇島:燕山大學(xué),2013.
[3] 楊宇航,李志忠,傅焜,等.基于虛擬現(xiàn)實(shí)的導(dǎo)彈維修訓(xùn)練系統(tǒng)[J].兵工學(xué)報(bào),2006(2):107-110.
[4] 劉平,高崎,黃照協(xié),等.維修分隊(duì)?wèi)?zhàn)時(shí)裝備維修能力評(píng)估方法研究[J].裝備環(huán)境工程,2012(5):130-134.
[5] 鐘劍輝,傅調(diào)平,鄧超.基于人工智能的兵棋推演作戰(zhàn)分析研究與設(shè)計(jì)[J].艦船電子工程,2015(1):32-33.
[6] 吳偉,吳琳.基于兵棋推演的作戰(zhàn)效能評(píng)估方法研究[J].軍事運(yùn)籌與系統(tǒng)工程,2013(6):16-19.
[7] 劉紀(jì)紅,徐曉東.計(jì)算機(jī)兵棋人機(jī)交互平臺(tái)的研究[J].東北大學(xué)學(xué)報(bào),2008(5):23-26.
[8] 楊南征.虛擬演兵—兵棋、作戰(zhàn)模擬與仿真[M].北京:解放軍出版社,2007.