張東俊, 黎 瀟, 吳 紅, 王天忠
(解放軍92337部隊(duì), 遼寧 大連 116023)
隨著信息技術(shù)的飛速發(fā)展,戰(zhàn)爭(zhēng)的形態(tài)發(fā)生了巨大的變化,戰(zhàn)爭(zhēng)的復(fù)雜性、消耗性和風(fēng)險(xiǎn)性急劇增加,客觀上需要更先進(jìn)的方法和手段來研究戰(zhàn)爭(zhēng)[1]。錢學(xué)森曾說過“在模擬可控的作戰(zhàn)條件下進(jìn)行作戰(zhàn)實(shí)驗(yàn),能夠?qū)τ嘘P(guān)兵力與武器裝備使用之間的復(fù)雜關(guān)系獲得數(shù)量上的深刻理解”[2]。作戰(zhàn)實(shí)驗(yàn)是用來探索作戰(zhàn)的因果關(guān)系,揭示作戰(zhàn)制勝機(jī)理,為裝備研制、改進(jìn)及作戰(zhàn)運(yùn)用提供支撐。作戰(zhàn)實(shí)驗(yàn)運(yùn)用領(lǐng)域是前沿交叉學(xué)科,其重難點(diǎn)問題是如何將作戰(zhàn)問題轉(zhuǎn)化為科學(xué)問題去表達(dá)和解析。
作戰(zhàn)實(shí)驗(yàn)運(yùn)用研究現(xiàn)狀[3-7]:1)靜態(tài)解析方法研究,如著名的蘭徹斯特方程,可定量描述地面戰(zhàn)斗的戰(zhàn)斗過程, 分析雙方損耗問題,然而它是一個(gè)確定解析過程,一旦初始條件確定,結(jié)果就基本確定,很難反應(yīng)作戰(zhàn)具體過程;2)仿真推演方法研究,如當(dāng)下最熱門的多Agent仿真等,都是基于裝備性能指標(biāo)進(jìn)行推演,裝備性能指標(biāo)是靜態(tài)的、孤立的,難以反映真實(shí)作戰(zhàn)過程中裝備能力的連續(xù)動(dòng)態(tài)變化以及各能力之間的相互關(guān)聯(lián);3)行為控制研究,如CGF建模研究,都是對(duì)人的行為模型化,忽視了基于指揮操縱進(jìn)程的裝備作戰(zhàn)能力的實(shí)時(shí)控制反映,不能定量反映裝備探測(cè)、隱蔽、攻擊等能力在人的實(shí)時(shí)指揮下優(yōu)化控制以及最終對(duì)于作戰(zhàn)行為的優(yōu)化反饋;4)建模理論研究,如基于試驗(yàn)數(shù)據(jù)的建模等,都是試圖通過模型來說明因果關(guān)系,然而建模的過程就是去粗取精、去偽存真的抽象描述過程,無法準(zhǔn)確表達(dá)作戰(zhàn)運(yùn)用中許多復(fù)雜性、不確定等非邏輯問題。
因此,本文引入能量的觀點(diǎn),認(rèn)為作戰(zhàn)實(shí)驗(yàn)運(yùn)用過程就是能量積蓄-感知-傳遞-轉(zhuǎn)化的過程[8],是行為驅(qū)動(dòng)下的綜合戰(zhàn)能在多維多域的全息動(dòng)態(tài)表達(dá),具有基于交戰(zhàn)進(jìn)程的強(qiáng)實(shí)時(shí)動(dòng)態(tài)博弈特性,其隨作戰(zhàn)進(jìn)程實(shí)時(shí)輸入與響應(yīng)的動(dòng)態(tài)演化過程,客觀表現(xiàn)為時(shí)空邏輯變化。因此我們應(yīng)逐步從被動(dòng)探究實(shí)驗(yàn)因果關(guān)系,轉(zhuǎn)變?yōu)橹鲃?dòng)揭示實(shí)驗(yàn)過程的時(shí)空邏輯變化關(guān)系,即根據(jù)作戰(zhàn)目標(biāo)探究與作戰(zhàn)對(duì)手、戰(zhàn)場(chǎng)環(huán)境實(shí)時(shí)交互的一系列行為關(guān)系與戰(zhàn)場(chǎng)態(tài)勢(shì)。
因此,基于作戰(zhàn)實(shí)驗(yàn)云所具備的高性能計(jì)算能力,借鑒AlphaGo的研究成果,本文提出了一種用于作戰(zhàn)實(shí)驗(yàn)運(yùn)用的時(shí)空邏輯推演方法。
戰(zhàn)場(chǎng)上所有行動(dòng)就是構(gòu)建我方殺傷鏈和解構(gòu)對(duì)方殺傷鏈,殺傷鏈當(dāng)前能量狀態(tài)和未來期望能量狀態(tài)之間的差距,稱為當(dāng)前戰(zhàn)能。
勢(shì)是運(yùn)用軍事力量所形成的力的積蓄或者釋放狀態(tài)。勢(shì)能是一個(gè)相對(duì)值,因?qū)κ侄嬖?。同一作?zhàn)態(tài)勢(shì)下,我方戰(zhàn)能和敵方戰(zhàn)能之比稱為對(duì)抗勢(shì)能,簡(jiǎn)稱勢(shì)能。
戰(zhàn)能勢(shì)譜是一種能量模型,通過當(dāng)前和未來任務(wù)需求,將多影響因素約束的多領(lǐng)域系統(tǒng)的作戰(zhàn)能量集成在一起,獲取的任務(wù)各階段的作戰(zhàn)效能的中間態(tài)勢(shì)量(相當(dāng)于體系動(dòng)量)。特定作戰(zhàn)環(huán)境和對(duì)手下,戰(zhàn)能勢(shì)譜分量主要包括探測(cè)戰(zhàn)能、隱蔽戰(zhàn)能、攻擊戰(zhàn)能、防御戰(zhàn)能和保障戰(zhàn)能。
戰(zhàn)能環(huán)是對(duì)作戰(zhàn)實(shí)驗(yàn)過程的一種高度抽象,能較清晰地描述整個(gè)作戰(zhàn)實(shí)驗(yàn)全過程,即戰(zhàn)能的“感知-積蓄-傳遞-轉(zhuǎn)化”過程:感知,是運(yùn)用傳感器和網(wǎng)絡(luò)感知戰(zhàn)場(chǎng)環(huán)境能量,通過作戰(zhàn)需求對(duì)感知能量進(jìn)行控制;積蓄,是對(duì)感知的能量進(jìn)行分析,標(biāo)識(shí)關(guān)鍵能力,形成特定作戰(zhàn)條件下的戰(zhàn)能勢(shì)譜;傳遞,是研判態(tài)勢(shì)確定能量傳遞的方向和時(shí)機(jī),以及重構(gòu)各戰(zhàn)能分量之間的適應(yīng)性關(guān)系;轉(zhuǎn)化,是評(píng)判在作戰(zhàn)任務(wù)下戰(zhàn)能轉(zhuǎn)化的不同效果及其對(duì)整個(gè)作戰(zhàn)任務(wù)的貢獻(xiàn)度。
時(shí)空邏輯推演是作戰(zhàn)實(shí)驗(yàn)中時(shí)空能量感知、積蓄、傳遞和轉(zhuǎn)化的重要工具,輸入是戰(zhàn)能勢(shì)譜(大小和方向),輸出是戰(zhàn)能分量之間的關(guān)系以及戰(zhàn)能傳遞和轉(zhuǎn)化等戰(zhàn)場(chǎng)優(yōu)化布勢(shì)的綜合效果。作戰(zhàn)實(shí)驗(yàn)時(shí)空邏輯推演是在戰(zhàn)能環(huán)的約束下,推演各個(gè)階段的戰(zhàn)能勢(shì)譜模型,其中,重點(diǎn)是實(shí)現(xiàn)編成戰(zhàn)能及其空間協(xié)同優(yōu)化、指控戰(zhàn)能及其時(shí)間協(xié)同優(yōu)化,以及不同任務(wù)下的綜合戰(zhàn)能(時(shí)空可重構(gòu))。
時(shí)空邏輯推演主要是基于高性能計(jì)算的作戰(zhàn)實(shí)驗(yàn)智能指控方法,框架如圖1所示。
1)作戰(zhàn)任務(wù)時(shí)空分析
作戰(zhàn)任務(wù)分析,就是從時(shí)間和空間兩方面描述作戰(zhàn)任務(wù),從作戰(zhàn)、指揮和操縱三個(gè)方面構(gòu)建具有時(shí)序和層級(jí)關(guān)系的作戰(zhàn)鏈路和指揮操縱鏈路,描述作戰(zhàn)任務(wù),確認(rèn)任務(wù)要求。
圖1 時(shí)空邏輯推演框架
2)在預(yù)測(cè)模型構(gòu)建方面,針對(duì)紅藍(lán)對(duì)抗過程中,傳感器只能獲取對(duì)方局部能量的情況,采用基于時(shí)空域卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,將感知能量和歷史數(shù)據(jù)有機(jī)結(jié)合,準(zhǔn)確把握對(duì)方當(dāng)前作戰(zhàn)行動(dòng)能量,為己方下一步?jīng)Q策提供支持(戰(zhàn)能預(yù)測(cè))。
3)在決策、價(jià)值模型構(gòu)建方面,為模擬作戰(zhàn)過程中人類的指揮藝術(shù),采用基于強(qiáng)化學(xué)習(xí)的決策模型和價(jià)值模型,其中價(jià)值模型主要模擬人的經(jīng)驗(yàn),以戰(zhàn)場(chǎng)態(tài)勢(shì)為輸入,輸出特定態(tài)勢(shì)下的戰(zhàn)能勢(shì)譜(作戰(zhàn)行動(dòng)方案);決策模型模擬人對(duì)全局的把握,輸入為戰(zhàn)場(chǎng)態(tài)勢(shì)和戰(zhàn)能勢(shì)譜,輸出為作戰(zhàn)任務(wù)達(dá)成度。
4)在作戰(zhàn)行動(dòng)方案尋優(yōu)方面,針對(duì)方案生成和態(tài)勢(shì)更新可并行計(jì)算量小于具有的高性能并行計(jì)算資源的情況,設(shè)計(jì)了并行蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)算法,充分利用了已有的計(jì)算資源,可快速開展作戰(zhàn)行動(dòng)方案尋優(yōu),從而提高了仿真推演速度。
建模的基本思想是基于己方傳感器獲取的能量信息和空間信息以及對(duì)方真實(shí)的作戰(zhàn)行動(dòng)狀態(tài)信息,采用改造后的卷積神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)測(cè)模型pr進(jìn)行訓(xùn)練。下面以紅方作戰(zhàn)行動(dòng)預(yù)測(cè)模型為例,闡述預(yù)測(cè)模型的構(gòu)建過程。
2.1.1模型輸入
時(shí)空域卷積神經(jīng)網(wǎng)絡(luò)[4-5]的基本結(jié)構(gòu)采用3個(gè)相鄰的幀為輸入,構(gòu)建預(yù)測(cè)模型的輸入層(Ph1、Ph2、Ph3),具體步驟如下:
步驟1:設(shè)T1、T2、T3時(shí)刻紅方通過傳感器獲取的藍(lán)方能量信息(簡(jiǎn)稱為感知能量),以及藍(lán)方對(duì)紅方的空間位置、姿態(tài)信息(簡(jiǎn)稱為空間信息),分別為ERB(Ti)=[rbe1,…,rbemRBE](Ti)和SRB(Ti)=[rbs1,…,rbsmRBS](Ti),采用正向極差變換法對(duì)它們進(jìn)行歸一化處理,即
(1)
組合感知能量及空間信息,可知:
C(Ti)=[c1,…,cmRBE+mRBS](Ti)
其中,
cj={urbej(j=1,…,mRBE)urbsj-mRBE(j=mRBE+1,…,mRBE+mRBS)
步驟2:將C(Ti)進(jìn)行兩兩組合,形成三幅二維圖像Ph(1)、Ph(2)、Ph(3),其中各圖像像素點(diǎn)值的計(jì)算方式如下:
2.1.2網(wǎng)絡(luò)結(jié)構(gòu)
針對(duì)Ph1、Ph2、Ph3采用不同的卷積層及相同的池化層進(jìn)行處理,然后采用全連接層對(duì)結(jié)果進(jìn)行綜合[6-7]。
1)卷積層
步驟3:卷積核的數(shù)量為16,每個(gè)卷積核依次與其中一半的特征圖進(jìn)行卷積,轉(zhuǎn)步驟1。
步驟4:結(jié)束。
2)池化層
對(duì)于各個(gè)池化層,采用2×2求平均值進(jìn)行下采樣。
3)全連接層
全連接層為2個(gè),神經(jīng)元的個(gè)數(shù)取為藍(lán)方作戰(zhàn)行動(dòng)狀態(tài)變量水平數(shù)量之和,第1個(gè)全連接層的每個(gè)子全連接層采用全連接的方式,即:
(2)
式中,mA表示藍(lán)方作戰(zhàn)行動(dòng)狀態(tài)變量數(shù)量,mlv,i表示第i個(gè)變量的水平數(shù)量,md,l-1表示xl-1的向量維數(shù),激活函數(shù)f(·)使用sigmoid函數(shù)。
由于第一個(gè)全連接層的每個(gè)子連接層都能產(chǎn)生一個(gè)藍(lán)方作戰(zhàn)行動(dòng)預(yù)測(cè),第二個(gè)連接層采用局部連接的方式,即將各子層相應(yīng)的部分進(jìn)行連接:
4)訓(xùn)練算法
訓(xùn)練算法采用經(jīng)典的反向傳播算法[8-10],以優(yōu)化卷積核參數(shù)k、全連接層的網(wǎng)絡(luò)權(quán)重w和各層的偏置參數(shù)b等。
建模的基本思想是基于純數(shù)字的閉環(huán)仿真對(duì)抗推演,人在回路中的半實(shí)物仿真對(duì)抗推演和將實(shí)驗(yàn)室搬到艇上的虛實(shí)結(jié)合的仿真對(duì)抗推演產(chǎn)生的訓(xùn)練樣本,采用基本卷積神經(jīng)網(wǎng)絡(luò)對(duì)價(jià)值模型vθ、決策模型pσ進(jìn)行訓(xùn)練[11-13]。
2.2.1價(jià)值、決策模型輸入
戰(zhàn)場(chǎng)態(tài)勢(shì)主要由四部分組成:紅方戰(zhàn)能、藍(lán)方戰(zhàn)能、戰(zhàn)場(chǎng)環(huán)境、空間信息。不同的參數(shù)具有不同的量綱與取值,為了統(tǒng)一量綱,便于數(shù)值分析,引入極差變換法進(jìn)行歸一化處理:對(duì)作戰(zhàn)能力起抑制作用的戰(zhàn)能分量采用反向極差變換法,其他采用正向極差變換法。正向極差變換方法如下所示:
反向極差變換方法如下所示:
yi,j的范圍在0-1之間,yi,j各值的分布仍與相應(yīng)原X值的分布相同。
1)價(jià)值模型輸入層
設(shè)歸一化的紅方戰(zhàn)能為RE=[rei,…,remR],藍(lán)方戰(zhàn)能為BE=[bei,…,bemB],戰(zhàn)場(chǎng)環(huán)境為Env=[envi,…,envmE],空間信息S=[si,…,smS]?;诩t藍(lán)雙方的能態(tài)是影響作戰(zhàn)進(jìn)程的主要因素,構(gòu)建形如二維圖像的輸入層X=[xi,j]mR×mB,其中每個(gè)像素點(diǎn)的值為:
xi,j=f1(rei,bej,Env,S),(i=1,…,mRE;j=1,…,mBE)
(3)
式中,f1表示單層神經(jīng)網(wǎng)絡(luò),采用求積的方式計(jì)算輸出層:
為縮減深度學(xué)習(xí)中的參數(shù)數(shù)量,基于專家知識(shí)分析rei、bej、Env、S的關(guān)系,當(dāng)rei、bej無對(duì)抗關(guān)系時(shí),則xi,j為0,例如紅藍(lán)雙方的攻擊能力;當(dāng)envk、sl與rei、bej的對(duì)抗關(guān)系無關(guān)時(shí),將相應(yīng)的權(quán)重置于0。
2)決策模型輸入層
決策模型的輸入層Y=[yi,j]mRE×mBE構(gòu)建如價(jià)值模型,其中不同之處在于每個(gè)像素點(diǎn)值的求解上,設(shè)歸一化的作戰(zhàn)行動(dòng)為A=[a1,…,amA],則:
yi,j=f2(rei,bej,A,Env,S),(i=1,…,mR;j=1,…,mB)
(4)
式中,f2表示單層神經(jīng)網(wǎng)絡(luò),采用求積的方式計(jì)算輸出層:
當(dāng)rei、bej無對(duì)抗關(guān)系時(shí),則yi,j為0;當(dāng)envk、sl、an與rei、bej的對(duì)抗關(guān)系無關(guān)時(shí),將相應(yīng)的權(quán)重置于0。
2.2.2決策、價(jià)值模型結(jié)構(gòu)
模型結(jié)構(gòu)采用標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò),主要有輸入層、卷積層、池化層和全連接層組成,其中卷積層、池化層成對(duì)出現(xiàn)。
1)卷積層
步驟4:卷積核的數(shù)量為16,每個(gè)卷積核依次與其中一半的特征圖進(jìn)行卷積,轉(zhuǎn)步驟1。
步驟5:結(jié)束。
2)池化層
對(duì)于每個(gè)池化層,采用2×2求平均值進(jìn)行下采樣。
3)全連接層
決策、價(jià)值模型的全連接層都為1個(gè),神經(jīng)元的個(gè)數(shù)分別取為紅方作戰(zhàn)行動(dòng)狀態(tài)變量水平數(shù)量之和,紅方作戰(zhàn)目標(biāo)達(dá)成狀態(tài)變量水平數(shù)量之和,即:
(5)
式中,m表示紅方作戰(zhàn)行動(dòng)狀態(tài)變量數(shù)量或紅方作戰(zhàn)目標(biāo)達(dá)成狀態(tài)變量數(shù)量,mlv,i表示第i個(gè)變量的水平數(shù)量,md,l-1表示xl-1的向量維數(shù),激活函數(shù)f(·)使用sigmoid函數(shù)。
4)訓(xùn)練算法
訓(xùn)練算法采用經(jīng)典的反向傳播算法,以優(yōu)化卷積核參數(shù)k、全連接層的網(wǎng)絡(luò)權(quán)重w和各層的偏置參數(shù)b等。
2.2.3強(qiáng)化學(xué)習(xí)的基本流程
強(qiáng)化學(xué)習(xí)的主要過程如圖2所示,其中vθ為價(jià)值模型,pσ、pσi、pρ表示決策模型。
圖2 強(qiáng)化學(xué)習(xí)基本流程圖
步驟1:取pσ為第一代版本pσ1,讓裝配有pσ1的實(shí)驗(yàn)平臺(tái)與裝配有pσ1的實(shí)驗(yàn)平臺(tái)、人機(jī)結(jié)合的實(shí)驗(yàn)平臺(tái)、實(shí)際平臺(tái)對(duì)弈N局,產(chǎn)生出N局新的對(duì)弈數(shù)據(jù),用新的對(duì)弈數(shù)據(jù)訓(xùn)練pσ1產(chǎn)生第二代版本pσ2、vθ。
步驟2:讓裝配有pσ2的實(shí)驗(yàn)平臺(tái)與裝配有pσ1的實(shí)驗(yàn)平臺(tái)、人機(jī)結(jié)合的實(shí)驗(yàn)平臺(tái)、實(shí)際平臺(tái)對(duì)弈N局,用新的對(duì)弈數(shù)據(jù)訓(xùn)練pσ2產(chǎn)生第三代版本pσ3、vθ。
步驟3:對(duì)于第i代版本,隨機(jī)選取前面的版本進(jìn)行對(duì)弈,如此迭代訓(xùn)練M次后得到第M代版本pσm=pρ,這就產(chǎn)生了增強(qiáng)學(xué)習(xí)的策略網(wǎng)絡(luò)pρ、價(jià)值網(wǎng)絡(luò)vθ。
基本操作如圖3所示,主要通過選擇、擴(kuò)展、評(píng)估、更新的循環(huán)迭代,讓好的方案自動(dòng)涌現(xiàn)出來,其中U表示決策模型的值,Q表示蒙特卡洛樹搜索的值,f(x)、s(x)、o(x)表示最優(yōu)值、次優(yōu)值和其他值,pσ表示選擇概率,m(x)表示求取在值,v(x)為價(jià)值[11]。
圖3 并行蒙特卡洛樹搜索算法
步驟1:選擇
對(duì)于計(jì)算資源,采用二進(jìn)制編碼形式,編碼位數(shù)為nb,計(jì)算方式如下:
選擇操作進(jìn)行nb次,對(duì)于每個(gè)計(jì)算資源,從低位向高位分別表示第1次至第nb次選擇。當(dāng)位值為0時(shí),表示選擇當(dāng)前最優(yōu)的行動(dòng);當(dāng)位值為1時(shí),表示選擇當(dāng)前次優(yōu)的行動(dòng)。
選擇判據(jù):
at=U(st,a)+Q(st,a)
(6)
式中,U(st,a)為來自決策模型的值,Q(st,a)為來自蒙特卡洛樹搜索的值。
步驟2:擴(kuò)展
從nb+1步開始,依據(jù)決策模型pρ向前推進(jìn)L步。
步驟3:評(píng)估
對(duì)于選擇操作涉及的節(jié)點(diǎn)i,其估值采用如下方法進(jìn)行計(jì)算:
(7)
式中,ni為節(jié)點(diǎn)i在本次操作中的所有分支數(shù)量;vθ(Si)為采用價(jià)值模型對(duì)態(tài)勢(shì)Si的估值,zj,L采用價(jià)值模型對(duì)態(tài)勢(shì)sj,nb+L的估值;λ為常數(shù),在AlphaGo中,實(shí)驗(yàn)檢驗(yàn)發(fā)現(xiàn)取值0.5時(shí)效果最好。
步驟4:更新
U(s,a)采用下式進(jìn)行更新
(8)
式中,N(s,a)表示蒙特卡洛仿真搜索分支(s,a)的次數(shù);P(s,a)=pρ(s,a)表示在當(dāng)前態(tài)勢(shì)下,通過決策模型產(chǎn)生的每個(gè)分支上的先驗(yàn)知識(shí)。
Q(s,a)采用下式進(jìn)行更新
(9)
式中,l(s,a,i)為布爾函數(shù),用來將遍歷到的分支選擇出來:如果第i次模擬遍歷到(s,a)分支則函數(shù)值為1,否則函數(shù)值為0。
由于潛潛攻防問題作戰(zhàn)過程過于復(fù)雜,這里只給出局部問題的推演簡(jiǎn)例。
A艇與B艇為自由對(duì)抗態(tài)勢(shì),海區(qū)水深XX米,XX底,0-X1米為均勻?qū)?X1米以下為負(fù)梯度,初始態(tài)勢(shì)為A艇位于A1點(diǎn),深度a1米,航向b1,速度v1節(jié);B艇位于B1點(diǎn),深度a2米,航向b2,速度v2節(jié),兩艇初距y1cab。
3.2.1鏈路構(gòu)建
構(gòu)建具有時(shí)序和層級(jí)關(guān)系的作戰(zhàn)鏈路,如圖4。
圖4 作戰(zhàn)任務(wù)時(shí)間描述模型
3.2.2基于感知信息的戰(zhàn)能預(yù)測(cè)分析
依據(jù)前文方法,先根據(jù)以往演習(xí)試驗(yàn)數(shù)據(jù),進(jìn)行基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理,本文的訓(xùn)練次數(shù)是2000次,再基于獲取對(duì)抗過程中感知信息,初步預(yù)測(cè)下一步各項(xiàng)戰(zhàn)能的變化,以聽測(cè)到潛艇瞬態(tài)噪聲鏈路行為為例,如圖5-圖7所示。
圖5 初始狀態(tài)A艇各戰(zhàn)能狀態(tài)
圖6 聽測(cè)到瞬態(tài)噪聲后A艇戰(zhàn)能狀態(tài)
圖7 預(yù)測(cè)B艇此時(shí)戰(zhàn)能狀態(tài)
同時(shí),采用BP神經(jīng)網(wǎng)絡(luò)、SVM算法進(jìn)行對(duì)比分析,預(yù)測(cè)準(zhǔn)確率如表1所示。
表1 4種戰(zhàn)能預(yù)測(cè)模型的準(zhǔn)確率對(duì)比
3.2.3戰(zhàn)能勢(shì)譜與決策網(wǎng)絡(luò)
針對(duì)B艇戰(zhàn)能隨時(shí)間變化構(gòu)建戰(zhàn)能勢(shì)譜。其中,針對(duì)B艇經(jīng)航a轉(zhuǎn)到主航b轉(zhuǎn)過程中探測(cè)能、隱蔽能隨時(shí)間變化如圖8所示。同理可得相同時(shí)間A艇戰(zhàn)能勢(shì)譜。
圖8 經(jīng)航a到主航b過程中探測(cè)能和隱蔽能隨時(shí)間變化圖
根據(jù)AB艇的戰(zhàn)能勢(shì)譜,分別輸入A艇和B艇戰(zhàn)能以及兩方的空間關(guān)系,就可得A艇的作戰(zhàn)決策和效能。如表2所示為紅方小舷角遠(yuǎn)距離發(fā)現(xiàn)目標(biāo)的決策網(wǎng)絡(luò)實(shí)例。
表2 紅方小舷角遠(yuǎn)距離發(fā)現(xiàn)目標(biāo)時(shí)決策網(wǎng)絡(luò)
綜合以上分析,通過基于時(shí)空域卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,可以在感知能量的基礎(chǔ)上,預(yù)測(cè)對(duì)手下一步能量變化,這里用到基于時(shí)空域的卷積神經(jīng)網(wǎng)絡(luò)可以較大幅度地提高戰(zhàn)能預(yù)測(cè)準(zhǔn)確度,達(dá)到91.33%;在作戰(zhàn)任務(wù)時(shí)間描述模型的基礎(chǔ)上,以探測(cè)能和隱蔽能為例構(gòu)建了戰(zhàn)能勢(shì)譜,從圖中可以看出,探測(cè)戰(zhàn)能和隱蔽戰(zhàn)能是兩個(gè)相互影響的戰(zhàn)能分量,隨著作戰(zhàn)進(jìn)程的推進(jìn),探測(cè)能增加的同時(shí),隱蔽能會(huì)相應(yīng)減小,而后保持穩(wěn)定。基于戰(zhàn)能勢(shì)譜輸入當(dāng)前戰(zhàn)場(chǎng)空間關(guān)系,得出的作戰(zhàn)行動(dòng)和效果與實(shí)際保持一致。
將時(shí)空邏輯推演方法用于作戰(zhàn)實(shí)驗(yàn),用來主動(dòng)揭示實(shí)驗(yàn)過程的時(shí)空邏輯關(guān)系,實(shí)現(xiàn)了將人類指揮與計(jì)算機(jī)智能進(jìn)行交互、分析、比較、處理和印證的智能指控,將人類指控與戰(zhàn)爭(zhēng)統(tǒng)計(jì)、軍事常識(shí)與裝備性能、仿真模擬與外場(chǎng)試驗(yàn)等數(shù)據(jù)充分融合,精細(xì)化了系統(tǒng)數(shù)據(jù),改進(jìn)了實(shí)驗(yàn)方法,增強(qiáng)了作戰(zhàn)實(shí)驗(yàn)的科學(xué)性和可信度,對(duì)全面提升作戰(zhàn)實(shí)驗(yàn)運(yùn)用方法的客觀性具有很強(qiáng)的現(xiàn)實(shí)意義。
參考文獻(xiàn):
[1]陳建華,等.艦艇戰(zhàn)法實(shí)驗(yàn)與分析[M].北京:國防工業(yè)出版社,2010.
[2]錢學(xué)森,等.論系統(tǒng)工程[M].長沙:湖南科學(xué)技術(shù)出版社,1982.
[3]曹裕華,劉淑麗. 裝備作戰(zhàn)試驗(yàn)與鑒定概念內(nèi)涵及關(guān)鍵問題研究[J]. 裝備學(xué)院學(xué)報(bào),2013,24(4):123-125.
[4]李博,譚志強(qiáng),賈寧寧. 裝備作戰(zhàn)試驗(yàn)關(guān)鍵問題研究[J]. 國防科技, 2014,35(4): 76-79.
[5]羅小明,池建軍,周躍. 裝備作戰(zhàn)試驗(yàn)概念設(shè)計(jì)框架[J]. 裝甲兵工程學(xué)院學(xué)報(bào),2012,26(4):5-10.
[6]張德群,李劍雄. 作戰(zhàn)實(shí)驗(yàn)在“網(wǎng)絡(luò)中心戰(zhàn)”研究中的運(yùn)用[J]. 情報(bào)指揮控制系統(tǒng)與仿真技術(shù),2004,26(6): 8-11.
[7]卜先錦,張德群. 作戰(zhàn)實(shí)驗(yàn)學(xué)教程[M].北京:軍事科學(xué)出版社,2013.
[8]李俊,范怡, 劉澤勛. 美軍謀求制能權(quán),確?!敖固亍眱?yōu)勢(shì)[J]. 中國航空?qǐng)?bào),2017.
[9]楊格蘭,鄧曉軍,劉琮. 基于深度時(shí)空域卷積神經(jīng)網(wǎng)絡(luò)的表情識(shí)別模型[J].中南大學(xué)學(xué)報(bào),2016,47(7):2311-2319.
[10] 王偉凝, 王勵(lì),趙明權(quán),等.基于并行深度卷積神經(jīng)網(wǎng)絡(luò)的圖像美感分類[J].自動(dòng)化學(xué)報(bào),2016,42(6):904-913.
[11] 常亮,鄧小明, 周明全,等. 圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J].自動(dòng)化學(xué)報(bào),2016,42(9):1300-1312.
[12] 王忠民,曹洪江,范琳.一種基于卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)的人體行為識(shí)別方法[J].計(jì)算機(jī)科學(xué),2016,43(2):56-58.
[13] 布威廉奇. 卷積神經(jīng)網(wǎng)絡(luò)的注解, 麻省理工學(xué)院CBCL技術(shù)報(bào)告,坎布里奇,馬薩諸塞州,2006.
[14] 李宏東, 姚天翔. 模式分類[M]. 北京:機(jī)械工業(yè)出版社, 2003.
[15] 柯圣財(cái),趙永威,李弼程,等. 基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督核哈希的圖像檢索方法[J].電子學(xué)報(bào),2017,45(1):157-163.
[16] 陶九陽, 吳琳,胡曉峰. AlphaGo 技術(shù)原理分析及人工智能軍事應(yīng)用展望[J].指揮與控制學(xué)報(bào),2016,2(2):114-120.
[17] 金欣. “深綠” 及AlphaGo 對(duì)指揮與控制智能化的啟示[J].指揮與控制學(xué)報(bào),2016,2(3):202-207.
[18] 劉知青, 吳修竹. 解讀AlphaGo背后的人工智能技術(shù)[J]. 控制理論與應(yīng)用,2016,33(12):1685-1687.