高 昂, 董志明,*, 李 亮, 段 莉, 郭齊勝
(1. 陸軍裝甲兵學(xué)院演訓(xùn)中心, 北京 100072; 2. 中國人民解放軍61516部隊(duì), 北京 100076)
真實(shí)-虛擬-構(gòu)造(live-virtual-constructive, LVC)源自美軍訓(xùn)練模擬領(lǐng)域?qū)I(yè)術(shù)語,特指實(shí)物模擬系統(tǒng)、虛擬模擬系統(tǒng)和推演模擬系統(tǒng)集成形成的綜合模擬訓(xùn)練系統(tǒng)環(huán)境,提供了一種可擴(kuò)展、高保真、多領(lǐng)域仿真能力,解決了目前實(shí)裝訓(xùn)練面臨的經(jīng)費(fèi)、地域、演習(xí)頻率、實(shí)時(shí)評(píng)估限制等難題[1]。目前,LVC戰(zhàn)術(shù)對(duì)抗訓(xùn)練中,虛擬實(shí)體主要通過對(duì)人類作戰(zhàn)行為建模,對(duì)仿真戰(zhàn)場環(huán)境中的事件和狀態(tài)作出機(jī)動(dòng)、射擊等決策,與人在環(huán)的模擬器交互,構(gòu)建完善的裝備對(duì)抗體系。其決策模型直接影響人員和裝備在環(huán)境中的狀態(tài)和所能反饋信息的種類和質(zhì)量,進(jìn)而對(duì)訓(xùn)練效果產(chǎn)生影響。臨近空間是未來實(shí)現(xiàn)空天進(jìn)攻突襲的新戰(zhàn)場,近距空戰(zhàn)是未來戰(zhàn)爭主要樣式之一,也是軍事訓(xùn)練的重要課題[2]。目前,世界主流戰(zhàn)機(jī)的高空最大速度為2~2.2馬赫,即飛行員需要以約2 450~2 695 km/h的速度在高空中飛行。兼顧到戰(zhàn)機(jī)的機(jī)動(dòng)性、導(dǎo)彈武器的發(fā)射以及規(guī)避對(duì)方的攻擊,實(shí)際近距空戰(zhàn)中,戰(zhàn)機(jī)速度大多都是在0.8~0.9馬赫高亞音速區(qū)。瞬息萬變的近距空戰(zhàn)態(tài)勢,使得飛行員需要綜合運(yùn)用身體、技能和直覺操縱高速戰(zhàn)機(jī)完成所有動(dòng)作,一個(gè)細(xì)小的失誤將帶來高昂的代價(jià),每個(gè)瞬間的決斷都至關(guān)重要。因此,針對(duì)具體訓(xùn)練需求設(shè)計(jì)虛擬實(shí)體決策模型,對(duì)提升訓(xùn)練效果具有重要意義。
LVC近距離空戰(zhàn)對(duì)抗訓(xùn)練如圖1所示。紅藍(lán)雙方戰(zhàn)機(jī)分別由操作模擬器的飛行員與虛擬實(shí)體所控制,同在一個(gè)虛擬作戰(zhàn)空間中。虛擬實(shí)體作為LVC訓(xùn)練系統(tǒng)中的重要組成元素,主要通過提供“真實(shí)的戰(zhàn)斗行動(dòng)”與操作模擬器的訓(xùn)練人員交互。如果虛擬實(shí)體藍(lán)方能夠?qū)W習(xí)到作戰(zhàn)對(duì)手紅方的主要作戰(zhàn)特點(diǎn),那么藍(lán)方在一定程度上便成為了紅方的“化身”,主要體現(xiàn)為:① 虛擬實(shí)體擁有了紅方的作戰(zhàn)能力水平,不同對(duì)手會(huì)有作戰(zhàn)能力水平的差別,戰(zhàn)機(jī)性能相同的情況下,作戰(zhàn)能力強(qiáng)的對(duì)手能夠準(zhǔn)確判斷態(tài)勢,抓住戰(zhàn)機(jī),迅速機(jī)動(dòng)至最佳位置,作戰(zhàn)能力弱的對(duì)手則容易被動(dòng)挨打。② 虛擬實(shí)體擁有了紅方的作戰(zhàn)風(fēng)格,不同對(duì)手即使作戰(zhàn)能力水平相同,作戰(zhàn)風(fēng)格也會(huì)存在較大差異,例如相同態(tài)勢下的攻擊行為,有些對(duì)手擅長緊盯對(duì)方6點(diǎn)鐘方向,達(dá)到射程便開火,有些則擅長迅速爬升戰(zhàn)機(jī),從對(duì)方頭頂、背部發(fā)起攻擊。由于近距空戰(zhàn)高動(dòng)態(tài)、強(qiáng)對(duì)抗的特點(diǎn),每個(gè)戰(zhàn)術(shù)動(dòng)作的實(shí)施都直接影響整個(gè)空戰(zhàn)進(jìn)程。軍事訓(xùn)練遵循由易到難,由簡到繁的循序漸進(jìn)原則,具有特定作戰(zhàn)特點(diǎn)的決策模型可達(dá)到按需訓(xùn)練,循序漸進(jìn)提升訓(xùn)練效果等目的。例如,根據(jù)某特級(jí)戰(zhàn)機(jī)飛行員red_1的對(duì)抗訓(xùn)練數(shù)據(jù),學(xué)習(xí)出具有red_1作戰(zhàn)特點(diǎn)的虛擬實(shí)體blue_1。那么,便會(huì)有任意多的特級(jí)戰(zhàn)機(jī)飛行員blue_1分別作為任意多紅方訓(xùn)練人員red的“陪練”在任意時(shí)間、任意地域?qū)埂8鶕?jù)紅方訓(xùn)練人員red_2在時(shí)間T的對(duì)抗訓(xùn)練數(shù)據(jù),學(xué)習(xí)出具有T時(shí)間段red_2作戰(zhàn)特點(diǎn)的藍(lán)方虛擬實(shí)體blue_2_T。那么,訓(xùn)練人員red_2便可以和從前的“自己”blue_2_T對(duì)抗來檢驗(yàn)這段時(shí)間的訓(xùn)練效果。
圖1 人機(jī)近距空戰(zhàn)對(duì)抗示意圖Fig.1 Schematic diagram of close-range air combat between man and machine
空戰(zhàn)智能決策方法的適用性隨所研究虛擬實(shí)體的數(shù)量、屬性(同構(gòu)/異構(gòu))、任務(wù)、作戰(zhàn)場景的不同而有所區(qū)別。按虛擬實(shí)體數(shù)量,將空戰(zhàn)智能決策分為戰(zhàn)斗級(jí)、分隊(duì)級(jí)、集群級(jí)3個(gè)層面[3-8]??諔?zhàn)決策方法可歸納4大類:基于知識(shí)、推理、規(guī)劃方法,基于問題求解方法,基于不確定知識(shí)推理方法,基于自主學(xué)習(xí)方法,如圖2所示。
圖2 空戰(zhàn)智能決策方法分類Fig.2 Classification of air combat intelligent decision methods
近年來,國內(nèi)外學(xué)者對(duì)基于自主學(xué)習(xí)、智能優(yōu)化類方法的空戰(zhàn)研究較多[8-13]?;谧灾鲗W(xué)習(xí)方法的空戰(zhàn)研究集中在戰(zhàn)斗級(jí)虛擬實(shí)體近距空戰(zhàn)機(jī)動(dòng)決策[13-19]。仿生優(yōu)化類方法集中在分隊(duì)級(jí)中距空戰(zhàn)火力決策[20-25]。另外,戰(zhàn)斗級(jí)虛擬實(shí)體近距空戰(zhàn)機(jī)動(dòng)決策還有基于博弈論[26]、近似動(dòng)態(tài)規(guī)劃[27]、數(shù)學(xué)求解[28]、貝葉斯[29-30]、模糊理論與其他方法結(jié)合[31-32]等方法。自主學(xué)習(xí)方法的研究熱點(diǎn)又集中在深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)方面。DRL遵循馬爾可夫決策過程(Markov decision process, MDP)或馬爾可夫博弈過程(Markov game process, MGP),是使用MDP或MGP框架來形式化智能體與環(huán)境交互,并從與環(huán)境交互的經(jīng)驗(yàn)中學(xué)習(xí)最優(yōu)策略,從而最大化智能體累積期望獎(jiǎng)勵(lì)的一類方法,為空戰(zhàn)決策建模提供了一種新途徑。相關(guān)空戰(zhàn)文獻(xiàn)研究均是針對(duì)空戰(zhàn)對(duì)手求解最優(yōu)對(duì)抗策略,取得了較大進(jìn)展,具有重要的軍事意義。
本文試圖構(gòu)建適用于特定訓(xùn)練人員實(shí)際訓(xùn)練需求的藍(lán)方虛擬實(shí)體決策模型,所建模型具有“虛擬陪練”的作用,沒有從求解對(duì)手最優(yōu)對(duì)抗策略的角度開展問題研究。目前,智能優(yōu)化方法主要包括:遺傳算法(genetic algorithm, GA)、人工免疫系統(tǒng)(artificial immune system, AIS)、模擬退火算法(simulated annealing algorithm, SA)、多目標(biāo)進(jìn)化算法(multi objective evolutionary algorithm, MOEA)等進(jìn)化算法;粒子群優(yōu)化(particle swarm optimization, PSO)、蟻群優(yōu)化(ant colony optimization, ACO)、人工蜂群算法(artificial bee colony algorithm, ABC)等群體智能算法(swarm intelligence algorithm, SIA)。這類方法可以在解空間內(nèi)搜索全局最優(yōu)解,并且可以對(duì)多個(gè)目標(biāo)函數(shù)同時(shí)進(jìn)行優(yōu)化,輸出一組非支配的帕累托解集,有效地求解多目標(biāo)問題,具有良好的全局優(yōu)化性和魯棒性。由于智能優(yōu)化類方法可以通過適應(yīng)度函數(shù)來定義所求解問題的目標(biāo),進(jìn)而尋找滿意解,而不僅是局限于求解空戰(zhàn)對(duì)手的最優(yōu)策略問題,同時(shí)考慮到神經(jīng)網(wǎng)絡(luò)較強(qiáng)的擬合能力,本文將智能優(yōu)化方法與神經(jīng)網(wǎng)絡(luò)結(jié)合,根據(jù)具體訓(xùn)練需求,構(gòu)建適應(yīng)度函數(shù),通過神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端感知決策,從智能優(yōu)化理論的角度對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)值空間和結(jié)構(gòu)空間進(jìn)行定義,最終實(shí)現(xiàn)能夠滿足適應(yīng)度函數(shù)的神經(jīng)網(wǎng)絡(luò)端到端感知決策,即實(shí)現(xiàn)滿足特定訓(xùn)練人員訓(xùn)練需求的藍(lán)方戰(zhàn)機(jī)近距空戰(zhàn)決策。
藍(lán)方虛擬實(shí)體決策模型構(gòu)建思路如圖3所示。虛擬實(shí)體由一個(gè)權(quán)值可以被智能優(yōu)化算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)控制,將影響戰(zhàn)斗結(jié)果的關(guān)鍵飛行狀態(tài)數(shù)據(jù)X={x1,x2,…,xn}作為神經(jīng)網(wǎng)絡(luò)的輸入,戰(zhàn)機(jī)的動(dòng)作空間A={a1,a2,…,am}分布作為神經(jīng)網(wǎng)絡(luò)的輸出,實(shí)現(xiàn)虛擬實(shí)體端對(duì)端的感知與決策控制。將神經(jīng)網(wǎng)絡(luò)權(quán)值矩陣W控制的虛擬實(shí)體建模為智能優(yōu)化算法群體中的個(gè)體,并初始化為規(guī)模為M的群體。針對(duì)決策建模需求,構(gòu)造智能優(yōu)化算法適應(yīng)度函數(shù),通過統(tǒng)計(jì)固定時(shí)間內(nèi)對(duì)抗雙方的戰(zhàn)斗得分,保留得分差距小的個(gè)體,淘汰比分差距大的個(gè)體,并通過虛擬實(shí)體神經(jīng)網(wǎng)絡(luò)權(quán)值的不斷迭代尋優(yōu),最終達(dá)到與訓(xùn)練人員作戰(zhàn)能力、作戰(zhàn)風(fēng)格相當(dāng)?shù)乃?成為該訓(xùn)練人員的“化身”。
圖3 決策模型構(gòu)建示意圖Fig.3 Schematic diagram of decision model construction
圖4展示了1對(duì)1紅藍(lán)近距空戰(zhàn)場景,假定戰(zhàn)機(jī)t時(shí)刻以固定速度在x-y平面上機(jī)動(dòng),藍(lán)方虛擬實(shí)體的目標(biāo)是學(xué)習(xí)一種策略來控制戰(zhàn)機(jī)機(jī)動(dòng)并保持對(duì)對(duì)手的位置優(yōu)勢,進(jìn)而在射程內(nèi)發(fā)起攻擊。
圖4 飛行運(yùn)動(dòng)示意圖Fig.4 Flight motion diagram
將優(yōu)勢位置[33]定義為
(1)
分析戰(zhàn)機(jī)的運(yùn)動(dòng)模型,設(shè)計(jì)戰(zhàn)機(jī)飛行動(dòng)作空間,飛行器的運(yùn)動(dòng)方程為
(2)
式中,(x,y,z)表示戰(zhàn)機(jī)的坐標(biāo);v,γ,φ分別表示戰(zhàn)機(jī)的速度、航跡角、偏航角。飛機(jī)的動(dòng)力學(xué)方程為
(3)
式中,m,g,L,D,T,α,φ分別表示戰(zhàn)機(jī)的質(zhì)量、重力加速度、升力、牽引阻力、推力、攻擊角度、傾斜角。實(shí)際近距空戰(zhàn)中,戰(zhàn)機(jī)的速度是一個(gè)在高亞音速區(qū)連續(xù)變化的值,本文在不影響驗(yàn)證方法有效性的條件下,將問題簡化為戰(zhàn)機(jī)在水平面上以固定速度v飛行,v∈[980 km/h,1 102.5 km/k],戰(zhàn)機(jī)運(yùn)動(dòng)方程簡化為
(4)
圖5為決策模型求解示意圖,將智能優(yōu)化算法中個(gè)體q建模為權(quán)值矩陣為由Wq的神經(jīng)網(wǎng)絡(luò)控制的藍(lán)方虛擬實(shí)體,假設(shè)q在T時(shí)間內(nèi)與訓(xùn)練人員red進(jìn)行了K場戰(zhàn)斗。
圖5 決策模型求解示意圖Fig.5 Schematic diagram of decision making model solution
k=1,2,…,K
(5)
紅藍(lán)戰(zhàn)機(jī)采用空空導(dǎo)彈攻擊對(duì)方,導(dǎo)彈數(shù)量為1枚,每場戰(zhàn)斗中,紅藍(lán)雙方個(gè)體勝負(fù)的評(píng)判標(biāo)準(zhǔn)為
(6)
當(dāng)出現(xiàn)一方勝利或判斷為平局時(shí),戰(zhàn)斗結(jié)束。
(7)
(8)
(9)
定義適應(yīng)度函數(shù)為
(10)
示例設(shè)計(jì)思路是使戰(zhàn)機(jī)飛行員red_x在每次訓(xùn)練過程中與特定虛擬實(shí)體blue_x對(duì)抗。blue_x在對(duì)抗過程中利用對(duì)抗數(shù)據(jù)優(yōu)化自身的神經(jīng)網(wǎng)絡(luò)權(quán)值,并在每次訓(xùn)練完畢保存最新神經(jīng)網(wǎng)絡(luò)模型π。當(dāng)red_x再次進(jìn)行對(duì)抗訓(xùn)練時(shí),blue_x首先在初始化時(shí)加載模型π,并在此基礎(chǔ)上繼續(xù)優(yōu)化模型。雖然隨著訓(xùn)練時(shí)間的增加,red_x的戰(zhàn)技水平在提升,但算法控制的blue_x提升速度要遠(yuǎn)超過red_x,最終通過迭代進(jìn)化與red_x的作戰(zhàn)水平和作戰(zhàn)風(fēng)格相當(dāng)。此時(shí),其他飛行員red_y與blue_x對(duì)抗,就相當(dāng)于和戰(zhàn)機(jī)飛行員red_x對(duì)抗??紤]到LVC訓(xùn)練系統(tǒng)在建設(shè)過程中以及真實(shí)對(duì)抗數(shù)據(jù)的敏感性,本文采用具有學(xué)習(xí)能力的遺傳神經(jīng)網(wǎng)絡(luò)代替真實(shí)飛行員red_x,分析訓(xùn)練迭代過程中blue_x的適應(yīng)度函數(shù)變化、每代擊毀對(duì)手所用平均時(shí)間變化、每代優(yōu)化所用時(shí)間變化、虛擬實(shí)體勝率變化以及對(duì)比分析模型收斂后red_x和blue_x在L次對(duì)抗過程中的飛行動(dòng)作序列相似度,驗(yàn)證藍(lán)方虛擬實(shí)體學(xué)習(xí)效果的有效性。
本節(jié)采用經(jīng)典GA作為優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的算法,給出藍(lán)方戰(zhàn)機(jī)決策模型及其求解示例,如圖6所示。
圖6 基于遺傳神經(jīng)網(wǎng)絡(luò)的藍(lán)方戰(zhàn)機(jī)決策模型構(gòu)建與求解示例Fig.6 Construction and solution example of blue fighter decision making model based on genetic neural network
輸出最優(yōu)神經(jīng)網(wǎng)絡(luò)權(quán)值。
步驟 1將神經(jīng)網(wǎng)絡(luò)權(quán)值W轉(zhuǎn)換為染色體結(jié)構(gòu)空間。
步驟 2Gen=0,隨機(jī)產(chǎn)生M個(gè)初始個(gè)體Wq,q=1,2,…,M。
步驟 3開啟M個(gè)進(jìn)程,進(jìn)程q運(yùn)行個(gè)體Wq,如果f(Wq)>M,解碼,輸出最優(yōu)神經(jīng)網(wǎng)絡(luò)權(quán)值,結(jié)束尋優(yōu);否則,進(jìn)入步驟4。
步驟 4選擇操作,根據(jù)適應(yīng)度,按照一定的規(guī)則,從第Gen代群體中選擇出下一代優(yōu)良的個(gè)體遺傳到Gen+1代群體中:
步驟 4.1j=0;
步驟 4.3執(zhí)行復(fù)制;
步驟 4.4將復(fù)制的個(gè)體添入新群體中;
步驟 4.5j=j+1;
步驟 4.6如果j=M,執(zhí)行步驟5;否則執(zhí)行步驟4.2;
步驟 5交叉操作,將第Gen代群體內(nèi)的各個(gè)個(gè)體隨機(jī)搭配成對(duì),對(duì)每一對(duì)個(gè)體,以交叉概率pc遵循某一規(guī)則交換其部分染色體:
步驟 5.1j=0;
步驟 5.2選擇兩個(gè)交叉?zhèn)€體;
步驟 5.3執(zhí)行交叉;
步驟 5.4將交叉后的兩個(gè)新個(gè)體添入新群體中;
步驟 5.5j=j+2;
步驟 5.6如果j=pcM執(zhí)行步驟6;否則執(zhí)行步驟5.2。
步驟 6變異操作,對(duì)第Gen代群體的每一個(gè)個(gè)體,以變異概率pm改變某一個(gè)或某一些染色體基因座上基因值為其他的等位基因:
步驟 6.1j=0;
步驟 6.2選擇基因變異點(diǎn);
步驟 6.3執(zhí)行變異;
步驟 6.4將變異后的兩個(gè)新個(gè)體添入新群體中;
步驟 6.5j=j+1;
步驟 6.6如果j=pmLM,產(chǎn)生下一代群體,執(zhí)行步驟3;否則執(zhí)行步驟6.2。
圖7為適應(yīng)度函數(shù)變化曲線,隨著迭代次數(shù)的增加,曲線趨于平穩(wěn),說明藍(lán)方虛擬實(shí)體與紅方的戰(zhàn)斗得分差值在減小。
圖7 適應(yīng)度函數(shù)變化曲線Fig.7 Variation curve of fitness function
統(tǒng)計(jì)虛擬實(shí)體每訓(xùn)練N輪的標(biāo)準(zhǔn)偏差為
i∈(episode,episode+N-1)
(11)
圖8(a)為藍(lán)方虛擬實(shí)體每代擊毀對(duì)手所用的平均時(shí)間步長變化曲線,計(jì)算公式為
(12)
可以看出,曲線隨著世代數(shù)的增長,呈快速下降趨勢,并逐漸趨于平穩(wěn)。這說明藍(lán)方虛擬實(shí)體的作戰(zhàn)能力在增加。圖8(b)為每代優(yōu)先所用時(shí)間變化曲線,計(jì)算公式為
(13)
可以看出,由于藍(lán)方虛擬實(shí)體作戰(zhàn)能力的增加,使得每代擊毀對(duì)手所用的平均時(shí)間步長減少,導(dǎo)致每代尋優(yōu)所用時(shí)間減少,圖8(a)和圖8(b)相互印證。雖然圖8(b)曲線呈現(xiàn)快速下降,并逐漸趨于平穩(wěn)的趨勢,但是大致在460代時(shí)出現(xiàn)了峰值。結(jié)合圖5決策模型求解示意圖以及式(11)可知,導(dǎo)致上述現(xiàn)象的可能原因有:群體交叉、變異產(chǎn)生新的少數(shù)個(gè)體延長了一代的整體優(yōu)化時(shí)間;紅藍(lán)雙方在每場戰(zhàn)斗開始時(shí),位置隨機(jī)初始化,并在格斗過程中相互追逐、糾纏,空戰(zhàn)態(tài)勢的不確定性導(dǎo)致整體優(yōu)化時(shí)間的波動(dòng)。
圖8 時(shí)間變化統(tǒng)計(jì)(以步長為單位)Fig.8 Time change statistics (in steps)
圖9為藍(lán)方虛擬實(shí)體的勝率隨世代數(shù)的變化曲線,計(jì)算公式為
圖9 虛擬實(shí)體勝率曲線Fig.9 Winning rate curve of virtual entity
(14)
如果個(gè)體q勝利,則countq=1;否則,countq=0。可以看出,藍(lán)方虛擬實(shí)體的勝率在50%上下波動(dòng),結(jié)合圖7分析可知,雖然藍(lán)方虛擬實(shí)體的作戰(zhàn)能力在增加,但是勝率并沒有增加,這說明紅藍(lán)對(duì)抗雙方均在學(xué)習(xí)如何作戰(zhàn),用神經(jīng)網(wǎng)絡(luò)模擬的人類飛行員與真實(shí)飛行員的差別在于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度遠(yuǎn)高于人類。
圖10 紅藍(lán)方飛行動(dòng)作序列獲取示意圖Fig.10 Schematic diagram of flight action sequence acquisition of red and blue
為進(jìn)一步驗(yàn)證藍(lán)方戰(zhàn)機(jī)可實(shí)現(xiàn)通過與對(duì)手對(duì)抗來學(xué)習(xí)對(duì)手作戰(zhàn)特點(diǎn)的能力,定義B和R的相似度D計(jì)算公式為
(15)
式中,len(B)和len(R)分別表示序列B和序列R的長度;min(len(B),len(R))分別表示序列B和序列R長度的最小值;MCOSS(B,R)為B和R的最長公共作戰(zhàn)行動(dòng)子序列(maximum common operational sub-sequence,MCOSS)。值得注意的是,子序列是有序的,但不一定是連續(xù)的。用動(dòng)態(tài)規(guī)劃方法計(jì)算MCOSS(B,R)為
MCOSS(B,R)=
(16)
式中,序列B=(b1,b2,…,bT),R=(r1,r2,…,rT)中,head(B)表示b1,rest(B)表示(b2,b3,…,bT),head(R)表示r1,rest(R)表示(r2,r3,…,rT),ε為判斷閾值。使用極坐標(biāo)(ρ,θ)表示戰(zhàn)機(jī)的位置,ρ和θ分別表示戰(zhàn)機(jī)質(zhì)心的極徑和極角。戰(zhàn)機(jī)的飛行動(dòng)作序列可進(jìn)一步用(ρ,θ,φ,f)四元組表示,f表示是否開火(f=1開火,f=0未開火),即bi=(ρi,θi,φi,fi),rj=(ρj,θj,φj,fj),只有當(dāng)bi-rj<ε時(shí),才認(rèn)為元素bi=rj,ε=(Δρ,Δθ,Δφ,Δf),即
1對(duì)1近距空戰(zhàn)是雙方戰(zhàn)機(jī)相互搶占優(yōu)勢位置,擺脫劣勢位置,并在構(gòu)成開火條件時(shí),先對(duì)方命中目標(biāo)的過程。一方戰(zhàn)機(jī)位置的優(yōu)勢與劣勢是相對(duì)于對(duì)方戰(zhàn)機(jī)的距離、角度來說的。因此,戰(zhàn)機(jī)在追逐,盤旋格斗過程中,作戰(zhàn)能力水平相當(dāng)?shù)碾p方戰(zhàn)機(jī),會(huì)在作戰(zhàn)行動(dòng)序列上呈現(xiàn)一定的相似性。采集L=10場戰(zhàn)斗的紅藍(lán)戰(zhàn)機(jī)飛行動(dòng)作序列B和R,設(shè)置戰(zhàn)機(jī)位置誤差Δρ=100 m,Δθ=10°,根據(jù)格斗導(dǎo)彈構(gòu)成開火條件的離軸角范圍,設(shè)置Δφ=30°,Δf=0.5來判斷戰(zhàn)機(jī)的射擊動(dòng)作是否相同。使用式(14)對(duì)飛行動(dòng)作序列相似度進(jìn)行統(tǒng)計(jì),如表1所示,飛行動(dòng)作序列平均相似度為0.68,該值會(huì)隨Δρ,Δθ,Δφ的設(shè)定而有所變化。算法試圖從近距空戰(zhàn)的制勝原理出發(fā),將關(guān)鍵飛行狀態(tài)作為輸入,目標(biāo)函數(shù)僅是淘汰比分差距大的個(gè)體,保留比分差距小的個(gè)體,并沒有淘汰作戰(zhàn)行動(dòng)序列相似度低的個(gè)體,保留作戰(zhàn)行動(dòng)序列相似度高的個(gè)體。這是因?yàn)閼?zhàn)機(jī)的優(yōu)勢、劣勢位置并不是單一的,對(duì)戰(zhàn)雙方的策略也不是單一的,這也在一定程度上避免了神經(jīng)網(wǎng)絡(luò)的過擬合。戰(zhàn)斗得分小于某一閾值,可以認(rèn)為戰(zhàn)機(jī)的作戰(zhàn)能力是相當(dāng)?shù)摹T诖嘶A(chǔ)上,飛行動(dòng)作序列平均相似度超過0.5,可以說明作戰(zhàn)能力水平相當(dāng)?shù)碾p方戰(zhàn)機(jī),作戰(zhàn)行動(dòng)序列會(huì)在空戰(zhàn)過程中呈現(xiàn)一定的相似性。圖11為紅藍(lán)雙方飛行動(dòng)作序列軌跡的極軸-偏航角坐標(biāo)可視化表示。其中,紅色軌跡為紅方戰(zhàn)機(jī)的飛行動(dòng)作序列,藍(lán)色軌跡為藍(lán)方戰(zhàn)機(jī)的飛行動(dòng)作序列。從圖11中可以看出,紅藍(lán)雙方的飛行運(yùn)動(dòng)軌跡具有一定的相似性,與式(14)的計(jì)算結(jié)果相互印證,進(jìn)一步說明了藍(lán)方戰(zhàn)機(jī)可實(shí)現(xiàn)通過對(duì)抗數(shù)據(jù)來學(xué)習(xí)對(duì)手作戰(zhàn)特點(diǎn)的功能。
表1 飛行動(dòng)作序列相似度統(tǒng)計(jì)
圖11 紅藍(lán)雙方飛行動(dòng)作序列圖Fig.11 Sequence diagram of actions for red and blue flight
表2 紅方作戰(zhàn)行動(dòng)序列相似度矩陣
表3 藍(lán)方作戰(zhàn)行動(dòng)序列相似度矩陣
(17)
可以看出,紅、藍(lán)方作戰(zhàn)行動(dòng)序列間的平均差異度分別為0.19和0.21,數(shù)值均較小,說明各方策略差異均較大,具有多樣性。
本文針對(duì)LVC近距離空戰(zhàn)對(duì)抗訓(xùn)練對(duì)藍(lán)方虛擬實(shí)體決策建模需求,提出基于智能優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)進(jìn)化方法構(gòu)建決策模型,通過實(shí)驗(yàn)數(shù)據(jù)分析,藍(lán)方虛擬實(shí)體可實(shí)現(xiàn)通過與對(duì)手對(duì)抗來學(xué)習(xí)對(duì)手作戰(zhàn)特點(diǎn)的功能。這使得藍(lán)方虛擬實(shí)體通過加載訓(xùn)練好的模型可滿足任意多紅方訓(xùn)練人員在任意時(shí)間、任意地域與“特定作戰(zhàn)對(duì)手的化身”或者“以前的自己”展開對(duì)抗訓(xùn)練,從而達(dá)到提升訓(xùn)練水平、降低訓(xùn)練成本的目的,同時(shí)為智能藍(lán)軍建設(shè)提供了有效技術(shù)支撐。所提方法對(duì)目前智能優(yōu)化類算法及其改進(jìn)類型,以及不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)具有通用性。
本文不足之處在于由于目前不具備人類飛行員與虛擬實(shí)體對(duì)抗的條件,所以暫且使用了具有學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)來模擬紅方訓(xùn)練人員,下一步會(huì)將方法應(yīng)用于實(shí)際LVC訓(xùn)練系統(tǒng)中,從實(shí)際應(yīng)用角度進(jìn)行綜合驗(yàn)證和分析。