胡易航,裘旭益,張 彥,袁偉偉
1(南京航空航天大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)
2(中國航空無線電電子研究所 航空電子系統(tǒng)綜合技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 200233)
在復(fù)雜空戰(zhàn)環(huán)境下,戰(zhàn)機(jī)空戰(zhàn)格斗節(jié)奏不斷變快,飛行員所做出的戰(zhàn)斗決策往往跟不上空戰(zhàn)格斗節(jié)奏的變化,因此迫切需要輔助智能決策系統(tǒng)輔助飛行員做出正確的空戰(zhàn)決策.傳統(tǒng)空戰(zhàn)中常用的微分對策法[1,2](Differential Strategy),專家系統(tǒng)[3],影響圖法[4,5]和矩陣博弈[6,7]算法等輔助決策手段所取得的決策精度有限,不能滿足復(fù)雜空戰(zhàn)環(huán)境中高速決策需要.隨著人工智能技術(shù)的快速發(fā)展,以強(qiáng)化學(xué)習(xí)為代表的智能決策模型在游戲、圍棋等諸多領(lǐng)域取得了巨大成功[8,9].這也推動了強(qiáng)化學(xué)習(xí)在空中格斗決策領(lǐng)域的應(yīng)用普及并且取得了一系列有用的成果[10-13],比較有代表性的是美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)開展的人工智能近距空中格斗項(xiàng)目,該項(xiàng)目挑戰(zhàn)賽的冠軍隊(duì)伍采用深度強(qiáng)化學(xué)習(xí)方法在人機(jī)大戰(zhàn)中以大比分戰(zhàn)勝人類飛行員[14].基于強(qiáng)化學(xué)習(xí)的智能決策模型與戰(zhàn)場環(huán)境不斷交互,通過決策的不斷嘗試、探索,并且從環(huán)境中獲取及時的反饋,從而不斷學(xué)習(xí)調(diào)整內(nèi)部參數(shù),最終學(xué)習(xí)到最優(yōu)的決策策略.
然而,已有的基于強(qiáng)化學(xué)習(xí)的空中格斗決策模型存在三方面的突出問題:首先,已有空中格斗決策模型所采用的的深度強(qiáng)化學(xué)習(xí)方法屬于黑盒模型,得到的結(jié)果不具有解釋性.然而在現(xiàn)代近距離空戰(zhàn)中開火決策是否具備可解釋性十分重要,每一個開火決策動作發(fā)生都要滿足可解釋性,不具備可解釋性的開火決策可能會帶來不可預(yù)知的嚴(yán)重后果,難以被飛行員信任,因此基于深度強(qiáng)化學(xué)習(xí)的空戰(zhàn)智能開火決策很難滿足現(xiàn)代化空戰(zhàn)的需求.其次,由于空中格斗場景下的戰(zhàn)斗數(shù)據(jù)獲取困難,通過空戰(zhàn)收集的每一條數(shù)據(jù)都十分寶貴.基于深度強(qiáng)化學(xué)習(xí)模型的空戰(zhàn)智能決策系統(tǒng)在對每一條數(shù)據(jù)進(jìn)行決策的同時不能實(shí)時的給出決策的依據(jù),不能滿足實(shí)時的樣本級可解釋性.最后由于深度強(qiáng)化學(xué)習(xí)智能決策系統(tǒng)在訓(xùn)練過程中需要學(xué)習(xí)的參數(shù)量過于龐大,導(dǎo)致智能決策模型過大和決策時間的延遲,基于強(qiáng)化學(xué)習(xí)的智能決策系統(tǒng)的決策效率不能得到保證.空戰(zhàn)場景中戰(zhàn)場態(tài)勢瞬息萬變,智能決策模型的實(shí)時性直接影響空戰(zhàn)勝利.
為了解決樣本數(shù)據(jù)下的空中格斗決策可解釋問題,實(shí)現(xiàn)模型決策高精度、高速度,且給出每次模型決策可解釋依據(jù).本文提出利用可解釋決策樹模型代替強(qiáng)化學(xué)習(xí)模型完成空戰(zhàn)智能開火決策,同時采用一種局部代理技術(shù)解釋每一次空戰(zhàn)開火動作,實(shí)現(xiàn)模型在小樣本下的高精度與樣本級決策可解釋性.
本文的主要貢獻(xiàn)包括3個方面:
1)本文提出了一種空中格斗決策方法,其具有可解釋性,可有效避免采用深度強(qiáng)化學(xué)習(xí)等帶來的黑盒問題;
2)所提出的基于局部代理的可解釋性方法對空中實(shí)時格斗決策的每一條樣本進(jìn)行有效的可解釋分析;
3)構(gòu)造并提取了空中格斗場景中對決策具有決定性作用的重要特征,不僅實(shí)現(xiàn)了對原始空戰(zhàn)屬性的特征加強(qiáng),而且建立高效的空戰(zhàn)決策模型,從而減少特征數(shù)量的依賴.
隨著智能化戰(zhàn)爭的發(fā)展,全面推動航空裝備與人工智能技術(shù)的融合發(fā)展愈來愈成為世界主要航空大國和相關(guān)研究機(jī)構(gòu)的著力點(diǎn),其中的智能空戰(zhàn)決策方向也涌現(xiàn)了一大批研究成果.陳希亮,李清偉等人[15]利用智能博弈對抗技術(shù)構(gòu)建決策模型,但是并未給出決策系統(tǒng)真實(shí)性能.羅元強(qiáng),孟光磊等人[16]利用多狀態(tài)轉(zhuǎn)移馬爾可夫網(wǎng)絡(luò)構(gòu)建智能決策系統(tǒng),滿足了智能空戰(zhàn)決策系統(tǒng)的實(shí)時性要求,但是提出的網(wǎng)絡(luò)結(jié)構(gòu)并未進(jìn)行訓(xùn)練學(xué)習(xí),無法確定智能決策系統(tǒng)的性能.隨著人工智能的發(fā)展,越來越多的研究人員利用人工智能技術(shù)構(gòu)建空戰(zhàn)智能決策系統(tǒng).由于對歷史空戰(zhàn)數(shù)據(jù)進(jìn)行擬合屬于決策智能中的模仿學(xué)習(xí)范式,模仿學(xué)習(xí)從人類專家提供的范例中學(xué)習(xí),使模型生成的狀態(tài)-動作軌跡分布和輸入的軌跡分布相匹配.Choi U[17]等基于模仿學(xué)習(xí)對多目標(biāo)無人機(jī)的規(guī)劃問題.此外自從利用深度強(qiáng)化學(xué)習(xí)模型構(gòu)建的AIphaGo[18]打敗人類頂尖圍棋選手,深度強(qiáng)化學(xué)習(xí)模型[19]在各個領(lǐng)域表現(xiàn)出令人震驚的效果,其將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,是一種更接近人類思維方式的人工智能方法.
許多學(xué)者都基于深度強(qiáng)化學(xué)習(xí)的思想進(jìn)行了智能空戰(zhàn)決策的研究.J.Zuo、P.Liu等人[12,20]用深度強(qiáng)化學(xué)習(xí)算法構(gòu)建空戰(zhàn)機(jī)動決策模型,但速度未作為模型中的決策變量設(shè)置,雙方速度設(shè)置為常量值,與空戰(zhàn)實(shí)際情況不符.馬文等人[10]將博弈論與深度強(qiáng)化學(xué)習(xí)相結(jié)合,先構(gòu)建多狀態(tài)博弈模型,使用深度強(qiáng)化學(xué)習(xí)算法構(gòu)建線性規(guī)劃來求解每個特定狀態(tài)下階段博弈的最優(yōu)值函數(shù),取得了一定的決策效果.由上述文獻(xiàn)可知,深度強(qiáng)化學(xué)習(xí)模型在空戰(zhàn)智能決策領(lǐng)域取得了巨大的成果,越來越多的決策系統(tǒng)完全基于深度強(qiáng)化模型構(gòu)建,但是這也帶來了一些問題.深度模型的黑盒特性使得系統(tǒng)在做出決策過程的同時無法拿出決策的依據(jù),在極其復(fù)雜的空戰(zhàn)環(huán)境中,這必然會帶來未知的后果.同時強(qiáng)化學(xué)習(xí)模型需要學(xué)習(xí)大量參數(shù),這導(dǎo)致智能決策模型參數(shù)量變大與決策時間的延遲,對于時效性強(qiáng)的空戰(zhàn)場景有很大的局限性.
在本節(jié)中,主要對空中格斗模型的相關(guān)建模情況進(jìn)行闡述.
本文中的問題背景假定為如圖1所示,在笛卡爾三維坐標(biāo)系中進(jìn)行作戰(zhàn)演習(xí),敵我雙方各有一架戰(zhàn)機(jī)在戰(zhàn)場邊緣相遇,戰(zhàn)斗期間雙方無其他戰(zhàn)機(jī)支援,僅有預(yù)警機(jī)提供敵機(jī)大致位置信息.圍繞敵方目標(biāo)凌空區(qū)域,敵我雙方進(jìn)行1V1空戰(zhàn).雙方戰(zhàn)機(jī)平臺、武器裝備能力水平一致,其中武器僅裝備有機(jī)炮數(shù)百發(fā).
圖1 空戰(zhàn)場景示意圖Fig.1 Schematic diagram of air combat scene
在空戰(zhàn)中所能獲取的信息包括我機(jī)傳感器數(shù)據(jù)與在統(tǒng)一坐標(biāo)系下預(yù)警機(jī)所獲得的敵機(jī)位置信息.給定敵我狀態(tài)數(shù)據(jù)集{xi,yi}n為不超過50場對戰(zhàn)數(shù)據(jù),其中xi為敵我狀態(tài)數(shù)據(jù),具體為雙方戰(zhàn)機(jī)位置矢量(my_x,my_y,my_z),(enemy_x,enemy_y,enemy_z),雙方發(fā)動機(jī)轉(zhuǎn)軸角速度矢量(my_rot_x,my_rot_y,my_rot_z)(enemy_rot_x,enemy_rot_y,enemy_rot_z),共計12維,yi為是否開火標(biāo)簽.通過上述數(shù)據(jù)集構(gòu)建分類模型,預(yù)測開火標(biāo)簽,保證我機(jī)能夠及時作出開火決策擊落敵機(jī)贏得勝利.
空戰(zhàn)可解釋智能決策模型建模訓(xùn)練圖如圖2所示,首先對離線數(shù)據(jù)進(jìn)行格式化預(yù)處理,將提供的原始流水線數(shù)據(jù)轉(zhuǎn)換成模型可以識別的DataFrame格式,并且實(shí)現(xiàn)了數(shù)據(jù)預(yù)處理,包括去除噪聲值,填充缺失值等;然后由于原始數(shù)據(jù)蘊(yùn)含有效特征較少,需要進(jìn)行新特征生成,用于提升可解釋模型的決策能力.首先本文根據(jù)領(lǐng)域知識從3個方面構(gòu)建新特征,即我機(jī)數(shù)據(jù)特征構(gòu)造、敵機(jī)數(shù)據(jù)特征構(gòu)造、敵我兩個數(shù)據(jù)交互特征構(gòu)造;最后通過多模型訓(xùn)練,對比不同模型性能,根據(jù)回歸問題評價指標(biāo)對算法進(jìn)行評估,并對模型決策作出局部解釋分析.
3.2.1 空對空特征構(gòu)造
本文將敵機(jī)與我機(jī)空戰(zhàn)場相應(yīng)決策,整場空戰(zhàn)中決策集合{st,st+1,…,st+n-2,st+n-1},且s∈{A,C}.其中A表示開火決策,C表示景進(jìn)行建模,特征構(gòu)造示意圖如圖3所示.在空戰(zhàn)時間t時刻我方飛機(jī)進(jìn)行機(jī)動,并獲得一個數(shù)據(jù)實(shí)例{xt,xt+1,…,xt+n-2,xt+n-1},特征維度為m.在空戰(zhàn)開始至結(jié)束的n個時刻內(nèi)產(chǎn)生n個數(shù)據(jù)實(shí)例.在空戰(zhàn)的n個時刻中每個時刻q我機(jī)根據(jù)數(shù)據(jù)實(shí)例做出不開火決策.
圖3 特征構(gòu)造示意圖Fig.3 Feature structure diagram
對于輸入實(shí)例數(shù)據(jù)xt= {my_x,my_y,my_z,my_rot_x,my_rot_y,my_rot_z,enemy_x,enemy_y,enemy_z,enemy_rot_x,enemy_rot_y,enemy_rot_z}而言,其大多屬于低階特征,難以很好的表示屬于高階特征的空戰(zhàn)態(tài)勢,為了獲得能夠好表征任務(wù)的高階特征,直觀的表示空戰(zhàn)態(tài)勢,本文對原始數(shù)據(jù)屬性根據(jù)專業(yè)領(lǐng)域知識進(jìn)行特征增強(qiáng),之后進(jìn)行交互式特征重構(gòu),重構(gòu)過程可以被定義為:
Xenemy_interaction=f(Xme_expand,Xenemy_expand)
(1)
其中我機(jī)某一時刻的特征增強(qiáng)Xme_expand,敵方戰(zhàn)機(jī)對應(yīng)該時刻特征增強(qiáng)Xenemy_expand,f為特征工程函數(shù),描述敵我之間某種關(guān)系的特征.
在空戰(zhàn)情境中,我機(jī)若要獲得較好的開火角度,偏離角(我機(jī)的速度方向需與敵我連線夾角,如圖3所示)要取得很小,其中夾角值可以通過我機(jī)的位置矢量和敵機(jī)的位置矢量以及我方的飛機(jī)速度矢量獲取,計算公式為:
(2)
由于機(jī)載武器為機(jī)炮,該類武器有射程限制,因此空中格斗的結(jié)果與敵我雙方戰(zhàn)機(jī)之間的距離和速度有關(guān),兩架飛機(jī)之間的距離使用歐氏距離表示,定義為:
(3)
其中,我方飛機(jī)某一時刻坐標(biāo)位置為(x,y,z),敵方飛機(jī)某一時刻坐標(biāo)位置為(x1,y1,z1).
雙方飛機(jī)某一時刻的合速度可以定義為:
(4)
其中,vx、vy、vz分別為某一時刻該飛機(jī)在x軸、y軸、z軸方向的空速.
3.2.2 空中格斗分類模型
根據(jù)空戰(zhàn)任務(wù)場景與建模可知,空戰(zhàn)中決策狀態(tài)的判斷屬于二分類問題.為了實(shí)現(xiàn)高精度的快速決策,本文采用高效決策樹模型進(jìn)行分類.LightGBM(Light Gradient Boosting Machine)[22]是GBDT模型(Gradient Boosting Decision Tree)的一個進(jìn)化版本,原理上它和GDBT類似,都采用損失函數(shù)的負(fù)梯度作為當(dāng)前決策樹的殘差近似值,去擬合新的決策樹.但是LightGBM相比GDBT在很多方面更為優(yōu)秀,例如:支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、分布式支持等,這樣使得LightGBM可快速處理海量數(shù)據(jù).因此本文采用基于GBDT的lightGBM進(jìn)行二分類決策判斷,此外由于模型輕量化和模型可解釋性的需求,本文還需要對模型使用的特征規(guī)模進(jìn)行限制.
(5)
根據(jù)(xi,rti)可以擬合一棵CART回歸樹(Classification And Regression Tree),得到了第t顆回歸樹,其對應(yīng)的葉節(jié)點(diǎn)區(qū)域Rtj,j=1,2,…,J.其中J為葉子節(jié)點(diǎn)的個數(shù).針對每一個葉子節(jié)點(diǎn)里的樣本,求出使損失函數(shù)最小,也就是擬合葉子節(jié)點(diǎn)最好的的輸出值ctj如公式(6)所示:
(6)
這樣就得到了本輪的決策樹擬合函數(shù)如公式(7)所示:
(7)
從而本輪最終得到的強(qiáng)學(xué)習(xí)器的表達(dá)式如公式(8)所示:
(8)
迭代t次后得到最終輸出模型如公式(9)所示:
(9)
3.2.3 樣本級可解釋模型
基于強(qiáng)化學(xué)習(xí)的空中格斗智能決策系統(tǒng)盡管在模擬空戰(zhàn)中取得了很好地實(shí)戰(zhàn)效果,但是由于強(qiáng)化學(xué)習(xí)的黑盒特性,使得智能決策模型所做出的一系列決策都無法解釋.實(shí)際空戰(zhàn)場景中未知的動作決策可能帶來不可預(yù)計的后果,因此一個可解釋的智能決策系統(tǒng)在空戰(zhàn)中十分重要.為了實(shí)現(xiàn)空中格斗決策的可解釋性,本文采用局部動態(tài)代理技術(shù)實(shí)現(xiàn)空中格斗的樣本級可解釋.
一種局部代理的具體實(shí)現(xiàn)是LIME[23](Local Interpretable Model-Agnostic Explanations),其可以真實(shí)的反應(yīng)分類器在被預(yù)測樣本上的行為.LIME的實(shí)現(xiàn)步驟如下:
如圖4可以類比為一個非線性的空戰(zhàn)決策模型,灰色與白色背景的交界為決策函數(shù),選取關(guān)注的樣本點(diǎn),如圖粗線的十字叉為關(guān)注的樣本點(diǎn)X,定義一個相似度計算方式,以及要選取的K個特征來解釋.在該樣本點(diǎn)周圍進(jìn)行擾動采樣(細(xì)線的十字叉),按照它們到X的距離賦予樣本權(quán)重.
圖4 LIME復(fù)雜模型(圖源于Ribeiro M T等人的工作[22])Fig.4 LIME complex model(the diagram is derived from the work of Ribeiro M T et al[22])
用原模型對這些樣本進(jìn)行預(yù)測,并訓(xùn)練一個線性模型(虛線)在X的附近對原模型近似.這樣就可以使用自身具有可解釋性的模型對復(fù)雜模型進(jìn)行局部解釋.圖5為LIME構(gòu)建流程圖.LIME目標(biāo)函數(shù)為:
圖5 LIME 構(gòu)建流程示意圖Fig.5 Schematic diagram of LIME construction process
(10)
其中f表示原始的模型,即需要解釋的模型,g表示簡單模型,G是簡單模型的一個集合,如所有可能的線性模型,πx表示新數(shù)據(jù)集中的數(shù)據(jù)x′與原始數(shù)據(jù)x的距離,Ω(g)表示模型g的復(fù)雜程度.在樣本X附近進(jìn)行擾動,對擾動前后的樣本相似度進(jìn)行定義,樣本類型不同會有不同的定義.相似度計算公式為:
(11)
其中z為擾動樣本,x為原樣本,D(x,z)為樣本距離,在D上定義寬度為σ的指數(shù)核函數(shù)作為樣本相似度.
有了相似度的定義,便可以將原先的目標(biāo)函數(shù)改寫成如下的形式.其中f(z)就是擾動樣本,在d維空間(原始特征)上的預(yù)測值,并把該預(yù)測值作為目標(biāo),g(z′)則是在d′維空間(可解釋特征)上的預(yù)測值,然后以相似度作為權(quán)重,因此上述的目標(biāo)函數(shù)便可以通過線性回歸的方式進(jìn)行優(yōu)化:
ξ(x)=∑z′,z∈Zπx(z)(f(z)-g(z′))2
(12)
訓(xùn)練出的線性模型可以作為黑箱模型在樣本點(diǎn)局部決策規(guī)則的近似,線性模型各項(xiàng)的系數(shù)反映了該項(xiàng)對應(yīng)特征的重要性.
為了盡量減少原始數(shù)據(jù)對于模型訓(xùn)練測試的影響,本文在空戰(zhàn)中收集了50場全勝空戰(zhàn)數(shù)據(jù)作為數(shù)據(jù)集,每一場空戰(zhàn)數(shù)據(jù)都包含12維的敵我狀態(tài)數(shù)據(jù),具體為雙方戰(zhàn)機(jī)位置矢量和雙方發(fā)動機(jī)轉(zhuǎn)軸角速度矢量,所有矢量均為三維,所以合計為12維,所有數(shù)據(jù)類型均為float類型,存儲文件類型為csv文件.為了能夠得到可靠的可解釋性模型,空對空二分類研究采用樹模型LightGBM,LightGBM 的優(yōu)點(diǎn)體現(xiàn)在它的輕量級可解釋的,因此采用它進(jìn)行決策擬合訓(xùn)練,并且采用局部代理技術(shù)進(jìn)行樣本級的可解釋性.為了公平的展示基于lightgbm模型的空中格斗智能決策系統(tǒng)的優(yōu)勢,該系統(tǒng)會將其與多個機(jī)器學(xué)習(xí)模型進(jìn)行多模型對比,這些機(jī)器模型包括svm、樸素貝葉斯、線性模型、邏輯回歸、集成模型.由于本實(shí)驗(yàn)為分類任務(wù),而強(qiáng)化學(xué)習(xí)難以進(jìn)行分類,屬于不同的學(xué)習(xí)范式,因此在本次實(shí)驗(yàn)中并未使用強(qiáng)化學(xué)習(xí)對比實(shí)驗(yàn).
在本次實(shí)驗(yàn)中給定敵我狀態(tài)數(shù)據(jù)集{xi,yi}n,共計50場空戰(zhàn)數(shù)據(jù),其中xi為敵我狀態(tài)數(shù)據(jù),具體為雙方戰(zhàn)機(jī)位置矢量,雙方發(fā)動機(jī)轉(zhuǎn)軸角速度矢量,共計12維,yi為是否開火標(biāo)簽.
為了能取得較好的開火效果,本文對敵我雙方的特征進(jìn)行了特征增強(qiáng),此后又基于特征增強(qiáng)后的特征進(jìn)行了交互式特征增強(qiáng).其中我機(jī)的位置矢量與敵機(jī)的位置矢量分別定義為:
(13)
(14)
我方飛機(jī)速度矢量定義為:
(15)
此外,由公式(2)可得交互特征偏離角的cos值cosValue,由公式(3)和公式(4)可以獲得我機(jī)和敵方飛機(jī)的空戰(zhàn)速度,以及交互特征兩機(jī)距離.
最終空戰(zhàn)特征構(gòu)造如表1所示.
表1 空戰(zhàn)特征構(gòu)造表Table 1 Air combat feature structure table
之后將50場空戰(zhàn)數(shù)據(jù)集按照8∶2比例隨機(jī)劃分訓(xùn)練集、測試集.訓(xùn)練過程中將測試集按照8∶2劃分訓(xùn)練集、驗(yàn)證集.
數(shù)字戰(zhàn)斗模擬世界(DCS World)是一款免費(fèi)的數(shù)字戰(zhàn)場游戲和模擬環(huán)境平臺,其為玩家提供最為最真實(shí)的軍用航空器、坦克、地面載具以及艦船的模擬作戰(zhàn)環(huán)境,任務(wù)場景覆蓋格魯吉亞絕大部分地區(qū)的高加索以及黑海的廣闊區(qū)域,其具備航空器專業(yè)的飛行力學(xué)模型和真實(shí)飛控系統(tǒng),可以有效模擬專業(yè)的空戰(zhàn)場景.本實(shí)驗(yàn)中采用的模擬機(jī)型為F/A-18 Lot20.
論文中訓(xùn)練測試模型采用從DCS World模擬空戰(zhàn)產(chǎn)生的數(shù)據(jù),在模擬仿真環(huán)節(jié),通過具體的API接口實(shí)時讀取DCS world敵我雙方手動控制飛機(jī)作戰(zhàn)產(chǎn)生的空戰(zhàn)態(tài)勢數(shù)據(jù),然后空中格斗決策模型輸出開火決策結(jié)果對DCS world中我機(jī)的開火進(jìn)行實(shí)時控制.
SVM:支持向量機(jī)(Support Vector Machines,SVM)是一種快速可靠的線性分類器.給定訓(xùn)練數(shù)據(jù)(監(jiān)督學(xué)習(xí)),SVM算法得到一個最優(yōu)超平面,從而對訓(xùn)練數(shù)據(jù)進(jìn)行分類.其擅長處理高維尤其是小樣本問題.
樸素貝葉斯:naive Bayesian,一種基于概率理論的分類方法,基于貝葉斯定理與特征條件獨(dú)立假設(shè),通過計算樣本歸屬于不同類別的概率進(jìn)行分類.
線性模型:linear,通過特征的線性組合進(jìn)行預(yù)測,形式較為簡單.
邏輯回歸:logistic,一種廣義的線性回歸分析模型,用于處理因變量是分類變量的回歸問題,常見的是二分類或二項(xiàng)分布問題.
集成模型:ensemble,通過組合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),通過集成方法,可以將多個弱學(xué)習(xí)器組合成一個強(qiáng)分類器,因此集成學(xué)習(xí)的泛化能力一般比單一分類器要好.集成方法主要包括Bagging和Boosting.
表2為特征加強(qiáng)后實(shí)驗(yàn)結(jié)果.經(jīng)過特征加強(qiáng)后LightGBM取得很好地分類效果,在Precision、recall、F1、auc、acc較原始數(shù)據(jù)模型lightGBM(-)分別有0.098、0.33、0.1226、0.1239、0.0338提升,這表明特征加強(qiáng)后的數(shù)據(jù)能夠幫助模型精確的分類.與其他機(jī)器學(xué)習(xí)模型相比lightGBM在加強(qiáng)數(shù)據(jù)下Precision、F1、auction、acc、auc均取得最佳的結(jié)果,集成學(xué)習(xí)模型在recall上取得最好的結(jié)果,綜合F1來看lightGBM依舊有較大的領(lǐng)先.
表2 新構(gòu)造特征下的實(shí)驗(yàn)結(jié)果表Table 2 Table of experimental results under neotectonic features
完成機(jī)器學(xué)習(xí)模型訓(xùn)練后,本文將訓(xùn)練好的火控模型裝載到模擬仿真平臺進(jìn)行實(shí)戰(zhàn)測試,測試結(jié)果如表3所示.在真實(shí)的100次模擬測試中本文的機(jī)器學(xué)習(xí)模型取得了90%的勝率,強(qiáng)化學(xué)習(xí)取得了99%的勝率,對比與原始數(shù)據(jù)下模型僅僅取得了10%的準(zhǔn)確率,特征加強(qiáng)后的模型取得了90%準(zhǔn)確率,雖然距離強(qiáng)化學(xué)習(xí)99%的勝率還有一定差距,但是模型的可解釋性與快速決策的性質(zhì)能夠彌補(bǔ)精度上稍微的下降.從決策時間上看基于深度強(qiáng)化學(xué)習(xí)的決策模型決策時間為0.002s,基于樹模型的決策模型決策時間為0.00092s比強(qiáng)化學(xué)習(xí)模型的決策時間快2倍,時間消耗更少,便于我方戰(zhàn)機(jī)更快作出攻擊.
表3 新特征下實(shí)戰(zhàn)性能表Table 3 Actual combat performance table under new features
在復(fù)雜空戰(zhàn)場景中,空戰(zhàn)智能決策系統(tǒng)的每一次開火決策都會帶來不可預(yù)知的后果,因此系統(tǒng)的每一次決策都需要有現(xiàn)實(shí)的依據(jù)進(jìn)行支撐,保持系統(tǒng)決策透明性.所以本文使用局部代理模型對每一次決策背后原因進(jìn)行一定的解釋.
圖6為使用局部代理模型對一次決策結(jié)果為開火的樣本做出的解釋,圖中從下至上每一行的特征中的表示對開火預(yù)測作正向貢獻(xiàn),深色的兩個特征表示對開火預(yù)測作負(fù)向貢獻(xiàn)(降低了開火的概率),相對較淺的剩余特征對預(yù)測為開火作出了正向貢獻(xiàn)(增加了開火的概率),最終綜合構(gòu)成了模型的預(yù)測輸出結(jié)果.可以看出對于此次開火決策影響最大的是敵我兩機(jī)速度矢量之間的夾角cosValue值,這也與專家在此任務(wù)條件下的領(lǐng)域知識相符合,即當(dāng)我機(jī)的速度矢量方向指向敵機(jī)時,此時應(yīng)當(dāng)開火.對于此次開火預(yù)測負(fù)向影響最大的特征為敵我兩機(jī)高度差z_me_minus,對此條樣本進(jìn)行研讀后可知此時敵我兩機(jī)高度相差太大,不利于開火.
圖6 新特征構(gòu)造下LIME重要性輸出圖Fig.6 LIME importance output diagram under new feature construction
基于空中格斗開火決策可解釋問題,本文提出了基于機(jī)器學(xué)習(xí)樹模型的決策框架,并可使用局部代理模型LIME對想要解釋的決策樣本進(jìn)行解釋.最后在50場空戰(zhàn)數(shù)據(jù)下進(jìn)行測試,并且完成模型訓(xùn)練,實(shí)戰(zhàn)性能表明本文的模型能夠達(dá)到深度強(qiáng)化學(xué)習(xí)的水平,并且具有樣本級的可解釋性與實(shí)時性能.
未來的工作主要包括以下幾個方面:
1)使用Shap、Protodash等其他可解釋方法對模型作進(jìn)一步解釋;
2)通過專業(yè)領(lǐng)域知識改進(jìn)所構(gòu)造的特征,提升算法性能;
3)收集更多的空中格斗開火決策數(shù)據(jù),提升模型的泛化能力.