王玉佳, 方 偉,*, 徐 濤, 余應(yīng)福, 鄧博元
(1. 海軍航空大學(xué)航空作戰(zhàn)勤務(wù)學(xué)院, 山東 煙臺(tái) 264001; 2. 海軍航空大學(xué)岸防兵學(xué)院, 山東 煙臺(tái) 264001)
隨著高新技術(shù)在武器裝備上的廣泛應(yīng)用,軍用無人機(jī)已成為空中軍事力量的重要組成部分[1]?,F(xiàn)代無人機(jī)具有續(xù)航時(shí)間長、飛行高度高、隱身效果好等特點(diǎn),可長時(shí)間執(zhí)行偵察、監(jiān)控任務(wù)。在未來戰(zhàn)場(chǎng)中,無人機(jī)不再局限于傳統(tǒng)的偵察探測(cè)任務(wù),其必將擔(dān)負(fù)對(duì)海攻擊、攔截導(dǎo)彈、空中格斗等多功能作戰(zhàn)任務(wù)[2]。
目前,無人機(jī)的自主智能化方向的發(fā)展是其在軍事應(yīng)用上的研究熱點(diǎn)和難點(diǎn),包括:無人機(jī)協(xié)同通信[3-5]、多無人機(jī)協(xié)同偵察任務(wù)分配[6]、無人機(jī)航跡規(guī)劃[7-8]、無人機(jī)智能定位[9]、無人機(jī)感知技術(shù)[10]、多無人機(jī)武器目標(biāo)分配[11]、武器使用智能決策等。其中,基于無人機(jī)察打一體化的發(fā)展趨勢(shì),無人機(jī)的武器自主決策能力成為無人機(jī)決戰(zhàn)海戰(zhàn)場(chǎng)的重要保障。
針對(duì)無人機(jī)的自主智能行為決策技術(shù),國內(nèi)外學(xué)者展開了大量的研究[12-16],目前強(qiáng)化學(xué)習(xí)中的遺傳算法(genetic algorithm,GA)是應(yīng)用于智能行為決策中最熱門的技術(shù)之一[17]。文獻(xiàn)[18]利用GA來優(yōu)化無人機(jī)基本戰(zhàn)術(shù)飛行動(dòng)作的組合方式,以此得到更有利的動(dòng)作決策。文獻(xiàn)[19]利用GA來優(yōu)化無人機(jī)控制量:加速度、航跡俯仰角變化率、航跡偏轉(zhuǎn)角變化率,以此進(jìn)行智能決策。這兩篇文獻(xiàn)充分利用了機(jī)器學(xué)習(xí)的準(zhǔn)確性,但是忽視了決策問題的可解釋性。
美國控制專家Zadeh教授于1965年提出模糊集合理論[20],在此基礎(chǔ)上,模糊推理技術(shù)[21]應(yīng)運(yùn)而生。遺傳模糊系統(tǒng)(genetic fuzzy system,GFS)[22]是使用GA對(duì)模糊推理系統(tǒng)(fuzzy inference system,FIS)的規(guī)則[23]和隸屬度函數(shù)[24]進(jìn)行編碼,形成GA可進(jìn)行優(yōu)化的染色體,通過一系列選擇、交叉、變異等進(jìn)化操作,實(shí)現(xiàn)對(duì)模糊控制系統(tǒng)的自動(dòng)設(shè)計(jì)和優(yōu)化。GA的搜索優(yōu)化能力保證決策的準(zhǔn)確性,基于專家經(jīng)驗(yàn)的FIS兼顧了決策的可解釋性,GFS在眾多領(lǐng)域都有所應(yīng)用[25-34]。文獻(xiàn)[24]采用GFS的思想得到進(jìn)化式有規(guī)則的專家系統(tǒng),用以解決無人機(jī)空戰(zhàn)決策問題。文獻(xiàn)[35]立足于兵棋推演,利用GA優(yōu)化FIS的隸屬度函數(shù)參數(shù)得到推演關(guān)鍵點(diǎn)。文獻(xiàn)[36]利用遺傳模糊樹(genetic fuzzy tree, GFT)的思想對(duì)無人機(jī)編隊(duì)進(jìn)行訓(xùn)練以此解決對(duì)地打擊問題,該方法對(duì)GFS進(jìn)行簡(jiǎn)化,由于輸入與輸出的某些模糊子集無因果關(guān)系從而進(jìn)行“分叉”處理,減少了FIS的規(guī)則數(shù)量,提高了決策的效率,但在進(jìn)行具體實(shí)驗(yàn)時(shí),數(shù)據(jù)處理的方法以及實(shí)驗(yàn)得到的最優(yōu)染色體未能展示。
針對(duì)上述文獻(xiàn)中算法的優(yōu)點(diǎn)與不足,為解決未來海戰(zhàn)場(chǎng)中,察打一體化無人機(jī)在執(zhí)行偵察任務(wù)時(shí),面對(duì)水面艦艇編隊(duì)火力打擊的武器智能決策問題,本文采用改進(jìn)的GFT方法進(jìn)行解決:首先梳理影響無人機(jī)武器決策諸多因素之間的因果關(guān)系,利用GFT的思想構(gòu)建武器智能決策GFT框架;其次針對(duì)構(gòu)造的GFT模型設(shè)計(jì)了一種新的參數(shù)編碼法——三模糊子集參數(shù)編碼法,用以解決GA中對(duì)隸屬度函數(shù)參數(shù)的編碼問題;然后針對(duì)無人機(jī)擔(dān)負(fù)的任務(wù)的特點(diǎn)構(gòu)建訓(xùn)練場(chǎng)景;在進(jìn)行場(chǎng)景訓(xùn)練時(shí),采用單場(chǎng)景與創(chuàng)新性的組合場(chǎng)景相結(jié)合的訓(xùn)練方式對(duì)最優(yōu)個(gè)體進(jìn)行篩選,將場(chǎng)景得分作為適應(yīng)度函數(shù)的數(shù)值;最后將場(chǎng)景訓(xùn)練的最優(yōu)個(gè)體代入任務(wù)場(chǎng)景中進(jìn)行模型有效性的實(shí)驗(yàn)驗(yàn)證,并將實(shí)驗(yàn)結(jié)果與完全基于專家經(jīng)驗(yàn)建立的模糊推理樹[36](fuzzy inference tree,FIT)在任務(wù)中的表現(xiàn)進(jìn)行對(duì)比,證明本文構(gòu)建的無人機(jī)武器智能決策GFT模型的優(yōu)越性和靈活性。
本文針對(duì)性解決的問題是察打一體化無人機(jī)在??諏?duì)抗背景下執(zhí)行偵察任務(wù)時(shí)的武器智能決策問題,所以對(duì)真實(shí)??諏?duì)抗環(huán)境進(jìn)行簡(jiǎn)化設(shè)置,將三維場(chǎng)景簡(jiǎn)化為二維俯視圖,不考慮無人機(jī)飛行高度并假設(shè)無人機(jī)可自行改變姿態(tài)達(dá)到武器發(fā)射條件。其中,??諏?duì)抗雙方為水面艦艇編隊(duì)和無人機(jī)單機(jī)。
水面艦艇編隊(duì),包括驅(qū)、護(hù)艦以及搭載艦載機(jī)的航空母艦。由于無人機(jī)實(shí)施偵察時(shí)為盡可能保存自身,不會(huì)選擇抵近偵察,因此編隊(duì)的火力攻擊武器不考慮密集陣火炮,而采用驅(qū)護(hù)艦的艦空導(dǎo)彈和艦載機(jī)的空空導(dǎo)彈。一旦無人機(jī)進(jìn)入驅(qū)、護(hù)艦防空圈或者艦載機(jī)的巡邏區(qū),水面艦艇編隊(duì)立即采取空中火力打擊。
無人機(jī)配備兩種防御系統(tǒng),一是火力防御系統(tǒng),裝配空空導(dǎo)彈;二是電子對(duì)抗防御系統(tǒng),裝配空射誘餌彈。無人機(jī)在執(zhí)行偵察任務(wù)時(shí),按照任務(wù)前航路規(guī)劃制定的路線飛行,在面臨不同空中火力威脅時(shí),自主作出武器決策進(jìn)行防御,從而保存自身,完成偵察任務(wù)。武器決策內(nèi)容包括:① 依據(jù)自身武器實(shí)力,對(duì)空中威脅進(jìn)行武器類型的選擇;② 依據(jù)空中威脅情況,選擇對(duì)敵態(tài)度(武器數(shù)量選擇);③ 當(dāng)武器類型確定為空射誘餌彈時(shí),依據(jù)對(duì)抗局面的緊迫程度選擇誘餌彈的發(fā)射方式。
將空中威脅數(shù)、威脅距離、無人機(jī)空空導(dǎo)彈剩余量、無人機(jī)空射誘餌彈剩余量作為輸入,以此構(gòu)建武器智能決策FIS。對(duì)其不存在因果關(guān)系的輸入輸出進(jìn)行“分叉”,使之成為樹形結(jié)構(gòu)的FIT。其中,對(duì)敵態(tài)度決策系統(tǒng)是獨(dú)立的FIS(簡(jiǎn)稱為S1);武器選擇決策系統(tǒng)(簡(jiǎn)稱為S2)與空射誘餌彈發(fā)射方式?jīng)Q策系統(tǒng)(簡(jiǎn)稱為S3)構(gòu)成FIT。S1、S2與S3共同構(gòu)成武器智能決策FIT,如圖1所示。
圖1 武器智能決策FIT
S1輸入物理量為空中威脅數(shù)AN,包含模糊子集為“少、中、多”;輸出物理量為對(duì)敵態(tài)度AT,包含模糊子集“勇敢、正常、懦弱”。態(tài)度勇敢表示針對(duì)一個(gè)威脅發(fā)射1枚武器,態(tài)度正常表示發(fā)射2枚武器,態(tài)度懦弱表示發(fā)射3枚武器。在無人機(jī)單機(jī)只能裝載一定武器數(shù)量的前提下,發(fā)射武器數(shù)目越多,擊毀來襲導(dǎo)彈的成功概率越高;武器消耗量越大,面對(duì)后續(xù)威脅時(shí),可使用武器越少。
S2輸入物理量為空空導(dǎo)彈剩余量KK、誘餌彈剩余量YE,包含模糊子集均為“少、中、多”;輸出物理量為發(fā)射武器類型WT,包含發(fā)射空空導(dǎo)彈和發(fā)射誘餌彈。發(fā)射相同數(shù)目的空空導(dǎo)彈和誘餌彈對(duì)抗來襲導(dǎo)彈,空空導(dǎo)彈的成功率高于誘餌彈,但空空導(dǎo)彈成本高,占空間體積大,載彈量少。
當(dāng)S2輸出為發(fā)射誘餌彈時(shí),決策進(jìn)入S3。S3輸入物理量為空中威脅數(shù)(同S1中AN)和空中威脅距離DT,包含模糊子集分別為“少、中、多”和“遠(yuǎn)、中、近”。設(shè)定當(dāng)面臨多個(gè)導(dǎo)彈威脅時(shí),以最近一枚導(dǎo)彈距無人機(jī)的距離為威脅距離。輸出物理量為誘餌彈發(fā)射方式Time,包含模糊子集為“低延遲、高延遲”。延遲是指從探測(cè)到敵襲導(dǎo)彈時(shí)至發(fā)射誘餌彈的時(shí)間間隔,高和低代表間隔時(shí)間長和短,不同的發(fā)射方式導(dǎo)致誘餌彈對(duì)空中威脅的干擾成功率不同。低延遲表示快速發(fā)射誘餌彈,此時(shí)來襲導(dǎo)彈與無人機(jī)的距離較遠(yuǎn),其干擾概率較低,但由于延遲時(shí)間短使得干擾失敗后有充足時(shí)間再次作出武器使用決策。高延遲表示在來襲導(dǎo)彈距無人機(jī)距離較近時(shí)發(fā)射誘餌彈,其干擾概率較高,但干擾失敗后,剩余時(shí)間不足以再次做出對(duì)抗決策。
武器智能決策FIT是無人機(jī)在面臨空中火力威脅,自主作出武器選擇決策的控制中樞。本文將知識(shí)庫中規(guī)則和隸屬度函數(shù)同時(shí)進(jìn)行染色體編碼,利用遺傳優(yōu)化找尋最優(yōu)的武器智能決策FIT。遺傳優(yōu)化過程包括規(guī)則和隸屬度函數(shù)編碼、選擇、交叉、突變、適應(yīng)度函數(shù)求解以及最優(yōu)個(gè)體選擇。
利用GA求得最優(yōu)武器智能決策FIT的過程即武器智能決策GFT的工作過程,其工作原理如圖2所示。
圖2 武器智能決策GFT工作原理圖
2.2.1 規(guī)則編碼
本文采用匹茲堡方法[36]對(duì)規(guī)則進(jìn)行編碼。規(guī)則表示形式為“IfA=1 AndB=1 ThenC=2”,用數(shù)字代替字母表示模糊子集的名稱,方便實(shí)現(xiàn)計(jì)算機(jī)進(jìn)行規(guī)則編碼。S1、S2和S3規(guī)則編碼方式如表1~表3所示。
表1 S1規(guī)則編碼表
表2 S2中WT編碼表
表3 S3中Time編碼表
表1表示對(duì)S1的規(guī)則進(jìn)行編碼,其中S1包含3條規(guī)則:“If AN=1 Then AT=m1” “If AN=2 Then AT=m2”和“If AN=3 Then AT=m3”,m1、m2、m3均可取1、2、3中任意一個(gè)編碼數(shù)。其中,AN和AT取數(shù)字1、2、3分別表示空中威脅數(shù)為“少、中、多”和對(duì)敵態(tài)度為“勇敢、正常、懦弱”。對(duì)S1的規(guī)則編碼實(shí)質(zhì)上是對(duì)m1、m2、m3進(jìn)行數(shù)字“1、2、3”的編碼。
表2表示對(duì)S2的規(guī)則進(jìn)行編碼,其中S2包含9條規(guī)則:“If YE=1 And KK=1 Then WT=n11”,…“If YE=3 And KK=3 Then WT=n33”,n11,…,n33均可取1、2中任意一個(gè)編碼數(shù)。其中,KK和YE取數(shù)字“1、2、3”分別表示空空導(dǎo)彈剩余量和誘餌彈剩余量為“少、中、多”,WT取數(shù)字“1、2”表示武器選擇類型為“空空導(dǎo)彈、誘餌彈”。同理,對(duì)S2的規(guī)則編碼實(shí)質(zhì)上是對(duì)n11,…,n33進(jìn)行數(shù)字“1、2”的編碼。
S3與S2的規(guī)則表示形式相類似,表3包含S3的9條規(guī)則:“If AN=1 And DT=1 Then Time=o11”…“If AN=3 And DT=3 Then Time=o33”,o11,…,o33均可取1、2中任意一個(gè)編碼數(shù)。其中,AN的數(shù)字表示意義同S1,DT取數(shù)字“1、2、3”表示空中威脅距離為“遠(yuǎn)、中、近”,Time取數(shù)字“1、2”表示誘餌彈發(fā)射方式為“低延遲、高延遲”。同理,對(duì)S3的規(guī)則編碼實(shí)質(zhì)上是對(duì)o11,…,o33進(jìn)行數(shù)字“1、2”的編碼。
因此,對(duì)S1、S2和S3這3個(gè)FIS共計(jì)21條規(guī)則的編碼組成了染色體編碼的前三部分,共計(jì)21位。
2.2.2 隸屬度函數(shù)的參數(shù)編碼
考慮到算法簡(jiǎn)便性,隸屬度函數(shù)的形狀設(shè)置為三角形。本文對(duì)于輸入的模糊子集隸屬度函數(shù)參數(shù)進(jìn)行編碼優(yōu)化,而輸出的模糊子集則直接進(jìn)行設(shè)定。S1、 S2、S3系統(tǒng)輸出物理量的模糊子集,具體形狀如圖3所示。
圖3 輸出變量的隸屬度函數(shù)
S1輸出一個(gè)介于1和3之間的精確數(shù),將此數(shù)進(jìn)行四舍五入得到的數(shù)字只有1、2、3,分別表示發(fā)射武器的數(shù)量為每個(gè)威脅發(fā)射1、2、3枚反擊彈。同理,將S2輸出的精確數(shù)進(jìn)行四舍五入得到的數(shù)字為1或2,分別表示發(fā)射武器類型為空空導(dǎo)彈和誘餌彈。
S3輸出為一個(gè)介于1和2之間的精確數(shù),用物理量Time表示。設(shè)定此時(shí)導(dǎo)彈到達(dá)無人機(jī)的時(shí)間為TT,等于導(dǎo)彈距無人機(jī)距離除上導(dǎo)彈速度,而在TT時(shí)間內(nèi),前1/5時(shí)間內(nèi)為誘餌彈發(fā)射準(zhǔn)備時(shí)間,后1/5時(shí)間發(fā)射誘餌彈會(huì)造成由于干擾時(shí)間太短導(dǎo)致的干擾效果很差的局面,所以延遲的時(shí)間選在中間3/5的時(shí)間段里。用Delay表示誘餌彈發(fā)射延遲時(shí)間,其公式如下:
(1)
得到的Delay的取值介于TT/5和4TT/5之間。
FIT中的5個(gè)輸入物理量,其模糊子集均為3個(gè),且進(jìn)行歸一化后的取值范圍皆為0到1。本文設(shè)計(jì)了一種三模糊子集參數(shù)編碼法,以S1中AN的隸屬度函數(shù)參數(shù)編碼為例,隸屬度函數(shù)的一般形狀和參數(shù)的一般位置如圖4所示。
圖4 輸入模糊子集隸屬度函數(shù)
使用五位編碼對(duì)3個(gè)模糊子集的5個(gè)隸屬度函數(shù)參數(shù)A1、A2、A3、A4和A5進(jìn)行編碼。其中,A1、A2、A3、A4為模糊子集隸屬度函數(shù)與水平坐標(biāo)軸交點(diǎn)的橫坐標(biāo),A5是第二個(gè)模糊子集頂點(diǎn)的橫坐標(biāo)。由于5個(gè)參數(shù)皆為小數(shù),為降低小數(shù)編碼在后續(xù)遺傳進(jìn)化過程中的操縱復(fù)雜度,參數(shù)的編碼方式轉(zhuǎn)化為對(duì)其所在位置的左右移動(dòng)進(jìn)行編碼表示。首先設(shè)置5個(gè)參數(shù)的取值范圍和初始值,然后使用a1、a2、a3、a4和a5分別表示A1、A2、A3、A4和A5的位置移動(dòng)情況。a1、a2、a3、a4和a5的取值為0到10的整數(shù),不同取值代表不同的位置移動(dòng):5代表不移動(dòng),0代表向左移動(dòng)至取值范圍的最左端,10代表向右移動(dòng)至最右端。
對(duì)a1、a2、a3、a4、a5進(jìn)行編碼時(shí),必須考慮到A1 設(shè)定A1取值范圍為0至α,A4取值范圍為β至1。A1的初始值為取值范圍的中點(diǎn)α/2,同理A4的初始值為(1+β)/2,隨后對(duì)a1、a4隨機(jī)進(jìn)行0至10之間的編碼,則 (2) (3) 由于A5表示第二個(gè)模糊子集頂點(diǎn)的橫坐標(biāo),且第一、三個(gè)模糊子集頂點(diǎn)的橫坐標(biāo)取值為0和1,故A5無法取0或者1。為保證編碼的精度,A5、A2、A3的取值范圍不宜設(shè)置過大。同時(shí),參考圖4中3個(gè)模糊子集隸屬度函數(shù)的一般形狀和相對(duì)位置關(guān)系,設(shè)定A5取值范圍為α/2至(1+β)/2,A2取值范圍為α/4至(3β+1)/4,A3取值范圍為3α/4至(β+3)/4。A5、A2、A3的初始值為取值范圍的中點(diǎn),對(duì)a5、a2、a3隨機(jī)進(jìn)行0至10之間的編碼,則 (4) (5) (6) 特別的,當(dāng)A5、A2、A3的取值超出A1至A4的范圍時(shí),將對(duì)其數(shù)值進(jìn)行重新設(shè)置。以A5為例,當(dāng)取值大于A4時(shí), A5=A4-0.01 (7) 當(dāng)A5的取值小于A1時(shí), A5=A1+0.01 (8) 這種設(shè)置方法不僅可以避免無效編碼導(dǎo)致的系統(tǒng)紊亂,提高后續(xù)迭代效率,并且保留了參數(shù)之間的大小關(guān)系,是一種創(chuàng)新的變量設(shè)置方法。 同理,可用b1、b2、b3、b4、b5和c1、c2、c3、c4、c5表示S2中KK和YE的模糊子集;d1、d2、d3、d4、d5和e1、e2、e3、e4、e5表示S3中DT和AN的模糊子集。因此,對(duì)5個(gè)輸入物理量的模糊子集隸屬度參數(shù)的編碼組成了染色體編碼后5部分,共計(jì)25位。綜上所述,染色體進(jìn)行編碼的位數(shù)為46位。 2.2.3 種群進(jìn)化方式和適應(yīng)度函數(shù) 種群進(jìn)化過程包括選擇、交叉和突變。本文選擇方式選用二元錦標(biāo)賽法。交叉和突變的方法選用單點(diǎn)交叉和單點(diǎn)突變。由于染色體中包含不同含義的8個(gè)部分,所以不能僅僅對(duì)染色體中某一位進(jìn)行交叉(突變),而是對(duì)染色體中8個(gè)部分同時(shí)進(jìn)行交叉(突變),這樣才能保證種群的有效進(jìn)化。 利用GA進(jìn)行武器智能決策FIT的優(yōu)化,需要設(shè)置合適的適應(yīng)度函數(shù)。本文采取訓(xùn)練場(chǎng)景計(jì)分的方式,其中,訓(xùn)練場(chǎng)景根據(jù)無人機(jī)任務(wù)的特點(diǎn)制定。 依據(jù)水面艦艇和無人機(jī)武器系統(tǒng)實(shí)際作戰(zhàn)性能,同時(shí)為加強(qiáng)無人機(jī)面臨環(huán)境的嚴(yán)峻性,設(shè)計(jì)各類武器的單枚命中概率和干擾概率如下。 (1) 水面艦艇艦空導(dǎo)彈命中率為100%(無干擾情況下)。 (2) 無人機(jī)利用空空導(dǎo)彈攔截艦空導(dǎo)彈的命中率為75%(主要考慮艦空導(dǎo)彈的高速運(yùn)動(dòng)特點(diǎn))。 (3) 無人機(jī)誘餌彈對(duì)艦空導(dǎo)彈的干擾概率范圍為25%至75%。其中,具體干擾概率值YR的影響因素主要考慮為誘餌彈發(fā)射時(shí)艦空導(dǎo)彈與無人機(jī)的距離,用誘餌彈發(fā)射延遲時(shí)間Delay作為衡量標(biāo)準(zhǔn),YR與Delay呈線性相關(guān),計(jì)算公式如下: (9) 在訓(xùn)練場(chǎng)景中,無人機(jī)根據(jù)武器智能決策FIT做出武器決策,通過作戰(zhàn)仿真得到作戰(zhàn)結(jié)果,作戰(zhàn)結(jié)果不同,最終的決策得分也不同。 為達(dá)到無人機(jī)打擊威脅、保存自身的目的,設(shè)定擊中一個(gè)空中威脅獎(jiǎng)勵(lì)10分;一旦被任意一個(gè)威脅擊中則宣布任務(wù)失敗,扣除100分,未被擊中則宣布任務(wù)成功,獎(jiǎng)勵(lì)100分??紤]到無人機(jī)在真實(shí)作戰(zhàn)場(chǎng)景中攜帶的空空導(dǎo)彈數(shù)量遠(yuǎn)遠(yuǎn)小于誘餌彈的數(shù)量,且空空導(dǎo)彈的制造成本遠(yuǎn)遠(yuǎn)高于誘餌彈的現(xiàn)實(shí)條件,采取使用一枚空空導(dǎo)彈扣除2分,使用誘餌彈不扣分的計(jì)分策略,鼓勵(lì)無人機(jī)在整個(gè)作戰(zhàn)過程中盡可能多的使用誘餌彈。計(jì)分情況表如表4所示。 表4 行動(dòng)計(jì)分表 在實(shí)驗(yàn)過程中,計(jì)算染色體在場(chǎng)景中得分情況時(shí),每一個(gè)染色體均進(jìn)行3次仿真實(shí)驗(yàn),3次仿真實(shí)驗(yàn)的得分平均值作為染色體最終得分。 2.2.4 最優(yōu)個(gè)體選擇 種群進(jìn)化的過程即無人機(jī)在訓(xùn)練場(chǎng)景進(jìn)行訓(xùn)練的過程。在進(jìn)行場(chǎng)景訓(xùn)練時(shí),為使最優(yōu)個(gè)體的篩選更具準(zhǔn)確性,本文采取與傳統(tǒng)GA不同的選擇方式:每代種群進(jìn)化后,將表現(xiàn)最優(yōu)異的5個(gè)個(gè)體存儲(chǔ)于數(shù)據(jù)庫中,待進(jìn)化完畢后,對(duì)數(shù)據(jù)庫中所有個(gè)體進(jìn)行仿真從而選出表現(xiàn)最優(yōu)者。場(chǎng)景訓(xùn)練結(jié)束后,得到的數(shù)據(jù)庫命名為POP庫,將POP庫中所有個(gè)體按順序進(jìn)行100次訓(xùn)練場(chǎng)景的實(shí)驗(yàn)仿真,其平均得分最高的個(gè)體即為最優(yōu)個(gè)體。 訓(xùn)練場(chǎng)景的設(shè)置只針對(duì)任務(wù)的單一特點(diǎn),單場(chǎng)景訓(xùn)練得到的最優(yōu)個(gè)體往往不能滿足復(fù)雜的任務(wù)設(shè)定。本文設(shè)計(jì)了創(chuàng)新性的組合場(chǎng)景訓(xùn)練方法,將單個(gè)訓(xùn)練場(chǎng)景進(jìn)行排列組合,依次進(jìn)行仿真實(shí)驗(yàn),從而優(yōu)化染色體多個(gè)特性。其具體實(shí)現(xiàn)方法為:對(duì)第一個(gè)訓(xùn)練場(chǎng)景建立的POP庫中的染色體進(jìn)行挑選,表現(xiàn)最優(yōu)的前100個(gè)個(gè)體存儲(chǔ)至新的數(shù)據(jù)庫,定義為POPX庫;將POPX庫中的所有個(gè)體作為后續(xù)即將進(jìn)行訓(xùn)練的場(chǎng)景的初始種群,從而實(shí)現(xiàn)場(chǎng)景間種群的遺傳與進(jìn)化。本文對(duì)無人機(jī)進(jìn)行訓(xùn)練時(shí),采取單場(chǎng)景與組合場(chǎng)景相結(jié)合的訓(xùn)練方法。 為驗(yàn)證構(gòu)建模型的有效性,設(shè)計(jì)實(shí)驗(yàn)對(duì)無人機(jī)武器智能決策GFT的模型進(jìn)行驗(yàn)證。首先根據(jù)水面艦艇編隊(duì)的類型,構(gòu)建無人機(jī)的任務(wù)場(chǎng)景;其次針對(duì)任務(wù)場(chǎng)景兵力特點(diǎn)構(gòu)建訓(xùn)練場(chǎng)景;然后在訓(xùn)練場(chǎng)景中訓(xùn)練無人機(jī)的武器使用決策能力,并選出最優(yōu)的武器智能決策FIT;最后將武器智能決策FIT代入任務(wù)場(chǎng)景中進(jìn)行仿真,分析無人機(jī)的任務(wù)成功率。無人機(jī)飛行速度設(shè)置為340 m/s,空中導(dǎo)彈速度設(shè)置為1 000 m/s。GA中種群數(shù)量設(shè)置為100個(gè),迭代次數(shù)為30次,交叉概率為60%,突變概率為2.5%,α為0.4,β為0.6。 根據(jù)水面艦艇編隊(duì)常見的“人”形隊(duì),設(shè)置任務(wù)場(chǎng)景1和場(chǎng)景2,如圖5和圖6所示。 圖5 任務(wù)場(chǎng)景1 圖6 任務(wù)場(chǎng)景2 任務(wù)場(chǎng)景1中,無人機(jī)攜帶8枚空空導(dǎo)彈和16枚誘餌彈,按逆時(shí)針順序,依次通過水面艦艇A防空圈、艦載機(jī)巡邏區(qū)、水面艦艇B和C共同防空圈以及水面艦艇D的防空圈。艦載機(jī)巡邏區(qū)的長度為45 km,寬度為40 km,無人機(jī)進(jìn)入巡邏區(qū),將受到3枚空空導(dǎo)彈的攻擊。水面艦艇編隊(duì)的行動(dòng)信息如表5所示。 表5 任務(wù)場(chǎng)景1的水面艦艇編隊(duì)行動(dòng)信息表 任務(wù)場(chǎng)景2中,無人機(jī)攜帶相同數(shù)量武器按逆時(shí)針順序飛行。艦載機(jī)巡邏區(qū)的長度為30 km,寬度為40 km,無人機(jī)進(jìn)入巡邏區(qū),將受到一枚空空導(dǎo)彈的攻擊。水面艦艇編隊(duì)的行動(dòng)信息如表6所示。 表6 任務(wù)場(chǎng)景2的水面艦艇編隊(duì)的行動(dòng)信息表 針對(duì)任務(wù)場(chǎng)景1的特性,制定訓(xùn)練場(chǎng)景1,訓(xùn)練無人機(jī)在威脅數(shù)量具有連續(xù)性的情況下的決策能力。無人機(jī)攜帶8枚空空導(dǎo)彈和14枚誘餌彈,按順時(shí)針順序飛行。艦載機(jī)巡邏區(qū)的長度為32 km,寬度為15 km,無人機(jī)進(jìn)入巡邏區(qū),將受到4枚空空導(dǎo)彈的攻擊。訓(xùn)練場(chǎng)景圖如圖7所示,水面艦艇編隊(duì)的行動(dòng)信息如表7所示。 圖7 訓(xùn)練場(chǎng)景1 表7 訓(xùn)練場(chǎng)景1的水面艦艇編隊(duì)的行動(dòng)信息表 針對(duì)任務(wù)場(chǎng)景2的特性,制定相比較訓(xùn)練場(chǎng)景1較為復(fù)雜的訓(xùn)練場(chǎng)景2,訓(xùn)練無人機(jī)在威脅數(shù)量具有較大波動(dòng)時(shí)的決策能力。將訓(xùn)練場(chǎng)景1中艦船B防空圈半徑更改為15 km,發(fā)射導(dǎo)彈數(shù)量為4枚;艦船C防空圈半徑更改為10 km,發(fā)射導(dǎo)彈數(shù)量為1枚。無人機(jī)按逆時(shí)針順序飛行,進(jìn)入巡邏區(qū),將受到4枚空空導(dǎo)彈的攻擊。場(chǎng)景2其他條件設(shè)置與場(chǎng)景1相同。 由于無人機(jī)攜帶誘餌彈的數(shù)量明顯多于空空導(dǎo)彈,作為無人機(jī)空中使用武器的主體,誘餌彈的使用決策能力需要進(jìn)行針對(duì)性的訓(xùn)練。所以訓(xùn)練場(chǎng)景3的設(shè)置思路為:無人機(jī)只攜帶誘餌彈,在不設(shè)置艦載機(jī)空中巡邏區(qū)的水面艦艇編隊(duì)中進(jìn)行武器智能決策的訓(xùn)練,無人機(jī)攜帶22枚誘餌彈,按順時(shí)針順序飛行。訓(xùn)練場(chǎng)景如圖8所示,水面艦艇編隊(duì)的行動(dòng)信息如表8所示。 圖8 訓(xùn)練場(chǎng)景3 表8 訓(xùn)練場(chǎng)景3的水面艦艇編隊(duì)的行動(dòng)信息表 當(dāng)無人機(jī)完成訓(xùn)練后,得到相應(yīng)訓(xùn)練場(chǎng)景的最優(yōu)個(gè)體,將最優(yōu)個(gè)體代入任務(wù)場(chǎng)景中進(jìn)行仿真實(shí)驗(yàn):當(dāng)?shù)梅执笥?00分時(shí),認(rèn)定此次仿真中,無人機(jī)任務(wù)成功;當(dāng)?shù)梅中∮?分時(shí),設(shè)定任務(wù)失敗。由于任務(wù)場(chǎng)景中,設(shè)置空中威脅共計(jì)11枚導(dǎo)彈,其攻擊率為100%,而無人機(jī)攜帶的武器單枚最高攔截率為75%。一個(gè)空中威脅的導(dǎo)彈,無人機(jī)發(fā)射兩枚空空導(dǎo)彈進(jìn)行攔截(兩個(gè)導(dǎo)彈互不影響),攔截概率為93.75%。按照最大概率計(jì)算,每一枚空中威脅導(dǎo)彈,無人機(jī)均發(fā)射兩枚空空導(dǎo)彈進(jìn)行攔截,無人機(jī)攔截所有威脅均成功(任務(wù)成功率)的概率為93.75%的11次方,為49%,并且根據(jù)設(shè)定的載彈量,無人機(jī)無法攜帶22枚空空導(dǎo)彈,因此任務(wù)場(chǎng)景的實(shí)際成功率不足49%。為了使得算法驗(yàn)證過程更加合理,設(shè)置訓(xùn)練場(chǎng)景中的最優(yōu)染色體在任務(wù)場(chǎng)景中使得無人機(jī)任務(wù)成功率高于49%的90%時(shí),認(rèn)為最優(yōu)染色體在任務(wù)場(chǎng)景中表現(xiàn)是符合要求的,表現(xiàn)為優(yōu);否則為表現(xiàn)差,此時(shí)的成功率衡量標(biāo)準(zhǔn)為44%。 經(jīng)過場(chǎng)景1~場(chǎng)景3訓(xùn)練得出最優(yōu)染色體,將其分別在任務(wù)場(chǎng)景中進(jìn)行100次仿真實(shí)驗(yàn),得到任務(wù)成功率,如表9所示。 表9 單場(chǎng)景訓(xùn)練結(jié)果表 通過上述實(shí)驗(yàn)數(shù)據(jù)得出,只進(jìn)行單場(chǎng)景訓(xùn)練無法訓(xùn)練出滿足復(fù)雜任務(wù)場(chǎng)景的優(yōu)秀個(gè)體,本節(jié)采取創(chuàng)新性的組合場(chǎng)景訓(xùn)練方法對(duì)無人機(jī)進(jìn)行訓(xùn)練。3個(gè)訓(xùn)練場(chǎng)景中,由于訓(xùn)練場(chǎng)景1是最基礎(chǔ)的訓(xùn)練場(chǎng)景,所以進(jìn)行組合場(chǎng)景訓(xùn)練時(shí),訓(xùn)練場(chǎng)景1為第一個(gè)訓(xùn)練的場(chǎng)景,后續(xù)進(jìn)行訓(xùn)練的訓(xùn)練場(chǎng)景進(jìn)行隨機(jī)選擇,最終得到最優(yōu)個(gè)體及其在任務(wù)場(chǎng)景中的任務(wù)成功率如表10所示。 表10 組合場(chǎng)景訓(xùn)練結(jié)果表 由表10的數(shù)據(jù)可得,經(jīng)過場(chǎng)景1+2+3組合訓(xùn)練后的最優(yōu)染色體[2, 2, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1, 2, 1, 2, 5, 5, 0, 8, 3, 9, 9, 8, 1, 3, 7, 7, 5, 2, 1, 2, 8, 6, 1, 2, 8, 5, 3, 9]在任務(wù)場(chǎng)景中成功率很高,表現(xiàn)優(yōu)異,驗(yàn)證了組合場(chǎng)景訓(xùn)練這種訓(xùn)練方式的有效性,同時(shí)證明了本文建立的無人機(jī)武器智能決策GFT是有效、可行并且正確的。 與此同時(shí),經(jīng)過場(chǎng)景1+3+2組合訓(xùn)練的最優(yōu)染色體在任務(wù)場(chǎng)景中成功率不高,比較實(shí)驗(yàn)過程發(fā)現(xiàn),實(shí)驗(yàn)中訓(xùn)練場(chǎng)景的內(nèi)容相同但訓(xùn)練順序不同。由此進(jìn)行假設(shè),組合場(chǎng)景訓(xùn)練中訓(xùn)練場(chǎng)景的順序?qū)τ谟?xùn)練結(jié)果有影響,最佳的場(chǎng)景組合順序?yàn)橄群?jiǎn)單后復(fù)雜。 為驗(yàn)證假設(shè)的正確與否,在訓(xùn)練場(chǎng)景2的基礎(chǔ)上融合場(chǎng)景3的訓(xùn)練特性創(chuàng)建更復(fù)雜的訓(xùn)練場(chǎng)景4,既訓(xùn)練無人機(jī)在威脅數(shù)量具有較大波動(dòng)情況下的決策能力,又訓(xùn)練誘餌彈的使用決策能力。其訓(xùn)練場(chǎng)景圖與場(chǎng)景2相同。無人機(jī)攜帶12枚空空導(dǎo)彈和24枚誘餌彈,按逆時(shí)針順序飛行,水面艦艇A、B、C發(fā)射空空導(dǎo)彈數(shù)目為3、6、1枚,無人機(jī)進(jìn)入巡邏區(qū),將受到6枚空空導(dǎo)彈的攻擊,其余設(shè)置與訓(xùn)練場(chǎng)景2相同。針對(duì)訓(xùn)練場(chǎng)景4進(jìn)行實(shí)驗(yàn)得到任務(wù)成功率,如表11所示。 表11 訓(xùn)練場(chǎng)景4相關(guān)實(shí)驗(yàn)結(jié)果表 由表11的數(shù)據(jù)可得,經(jīng)過場(chǎng)景1+4組合訓(xùn)練后的最優(yōu)染色體[2, 2, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1, 2, 2, 1, 2, 1, 1, 1, 2, 1, 2, 8, 5, 0, 8, 3, 8, 9, 8, 1, 3, 2, 7, 6, 2, 1, 6, 7, 5, 1, 2, 8, 1, 3, 9]在任務(wù)場(chǎng)景中成功率很高,表現(xiàn)優(yōu)異,而經(jīng)過場(chǎng)景4+1組合訓(xùn)練的最優(yōu)染色體在任務(wù)場(chǎng)景中成功率較低。此結(jié)果驗(yàn)證了假設(shè)的正確性,說明最佳的場(chǎng)景訓(xùn)練順序?yàn)橄群?jiǎn)單后復(fù)雜。試分析原因,前一場(chǎng)景的優(yōu)秀個(gè)體在繼承給后一場(chǎng)景進(jìn)行訓(xùn)練時(shí),兩場(chǎng)景共同優(yōu)化的特性沒有發(fā)生變化,而后一場(chǎng)景訓(xùn)練的特殊特性得到進(jìn)化,使得訓(xùn)練得到的結(jié)果適應(yīng)性更好。在進(jìn)行1、4組合訓(xùn)練時(shí),先1后4的訓(xùn)練順序使得優(yōu)秀個(gè)體在繼承場(chǎng)景一優(yōu)良特性的前提下,增加了面對(duì)復(fù)雜情況下的決策能力,而在進(jìn)行先4后1組合訓(xùn)練時(shí),無人機(jī)面對(duì)威脅數(shù)目有劇烈波動(dòng)時(shí)的決策能力被破壞,導(dǎo)致染色體性能下降。 本文構(gòu)建的GFT對(duì)所有的規(guī)則和輸入物理量的隸屬度函數(shù)參數(shù)進(jìn)行編碼優(yōu)化,這樣設(shè)置的好處是GFT可以根據(jù)訓(xùn)練場(chǎng)景的特性自行調(diào)整規(guī)則和隸屬度參數(shù),而不是僅憑專家經(jīng)驗(yàn)進(jìn)行設(shè)定。為了說明GFT的優(yōu)越性,現(xiàn)將經(jīng)過場(chǎng)景1+4組合訓(xùn)練得到的最優(yōu)個(gè)體與完全基于專家經(jīng)驗(yàn)建立的FIT進(jìn)行任務(wù)場(chǎng)景仿真,得到任務(wù)場(chǎng)景得分對(duì)比圖,如圖9和圖10所示。專家根據(jù)經(jīng)驗(yàn)建立的FIT的染色體編碼為[1, 2, 3, 2, 1, 1, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 1, 1, 2, 2, 5, 5, 7, 5, 3, 1, 8, 8, 5, 3, 7, 7, 5, 5, 1, 6, 7, 6, 5, 2, 8, 5, 3, 5]。其在任務(wù)場(chǎng)景1中的成功率為7%,在任務(wù)場(chǎng)景2中成功率為25%,均未達(dá)到成功率的標(biāo)準(zhǔn)值44%,表現(xiàn)均為差。實(shí)驗(yàn)結(jié)果表明,GFT訓(xùn)練出的最優(yōu)個(gè)體在任務(wù)場(chǎng)景中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于完全基于專家經(jīng)驗(yàn)的FIT,專家根據(jù)決策經(jīng)驗(yàn)得到的FIT不適用于設(shè)置的任務(wù)場(chǎng)景。由此可見,GFT相比一成不變的完全基于專家系統(tǒng)的FIT,雖然需要經(jīng)過大量訓(xùn)練才能得到,但是其可以根據(jù)訓(xùn)練場(chǎng)景的特性自行調(diào)整FIT中規(guī)則和隸屬度參數(shù),具有良好的靈活性。 圖9 任務(wù)場(chǎng)景1中的得分對(duì)比情況 圖10 任務(wù)場(chǎng)景2中的得分對(duì)比情況 本文采用GFT的思想,創(chuàng)建了無人機(jī)武器智能決策GFT,解決了察打一體化無人機(jī)在執(zhí)行偵察任務(wù)時(shí),面對(duì)水面艦艇編隊(duì)火力打擊時(shí)如何自主智能地做出武器決策的問題。本文設(shè)計(jì)的三模糊子集參數(shù)編碼設(shè)置法,解決了染色體中隸屬度函數(shù)參數(shù)的編碼問題,不僅操作簡(jiǎn)單,避免了無效編碼導(dǎo)致的系統(tǒng)紊亂,并且保留了編碼特性,是一種創(chuàng)新的變量設(shè)置方法。文中通過組合場(chǎng)景的訓(xùn)練方式,解決了只訓(xùn)練單一特性的單場(chǎng)景的最優(yōu)個(gè)體無法滿足復(fù)雜任務(wù)場(chǎng)景要求的問題,并且創(chuàng)新性的組合場(chǎng)景實(shí)驗(yàn)方法實(shí)現(xiàn)了場(chǎng)景間種群的遺傳與進(jìn)化,并且提出最佳的場(chǎng)景訓(xùn)練順序?yàn)橄群?jiǎn)單后復(fù)雜。將武器智能決策GFT與完全基于專家經(jīng)驗(yàn)的FIT進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)武器智能決策GFT得到的最優(yōu)個(gè)體在任務(wù)場(chǎng)景中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于完全基于專家經(jīng)驗(yàn)的FIT,說明武器智能決策GFT具有很好的靈活性,進(jìn)一步證明了GFT這種方法的優(yōu)越性。 目前,對(duì)于實(shí)驗(yàn)中發(fā)現(xiàn)的組合場(chǎng)景訓(xùn)練順序性規(guī)律的原因尚未進(jìn)行實(shí)驗(yàn)驗(yàn)證,下一步將會(huì)對(duì)此進(jìn)行研究,并將其與組合場(chǎng)景訓(xùn)練這種方法結(jié)合,創(chuàng)造出更高效的訓(xùn)練方法。3 實(shí)驗(yàn)與仿真
3.1 場(chǎng)景設(shè)置
3.2 單場(chǎng)景訓(xùn)練結(jié)果
3.3 組合場(chǎng)景訓(xùn)練
3.4 組合場(chǎng)景訓(xùn)練的順序性驗(yàn)證
3.5 對(duì)比實(shí)驗(yàn)
4 結(jié) 論