常 穎,劉軒銘,劉 昊
(1.中國人民解放軍32295部隊(duì),遼寧 遼陽 111000;2.中國人民解放軍32113部隊(duì),黑龍江 佳木斯 154000;3.國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院,河北 石家莊 050000;4.中國人民解放軍31696部隊(duì),遼寧 錦州 121000)
聯(lián)合火力打擊中的動(dòng)態(tài)火力分配問題屬于計(jì)算機(jī)領(lǐng)域的NP問題,是智能算法應(yīng)用于軍事領(lǐng)域的重要實(shí)踐結(jié)合點(diǎn),特別是在未來以智能算法為支撐的諸軍兵種聯(lián)合火力打擊中,有必要深入系統(tǒng)研究如何將智能算法應(yīng)用于聯(lián)合火力打擊以最大限度提升火力打擊作戰(zhàn)效能。本文在前期對抗推演系統(tǒng)研究基礎(chǔ)上,嘗試?yán)弥悄芩惴ń⒙?lián)合火力打擊任務(wù)規(guī)劃的優(yōu)化算法,并以智能算法的優(yōu)化結(jié)果為載體,研究人機(jī)對抗的可行性,并建立人機(jī)結(jié)合的兵棋對抗推演系統(tǒng)。
對于動(dòng)態(tài)火力分配問題的相關(guān)研究成果豐碩,文獻(xiàn)[1]使用改進(jìn)智能優(yōu)化算法實(shí)現(xiàn)了動(dòng)態(tài)火力分配,取得了較好的收斂效果;文獻(xiàn)[2]針對兩棲攻擊艦的防御問題設(shè)計(jì)動(dòng)態(tài)火力分配算法,在一定程度上滿足了建模需求;文獻(xiàn)[3-5]針對回合制的動(dòng)態(tài)博弈問題設(shè)計(jì)動(dòng)態(tài)火力分配模型,使用了改進(jìn)分解進(jìn)化算法實(shí)現(xiàn)了多目標(biāo)優(yōu)化和評估;文獻(xiàn)[6-7]針對武器和目標(biāo)之間的動(dòng)態(tài)火力分配及作戰(zhàn)效能評估進(jìn)行了建模分析,實(shí)現(xiàn)了艦艇編隊(duì)防空的火力分配;文獻(xiàn)[8-10]從動(dòng)態(tài)規(guī)劃視角出發(fā),分析了反艦導(dǎo)彈的動(dòng)態(tài)火力分配建模仿真,取得較好效果;文獻(xiàn)[11-13]分析了多彈種結(jié)合的防空動(dòng)態(tài)火力分配模型,利用自適應(yīng)算法實(shí)現(xiàn)防空火力分配。通過上述分析可知,常規(guī)研究一般局限在靜態(tài)環(huán)境中,算法難以應(yīng)對動(dòng)態(tài)環(huán)境的變化,一旦算法依賴的外界條件變化,則生成的優(yōu)化成果必須重新優(yōu)化,因此,降低了算法的實(shí)踐應(yīng)用性。基于此,本文嘗試以敵我雙方的交戰(zhàn)環(huán)境作為動(dòng)態(tài)環(huán)境條件,建立敵我雙種群結(jié)構(gòu)實(shí)現(xiàn)智能算法的互為競爭對手對抗進(jìn)化,并在對抗過程中通過構(gòu)造智能體結(jié)構(gòu)使之留存對抗經(jīng)驗(yàn),通過多代迭代實(shí)現(xiàn)對抗經(jīng)驗(yàn)的積累和對多種交戰(zhàn)環(huán)境的動(dòng)態(tài)適應(yīng)。借鑒達(dá)爾文物競天擇的競爭機(jī)制,本文嘗試?yán)枚嘀悄荏w博弈的搭配組合和協(xié)作互補(bǔ)原理,通過多個(gè)不同構(gòu)造的智能體搭配組合,涌現(xiàn)出超越一般智能體結(jié)構(gòu)的涌現(xiàn)智能體,以涌現(xiàn)出的智能體復(fù)雜性對抗敵方戰(zhàn)法策略的復(fù)雜性,進(jìn)而在競爭機(jī)制基礎(chǔ)上引入智能體的協(xié)作機(jī)制,提升算法的對抗能力和智力水平。
本文以聯(lián)合火力打擊智能優(yōu)化系統(tǒng)作為聯(lián)合火力打擊人機(jī)對抗推演系統(tǒng)的重要組成部分和核心構(gòu)件,主要實(shí)現(xiàn)功能為:一是將指揮員能夠理解并執(zhí)行的戰(zhàn)法策略轉(zhuǎn)譯為計(jì)算機(jī)智能算法能識(shí)別的智能體結(jié)構(gòu);二是利用智能體的協(xié)同進(jìn)化算法和計(jì)算機(jī)的運(yùn)算優(yōu)勢實(shí)現(xiàn)智能體的多代進(jìn)化;三是將進(jìn)化后的智能體種群轉(zhuǎn)譯為指揮員和參謀機(jī)構(gòu)能夠理解并執(zhí)行的任務(wù)規(guī)劃。由此,可將系統(tǒng)劃分為:戰(zhàn)法策略錄入模塊、紅藍(lán)種群生成模塊、協(xié)作進(jìn)化模塊、對抗推演模塊、體系價(jià)值評估模塊、最優(yōu)策略輸出模塊。戰(zhàn)法策略錄入模塊用以將指揮員能夠理解并籌劃執(zhí)行的戰(zhàn)法策略和敵我目標(biāo)屬性、打擊力量屬性、目標(biāo)關(guān)聯(lián)屬性、彈種目標(biāo)限制屬性一同錄入系統(tǒng);紅藍(lán)種群生成模塊用于將戰(zhàn)法策略轉(zhuǎn)譯為智能體結(jié)構(gòu),并通過多智能體構(gòu)造出處于對抗?fàn)顟B(tài)的雙種群結(jié)構(gòu);協(xié)作進(jìn)化模塊用于在雙種群中引入?yún)f(xié)作和競爭規(guī)則,并在與對抗推演模塊的配合下完成智能體的反饋評分獎(jiǎng)懲操作,實(shí)現(xiàn)智能體的優(yōu)勝劣汰;對抗推演模塊用于將涌現(xiàn)智能體產(chǎn)生的任務(wù)規(guī)劃按照聯(lián)合火力打擊規(guī)則有序執(zhí)行,并統(tǒng)計(jì)最終火力打擊后敵我雙方的兵力彈藥損失,以此計(jì)算出敵我雙方的網(wǎng)絡(luò)體系價(jià)值;體系價(jià)值評估模塊用于將對抗推演產(chǎn)生的各目標(biāo)毀傷程度和當(dāng)前殲滅狀態(tài)代入目標(biāo)超網(wǎng)絡(luò)體系,并根據(jù)目標(biāo)的錄入多屬性價(jià)值數(shù)據(jù)生成紅藍(lán)雙方當(dāng)前的體系價(jià)值綜合評分;最優(yōu)策略輸出模塊用于將多代迭代輸出的紅藍(lán)種群轉(zhuǎn)譯為指揮員和參謀機(jī)構(gòu)能夠理解和執(zhí)行的任務(wù)規(guī)劃格式,并接入后續(xù)的人機(jī)對抗系統(tǒng)接口。智能優(yōu)化系統(tǒng)流程如圖1所示。
圖1 智能優(yōu)化系統(tǒng)流程圖
本文系統(tǒng)所涉及的關(guān)鍵技術(shù)主要包括戰(zhàn)法策略轉(zhuǎn)譯算法、多智能體協(xié)同進(jìn)化算法、對抗推演算法和體系價(jià)值評估算法。
戰(zhàn)法策略轉(zhuǎn)譯算法用于實(shí)現(xiàn)戰(zhàn)法策略、任務(wù)規(guī)劃和智能體結(jié)構(gòu)之間的互相轉(zhuǎn)換,戰(zhàn)法策略是指揮員根據(jù)上級(jí)指示和主觀判斷確定的聯(lián)合火力打擊決策遵循,有原則性和指向性作用,諸軍兵種火力打擊部隊(duì)以指揮員的統(tǒng)一戰(zhàn)法策略作為行動(dòng)準(zhǔn)則執(zhí)行火力打擊任務(wù)并修正補(bǔ)充火力打擊行動(dòng),以保持戰(zhàn)法策略和打擊行動(dòng)之間的方向一致性;任務(wù)規(guī)劃是參謀機(jī)構(gòu)在指揮員戰(zhàn)法策略基礎(chǔ)上擬制的具有操作性的火力打擊執(zhí)行項(xiàng),包含參與火力打擊的部隊(duì)彈種編號(hào)、打擊目標(biāo)編號(hào)、彈藥消耗量、規(guī)劃執(zhí)行時(shí)刻、火力打擊時(shí)刻等,任務(wù)規(guī)劃的擬制必須在戰(zhàn)法策略的原則下細(xì)化量化,不能以諸軍兵種各自目標(biāo)為參照各行其是;智能體結(jié)構(gòu)是智能優(yōu)化的執(zhí)行對象,是計(jì)算機(jī)在系統(tǒng)中能夠理解并執(zhí)行的最小單元,每個(gè)智能體結(jié)構(gòu)必須和任務(wù)規(guī)劃之間建立對應(yīng)關(guān)系,以實(shí)現(xiàn)戰(zhàn)法策略的智能優(yōu)化。戰(zhàn)法策略、任務(wù)規(guī)劃、智能體結(jié)構(gòu)之間是一對多的對應(yīng)關(guān)系,即一種戰(zhàn)法策略可對應(yīng)多套任務(wù)規(guī)劃,一套任務(wù)規(guī)劃也可對應(yīng)多種智能體結(jié)構(gòu),反之則為一對一關(guān)系,確定的智能體結(jié)構(gòu)只能對應(yīng)唯一的任務(wù)規(guī)劃和戰(zhàn)法策略。三者的具體示例如圖2所示。
圖2 戰(zhàn)法策略、任務(wù)規(guī)劃、智能體示例
轉(zhuǎn)譯算法中,戰(zhàn)法策略與任務(wù)規(guī)劃的轉(zhuǎn)譯只需通過規(guī)則對應(yīng)形式即可完成,而任務(wù)規(guī)劃和智能體之間必須建立預(yù)先規(guī)則:設(shè)任務(wù)規(guī)劃中使用的每個(gè)部隊(duì)彈種均能轉(zhuǎn)譯為一個(gè)智能體結(jié)構(gòu),不同的部隊(duì)彈種對應(yīng)的多個(gè)智能體之間存在搭配組合的協(xié)作關(guān)系,相同部隊(duì)彈種對應(yīng)的多個(gè)智能體之間存在評分先后的競爭關(guān)系,任務(wù)規(guī)劃是由所有部隊(duì)彈種對應(yīng)的智能體隨機(jī)搭配組合構(gòu)成的涌現(xiàn)結(jié)構(gòu),即在種群中抽取每個(gè)部隊(duì)彈種對應(yīng)的1個(gè)智能體就能生成唯一對應(yīng)的任務(wù)規(guī)劃,智能體向任務(wù)規(guī)劃轉(zhuǎn)譯的算法流程如下。
步驟1抽取智能體搭配組合。采用隨機(jī)算法選取同一種群中隸屬不同部隊(duì)彈種的智能體,選中的智能體壽命+1。
步驟2為每個(gè)部隊(duì)彈種選取打擊目標(biāo)。根據(jù)選中智能體中目標(biāo)排序表的先后順序選擇打擊目標(biāo),如排序表選中的目標(biāo)序號(hào)為-1,則部隊(duì)彈種執(zhí)行待命3分鐘操作,一般情況下,選中首選目標(biāo)即可結(jié)束選擇操作,但在實(shí)際算法執(zhí)行過程中,由于任務(wù)規(guī)劃執(zhí)行導(dǎo)致個(gè)別目標(biāo)可能已經(jīng)被殲滅或者受限于彈種目標(biāo)限制表導(dǎo)致無法打擊,因此,應(yīng)多選打擊目標(biāo)作為預(yù)備打擊項(xiàng),本算法中選取10個(gè)預(yù)備打擊目標(biāo)留存?zhèn)溆谩?/p>
步驟3建立任務(wù)規(guī)劃執(zhí)行項(xiàng)。為各部隊(duì)彈種和對應(yīng)的首選打擊目標(biāo)建立對應(yīng)關(guān)系后,通過查詢打擊能力表獲取該部隊(duì)彈種對應(yīng)的射彈飛行時(shí)間和打擊間隔時(shí)間,以此計(jì)算出任務(wù)規(guī)劃的部隊(duì)空閑時(shí)刻和火力打擊時(shí)刻,設(shè)第j個(gè)部隊(duì)彈種的射彈飛行時(shí)間為sj,打擊間隔時(shí)間為gj,任務(wù)規(guī)劃起始時(shí)刻設(shè)為qj,則火力打擊時(shí)刻dj和部隊(duì)空閑時(shí)刻xj的計(jì)算公式為:
dj=qj+sj
(1)
xj=dj+gj
(2)
步驟4融合敵我任務(wù)規(guī)劃執(zhí)行項(xiàng)。將紅藍(lán)雙方智能體搭配組合產(chǎn)生的任務(wù)規(guī)劃執(zhí)行項(xiàng)匯總,并按照火力打擊時(shí)刻由先至后排序,即可形成用于對抗推演的完整任務(wù)規(guī)劃,規(guī)劃中所涉及的打擊目標(biāo)不一定全部完成火力打擊,在對抗推演中可能由于目標(biāo)已殲滅或者部隊(duì)彈藥儲(chǔ)備空而導(dǎo)致任務(wù)規(guī)劃項(xiàng)無法執(zhí)行,剔除無法執(zhí)行的任務(wù)規(guī)劃項(xiàng),即為輸出任務(wù)規(guī)劃。
對抗推演算法接收敵我雙種群生成的任務(wù)規(guī)劃,并按火力打擊時(shí)刻由先至后順序執(zhí)行規(guī)劃項(xiàng),計(jì)算每次規(guī)劃產(chǎn)生的目標(biāo)毀傷程度和部隊(duì)的彈藥消耗,進(jìn)而推演出最終火力打擊結(jié)束時(shí)敵我雙方的目標(biāo)毀傷狀態(tài)。對抗推演算法執(zhí)行流程如下。
步驟1判斷當(dāng)前執(zhí)行規(guī)劃項(xiàng)是否為航空部隊(duì),如果是,則調(diào)用防空火力毀傷算法??紤]對抗推演中航空部隊(duì)會(huì)受到敵方防空部隊(duì)的防空火力打擊,并且,在執(zhí)行規(guī)劃火力打擊任務(wù)時(shí)預(yù)先產(chǎn)生部隊(duì)損傷,因此,在所有規(guī)劃執(zhí)行前加入防空火力毀傷預(yù)判。
步驟2使用防空火力毀傷算法計(jì)算部隊(duì)在火力打擊前的部隊(duì)毀傷程度。判斷防空部隊(duì)當(dāng)前是否能執(zhí)行火力打擊:目標(biāo)位置超出火力打擊射程無法執(zhí)行防空反擊;防空部隊(duì)彈藥儲(chǔ)備不足無法執(zhí)行防空反擊;防空部隊(duì)當(dāng)前毀傷程度超過殲滅閾值無法執(zhí)行防空反擊。采集規(guī)劃航空部隊(duì)的當(dāng)前毀傷程度、防空部隊(duì)的火力打擊能力,并按照毀傷擬合函數(shù)計(jì)算航空部隊(duì)的累加毀傷程度。
步驟3重復(fù)步驟2,直至所有防空部隊(duì)均判斷并執(zhí)行防空反擊,則跳出循環(huán)。
步驟4按火力打擊時(shí)刻先后順序計(jì)算目標(biāo)毀傷程度。調(diào)用毀傷擬合函數(shù)計(jì)算目標(biāo)毀傷程度:設(shè)msi為對第i個(gè)目標(biāo)造成的毀傷程度,規(guī)定毀傷能力為mgi,第j個(gè)部隊(duì)彈種的火力打擊能力為bhj,毀傷調(diào)節(jié)參數(shù)分別為λ1和λ2。毀傷擬合函數(shù)為
msi·mgi=λ1-λ1·e-λ2·bhj
(3)
設(shè)目標(biāo)屬性表中,第i個(gè)目標(biāo)的重要程度為mzi、威脅程度為mwi、防護(hù)能力為mli、機(jī)動(dòng)能力為mdi,規(guī)定毀傷能力為mgi,對應(yīng)計(jì)算公式為
mgi=mzi+mwi+|mli|+mdi
(4)
設(shè)目標(biāo)屬性表中,第i個(gè)目標(biāo)的打擊彈種名稱對應(yīng)的部隊(duì)彈種編號(hào)為mji,對應(yīng)部隊(duì)彈種的火力打擊能力為bhmji,1次打擊毀傷百分比為mhi,則調(diào)節(jié)參數(shù)λ1和λ2計(jì)算公式為:
λ1=mgi
(5)
(6)
步驟5重復(fù)步驟1~4,直至所有任務(wù)規(guī)劃均執(zhí)行完畢,結(jié)束循環(huán)。對于無法執(zhí)行的任務(wù)規(guī)劃,原因在于在擬制任務(wù)規(guī)劃時(shí)未考慮目標(biāo)是否已殲滅和部隊(duì)剩余彈藥量,剔除無法執(zhí)行任務(wù)規(guī)劃,并輸出結(jié)束火力打擊時(shí)敵我所有目標(biāo)的毀傷程度。
獲取對抗推演算法中敵我雙方目標(biāo)的毀傷程度后,利用信息流循環(huán)效率計(jì)算獲取敵我雙方超網(wǎng)絡(luò)的體系價(jià)值。信息流循環(huán)效率考慮將敵我雙方目標(biāo)構(gòu)建為相互關(guān)聯(lián)依存的超網(wǎng)絡(luò),根據(jù)火力打擊信息流的關(guān)聯(lián)作用,網(wǎng)絡(luò)區(qū)分為指揮控制子網(wǎng)、偵察情報(bào)子網(wǎng)、火力打擊子網(wǎng)、信息傳輸子網(wǎng)和后裝保障子網(wǎng),分別以D、O、A、T、S表示,火力打擊信息在5類子網(wǎng)中傳輸并最終產(chǎn)生火力打擊行動(dòng),子網(wǎng)的信息流傳遞效率決定了火力打擊行動(dòng)的可持續(xù)性,只有最大限度降低超網(wǎng)絡(luò)的信息流循環(huán)效率才能最終瓦解敵方作戰(zhàn)體系,達(dá)成體系破擊目的。根據(jù)5類子網(wǎng)對信息流的作用原理,將D、O、A子網(wǎng)設(shè)為內(nèi)網(wǎng),將T、S子網(wǎng)設(shè)為外網(wǎng)。信息流循環(huán)效率計(jì)算流程如下。
步驟1計(jì)算超網(wǎng)絡(luò)中所有未殲滅目標(biāo)的網(wǎng)絡(luò)聚類數(shù)。設(shè)第i個(gè)未殲滅目標(biāo)當(dāng)前毀傷程度為hi(hi<殲滅閾值),鄰接邊數(shù)為ui,該目標(biāo)的目標(biāo)屬性評分為fi,則該目標(biāo)的聚類數(shù)Wi計(jì)算公式為
Wi=hi·ui·fi
(7)
步驟2計(jì)算各子網(wǎng)的網(wǎng)絡(luò)聚類數(shù)。以指揮控制子網(wǎng)為例,設(shè)子網(wǎng)內(nèi)未殲滅目標(biāo)總數(shù)為nD,則指揮控制子網(wǎng)的網(wǎng)絡(luò)聚類數(shù)WD計(jì)算公式為
(8)
(9)
(10)
步驟4計(jì)算內(nèi)外網(wǎng)的信息流循環(huán)效率。設(shè)為XODA和XTS,計(jì)算公式為:
XODA=(WO+WD+WA)·(GOD+GDA+GAO)
(11)
XTS=(XT+XS)·(GT+GS)
(12)
步驟5計(jì)算超網(wǎng)絡(luò)的信息流循環(huán)效率。引入內(nèi)網(wǎng)調(diào)節(jié)參數(shù)KODA和外網(wǎng)調(diào)節(jié)參數(shù)KTS,存在對應(yīng)關(guān)系:KODA+KTS=1,則信息流循環(huán)效率X計(jì)算公式為
X=XODA·KODA+XTS·(1-KODA)
(13)
協(xié)同進(jìn)化算法是本文的核心算法,利用多智能體的協(xié)作機(jī)制和競爭機(jī)制共同作用,實(shí)現(xiàn)智能體的優(yōu)勝劣汰,并控制涌現(xiàn)的任務(wù)規(guī)劃結(jié)構(gòu)改變,以應(yīng)對敵方任務(wù)規(guī)劃,實(shí)現(xiàn)對抗推演的勝率提升。協(xié)同進(jìn)化依賴于由多智能體構(gòu)成的敵我雙種群結(jié)構(gòu),雙種群示意如圖3所示。
圖3 雙種群結(jié)構(gòu)示意圖
同一種群內(nèi)的不同部隊(duì)彈種所屬智能體之間存在協(xié)作關(guān)系,相同部隊(duì)彈種智能體之間存在競爭關(guān)系,智能體搭配組合涌現(xiàn)的紅藍(lán)任務(wù)規(guī)劃之間也存在競爭關(guān)系,構(gòu)成了 “協(xié)作+競爭”復(fù)雜關(guān)系模式,任一智能體的變異均會(huì)影響涌現(xiàn)任務(wù)規(guī)劃的內(nèi)部結(jié)構(gòu),同時(shí),又保證影響限制在一定范圍內(nèi),不會(huì)阻礙對抗經(jīng)驗(yàn)積累。協(xié)同進(jìn)化算法流程如下。
步驟1使用智能體轉(zhuǎn)譯算法形成任務(wù)規(guī)劃。利用隨機(jī)算法抽取紅藍(lán)雙種群中各部隊(duì)彈種的任一智能體,輸出包含紅藍(lán)雙方規(guī)劃項(xiàng)并按火力打擊時(shí)刻排序的可執(zhí)行任務(wù)規(guī)劃。
步驟2按照對抗推演算法計(jì)算所有目標(biāo)的毀傷程度。調(diào)用對抗推演算法,為每個(gè)規(guī)劃項(xiàng)計(jì)算部隊(duì)彈種和目標(biāo)之間的毀傷擬合函數(shù),進(jìn)而,計(jì)算出目標(biāo)的累加毀傷程度和部隊(duì)彈種對應(yīng)的彈藥剩余儲(chǔ)備。
步驟3按照體系價(jià)值評估算法計(jì)算紅藍(lán)雙方的網(wǎng)絡(luò)體系價(jià)值。在計(jì)算好所有目標(biāo)毀傷程度基礎(chǔ)上,調(diào)用體系價(jià)值評估算法計(jì)算紅藍(lán)雙方指揮控制子網(wǎng)、偵察情報(bào)子網(wǎng)、火力打擊子網(wǎng)、信息傳輸子網(wǎng)和后裝保障子網(wǎng)的子網(wǎng)聚類數(shù)和關(guān)聯(lián)聚類數(shù),進(jìn)而,計(jì)算出超網(wǎng)絡(luò)當(dāng)前的信息流傳遞效率,以此作為紅藍(lán)雙方超網(wǎng)絡(luò)當(dāng)前的網(wǎng)絡(luò)體系價(jià)值并輸出。
步驟4為所有選中智能體調(diào)節(jié)反饋評分。反饋評分是由紅藍(lán)雙方對抗推演產(chǎn)生的最終網(wǎng)絡(luò)體系價(jià)值計(jì)算而成,設(shè)紅藍(lán)雙方的體系價(jià)值為pH和pL,則反饋評分Δf為
(14)
紅藍(lán)對抗的勝利判定條件:pH>pL,則判定紅方勝;pH fH′=fH+Δf (15) fL′=fL-Δf (16) 步驟5執(zhí)行淘汰和繁殖操作。更新敵我雙種群內(nèi)參與任務(wù)規(guī)劃的智能體綜合評分后,選取同一部隊(duì)彈種的智能體執(zhí)行變異:隨機(jī)對調(diào)智能體打擊目標(biāo)排序表中兩個(gè)目標(biāo)序號(hào)的位置,并置新智能體的壽命和綜合評分為0。用變異產(chǎn)生的新智能體替換同一部隊(duì)彈種內(nèi)的最低分智能體。 步驟6重復(fù)執(zhí)行步驟1~5,直至達(dá)成退出條件:迭代次數(shù)達(dá)到退出限制,本文中設(shè)迭代100 000次。輸出敵我雙種群對應(yīng)的所有部隊(duì)彈種最高分的智能體。 本文在系統(tǒng)設(shè)計(jì)基礎(chǔ)上,利用MFC編譯平臺(tái)實(shí)現(xiàn)了原生系統(tǒng),可用于任務(wù)規(guī)劃的智能優(yōu)化和人機(jī)對抗,為了檢驗(yàn)算法的智力水平提升情況,設(shè)計(jì)相關(guān)實(shí)驗(yàn)內(nèi)容,其中,以100個(gè)藍(lán)方種群作為測試樣本,迭代次數(shù)設(shè)為100 000次。 冗余項(xiàng)存在于各智能體的目標(biāo)排序表中,為了保證各部隊(duì)彈種預(yù)留部分彈藥以做關(guān)鍵使用,設(shè)計(jì)-1作為冗余項(xiàng),如對抗推演時(shí)執(zhí)行到冗余項(xiàng),則命令部隊(duì)待命3分鐘。對于冗余項(xiàng)的數(shù)量須在實(shí)驗(yàn)中加以論證,分別設(shè)計(jì)冗余項(xiàng)數(shù)量為10、20,以觀察各自迭代情況,對比結(jié)果如圖4所示。 通過分析可知,冗余項(xiàng)為10的紅藍(lán)對抗在初始短暫呈糾纏狀態(tài)后,藍(lán)方智能體明顯對紅方形成壓制,而在27 000代后紅方積累對抗經(jīng)驗(yàn)實(shí)現(xiàn)翻盤,在此后多代迭代中紅藍(lán)雙方呈現(xiàn)糾纏膠著對抗?fàn)顟B(tài),通過與測試樣本的對抗分析可知,冗余項(xiàng)為10的智能體初期具備較強(qiáng)對抗優(yōu)勢(勝率接近100%),但在藍(lán)方壓制紅方后智能體的勝率呈現(xiàn)不穩(wěn)定狀態(tài),雖然隨后企穩(wěn),但此前積累的對抗經(jīng)驗(yàn)已經(jīng)丟失,導(dǎo)致后期勝率最高只達(dá)到94%;冗余項(xiàng)為20則呈現(xiàn)更多的藍(lán)方壓制狀態(tài),從11 000代至71 100代中藍(lán)方持續(xù)壓制紅方,雖然在46 200 代時(shí)紅方一度實(shí)現(xiàn)翻盤,但立刻被藍(lán)方反壓制,長期的藍(lán)方壓制導(dǎo)致在與測試樣本的勝率計(jì)算中紅方最優(yōu)智能體表現(xiàn)極不穩(wěn)定,直至73 000代后才通過積累對抗經(jīng)驗(yàn)實(shí)現(xiàn)勝率99%;相比較而言,冗余項(xiàng)為5的智能體則在9 000代后即保持了對測試樣本的絕對優(yōu)勢,勝率由93%穩(wěn)步增長到99%,證明在經(jīng)驗(yàn)積累上使用冗余項(xiàng)5效果最佳。 在智能體轉(zhuǎn)譯為任務(wù)規(guī)劃的過程中,有必要保留一部分備選的規(guī)劃項(xiàng)以防出現(xiàn)部隊(duì)彈種無法打擊規(guī)定目標(biāo)的情況,對于規(guī)劃項(xiàng)的留存數(shù)量未明確規(guī)定。實(shí)驗(yàn)選取留存規(guī)劃項(xiàng)數(shù)量為5、10、20作為備選條件,對比結(jié)果如圖5所示。 通過分析可知,備選規(guī)劃的增多直接導(dǎo)致計(jì)算資源占用增大,使計(jì)算效率降低,在用時(shí)上備選規(guī)劃項(xiàng)20的100 000代迭代時(shí)間消耗是備選規(guī)劃項(xiàng)5的4倍;在紅藍(lán)對抗表現(xiàn)上,備選規(guī)劃項(xiàng)為5的智能體明顯不如備選規(guī)劃項(xiàng)為20的智能體,在29 000代之后藍(lán)方對紅方實(shí)現(xiàn)了壓制,導(dǎo)致紅方智能體反復(fù)變異積累對抗經(jīng)驗(yàn)并試圖反超,在與測試樣本的勝率計(jì)算中也在30 000代之后產(chǎn)生異常波動(dòng);相比較而言,備選規(guī)劃項(xiàng)為20的 圖4 冗余項(xiàng)對比結(jié)果 圖5 備選規(guī)劃項(xiàng)對比結(jié)果 智能體則在7 000代之后實(shí)現(xiàn)了紅藍(lán)糾纏狀態(tài),在測試樣本的勝率計(jì)算上,比備選規(guī)劃10的智能體有微弱優(yōu)勢,經(jīng)過迭代后的勝率達(dá)到99%,但由于備選規(guī)劃20的計(jì)算時(shí)間消耗是備選規(guī)劃10的2倍,綜合考量采用備選規(guī)劃項(xiàng)10作為智能體結(jié)構(gòu)參數(shù)。 在目標(biāo)體系價(jià)值評估中,判定目標(biāo)是否殲滅,使用了目標(biāo)的殲滅閾值,毀傷程度超過閾值,則判斷該目標(biāo)已被殲滅,殲滅閾值的確定通常和上級(jí)指揮員相關(guān),考慮其直接影響后續(xù)目標(biāo)網(wǎng)絡(luò)體系價(jià)值計(jì)算,有必要做實(shí)驗(yàn)確定最佳殲滅閾值,分別選取60%、70%、80%作為實(shí)驗(yàn)參數(shù),對比結(jié)果如圖6所示。 圖6 殲滅閾值對比結(jié)果 通過分析可知,殲滅閾值60%的體系價(jià)值評分算法由于大部分目標(biāo)被判定為殲滅,導(dǎo)致體系價(jià)值評分下降過快,進(jìn)而,導(dǎo)致紅方智能體對抗經(jīng)驗(yàn)積累不足,在13 000代至87 000代中被藍(lán)方大幅壓制,在與測試樣本的對抗中呈現(xiàn)異常波動(dòng),直至87 000后才恢復(fù)勝率;殲滅閾值80%的體系價(jià)值評分算法相對穩(wěn)定,由于大部分目標(biāo)均未達(dá)到殲滅毀傷,因此,體系價(jià)值評分變化幅度較小,紅藍(lán)對抗優(yōu)勢呈現(xiàn)周期性波動(dòng),周期約為25 000 代即實(shí)現(xiàn)紅藍(lán)勝負(fù)翻盤且差異度相對較小,在勝率計(jì)算中,殲滅閾值80%對應(yīng)智能體直接實(shí)現(xiàn)了勝率100%,沒有收斂過程,原因在于體系價(jià)值評分差異度過小導(dǎo)致計(jì)算直達(dá)目標(biāo),智能體過于簡單而失去了進(jìn)化意義;綜上考慮,選取殲滅閾值為70%,同時(shí),該閾值也符合指揮員的實(shí)戰(zhàn)決策意圖。 體系價(jià)值評估中的內(nèi)外網(wǎng)調(diào)節(jié)參數(shù)同樣對勝負(fù)評分產(chǎn)生重要影響,分別選取內(nèi)網(wǎng)調(diào)節(jié)參數(shù)為0.3、0.55、0.7作為對比對象,由于外網(wǎng)調(diào)節(jié)參數(shù)與內(nèi)網(wǎng)調(diào)節(jié)參數(shù)處于互補(bǔ)關(guān)系,因此,設(shè)置外網(wǎng)調(diào)節(jié)參數(shù)分別對應(yīng)為0.7、0.45、0.3,以保證調(diào)節(jié)參數(shù)總量為1。對比結(jié)果如圖7所示。 圖7 內(nèi)網(wǎng)調(diào)節(jié)參數(shù)對比結(jié)果 通過分析可知,內(nèi)網(wǎng)調(diào)節(jié)參數(shù)0.3的體系價(jià)值評分算法中,紅藍(lán)雙方對抗在81 000代之前呈現(xiàn)總體糾纏狀態(tài),原因在于任務(wù)規(guī)劃能夠優(yōu)先打擊易摧毀目標(biāo),致使智能體進(jìn)化方向受易摧毀目標(biāo)干擾,導(dǎo)致后期的進(jìn)化受限,經(jīng)驗(yàn)積累不足,通過與測試樣本的分析可知,在81 000代后的紅方智能體勝利次數(shù)陡降;內(nèi)網(wǎng)調(diào)節(jié)參數(shù)0.7的體系價(jià)值評分算法表現(xiàn)更差,藍(lán)方智能體在21 000代之后呈現(xiàn)壓倒性優(yōu)勢,且優(yōu)勢一直未被翻轉(zhuǎn),在勝利次數(shù)統(tǒng)計(jì)中,21 000代后的紅方智能體勝率波動(dòng),難以維持收斂狀態(tài);相比較而言,內(nèi)網(wǎng)調(diào)節(jié)參數(shù)0.55的勝利次數(shù)總體穩(wěn)定。 在上述實(shí)驗(yàn)基礎(chǔ)上,選擇冗余項(xiàng)為5、備選規(guī)劃項(xiàng)為10、殲滅閾值為70%、內(nèi)網(wǎng)調(diào)節(jié)參數(shù)為0.55的參數(shù)設(shè)置輸入?yún)f(xié)同進(jìn)化算法,并以同類論文中的對抗進(jìn)化算法作為對比分析對象,設(shè)置進(jìn)化迭代次數(shù)為100 000次,每隔1 000次抽取樣本數(shù)據(jù)對照分析,對比結(jié)果如圖8所示。 通過分析可知,對抗進(jìn)化算法和協(xié)同進(jìn)化算法均能實(shí)現(xiàn)紅藍(lán)對抗的糾纏狀態(tài),紅藍(lán)互有勝負(fù),并在對抗中積累經(jīng)驗(yàn)且改造智能體結(jié)構(gòu),但在與測試樣本的對抗勝利次數(shù)統(tǒng)計(jì)中,對抗進(jìn)化算法的表現(xiàn)很不穩(wěn)定,未能如協(xié)同進(jìn)化算法呈現(xiàn)收斂態(tài)勢,勝率在1%~94%之間波動(dòng),原因在于對抗進(jìn)化算法由于只考慮了智能體之間的競爭機(jī)制而忽略了協(xié)作機(jī)制,導(dǎo)致需要更多代的進(jìn)化以積累對抗經(jīng)驗(yàn),極大地降低了算法的工作效率。最終輸出優(yōu)化任務(wù)規(guī)劃結(jié)果如表1所示。 本文從聯(lián)合火力打擊智能優(yōu)化系統(tǒng)的系統(tǒng)架構(gòu)分析出發(fā),詳細(xì)闡述了涉及聯(lián)合火力打擊智能優(yōu)化的關(guān)鍵技術(shù):戰(zhàn)法策略轉(zhuǎn)譯算法、對抗推演算法、體系價(jià)值評估算法和多智能體協(xié)同進(jìn)化算法,并重點(diǎn)介紹了協(xié)同進(jìn)化算法的設(shè)計(jì)原理、“協(xié)同+競爭”機(jī)制構(gòu)成、智能體內(nèi)部構(gòu)造以及變異和優(yōu)勝劣汰方法,通過系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)內(nèi)容,分別檢驗(yàn)了冗余項(xiàng)、備選任務(wù)規(guī)劃項(xiàng)、殲滅閾值和內(nèi)外網(wǎng)調(diào)節(jié)參數(shù)等系統(tǒng)內(nèi)部參數(shù)的優(yōu)化情況,分析了協(xié)同進(jìn)化算法作為智能算法的優(yōu)勢,最后,通過與其他算法的對比分析證明本系統(tǒng)的有效性和應(yīng)用性。 圖8 協(xié)同進(jìn)化算法最終優(yōu)化結(jié)果 表1 最優(yōu)化任務(wù)規(guī)劃3 系統(tǒng)驗(yàn)證
3.1 冗余項(xiàng)實(shí)驗(yàn)
3.2 備選規(guī)劃項(xiàng)實(shí)驗(yàn)
3.3 殲滅閾值實(shí)驗(yàn)
3.4 內(nèi)外網(wǎng)調(diào)節(jié)參數(shù)實(shí)驗(yàn)
3.5 優(yōu)化結(jié)果輸出實(shí)驗(yàn)
4 結(jié)束語