邢 巖,劉 昊,李保碩
(1.沈陽航空航天大學(xué) 電子信息工程學(xué)院, 沈陽 110000;2.國防大學(xué) 聯(lián)合作戰(zhàn)學(xué)院, 石家莊 050000; 3. 31696部隊參謀部, 遼寧 錦州 121000)
在未來智能化條件下的諸軍兵種火力突防作戰(zhàn),呈現(xiàn)出智能化、精確化、多彈種、實時動態(tài)可控的新型作戰(zhàn)特點,如何將聯(lián)合作戰(zhàn)指揮員的戰(zhàn)法策略實時高效地轉(zhuǎn)化為計算機能接收、理解并高效執(zhí)行的指令數(shù)據(jù)流,并通過計算機的大規(guī)模運算生成符合指揮員決策意圖的智能優(yōu)化結(jié)果,是智能化算法研究的核心和難點問題。隨著人工智能逐步融合軍隊裝備建設(shè)實際,戰(zhàn)法策略的人機結(jié)合以及聯(lián)合火力打擊任務(wù)規(guī)劃的智能優(yōu)化成為可能,國內(nèi)外專家聚焦于在現(xiàn)有博弈對抗算法基礎(chǔ)上實現(xiàn)對戰(zhàn)法策略的智能優(yōu)化和輔助控制,以期提升火力打擊效率和勝率。
在國內(nèi)外的人工智能領(lǐng)域相關(guān)研究中,文獻[1-5]利用多智能體序列的交叉變異實現(xiàn)戰(zhàn)術(shù)級兵棋對抗推演的智能決策,實現(xiàn)了智能體搭配組合下的決策優(yōu)化;文獻[6-10]則聚焦桌面棋類游戲的對抗博弈研究,利用基于決策樹算法的改進博弈樹實現(xiàn)了智能體棋力對抗提升;文獻[11-15]聚焦五子棋算法等博弈棋類算法研究,利用剪枝算法和窗口搜索實現(xiàn)了智能系統(tǒng)棋藝提升;文獻[16-20]針對棋類博弈計算的復(fù)雜性劇增特點,通過神經(jīng)元網(wǎng)絡(luò)訓(xùn)練智能體內(nèi)部結(jié)構(gòu),并使用威脅空間搜索實現(xiàn)算法的迭代加深,取得了較好的博弈效果。通過對同類研究分析,相關(guān)算法多聚焦于智能優(yōu)化算法研究,通過神經(jīng)網(wǎng)絡(luò)或強化學(xué)習(xí)方法達成系統(tǒng)結(jié)構(gòu)對解決方案的適應(yīng)性調(diào)整,而較少涉及智能體的結(jié)構(gòu)以及多智能體之間協(xié)作性研究[21-25]。本文中從聯(lián)合火力打擊戰(zhàn)法策略研究切入,利用指揮員的主觀決策拆解為聯(lián)合火力打擊的實時任務(wù)規(guī)劃,進而轉(zhuǎn)譯為計算機可調(diào)用并優(yōu)化的智能體結(jié)構(gòu),并通過眾多目的不同、性能表現(xiàn)各異的智能體之間的搭配組合實現(xiàn)群體行為的控制,進而使用反饋調(diào)節(jié)智能體構(gòu)造,以求建立能夠?qū)W習(xí)優(yōu)化的種群進化模型,為聯(lián)合火力打擊的智能優(yōu)化提供算法平臺支撐。
聯(lián)合火力打擊是諸軍兵種聯(lián)合作戰(zhàn)的重要打擊樣式,也是決戰(zhàn)決勝火力突防作戰(zhàn)中的主要作戰(zhàn)行動,由于聯(lián)合火力打擊中較少涉及諸軍兵種部隊的兵力機動轉(zhuǎn)移,而將主要作戰(zhàn)行動集中于頻繁的火力機動調(diào)度,因此相較于常規(guī)兵棋推演系統(tǒng)在一定程度上簡化了智能優(yōu)化和動態(tài)火力分配的計算難度,為智能算法的應(yīng)用提供了量化計算平臺。在聯(lián)合火力打擊中,通常依據(jù)指揮員定下作戰(zhàn)決心、細化戰(zhàn)法策略、諸軍兵種擬制任務(wù)規(guī)劃、執(zhí)行火力打擊行動的流程執(zhí)行,本文中主要關(guān)注指揮員戰(zhàn)法策略、火力打擊任務(wù)規(guī)劃和智能體構(gòu)造3個環(huán)節(jié)之間的作用關(guān)系。
聯(lián)合火力打擊戰(zhàn)法策略是指揮員依據(jù)上級定下的作戰(zhàn)決心,結(jié)合諸軍兵種火力打擊部隊的作戰(zhàn)特點,以及敵方的防御重點定下的有傾向性的火力打擊行動準(zhǔn)則。根據(jù)指揮員的主觀經(jīng)驗,戰(zhàn)法策略可以是具有指向性的重點打擊目標(biāo)類別策略,也可以是針對某種特定目標(biāo)的硬性指標(biāo)策略,戰(zhàn)法策略中包含決策傾向的目的性要求、部隊彈種的限制性要求、目標(biāo)毀傷程度的技術(shù)性要求,表1為聯(lián)合火力打擊戰(zhàn)法策略示例。
表1 聯(lián)合火力打擊戰(zhàn)法策略
表1中的No.2戰(zhàn)法策略中,指揮員的目的性要求為體系破擊,因此對高體系價值目標(biāo)的毀傷程度通常定為殲滅毀傷60%以上(判定敵方目標(biāo)在達成60%以上毀傷即可視為殲滅),同時對參戰(zhàn)火力打擊部隊彈種的使用亦有相應(yīng)約束,如對DF21D導(dǎo)彈部隊的使用應(yīng)做以限制,以保持對敵航母威脅等。
在指揮員主觀戰(zhàn)法策略基礎(chǔ)上,參謀機構(gòu)應(yīng)以此為準(zhǔn)則要求,細化擬制諸軍兵種火力打擊部隊的聯(lián)合火力打擊任務(wù)規(guī)劃,任務(wù)規(guī)劃中明確參與打擊部隊彈種的編號名稱、火力打擊發(fā)起時刻、打擊目標(biāo)的編號性質(zhì)及坐標(biāo)位置。聯(lián)合火力打擊任務(wù)規(guī)劃與戰(zhàn)法策略之間是多對一的對應(yīng)關(guān)系,即在同一戰(zhàn)法策略的指導(dǎo)下,不同的參謀人員可依據(jù)自身特點擬制多種多樣的任務(wù)規(guī)劃,并能保證符合戰(zhàn)法策略的硬約束條件,而各任務(wù)規(guī)劃之間的執(zhí)行差異度和最終執(zhí)行效果是衡量參謀人員綜合素養(yǎng)的關(guān)鍵指標(biāo),一般只有經(jīng)過實戰(zhàn)或兵棋推演實現(xiàn)量化評估。
聯(lián)合火力打擊的智能體結(jié)構(gòu)可視作是聯(lián)合火力打擊任務(wù)規(guī)劃的計算機轉(zhuǎn)譯矩陣,目標(biāo)是為智能優(yōu)化的概率性變異操作提供合適的執(zhí)行單元,就如同基因代碼,能夠隨著不斷自我復(fù)制產(chǎn)生微小變異,以進化出適應(yīng)性后代。智能體構(gòu)造可以依托聯(lián)合火力打擊任務(wù)規(guī)劃,但必須滿足如下條件:一是智能體能夠包含所有的戰(zhàn)法策略表述;二是智能體結(jié)構(gòu)應(yīng)是矩陣行列表達式;三是智能體結(jié)構(gòu)能夠變異和轉(zhuǎn)譯,轉(zhuǎn)譯即能夠一對一的與聯(lián)合火力打擊任務(wù)規(guī)劃建立對應(yīng)關(guān)系。通過約束條件可知,智能體有且僅能轉(zhuǎn)譯為一個聯(lián)合火力打擊任務(wù)規(guī)劃,而考慮到智能體的系統(tǒng)變異復(fù)雜性,有必要為智能體保留一定的冗余變異空間,因此聯(lián)合火力打擊任務(wù)規(guī)劃能夠轉(zhuǎn)譯為多個智能體,聯(lián)合火力打擊戰(zhàn)法策略、任務(wù)規(guī)劃、智能體之間的對應(yīng)關(guān)系如圖1所示。
圖1 戰(zhàn)法策略、任務(wù)規(guī)劃、智能體對應(yīng)關(guān)系框圖Fig.1 Tactics,mission planning,agent corresponding relationship
聯(lián)合火力打擊任務(wù)規(guī)劃擬制流程:
1) 確定限制條件。包括客觀限制條件如地形、天候、射程、空域、彈種目標(biāo)匹配、毀傷程度等;以及主觀限制條件如指揮員主觀命令部隊彈種待命導(dǎo)致的火力打擊策略改變等,以此建立部隊彈種與特定目標(biāo)的匹配限制表。
2) 選擇部隊彈種。通過遍歷所有任務(wù)部隊,確定當(dāng)前處于空閑待命狀態(tài)的任務(wù)部隊,同時根據(jù)彈藥剩余儲備選擇執(zhí)行火力打擊任務(wù)的彈種。
3) 選擇打擊目標(biāo)。通過遍歷所有打擊目標(biāo),確定當(dāng)前優(yōu)先打擊的目標(biāo)編號,同時根據(jù)匹配限制表查詢是否符合火力打擊條件。
4)建立火力打擊指令。在指令中輸入部隊彈種編號、目標(biāo)編號,并根據(jù)當(dāng)前任務(wù)條件確定火力打擊發(fā)起時刻,在系統(tǒng)中錄入火力打擊指令。
5) 重復(fù)步驟2)~步驟4),直至達成退出條件:參戰(zhàn)部隊均無法執(zhí)行火力打擊任務(wù),或者所有目標(biāo)均已達成規(guī)定毀傷指標(biāo)。
6) 輸出任務(wù)規(guī)劃。將上述步驟中錄入的所有指令輸出為聯(lián)合火力打擊任務(wù)規(guī)劃,必要時利用計算機仿真計算任務(wù)規(guī)劃的預(yù)期執(zhí)行效果評分。
智能體構(gòu)造過程本質(zhì)上是再現(xiàn)聯(lián)合火力打擊任務(wù)規(guī)劃的擬制過程,因此可將智能體構(gòu)造過程劃分為部隊彈種選擇、打擊目標(biāo)選擇、冗余數(shù)據(jù)設(shè)計3部分。
考慮智能體必須在變異過程中貼合聯(lián)合火力打擊任務(wù)規(guī)劃,因而有必要引入部隊彈種的排序表結(jié)構(gòu)代替任務(wù)規(guī)劃擬制中的選擇部隊彈種步驟,排序表優(yōu)點在于具備動態(tài)適應(yīng)性,不會因為智能體變異而產(chǎn)生無法合法表述為任務(wù)規(guī)劃的情況。并引入轉(zhuǎn)譯的規(guī)則約束:如當(dāng)前選中的部隊彈種無法執(zhí)行火力打擊任務(wù),則按照排序表依次選中后序部隊彈種。在排序表結(jié)構(gòu)中,變異操作借鑒了旅行商NP問題中的遍歷節(jié)點算法,只需對調(diào)其中兩個節(jié)點即可完成變異操作。智能體在優(yōu)化選擇過程中,必然需要保留一定的冗余度,以防止算法陷入局部最優(yōu)而失效,因此設(shè)計冗余結(jié)構(gòu):在每個部隊彈種的打擊排序表中引入一定的-1編號,當(dāng)部隊彈種觸發(fā)該位置,則執(zhí)行待命操作,以保證隨時保留一定的彈藥余量打擊重點目標(biāo)。
智能體結(jié)構(gòu)包括:1) 部隊彈種序號,2) 壽命,3) 綜合評分,4) 目標(biāo)排序表。
智能體示例:D131115旅發(fā)射1營,壽命為24,綜合評分為2 152.38,目標(biāo)排序為30、29、13-1、8、16、2、4。
每個智能體代表唯一對應(yīng)的部隊彈種,則多個智能體的搭配組合即可轉(zhuǎn)譯為聯(lián)合火力打擊任務(wù)規(guī)劃,因此建立由多個智能體組成的種群結(jié)構(gòu):種群中包含對應(yīng)不同部隊彈種的多個智能體,種群內(nèi)智能體通過反饋評分調(diào)節(jié)達成內(nèi)部目標(biāo)排序表的適應(yīng)性進化。為了計算反饋評分,引入敵我雙種群模式,敵我雙方的智能體隨機搭配組合,形成多種多樣的任務(wù)規(guī)劃,并通過敵我雙方的任務(wù)規(guī)劃實現(xiàn)聯(lián)合火力打擊的兵棋對抗推演,利用對抗結(jié)果反饋到智能體綜合評分,進而實現(xiàn)智能體的優(yōu)勝劣汰。由于不同部隊彈種的智能體之間的搭配組合隨機實現(xiàn),鑒于種群規(guī)模龐大,因而能夠產(chǎn)生智能體搭配組合中的涌現(xiàn)效應(yīng),即產(chǎn)生復(fù)雜系統(tǒng)中的群體進化現(xiàn)象,利用種群中智能體搭配組合的復(fù)雜性對抗多種多樣的敵方任務(wù)規(guī)劃類型,并通過多代進化實現(xiàn)智能體智力水平的提升。敵我雙種群示意如圖2所示。
智能體攜帶了某個部隊彈種的特定打擊目標(biāo)排序表,隸屬于同一部隊彈種的智能體之間可視為同一物種,存在競爭關(guān)系,即智能體間依靠激勵函數(shù)的反饋評分確定淘汰和繁殖對象,并在多代進化后實現(xiàn)算法對敵我對抗推演過程的深度學(xué)習(xí);隸屬于不同部隊彈種的智能體之間如同不同物種,存在協(xié)作關(guān)系,即多個隸屬于不同部隊彈種的智能體搭配組合實現(xiàn)唯一對應(yīng)的聯(lián)合火力打擊任務(wù)規(guī)劃,搭配組合方式的復(fù)雜性決定了任務(wù)規(guī)劃具備復(fù)雜多樣性,智能體結(jié)構(gòu)的改變使群體涌現(xiàn)產(chǎn)生的任務(wù)規(guī)劃發(fā)生群體性的改變,達成以復(fù)雜對抗復(fù)雜的效果;算法流程為:
步驟1建立紅藍雙種群。種群內(nèi)為每個部隊彈種分配4個初始化智能體,通過隨機分配打擊目標(biāo)排序?qū)崿F(xiàn)智能體的初始化,每個智能體的初始評分設(shè)置為0。
步驟2建立任務(wù)規(guī)劃。隨機抽取同一部隊彈種中的智能體,按照部隊彈種順序從每個選中智能體對應(yīng)的目標(biāo)排序表中抽取擬打擊目標(biāo)編號,如選中冗余項-1則命令該部隊待命3 min,根據(jù)部隊打擊能力表計算該部隊的執(zhí)行規(guī)劃時刻、火力打擊時刻以及彈藥消耗量,為了防止規(guī)劃執(zhí)行中有目標(biāo)已被消滅導(dǎo)致的彈藥剩余情況,應(yīng)根據(jù)目標(biāo)排序表多分配一定的任務(wù)規(guī)劃項。在生成所有部隊彈種對應(yīng)的任務(wù)規(guī)劃項后,應(yīng)對所有任務(wù)規(guī)劃項按照火力打擊時刻由小至大排序以貼合任務(wù)規(guī)劃的對抗推演操作。
步驟3計算紅藍對抗結(jié)果。利用兵棋推演平臺實現(xiàn)紅藍任務(wù)規(guī)劃的對抗推演,嚴格依據(jù)任務(wù)規(guī)劃實現(xiàn)聯(lián)合火力打擊并統(tǒng)計最終紅藍雙方的兵力損失和彈藥消耗,以此計算紅藍雙方的輸贏結(jié)果以及各自評分。設(shè)紅方的最終體系價值評分為pH,藍方最終體系價值評分為pL,則反饋評分Δf的計算公式為
(1)
步驟4更新參與搭配組合的智能體分值。對于勝利方的智能體獎勵反饋評分;對于失敗方的智能體扣除反饋評分;以此更新各智能體的分值并記錄壽命+1,并執(zhí)行淘汰繁殖操作:所有壽命上限達到1 000的智能體執(zhí)行變異操作,即替換目標(biāo)排序表中隨機兩個目標(biāo)序號的位置,并置壽命和綜合評分為0;對同部隊彈種的最高分智能體執(zhí)行變異操作,并用新生智能體替換同部隊彈種中的最低分智能體。
步驟5重復(fù)步驟2~步驟4,直至達成退出條件:進化代數(shù)達到上限。輸出紅藍雙方最高分智能體對應(yīng)的任務(wù)規(guī)劃。
敵我種群產(chǎn)生的任務(wù)規(guī)劃實現(xiàn)對抗推演的方法流程較為復(fù)雜,主要包括:按照火力打擊時刻混合排列敵我雙方的任務(wù)規(guī)劃;計算各任務(wù)規(guī)劃項中對打擊目標(biāo)的毀傷程度,并更新參與打擊部隊的彈藥儲備量;如是航空部隊打擊,單獨計算敵方防空反擊造成的部隊毀傷程度,并更新敵方防空部隊的彈藥儲備量;判斷所有任務(wù)規(guī)劃是否執(zhí)行完畢,如任務(wù)規(guī)劃項因彈藥耗盡或目標(biāo)達成毀傷上限無法執(zhí)行則跳過;根據(jù)敵我雙方終止?fàn)顟B(tài)時的各目標(biāo)毀傷程度和部隊關(guān)聯(lián)關(guān)系計算敵我雙方的網(wǎng)絡(luò)體系價值[26-31]。
實驗?zāi)康脑谟跈z驗智能體結(jié)構(gòu)能否完全覆蓋指揮員主觀戰(zhàn)法策略和參謀機構(gòu)擬制的聯(lián)合火力打擊任務(wù)規(guī)劃,進而在此前提下檢驗任務(wù)規(guī)劃實現(xiàn)了智力提升。基于此,首先引入不同的智能體結(jié)構(gòu)并分析其轉(zhuǎn)譯為任務(wù)規(guī)劃的對比情況;而后對變異可能導(dǎo)致的任務(wù)規(guī)劃變化情況進行量化分析,以檢驗智能體的變異穩(wěn)定性;最后通過橫向?qū)Ρ榷喾N智能優(yōu)化算法,檢驗多智能體協(xié)同進化方法的有效性。
考慮聯(lián)合火力打擊任務(wù)規(guī)劃的作用范圍和變化幅度寬廣,而智能體結(jié)構(gòu)變異如不能有效覆蓋任務(wù)規(guī)劃則會造成全局尋優(yōu)能力下降甚至失效,因此有必要進行智能體結(jié)構(gòu)變異與任務(wù)規(guī)劃范圍之間的覆蓋率分析。實驗選取任務(wù)規(guī)劃的蒙特卡洛隨機產(chǎn)生不同的后代結(jié)果,而后使用智能體轉(zhuǎn)譯算法將任務(wù)規(guī)劃轉(zhuǎn)化為智能體結(jié)構(gòu),并存儲為 10 000個對照種群作為對照單元;采用協(xié)同進化的方法產(chǎn)生多代智能體,每一代智能體與對照種群做以比對,如匹配對照單元內(nèi)的智能體結(jié)構(gòu)則記錄匹配度+1,進行 1 000代進化而后統(tǒng)計匹配度的變化情況,為了規(guī)避隨機不確定性帶來的覆蓋率影響,進行3組實驗并統(tǒng)計結(jié)果;各代匹配度變化如圖3所示。
圖3 各代匹配度變化情況Fig.3 The change of matching degree in different generations
通過對比分析可知,隨著進化次數(shù)的提升,智能體能夠覆蓋的匹配度逐步提升,進而使對照單元的覆蓋率同步升高,但隨著優(yōu)化結(jié)果的逐步收斂,覆蓋率的提升幅度逐步縮窄,3次實驗的最終覆蓋率均未超過60%,實驗表明協(xié)同進化達成了進化的效果,同時也簡化了搜索范圍,對于初期效果不理想的智能體后代未進行后續(xù)帶入。但從800代后的覆蓋率分析,數(shù)值提升依然持續(xù),只是速度相對降低,證明算法依然在尋找全局最優(yōu)。
智能體的變異操作借鑒了旅行商問題求解中的替換節(jié)點操作,包含2種變異:一是通過同部隊彈種的最高分智能體變異以替換最低分智能體;二是對到達壽命上限的智能體變異以提升智能體多樣性,防止產(chǎn)生局部收斂的超高分智能體。為了檢驗變異效果,分別以變異操作中對調(diào)2次和對調(diào)3次的智能體變異情況作為參照對象,結(jié)果如圖4所示。
圖4 變異效果曲線Fig.4 Comparison and analysis of variation effect
通過對比分析可知,變異操作對新生任務(wù)規(guī)劃能夠產(chǎn)生影響,隨著變異次數(shù)的增多,紅藍對抗的勝率逐步趨向穩(wěn)定,導(dǎo)致對應(yīng)最優(yōu)任務(wù)規(guī)劃的對抗能力難以有效提升;相比較而言,圖4(c)中的對調(diào)1次變異表現(xiàn)最為優(yōu)越,隨著同一智能體中變異次數(shù)的增多,與測試樣本對抗勝率則持續(xù)下降。原因在于頻率過高的變異使高分智能體的對抗經(jīng)驗沒有及時傳遞給種群內(nèi)其他智能體,導(dǎo)致對抗經(jīng)驗的流失,以至于出現(xiàn)圖4(c)中的波動效果。從最佳進化代數(shù)上分析,考慮算法各代智能體均以敵方最優(yōu)智能體為博弈對象,環(huán)境處于動態(tài)變化狀態(tài),因此屬于無限博弈,智能體隨著進化代數(shù)的增加而積累博弈經(jīng)驗,改造自身結(jié)構(gòu),因此最佳進化代數(shù)應(yīng)取決于計算機的性能和紅藍對抗結(jié)果的分叉程度,如圖4(a)中55代之后藍方勝率明顯高于紅方,此刻應(yīng)停止進化并取藍方智能體作為最佳智能體。
為了驗證算法的有效性,選取遺傳算法[32]作為對比算法,利用任務(wù)規(guī)劃的交叉變異操作產(chǎn)生新個體,同時通過紅藍對抗進化實現(xiàn)任務(wù)規(guī)劃的優(yōu)化。2種算法結(jié)果如圖5所示。
圖5 算法效果對比分析Fig.5 Comparison and analysis of algorithm effect
通過對比分析可知,對抗進化算法和本方法在各代紅藍勝率上基本持平,紅藍對抗結(jié)果均為糾纏狀態(tài),但在與測試樣本對抗的勝率統(tǒng)計上,智能對抗進化算法表現(xiàn)明顯不如本方法,勝利次數(shù)呈現(xiàn)波動狀態(tài),難以恒定收斂。原因主要在于:智能對抗進化算法利用了遺傳算法在對抗環(huán)境中實現(xiàn)了敵我對抗進化,雖然在對抗中積累了經(jīng)驗,但由于智能體之間不存在協(xié)作關(guān)系而只保留競爭關(guān)系,導(dǎo)致智能體進化過程中只專注于局部勝率,而忽視了對不同任務(wù)規(guī)劃的兼顧,也不存在多智能體之間產(chǎn)生的涌現(xiàn)效應(yīng),因此效果不如本方法;相比較而言,多智能體協(xié)作進化方法兼顧了智能體之間的競爭和協(xié)作關(guān)系,并通過涌現(xiàn)效應(yīng)實現(xiàn)了任務(wù)規(guī)劃的復(fù)雜演變,因此總體效果高于對比算法。
1) 在遺傳算法和旅行商問題求解算法的基礎(chǔ)上,充分借鑒多智能體協(xié)同進化的生物學(xué)原理,在敵我雙種群中引入多智能體搭配組合,進而實現(xiàn)了以智能體搭配組合復(fù)雜性對抗任務(wù)規(guī)劃復(fù)雜性,并通過多代進化達成了智能體的對抗能力提升。
2) 利用智能體和種群的構(gòu)造和對抗推演中的反饋評分實現(xiàn)了智能體的智力提升,其算法內(nèi)核能夠遷移到諸多研究領(lǐng)域,具備一定的應(yīng)用性和擴展性。
3) 在后續(xù)研究中,將重點研究非對稱博弈狀態(tài)中的敵我智能體進化問題,以實現(xiàn)算法的更廣闊應(yīng)用。