許 霄 李 東 郭圣明 吳 琳 胡曉峰
軍事智能化發(fā)展的一個重要方向,是人工智能技術(shù)在作戰(zhàn)指揮決策中的應(yīng)用.這是一個十分具有挑戰(zhàn)性的問題,因為目標(biāo)環(huán)境是戰(zhàn)爭復(fù)雜系統(tǒng),需要解決的關(guān)鍵技術(shù)是人工智能最前沿問題——決策智能.隨著近年來以深度強(qiáng)化學(xué)習(xí)為代表的智能技術(shù)進(jìn)步,人們自然地將其應(yīng)用場景從圍棋、撲克、即時策略游戲等轉(zhuǎn)向作戰(zhàn)環(huán)境,而兵棋推演模擬了作戰(zhàn)各方的即時對抗,能夠反映戰(zhàn)爭復(fù)雜系統(tǒng)的諸多特點(diǎn),為軍事智能技術(shù)探索提供了絕佳的試驗平臺,受到研究人員的大量關(guān)注.
從當(dāng)前公開的一些兵棋推演智能體研發(fā)實踐來看[1-2],以深度強(qiáng)化學(xué)習(xí)為主的智能技術(shù),已經(jīng)能夠較好地應(yīng)對戰(zhàn)術(shù)作戰(zhàn)場景.但是,當(dāng)延伸到聯(lián)合作戰(zhàn)場景,相關(guān)算法的應(yīng)用便面臨著諸多困難,主要體現(xiàn)在:
從技術(shù)實現(xiàn)角度,聯(lián)合作戰(zhàn)環(huán)境要復(fù)雜得多,導(dǎo)致算法有效性存在明顯的瓶頸.因為智能決策需要解決戰(zhàn)場空間大、參戰(zhàn)兵力多、時間跨度長等規(guī)模問題,以及非即時反饋、優(yōu)化目標(biāo)復(fù)雜等獨(dú)特難點(diǎn)[3].兵棋推演的智能決策技術(shù)多采用知識數(shù)據(jù)混合驅(qū)動的方式[4-5],但即使通過各種方式將先驗信息融入學(xué)習(xí)過程中,也很難在聯(lián)合作戰(zhàn)層次,訓(xùn)練出一個能夠有效管控所有作戰(zhàn)單元的超級智能體.
從軍事應(yīng)用角度,作戰(zhàn)指揮決策問題與游戲智能對抗有著明顯的不同.當(dāng)前很多基于戰(zhàn)術(shù)兵棋的智能體,與游戲博弈類似,主要實現(xiàn)明確場景和規(guī)則下的智能對抗,偏重于底層棋子行動的微操優(yōu)化.而聯(lián)合作戰(zhàn)指揮決策定位于戰(zhàn)役級、高層次,更加體現(xiàn)所謂“謀略”的部分.此時對于智能體的要求,并非單純替代人去打贏,而是促進(jìn)人更好地把握作戰(zhàn)問題,例如在基于兵棋推演的指揮訓(xùn)練、方案評估、戰(zhàn)法研究等活動中輔助和啟發(fā)作戰(zhàn)人員.
面向聯(lián)合作戰(zhàn)兵棋推演的智能決策研究,應(yīng)該以軍事需求為牽引,根據(jù)智能體的作用定位探索關(guān)鍵技術(shù),促進(jìn)應(yīng)用落地.聯(lián)合作戰(zhàn)指揮活動分為戰(zhàn)前籌劃和戰(zhàn)中控制兩階段,本文聚焦戰(zhàn)中控制階段的智能決策建模,體現(xiàn)動態(tài)對抗的過程.作戰(zhàn)控制需要依據(jù)籌劃結(jié)果,對任務(wù)部隊進(jìn)行組織、協(xié)調(diào)、掌握和制約,決策十分復(fù)雜,這對智能技術(shù)的能力提出了諸多需求: 1)復(fù)雜問題空間應(yīng)對能力,一個典型的小規(guī)模聯(lián)合作戰(zhàn)想定也可包含數(shù)百個作戰(zhàn)單元,必須通過一定的抽象,將復(fù)雜問題分域分層處理,以約減問題空間.2)符合人的指揮決策流程,能夠按照指揮員的籌劃設(shè)計實施作戰(zhàn)行動,應(yīng)對戰(zhàn)場中的意外情況,同時支持人對機(jī)器的干預(yù)調(diào)整.3)具備一定的可解釋性,軍事決策的高風(fēng)險使得智能決策的產(chǎn)生不能是黑盒,而是需要為人所理解.4)智能進(jìn)化與知識重用,能夠從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、實現(xiàn)策略優(yōu)化,同時能夠應(yīng)對不同的籌劃輸入以及臨機(jī)決策,達(dá)到一定程度的泛化.
從這些需求出發(fā),針對聯(lián)合作戰(zhàn)兵棋推演,提出一種分層結(jié)構(gòu)的智能決策建??蚣?并對其中的關(guān)鍵技術(shù)和實現(xiàn)途徑進(jìn)行探討,最后分析該框架的特點(diǎn)和潛在應(yīng)用模式.相較同類研究,所提框架的創(chuàng)新在于: 一是基于任務(wù)式指揮的多智能體控制結(jié)構(gòu),由任務(wù)式命令銜接上下層決策,上層智能體考慮任務(wù)的編排調(diào)配,而下層智能體代表各類戰(zhàn)術(shù)作戰(zhàn)任務(wù),控制相關(guān)棋子執(zhí)行行動;二是支持人機(jī)協(xié)同控制的策略生成過程,可通過作戰(zhàn)行動序列將指揮員“謀略”高效落實到兵棋指令,同時行動執(zhí)行過程中機(jī)器策略可為人理解和干預(yù)控制.
軍事斗爭從傳統(tǒng)領(lǐng)域向“陸、海、空、天、網(wǎng)、電”全域拓展,復(fù)雜性不斷提高,聯(lián)合作戰(zhàn)已成為現(xiàn)代戰(zhàn)爭的重要形態(tài),也對作戰(zhàn)指揮能力提出了挑戰(zhàn).任務(wù)式指揮(mission command)是當(dāng)前美軍聯(lián)合作戰(zhàn)指揮控制大力發(fā)展的指揮方式[6],主張各部隊通過分散化執(zhí)行任務(wù)式命令來實施軍事行動.上級只明確任務(wù)和意圖等信息,不規(guī)定完成任務(wù)的具體方法,從而充分發(fā)揮任務(wù)部隊的主觀能動性,在落實上級意圖的前提下進(jìn)行自主決策.任務(wù)式指揮也為兵棋推演智能決策建模提供了概念基礎(chǔ).
根據(jù)聯(lián)合作戰(zhàn)場景下的指揮決策問題特點(diǎn),以任務(wù)式指揮思想為牽引,設(shè)計兵棋決策建??蚣苋鐖D1 所示.框架本身是一個戰(zhàn)役戰(zhàn)術(shù)分層的結(jié)構(gòu),與戰(zhàn)役級兵棋系統(tǒng)進(jìn)行交互,接收作戰(zhàn)態(tài)勢數(shù)據(jù)、下達(dá)兵棋作戰(zhàn)指令,形成智能推演.主要模塊如下:
圖1 聯(lián)合作戰(zhàn)兵棋推演智能決策建??蚣蹻ig.1 Intelligent decision-making architecture for joint operational wargaming
1)作戰(zhàn)行動序列: 作為兵棋智能決策的輸入條件,直接反映戰(zhàn)役長程博弈策略,并驅(qū)動機(jī)器產(chǎn)生更為精細(xì)的棋子行動.
2)聯(lián)合作戰(zhàn)態(tài)勢特征: 對兵棋態(tài)勢數(shù)據(jù)進(jìn)行抽取和加工,形成實體屬性特征、能力分布特征、任務(wù)情況特征等,根據(jù)不同層次的決策需求組合,為降低問題搜索空間、提高智能生成效率提供支撐.
3)戰(zhàn)役層總控智能體: 實現(xiàn)戰(zhàn)役層決策,是整個框架的核心部分,依據(jù)作戰(zhàn)行動序列對作戰(zhàn)執(zhí)行過程進(jìn)行統(tǒng)籌管控,模擬指揮員的感知、判斷、決策和行動(observe-orient-decision-act,OODA)循環(huán)[7],持續(xù)進(jìn)行情況響應(yīng)和調(diào)控處置.
4)戰(zhàn)術(shù)層任務(wù)智能體群: 代表著典型聯(lián)合作戰(zhàn)場景中各軍兵種的戰(zhàn)術(shù)行動,在上層總體調(diào)度控制下,圍繞各自戰(zhàn)術(shù)目標(biāo)分散式優(yōu)化實施作戰(zhàn)行動,協(xié)同實現(xiàn)戰(zhàn)役層次的作戰(zhàn)目的.
框架對戰(zhàn)前籌劃與戰(zhàn)中控制、戰(zhàn)役層決策與戰(zhàn)術(shù)層決策之間銜接方式的設(shè)計,反映了指揮決策問題的建模思路.戰(zhàn)前籌劃與戰(zhàn)中控制的銜接,是通過作戰(zhàn)行動序列,代表了概略的作戰(zhàn)計劃,體現(xiàn)籌劃結(jié)果的各種要素信息,同時引導(dǎo)和約束戰(zhàn)中的指揮對抗;戰(zhàn)役層決策與戰(zhàn)術(shù)層決策的銜接,是通過作戰(zhàn)行動序列中的“任務(wù)”元素,代表了任務(wù)式命令接口,定義了戰(zhàn)役層進(jìn)行任務(wù)式指揮的決策空間,同時也為戰(zhàn)術(shù)層決策問題提供統(tǒng)一的形式化表示.
戰(zhàn)役層總控智能體的實現(xiàn)是本文框架最具挑戰(zhàn)性的部分.戰(zhàn)術(shù)層決策問題定義明確、求解空間較小,一般經(jīng)典運(yùn)籌優(yōu)化技術(shù)便足夠適用.戰(zhàn)役層決策的問題復(fù)雜度更高,運(yùn)用相關(guān)智能方法求解,需要對戰(zhàn)役層總控智能體的輸入輸出進(jìn)行形式化定義、根據(jù)軍事特點(diǎn)對策略生成過程進(jìn)行合理建模、從模型智能程度提升角度考慮學(xué)習(xí)進(jìn)化方法.本文分別對應(yīng)著面向兵棋推演的作戰(zhàn)行動序列表示、目標(biāo)驅(qū)動的自適應(yīng)作戰(zhàn)控制建模、面向博弈策略優(yōu)化的任務(wù)效果預(yù)測三項關(guān)鍵技術(shù).
下面針對所提框架,對其中的關(guān)鍵技術(shù)及實現(xiàn)途徑進(jìn)行闡述.
作戰(zhàn)行動序列(course of action,COA)的概念出現(xiàn)在美軍相關(guān)條令中[8],描述一種完成使命任務(wù)的可能方法和途徑,被視為將上級戰(zhàn)略企圖轉(zhuǎn)化為具體可執(zhí)行作戰(zhàn)計劃的橋梁.作戰(zhàn)行動序列所表達(dá)的信息相對作戰(zhàn)計劃而言比較抽象,并不細(xì)化到針對每一個任務(wù)部隊的具體行動指令,但確定了任務(wù)以及任務(wù)間的各種關(guān)系,可以據(jù)此驅(qū)動戰(zhàn)術(shù)任務(wù)智能體.因此,框架將其作為兵棋推演智能決策的輸入,為構(gòu)建分散式指揮控制框架提供起點(diǎn),引導(dǎo)和約束指揮決策行為的輸出.
作戰(zhàn)行動序列的軍事概念要素組成,包括終止?fàn)顟B(tài)(end state)、目的(objectives)、效果(effects)、任務(wù)(tasks)等.其中,終止?fàn)顟B(tài)定義了作戰(zhàn)結(jié)束時的一組戰(zhàn)場狀態(tài)集合,戰(zhàn)爭演進(jìn)到該狀態(tài)后,可認(rèn)為已完成了整個作戰(zhàn)過程;目的由終止?fàn)顟B(tài)牽引出,是清晰定義的、關(guān)鍵性的、可實現(xiàn)的目標(biāo);效果是由行動或其他效果導(dǎo)致的作戰(zhàn)系統(tǒng)的物理和/或行為狀態(tài),通常一個期望效果直接關(guān)聯(lián)到一個或多個目的;任務(wù)則描述了能夠產(chǎn)生期望效果或排除非期望效果的軍事活動.一個典型的COA 概念如圖2 所示,整個作戰(zhàn)過程,通過若干個階段劃分出來,COA 的起點(diǎn)是當(dāng)前狀態(tài),終點(diǎn)是終止?fàn)顟B(tài).每個階段末尾,都必須達(dá)成一定的階段目標(biāo),以此作為階段轉(zhuǎn)換的條件.而每個階段內(nèi)部,都包含一系列的任務(wù),通過各種協(xié)同產(chǎn)生相應(yīng)的效果,以實現(xiàn)關(guān)聯(lián)的目的.籌劃過程中,需要根據(jù)上級設(shè)定的終止?fàn)顟B(tài),層層引導(dǎo)出所需的目的、效果、任務(wù)等要素;而反過來看,任務(wù)產(chǎn)生效果、效果關(guān)聯(lián)目的、目的成就終止?fàn)顟B(tài),這4 個要素也是一種層層支撐的關(guān)系.
圖2 作戰(zhàn)行動序列主要元素Fig.2 Main elements of COA
作戰(zhàn)行動序列的形式化表示,是對其軍事概念中的組成元素和元素間關(guān)系等進(jìn)行規(guī)范描述,以形成智能化處理的基礎(chǔ)[9].相關(guān)研究分為兩類.一類側(cè)重于COA 知識表示,以形成相關(guān)概念的一致性理解和互操作.這其中最具代表性的方式是對本體的運(yùn)用,例如美軍發(fā)起的DICIPLE 和PLANET 等項目[10],對COA 的本體建模以及知識庫管理等方面進(jìn)行了分析;還能夠在本體基礎(chǔ)上,對COA 進(jìn)行校驗等等.此外,也有很多研究使用其他技術(shù)方法對COA 建模,包括SysML[11]、XML[12]和OPM[13]等.另一類側(cè)重于COA 智能求解,此時COA 模型是按照求解算法所對應(yīng)的問題模型來構(gòu)建的.例如經(jīng)典規(guī)劃[14]和分層任務(wù)網(wǎng)絡(luò)[15]等規(guī)劃方法中,需對任務(wù)的執(zhí)行條件、執(zhí)行效果、以及任務(wù)之間的分解關(guān)系進(jìn)行表示,然后通過前向搜索算法求解;基于概率網(wǎng)絡(luò)的方法,包括Petri 網(wǎng)[16]、動態(tài)影響網(wǎng)[17]等,表達(dá)不同任務(wù)與效果之間的關(guān)聯(lián)影響,在COA 分析評估方面得到大量應(yīng)用.這些研究更加注重對COA 中任務(wù)和任務(wù)效果的建模.
面向兵棋推演的作戰(zhàn)行動序列表示,在本文框架中需要銜接戰(zhàn)前規(guī)劃與戰(zhàn)中控制,能夠形成相對通用的形式化表達(dá),既體現(xiàn)軍事概念要素,也支持智能求解方法.如果作戰(zhàn)計劃是由逐條錄入的兵棋指令形成,則作戰(zhàn)行動序列的表示應(yīng)該在戰(zhàn)術(shù)任務(wù)智能體的基礎(chǔ)上,通過描述任務(wù)本身是什么和多任務(wù)間如何編排,表達(dá)完成使命目標(biāo)的方法.因此,作戰(zhàn)行動序列的表示可采取層次化的方法.
在微觀層次,對任務(wù)本身的元素進(jìn)行建模,包括任務(wù)類型以及執(zhí)行該任務(wù)的必需參數(shù).一種相對通用的表示手段,是將任務(wù)描述為Task:{Type,Resource,Area,Time,Eff},其中,Type 為任務(wù)的類型,典型的如空中制壓、空中巡邏、空中預(yù)警、海上反艦、水雷作戰(zhàn)等;Resource 為執(zhí)行任務(wù)的作戰(zhàn)資源;Area 為執(zhí)行任務(wù)主體的責(zé)任區(qū)域;Time 為任務(wù)的時間信息,包括開始時間和結(jié)束時間;Eff 為任務(wù)需要達(dá)成的效果集合,例如打擊類任務(wù)包含對某類目標(biāo)的毀傷程度.任務(wù)是作戰(zhàn)行動序列的最底層元素,對任務(wù)進(jìn)行建模即是對任務(wù)式命令的形式化表示,相關(guān)參數(shù)直接指導(dǎo)戰(zhàn)術(shù)任務(wù)智能體的執(zhí)行,形成從規(guī)劃域到執(zhí)行域的映射.
在宏觀層次,按作戰(zhàn)行動序列的主要元素,包括終止?fàn)顟B(tài)、階段劃分、階段目標(biāo)、階段內(nèi)中間效果、關(guān)聯(lián)任務(wù)等,以描述為達(dá)成作戰(zhàn)目的如何組織作戰(zhàn)任務(wù).值得注意的是,針對達(dá)成某效果的可能不止一個任務(wù),而是一個任務(wù)組合.例如空中制壓任務(wù),直接效果是摧毀敵方重要目標(biāo)設(shè)施,而伴隨的協(xié)同任務(wù),例如電子干擾、空中護(hù)航等,是為了空中制壓任務(wù)能夠更容易達(dá)到期望效果.這使得與效果關(guān)聯(lián)的任務(wù)組合,被區(qū)別為直接達(dá)成效果的主線任務(wù)和對應(yīng)的支撐任務(wù),因此,也需要描述任務(wù)間的協(xié)同約束關(guān)系.一般可通過時序關(guān)系、邏輯關(guān)系、功能關(guān)系來表示任務(wù)間的協(xié)同約束[18]: 時序關(guān)系表示任務(wù)之間執(zhí)行的先后等順序,邏輯關(guān)系表示任務(wù)之間的因果等依賴,功能關(guān)系表示任務(wù)執(zhí)行情況對其他任務(wù)執(zhí)行效果的影響.
在這種層次化設(shè)計基礎(chǔ)上,作戰(zhàn)行動序列覆蓋了關(guān)于作戰(zhàn)的“5W1H”信息,即執(zhí)行什么任務(wù)(what)、誰來執(zhí)行(who)、什么時候執(zhí)行(when)、在哪里執(zhí)行(where)、為什么執(zhí)行(why)和如何執(zhí)行(how),可以較好體現(xiàn)相關(guān)軍事概念要素、表達(dá)針對戰(zhàn)役作戰(zhàn)的長程策略.此外,作戰(zhàn)行動序列的形式化表示,不僅定義了本文框架中的戰(zhàn)役層總控智能體輸入,而且間接定義了輸出,即為作戰(zhàn)行動序列最底層的任務(wù)元素,通過任務(wù)式命令,調(diào)度和控制對應(yīng)的任務(wù)智能體執(zhí)行作戰(zhàn).
戰(zhàn)役層在本文框架中解決的是作戰(zhàn)控制問題,即如何針對籌劃結(jié)果進(jìn)行作戰(zhàn)行動實施.可以進(jìn)一步描述為,以預(yù)先概略計劃為引導(dǎo),將作戰(zhàn)任務(wù)分配給各個戰(zhàn)術(shù)任務(wù)智能體,并在執(zhí)行過程中對態(tài)勢演進(jìn)情況進(jìn)行監(jiān)控,即時判斷異常,必要情況下對作戰(zhàn)行動序列進(jìn)行不同程度的臨機(jī)調(diào)整.需要對這種認(rèn)知決策過程進(jìn)行建模,以生成自適應(yīng)的作戰(zhàn)控制策略.
與作戰(zhàn)控制問題最為類似的是智能規(guī)劃領(lǐng)域中的“計劃執(zhí)行與監(jiān)控”,由于更加聚焦高層的認(rèn)知決策、而非底層的狀態(tài)控制,因此,非常接近“目標(biāo)推理”(goal reasoning)一類問題.目標(biāo)推理賦予智能體在動態(tài)環(huán)境下的自適應(yīng)能力,當(dāng)遇到意外情況導(dǎo)致原計劃無法順利執(zhí)行時,智能體能夠分析異常、查找原因,并在合適時機(jī)選擇其他目標(biāo)、生成新的計劃,以順利達(dá)到最終目的.一些知名的認(rèn)知計算框架,例如SOAR[19]、ACT-R[20]等,均進(jìn)行了目標(biāo)推理功能的實現(xiàn),文獻(xiàn)[21]對相關(guān)方法進(jìn)行了梳理.而其中最知名的,應(yīng)該是目標(biāo)驅(qū)動自主(goal driven autonomy,GDA)框架[22].GDA 提供了一個概念模型架構(gòu),將目標(biāo)推理能力通過異常探測、原因推理、目標(biāo)構(gòu)設(shè)和目標(biāo)管理這4 個過程實現(xiàn).由于并不限定具體實現(xiàn)技術(shù),GDA 具有相當(dāng)?shù)撵`活性,并且已經(jīng)應(yīng)用到水下無人艇[23]、超視距空戰(zhàn)[24]等領(lǐng)域中.
本文框架基于GDA 思想,將戰(zhàn)役層過程建模為基于目標(biāo)的預(yù)測控制,如圖3 所示.以作戰(zhàn)行動序列為牽引,框架接收聯(lián)合作戰(zhàn)實時態(tài)勢特征,經(jīng)過態(tài)勢異常監(jiān)控、作戰(zhàn)情況識別、調(diào)控方案生成和調(diào)度控制管理4 個模塊后,得到對當(dāng)前作戰(zhàn)行動序列的調(diào)控方案決策,并驅(qū)動相關(guān)戰(zhàn)術(shù)任務(wù)智能體進(jìn)行實施.4 個模塊對應(yīng)了戰(zhàn)役層的產(chǎn)生過程:
圖3 戰(zhàn)役層總控智能體決策過程建模Fig.3 Decision-making modeling of general control of intelligent agents in campaign level
1)態(tài)勢異常監(jiān)控: 根據(jù)當(dāng)前作戰(zhàn)態(tài)勢,預(yù)測任務(wù)執(zhí)行效果,與作戰(zhàn)行動序列中的期望效果比對,得出態(tài)勢進(jìn)展與預(yù)期之間的差異情況.
2)作戰(zhàn)情況識別: 根據(jù)態(tài)勢差異情況,判斷當(dāng)前差異產(chǎn)生的主要原因,并進(jìn)行作戰(zhàn)情況歸類.
3)調(diào)控方案生成: 根據(jù)作戰(zhàn)情況識別結(jié)果和態(tài)勢差異具體數(shù)值,選擇合適的調(diào)控手段并生成相應(yīng)的解決方案,包括計劃修復(fù)、局部重規(guī)劃等.
4)調(diào)度控制管理: 把握作戰(zhàn)控制的調(diào)控節(jié)奏,并針對所得方案進(jìn)行效果預(yù)估,如果存在多套方案則進(jìn)行排序優(yōu)選,確定調(diào)控方案,并交由戰(zhàn)術(shù)任務(wù)智能體付諸實施.
戰(zhàn)役層總控智能體模擬高層指揮員對戰(zhàn)術(shù)作戰(zhàn)任務(wù)動態(tài)實施和臨機(jī)調(diào)整的過程,核心是實現(xiàn)對戰(zhàn)場情況的處置,使得作戰(zhàn)行動序列能夠以自適應(yīng)的方式靈活執(zhí)行.與很多面向機(jī)器人計劃監(jiān)控的研究[25]不同之處在于,本文框架中的戰(zhàn)役層總控智能體定位層次高,例如需要從復(fù)雜高維的戰(zhàn)場態(tài)勢特征表示中定位處置時機(jī)、需要在具有反饋延遲特性的戰(zhàn)術(shù)作戰(zhàn)行動基礎(chǔ)上構(gòu)建處置手段.必須結(jié)合戰(zhàn)役作戰(zhàn)指揮決策的問題特點(diǎn),探索針對各功能模塊的合適實現(xiàn)途徑.
態(tài)勢異常監(jiān)控模塊對處置時機(jī)進(jìn)行了定量描述,監(jiān)控范圍聚焦在跟蹤關(guān)鍵戰(zhàn)術(shù)行動的執(zhí)行情況.聯(lián)合作戰(zhàn)行動序列中的任務(wù)關(guān)聯(lián)交織,但主要是幾種關(guān)鍵戰(zhàn)術(shù)行動的效果直接影響戰(zhàn)役目的是否達(dá)成,其他行動多為支撐類任務(wù),為關(guān)鍵行動順利執(zhí)行而服務(wù).然而戰(zhàn)場環(huán)境充滿了不確定性,例如毀傷效果的隨機(jī)性和敵方行動的對抗性,都會使得任務(wù)式命令無法達(dá)成預(yù)期.高階的態(tài)勢認(rèn)知能力是可以形成對戰(zhàn)場的預(yù)判,并據(jù)此提前準(zhǔn)備應(yīng)對措施.因此,態(tài)勢異常監(jiān)控模塊依靠任務(wù)效果預(yù)測模型,用以比對作戰(zhàn)行動序列中的關(guān)鍵戰(zhàn)術(shù)行動的期望,形成期望異常偏差向量用以指導(dǎo)后續(xù)的流程.
作戰(zhàn)情況識別模塊對處置時機(jī)進(jìn)行了定性描述.可根據(jù)領(lǐng)域?qū)<医?jīng)驗,結(jié)合實際態(tài)勢數(shù)據(jù)對超過閾值的異常偏差進(jìn)行原因歸類,包括行動前提違背、能力任務(wù)差距、協(xié)同進(jìn)度差異等.例如計劃任務(wù)的作戰(zhàn)資源被摧毀,屬于行動前提違背;例如執(zhí)行中的任務(wù)由于敵方威脅或其他原因?qū)е骂A(yù)期效果無法達(dá)成,屬于能力任務(wù)差距;例如配屬協(xié)同任務(wù)無法按時間要求開始或結(jié)束,屬于協(xié)同進(jìn)度差異.由于對多個關(guān)鍵行動同時追蹤,得到的異常情況判斷也是一個組合.作戰(zhàn)情況識別為作戰(zhàn)控制過程提供了解釋,并且與期望偏差向量組合起來,引導(dǎo)調(diào)控措施生成.
調(diào)控方案生成模塊對處置方式進(jìn)行表示和生成.處置方式的定義,是在作戰(zhàn)任務(wù)本身和作戰(zhàn)任務(wù)關(guān)聯(lián)序列兩個層次: 對于作戰(zhàn)任務(wù)本身而言,調(diào)控任務(wù)的執(zhí)行資源、打擊目標(biāo)、執(zhí)行時間等參數(shù),例如資源不足的情況下,通過動態(tài)資源分配等方式,重構(gòu)該任務(wù)的執(zhí)行資源組;對于作戰(zhàn)任務(wù)序列而言,是對關(guān)鍵行動配屬協(xié)同任務(wù)進(jìn)行調(diào)整,通過信息協(xié)同、保障協(xié)同、掩護(hù)協(xié)同等方式,保證關(guān)鍵行動能夠達(dá)到較好的預(yù)期效果.處置方式的生成,本質(zhì)上是一個規(guī)劃問題,在任務(wù)和相關(guān)參數(shù)組成的空間里進(jìn)行搜索,綜合運(yùn)用多種優(yōu)化方法,實現(xiàn)作戰(zhàn)行動序列的動態(tài)修復(fù)(任務(wù)參數(shù)調(diào)整)和局部重規(guī)劃(任務(wù)協(xié)同調(diào)整).
調(diào)度控制管理模塊實現(xiàn)處置優(yōu)化的整個過程.其中,調(diào)控節(jié)奏設(shè)置,管理作戰(zhàn)實施過程中的監(jiān)控周期和調(diào)控方案生成周期,不同響應(yīng)手段求解時間也不盡相同,因此,需要一個合適的調(diào)控運(yùn)行機(jī)制;動態(tài)響應(yīng)決策,則是將作戰(zhàn)情況映射到合適的響應(yīng)方式,通過經(jīng)驗規(guī)則便能較好地實現(xiàn);方案評估優(yōu)選,是對所得調(diào)控方案進(jìn)行效果預(yù)估,結(jié)合戰(zhàn)役戰(zhàn)術(shù)目標(biāo)達(dá)成率和資源消耗等指標(biāo),對方案進(jìn)行優(yōu)選;調(diào)度控制執(zhí)行,將調(diào)控方案更新到當(dāng)前作戰(zhàn)行動序列,并調(diào)用相關(guān)戰(zhàn)術(shù)任務(wù)智能體執(zhí)行.整個過程相對完整透明,能夠自動完成,也較容易構(gòu)建人機(jī)接口,實現(xiàn)人在回路的決策控制.
分層結(jié)構(gòu)的兵棋決策模型框架中,戰(zhàn)術(shù)層是圍繞確定戰(zhàn)術(shù)目標(biāo)的優(yōu)化執(zhí)行,戰(zhàn)役層是目標(biāo)驅(qū)動的自適應(yīng)作戰(zhàn)控制,形成了多層的OODA 過程.為體現(xiàn)智能的不斷進(jìn)化,需要在OODA 過程中引入“學(xué)習(xí)”,使博弈從數(shù)據(jù)中積累經(jīng)驗,以避免機(jī)械反饋式的決策[1].戰(zhàn)役戰(zhàn)術(shù)螺旋學(xué)習(xí),是分層結(jié)構(gòu)決策模型實現(xiàn)智能進(jìn)化的一般方法,即進(jìn)行戰(zhàn)術(shù)任務(wù)智能體的構(gòu)建,然后在此基礎(chǔ)上進(jìn)行戰(zhàn)役層的優(yōu)化,在達(dá)到比較穩(wěn)定的狀態(tài)之后,再進(jìn)行戰(zhàn)役與戰(zhàn)術(shù)的同步優(yōu)化.通過這種多層策略的往復(fù)式學(xué)習(xí),多個戰(zhàn)術(shù)任務(wù)智能體在高層綜合調(diào)度下共同完成復(fù)雜決策任務(wù),形成智能的“涌現(xiàn)”.
本文框架中,戰(zhàn)術(shù)任務(wù)智能體的構(gòu)建和優(yōu)化,視具體任務(wù)特點(diǎn)可以選擇知識驅(qū)動或數(shù)據(jù)驅(qū)動等方法實現(xiàn);而戰(zhàn)役層過程,核心是在合適的時機(jī)尋找合適的調(diào)控方案,優(yōu)化之處在于時機(jī)判斷和方案尋優(yōu).無論時機(jī)判斷還是方案尋優(yōu),實現(xiàn)的前提都依賴于構(gòu)建戰(zhàn)術(shù)任務(wù)效果模型,即給定戰(zhàn)術(shù)任務(wù)和相關(guān)參數(shù),在當(dāng)前態(tài)勢下能夠達(dá)到何種程度的效果.對于時機(jī)判斷來講,任務(wù)效果模型是態(tài)勢異常監(jiān)控的重要組成部分,通過該模型獲得當(dāng)前戰(zhàn)術(shù)任務(wù)執(zhí)行的效果預(yù)期,與作戰(zhàn)行動序列中的預(yù)設(shè)效果進(jìn)行綜合比對得到處置時機(jī)的量化表達(dá);對于方案尋優(yōu)來講,通過規(guī)劃方法進(jìn)行探索,這種方法本質(zhì)上是基于模型的(model-based),戰(zhàn)術(shù)任務(wù)智能體及其相關(guān)參數(shù)共同構(gòu)成了探索空間,而任務(wù)效果模型是尋優(yōu)算法的運(yùn)行依據(jù).任務(wù)式命令銜接了戰(zhàn)役層與戰(zhàn)術(shù)行動,而任務(wù)效果模型,總結(jié)了戰(zhàn)術(shù)行動的經(jīng)驗,形成了戰(zhàn)役層的基礎(chǔ),是實現(xiàn)從戰(zhàn)術(shù)到戰(zhàn)役螺旋學(xué)習(xí)過程所必需的中間件.
任務(wù)執(zhí)行效果一般通過3 種方法預(yù)測[26]: 1)通過運(yùn)籌計算,針對任務(wù)特點(diǎn),結(jié)合領(lǐng)域知識構(gòu)建效果估計模型,例如基于毀傷裁決算法判斷某裝備對某目標(biāo)的打擊效果、基于地形情況判斷機(jī)動時間等.這種方法在確定性的靜態(tài)環(huán)境中可行,但不適用于作戰(zhàn)這種高度不確定和動態(tài)的情形,敵方的針對性行動和本方的任務(wù)協(xié)同都會使得預(yù)測結(jié)果并不準(zhǔn)確.2)通過仿真模擬,即時調(diào)用等效模擬器,對任務(wù)執(zhí)行從開始到結(jié)束的過程進(jìn)行大樣本仿真,獲取一個統(tǒng)計結(jié)果作為任務(wù)執(zhí)行效果的估計.雖然兵棋本身便可以用作模擬器,得到相對精確的數(shù)據(jù),但這種方法存在一個顯著問題是計算開銷大,無法滿足決策的實時性需求.3)通過數(shù)據(jù)學(xué)習(xí),構(gòu)建深度學(xué)習(xí)模型,從大量交互數(shù)據(jù)中總結(jié)對抗條件下的任務(wù)執(zhí)行規(guī)律,從而形成相應(yīng)的效果預(yù)測.這種方法能夠平衡實時性和準(zhǔn)確度兩方面的需求,是值得探索的一條途徑.
基于數(shù)據(jù)學(xué)習(xí)的任務(wù)效果模型構(gòu)建,可以通過一種迭代式樣本采集與訓(xùn)練過程實現(xiàn),如圖4 所示.在該方法中,關(guān)于戰(zhàn)術(shù)任務(wù)t 的效果預(yù)測模型可以形式化表達(dá)為eff=ft(s,θ),其中,s 表示當(dāng)前態(tài)勢,eff 表示戰(zhàn)術(shù)任務(wù)t(配置具體參數(shù)向量θ,包括任務(wù)執(zhí)行主體、任務(wù)區(qū)域等)執(zhí)行完成后達(dá)到的效果指標(biāo)估計.從規(guī)劃使用需求考慮,需要為每一個t 訓(xùn)練一個相應(yīng)的ft,因此,待訓(xùn)練的關(guān)于所有戰(zhàn)術(shù)任務(wù)的效果預(yù)測模型集合.
圖4 任務(wù)效果模型構(gòu)建示意圖Fig.4 Construction schematic diagram of task effect model
聯(lián)合作戰(zhàn)環(huán)境中多任務(wù)并發(fā)執(zhí)行、各自相互影響,因此,一次完整作戰(zhàn)的樣本中包含多個任務(wù)的執(zhí)行數(shù)據(jù),可直接用以訓(xùn)練多任務(wù).迭代式樣本采集與訓(xùn)練過程,通過應(yīng)用場景中對多種戰(zhàn)術(shù)任務(wù)的調(diào)用控制,生成具有一定針對性和多樣性的樣本,輔助更好的訓(xùn)練任務(wù)效果預(yù)測模型.根據(jù)給定待訓(xùn)練的戰(zhàn)術(shù)任務(wù)智能體集合,分別構(gòu)建運(yùn)籌計算模型,得到任務(wù)單獨(dú)執(zhí)行的效果估計,并用于訓(xùn)練相應(yīng)的深度神經(jīng)網(wǎng)絡(luò),得到初始任務(wù)效果預(yù)測模型集合.之后可以在設(shè)定的作戰(zhàn)場景中運(yùn)行戰(zhàn)役層總控智能體,在調(diào)控方案生成時通過一定的隨機(jī)探索設(shè)置,生成戰(zhàn)術(shù)任務(wù)和相關(guān)參數(shù)并執(zhí)行,得到樣本數(shù)據(jù).在積累到一定數(shù)量的樣本后,可以更新效果預(yù)估模型,并在接下來的過程中,逐步減小調(diào)控方案生成的隨機(jī)概率,更多基于所學(xué)到預(yù)測模型進(jìn)行調(diào)控,來生成新的樣本.通過這種探索與利用的平衡機(jī)制,最終多次迭代采樣與訓(xùn)練之后,得到較好的系統(tǒng)表現(xiàn).此外,通過運(yùn)籌計算方法構(gòu)建任務(wù)效果初步估計模型,作為模型訓(xùn)練的先驗,也能夠進(jìn)一步提高學(xué)習(xí)效率.
兵棋智能決策建模框架面向戰(zhàn)役作戰(zhàn)指揮決策的戰(zhàn)中控制階段,這使得框架的設(shè)計必須滿足相應(yīng)的需求,以能夠切實應(yīng)用于目標(biāo)場景中,也形成了本文框架的主要特點(diǎn).
面向指揮決策流程的戰(zhàn)役戰(zhàn)術(shù)分層結(jié)構(gòu)設(shè)計.分層結(jié)構(gòu)可以極大地約減問題空間,每個功能模塊可以選擇合適的技術(shù)實現(xiàn),在統(tǒng)一的邏輯組合下形成知識數(shù)據(jù)混合驅(qū)動智能.更重要的是,框架圍繞實際指揮決策流程的特點(diǎn),強(qiáng)調(diào)戰(zhàn)前籌劃對戰(zhàn)中控制的影響,由作戰(zhàn)行動序列引導(dǎo)和約束指揮對抗行為;同時,基于“任務(wù)式指揮”思想,由任務(wù)式命令銜接戰(zhàn)役與戰(zhàn)術(shù)決策過程,將戰(zhàn)役層決策聚焦在如何根據(jù)態(tài)勢情況調(diào)配任務(wù),而戰(zhàn)術(shù)層圍繞具體目標(biāo)優(yōu)化執(zhí)行.這種方式的優(yōu)勢在于,機(jī)器策略能夠在一定程度上可控,可以方便實現(xiàn)人機(jī)混合推演,包括戰(zhàn)前通過作戰(zhàn)行動序列確定長程博弈策略,戰(zhàn)中通過任務(wù)式命令進(jìn)行臨機(jī)調(diào)整,以有效應(yīng)對復(fù)雜作戰(zhàn)情況.
兼具可解釋與可進(jìn)化的戰(zhàn)役層實現(xiàn)機(jī)制.戰(zhàn)役層總控智能體是框架的核心,設(shè)計了態(tài)勢異常監(jiān)控、作戰(zhàn)情況識別、調(diào)控方案生成與調(diào)度控制管理4 個模塊,反映戰(zhàn)役層的OODA 過程.這種設(shè)計使得戰(zhàn)役層在流程上是可解釋的,通過每個模塊的輸入與輸出理解策略生成過程,方便判斷模塊合理程度,也可以據(jù)此進(jìn)行針對性改進(jìn).由于決策過程是基于模型的,因此,在策略學(xué)習(xí)進(jìn)化方面,討論了任務(wù)效果模型的構(gòu)建方法,這構(gòu)成了戰(zhàn)役層的運(yùn)行前提.從數(shù)據(jù)中學(xué)習(xí)戰(zhàn)術(shù)任務(wù)的執(zhí)行效果預(yù)測模型,相比先驗知識等方法會更加精確,也是博弈策略優(yōu)化的主要支撐.并且,任務(wù)效果模型是面向戰(zhàn)術(shù)任務(wù)智能體的,當(dāng)在一個想定中訓(xùn)練完成后,可以很容易遷移到其他包含該戰(zhàn)術(shù)任務(wù)的決策場景中實現(xiàn)知識重用,也使整個決策框架具備一定的泛化能力.
需要注意的是,本文框架實現(xiàn)對作戰(zhàn)行動序列的自適應(yīng)優(yōu)化執(zhí)行.調(diào)控方案生成模塊目前只考慮了任務(wù)參數(shù)和關(guān)鍵行動配屬協(xié)同任務(wù)的調(diào)整,屬于作戰(zhàn)方案的動態(tài)修復(fù)和局部重規(guī)劃.針對全局重規(guī)劃的情形,例如基于態(tài)勢判斷博弈平衡點(diǎn)并對作戰(zhàn)行動序列作出重大調(diào)整,則問題復(fù)雜度太高,機(jī)器無法自主實現(xiàn),需要在人的引導(dǎo)下完成.但是本文框架特點(diǎn),可以在兵棋推演中引入靈活可控的智能行為模型,豐富兵棋的軍事應(yīng)用場景.例如指揮模擬訓(xùn)練中,能夠提供基于任務(wù)式命令的推演機(jī)制,使參訓(xùn)人員免于細(xì)節(jié)繁雜的作戰(zhàn)指令編排,使其更加專注于戰(zhàn)爭謀局塑局等創(chuàng)造性居多的工作上;作戰(zhàn)方案評估中,也能夠提供遵循預(yù)定義方案的自適應(yīng)對抗能力,在兵棋上自動推演,達(dá)到快速分析的效果.
對智能技術(shù)在戰(zhàn)役級兵棋推演中的智能技術(shù)應(yīng)用需求進(jìn)行分析,提出一種基于戰(zhàn)役戰(zhàn)術(shù)分層結(jié)構(gòu)的智能決策建??蚣?將框架分為態(tài)勢特征表示模塊、戰(zhàn)役層決策模塊和包含多個任務(wù)智能體的戰(zhàn)術(shù)決策模塊.針對最具挑戰(zhàn)的戰(zhàn)役層模塊實現(xiàn),分別討論了面向兵棋的作戰(zhàn)行動序列表示、目標(biāo)驅(qū)動的自適應(yīng)作戰(zhàn)控制建模和面向博弈策略優(yōu)化的任務(wù)效果預(yù)測3 項關(guān)鍵技術(shù)及實現(xiàn)途徑.框架能夠較好地體現(xiàn)實際指揮決策流程,在相關(guān)關(guān)鍵技術(shù)支撐下,可以在指揮訓(xùn)練模擬和作戰(zhàn)方案評估等兵棋推演應(yīng)用場景中,幫助作戰(zhàn)人員高效處理業(yè)務(wù),發(fā)揮實用價值.
未來工作包括兩個方面: 1)深化研究戰(zhàn)役層模型的學(xué)習(xí)進(jìn)化方法,例如利用有模型強(qiáng)化學(xué)習(xí)方法,完善調(diào)控方案生成模塊中的資源動態(tài)分配、長程效果推理等功能,提高自主臨機(jī)規(guī)劃的算法表現(xiàn).2)在該框架基礎(chǔ)上探索高效的人機(jī)協(xié)作推演機(jī)制,促進(jìn)框架在復(fù)雜作戰(zhàn)場景中的應(yīng)用落地.