易 凱,張修社,韓春雷,張 揚(yáng)
(中國電子科技集團(tuán)公司第二十研究所,西安 710068)
隨著深度學(xué)習(xí)、腦機(jī)交互、神經(jīng)元計算等軍事智能技術(shù)的廣泛應(yīng)用,已經(jīng)產(chǎn)生了無人集群戰(zhàn)術(shù)、作戰(zhàn)云、算法戰(zhàn)、分布式殺傷、多域戰(zhàn)、“馬賽克”戰(zhàn)等智能化作戰(zhàn)理論,戰(zhàn)爭形態(tài)正由機(jī)械化戰(zhàn)爭、信息化戰(zhàn)爭向智能化戰(zhàn)爭快速演變。相比機(jī)械化戰(zhàn)爭、信息化戰(zhàn)爭,智能化戰(zhàn)爭將呈現(xiàn)以“無人、無形、無聲”為主的各類作戰(zhàn)平臺、智能化傳感器、指揮系統(tǒng)以及導(dǎo)彈武器系統(tǒng),能夠深入各種惡劣環(huán)境偵察戰(zhàn)場,面對瞬息萬變的戰(zhàn)場態(tài)勢進(jìn)行自主協(xié)同打擊,其顯著特征是作戰(zhàn)環(huán)境復(fù)雜化、作戰(zhàn)空間全域化、作戰(zhàn)對象多樣化、作戰(zhàn)時間敏捷化,制勝關(guān)鍵要素從信息域向認(rèn)知域轉(zhuǎn)變、從爭奪信息優(yōu)勢向獲取認(rèn)知優(yōu)勢轉(zhuǎn)變[1]。因此,為滿足智能化戰(zhàn)爭條件下基于戰(zhàn)場大規(guī)模、大差異、不確定、高沖突信息的快速處理和及時響應(yīng)的要求,解決人類智能無法在短時間內(nèi)應(yīng)對多目標(biāo)、多對多的指揮控制計算和判斷的問題,需要重點(diǎn)研究以作戰(zhàn)要素協(xié)同為核心、人工智能計算為主要手段的分布式智能作戰(zhàn)決策系統(tǒng),突出決策優(yōu)勢,提高決策的科學(xué)性和可靠性,運(yùn)用算法奪取戰(zhàn)場的“制智權(quán)”。
分布式智能作戰(zhàn)決策將以作戰(zhàn)區(qū)域內(nèi)的各類作戰(zhàn)力量、平臺、裝備要素等多智能體為載體,依托自適應(yīng)高速信息傳輸網(wǎng)絡(luò)構(gòu)建功能解聚的分布式作戰(zhàn)集群,綜合考慮作戰(zhàn)的任務(wù)需求以及各方面獲取的戰(zhàn)場情報信息,結(jié)合大數(shù)據(jù)條件下先進(jìn)智能算法,進(jìn)行多源信息融合處理與態(tài)勢認(rèn)知,制定包含作戰(zhàn)意圖識別、威脅分布、火力規(guī)劃與任務(wù)分配的決策方案,在分散和模糊作戰(zhàn)部署和意圖的同時,保持戰(zhàn)場指揮員做出更快和更有效的決策,如圖1所示。
圖1 分布式智能作戰(zhàn)決策示意圖
20世紀(jì)70年代,決策支持系統(tǒng)的概念被提出來,決策支持系統(tǒng)是輔助決策者通過數(shù)據(jù)、模型和知識,以人機(jī)交互方式進(jìn)行結(jié)構(gòu)化和半結(jié)構(gòu)化決策的計算機(jī)應(yīng)用系統(tǒng)[2]。1980年Sprague 提出了決策支持系統(tǒng)三部件結(jié)構(gòu)(對話部件、數(shù)據(jù)部件、模型部件)[3],明確了決策支持系統(tǒng)的基本組成,而后得到極大的發(fā)展。
20世紀(jì)80年代初期,Scher 和Thomas 等人提出分布式?jīng)Q策支持系統(tǒng)概念。該系統(tǒng)實現(xiàn)了分布決策、分布系統(tǒng)、分布支持的三位一體,從概念上可理解為由多個物理上分離的信息處理節(jié)點(diǎn)構(gòu)成的網(wǎng)絡(luò),網(wǎng)絡(luò)上的每個節(jié)點(diǎn)至少含有一個決策支持系統(tǒng)或具有若干輔助決策支持的功能[4]。Chuang 等人認(rèn)為其是支持組織中決策網(wǎng)絡(luò)節(jié)點(diǎn)的決策、通信、協(xié)同和合作的決策支持系統(tǒng)。
20世紀(jì)80年代末90年代初,決策支持系統(tǒng)開始與專家系統(tǒng)相結(jié)合,逐步發(fā)展為智能決策支持系統(tǒng)[5-6]。智能決策支持系統(tǒng)是在計算機(jī)的輔助下,綜合運(yùn)用現(xiàn)代決策理論和人工智能技術(shù),結(jié)合管理決策科學(xué)、信息科學(xué)與運(yùn)籌學(xué)等,依托人類知識庫,通過邏輯推理來幫助解決現(xiàn)實問題[7]。
美國20世紀(jì)70年代就開始研究人工智能在國防軍事領(lǐng)域中的應(yīng)用,最早提出了作戰(zhàn)指揮決策支持系統(tǒng)的概念。2009年以來,DARPA 啟動了拒止環(huán)境協(xié)同作戰(zhàn)項目(CODE)、“阿爾法”(Alpha AI)、指揮官虛擬參謀(CVS)和蜂群戰(zhàn)術(shù)(SWARM-Tac)等與智能指揮決策相關(guān)的大量技術(shù)研究與工程實踐項目,2017年美軍提出了以決策中心戰(zhàn)為基本理念的“馬賽克戰(zhàn)”新型作戰(zhàn)概念[8-9],涵蓋了上述的先期多項項目計劃。
其中,拒止環(huán)境協(xié)同作戰(zhàn)項目旨在研發(fā)先進(jìn)的自主算法和監(jiān)督控制技術(shù),以減少所需的通信帶寬和人工系統(tǒng)界面,實現(xiàn)無人機(jī)或尖端導(dǎo)彈在通信和GPS 信號均被干擾的對抗環(huán)境下,自主協(xié)同完成跟蹤、識別和攻擊[10]?!鞍柗ā笔敲绹列聊翘岽髮W(xué)和空軍實驗室合作研發(fā)的一款智能空戰(zhàn)系統(tǒng)[11]。據(jù)稱,阿爾法在空中格斗中快速協(xié)調(diào)戰(zhàn)術(shù)計劃比人類快了250 倍,可同時躲避數(shù)十枚導(dǎo)彈并對多目標(biāo)進(jìn)行攻擊,還能協(xié)調(diào)隊友、觀察學(xué)習(xí)敵人戰(zhàn)術(shù),該技術(shù)是人工智能技術(shù)在作戰(zhàn)決策控制領(lǐng)域應(yīng)用的重大突破。
“馬賽克戰(zhàn)”是美軍考慮到戰(zhàn)場環(huán)境的諸多約束讓戰(zhàn)場網(wǎng)絡(luò)無法滿足“全連通”這一網(wǎng)絡(luò)中心戰(zhàn)的前提條件,以網(wǎng)絡(luò)中心戰(zhàn)向決策中心戰(zhàn)轉(zhuǎn)變作為基本理念,以傳感器、網(wǎng)絡(luò)、人工智能作為基礎(chǔ)設(shè)施,而提出的作戰(zhàn)概念。其核心內(nèi)涵是將作戰(zhàn)區(qū)域內(nèi)的平臺在功能層面和物理層面上分解為網(wǎng)絡(luò)化的殺傷網(wǎng),而非線性的、單一的殺傷鏈,通過快速組合、重組一支更加解聚型軍事力量來提升敵方的決策復(fù)雜度或不確定性,如圖2所示。該作戰(zhàn)概念將高度依賴人工智能技術(shù),重點(diǎn)研究內(nèi)容包括基于自主系統(tǒng)實現(xiàn)分布式作戰(zhàn)和任務(wù)指揮、基于人工智能實現(xiàn)快速的決策支持等。
圖2 美軍馬賽克戰(zhàn)示意圖
隨著人工智能技術(shù)的不斷發(fā)展,國內(nèi)也一直在數(shù)據(jù)融合處理、態(tài)勢預(yù)測分析、火力規(guī)劃與資源分配等領(lǐng)域開展智能作戰(zhàn)決策應(yīng)用研究,建立了一系列的輔助決策模型和決策支持系統(tǒng),能夠為指揮員提供一定計算支持與智能輔助決策,取得了一定的成果。
20世紀(jì)90年代,國內(nèi)在作戰(zhàn)決策方面的研究成果主要以專家系統(tǒng)、運(yùn)籌優(yōu)化、貝葉斯估計等較為成熟的智能技術(shù)為主,通過建立規(guī)則庫,基于專業(yè)知識進(jìn)行推理分析,用以解決特定領(lǐng)域的智能輔助決策系統(tǒng)。如軍事科學(xué)院研發(fā)的“進(jìn)攻一號”軍事專家支持系統(tǒng)[12],通過應(yīng)用人工智能和軍事運(yùn)籌技術(shù),建立了一個4000 多條規(guī)則的軍事知識庫和一個定性與定量相結(jié)合的高效推理機(jī)制,為指揮員下定決心提供大量的咨詢信息。
2010年以來,深度學(xué)習(xí)、大數(shù)據(jù)處理等理論方法和計算機(jī)運(yùn)算能力的突破,助推新一輪人工智能軍事應(yīng)用研究熱潮,圖像、語音識別和推理、分析與判斷能力有顯著提升。如國防大學(xué)研發(fā)的“兵棋推演系統(tǒng)”,為復(fù)雜系統(tǒng)管理提供了更加符合其特性的決策輔助支持[13-14]。近年來,基于深度學(xué)習(xí)開展了一系列軍事智能輔助決策技術(shù)的研究,通過對抗博弈進(jìn)行學(xué)習(xí)訓(xùn)練,探索態(tài)勢認(rèn)知與威脅智能評估、作戰(zhàn)方案智能推薦與優(yōu)選、智能自主決策推理等一體化智能決策理論方法。總體上看,當(dāng)前作戰(zhàn)決策系統(tǒng)仍處在計算智能階段。
強(qiáng)干擾、對抗的戰(zhàn)場空間復(fù)雜環(huán)境,必然帶來態(tài)勢生成與演化的不確定性,以及通信設(shè)備受干擾或傳輸鏈路受損可能導(dǎo)致的分布式作戰(zhàn)條件下信息不對稱,且敵方目標(biāo)行為存在多樣性,需要考慮不確定、模糊、隨機(jī)、偶發(fā)、對抗等諸多因素,在軍事領(lǐng)域中的智能作戰(zhàn)決策應(yīng)用難度大,面臨的挑戰(zhàn)主要體現(xiàn)在以下3 個方面:
(1)數(shù)據(jù)樣本稀缺。人工智能的學(xué)習(xí)需要以數(shù)據(jù)為支撐,且對數(shù)據(jù)量有很高的要求[15],如目前主流的深度學(xué)習(xí)是高度數(shù)據(jù)依賴型算法,其性能隨數(shù)據(jù)量的增加而不斷增強(qiáng),可擴(kuò)展性顯著優(yōu)于傳統(tǒng)的算法。由于實戰(zhàn)、作戰(zhàn)演練無法獲取海量可用數(shù)據(jù)樣本,作戰(zhàn)演練、仿真推演的裝備和戰(zhàn)術(shù)運(yùn)用、敵我對抗態(tài)勢等與實戰(zhàn)有較大差距,樣本數(shù)據(jù)單一、分布不均衡,作戰(zhàn)決策所需的智能認(rèn)知的樣本數(shù)據(jù)和領(lǐng)域知識極其缺乏。
(2)不透明和難解釋性。人工智能可以探索新的作戰(zhàn)規(guī)則,但其推理、決策行為過程對于人來說是一個黑盒,如深度學(xué)習(xí)架構(gòu)是在“端到端”模式下,通過標(biāo)注大量數(shù)據(jù)來進(jìn)行誤差后向傳輸而優(yōu)化參數(shù)的學(xué)習(xí)方法,高度的非線性賦予多層神經(jīng)網(wǎng)絡(luò)極強(qiáng)的模型表示能力,學(xué)習(xí)結(jié)果準(zhǔn)確率高,然而神經(jīng)網(wǎng)絡(luò)特征或決策邏輯在語義層面難以理解,可解釋性弱。
(3)可信性有待驗證。機(jī)器學(xué)習(xí)對訓(xùn)練數(shù)據(jù)的加工、標(biāo)注和數(shù)據(jù)集的構(gòu)建主要依賴作戰(zhàn)規(guī)則、專家經(jīng)驗等知識。由于指揮員作戰(zhàn)決策是高度藝術(shù)化的思維活動,可能存在作戰(zhàn)規(guī)則遍歷不充分,對人的經(jīng)驗知識提煉、標(biāo)注不規(guī)范等問題,導(dǎo)致學(xué)習(xí)結(jié)果偏離實際,且對結(jié)果的可信性缺少有效的評價標(biāo)準(zhǔn)與驗證方法[16]。
針對軍事領(lǐng)域智能作戰(zhàn)決策應(yīng)用面臨的困難與挑戰(zhàn),我們?nèi)孕柽M(jìn)一步探索人工智能技術(shù)在作戰(zhàn)決策應(yīng)用中的作用機(jī)理和實現(xiàn)途徑,提出的主要思路如下:
(1)分析研究戰(zhàn)場環(huán)境、敵我態(tài)勢、作戰(zhàn)樣式等影響作戰(zhàn)決策的各類因素,打造逼近真實的典型場景數(shù)字?jǐn)伾鷳?zhàn)場,通過決策推演提供高質(zhì)量的訓(xùn)練數(shù)據(jù)樣本支持。
(2)從理論上探索強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、可解釋性深度學(xué)習(xí)等人工智能底層算法的作用機(jī)理,通過數(shù)據(jù)特征可視化等手段,分析描述人工智能的推理和決策行為過程。
(3)進(jìn)一步完善作戰(zhàn)規(guī)則、交戰(zhàn)準(zhǔn)則和條令條例等知識體系,積累軍事領(lǐng)域?qū)<液妥鲬?zhàn)指揮員人工決策經(jīng)驗知識,規(guī)范知識結(jié)構(gòu),建立機(jī)器所能理解和掌握的知識圖譜。
(4)通過設(shè)計大量符合實戰(zhàn)的對抗推演,建立相關(guān)準(zhǔn)則進(jìn)行量化分析,研究驗證智能化技術(shù)可行性、綜合評價智能決策結(jié)論可信度與智能決策水平高低的方法。
在多域協(xié)同作戰(zhàn)條件下,為提升分布式智能作戰(zhàn)決策水平,需重點(diǎn)解決傳統(tǒng)以相對固化的模型與規(guī)則為基礎(chǔ)的輔助決策帶來的問題,研究突破態(tài)勢理解認(rèn)知、智能威脅評估、自主任務(wù)分配等核心關(guān)鍵技術(shù)。以下結(jié)合現(xiàn)有軍事智能技術(shù)水平,提出分布式智能作戰(zhàn)決策關(guān)鍵技術(shù)的一些研究思路和實現(xiàn)途徑。
戰(zhàn)場環(huán)境的復(fù)雜性帶來態(tài)勢生成與演化的不確定性,戰(zhàn)場態(tài)勢理解的正確性成為協(xié)同火力打擊的前提和關(guān)鍵。在復(fù)雜戰(zhàn)場空間大數(shù)據(jù)信息過載情況下,為了降低指揮員認(rèn)知負(fù)荷[17],增強(qiáng)人的認(rèn)知能力甚至替代主觀認(rèn)知,深層次理解、判斷敵我雙方作戰(zhàn)部署、戰(zhàn)術(shù)意圖、行動企圖等,形成多維度協(xié)同打擊態(tài)勢場,提出分布式處理條件下基于神經(jīng)網(wǎng)絡(luò)的態(tài)勢理解認(rèn)知方法,解決神經(jīng)樣本高效生成與評估問題,以獲得更快、更全、更準(zhǔn)和更深的智能態(tài)勢理解能力。
研究軍事領(lǐng)域?qū)<遗c作戰(zhàn)指揮員分析、推理和判斷作戰(zhàn)態(tài)勢的思維模式,形成態(tài)勢理解認(rèn)知的知識庫[18],分析戰(zhàn)場態(tài)勢要素與知識庫之間的映射關(guān)系,建立認(rèn)知經(jīng)驗?zāi)P停谎芯繎B(tài)勢理解認(rèn)知神經(jīng)網(wǎng)絡(luò)模型,利用神經(jīng)網(wǎng)絡(luò)深層復(fù)雜結(jié)構(gòu)的非線性表達(dá)能力和逐層理解、自動分析提取的結(jié)構(gòu),擬合建立一個從戰(zhàn)場態(tài)勢要素到指揮員認(rèn)知結(jié)果的非線性映射關(guān)系,對指揮員認(rèn)知經(jīng)驗進(jìn)行模擬;研究分布式處理條件下,多平臺異構(gòu)多粒度態(tài)勢認(rèn)知和綜合態(tài)勢推理技術(shù),解決多源協(xié)同推理中信息屬性和信息粒度差異大、沖突高,差異信息難以有效綜合的問題。在上述總體研究內(nèi)容的基礎(chǔ)上,通過樣本數(shù)據(jù)訓(xùn)練學(xué)習(xí),最終得到態(tài)勢理解認(rèn)知的結(jié)果。研究思路如圖3所示。
圖3 態(tài)勢推理認(rèn)知研究思路示意圖
敵方的飽和攻擊戰(zhàn)術(shù)使得協(xié)同作戰(zhàn)態(tài)勢呈現(xiàn)高動態(tài)、大數(shù)據(jù)等特性,這與有限武器資源的精準(zhǔn)打擊形成矛盾。為了將有限的火力資源用以攻擊最具威脅的目標(biāo),需進(jìn)行及時、準(zhǔn)確的多目標(biāo)威脅評估?,F(xiàn)有的威脅評估算法模型多基于各領(lǐng)域?qū)<业闹R規(guī)則進(jìn)行學(xué)習(xí)構(gòu)建,不同模型只能匹配特定場景類型,在工程應(yīng)用中泛化能力差,常會導(dǎo)致模型移植后性能急劇下降,有必要研究權(quán)重自學(xué)習(xí)的多平臺多目標(biāo)智能威脅評估技術(shù)。
研究目標(biāo)多威脅特征自主認(rèn)知模型,通過對作戰(zhàn)場景圖像信息的深度挖掘、戰(zhàn)場原始態(tài)勢數(shù)據(jù)的自主認(rèn)知,實現(xiàn)對目標(biāo)威脅特性的深度挖掘,自適應(yīng)提取目標(biāo)類型、作戰(zhàn)意圖、目標(biāo)作戰(zhàn)能力等影響威脅評估結(jié)果的關(guān)鍵屬性信息;研究威脅評估深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,根據(jù)目標(biāo)威脅評估結(jié)果執(zhí)行后的實時綜合攔截效能,以及實戰(zhàn)和戰(zhàn)場仿真推演生成的樣本數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)模型的在線和離線學(xué)習(xí)訓(xùn)練,并可通過樣本數(shù)據(jù)驅(qū)動、環(huán)境交互和獎懲反饋,實現(xiàn)威脅評估模型的自主成長與完善,為火力規(guī)劃與任務(wù)分配優(yōu)化提供決策依據(jù)。研究思路如圖4所示。
圖4 智能威脅評估研究思路示意圖
不確定性對抗博弈體系下的戰(zhàn)場態(tài)勢時變性和目標(biāo)行為的多樣性,對跨平臺多武器目標(biāo)任務(wù)分配的合理性、正確性、協(xié)同性帶來難題。為了支持指揮決策方案的快速準(zhǔn)確生成,實現(xiàn)作戰(zhàn)空間內(nèi)各種作戰(zhàn)力量與裝備要素的實時反應(yīng)、自主任務(wù)分配和協(xié)同行動,提出一種基于深度強(qiáng)化學(xué)習(xí)的自主任務(wù)分配技術(shù),解決瞬時強(qiáng)對抗環(huán)境下能夠提供的打擊決策數(shù)據(jù)樣本量少、傳統(tǒng)機(jī)器學(xué)習(xí)方法難以有效應(yīng)用的問題。
采用分層強(qiáng)化學(xué)習(xí)方法實現(xiàn)博弈對抗下的多域協(xié)同作戰(zhàn)自主任務(wù)分配,將大規(guī)模博弈對抗問題在狀態(tài)空間或動作空間根據(jù)時域特征進(jìn)行人為分解和抽象[19],對博弈對抗集群作戰(zhàn)下的可重構(gòu)協(xié)同任務(wù)組自主分配問題進(jìn)行求解。研究跨域集群作戰(zhàn)單元的任務(wù)規(guī)劃模型和基于深度強(qiáng)化學(xué)習(xí)的策略自主生成技術(shù),探索各種不確定性因素對多任務(wù)自主分配的影響機(jī)理,結(jié)合專家經(jīng)驗知識,建立基于專家經(jīng)驗的任務(wù)分配策略模型,根據(jù)實時戰(zhàn)場態(tài)勢為協(xié)同任務(wù)組分配子任務(wù),協(xié)同任務(wù)組根據(jù)當(dāng)前狀態(tài)和子任務(wù),對所屬平臺和傳感器、武器裝備要素進(jìn)行自主任務(wù)分配和打擊決策,將傳統(tǒng)的自成一體型多任務(wù)單元分解成可靈活組合的力量單元,通過力量單元組合或重組的多樣性,給敵方施加更高評估分析復(fù)雜度的決策壓制,支持跨域分布式殺傷網(wǎng)的實現(xiàn)。研究思路如圖5所示。
圖5 自主任務(wù)分配研究思路示意圖
本文根據(jù)多域協(xié)同作戰(zhàn)條件下智能作戰(zhàn)決策研究現(xiàn)狀,分析了分布式智能作戰(zhàn)決策應(yīng)用發(fā)展面臨的制約性問題,主要體現(xiàn)在作戰(zhàn)決策所需的智能認(rèn)知樣本數(shù)據(jù)和領(lǐng)域知識缺乏問題,推理、決策行為過程不透明和難解釋問題,決策結(jié)果的可信性缺少有效的評價標(biāo)準(zhǔn)與驗證方法問題。針對問題提出了應(yīng)用發(fā)展的一些思路,包括通過打造近真實典型場景數(shù)字?jǐn)伾鷳?zhàn)場提供訓(xùn)練數(shù)據(jù)樣本支持,從理論上探索人工智能底層算法作用機(jī)理以描述決策行為過程,完善作戰(zhàn)規(guī)則、交戰(zhàn)準(zhǔn)則和條令條例等知識體系和知識圖譜,研究綜合評價智能決策結(jié)論可信度與智能決策水平高低的方法。本文還研究了分布式智能決策關(guān)鍵技術(shù),描述了分布式處理條件下的態(tài)勢推理認(rèn)知、基于神經(jīng)網(wǎng)絡(luò)的多目標(biāo)智能威脅評估、面向博弈對抗體系的自主任務(wù)分配等關(guān)鍵技術(shù)研究思路和實現(xiàn)途徑。
本文旨在明確提出分布式智能決策應(yīng)用發(fā)展的總體思路和關(guān)鍵技術(shù)實現(xiàn)途徑,為深入開展分布式智能決策技術(shù)應(yīng)用技術(shù)研究和基于對抗博弈數(shù)字戰(zhàn)場推演的模型算法設(shè)計驗證,提供了較好的理論與方法支撐,對推進(jìn)軍事領(lǐng)域智能作戰(zhàn)決策系統(tǒng)發(fā)展具有一定的理論意義和應(yīng)用價值。