隨著軍事需求的拓展和技術(shù)進(jìn)步的推動(dòng),現(xiàn)代戰(zhàn)爭(zhēng)呈現(xiàn)出明顯的無(wú)人化趨勢(shì)。作為高效費(fèi)比、攻防兼?zhèn)涞男卵b備,無(wú)人系統(tǒng)將在未來(lái)作戰(zhàn)中發(fā)揮越來(lái)越重要的作用,承擔(dān)多種作戰(zhàn)任務(wù),不斷創(chuàng)新部隊(duì)?wèi)?zhàn)術(shù)和裝備體系。
目前,以無(wú)人機(jī)為代表的大量多域無(wú)人系統(tǒng)已進(jìn)入部隊(duì)服役,無(wú)人車、無(wú)人艇、無(wú)人潛航器也正在被加緊論證和研制,多域無(wú)人作戰(zhàn)力量體系正在加速形成。但是,當(dāng)前無(wú)人系統(tǒng)存在自主性低,在作戰(zhàn)中嚴(yán)重依賴地面人員的指揮控制,快速響應(yīng)、自主決策能力弱等突出問題。同時(shí),各類無(wú)人系統(tǒng)之間基本不具備協(xié)同作戰(zhàn)能力,缺乏有效可靠的實(shí)時(shí)任務(wù)規(guī)劃手段,難以發(fā)揮體系作戰(zhàn)優(yōu)勢(shì)。多域無(wú)人作戰(zhàn)任務(wù)規(guī)劃研究迫在眉睫。
多智能體強(qiáng)化學(xué)習(xí)概述
作為一種先進(jìn)機(jī)器學(xué)習(xí)技術(shù),強(qiáng)化學(xué)習(xí)在多域無(wú)人作戰(zhàn)任務(wù)規(guī)劃中展現(xiàn)出巨大的應(yīng)用潛力。特別是無(wú)人機(jī),通過與環(huán)境持續(xù)交互學(xué)習(xí),能夠優(yōu)化自身行為策略,以應(yīng)對(duì)復(fù)雜多變的任務(wù)場(chǎng)景。多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)是多種智能體運(yùn)用強(qiáng)化學(xué)習(xí)前沿技術(shù),不斷與環(huán)境交互、不斷試錯(cuò)來(lái)解決多種智能體序列決策問題。它不需要事先知曉外部環(huán)境的物理模型,避免了基于專家經(jīng)驗(yàn)、繁瑣的人工規(guī)則設(shè)計(jì),具有很強(qiáng)的通用性。目前,DQN、PPO、QMIX、MAAC、A2C、PSRO、PipelinePSRO、MADDPG等多智能體強(qiáng)化學(xué)習(xí)算法相繼問世,并在星際爭(zhēng)霸、谷歌足球等人工智能(AI)游戲中得到成功驗(yàn)證。多智能體強(qiáng)化學(xué)習(xí)理論的成功應(yīng)用為多域無(wú)人作戰(zhàn)任務(wù)規(guī)劃開辟了一條新路徑。
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其本質(zhì)是智能體在與環(huán)境交互的過程中不斷學(xué)習(xí)策略,以實(shí)現(xiàn)最大化回報(bào)或特定目標(biāo)。與監(jiān)督學(xué)習(xí)不同的是,強(qiáng)化學(xué)習(xí)并不指導(dǎo)智能體如何產(chǎn)生正確的動(dòng)作,只對(duì)動(dòng)作好壞做出評(píng)價(jià),并根據(jù)反饋信號(hào)修正動(dòng)作選擇和策略。因此,強(qiáng)化學(xué)習(xí)的回報(bào)函數(shù)所需的信息量較少且易于設(shè)計(jì),更適合解決較為復(fù)雜的規(guī)劃與決策問題。
當(dāng)強(qiáng)化學(xué)習(xí)在多個(gè)領(lǐng)域的應(yīng)用取得巨大成功后,工程技術(shù)人員將研究目標(biāo)轉(zhuǎn)向了多智能體領(lǐng)域,并展開大量研究,直接催生了多智能體強(qiáng)化學(xué)習(xí)理論。多智能體強(qiáng)化學(xué)習(xí)是一套解決多個(gè)智能體協(xié)同完成任務(wù)的方法集,也是智能體與環(huán)境不斷交互來(lái)學(xué)習(xí)最優(yōu)策略的方法,遵循隨機(jī)博弈過程。當(dāng)前,隨著多智能體強(qiáng)化學(xué)習(xí)理論的持續(xù)深入發(fā)展,適用不同領(lǐng)域的眾多智能架構(gòu)及算法應(yīng)運(yùn)而生,并逐步在軍事等領(lǐng)域體現(xiàn)了較高應(yīng)用價(jià)值。
多智能體強(qiáng)化學(xué)習(xí)在任務(wù)規(guī)劃中的應(yīng)用
當(dāng)以星際爭(zhēng)霸為代表的實(shí)時(shí)戰(zhàn)略游戲應(yīng)用多智能體強(qiáng)化學(xué)習(xí)算法時(shí),經(jīng)常采用這種方法:游戲中的雙方作戰(zhàn)單元被抽象為智能體,通過全局設(shè)定,智能體之間建立合作、競(jìng)爭(zhēng)等關(guān)系,而多智fd778edc55a4afeaa7eaa955ed9454f4能體強(qiáng)化學(xué)習(xí)算法以勝利為目標(biāo)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。這種方法非常適合在軍事作戰(zhàn)運(yùn)籌與任務(wù)規(guī)劃領(lǐng)域中應(yīng)用。隨著智能化戰(zhàn)爭(zhēng)時(shí)代的到來(lái),聯(lián)合全域作戰(zhàn)、分布式作戰(zhàn)等新作戰(zhàn)樣式將顛覆現(xiàn)有戰(zhàn)爭(zhēng)形態(tài)。未來(lái),觀察—判斷—決策—行動(dòng)(OODA)作戰(zhàn)環(huán)中的作戰(zhàn)單元正在由有人系統(tǒng)轉(zhuǎn)為無(wú)人系統(tǒng)集群,而對(duì)抗也從單智能體間的對(duì)抗轉(zhuǎn)向了協(xié)同作戰(zhàn)的異構(gòu)智能體集群對(duì)抗,感知、認(rèn)知、行為發(fā)展正在推動(dòng)未來(lái)指控體系邁向新臺(tái)階。
OODA作戰(zhàn)環(huán)是美國(guó)空軍傳奇人物博伊德提出的一種以觀察、判斷、決策、行動(dòng)循環(huán)來(lái)描述作戰(zhàn)對(duì)抗的軍事理論?;趯?duì)作戰(zhàn)諸要素的理解與思辨,軍方在軍事對(duì)抗中如何從全局、局部、作戰(zhàn)任務(wù)、裝備、技術(shù)等不同主線出發(fā),構(gòu)建能達(dá)到作戰(zhàn)目標(biāo)的OODA作戰(zhàn)環(huán),是不同層級(jí)軍事對(duì)抗制勝之鑰。從作戰(zhàn)運(yùn)籌學(xué)的角度出發(fā),作戰(zhàn)任務(wù)作為核心要素,存在于OODA作戰(zhàn)環(huán)構(gòu)建的全過程。本文以O(shè)ODA作戰(zhàn)環(huán)中的子作戰(zhàn)任務(wù)規(guī)劃需求為主線,構(gòu)建OODA作戰(zhàn)環(huán)。
OODA作戰(zhàn)環(huán)中的作戰(zhàn)任務(wù)規(guī)劃包含諸多子任務(wù)規(guī)劃。下面選取威脅預(yù)估、策略制定、路徑規(guī)劃、火力分配四個(gè)子任務(wù)規(guī)劃進(jìn)行簡(jiǎn)要分析。
威脅預(yù)估
威脅預(yù)估是判斷環(huán)節(jié)任務(wù)規(guī)劃的重點(diǎn)工作。依據(jù)敵我雙方的兵力部署、裝備性能、敵方攻擊意圖和我方作戰(zhàn)策略,多智能體強(qiáng)化學(xué)習(xí)機(jī)制采用定量分析方法對(duì)敵方威脅等級(jí)進(jìn)行評(píng)估。快速多變的現(xiàn)代戰(zhàn)場(chǎng)要求指揮員必須具備更快的超前反應(yīng)能力和更強(qiáng)的作戰(zhàn)指揮能力,從戰(zhàn)場(chǎng)上海量多源信息中實(shí)時(shí)分析和評(píng)估目標(biāo)威脅等級(jí),從而盡可能提前制定對(duì)抗敵方作戰(zhàn)行動(dòng)的決策,而不是在敵方行動(dòng)后再做出決策。這種超前決策行動(dòng)更適合復(fù)雜、多變、突發(fā)性強(qiáng)的未來(lái)作戰(zhàn)場(chǎng)景,能發(fā)揮非常重要的作用。提高戰(zhàn)場(chǎng)制勝能力的關(guān)鍵舉措是,己方及時(shí)準(zhǔn)確評(píng)估敵方目標(biāo)威脅等級(jí),并根據(jù)己方作戰(zhàn)方案和作戰(zhàn)系統(tǒng)性能,提前規(guī)劃科學(xué)合理的火力分配方案,提前制定打擊決策。
策略制定
策略制定是決策環(huán)節(jié)任務(wù)規(guī)劃的核心工作。隨著戰(zhàn)爭(zhēng)向信息化、智能化方向發(fā)展,軍方越來(lái)越需要智能規(guī)劃與決策系統(tǒng)來(lái)輔助指揮員進(jìn)行作戰(zhàn)規(guī)劃和指揮。智能規(guī)劃與決策系統(tǒng)消除了人的主觀因素影響,具有自我學(xué)習(xí)、修正、推理和決策能力,顯著提高了作戰(zhàn)任務(wù)規(guī)劃的準(zhǔn)確性和實(shí)時(shí)性,提升了情報(bào)分析、輔助決策和指揮控制能力。
美國(guó)國(guó)防預(yù)研局“深綠”計(jì)劃采用計(jì)算機(jī)仿真技術(shù)與深度強(qiáng)化學(xué)習(xí)技術(shù)來(lái)推演不同作戰(zhàn)方案可能產(chǎn)生的結(jié)果,通過預(yù)估敵方行動(dòng),智能系統(tǒng)縮短了美軍制訂作戰(zhàn)計(jì)劃的時(shí)間,輔助指揮員快速做出正確決策。
深腦(DeepMind)公司開發(fā)的強(qiáng)化學(xué)習(xí)決策系統(tǒng)在多種戰(zhàn)略任務(wù)執(zhí)行過程中可以達(dá)到與人類匹敵的效果,甚至在某些特定場(chǎng)景下超越了人類智慧,為作戰(zhàn)任務(wù)規(guī)劃提供了解決方案。
路徑規(guī)劃
在行動(dòng)環(huán)節(jié),作戰(zhàn)單元路徑規(guī)劃是任務(wù)規(guī)劃的基石。路徑規(guī)劃可分為全局路徑規(guī)劃和局部路徑規(guī)劃。與其他路徑規(guī)劃算法相比,強(qiáng)化學(xué)習(xí)具有一個(gè)重要優(yōu)勢(shì),它不依賴環(huán)境建模,不需要環(huán)境先驗(yàn)知識(shí),只需發(fā)出獎(jiǎng)勵(lì)信號(hào),智能體便采用試錯(cuò)的方式,與周圍環(huán)境不斷交互,最終找出最優(yōu)策略。強(qiáng)化學(xué)習(xí)方法將傳感器收集的外界環(huán)境數(shù)據(jù)映射到執(zhí)行器,從而使智能體對(duì)外界環(huán)境變化做出快速響應(yīng),實(shí)現(xiàn)自主路徑規(guī)劃。該方法具有實(shí)時(shí)、快速和魯棒性強(qiáng)的優(yōu)點(diǎn)。此外,模仿強(qiáng)化學(xué)習(xí)、強(qiáng)化互學(xué)習(xí)以及部分基于模型的強(qiáng)化學(xué)習(xí)方法可以有效利用機(jī)理模型等先驗(yàn)信息,提升采樣樣本的利用效率,從而大大提升規(guī)劃效率與準(zhǔn)確率。
火力分配
火力分配是行動(dòng)環(huán)節(jié)任務(wù)規(guī)劃的最終工作?;谕{預(yù)估和目標(biāo)排序,己方對(duì)裝備打擊敵方目標(biāo)的方式做出決策。在作戰(zhàn)場(chǎng)景中,敵我雙方裝備具有多樣性、對(duì)抗性和不確定性等特征,而矩陣對(duì)策法、優(yōu)勢(shì)函數(shù)法、優(yōu)化指向向量法等傳統(tǒng)火力分配方法難以快速準(zhǔn)確完成最優(yōu)火力分配。智能體利用基于強(qiáng)化學(xué)習(xí)的火力分配方法,能夠感知自身所處的戰(zhàn)場(chǎng)環(huán)境,并通過獎(jiǎng)勵(lì)反饋,自適應(yīng)外部環(huán)境,從而構(gòu)建更加準(zhǔn)確合理的戰(zhàn)場(chǎng)火力分配模型?,F(xiàn)有算法將作戰(zhàn)火力分配建模抽象為整數(shù)規(guī)劃問題,并采用中心化或去中心化的傳統(tǒng)優(yōu)化算法進(jìn)行求解。
綜上分析,以作戰(zhàn)任務(wù)規(guī)劃為主線,戰(zhàn)略、戰(zhàn)術(shù)目標(biāo)被分解,諸多作戰(zhàn)環(huán)節(jié)中的二級(jí)任務(wù)、三級(jí)任務(wù)形成邊界模糊、拓展性強(qiáng)的作戰(zhàn)任務(wù)空間。在時(shí)空驅(qū)動(dòng)和事件觸發(fā)下,任務(wù)規(guī)劃方法按照因果邏輯規(guī)則,朝著序列化、柵格化方向發(fā)展,而OODA作戰(zhàn)環(huán)持續(xù)迭代,成為OODA作戰(zhàn)網(wǎng),諸多復(fù)雜作戰(zhàn)體系相應(yīng)出現(xiàn)。多智能體強(qiáng)化學(xué)習(xí)算法可以利用激勵(lì)反饋機(jī)理、集中式架構(gòu)、分布式架構(gòu)等,完成作戰(zhàn)任務(wù)規(guī)劃中的輔助感知與決策,從而提升體系作戰(zhàn)效能。
總結(jié)
在未來(lái)智能化、信息化作戰(zhàn)背景下,軍方將對(duì)多域無(wú)人作戰(zhàn)體系進(jìn)行仿真,在任務(wù)規(guī)劃中應(yīng)用多智能體強(qiáng)化學(xué)習(xí)技術(shù)。在指揮控制和情報(bào)保障無(wú)縫銜接的基礎(chǔ)上,基于最新態(tài)勢(shì)和目標(biāo),完成超實(shí)時(shí)仿真分析與效能評(píng)估,預(yù)測(cè)戰(zhàn)爭(zhēng)走勢(shì),透視戰(zhàn)場(chǎng)未來(lái)變化。同時(shí),在作戰(zhàn)過程中,實(shí)現(xiàn)作戰(zhàn)資源動(dòng)態(tài)、靈活配置,不斷優(yōu)化調(diào)整作戰(zhàn)行動(dòng)方案。