張婷婷 楊學軍
2015 年美國戰(zhàn)略與預(yù)算評估中心(Center for Strate gic and Budgetary Assessments,CSBA)在報告《維持美國精確打擊優(yōu)勢》中提出巡飛彈實施飽和攻擊的概念[1],是指攻擊方為實現(xiàn)突防、打擊敵方目標,采用分布式集群作戰(zhàn)思想,由大量具有自主行動能力的巡飛彈在極短時間對敵方高價值目標實施密集式攻擊,以壓迫對方防空系統(tǒng)的多目標處理能力,在短時間內(nèi)處于無法應(yīng)付的飽和狀態(tài),確保部分巡飛彈成功突防,為后續(xù)的武裝力量進入打開通道[2-3].目前,城市化的快速發(fā)展與城市暴亂的多點發(fā)生使城市作戰(zhàn)成為重要的戰(zhàn)斗形式,如俄烏之戰(zhàn)下的基輔,因此,城市作戰(zhàn)在現(xiàn)代戰(zhàn)爭中日益突顯其重要性[4].俄烏軍事沖突證明了使用無人機、巡航導彈等空中力量對城市進行打擊是一種迅速癱瘓敵方防御措施的致命手段.隨著俄烏雙方的防空系統(tǒng)不斷升級、烏克蘭對精確火炮、無人機和巡飛彈的熟練使用都表明規(guī)模較小、更輕型的空襲作戰(zhàn)力量能夠抵擋俄羅斯的強勢進攻行動.隨著俄烏沖突進入“襲城戰(zhàn)”階段,雙方的作戰(zhàn)模式也發(fā)生著改變,俄羅斯的巡航導彈對烏克蘭進行密集火力打擊,烏克蘭也采用一系列空襲措施對俄進行消耗壓制,在雙方的力量對抗中,城市戰(zhàn)正在發(fā)生了變化,如何借鑒俄烏沖突中使用新型作戰(zhàn)力量應(yīng)對城市戰(zhàn)的戰(zhàn)略思考將成為新的挑戰(zhàn),城市在將繼續(xù)在武裝沖突中發(fā)揮核心作用,美國國防問題專家認為要把城市作戰(zhàn)理論研究提升到戰(zhàn)略高度,美空軍也提出了未來在擁擠的城市地區(qū)對目標進行精確打擊的新概念.“班組X 實驗”(Squad X)是美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DARPA)在2015 年推動的一項創(chuàng)新研究項目,致力于將無人系統(tǒng)、人工智能等傳統(tǒng)戰(zhàn)術(shù)相結(jié)合,幫助在城市作戰(zhàn)等復雜環(huán)境中更加靈活、高效地執(zhí)行任務(wù)[5],城市中建筑物分布密集,街道小巷錯綜復雜.城市戰(zhàn)場的無人集群作戰(zhàn)目前相關(guān)研究有限,具有很高的研究價值.文獻[6]提出了無人機與爬行機器人等混合編組運用的城市巷戰(zhàn)作戰(zhàn)運用構(gòu)想.文獻[7]針對城市環(huán)境中小型無人機性能受限、通信受限以及分布式協(xié)同的挑戰(zhàn),設(shè)計了一個多無人機分布式協(xié)同搜索系統(tǒng)架構(gòu),提出了一種基于納什均衡的分布式協(xié)同搜索方法.巡飛彈作為一種高精度、高效率的武器裝備,具有極強的突防能力,可以執(zhí)行高風險任務(wù)甚至自殺式任務(wù)[8],在城市復雜地形的制約下,攜帶巡飛彈的小規(guī)模班組作戰(zhàn)方式能靈活地完成各種任務(wù),適用于城市場景下反恐行動[9].在城市中,恐怖分子通常會在藏匿的建筑物外部署一定的防御工事,并利用地形干擾以及使用電子干擾等手段在其附近設(shè)置干擾區(qū).為實現(xiàn)在復雜的城市環(huán)境中實現(xiàn)精準打擊恐怖分子,要求巡飛彈集群具備自主智能[10-11]: 巡飛彈在不確定環(huán)境下,能夠應(yīng)對外界干擾,自主規(guī)劃航跡路線,實現(xiàn)對目標的飽和攻擊.如何讓巡飛彈提高智能性和自主性,實現(xiàn)完成飽和攻擊等合作任務(wù),達成高效協(xié)作,是巡飛彈集群最大的挑戰(zhàn)之一[12-13].傳統(tǒng)巡飛彈合作方式的設(shè)計通常依賴專家經(jīng)驗,采用基于規(guī)則的策略或者群體智能算法,其中,包括粒子群算法[14]、狼群算法[15-16]和蟻群算法[17]等.這種設(shè)計方式在一定程度上可以達成巡飛彈合作的目標,但也存在一些問題.基于規(guī)則的策略需要預(yù)先設(shè)計大量規(guī)則,當任務(wù)復雜度增加時,規(guī)則就會變得越來越復雜,難以維護和擴展.由于任務(wù)環(huán)境的不確定性和動態(tài)變化,群體智能算法很難在實時性和準確性之間找到平衡點,存在計算效率低、靈活性差、智能化低等缺點,無法很好滿足巡飛彈分布式協(xié)同決策與控制的要求[18].相比之下,多智能體強化學習(multi-agent reinforcement learning,MARL)將決策層和控制層相結(jié)合,既能解決巡飛彈集群系統(tǒng)的分布式控制問題,又能使其具備自主決策能力[19-20].針對無模型或者建模復雜的協(xié)同決策系統(tǒng),MARL 將任務(wù)表示為目標(獎勵)函數(shù),以優(yōu)化方式模擬多個智能體與環(huán)境的相互作用,期望找到一個最大化目標(獎勵)函數(shù)的策略[21],同時可以描述動態(tài)環(huán)境下的多個智能體聯(lián)合行為,已然成為解決復雜決策問題的方案之一[22-23].已經(jīng)有一些工作嘗試將多智能體強化學習應(yīng)用到飽和攻擊場景,但研究只考慮了兩架無人機的簡易場景仿真,無法匹配現(xiàn)實場景[24].
城市場景下巡飛彈飽和攻擊作戰(zhàn)往往面臨通信拒止環(huán)境[25],以及需要應(yīng)對恐怖分子利用城市建筑物與地形以及大量電子干擾設(shè)備的防空體系干擾.因此,巡飛彈實施自主協(xié)同飽和攻擊時面臨以下難題:
1)機載傳感器觀測范圍有限,單個巡飛彈僅能觀測到有限的態(tài)勢信息.巡飛彈與地面指控臺站基本無法通信,需要巡飛彈進行本地決策.
2)飽和攻擊任務(wù)的完成需要多個巡飛彈在極小的時間間隔內(nèi)同時到達進行攻擊.
3)反恐任務(wù)環(huán)境較為復雜,巡飛彈需要繞開恐怖分子設(shè)置的干擾區(qū),同時避免機間碰撞,才能抵達目標點.
針對上述挑戰(zhàn),圍繞城市場景反恐中巡飛彈自主協(xié)同飽和攻擊問題開展研究.考慮在此任務(wù)中實行班組作戰(zhàn),一個班組由4 名人員組成,每名人員攜帶3個巡飛彈,總計12 個巡飛彈.為此,研究內(nèi)容包括:
1)提出基于MARL 的巡飛彈自主協(xié)同飽和攻擊方法.針對沒有指揮控制中心為巡飛彈提供信息支撐和決策支撐、巡飛彈中個體感知范圍有限的問題,將巡飛彈自主決策問題建模為基于分布式部分可觀測馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP)的序貫決策問題,即按時間順序排列起來,得到按順序的巡飛彈行為策略.考慮到巡飛彈飽和攻擊任務(wù)的合作需求與分布式?jīng)Q策的特性,采用循環(huán)多智能體深度確定性策略梯度算法(recurrent multi-agent deep deterministic policy gradient,R-MADDPG)訓練算法以實現(xiàn)巡飛彈集群的協(xié)同.
2)設(shè)計了確保巡飛彈同時到達的專用獎勵函數(shù),將所有巡飛彈與目標點距離的標準差作為獎勵依據(jù),約束了巡飛彈飛行途中的速度,從而降低各個巡飛彈到達目標點的時間間隔.
3)設(shè)計了巡飛彈規(guī)避機間碰撞、避開干擾區(qū)和到達目標位置的獎勵函數(shù),為這些獎勵函數(shù)設(shè)計了聯(lián)合權(quán)重參數(shù),將機間碰撞規(guī)避、空中突防、同時打擊作為評價指標,利用蒙特卡羅方法進行仿真實驗來驗證所提出的巡飛彈自主協(xié)同飽和攻擊方法的有效性.
相較先前的相關(guān)工作,本文的創(chuàng)新點包括:
1)建立了一個城市中巡飛彈自主協(xié)同飽和攻擊的任務(wù)場景,擴展了需要實現(xiàn)自主協(xié)同的巡飛彈數(shù)量.
2)提出了一個基于多智能體強化學習技術(shù)的算法來完成巡飛彈自主協(xié)同飽和攻擊任務(wù),設(shè)計了確保巡飛彈同時到達的專用獎勵函數(shù).
3)任務(wù)場景的仿真實驗結(jié)果表明,采用本文算法訓練的巡飛彈在多個評價指標下均有良好表現(xiàn),能夠有效完成自主協(xié)同飽和攻擊任務(wù).
巡飛彈飽和攻擊的概念指攻擊方為實現(xiàn)突防、打擊敵方目標,采用分布式集群作戰(zhàn)思想,由大量具有自主作戰(zhàn)能力的巡飛彈,在極短時間內(nèi)實施自殺式攻擊,使敵方防空系統(tǒng)在該時間段內(nèi)陷入過載狀態(tài),出現(xiàn)空防漏洞,確保部分巡飛彈成功突防[1].
所研究的巡飛彈飽和攻擊問題增加了干擾區(qū)(inference zones,IZs)概念,即模擬恐怖分子利用城市建筑物與地形以及大量電子干擾設(shè)備所構(gòu)建的防空區(qū)域,巡飛彈繞開恐怖分子部署的防空區(qū)域插入其縱深或后方,對目標建筑進行飽和攻擊,作戰(zhàn)想定如圖1 所示.整個過程巡飛彈決策系統(tǒng)需要通過自主決策,形成飛行軌跡和行為策略,從而實現(xiàn): 1)盡可能地避開干擾區(qū),增加突防成功率.2)飛行途中規(guī)避其他巡飛彈,避免機間碰撞.3)多機之間通過時間協(xié)同實現(xiàn)飽和攻擊.
圖1 巡飛彈飽和攻擊想定示意圖Fig.1 The scenario diagram of saturation attack of loitering munitions
為描述巡飛彈的機動行為及其狀態(tài)轉(zhuǎn)移過程.假設(shè)所巡飛彈的飛行高度恒定,巡飛彈i 的狀態(tài)為表示巡飛彈i 在二維慣性坐標系中的位置,φi是航向角.巡飛彈i 從時刻t到時刻t+1 的近似離散動力學模型如下:
為研究飽和攻擊場景下的巡飛彈協(xié)同,這里圍繞巡飛彈與目標點間的時空態(tài)勢進行分析.
1.2.1 巡飛彈空間態(tài)勢
如圖2 所示,選取機間相對位置信息和巡飛彈與打擊目標之間的相對位置信息來描述戰(zhàn)場空間態(tài)勢,空間態(tài)勢信息計算方程如式(2)~式(5).
圖2 巡飛彈與目標點間的時空態(tài)勢Fig.2 Space-time situation between loitering munitions and the target points
1.2.2 巡飛彈時間協(xié)同
時間協(xié)同是飽和攻擊任務(wù)的基本要求和顯著特點,即所有無人機同時或在極短間隔時間內(nèi)到達目標位置,其目的是通過大密度、短時間內(nèi)同時進攻使敵方防空系統(tǒng)達到飽和,利用敵防空火力時間間隙確保部分巡飛彈成功突防[26].式(6)表示了巡飛彈i與巡飛彈j 攻擊時間間隔,其中,tic與tjc分別代表巡飛彈i 與巡飛彈j 抵達目標點所用的總時間.
自主決策的目標是在滿足單個巡飛彈動力學模型和時空約束的同時,逐步根據(jù)戰(zhàn)場態(tài)勢生成從當前狀態(tài)/起始位置到期望位置的動作序列.
在離散或連續(xù)的時間片上,巡飛彈通過選擇合適的動作序列來完成既定目標的過程可以建模為序貫決策問題(sequential decision problem)[27].分布式部分可觀測馬爾可夫決策過程作為一種典型的序貫決策模型,用于描述具有局部觀測性與不確定性的多智能體行為決策場景.與MDPs 一樣,Dec-POMDPs 所針對的動作層次可以變化,既可以將動作建模為底層的控制輸入(例如加速度、角速度等)[28-29],又可以建模為更高級別的任務(wù)(例如目標分配、資源調(diào)度等)[30-31].
2.2.1 單個巡飛彈觀測信息
巡飛彈i 的觀測信息可以用向量oi表示:
巡飛彈的觀測信息和決策所需的狀態(tài)輸入如表1 所示.
表1 tk 時刻下巡飛彈觀測的變量Table 1 The variables observed of the loitering munitions(LM)at time tk
2.2.2 動作輸出
每個時間步tk,巡飛彈i 動作輸出包括兩種類型的動作,即關(guān)于前向加速度和轉(zhuǎn)向加速度的連續(xù)控制變量
基于Dec-MOMDPs 的巡飛彈自主協(xié)同飽和攻擊模型通過觀測狀態(tài),根據(jù)策略作出關(guān)于行動的決策,進而生成相關(guān)控制量,迭代重復這一步驟可以得到巡飛彈的決策過程,即式(8)所示的狀態(tài)-動作序列.然而,決策的優(yōu)劣取決于策略求解.如式(10)所示,在決策模型已知的情況下可以估計出策略帶來的累計獎勵,獎勵值越大說明策略越好.因此,需要選擇合適的方法來求解策略.
Dec-MOMDPs 的求解復雜度為NEXP-完全.當前以MADDPG 為代表的MARL 方法,已被證明能夠通過訓練多智能體學習協(xié)同策略來近似求解Dec-MOMDPs 模型[32-33].但這些方法缺少對智能體之間的顯式通信進行建模,并且在執(zhí)行的過程中沒有智能體之間的信息交互,導致信息共享不足,智能體之間的協(xié)作能力較差,很難滿足飽和攻擊任務(wù)對巡飛彈自主協(xié)同決策的要求.
為此,采用循環(huán)多智能體深度確定性策略梯度模型(R-MADDPG)來求解策略,其中,包括以下考慮:
1)每架巡飛彈的機載傳感器有限,因此,決策模型具有局部觀測性與不確定性.
2)在局部觀測條件下,巡飛彈作為智能體需要信息交互,才能在執(zhí)行過程中作出更好的決策和訓練過程中收斂到更好的策略.
3)中心化訓練分布式執(zhí)行的架構(gòu)有利于巡飛彈學習協(xié)同飽和攻擊策略,并在任務(wù)執(zhí)行時實現(xiàn)自主決策.
R-MADDPG 算法是基于MADDPG 的改進,針對局部觀測和有限通信的場景,采用循環(huán)多智能體Actor-Critic 結(jié)構(gòu)實現(xiàn)多智能體之間的協(xié)同,同樣采用集中式訓練的方法更新策略.區(qū)別是,RMADDPG 同時學習動作策略和通信策略,即在智能體與環(huán)境互動的過程中存在同其他智能體的信息交互;在分布式執(zhí)行的過程中允許智能體之間通過通信獲取其他觀測來提高信息建模能力.具體方法是,在智能體執(zhí)行過程中,使用局部觀測和其他智能體的通信信息作為策略網(wǎng)絡(luò)的輸入,再根據(jù)其輸出采取行動和發(fā)送通信消息在訓練過程中,從經(jīng)驗池取出所有智能體同一時刻的狀態(tài)轉(zhuǎn)移數(shù)據(jù)來指導價值網(wǎng)絡(luò)訓練,其算法框架如圖3 所示.
圖3 基于R-MADDPG 的訓練框架Fig.3 The training framework based on R-MADDPG
圖4 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of network
對于智能體i:
對于智能體i:
2)用貝爾曼方程計算執(zhí)行當前動作帶來的累積回報,如下:
3)通過Critic 網(wǎng)絡(luò)計算價值網(wǎng)絡(luò)輸出的Q 值,表示為
4)基于TD 偏差用梯度下降的方法來更新價值網(wǎng)絡(luò)的權(quán)重參數(shù),價值網(wǎng)絡(luò)參數(shù)的更新公式如下:
所有智能體依照相同的方式更新自身的網(wǎng)絡(luò).策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)的結(jié)構(gòu)如圖4 所示,均由一個輸入層、一個隱藏層和一個輸出層組成,每層包括64 個神經(jīng)元.輸入層由一個全連接層和ReLU 層組成,輸出層由一個全連接層組成且輸出是線性的,隱藏層包括64 個LSTM 神經(jīng)元.其中,c 是單位狀態(tài),決定神經(jīng)元應(yīng)該記住哪些信息并遺忘哪些信息;ht-1是前一時間步所有的隱藏信息.
3.4.1 獎勵函數(shù)設(shè)計
城市場景下巡飛彈自主協(xié)同飽和攻擊任務(wù)中,巡飛彈需要在極小的時間差內(nèi)同時到達目標點進行飽和打擊,而傳統(tǒng)的多智能體強化學習算法往往難以解決集群同時到達目標點的問題,面對此特定任務(wù)的需要,提出一種專用獎勵機制函數(shù).
獎勵函數(shù)R 的描述如下:
其中,獎勵函數(shù)由兩部分組成:
1)Rsa為確保巡飛彈同時到達目標點所設(shè)置的獎勵函數(shù);假設(shè)有n 個巡飛彈,每個巡飛彈到目標點的距離為計算這n 個值的標準差σ,以距離的標準差的負值作為巡飛彈的獎勵函數(shù).如下:
該獎勵函數(shù)的設(shè)計旨在鼓勵每個巡飛彈與目標點的距離盡可能一致.當巡飛彈集群中的巡飛彈與目標點之間的距離標準差較大時,獎勵函數(shù)會給予巡飛彈較大的懲罰,促使相對接近目標點的巡飛彈減緩它們的飛行速度,同時激勵距離較遠的巡飛彈盡快向目標點移動,這樣,所有巡飛彈縮小了與目標點相對距離的差距,使得每個巡飛彈與目標點的距離基本一致,從而確保巡飛彈能夠在極小的時間間隔內(nèi)同時到達目標點.
2)Rdist作為巡飛彈避開干擾區(qū)IZs、到達目標位置和碰撞規(guī)避的獎勵;Rdist獎勵函數(shù)如下:
其中,RIZ是避開干擾區(qū)的獎勵函數(shù);RT是到達目標位置的獎勵函數(shù);Rca是規(guī)避機間碰撞的獎勵函數(shù)計算方式如表2 所示.
表2 獎勵函數(shù)計算方式Table 2 The calculation mode of reward function
獎勵值的設(shè)定如下:
其中,dIZ是巡飛彈距離IZs 中心的距離;rIZ是攔截空域半徑;dij是巡飛彈與其他巡飛彈的距離;代表各項獎勵值.
獎勵函數(shù)RIZ與Rca分別在巡飛彈進入干擾區(qū)以及與其他巡飛彈距離過近時,給予巡飛彈一定的懲罰,使得巡飛彈能夠?qū)W會避開干擾區(qū)和避免機間碰撞.獎勵函數(shù)RT根據(jù)巡飛彈與目標點的距離遠近為巡飛彈分配獎勵,促使巡飛彈學會向目標點方向移動.
針對城市場景下巡飛彈自主飽和攻擊的特定任務(wù),提出了專用獎勵函數(shù)以確保巡飛彈避開干擾區(qū)與避免機間碰撞,并且在極小的時間間隔內(nèi)同時到達目標點,以實現(xiàn)飽和攻擊.
3.4.2 聯(lián)合權(quán)重參數(shù)設(shè)計
權(quán)重參數(shù)體現(xiàn)了每個獎勵的相對重要性,與巡飛彈飛行路徑的期望直接相關(guān).因此,根據(jù)飽和攻擊任務(wù)的特點將避開干擾區(qū)、到達目標位置、機動碰撞規(guī)避、同時攻擊作為指標并明確指標優(yōu)先級,設(shè)置相應(yīng)權(quán)重值作為實驗參數(shù),如表3 所示.
表3 獎勵函數(shù)權(quán)重參數(shù)設(shè)置Table 3 The weight parameter setting of reward function
3.4.3 自主協(xié)同飽和攻擊策略訓練算法設(shè)計
巡飛彈自主協(xié)同飽和攻擊策略訓練算法流程如算法1 所示.
訓練算法所用的參數(shù)值設(shè)置如表4 所示.
表4 訓練參數(shù)設(shè)置Table 4 The parameter settings for training
在本文仿真的城市場景反恐行動中,實行班組作戰(zhàn)方式,一個班組包括4 名人員,每名人員攜帶3個巡飛彈,總計12 個巡飛彈.班組需要利用這些巡飛彈進行飽和攻擊,以摧毀反恐目標.恐怖分子在目標點外利用地形干擾與電子干擾設(shè)備構(gòu)建了干擾區(qū),并在目標點部署了一定的防御工事進行防御.假設(shè)反恐目標點的反制措施僅能有效地抵御10 枚及以下的巡飛彈在0.4 s 的時間間隔中的同時攻擊.在這種情景中,需要巡飛彈集群實現(xiàn)自主協(xié)同飽和攻擊來實現(xiàn)反恐目標.為體現(xiàn)本文算法的適應(yīng)性與泛化能力,每個回合開始時,目標點位置與干擾區(qū)位置在一定區(qū)域內(nèi)隨機選擇.相關(guān)實驗設(shè)置如表5 所示.
表5 訓練場景設(shè)置Table 5 The setting of training scenarios
為對所提出的方法進行定量評估,使用蒙特卡洛方法來評價訓練后的巡飛彈自主協(xié)同飽和攻擊決策優(yōu)劣.根據(jù)飽和攻擊的特點設(shè)計: 1)機間避撞規(guī)避.2)巡飛彈避障.3)同時打擊3 個評估指標.
4.1.1 機間碰撞規(guī)避
機間碰撞規(guī)避是巡飛彈機動的基本要求,rsafe是兩個巡飛彈之間的安全飛行距離,dij是巡飛彈i 與巡飛彈j 的相對距離.如果在到達目標點的飛行途中存在dij≤rsafe,則視為巡飛彈i 與巡飛彈j 發(fā)生了機間碰撞.通過統(tǒng)計存在機間碰撞發(fā)生的回合的數(shù)量來定量計算機間碰撞規(guī)避概率Pca,計算式(20):
其中,Nca為蒙特卡洛模擬中發(fā)生機間碰撞的回合數(shù)量;m 是蒙特卡洛模擬的回合總次數(shù).
4.1.2 空中突防
巡飛彈自主飛行避開干擾區(qū)實現(xiàn)突防是飽和攻擊任務(wù)成功的前提.rIZ是干擾區(qū)攔截空域半徑,dIZ是巡飛彈距離干擾區(qū)中心的距離.如果巡飛彈i 飛進干擾區(qū)范圍內(nèi),即dIZ<rIZ,則記為巡飛彈i 避障失敗.通過統(tǒng)計避障失敗的巡飛彈數(shù)量來定量計算突防成功概率PIZ,計算式(21):
其中,NIZ(i)是第i 回合中未能繞開干擾區(qū)的巡飛彈數(shù)量;m 是蒙特卡洛模擬的次數(shù);n 是每個回合中巡飛彈的數(shù)量.
4.1.3 同時打擊
飽和攻擊的關(guān)鍵是實現(xiàn)在極小的時間間隔內(nèi),同時打擊的巡飛彈數(shù)量超過目標反制能力.通過統(tǒng)計成功完成飽和攻擊任務(wù)的數(shù)量來定量計算飽和攻擊的成功率.
其中,Ns是成功實現(xiàn)飽和攻擊的回合數(shù)量;m 是蒙特卡洛模擬的次數(shù).
面對環(huán)境中不同位置的干擾區(qū)與目標點,使用蒙特卡洛方法對巡飛彈自主飽和攻擊的過程進行仿真模擬.圖5 展示了一回合中12 個巡飛彈的航跡圖示例.
圖5 一回合中巡飛彈的航跡圖示例Fig.5 Flight path map of loitering munitions in one round turn
從以下各方面對巡飛彈自主飽和攻擊策略進行分析.
4.2.1 巡飛彈機間碰撞規(guī)避
進行了1 000 次的蒙特卡洛仿真實驗,發(fā)生機間碰撞的情況如圖6 所示.
圖6 每回合發(fā)生機間碰撞的次數(shù)Fig.6 Times of collision of LMs in one round turn
在1 000 次的仿真中,944 個回合沒有發(fā)生任何機間碰撞,其余56 個回合中僅發(fā)生一次碰撞,機間避碰成功率為94.4%,驗證了所設(shè)計的避免機間碰撞的獎勵函數(shù)Rca的有效性.
4.2.2 空中突防
為了成功實現(xiàn)空中突防,巡飛彈需要能夠自主繞開干擾區(qū).進行了1 000 次的蒙特卡洛仿真實驗,每次仿真中,成功完成避障的巡飛彈數(shù)目如圖7 所示.
圖7 每回合完成避障的巡飛彈數(shù)目Fig.7 Number of loitering munitions avoiding collision in one round turn
在1 000 次的仿真中,每回合至少有11 個巡飛彈能夠成功完成避障.其中,12 個巡飛彈全部繞開干擾區(qū)的次數(shù)為943,占總體的94.3%.巡飛彈11 943次自主繞開干擾區(qū),只有57 次沒有繞開,避障成功率高達99.5%.這證明了所設(shè)計的繞開干擾區(qū)的獎勵函數(shù)RIZ具有很好的有效性和實用性,能夠幫助巡飛彈智能地繞開干擾區(qū),提高了巡飛彈的避障能力.
4.2.3 同時打擊
同時打擊要求巡飛彈在0.4 s 的時間間隔內(nèi)到達目標點同時打擊.1 000 次仿真中巡飛彈到達最大時間間隔如圖8 所示.
圖8 每回合巡飛彈到達的最大時間間隔Fig.8 The maximum time interval of the arrival of loitering munitions in one round turn
可以看出,巡飛彈到達最大時間間隔集中在0.4 s以下,其中,0.4 s 內(nèi)的次數(shù)為953,占全部次數(shù)的95.3%.
成功的飽和攻擊對同時打擊存在數(shù)量上的要求,在1 000 次仿真中,10 個以上巡飛彈在0.4 s 的時間間隔內(nèi)到達目標點同時打擊的回合數(shù)為932,即巡飛彈自主協(xié)同飽和攻擊的成功率為93.2%.
4.2.4 確保巡飛彈同時到達的獎勵函數(shù)的作用
為了確保巡飛彈能夠同時到達目標點,設(shè)計了一種專用獎勵函數(shù)Rsa,該獎勵函數(shù)針對飽和攻擊這一特殊任務(wù)進行了設(shè)計.為了驗證獎勵函數(shù)Rsa的作用,設(shè)計了消融實驗,對不采用獎勵函數(shù)Rsa的算法變體進行了訓練,并采用蒙特卡洛方法對巡飛彈到達目標點的最大時間間隔進行了仿真.
實驗結(jié)果如圖9 所示,不采用獎勵函數(shù)Rsa的情況下,巡飛彈到達目標點的最大時間間隔主要分布在0.5 s~0.9 s 的區(qū)間里.而采用獎勵函數(shù)Rsa后,巡飛彈到達目標點的最大時間間隔集中在0.4 s 以內(nèi).這表明,本文所設(shè)計的獎勵函數(shù)Rsa能夠有效提升巡飛彈飽和攻擊策略的性能,降低了飽和攻擊最大時間間隔的25%~56%,驗證了獎勵函數(shù)Rsa的重要性.
圖9 獎勵函數(shù)Rsa 對巡飛彈執(zhí)行飽和攻擊的影響Fig.9 Impact of reward function Rsa on performance of saturation attack by loitering munitions
圖10 展示了巡飛彈繞開干擾區(qū)后,至目標點距離的標準差和時間的關(guān)系,每一回合的數(shù)據(jù)用一條線表示.在完成繞開干擾區(qū)的過程中,巡飛彈更傾向于完成避障操作,飛行軌跡會變得復雜和不確定.因此,為了考察獎勵函數(shù)Rsa的作用,減少其他獎勵函數(shù)的干擾,僅從繞開干擾區(qū)(完成避障)的時間點開始分析.如圖11 所示,所有巡飛彈與目標點距離的標準差隨時間推移呈現(xiàn)一個明顯的下降趨勢,說明在獎勵函數(shù)Rsa的作用下,巡飛彈集群學會了在靠近目標點的過程中縮小與目標點距離的相對差距.特別地,即將到達目標點位置時,標準差保持了在非常小的數(shù)值,這代表巡飛彈在即將到達時實現(xiàn)了同步,與目標點的距離基本一致,從而達成在極小的時間間隔內(nèi)成功進行飽和攻擊.
圖10 避障完成后巡飛彈與目標點距離的標準差Fig.10 The standard deviation of distance between loitering munitions and the target points after avoiding collision
圖11 部分巡飛彈的速度變化Fig.11 Velocity variation of partial loitering munitions
為了進一步分析獎勵函數(shù)Rsa的作用,隨機抽取了某一時刻環(huán)境的狀態(tài).在當前時刻t=15,各個巡飛彈與目標點的相對距離如表6 所示.
表6 t=15 時各巡飛彈與目標點的距離Table 6 Distance between each loitering munition and target point
其中,巡飛彈A2與A7距離目標點最近,A1與A6距離目標點最遠.選取這4 個具有代表性的巡飛彈,并統(tǒng)計它們在后繼時刻的速度.如圖10 所示,巡飛彈A2與A7的速度分別從當前t=15 時刻的0.79 km/s 與0.71 km/s 減少至t=17 時刻的0.35 km/s 與0.10 km/s.與此同時,巡飛彈在下一個時間步t=16,距離目標點較遠的巡飛彈A1與A6的速度分別從當前t=15時刻的0.61 km/s 與0.46 km/s 增加至t=17 時刻的0.75 km/s 與0.71 km/s,這是因為在模型訓練中采用了針對飽和攻擊所設(shè)計的專用獎勵函數(shù),鼓勵巡飛彈減少其與目標點相對距離的標準差,在模型訓練后,巡飛彈學會了盡可能和其他巡飛彈保持至目標點相同的距離,確保了巡飛彈能夠在極小的時間間隔內(nèi)到達目標點.
面對城市場景下巡飛彈自主協(xié)同飽和攻擊問題,將其建模為分布式部分可觀測馬爾可夫決策過程(Dec-POMDPs);針對局部觀測和分布式?jīng)Q策等任務(wù)特征,采用循環(huán)多智能體深度確定性策略梯度算法R-MADDPG 訓練巡飛彈自主協(xié)同飽和攻擊策略;結(jié)合飽和攻擊任務(wù)的特點,設(shè)計了確保巡飛彈同時到達的專用獎勵函數(shù),以及其他使用聯(lián)合權(quán)重參數(shù)的獎勵函數(shù);設(shè)計機間避撞、空中突防和同時打擊3 個評估指標,利用蒙特卡洛方法對指標時行分析;通過消融實驗與仿真案例分析驗證本文設(shè)計的專用獎勵函數(shù)的有效性.仿真實驗結(jié)果表明,所提出的方法可以使巡飛彈在完成飽和攻擊任務(wù)中實現(xiàn)自主決策,繞開干擾區(qū),保持機間安全距離,并且訓練后的12個巡飛彈,自主協(xié)同飽和攻擊的成功率為93.2%.
本文提出了一種有效的方法來解決巡飛彈自主協(xié)同飽和攻擊問題,陸軍工程大學研究團隊后續(xù)進一步提升算法性能,優(yōu)化策略網(wǎng)絡(luò),引入更復雜的協(xié)同訓練策略和優(yōu)化規(guī)避策略,應(yīng)對不同的干擾和障礙,以實現(xiàn)復雜實際場景中巡飛彈的自適應(yīng)對抗能力.對于實驗驗證,目前僅進行了仿真實驗,后續(xù)可嘗試進行實物上的實驗驗證,在現(xiàn)實世界中的諸多約束條件下進行算法遷移,以更全面地評估算法的可行性,解決在實踐中可能出現(xiàn)的挑戰(zhàn).