丘騰海 胡佳斌 蒲志強 易建強
1. 中國科學院自動化研究所,北京 100190 2. 重慶大學-辛辛那提大學聯(lián)合學院,重慶 400044
隨著戰(zhàn)場信息化和體系化能力的提升,作戰(zhàn)模式由單一攻防作戰(zhàn)擴展到多對多的集群協(xié)同對抗與博弈。美軍率先提出多導彈協(xié)同作戰(zhàn)的概念,通過導彈集群協(xié)同能夠有效提高攻防能力[1]。其中,多目標分配和決策直接決定了作戰(zhàn)體系的攻防性能,是協(xié)同對抗與博弈的關(guān)鍵技術(shù)之一[2]。
在實際戰(zhàn)場環(huán)境中,導彈、無人機等無人集群系統(tǒng)面臨通信拒止等復雜環(huán)境。由于缺乏基礎(chǔ)通信設(shè)施及存在干擾,無人集群系統(tǒng)在任務(wù)執(zhí)行過程中可能會失去與指控中心或集群間的通信,難以獲得指控中心的實時控制信息[3]。因此,具備自主、智能、協(xié)同完成任務(wù)的能力是集群協(xié)同作戰(zhàn)的關(guān)鍵。
目前,針對不同的作戰(zhàn)場景國內(nèi)外研究人員提出了不同的目標分配方法,按照架構(gòu)主要分為集中式和分布式[4]。集中式架構(gòu)比較典型方法是將目標分配問題轉(zhuǎn)換為數(shù)學規(guī)劃問題,進而利用枚舉法、分支定界法或整數(shù)規(guī)劃來求解[5-7]。然而,這類方法隨著個體數(shù)量的增加,尋優(yōu)空間會急劇上升,計算耗時呈指數(shù)級增長。另外,智能優(yōu)化方法由于其具有的靈活性和自適應性等特點,在復雜目標分配和決策中具有較大優(yōu)勢,如粒子群算法(PSO)通過單個粒子運動和整體最優(yōu)位置記憶和學習[8],在搜索空間中朝最優(yōu)方向運動,與遺傳算法相比[9],具有更高的計算效率,但容易陷入局部最優(yōu),全局搜索能力較弱[10]。此外,具有自學習能力的強化學習方法通過構(gòu)建仿真環(huán)境訓練得到最優(yōu)分配解,但訓練難度較大,耗時較長,很難用于高動態(tài)復雜環(huán)境戰(zhàn)場場景下的目標分配[11-12]。復雜的拒止作戰(zhàn)環(huán)境對決策的實時性和最優(yōu)性提出較高的需求,集中式分配方法普遍存在計算效率、自主性和多次決策性等不足。相比于集中式架構(gòu),分布式架構(gòu)結(jié)構(gòu)靈活,可擴展性和魯棒性強,能夠用于多節(jié)點動態(tài)變化的環(huán)境[13]。分布式方法主要有組合拍賣、合同網(wǎng)協(xié)議等市場算法和完全分布式的智能算法。合同網(wǎng)協(xié)議將參與方分為發(fā)布者和競標者,通過招標、投標、中標和確認等步驟完成整個目標競拍分配。經(jīng)典的拍賣算法包括一致性包算法(Consensus Based Bundle Algorithm,CBBA),遵循價高者得的原則,將目標分配給出價最高的競拍者[14]。但市場算法更多針對一個導彈對一個目標的分配優(yōu)化,無法處理多個導彈同時打擊一個目標的分配問題[15]。然而,在實際作戰(zhàn)環(huán)境中,受復雜環(huán)境、作戰(zhàn)意圖和目標防御能力等影響,導彈打擊目標時存在突防成功率的問題,為保證打擊任務(wù)成功率,需要考慮多個導彈打擊一個目標的優(yōu)化分配方案。而且,通信拒止環(huán)境中的通信拓撲網(wǎng)絡(luò)結(jié)構(gòu)存在動態(tài)復雜不確定性,現(xiàn)有方法無法有效解決實時在線的多個導彈打擊一個目標的分配和決策問題。
因此,本文針對通信拒止環(huán)境中多導彈多目標的集群對抗目標分配與決策問題開展研究,通過構(gòu)建導彈集群與目標的攻防性能指標,提出擴展的一致性拍賣 (Advanced Consensus Based Auction Algorithm, ACBAA)目標分配模型,引入考慮通信拒止環(huán)境中的先驗知識,設(shè)計集群行為規(guī)則模型,計算多個導彈打擊多個目標的分配方案和導彈集群的運動方案,通過仿真實驗驗證了所設(shè)計算法和模型的有效性。本文貢獻主要有兩點: 1)針對通信拒止環(huán)境下的集群對抗多目標分配問題,提出了ACBAA多導彈對一個目標的分配算法; 2)建立了通信拒止環(huán)境下的集群運動決策模型。
在通信拒止環(huán)境下,導彈與地面指揮站基本無法通信,導彈之間無法實時傳輸大量感知、控制等數(shù)據(jù),僅能以較低頻率廣播少量觀測信息。然而,廣播通信不可靠,通常以能正常通信的導彈個數(shù)反映環(huán)境的通信拒止程度。70%以上的導彈之間無法正常通信稱為強拒止,40%~70%的導彈之間無法正常通信稱為中拒止,40%以下的導彈之間無法正常通信稱為低拒止。在不同程度拒止環(huán)境下,每一時刻能夠正常通信的導彈個數(shù)不同,且一旦建立通信連接,通信拓撲圖可保持Δt時刻,之后將重新建立新的通信拓撲。CBAA算法主要考慮一對一的目標分配, 在多導彈共同選擇同一目標的場景時具有局限性。本文提出了ACBAA算法,旨在解決通信拒止環(huán)境下的導彈多目標分配問題。
本文以拒止環(huán)境下多個導彈協(xié)同打擊目標為背景,基于文獻[12]構(gòu)建的性能指標,對導彈攻擊性能進行評估,包括由彈目相對角度指標、相對距離指標和相對速度指標組成的攻擊性能指標,以及考慮突防概率的毀傷性能指標等。導彈發(fā)射前,在競拍階段考慮目標收益值和自身消耗的關(guān)系,當分配的目標收益值小于自身價值損耗,則可以終止目標選擇。而在導彈發(fā)射過程中,由于其不可取消的特點,其自身消耗已成為固定成本。本文將攻擊性能指標和毀傷性能指標相結(jié)合,作為綜合效費性能指標,對目標分配方案進行評估。綜合效費性能指標如下:
(1)
在ACBAA算法中,首先明確定義導彈i目標分配信息的關(guān)鍵要素:
1)時間戳列表si
時間戳列表si?{si1,…,sij,…,siNM},是目標分配沖突消解階段的重要指標,用于記錄導彈i獲得其他鄰居導彈分配信息的更新時刻,表征導彈從其他導彈獲得信息的新舊程度。式中sij表示導彈i獲取到導彈j最新信息的時刻,通過有限范圍的通信傳輸共享。對每個導彈來說,導彈自身最新消息的更新時間大于等于其他導彈得知該導彈最新消息的時間,即:
sii≥sji,j∈?
(2)
2)獲勝導彈列表Zi
獲勝導彈列表Zi?{Zi1,Zi2,…,ZiNM},用于記錄鄰居導彈投標的目標編號,式中Zij=k表示導彈i獲取到的導彈j在第sij時刻投標的目標編號是k。當導彈i獲知到導彈j沒有投標目標時,Zij=100。
3)獲勝投標列表Yi
獲勝投標列表Yi?{Yi1,Yi2,…,YiNT},用于記錄導彈i視角下各目標的投標對象導彈編號,列表中的值與列表Zi中的值一一對應,即Yik=j表示在導彈i視角下目標k的投標對象導彈編號為j,且與時間戳列表si一致。當導彈i獲知到目標k沒有投標目標時,Yik=100。
4)分配列表xi
分配列表xi?{xi1,xi2,…,xiNT},用于記錄導彈i到目標的投標策略,當xik=1時表示導彈i對目標k進行投標,當xik=0時表示導彈i不對目標k進行投標。
5)優(yōu)勢度列表Si
優(yōu)勢度列表Si?{Si1,Si2,…,SiNT}是基于攻擊性能指標構(gòu)建的,用于記錄導彈i對各目標的優(yōu)勢,Sik為導彈i對目標k的量化攻擊優(yōu)勢度。
6)總收益列表Ci
總收益列表Ci?{Ci1,…,Cik,…,CiNT}用于記錄導彈i對目標的綜合收益,包括攻擊性能和毀傷性能,其中Cik表示導彈i對目標k的收益,其值為攻擊性能與毀傷性能加權(quán)求和,即
(3)
ACBAA算法主要分為2個階段: 一致性階段和拍賣階段,拍賣階段依賴于一致性階段提供的其他導彈的最新消息進行投標。在一致性階段,導彈通過通信拓撲網(wǎng)絡(luò)傳遞競標信息,并根據(jù)一致性法則,消除目標分配沖突。在拍賣階段,導彈判斷自身是否已分配目標,若未分配,則按照一定規(guī)則進行競標,為自身分配目標。
下面以某一輪競拍中,第i枚導彈的第t次迭代為例,詳細介紹ACBAA算法中的一致性階段和拍賣階段。
1)一致性階段
導彈i通過時間戳列表si來確定接收到的其他導彈的最新信息。每當導彈i與導彈l建立通信連接,除獲取導彈l自身的信息外,還可通過導彈l更新導彈k的最新信息, 對導彈i的時間戳列表和其他信息進行替換。若導彈l關(guān)于導彈k的時間戳大于導彈i關(guān)于導彈k的時間戳,說明導彈l獲取的導彈k的信息新鮮度更高,則進行如下更新:
(4)
(5)
導彈i對可通信范圍內(nèi)的所有導彈完成信息交互,對自身時間戳列表si、獲勝導彈列表Zi、自身獲勝投標值列表Yi進行更新。
假設(shè)導彈i當前的自身競選目標為m,即Zii=m。如果自身競選目標的競標對象導彈沒有發(fā)生改變,即Yim(t-1)=Yim(t),則導彈i的競選目標不發(fā)生改變。反之,若Yim(t-1)≠Yim(t),則導彈i退出當前競選目標,即:
xim(t)=0,sii(t)=當前時刻,Zii(t)=100
2)拍賣階段
(6)
(7)
式中,Pik為不考慮其他導彈對目標k的打擊時,導彈i對目標k的命中概率,PYik[j]表示導彈i獲取的目標k的競選導彈j的命中概率。為避免競選沖突,該過程僅選用綜合收益大于導彈i的導彈,即采用所有滿足Cjk>Cik,j∈Yik的導彈j對于目標k的命中概率。
于是,導彈i從中選擇競爭收益最大的目標k*:
(8)
(9)
xik*(t)=1,sii(t)=當前時刻,Zii(t)=k*
(10)
上述一致性和拍賣過程不斷迭代,直到所有導彈的獲勝導彈列表均不再發(fā)生變化,視為本輪競拍結(jié)束,得到本輪目標分配方案及相應的總收益。ACBAA算法的流程如圖1所示。
圖1 ACBAA算法流程圖
此外,針對不同通信拒止等級條件下導彈集群的動態(tài)通信拓撲交互特征,為增強基于ACBAA的分配能力,設(shè)計通信拒止環(huán)境下的導彈集群協(xié)同交互規(guī)則:
1)在導彈感知范圍和通信范圍內(nèi),導彈可更新其他導彈對于目標的收益;
2)若導彈j在導彈i的感知范圍,但不在通信連通范圍內(nèi),則假定導彈j的分配結(jié)果與上一輪相同,對于各目標的收益則采用最新的數(shù)據(jù);
3)若導彈j不在導彈i的感知范圍和通信連通范圍內(nèi),則導彈j在本輪目標分配過程中,導彈j對于各目標的收益和分配的目標與上一輪相同。
根據(jù)目標分配方案,導彈朝各自所分配的目標運動,本文借鑒自然界鳥群、魚群等群居性生物的集群協(xié)同機動方法,在有限感知和機動能力條件下,基于經(jīng)典生物集群行為規(guī)則“避撞-結(jié)隊-聚集”(Separation Alignment Cohesion,SAC)[16],引入導彈的攻擊行為(Offense),建立導彈運動行為規(guī)則SACO,以及通信拒止環(huán)境下的導彈集群協(xié)同交互規(guī)則,使導彈集群涌現(xiàn)出宏觀的作戰(zhàn)行為。
1)避撞(Separation)
(11)
2)結(jié)隊(Alignment)
(12)
3)聚集(Cohesion)
(13)
式中,ga(dij)為引力函數(shù)。
4)攻擊(Offense)
(14)
式中,κo>0為攻擊導航力控制增益,xb為所分配目標的位置。
根據(jù)所設(shè)計的SACO行為規(guī)則,計算單個導彈運動決策控制量如下:
(15)
為驗證本文所提方法的有效性,分別設(shè)計了針對基于ACBAA目標分配和SACO集群運動決策的實驗,在配置酷睿i7-8750H@2.20GHz CPU和 Python3.8的計算機上進行仿真驗證。
假定導彈數(shù)對目標數(shù)以15對10為例,驗證ACBAA算法的有效性。仿真實驗中導彈和目標的初始態(tài)勢如表1和表2所示。其中,X、Y、Z分別為地面坐標下的三維坐標,單位為km,V為導彈飛行速度,單位m/s;γ為導彈速度傾斜角,為導彈速度方向與水平面的夾角(向上為正,向下為負),γ∈[-π/2,π/2],單位rad;ψ為導彈速度方位角,為飛機速度矢量在水平投影與正北的夾角,ψ∈[-π,π],單位是rad??紤]到導彈實際性能的限制,V的范圍為Ma6~10,過載的范圍為[-10, 10]。
表1 導彈初始態(tài)勢表
表2 目標初始態(tài)勢表
在綜合攻擊優(yōu)勢度評估中,距離優(yōu)勢模型中的R0=30km,過載優(yōu)勢模型中的n0=8,各項的加權(quán)系數(shù)分別為:kθ=0.2,kσ=0.2,kr=0.2,kn=0.4。
在目標威脅建模中,設(shè)置式中的Vt0=10m/s,加權(quán)系數(shù)為kΓ=0.6,kv=0.4。導彈探測感知范圍為100km,通信距離為200km。
根據(jù)所得到的優(yōu)勢度拒止,在無通信拒止環(huán)境下,基于CBAA算法和ACBAA算法得到目標分配方案如圖2和圖3所示,可以看出基于CBAA算法的目標結(jié)果會出現(xiàn)部分導彈未分配目標的情況,分配收益為10.51,這是由于CBAA算法本身是一對一的目標分配方式。而采用本文所設(shè)計的ACBAA算法,可以實現(xiàn)多目標分配的結(jié)果,分配收益為12.18,提高了最終的分配收益。
圖2 CBAA算法無拒止環(huán)境下目標分配
圖3 ACBAA算法無拒止環(huán)境下目標分配
導彈間的通信連通強度可利用通信拓撲圖G的拉普拉斯矩陣第二小特征值λ2表示[17-18],當該值越大,拓撲圖的連通強度越大,當該值為0時表示該圖不連通。根據(jù)該值可以得到在不同通信拒止情況下,導彈連通情況。圖4為在不同拒止程度環(huán)境下,每個拒止等級條件下重復100次不同連通情況的平均連通值,由該圖可知,當拒止程度達到85%時,出現(xiàn)導彈間通信完全不連通的情況。
圖4 不同通信拒止程度下導彈間的連通情況
為進一步說明算法的有效性,本文基于CBAA算法和ACBAA算法在不同通信拒止程度下分配所花費時間和平均收益如圖5所示。圖5(a)表明,ACBAA算法進行目標分配所需時間普遍小于CBAA算法。圖5(b)表明,在中低通信拒止環(huán)境下,ACBAA算法的目標分配結(jié)果平均收益多于CBAA算法的目標分配結(jié)果平均收益,這驗證了ACBAA算法的有效性。在90%以上的導彈無法通信的強通信拒止環(huán)境下,導彈間的協(xié)同很難完成,CBAA和ACBAA算法在競拍時都會傾向選擇各自最大收益的目標,缺乏一致性消除沖突的階段,因此最終目標分配的結(jié)果也會傾向一致,分配收益幾乎沒有差別。
圖5 不同拒止程度下目標分配的平均運算時間和收益
此外,在不同通信拒止程度下進行蒙特卡羅仿真實驗,在同樣參數(shù)配置條件下,基于ACBAA算法連續(xù)仿真100次實驗,目標分配收益分布如圖6所示。由圖6可以看出,無拒止環(huán)境(0%)和弱拒止環(huán)境下(≤40%),由于各導彈間的通信連通情況較好,拒止程度對ACBAA算法的影響較小,均能獲得比較高的分配收益;在強拒止環(huán)境下(≥70%),ACBAA算法結(jié)果受到的影響較大,得到的目標分配收益比較??;在完全拒止條件下(100%),分配收益結(jié)果為9.37,相較于無拒止環(huán)境分配結(jié)果,其收益衰減不到30%,證明ACBAA算法在拒止環(huán)境下運行的有效性。
圖6 不同拒止等級環(huán)境下目標分配收益
集群運動模型中的系統(tǒng)參數(shù)設(shè)置為斥力范圍lr=50,引力范圍la=50,斥力Cr= 100,引力Ca= 100,速度協(xié)同力控制增益κv=0.4,攻擊導航力控制增益κo=80,阻尼ξ=0.000035,最大加速度amax=10g,感知范圍為100km。仿真實驗時間間隔為2s,總循環(huán)次數(shù)2000。圖7展示了在不同拒止環(huán)境下導彈的運行軌跡圖,驗證了ACBAA算法在不同拒止環(huán)境基于SACO規(guī)則的集群運動的可行性。
圖7 不同拒止程度下導彈的運動軌跡
圖8展示了在不同拒止環(huán)境下,導彈從起始點到目標的分配收益變化圖。由圖可以看出在弱拒止環(huán)境和無拒止環(huán)境下,先驗知識對基于SACO規(guī)則的集群運動收益沒有產(chǎn)生明顯的影響,但在強拒止環(huán)境下,先驗知識和感知范圍可以對集群運動過程的收益產(chǎn)生顯著的影響,使收益更加穩(wěn)定。
圖8 在不同拒止環(huán)境下的導彈的收益變化
針對通信拒止復雜環(huán)境下的導彈集群多目標分配問題,提出一種分布式的ACBAA多目標分配和決策方法。通過一致性和拍賣階段,優(yōu)化目標分配方案,并建立通信拒止環(huán)境下的通信先驗知識和集群行為規(guī)則模型,支持不同通信拒止等級環(huán)境下的導彈集群運動。仿真結(jié)果表明,本文設(shè)計的方法能夠?qū)崿F(xiàn)不同通信拒止等級條件下的目標分配決策,具有較好的優(yōu)化性能,其計算效率相對于其他方法具有更明顯的優(yōu)勢。