盛 磊, 時(shí)滿紅, 亓迎川,*, 李 浩, 龐明軍
(1. 空軍預(yù)警學(xué)院, 湖北 武漢 430000; 2. 中國(guó)人民解放軍95894部隊(duì), 北京 100000)
無人機(jī)在軍事和民用領(lǐng)域都有廣泛的應(yīng)用[1-3],在復(fù)雜條件下,可以替代有人機(jī)執(zhí)行“枯燥、惡劣、危險(xiǎn)、縱深(dull, dirty, dangerous and deep, 4D)”任務(wù)[4]。隨著人工智能(artificial intelligence, AI)技術(shù)的發(fā)展,集群控制成為無人機(jī)應(yīng)用的發(fā)展方向[5]。無人機(jī)集群作戰(zhàn)[6-8]也成為無人機(jī)軍事應(yīng)用的研究熱點(diǎn)。
現(xiàn)階段無人機(jī)集群動(dòng)態(tài)攻防的研究仍處于初步階段,實(shí)現(xiàn)的方法主要包括:基于專家系統(tǒng)和基于博弈論。
基于專家系統(tǒng)[9]的規(guī)則制定,就是通過總結(jié)以往空戰(zhàn)經(jīng)驗(yàn),設(shè)計(jì)態(tài)勢(shì)評(píng)估函數(shù),針對(duì)障礙物或者敵我態(tài)勢(shì),己方選擇相應(yīng)行為準(zhǔn)則。文獻(xiàn)[10]設(shè)計(jì)了一種自組織的攻防對(duì)抗決策(offense-defense confrontation decision-making, ODCDM)算法,利用分布式?jīng)Q策,通過與鄰近友機(jī)的通信,完成態(tài)勢(shì)感知,求解控制輸入,實(shí)現(xiàn)無人機(jī)集群的對(duì)抗。文獻(xiàn)[11]提出了一種將模糊專家系統(tǒng)與差分進(jìn)化算法相結(jié)合的逃逸機(jī)動(dòng)決策算法,通過以往戰(zhàn)術(shù)知識(shí)的學(xué)習(xí),建立模糊專家系統(tǒng),根據(jù)模糊專家系統(tǒng)實(shí)現(xiàn)機(jī)動(dòng)動(dòng)作的選擇,而后經(jīng)過差分算法尋優(yōu),最后完成對(duì)機(jī)動(dòng)動(dòng)作的最優(yōu)控制。Yang[12]等利用深度Q網(wǎng)絡(luò)(deep Q network,DQN)搭建了無人機(jī)決策模型,計(jì)算敵我雙機(jī)對(duì)抗過程中的態(tài)勢(shì)變化,根據(jù)機(jī)動(dòng)動(dòng)作庫(kù)中相應(yīng)規(guī)則,完成無人機(jī)決策。
雖然基于專家系統(tǒng)的無人機(jī)集群算法能夠有效且穩(wěn)定地解決無人機(jī)集群對(duì)抗問題,但是其依賴于專家?guī)斓慕?處于不確定環(huán)境或者集群規(guī)模過大時(shí),存在調(diào)試時(shí)間長(zhǎng),策略選擇不是最優(yōu)等不足。
基于博弈論[13-16]的方法,就是一類研究智能體之間策略交互的數(shù)學(xué)理論與方法[17]。相比專家系統(tǒng),該方法不需要先驗(yàn)知識(shí),可以通過自學(xué)習(xí)逐步獲得最優(yōu)策略。文獻(xiàn)[18]提出了一種基于演化博弈框架下的多智能體策略競(jìng)爭(zhēng),設(shè)立了合作、懲罰、投機(jī)以及孤立4種策略,通過初始條件的變化,驗(yàn)證了多智能體運(yùn)動(dòng)的演進(jìn)方向。文獻(xiàn)[19]基于捕食獵物粒子群優(yōu)化(predator-prey particle swarm optimization, PP-PSO)的博弈論方法,將攻防對(duì)抗中的復(fù)雜任務(wù)分配轉(zhuǎn)化為每階段的雙方博弈,然后利用PP-PSO求解與之對(duì)應(yīng)的納什均衡,保證攻防雙方在對(duì)抗過程中采取對(duì)己方最有利的策略。文獻(xiàn)[20]基于競(jìng)爭(zhēng)學(xué)習(xí)鴿群優(yōu)化(competitive learning pigeon-inspired optimization, CLPIO)算法,采用分布式群對(duì)抗方式,分別設(shè)計(jì)了兩種動(dòng)態(tài)博弈模型:仿鷹的攻擊子群和仿鴿的對(duì)抗子群,利用CLPIO算法尋找混合納什均衡。文獻(xiàn)[21]利用多人動(dòng)態(tài)博弈分解解決多無人機(jī)追逃問題,降低了時(shí)間復(fù)雜度,提升了運(yùn)行速度。但是,這些基于博弈論的無人機(jī)集群攻防對(duì)抗,在涉及基地概念時(shí),多數(shù)將其作為目標(biāo)點(diǎn),基地并不具備功能,這與實(shí)際情況存在差異。
本文結(jié)合專家系統(tǒng)和演化博弈的優(yōu)點(diǎn),提出了態(tài)勢(shì)演化博弈模型。貼近實(shí)際作戰(zhàn)場(chǎng)景,賦予基地探測(cè)功能,基地能夠提高守方無人機(jī)的態(tài)勢(shì)感知能力,并且能夠與守方無人機(jī)集群保持通信。在此基礎(chǔ)上,構(gòu)造了基地-守方無人機(jī)集群-攻方無人機(jī)集群三者相互影響的攻防情形。首先,分別設(shè)計(jì)了攻方無人機(jī)態(tài)勢(shì)評(píng)估函數(shù)、守方無人機(jī)態(tài)勢(shì)評(píng)估函數(shù)和基地態(tài)勢(shì)評(píng)估函數(shù),切實(shí)體現(xiàn)對(duì)抗過程中攻防雙方的態(tài)勢(shì)變化情況。然后,將各階段態(tài)勢(shì)變化,代入演化博弈模型,使每一階段的演化博弈過程延伸到全階段全員的博弈,并使攻防雙方在各階段都處于演化穩(wěn)定狀態(tài)(evolutionary stable state, ESS),實(shí)現(xiàn)攻防雙方無人機(jī)集群對(duì)抗策略的自適應(yīng)最優(yōu)選擇。
雙方無人機(jī)集群的動(dòng)態(tài)描述包括無人機(jī)集群動(dòng)態(tài)攻防場(chǎng)景與規(guī)則、基地生存模型、無人機(jī)單機(jī)攻防模型和無人機(jī)集群攻防模型。其中,無人機(jī)動(dòng)態(tài)攻防場(chǎng)景與規(guī)則給定了攻防對(duì)抗的作戰(zhàn)背景以及雙方的勝負(fù)條件;基地的生存模型,主要表現(xiàn)基地受攻防雙方無人機(jī)集群的影響,其生存率的變化情況;無人機(jī)單機(jī)攻防模型,主要體現(xiàn)無人機(jī)單機(jī)的運(yùn)動(dòng)準(zhǔn)則及武器數(shù)量的變化;無人機(jī)集群攻防模型,主要體現(xiàn)集群運(yùn)動(dòng)規(guī)則以及控制輸入隨策略選擇的變化情況。
雙方無人機(jī)性能相同,攜帶武器的功能與數(shù)量相同。模擬場(chǎng)景假定為,不考慮高度因素,雙方處于同一二維區(qū)域。攻方無人機(jī)已知基地位置,在一定的時(shí)間窗口,經(jīng)過奔襲,對(duì)守方發(fā)動(dòng)進(jìn)攻。守方無人機(jī)集群在對(duì)抗開始前,采取巡航方式對(duì)基地進(jìn)行有效防衛(wèi),且基地具備一定的探測(cè)能力,能與守方無人機(jī)集群建立持續(xù)有效的通信,在基地探測(cè)范圍內(nèi),能夠提升守方無人機(jī)的態(tài)勢(shì)感知能力。當(dāng)雙方武器消耗殆盡時(shí),攻方無人機(jī)會(huì)選擇撤離,守方無人機(jī)會(huì)選擇回到基地。
攻守布防示意圖如圖1所示。
圖1 攻守布防示意圖Fig.1 Offensive and defensive deployment diagram
攻方為達(dá)到進(jìn)攻效益最大化,采取整體分散,局部聚集的策略;在未探測(cè)到攻方無人機(jī)時(shí),守方無人機(jī)在基地受威脅區(qū)與基地探測(cè)區(qū)之間巡航。所謂基地受威脅區(qū),就是以基地為中心,無人機(jī)攻擊距離為半徑的圓;所謂基地探測(cè)區(qū),就是以基地為中心,基地探測(cè)距離為半徑的圓。
在攻防對(duì)抗的時(shí)間窗口內(nèi),雙方的勝負(fù)條件為:① 基地生存率小于被癱瘓閾值Ph,則攻方勝利;② 基地生存率大于被癱瘓閾值Ph,則守方勝利。
為簡(jiǎn)便分析,將無人機(jī)模型視為質(zhì)點(diǎn),并假設(shè):① 無人機(jī)能夠準(zhǔn)確進(jìn)行敵我識(shí)別,且每一時(shí)刻只針對(duì)敵方單一目標(biāo)發(fā)動(dòng)攻擊;② 無人機(jī)能夠探知友機(jī)的位置等信息;③ 無人機(jī)能夠探知敵機(jī)的速度、方位、位置等信息。
影響基地生存率的因素包括攻方無人機(jī)對(duì)基地的毀傷以及守方無人機(jī)采取防御策略時(shí)為基地帶來的收益?;氐纳媛誓P蜑?/p>
pb(t+1)=pb(t)·Ab(t)
(1)
(2)
(3)
式中:t表示作戰(zhàn)時(shí)刻;pb(t)表示t時(shí)刻基地的生存率;Ab(t)表示基地從t時(shí)刻到t+1時(shí)刻生存率;pib(t)表示t時(shí)刻攻方第i架無人機(jī)對(duì)基地的毀傷概率;nib(t)表示t時(shí)刻攻方第i架無人機(jī)對(duì)基地發(fā)射的武器數(shù);β(0≤β≤1)為環(huán)境影響因素;Sib(t)表示t時(shí)刻攻方第i架無人機(jī)攻擊基地時(shí)對(duì)基地的態(tài)勢(shì)優(yōu)勢(shì);Sjb(t)表示t時(shí)刻守方第j架無人機(jī)采取防御策略時(shí)為基地帶來的態(tài)勢(shì)優(yōu)勢(shì);nDO為t時(shí)刻針對(duì)攻方第i架無人機(jī)采取防御策略的守方無人機(jī)數(shù)目;Kib表示武器對(duì)基地的理想殺傷概率,規(guī)定Sib(t)-Sjb(t)≥0。
設(shè)定基地癱瘓閾值為Ph=0.4,當(dāng)基地的生存率小于基地存活閾值時(shí),認(rèn)為基地被摧毀。
每架無人機(jī)的狀態(tài)矩陣為
(4)
每架無人機(jī)的狀態(tài)方程為
(5)
(6)
(7)
(8)
(9)
在t時(shí)刻,攻方第k架無人機(jī)發(fā)射的武器數(shù)為攻擊守方無人機(jī)與攻擊基地的數(shù)目的和,即
(10)
同理,守方第k架無人機(jī)發(fā)射的武器數(shù)為攻擊攻方無人機(jī)的數(shù)目,即
(11)
(12)
(13)
(14)
設(shè)定無人機(jī)生存閾值為PT,當(dāng)無人機(jī)的存活率小于無人機(jī)生存閾值時(shí),認(rèn)為該無人機(jī)被摧毀。
常見的集群運(yùn)動(dòng)模型包括:Vicsek模型[22-23]、Couzin模型[24]以及社會(huì)力模型[25]。社會(huì)力模型是基于牛頓力學(xué)的建模方式,將個(gè)體間的協(xié)同,抽象為力的形式,能直觀體現(xiàn)雙方無人機(jī)集群的動(dòng)態(tài)運(yùn)動(dòng)。
本文采用自下而上的基于個(gè)體的建模方式,通過個(gè)體運(yùn)動(dòng)的拉格朗日法,建立無人機(jī)集群的動(dòng)力學(xué)模型,對(duì)于具有N個(gè)個(gè)體的群運(yùn)動(dòng),群中個(gè)體i的拉格朗日模型為
(15)
集群運(yùn)動(dòng)的3個(gè)基本規(guī)則為分離、聚集和速度一致。在此基礎(chǔ)上,針對(duì)雙方無人機(jī)集群的對(duì)抗,本文又增加了進(jìn)攻、防守與防御3項(xiàng)攻防規(guī)則。
(1) 分離準(zhǔn)則
所謂分離,就是集群運(yùn)動(dòng)時(shí),避免群內(nèi)個(gè)體發(fā)生碰撞,相鄰個(gè)體間產(chǎn)生斥力作用。
(16)
(2) 聚集準(zhǔn)則
所謂聚集,就是在無人機(jī)探測(cè)范圍內(nèi),群內(nèi)個(gè)體相互靠近,相鄰個(gè)體間產(chǎn)生引力。
(17)
分離和聚集規(guī)則,構(gòu)成了集群運(yùn)動(dòng)的位置協(xié)同力,由位置關(guān)系產(chǎn)生的總力為
(18)
式中:a,b,c為常數(shù),構(gòu)建的目的是當(dāng)無人機(jī)i與相鄰友機(jī)距離過近時(shí),相互排斥;當(dāng)無人機(jī)i與相鄰友機(jī)距離過遠(yuǎn)時(shí),相互吸引。無人機(jī)間相互作用,在位置上形成群的形式,刻畫個(gè)體間的防撞和空間的聚集特性。
(3) 速度一致性準(zhǔn)則
所謂速度一致性,就是速度協(xié)同力,使群內(nèi)個(gè)體保持速度一致。
(19)
(4) 攻擊準(zhǔn)則
攻方無人機(jī)的防守策略和守方無人機(jī)的出擊策略,是彼此之間的攻擊,因此兩者采用相同的準(zhǔn)則。
(20)
(5) 進(jìn)攻準(zhǔn)則
進(jìn)攻準(zhǔn)則就是攻方無人機(jī)向基地發(fā)動(dòng)攻擊的行為準(zhǔn)則。
(21)
式中:kb為常數(shù),是控制增益;uib為攻方第i架無人機(jī)對(duì)基地發(fā)起進(jìn)攻時(shí),其向基地運(yùn)動(dòng)的力。
(6) 防御準(zhǔn)則
守方采取防御策略,最佳情況就是與基地保持適當(dāng)距離,一旦探測(cè)到攻方無人機(jī),保證守方無人機(jī)有充足的時(shí)間做出反應(yīng)。
(22)
綜上,攻方無人機(jī)會(huì)采用策略式(1)~式(5),即攻方無人機(jī)的總輸入為
(23)
(24)
守方無人機(jī)會(huì)采用策略式(1)~式(4)和式(6),即守方無人機(jī)的總輸入為
(25)
(26)
態(tài)勢(shì)評(píng)估[26-28]函數(shù)包括雙方無人機(jī)的態(tài)勢(shì)優(yōu)勢(shì)評(píng)估,以及基地與雙方無人機(jī)間態(tài)勢(shì)的相互影響。
2.1.1 雙方無人機(jī)間的態(tài)勢(shì)評(píng)估
某時(shí)刻,雙方無人機(jī)對(duì)抗關(guān)系如圖2所示。
圖2 雙方無人機(jī)對(duì)抗方位圖Fig.2 Azimuth map of unmanned aerial vehicle confrontation between both sides
影響無人機(jī)間態(tài)勢(shì)評(píng)估函數(shù)的因素主要包括角度、速度以及距離。
(1) 角度優(yōu)勢(shì)函數(shù)
(27)
隨著方位角的增加,角度優(yōu)勢(shì)呈非線性減小,即追擊式的攻擊會(huì)帶來最大的角度優(yōu)勢(shì)。
(2) 速度優(yōu)勢(shì)函數(shù)
(28)
無人機(jī)間的相對(duì)速度越大,速度優(yōu)勢(shì)越明顯。
(3) 距離優(yōu)勢(shì)函數(shù)
(29)
式中:dij為無人機(jī)間距離;rs為無人機(jī)探測(cè)距離。
隨著無人機(jī)間的距離減小,距離優(yōu)勢(shì)函數(shù)呈線性增大。
上述3種優(yōu)勢(shì)函數(shù),綜合影響無人機(jī)間的態(tài)勢(shì)評(píng)估,根據(jù)三者影響權(quán)重的不同,無人機(jī)間總的態(tài)勢(shì)評(píng)估函數(shù)為
Sij=ω1Sαij+ω2Svij+ω3Srij
(30)
2.1.2 無人機(jī)與基地的態(tài)勢(shì)評(píng)估
某時(shí)刻,無人機(jī)與基地對(duì)抗關(guān)系如圖3所示。
圖3 無人機(jī)與基地對(duì)抗方位圖Fig.3 Azimuth map of unmanned aerial vehicle and base confrontation
(1) 攻方無人機(jī)與基地的態(tài)勢(shì)評(píng)估函數(shù)
影響攻方無人機(jī)與基地態(tài)勢(shì)評(píng)估函數(shù)的因素主要包括角度和距離。
角度優(yōu)勢(shì)函數(shù):
(31)
即只有當(dāng)攻方無人機(jī)向基地方向運(yùn)動(dòng)時(shí),才會(huì)存在角度優(yōu)勢(shì),該優(yōu)勢(shì)隨著方位角的增加呈非線性減小。
距離優(yōu)勢(shì)函數(shù):
(32)
隨著無人機(jī)與基地的距離減小,距離優(yōu)勢(shì)呈線性增大。
上述兩種優(yōu)勢(shì)函數(shù),綜合影響攻方無人機(jī)與基地間的態(tài)勢(shì)評(píng)估,根據(jù)兩者影響權(quán)重的不同,攻方無人機(jī)與基地間總的態(tài)勢(shì)評(píng)估函數(shù)為
(33)
(2) 守方無人機(jī)與基地的態(tài)勢(shì)評(píng)估函數(shù)
當(dāng)守方無人機(jī)采取防御策略時(shí),與基地相互作用,兩者越近,基地為守方無人機(jī)帶來的態(tài)勢(shì)感知優(yōu)勢(shì)越明顯;守方無人機(jī)越靠近基地,越能提高基地的生存概率。
守方無人機(jī)為基地帶來的態(tài)勢(shì)優(yōu)勢(shì):
(34)
式中:rb為基地探測(cè)距離;djb為守方無人機(jī)與基地的距離。
守方無人機(jī)與基地的距離越小,守方無人機(jī)為基地帶來的態(tài)勢(shì)優(yōu)勢(shì)越大。
基地為守方無人機(jī)帶來的態(tài)勢(shì)優(yōu)勢(shì):
(35)
基地與守方無人機(jī)的距離越小,基地為守方無人機(jī)帶來的態(tài)勢(shì)優(yōu)勢(shì)越大。
演化博弈模型[29-30]的優(yōu)勢(shì)是,既可以直觀有效地解決博弈主體的行為選擇,也可以出于利益最大化原則,體現(xiàn)雙方攻防對(duì)抗的動(dòng)態(tài)變化。
2.2.1 模型假設(shè)
本次博弈的主體為:攻方無人機(jī)和守方無人機(jī)。攻方無人機(jī)的策略集為{進(jìn)攻,防守};守方無人機(jī)的策略集為{出擊,防御}。具體定義如下。
攻方無人機(jī)的策略:① 進(jìn)攻,即直接對(duì)基地發(fā)起進(jìn)攻;② 防守,即直接與守方無人機(jī)進(jìn)行對(duì)抗。
守方無人機(jī)的策略:① 出擊,即在基地探測(cè)區(qū)外,主動(dòng)對(duì)攻方無人機(jī)發(fā)動(dòng)進(jìn)攻;② 防御,即守方無人機(jī)在基地探測(cè)區(qū)域內(nèi)與攻方無人機(jī)展開對(duì)抗。
攻方無人機(jī)對(duì)守方發(fā)動(dòng)襲擊,會(huì)產(chǎn)生燃油消耗、資源占用等成本Ci;攻方無人機(jī)選擇進(jìn)攻時(shí),直接威脅基地,為攻方帶來收益G1的同時(shí),基地承擔(dān)的風(fēng)險(xiǎn),也以π1G1(0≤π1≤1)的方式影響守方無人機(jī)的收益;攻方無人機(jī)選擇防守時(shí),通過摧毀守方無人機(jī),增加攻方無人機(jī)數(shù)目和能力優(yōu)勢(shì),為攻方帶來收益G2。
守方無人機(jī)前期進(jìn)行巡航偵察,同樣會(huì)產(chǎn)生燃油消耗、資源占用等成本Cj,由于守方無人機(jī)在基地附近巡航,不需要遠(yuǎn)距離奔襲,所以產(chǎn)生成本較小,即Cj 基地具備探測(cè)功能,能夠提高守方無人機(jī)的態(tài)勢(shì)感知優(yōu)勢(shì),理想狀態(tài)下會(huì)為守方無人機(jī)帶來收益B3,隨著基地生存率π3的變化,該收益也會(huì)發(fā)生變化。 攻方無人機(jī)發(fā)動(dòng)進(jìn)攻的概率為x,進(jìn)行防守的概率為1-x;守方無人機(jī)進(jìn)行出擊的概率為y,進(jìn)行防御的概率為1-y。 2.2.2 模型構(gòu)建 根據(jù)模型假設(shè),攻方無人機(jī)與守方無人機(jī)的收益矩陣如表1所示。 表1 態(tài)勢(shì)演化博弈收益矩陣 結(jié)合表1的收益矩陣,設(shè)攻方無人機(jī)選擇進(jìn)攻的期望收益為E11,選擇防守的期望收益為E12,攻方無人機(jī)的平均期望收益為E1。 E11=y(G1-Ci-B1)+(1-y)(G1-Ci-B2-π3B3) (36) E12=y(G2-Ci-B1)+(1-y)(G2-Ci-B2-π3B3) (37) E1=xE11+(1-x)E12 (38) 根據(jù)式(36)~式(38)可以得到攻方無人機(jī)的復(fù)制動(dòng)態(tài)方程: (39) 同理,設(shè)守方無人機(jī)選擇出擊的期望收益為E21,選擇防御的期望收益為E22,守方無人機(jī)的平均收益為E2。 E21=x(B1-Cj-π1G1)+(1-x)(B1-Cj-G2) (40) E22=x(B2-Cj-π1G1+π2R+π3B3)+ (41) E2=yE21+(1-y)E22 (42) 根據(jù)式(40)~式(42)可以得到守方無人機(jī)的復(fù)制動(dòng)態(tài)方程: (43) 2.2.3 演化博弈分析 由F(x)=F(y)=0,可得到4個(gè)均衡點(diǎn)如表2所示。 表2 均衡點(diǎn) 根據(jù)Friedman的研究方法,利用Jacobian矩陣的局部穩(wěn)定性可以對(duì)這4個(gè)復(fù)制動(dòng)態(tài)均衡點(diǎn)的穩(wěn)定性進(jìn)行分析,通過對(duì)F(x)與F(y)求偏導(dǎo)可得Jacobian矩陣為 根據(jù)演化博弈理論知識(shí)可知,只有滿足det(J)>0且tr(J)<0的均衡點(diǎn)才會(huì)趨于穩(wěn)定。各均衡點(diǎn)的穩(wěn)定性分析如表3所示。 表3 各均衡點(diǎn)矩陣行列式和跡的表達(dá)式 2.2.4 攻防雙方策略的選取 (1) 均衡點(diǎn)1的漸進(jìn)穩(wěn)定條件 均衡點(diǎn)1的漸進(jìn)穩(wěn)定條件如下: 對(duì)均衡點(diǎn)1的仿真結(jié)果如圖4所示。圖4中,橫坐標(biāo)代表攻方無人機(jī)選擇進(jìn)攻策略的概率,縱坐標(biāo)代表守方無人機(jī)選擇出擊策略的概率。 即在此條件下,攻方無人機(jī)選擇防守策略,守方無人機(jī)選擇防御策略。 (2) 均衡點(diǎn)2的漸進(jìn)穩(wěn)定條件 均衡點(diǎn)2的漸進(jìn)穩(wěn)定條件如下: 對(duì)均衡點(diǎn)2的仿真結(jié)果如圖5所示。 圖5 均衡點(diǎn)2Fig.5 Equilibrium point 2 即在此條件下,攻方無人機(jī)選擇進(jìn)攻策略,守方無人機(jī)選擇防御策略。 (3) 均衡點(diǎn)3的漸進(jìn)穩(wěn)定條件 均衡點(diǎn)3的漸進(jìn)穩(wěn)定條件如下: 對(duì)均衡點(diǎn)3的仿真結(jié)果如圖6所示。 圖6 均衡點(diǎn)3Fig.6 Equilibrium point 3 即在此條件下,攻方無人機(jī)選擇防守策略,守方無人機(jī)選擇出擊策略。 (4) 均衡點(diǎn)4的漸進(jìn)穩(wěn)定條件 均衡點(diǎn)4的漸進(jìn)穩(wěn)定條件如下: 對(duì)均衡點(diǎn)4的仿真結(jié)果如圖7所示。 圖7 均衡點(diǎn)4Fig.7 Equilibrium point 4 即在此條件下,攻方無人機(jī)選擇進(jìn)攻策略,守方無人機(jī)選擇出擊策略。 態(tài)勢(shì)評(píng)估函數(shù)與演化博弈模型相結(jié)合,將某一時(shí)刻態(tài)勢(shì)評(píng)估函數(shù)的值作為演化博弈模型的數(shù)據(jù)。在無人機(jī)的探測(cè)范圍內(nèi),首先,利用態(tài)勢(shì)評(píng)估函數(shù),遍歷自身對(duì)敵方無人機(jī)的優(yōu)勢(shì)。然后,依據(jù)演化博弈模型中選擇策略的條件,實(shí)現(xiàn)雙方無人機(jī)的自適應(yīng)策略選擇。最后,將每一階段的態(tài)勢(shì)評(píng)估函數(shù)數(shù)值以及無人機(jī)狀態(tài)帶入相應(yīng)模型,完成全階段態(tài)勢(shì)演化博弈的策略選擇和全員的實(shí)時(shí)狀態(tài)更新,保證了每一階段每一架次的策略選擇都處于納什均衡,即做出了對(duì)己方最有利的策略選擇和狀態(tài)變化。 態(tài)勢(shì)演化博弈模型與態(tài)勢(shì)評(píng)估函數(shù)的對(duì)應(yīng)關(guān)系如表4所示。 表4 博弈論模型與態(tài)勢(shì)評(píng)估函數(shù)的對(duì)應(yīng)關(guān)系 當(dāng)出現(xiàn)一架無人機(jī)對(duì)敵方多架無人機(jī)采取相同策略時(shí),攻方無人機(jī)以G2的大小確定優(yōu)先級(jí)順序,G2越大越優(yōu)先,G2相同時(shí)再按照態(tài)勢(shì)評(píng)估函數(shù)的權(quán)重比進(jìn)行優(yōu)先級(jí)排序,即權(quán)重越大的態(tài)勢(shì)評(píng)估函數(shù),其值越大,則優(yōu)先級(jí)越高。防守?zé)o人機(jī)的策略選擇以態(tài)勢(shì)評(píng)估函數(shù)的權(quán)重比進(jìn)行判斷。 本實(shí)驗(yàn)采用Matlab R2021b編寫仿真程序。無人機(jī)與基地參數(shù)如表5所示,無人機(jī)集群動(dòng)態(tài)對(duì)抗模型參數(shù)如表6所示。 表5 無人機(jī)與基地參數(shù) 表6 無人機(jī)集群動(dòng)態(tài)對(duì)抗模型參數(shù) 基地坐標(biāo)為(0,7 500),攻方無人機(jī)經(jīng)過突襲,在距離基地12~15 km處發(fā)起攻擊。仿真結(jié)果如圖8所示。 圖8 無人機(jī)集群攻防軌跡Fig.8 Unmanned aerial vehicle swarm offensive and defensive trajectory 圖8中,以基地為中心的小圓代表基地的受威脅區(qū),當(dāng)攻方無人機(jī)攜帶武器進(jìn)入此區(qū)域時(shí),會(huì)給基地帶來一定的威脅。以基地為中心的大圓代表基地的探測(cè)區(qū)。每20 s為攻防雙方的軌跡做一個(gè)標(biāo)記。其中,代表攻方無人機(jī)的藍(lán)色三角形反向時(shí),表明此時(shí)武器消耗殆盡,攻方無人機(jī)撤離;代表守方無人機(jī)的紅色三角形反向時(shí),表明守方無人機(jī)策略的改變,由出擊轉(zhuǎn)為防御,不再遠(yuǎn)離基地,而是向基地方向回防。 從圖8中可以看出,攻方無人機(jī)最初采取進(jìn)攻策略,以編隊(duì)方式向基地前進(jìn);守方無人機(jī)最初采取防御策略,在基地受威脅區(qū)與基地探測(cè)區(qū)間巡航。最終雙方相遇,初始相遇階段,攻方具備先發(fā)優(yōu)勢(shì):守方無人機(jī)對(duì)最接近基地探測(cè)區(qū)的攻方無人機(jī)進(jìn)行攔截,以使得守方優(yōu)勢(shì)最大化,這給后續(xù)分散到達(dá)的攻方無人機(jī)可乘之機(jī),故而雙方遭遇的初始階段,守方無人機(jī)處于劣勢(shì)。隨著時(shí)間的推移,基地的作用凸顯,守方處于優(yōu)勢(shì):攻方無人機(jī)逐漸進(jìn)入到基地的探測(cè)區(qū)內(nèi),此時(shí)基地為守方無人機(jī)增強(qiáng)了態(tài)勢(shì)感知能力,守方無人機(jī)與攻方無人機(jī)在此范圍內(nèi)對(duì)抗,消耗了攻方無人機(jī)的武器數(shù)量,增加了基地的生存率。雙方無人機(jī)對(duì)抗的最后階段:雙方武器消耗殆盡,攻方選擇撤離,守方無人機(jī)或大角度機(jī)動(dòng),或緩慢機(jī)動(dòng),由出擊策略變?yōu)榉烙呗?返回基地。 圖9顯示了雙方無人機(jī)剩余數(shù)量隨時(shí)間變化的情況,在45~49 s,雙方最初遭遇,此時(shí)即攻方優(yōu)勢(shì)期,守方迅速損失4架。而后,雙方進(jìn)入相持階段,彼此糾纏,在50~70 s,雙方數(shù)量基本保持不變;在75~85 s,隨著攻方無人機(jī)的持續(xù)深入,基地功能凸顯,逐步進(jìn)入到守方優(yōu)勢(shì)期,攻方無人機(jī)數(shù)目漸次減少;85 s之后,為對(duì)抗結(jié)束期,雙方武器消耗殆盡,改變策略,各自撤離戰(zhàn)場(chǎng)。 圖9 雙方無人機(jī)剩余數(shù)量圖Fig.9 Number of remaining unmanned aerial vehicles on both sides 為更直觀體現(xiàn)雙方無人機(jī)的動(dòng)態(tài)攻防過程,雙方無人機(jī)的存活率分別如圖10和圖11所示,可以看到任一架無人機(jī)任意時(shí)刻被攻擊的情況。其中,不連續(xù)的線,表示下一時(shí)刻該無人機(jī)的存活率低于生存閾值,即被擊毀。 圖10 攻方無人機(jī)剩余數(shù)量圖Fig.10 Number of remaining unmanned aerial vehicles on offensive side 圖11 守方無人機(jī)剩余數(shù)量圖Fig.11 Number of remaining unmanned aerial vehicles on defensive side 圖12和圖13中顯示了雙方無人機(jī)剩余武器數(shù)目隨時(shí)間的變化。 圖12 攻方無人機(jī)武器剩余數(shù)量圖Fig.12 Number of offensive unmanned aerial vehicles’weapons remaining 圖13 守方無人機(jī)武器剩余數(shù)量圖Fig.13 Number of defensive unmanned aerial vehicles’weapons remaining 由以上分析可知,在成規(guī)模的無人機(jī)集群對(duì)抗仿真中,基地安好,守方勝利。為更直接展現(xiàn)無人機(jī)集群對(duì)抗中無人機(jī)個(gè)體的策略選擇,選取攻方第7架無人機(jī)和守方第6架無人機(jī)進(jìn)行分析,兩者策略變化如圖14所示。 圖14 所選無人機(jī)決策結(jié)果圖Fig.14 Decision results of the selected unmanned aerial vehicles 圖14中曲線的每一次突變,代表策略的變化。在未發(fā)生對(duì)抗前,即15 s時(shí),攻方率先改變策略,對(duì)守方無人機(jī)發(fā)動(dòng)進(jìn)攻,體現(xiàn)了攻方的前期先發(fā)優(yōu)勢(shì)。守方迎戰(zhàn),策略變化慢于攻方,隨著態(tài)勢(shì)逐漸對(duì)守方有利,守方策略轉(zhuǎn)化明顯,即態(tài)勢(shì)占優(yōu)時(shí)攻擊,擊毀攻方無人機(jī)后,短時(shí)間無合適目標(biāo),選擇防御策略,隨著位置變化,又發(fā)現(xiàn)其他攻方無人機(jī),進(jìn)而策略不斷變化。當(dāng)雙方武器消耗殆盡后,策略不再改變。圖14說明,攻防雙方的策略可以隨著態(tài)勢(shì)變化而自適應(yīng)選擇。 由圖15的無人機(jī)間最小距離圖可知,在集群攻防過程中安全可控,沒有發(fā)生碰撞。守方無人機(jī)在對(duì)抗初始階段的最短距離迅速變小,與之前分析相符。為了驗(yàn)證具備探測(cè)功能的基地對(duì)攻防雙方勝負(fù)的影響,利用蒙特卡羅法分別進(jìn)行1 000次仿真實(shí)驗(yàn),基地具備探測(cè)功能時(shí),攻方勝利次數(shù):守方勝利次數(shù)為367:633;基地不具備探測(cè)功能時(shí),攻方勝利次數(shù):守方勝利次數(shù)為507∶493。即具備探測(cè)功能的基地為守方提高了14%的勝率。 圖15 所選無人機(jī)決策圖Fig.15 Selected unmanned aerial vehicles decision map 本文提出的態(tài)勢(shì)演化博弈模型,能夠解決基地具備功能情況下的攻防雙方無人機(jī)集群協(xié)同對(duì)抗的自適應(yīng)。無人機(jī)個(gè)體能夠根據(jù)自身態(tài)勢(shì)情況,選擇最優(yōu)策略,實(shí)現(xiàn)自身收益最大化。運(yùn)用該模型,使無人機(jī)集群對(duì)抗展現(xiàn)出強(qiáng)大的對(duì)抗能力,仿真實(shí)驗(yàn)證明了基地具備探測(cè)功能時(shí)能夠有效提高守方勝率。 下一步將拓展無人機(jī)和基地功能,實(shí)現(xiàn)攻防雙方在三維空間上的集群動(dòng)態(tài)對(duì)抗。
(1-x)(B2-Cj-G2+π2R+π3B3)2.3 態(tài)勢(shì)演化博弈模型的實(shí)現(xiàn)
3 仿真與實(shí)驗(yàn)
3.1 參數(shù)設(shè)定
3.2 仿真結(jié)果與分析
4 結(jié)束語(yǔ)