王琳蒙,王玉惠,陳 謀,劉昊天
(南京航空航天大學(xué) 自動化學(xué)院,南京 211106)
隨著無人機(jī)技術(shù)以及人工智能技術(shù)的發(fā)展,無人機(jī)憑借其無人化、高機(jī)動性等優(yōu)勢,必將成為未來空戰(zhàn)的主要作戰(zhàn)單元之一,而自主決策是實(shí)現(xiàn)無人機(jī)空戰(zhàn)的關(guān)鍵技術(shù),因此根據(jù)戰(zhàn)場態(tài)勢研究無人機(jī)自主制定攻防決策問題是軍事無人機(jī)領(lǐng)域研究的重點(diǎn)。
常用的攻防決策方法有專家系統(tǒng)法[1]和矩陣對策法[2]等,但面對未來更為復(fù)雜的空戰(zhàn)戰(zhàn)場環(huán)境存在著計(jì)算量較大,精度較低等問題。為此,近年來研究學(xué)者考慮以博弈論為基礎(chǔ)的決策方法,以便充分考慮對抗雙方之間的關(guān)系,并進(jìn)一步提高算法的效率[3-5]。李迎春等[6]建立了無人機(jī)攻防博弈模型,并根據(jù)求得的納什均衡得出最終的策略集合。在這些研究成果的基礎(chǔ)上,研究人員發(fā)現(xiàn)由于空戰(zhàn)環(huán)境的復(fù)雜性,獲取的空戰(zhàn)信息必然存在或多或少的非完備性,因此解決在非完備信息下無人機(jī)的攻防決策問題成為了新的熱點(diǎn)?;菀婚萚7]建立了不完全信息下的動態(tài)博弈模型,并且利用免疫進(jìn)化算法求得貝葉斯納什均衡解,最終得到最優(yōu)行動策略,但其研究主要應(yīng)用于無人機(jī)和導(dǎo)彈陣地之間的攻防博弈,并未考慮無人機(jī)之間的對抗。陳俠等[8]考慮了多無人機(jī)對抗的情況,并且利用區(qū)間可能度公式以及粒子群算法求解了納什均衡值,但未考慮到空戰(zhàn)態(tài)勢對最終博弈決策的影響。李世豪等[9]提出了無人機(jī)空戰(zhàn)機(jī)動直覺模糊博弈模型,但模糊數(shù)屬性權(quán)重的確定依賴專家經(jīng)驗(yàn)。雖然文獻(xiàn)[6-9]研究成果都大大推動了無人機(jī)智能決策技術(shù)的進(jìn)展,但仍存在空戰(zhàn)環(huán)境考慮簡單化和空戰(zhàn)數(shù)據(jù)處理主觀化等亟待解決問題。
麻雀算法(Sparrow Algorithm)是通過模擬自然界中麻雀的覓食行為和反捕食行為抽象出的新算法。該算法通過種群內(nèi)職責(zé)分工的搜索模式,保證種群能快速覓食的同時(shí)避免陷入局部最優(yōu)的情況,具有求解精度高、穩(wěn)定性好等特點(diǎn)。湯安迪等[10]利用混沌麻雀算法進(jìn)行無人機(jī)航跡規(guī)劃。然而,目前麻雀算法在求解博弈問題方面還未能取得較大進(jìn)展。
基于以上分析,筆者提出基于改進(jìn)麻雀算法,并進(jìn)行了無人機(jī)非完備信息攻防博弈策略研究。首先給出空戰(zhàn)信息的區(qū)間數(shù)表示,建立了非完備信息下的無人機(jī)攻防博弈模型,分析了非完備信息的區(qū)間可能度;然后提出基于反向?qū)W習(xí)的改進(jìn)麻雀算法,并用于求解空戰(zhàn)雙方混合策略納什均衡解;最后通過仿真驗(yàn)證了所提算法的有效性。
將實(shí)際空戰(zhàn)問題與博弈論思想結(jié)合,將敵我雙方的無人機(jī)視為博弈過程中的兩個(gè)局中人{(lán)A,B},其中A為我方,B為敵方。我方無人機(jī)采取的策略集合可表示為SA={sA1,sA2,…,sAp,…,sAk},敵方無人機(jī)采取的策略集合可表示為SB={sB1,sB2,…,sBq,…,sBl},其中k和l分別為我方和敵方的無人機(jī)所采取的策略總數(shù)。
根據(jù)雙方無人機(jī)的數(shù)據(jù),計(jì)算雙方速度態(tài)勢Wv、高度態(tài)勢Wh、距離態(tài)勢Wr、角度態(tài)勢Wa、性能優(yōu)勢Wc以及收益函數(shù)Rw[11],最終加權(quán)求和得到雙方最后的總體優(yōu)勢函數(shù)。根據(jù)總體優(yōu)勢函數(shù)以及策略集合得到雙方支付矩陣,從而計(jì)算納什均衡解,給出攻防決策。
假設(shè)我方無人機(jī)集合為A={1,2,…,i,…,m},敵方無人機(jī)集合為B={1,2,…,j,…,n}。針對我方無人機(jī)i和敵方無人機(jī)j之間的態(tài)勢對比情況,考慮速度、高度、角度、距離和無人機(jī)性能,建立總體優(yōu)勢函數(shù),其中速度Wvij、高度Whij、角度Wrij、距離Waij和無人機(jī)性能Wcij的非完備信息均用區(qū)間數(shù)表示,并且區(qū)間數(shù)的左、右值已知。
1) 我方總體空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)
Wsij=c1ijWvij+c2ijWhij+c3ijWrij+c4ijWaij
(1)
其中c1ij,c2ij,c3ij和c4ij分別為我方無人機(jī)i攻擊敵方無人機(jī)j時(shí)速度優(yōu)勢、高度優(yōu)勢、距離優(yōu)勢以及角度優(yōu)勢的加權(quán)系數(shù),且各系數(shù)之間滿足關(guān)系:c1ij+c2ij+c3ij+c4ij=1。
2) 空戰(zhàn)性能優(yōu)勢函數(shù)
(2)
其中Wcij為我方無人機(jī)i對敵方無人機(jī)j的空戰(zhàn)性能優(yōu)勢函數(shù);CAi,CBj分別為我方無人機(jī)i和敵方無人機(jī)j的空戰(zhàn)能力指數(shù)。
根據(jù)文獻(xiàn)[12],無人機(jī)的空戰(zhàn)能力指數(shù)C可通過
C=[lnB+ln(∑A1+1)+ln(∑A2)]ε1ε2ε3ε4
(3)
計(jì)算得到,其中B為機(jī)動性參數(shù);A1為火力參數(shù);A2為探測能力參數(shù);ε1為操縱效能系數(shù);ε2為生存力系數(shù);ε3為航程系數(shù);ε4為電子對抗能力系數(shù)。
(4)
其中vdmax為敵方無人機(jī)價(jià)值集合中右值的最大值。
4) 我方總體優(yōu)勢函數(shù)u1ij。根據(jù)我方的總體空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)Wsij、空戰(zhàn)性能優(yōu)勢函數(shù)Wcij以及收益函數(shù)Rwij,加權(quán)求和得到我方總體優(yōu)勢函數(shù)
u1ij=k1ijWsij+k2ijWcij+k3ijRwij
(5)
其中k1ij,k2ij和k3ij分別為我方無人機(jī)i攻擊敵方無人機(jī)j時(shí)總體空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)、空戰(zhàn)性能優(yōu)勢函數(shù)和收益函數(shù)的加權(quán)系數(shù),且各系數(shù)之間滿足關(guān)系:k1ij+k2ij+k3ij=1。
同理可得,敵方總體空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)Wsji、空戰(zhàn)性能優(yōu)勢函數(shù)Wcji、收益函數(shù)Rdji、以及敵方總體優(yōu)勢函數(shù)u2ji。
多無人機(jī)對抗的情況下,在每個(gè)階段的任一策略集sAp都由我方的m架無人機(jī)所采取的行動共同決定的。因此任一策略集sAp可表現(xiàn)為以下形式:sAp={sAp1,sAp2,…,sApi,…,sApm},其中sApi為當(dāng)前策略sAp中我方第i架無人機(jī)所采取的行動。
在當(dāng)前策略sAp中,我方第i架無人機(jī)可采取行動攻擊敵方任意一架無人機(jī)。因此,sApi可進(jìn)一步表示為:sApi={pi1,pi2,…,pij,…,pin},其中pij為在當(dāng)前策略sAp中我方第i架無人機(jī)對敵方第j架無人機(jī)所采取的行動。同理,敵方無人機(jī)策略集合可表示為以下形式:sBq={sBq1,sBq2,…,sBqj,…,sBqn},sBqj={qj1,qj2,…,qji,…,qjm}。
當(dāng)我方采取策略sAp,敵方采取策略sBq時(shí),建立我方的收益支付函數(shù)
(6)
其中pij=1為我方在策略sAp下,我方第i架無人機(jī)攻擊敵方第j架無人機(jī);pij=0為我方在策略sAp下,我方第i架無人機(jī)沒有攻擊敵方第j架無人機(jī)。qji=1表示敵方在策略sBq下,敵方第j架無人機(jī)攻擊我方第i架無人機(jī);qji=0表示敵方在策略sBq下,敵方第j架無人機(jī)沒有攻擊我方第i架無人機(jī)。
根據(jù)上述空戰(zhàn)支付函數(shù)的計(jì)算,我方空戰(zhàn)支付矩陣為
(7)
根據(jù)空戰(zhàn)模型中無人機(jī)的攻防博弈問題建立無人機(jī)攻防博弈模型,采用麻雀算法求解攻防博弈的納什均衡策略。
根據(jù)參考文獻(xiàn)[13],將單矩陣的博弈問題轉(zhuǎn)化為常規(guī)的線性規(guī)劃問題進(jìn)行求解,我方無人機(jī)的納什均衡值通過
(8)
進(jìn)行求解。對單矩陣博弈問題的求解本質(zhì)上就是對式(8)進(jìn)行求解,所得最優(yōu)解(x1,x2,…,xk)即為納什均衡解??紤]到攻防博弈模型式(8)中存在區(qū)間數(shù)fapq,無法直接進(jìn)行求解,下面將考慮采用麻雀算法進(jìn)行求解。
根據(jù)式(8)的攻防博弈模型,采用麻雀算法求解攻防博弈的納什均衡解。
納什均衡解的個(gè)數(shù)即為麻雀種群中每只麻雀位置的維數(shù),種群最后得出的全局最優(yōu)位置即為所求的博弈納什均衡解。假設(shè)麻雀種群X中麻雀的個(gè)數(shù)為N,即X=(X1,…,Xg,…,XN)。根據(jù)納什均衡解的個(gè)數(shù),種群中每個(gè)個(gè)體的位置都可表示為:Xg=(Xg,1,…,Xg,p,…,Xg,k)。因此針對式(8)的求解可表示為
(9)
針對式(9)得出適應(yīng)度函數(shù)Ffitness,并根據(jù)算法原理進(jìn)行求解,最后得出的全局最優(yōu)位置即為所求的博弈納什均衡解(x1,x2,…,xk)。
2.2.1 基本麻雀算法求解
麻雀搜索算法通過模擬麻雀進(jìn)食的過程獲得優(yōu)化解[14],種群最后得出的全局最優(yōu)位置即為所求的博弈納什均衡解。基本的求解步驟如下。
1)首先,麻雀種群的初始化。確定麻雀的個(gè)數(shù)始終為N個(gè),麻雀個(gè)數(shù)不會隨著迭代的進(jìn)行而發(fā)生改變。初始化時(shí)隨機(jī)產(chǎn)生的N個(gè)可行解的位置為
(10)
3) 函數(shù)值排名前20%的解作為發(fā)現(xiàn)者(S),其余80%作為跟隨者(F)。因此發(fā)現(xiàn)者的總數(shù)為0.2N。確定種群中的發(fā)現(xiàn)者以及跟隨者后,首先開始發(fā)現(xiàn)者位置更新,其方式如下[15]
(11)
4) 當(dāng)所有發(fā)現(xiàn)者進(jìn)行位置更新后,利用適應(yīng)度函數(shù)計(jì)算所有發(fā)現(xiàn)者的函數(shù)值并對函數(shù)值進(jìn)行從大到小排序,找出其中位置最好的發(fā)現(xiàn)者,其方式如下
(12)
5) 隨后進(jìn)行跟隨者的位置更新,其方式如下
(13)
6) 種群中存在偵察預(yù)警機(jī)制,負(fù)責(zé)警戒的麻雀在整個(gè)麻雀種群中隨機(jī)產(chǎn)生。在1次迭代完成后,麻雀種群會隨機(jī)選擇種群中10%~20%的個(gè)體成為種群中的偵察者,即偵察者通過比較自身適應(yīng)度值和當(dāng)前的最優(yōu)適應(yīng)度值不斷調(diào)整自己的位置,從而保證安全,其更新方式如下
(14)
7) 每次迭代結(jié)束后,利用適應(yīng)度函數(shù)計(jì)算每個(gè)個(gè)體的函數(shù)值并由大到小進(jìn)行排序,將最大函數(shù)值fG對應(yīng)的位置記為Xgbest,最小函數(shù)值fW對應(yīng)的位置記為Xgworst。
8) 重復(fù)步驟3)~7),直至達(dá)到最大迭代次數(shù),根據(jù)
(15)
輸出敵我方無人機(jī)攻防博弈的納什均衡解。
2.2.2 改進(jìn)的麻雀算法
筆者采用反向?qū)W習(xí)策略對麻雀種群進(jìn)行初始化,并且對原始算法種群中的發(fā)現(xiàn)者和偵察者的位置更新方式進(jìn)行改進(jìn),從而使算法的收斂速度和所求解的求解精度均有所提升。
1) 利用反向?qū)W習(xí)策略初始化麻雀種群。
基本麻雀算法中采用隨機(jī)的方法初始化種群,有可能導(dǎo)致麻雀種群中的個(gè)體初始位置極差,從而致使算法的收斂速度有所降低。為提高算法的收斂速度,考慮利用反向?qū)W習(xí)策略[16]初始化麻雀種群。
根據(jù)式(10)的初始種群Xstart,反向種群可定義為Xreverse,其求解方式如下
(16)
根據(jù)式(10)和式(16)得到初始種群Xstart以及反向種群Xreverse后,利用
(17)
得到改進(jìn)后的初始種群X。改進(jìn)后的初始種群X是由原初始種群以及反向種群兩個(gè)種群中函數(shù)值高的個(gè)體組成,原初始種群位置因此初始種群X具有較好的位置,縮短了與最優(yōu)解之間的距離,從而能有效地提高算法的收斂速度和效率。
2)發(fā)現(xiàn)者位置更新方式的改進(jìn)。
根據(jù)式(11)可知,當(dāng)發(fā)現(xiàn)者的預(yù)警值小于安全值時(shí),根據(jù)指數(shù)函數(shù)y=e-x可知:當(dāng)x越小時(shí),y取1的可能性越大,當(dāng)x越大時(shí)y就越趨于0。因此,與其他算法相比,麻雀算法在求解最優(yōu)解在原點(diǎn)附近的問題時(shí)的收斂速度非??臁?/p>
但待求解問題的最優(yōu)解遠(yuǎn)離原點(diǎn)時(shí)算法的性能會快速下降,容易陷入局部最優(yōu)的情況。這就導(dǎo)致在利用基本麻雀算法求解權(quán)重參數(shù)以及納什均衡解時(shí),麻雀種群中的發(fā)現(xiàn)者不能很好地遍歷所有可能的最優(yōu)解。
考慮到上述問題,筆者針對發(fā)現(xiàn)者的位置更新方式進(jìn)行改進(jìn)。權(quán)重系數(shù)w的計(jì)算公式以及改進(jìn)后發(fā)現(xiàn)者的位置更新方式如下
(18)
(19)
其中t為當(dāng)前迭代次數(shù),T為最大迭代次數(shù)。wstart為初始慣性權(quán)重,wend為最終迭代次數(shù)時(shí)的慣性權(quán)重。取wstart=0.9,wend=0.4。
借鑒慣性權(quán)重的思想引入自適應(yīng)線性遞減權(quán)重[17],針對局部搜索能力和全局搜索能力的平衡關(guān)系進(jìn)行調(diào)整。這種改變使算法在迭代初期具有較好的搜索能力,隨著迭代的進(jìn)行搜索能力不斷增強(qiáng),能在最優(yōu)解周圍進(jìn)行精細(xì)搜索,從而降低算法陷入局部最優(yōu)解的可能性。
3) 偵察者位置更新方式的改進(jìn)。根據(jù)式(14)可知,當(dāng)前偵察者個(gè)體的適應(yīng)度值滿足fg=fG,且fg和fW之間差值較小時(shí),由于比例關(guān)系的存在,使偵察者位置進(jìn)行更新時(shí)參數(shù)變化較大,存在跳躍的趨勢,這種行為雖然會提高算法的收斂速度,但也容易導(dǎo)致種群在較短時(shí)間內(nèi)迅速聚集,從而使種群的多樣性有所下降,容易陷入局部最優(yōu)。因此,為改善上述情況,對偵察者的位置更新方式進(jìn)行改進(jìn),改進(jìn)后位置更新方式如下[18-21]
(20)
改進(jìn)后的偵察者的位置更新方式由跳躍改為移動,若該偵察者處于最優(yōu)位置,它會逃到最優(yōu)位置和最差位置之間的隨機(jī)位置,從而避免種群因在較短時(shí)間內(nèi)迅速聚集而導(dǎo)致種群多樣性下降,從而增強(qiáng)全局搜索能力。
假設(shè)我方有2架UAV(U1,U2),敵方有4架UAV(V1,V2,V3,V4),雙方無人機(jī)均在彼此的雷達(dá)跟蹤范圍內(nèi),展開雙方2對2(U1、U2、V1、V2)以及2對4(U1、U2、V1、V2 、V3、V4)空戰(zhàn)博弈。假設(shè)我方無人機(jī)的價(jià)值區(qū)間集合為vw={[67,71],[62,65]},攻擊命中概率集合為pw={[0.68,0.70],[0.62,0.64]};敵方無人機(jī)的價(jià)值區(qū)間集合為vw={[68,72],[60,64],[56,60],[62,66]},攻擊命中概率集合為pw={[0.68,0.70],[0.62,0.64],[0.58,0.60],[0.54,0.56]}。敵我雙方無人機(jī)的作戰(zhàn)信息如表1、表2所示。
表1 我方無人機(jī)速度、高度、距離、角度態(tài)勢Tab.1 The situations of the speed,altitude,distance and angle of our UAVs
表2 敵方無人機(jī)速度、高度、距離、角度態(tài)勢Tab.2 The situations of the speed,altitude,distance and angle of enemy’s UAVs
敵2我2時(shí)雙方的策略集如表3所示。
表3 敵2我2時(shí)雙方無人機(jī)的策略集Tab.3 The strategy of UAVs on both sides(2v2)
敵4我2時(shí)雙方的部分策略集如表4所示。
表4 敵4我2雙方無人機(jī)的部分策略集Tab.4 Part of the strategy of UAVs on both sides(2v4)
1) 我2(U1,U2)敵2(V1,V2)。
利用改進(jìn)麻雀算法對各項(xiàng)態(tài)勢指標(biāo)權(quán)重進(jìn)行尋優(yōu),根據(jù)尋優(yōu)后的權(quán)重參數(shù)計(jì)算得到我方4×4維的區(qū)間支付矩陣,結(jié)果如下
根據(jù)求得的支付矩陣,分別采用基本麻雀算法以及基于反向?qū)W習(xí)的改進(jìn)麻雀算法求解混合策略的納什均衡,設(shè)置種群規(guī)模N=50,迭代總次數(shù)T=50,位置維度d=4。仿真結(jié)果如下。
我方無人機(jī)的納什均衡解為x*=(0,0,0,1),期望收益區(qū)間為[0.252,0.333];敵方無人機(jī)的納什均衡解為y*=(1,0,0,0),期望收益區(qū)間為[0.124,0.220]。算法改進(jìn)前后,敵我雙方區(qū)間適應(yīng)度變化情況如圖1和圖2所示。
根據(jù)敵我雙方的納什均衡解,我方采取策略4(即我方U1、U2同時(shí)進(jìn)攻敵方V2);敵方可能采取策略1(即敵方V1、V2同時(shí)進(jìn)攻我方U1)。
圖1 我方的區(qū)間適應(yīng)度變化曲線 圖2 敵方的區(qū)間適應(yīng)度變化曲線 Fig.1 Interval fitness curve of us Fig.2 Interval fitness curve of the enemy
2) 我2(U1,U2)敵4(V1,V2,V3,V4)。
利用改進(jìn)麻雀算法對各項(xiàng)態(tài)勢指標(biāo)權(quán)重進(jìn)行尋優(yōu),根據(jù)尋優(yōu)后的權(quán)重參數(shù)計(jì)算得到我方16×16維的支付矩陣,其中部分結(jié)果如下。
當(dāng)我方無人機(jī)選擇策略x1,敵方無人機(jī)分別選擇策略y1、y2、y3、y4、y5、y6、y7、y8、y9、y10、y11、y12、y13、y14、y15、y16時(shí),我方支付值分別為:[-1.236 3,-1.106 0]、[-1.281 3,-1.154 9]、[-1.367 0,-1.241 0]、[-1.412 0,-1.289 9]、[-1.215 9,-1.089 9]、[-1.260 9,-1.138 9]、[-1.346 6,-1.224 9]、[-1.391 6,-1.273 8]、[-1.218 5,-1.080 0]、[-1.263 5,-1.129 0]、[-1.349 3,-1.215 0]、[-1.394 3,-1.264 0]、[-1.198 1,-1.063 9]、[-1.243 1,-1.112 9]、[-1.328 8,-1.198 9]、[-1.373 8,-1.247 9]。
根據(jù)求得的支付矩陣,分別采用基本麻雀算法以及基于反向?qū)W習(xí)的改進(jìn)麻雀算法求解混合策略的納什均衡,設(shè)置種群規(guī)模N=100,迭代總次數(shù)T=100,位置維度d=16。仿真結(jié)果如下。
我方無人機(jī)的納什均衡解為x*=(0,0,0,0,0,0.388,0,0,0,0,0,0.131,0,0.320,0.161,0),期望收益區(qū)間為[-0.856,-0.723];敵方無人機(jī)的納什均衡解為y*=(0,0,0,0,0,0,0,0.621,0,0,0,0,0,0,0.379,0),期望收益區(qū)間為[1.245,1.368]。算法改進(jìn)前后,敵我雙方區(qū)間適應(yīng)度變化情況如圖3和圖4所示。
根據(jù)敵我雙方的納什均衡解,我方可能采取的策略為策略6(即我方U1、U2同時(shí)進(jìn)攻敵方V2)以及策略14(即我方U1進(jìn)攻敵方V4,U2進(jìn)攻敵方V2);敵方可能采取的策略為策略8(即敵方V1進(jìn)攻我方U1,敵方V2、V3以及V4同時(shí)進(jìn)攻我方U2)以及策略15(即敵方V1、V4同時(shí)進(jìn)攻我方U1,敵方V2、V3同時(shí)進(jìn)攻我方U2)。
圖3 我方的區(qū)間適應(yīng)度變化曲線 圖4 敵方的區(qū)間適應(yīng)度變化曲線 Fig.3 Interval fitness curve of us Fig.4 Interval fitness curve of the enemy
對比基本麻雀算法和基于反向?qū)W習(xí)的改進(jìn)麻雀算法求解博弈策略納什均衡解的性能。分別利用這兩種算法進(jìn)行多次實(shí)驗(yàn)仿真,并計(jì)算各自求得全局最優(yōu)解的平均迭代次數(shù),結(jié)果如表5所示。
表5 兩種算法的平均迭代次數(shù)Tab.5 Average iteration times of two algorithms
根據(jù)圖1與圖2可知,在敵2我2的情況下,改進(jìn)麻雀算法在求解納什均衡解時(shí),其求解精度和求解速度略好于基本麻雀算法,但兩者相差不大。根據(jù)圖3與圖4可知,在敵4我2的情況下,改進(jìn)麻雀算法在求解納什均衡解時(shí),其求解精度和求解速度好于基本麻雀算法,且兩者算法之間存在較為明顯的差距。因此,針對多無人機(jī)攻防博弈納什均衡解的求解問題,基于反向?qū)W習(xí)的改進(jìn)麻雀算法在求解精度和求解速度都有十分明顯的優(yōu)勢,從而幫助我方無人機(jī)快速得出下一步要采取的策略,對敵方無人機(jī)實(shí)施打擊。
通過表5數(shù)據(jù)可知,基于反向?qū)W習(xí)的改進(jìn)麻雀算法求解支付矩陣的納什均衡解的平均迭代次數(shù)更少,即改進(jìn)算法的求解速度優(yōu)于基本麻雀算法,因此改進(jìn)算法在求解速度上更具有優(yōu)勢。
針對非完備信息下的無人機(jī)空戰(zhàn)情況,筆者提出了一種攻防博弈模型。該模型考慮了空戰(zhàn)過程中無人機(jī)的敵我雙方的空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)、空戰(zhàn)性能優(yōu)勢函數(shù)以及收益函數(shù),對各優(yōu)勢加權(quán)處理后建立了博弈支付函數(shù)。根據(jù)求得的支付矩陣,采用基于反向?qū)W習(xí)的改進(jìn)麻雀算法求解出敵我雙方攻防博弈的納什均衡解。此外,還比較了基本麻雀算法和基于反向?qū)W習(xí)的改進(jìn)麻雀算法兩者的性能。該模型還可以應(yīng)用于其他非完備信息下的博弈問題研究。