周同樂(lè) 陳謀, 朱榮剛 賀建良
隨著隱形技術(shù)、人工智能等越來(lái)越多的高新技術(shù)在現(xiàn)代戰(zhàn)爭(zhēng)中的運(yùn)用,現(xiàn)代空戰(zhàn)環(huán)境的復(fù)雜性和不確定性越來(lái)越高,無(wú)人作戰(zhàn)飛機(jī)代替有人機(jī)執(zhí)行聯(lián)合打擊任務(wù)將成為未來(lái)空戰(zhàn)的發(fā)展趨勢(shì)[1],無(wú)人作戰(zhàn)飛機(jī)具有速度范圍大、作戰(zhàn)范圍廣、高自主性、高智能性的特點(diǎn)[2],且由于無(wú)人作戰(zhàn)飛機(jī)不受飛行員的情緒和身體狀況的影響,具有自主決策能力的無(wú)人作戰(zhàn)飛機(jī)在作戰(zhàn)過(guò)程中不會(huì)因?yàn)槭艿酱碳ざ霈F(xiàn)操縱失誤,可以說(shuō),在危險(xiǎn)復(fù)雜的飛行環(huán)境中,無(wú)人作戰(zhàn)飛機(jī)的優(yōu)越性更加突出,但是單一無(wú)人機(jī)的能力是有限的,而且功能和適用性往往是相互制約的[3],功能單一的無(wú)人機(jī),可能在單個(gè)方面的功能很強(qiáng)大,但是卻只能執(zhí)行和自己功能相關(guān)的任務(wù),而現(xiàn)代戰(zhàn)爭(zhēng)中,獲取不同來(lái)源的信息以及對(duì)多源信息的有效處理是掌握戰(zhàn)場(chǎng)主動(dòng)權(quán)的關(guān)鍵.因此,多無(wú)人機(jī)聯(lián)合作戰(zhàn)是無(wú)人機(jī)技術(shù)發(fā)展的新方向[4],為了使無(wú)人作戰(zhàn)飛機(jī)編隊(duì)打擊敵方目標(biāo)的效率得到進(jìn)一步提高,有必要深入研究多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策技術(shù).
目前,智能算法已經(jīng)廣泛應(yīng)用于多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策技術(shù)中,已有很多的研究成果.文獻(xiàn)[5]充分考慮目標(biāo)之間的依賴(lài)關(guān)系和我方火力配置差異,通過(guò)改進(jìn)遺傳算法求解考慮分配次序的多無(wú)人機(jī)協(xié)同目標(biāo)分配問(wèn)題;文獻(xiàn)[6]研究了基于合同網(wǎng)的目標(biāo)分配方法,通過(guò)引入負(fù)載系數(shù)參數(shù),迭代執(zhí)行買(mǎi)賣(mài)合同與交換合同實(shí)現(xiàn)了無(wú)人機(jī)協(xié)同目標(biāo)分配;文獻(xiàn)[7]結(jié)合協(xié)同決策和控制要求,根據(jù)無(wú)人機(jī)編隊(duì)的飛行特點(diǎn)和戰(zhàn)場(chǎng)約束條件,建立了無(wú)人機(jī)編隊(duì)的任務(wù)分配模型,并分別采用改進(jìn)的粒子群算法(IPSO)、蟻群算法(ACA)和遺傳算法(GA)解決了協(xié)同任務(wù)分配問(wèn)題;文獻(xiàn)[8]針對(duì)多機(jī)協(xié)同空戰(zhàn)的目標(biāo)分配問(wèn)題,建立了綜合優(yōu)勢(shì)函數(shù),并在此基礎(chǔ)上改進(jìn)了人工免疫算法,得到了多機(jī)協(xié)同空戰(zhàn)最優(yōu)分配方案,滿足了實(shí)際作戰(zhàn)要求,但是,實(shí)際空戰(zhàn)中的多無(wú)人機(jī)協(xié)同多目標(biāo)攻防決策受到各種不確定性影響,往往難以達(dá)到真正意義上的最優(yōu)[9],而且傳統(tǒng)的智能優(yōu)化算法往往無(wú)法滿足空戰(zhàn)高實(shí)時(shí)性的要求.
滿意決策方法是一種建立在博弈理論基礎(chǔ)之上融合了集合論思想的決策方法[10],為了提高搜索效率,滿意決策通過(guò)設(shè)置滿意度因子,將搜索空間限制在參與分配的個(gè)體提出的個(gè)體滿意集合上,過(guò)濾掉不可行和收益低的分配策略,文獻(xiàn)[11] 提出了基于滿意決策的無(wú)人機(jī)空對(duì)地多目標(biāo)攻擊決策方法,根據(jù)參與目標(biāo)分配的每架無(wú)人機(jī)完成任務(wù)的預(yù)估效益和預(yù)估代價(jià)提出滿意集,建立拒絕函數(shù)和選擇函數(shù)從而獲得滿意分配結(jié)果,文獻(xiàn)[12] 研究了基于滿意決策的多無(wú)人機(jī)目標(biāo)分配問(wèn)題,通過(guò)滿意決策剪裁搜索空間,大大提高了目標(biāo)分配算法的運(yùn)行效率.狼群算法(Wolf Pack Search Algorithm,WPS)是一種通過(guò)模擬自然界狼群相互協(xié)作圍捕獵物的行為抽象出來(lái)的新型元啟發(fā)式算法[13],該算法基于“強(qiáng)者生存”的自然規(guī)律,通過(guò)狼群職責(zé)分工的協(xié)作式搜索方式,保證狼群能夠快速?lài)东C物的同時(shí)避免陷入局部最優(yōu),文獻(xiàn)[14]基于狼群算法解決了多無(wú)人機(jī)協(xié)同任務(wù)分配問(wèn)題,并與其他群智能算法進(jìn)行比較,仿真結(jié)果表明,狼群搜索可以提高算法的局部開(kāi)發(fā)能力,并能更好地解決多維優(yōu)化問(wèn)題.
本文針對(duì)多無(wú)人機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題,研究基于狼群算法的多無(wú)人機(jī)協(xié)同多目標(biāo)攻防滿意決策方法,通過(guò)狼群算法尋優(yōu)滿意決策的滿意度因子,在保證滿意決策快速性的同時(shí),最大限度提高決策的精確性.
本文研究多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題,考慮M架我方無(wú)人機(jī)對(duì)N個(gè)敵方目標(biāo)的攻防決策,多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策原理如圖1所示.
當(dāng)敵方無(wú)人機(jī)進(jìn)入我方無(wú)人機(jī)攻擊范圍后,對(duì)無(wú)人機(jī)進(jìn)行攻防決策,形成無(wú)人機(jī)攻防決策方案,決策目標(biāo)是確定哪架無(wú)人機(jī)具體攻擊哪個(gè)目標(biāo)及哪架無(wú)人機(jī)采取防御策略.
在多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策過(guò)程中,主要考慮以下3個(gè)方面:
1)空戰(zhàn)態(tài)勢(shì),無(wú)人空戰(zhàn)環(huán)境中各種態(tài)勢(shì)因素,如目標(biāo)的角度、距離、高度、軌跡等的變化往往能夠直接影響攻防決策的結(jié)果.空戰(zhàn)態(tài)勢(shì)函數(shù)設(shè)計(jì)為[15]:
其中,Pα,Pd,Pe分別表示角度、距離、能量?jī)?yōu)勢(shì),k1,k2,k3為相應(yīng)的權(quán)重系數(shù).
圖1 多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題示意圖Fig.1 Schematic diagram of multi-UCAVs cooperative multiple target attack-defense decision-making
2)無(wú)人機(jī)性能.無(wú)人空戰(zhàn)決策早期,由于交戰(zhàn)雙方無(wú)人機(jī)種類(lèi)較少、性能類(lèi)似,攻防決策往往只考慮空戰(zhàn)態(tài)勢(shì)而未考慮無(wú)人機(jī)性能,但隨著不同國(guó)家科技水平的發(fā)展,交戰(zhàn)雙方空戰(zhàn)能力差異化越來(lái)越明顯,無(wú)人機(jī)性能在空戰(zhàn)中的作用也越發(fā)突出.無(wú)人機(jī)性能優(yōu)勢(shì)函數(shù)設(shè)計(jì)為:
式中,Capi和Capj分別為我方和敵方目標(biāo)的無(wú)人機(jī)性能,與無(wú)人機(jī)的機(jī)動(dòng)能力、打擊能力、探測(cè)能力、操縱能力、生存能力、航程能力和電子對(duì)抗能力有關(guān)[16].
3)目標(biāo)意圖,現(xiàn)代無(wú)人空戰(zhàn)是復(fù)雜環(huán)境下的信息博弈過(guò)程,某方能夠率先解讀戰(zhàn)場(chǎng)信息,準(zhǔn)確快速預(yù)測(cè)敵方未來(lái)動(dòng)作,便能夠在空戰(zhàn)中掌握先機(jī).目標(biāo)意圖預(yù)測(cè)能夠通過(guò)前一階段的空戰(zhàn)態(tài)勢(shì)和戰(zhàn)場(chǎng)環(huán)境信息來(lái)推測(cè)下一階段敵方戰(zhàn)術(shù)意圖,進(jìn)而預(yù)知敵方短時(shí)間內(nèi)的可能執(zhí)行的戰(zhàn)術(shù)動(dòng)作.因此,結(jié)合敵方無(wú)人機(jī)意圖進(jìn)行多機(jī)協(xié)同多目標(biāo)攻防決策,能夠在預(yù)知敵方無(wú)人機(jī)戰(zhàn)術(shù)動(dòng)作的前提下協(xié)調(diào)調(diào)度己方無(wú)人機(jī)資源,敵機(jī)對(duì)我機(jī)的每種意圖對(duì)應(yīng)的目標(biāo)意圖優(yōu)勢(shì)SI如表1所示[17],敵機(jī)對(duì)我機(jī)的意圖越危險(xiǎn),我機(jī)對(duì)敵機(jī)的意圖優(yōu)勢(shì)越小.
表1 意圖優(yōu)勢(shì)表Table1 Intention superiority
多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題實(shí)質(zhì)上是一個(gè)多目標(biāo)優(yōu)化問(wèn)題,為了充分考慮空戰(zhàn)態(tài)勢(shì)和任務(wù)收益,建立如下兩種目標(biāo)函數(shù)[8]:
其中,xij={0,1},xij=1表示將敵方無(wú)人機(jī)j分配給我方無(wú)人機(jī)i;Sij為空戰(zhàn)優(yōu)勢(shì)值,是我方無(wú)人機(jī)i對(duì)敵方無(wú)人機(jī)j的空戰(zhàn)優(yōu)勢(shì)的體現(xiàn);Bij和Cij為無(wú)人機(jī)i攻擊無(wú)人機(jī)j所獲得的收益和代價(jià);式(3)中J1max以獲得空戰(zhàn)優(yōu)勢(shì)為基礎(chǔ),目的是最大限度地保全我方無(wú)人機(jī);式(4)中J2max以攻擊結(jié)果的收益和代價(jià)為核心,旨在保證每一次攻擊產(chǎn)生的效果;約束條件式(5)保證所有敵方目標(biāo)均會(huì)被攻擊到;約束條件式(6)保證兵力分配均衡,允許協(xié)同攻擊某一特定目標(biāo)無(wú)人機(jī)j的最大數(shù)量為Dj;約束條件式(7)為無(wú)人機(jī)彈藥約束,我方無(wú)人機(jī)i能夠同時(shí)攻擊敵方目標(biāo)的最大數(shù)量應(yīng)小于其載彈量Ei.
滿意決策通過(guò)設(shè)置滿意度因子,排除不可行和收益低的分配策略,從而提高算法搜索效率,但是,滿意度因子設(shè)置過(guò)大會(huì)使?jié)M意集合過(guò)小或?yàn)榭占?太小則不能有效縮小搜索空間,滿意度因子是根據(jù)經(jīng)驗(yàn)人為設(shè)定的,往往無(wú)法設(shè)置為最合適的值.因此,本部分使用狼群算法優(yōu)化滿意決策的滿意度因子.
狼群算法模擬了狼群的捕獵行為和獵物分配規(guī)則,將狼群分為頭狼、探狼和猛狼,狼群算法的實(shí)質(zhì)在于人工狼根據(jù)自己和其他狼的情況不斷地更新,從而向最優(yōu)位置靠近,人工狼的新位置是狼群由探狼游走、頭狼召喚和猛狼圍攻3種智能行為,以及“勝者為王”的頭狼產(chǎn)生規(guī)則和“強(qiáng)者生存”的狼群更新機(jī)制相互作用的結(jié)果[18],其原理如圖2所示.
圖2 狼群算法原理圖Fig.2 Schematic diagram of WPS algorithm
為了確定滿意度因子,在保證我方無(wú)人機(jī)能取得空戰(zhàn)優(yōu)勢(shì)的前提下,進(jìn)行滿意決策,選用式(3)作為狼群算法的目標(biāo)函數(shù),以人工狼i的位置X={xi1xi2,···,xij,···,xm}(1≤xij≤n)表示攻防決策方案,xij=k表示我方無(wú)人機(jī)j攻擊目標(biāo)無(wú)人機(jī)k,人工狼感知到的獵物氣味濃度Y=f(X),即目標(biāo)函數(shù)值.根據(jù)多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題的實(shí)際特點(diǎn),對(duì)狼群算法的位置更新公式進(jìn)行定義,如下式[18]:
式(8)表示隨機(jī)生成S tep個(gè)二維數(shù)組(xij,xik),其中j,k=1,2,···,L且j≠k,并按這些二維數(shù)組的順序?qū)i對(duì)應(yīng)位數(shù)編碼的數(shù)值進(jìn)行交換.
游走行為中,探狼試探性地向h個(gè)方向進(jìn)行偵察,即隨機(jī)地執(zhí)行h次Θ(Xi,stapa),其中stepa為探狼游走步長(zhǎng),并記錄每次所感知到的獵物氣味濃度[18].該過(guò)程可以理解為狼群試探性地在搜尋獵物.
召喚行為中,猛狼經(jīng)頭狼召喚迅速以較大奔襲步長(zhǎng)stepb向頭狼所在位置靠攏,即對(duì)猛狼位置Xi執(zhí)行一次Θ(Xi,stapb)[18],該過(guò)程可以理解為在保留猛狼個(gè)體特性的同時(shí),狼群優(yōu)秀個(gè)體(頭狼)對(duì)猛狼群體進(jìn)行指導(dǎo).
圍攻行為中,參與圍攻的人工狼執(zhí)行Θ(Xi,stapc)操作,探狼與猛狼在頭狼指揮下進(jìn)行圍攻行為[18],圍攻行為可以理解為狼群在優(yōu)秀獵物周?chē)M(jìn)行小范圍的群體運(yùn)動(dòng),對(duì)優(yōu)秀解域進(jìn)行精細(xì)搜索,同時(shí)增加種群多樣性,避免算法早熟.
在迭代過(guò)程中,狼群不斷進(jìn)行游走、召喚和圍攻行為,直到達(dá)到優(yōu)化精度要求或最大迭代次數(shù)kmax,輸出頭狼的位置,即為在目標(biāo)函數(shù)(3)下,優(yōu)先考慮無(wú)人機(jī)空戰(zhàn)優(yōu)勢(shì)函數(shù)保證我方無(wú)人機(jī)的生存能力的最優(yōu)決策方案XS,計(jì)算在此攻防決策方案下的收益BS和代價(jià)CS,則滿意度因子可由下式計(jì)算可得:
在得到空戰(zhàn)優(yōu)勢(shì)的滿意度因子后,再基于滿意決策獲得最終的多無(wú)人機(jī)協(xié)同多目標(biāo)攻防決策方案.在目標(biāo)函數(shù)(4)下,使得總體攻擊收益和總體損失代價(jià)之間達(dá)到一個(gè)有效的平衡,為了滿足無(wú)人空戰(zhàn)實(shí)時(shí)性的要求,該平衡也許并非最優(yōu),但可以達(dá)到戰(zhàn)術(shù)要求,完成攻擊任務(wù).
滿意決策理論的個(gè)體滿意集定義為[19]:
其中,Ws(u)和Wr(u)分別為定義在決策空間上的接受函數(shù)和拒絕函數(shù),Ws(u)和Wr(u)分別設(shè)計(jì)為:
其中,γ ∈(0,+∞)為懲罰調(diào)節(jié)因子,mj為同時(shí)攻擊目標(biāo)j的無(wú)人機(jī)數(shù)量,當(dāng)mj超過(guò)閾值Dj時(shí),f會(huì)迅速減小,對(duì)無(wú)人機(jī)過(guò)于集中攻擊某一目標(biāo)的行為進(jìn)行懲罰.
最后,根據(jù)總體選擇函數(shù)和總體拒絕函數(shù)實(shí)現(xiàn)多無(wú)人機(jī)協(xié)同多目標(biāo)攻防決策,得到最終決策方案.
綜上所述,多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策算法流程圖如圖3所示.
圖3 多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策算法流程圖Fig.3 Flow chart of multi-UCAVs Cooperative multiple target attack-defense decision-making algorithm
為了驗(yàn)證本文所研究基于狼群算法的多無(wú)人機(jī)協(xié)同多目標(biāo)攻防滿意決策算法的有效性,本節(jié)進(jìn)行數(shù)值仿真研究.
考慮4架無(wú)人機(jī)攻擊6個(gè)敵方目標(biāo),仿真場(chǎng)景1和仿真場(chǎng)景2 空戰(zhàn)態(tài)勢(shì)分別如圖4和圖5所示所示.
圖4 仿真場(chǎng)景1空戰(zhàn)態(tài)勢(shì)圖Fig.4 Air combat situation of simulation scene 1
式(11)和式(12)中,Bz和Cz為攻防決策方案對(duì)應(yīng)的收益和代價(jià),Vjmax和Vimax分別為敵方和我方無(wú)人機(jī)最大價(jià)值量,用于歸一化處理,f為懲罰因子,對(duì)過(guò)于集中的分配結(jié)果進(jìn)行懲罰,設(shè)計(jì)為:
首先基于優(yōu)勢(shì)函數(shù)計(jì)算滿意決策的滿意度因子,根據(jù)戰(zhàn)場(chǎng)敵我雙方態(tài)勢(shì)信息、戰(zhàn)機(jī)性能和目標(biāo)意圖,仿真場(chǎng)景1和仿真場(chǎng)景2 我方戰(zhàn)機(jī)對(duì)敵方戰(zhàn)機(jī)的綜合優(yōu)勢(shì)值分別如表2和表3所示.
圖5 仿真場(chǎng)景2 空戰(zhàn)態(tài)勢(shì)圖Fig.5 Air combat situation of simulation scene 2
表2 仿真場(chǎng)景1我方戰(zhàn)機(jī)對(duì)敵方戰(zhàn)機(jī)的綜合優(yōu)勢(shì)值Table2 Comprehensive superiority of simulation scene 1
表3 仿真場(chǎng)景2 我方戰(zhàn)機(jī)對(duì)敵方戰(zhàn)機(jī)的綜合優(yōu)勢(shì)值Table3 Comprehensive superiority of simulation scene 2
設(shè)置狼群規(guī)模為50,算法最大迭代次數(shù)為kmax=50.我方無(wú)人機(jī)與敵方目標(biāo)攻防決策方案如表4所示.
表4 基于綜合優(yōu)勢(shì)值攻防決策方案Table4 Attack-defense scheme based on comprehensive superiority
對(duì)于仿真場(chǎng)景1,在此攻防決策方案下的收益和代價(jià)可以計(jì)算得到:BS1=2.631 2,CS1=1.938 9,對(duì)于仿真場(chǎng)景2,在此攻防決策方案下的收益和代價(jià)可以計(jì)算得到:BS2=2.578 7,CS2=1.925 0.
則滿意度因子可以計(jì)算得:
經(jīng)過(guò)滿意決策,最終攻防決策方案如表5所示.
表5 最終攻防決策方案Table5 Attack-defense scheme
在最終攻防決策方案下,仿真場(chǎng)景1的收益和代價(jià)分別是B1=2.588 2,C1=1.885 0;仿真場(chǎng)景2的收益和代價(jià)分別是B2=2.617 7,C2=1.810 6.
由仿真結(jié)果可知,在仿真場(chǎng)景1中,無(wú)人機(jī)U1攻擊目標(biāo)T1、T3,U2 攻擊T6、T4,U3和U4分別攻擊T2和T5;在仿真場(chǎng)景2中,無(wú)人機(jī)U2 攻擊T1、T2,U3 攻擊T5、T6,T3、T4 則被分配給了U4,U1 由于所處環(huán)境較為不利,選擇防守策略保存自身實(shí)力,不對(duì)敵機(jī)進(jìn)行攻擊.仿真結(jié)果與實(shí)際情況相符.
為了進(jìn)一步分析本文所提出算法(WPSBSD)的性能,將本文算法與粒子群(PSO)算法、遺傳算法(GA)、傳統(tǒng)WPS算法和傳統(tǒng)滿意決策算法(SD)進(jìn)行比較,對(duì)仿真場(chǎng)景1的空戰(zhàn)態(tài)勢(shì)進(jìn)行50次仿真,統(tǒng)計(jì)每種算法求解的最優(yōu)值和消耗時(shí)間,仿真結(jié)果如表6所示.
表6 不同算法比較結(jié)果Table6 The comparison results of different algorithms
由表6可知,相比于其他方法,本文所提出的算法在保證運(yùn)行效率的同時(shí),能夠兼顧兩種目標(biāo)函數(shù)的影響,使攻防決策結(jié)果更加合理,使用傳統(tǒng)的WPS算法更注重空戰(zhàn)優(yōu)勢(shì)函數(shù)的影響,而攻防收益和代價(jià)對(duì)滿意決策算法影響更大,基于滿意決策的無(wú)人機(jī)多機(jī)協(xié)同多目標(biāo)攻防決策方法,和基于空戰(zhàn)優(yōu)勢(shì)函數(shù)運(yùn)用WPS算法尋優(yōu)了滿意因子,大大縮小了滿意決策的尋優(yōu)空間,提升了算法運(yùn)行效率,因此,本文提出的基于狼群算法和滿意決策的多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策算法能夠完成現(xiàn)代無(wú)人空戰(zhàn)的需求.
本文對(duì)多無(wú)人作戰(zhàn)飛機(jī)協(xié)同多目標(biāo)攻防決策問(wèn)題進(jìn)行了研究,建立了多機(jī)對(duì)多目標(biāo)攻防決策問(wèn)題數(shù)學(xué)模型,在優(yōu)先考慮空戰(zhàn)優(yōu)勢(shì)的情況下,通過(guò)狼群算法尋優(yōu)滿意決策滿意度因子,在保證效率的同時(shí)提高了滿意決策的效率,然后基于滿意決策理論,根據(jù)攻擊滿意集來(lái)搜索攻防決策滿意解,使總體攻擊收益和總體損失代價(jià)之間達(dá)到一個(gè)有效的平衡,最后給出實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)結(jié)果.由仿真結(jié)果可知,所研究的基于狼群算法的多無(wú)人機(jī)協(xié)同多目標(biāo)攻防滿意決策算法是可行有效的.