謝俊偉 方 峰* 彭冬亮 任金磊 王昌平
①(杭州電子科技大學(xué)自動(dòng)化學(xué)院 杭州 310018)
②(中國(guó)運(yùn)載火箭技術(shù)研究院 北京 100076)
為了應(yīng)對(duì)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的威脅,各國(guó)相繼發(fā)展了由預(yù)警探測(cè)系統(tǒng)、導(dǎo)彈攔截系統(tǒng)、指揮控制作戰(zhàn)管理系統(tǒng)組成的全球一體化反導(dǎo)防御體系。武器-目標(biāo)分配(Weapon-Target Assignment, WTA)是導(dǎo)彈防御系統(tǒng)中的核心決策內(nèi)容,決策人員根據(jù)來(lái)襲導(dǎo)彈目標(biāo)的威脅程度和防御系統(tǒng)的攔截彈資源配置情況,按照特定的火力打擊策略,生成火力分配方案,最大限度上發(fā)揮防御系統(tǒng)的作戰(zhàn)性能[1]。
WTA問(wèn)題可以分解為WTA模型構(gòu)建和WTA優(yōu)化方法兩部分。由于攔截空域會(huì)出現(xiàn)多個(gè)來(lái)襲目標(biāo),因此在建立WTA模型時(shí),首先需要評(píng)估來(lái)襲目標(biāo)的威脅程度,確定攔截優(yōu)先級(jí),并基于此設(shè)計(jì)多約束條件下的火力分配準(zhǔn)則函數(shù)。目前,已有的威脅評(píng)估方法主要包括層次分析(Analytic Hierarchy Process, AHP)方法[2]、優(yōu)劣解距離(Technique for Order Preference by Similarity to an Ideal Solution, TOPSIS)方法[3]、貝葉斯網(wǎng)絡(luò)方法[4]、粗糙集方法[5]等。其中,AHP方法在構(gòu)建指標(biāo)權(quán)重判別矩陣時(shí)較為依賴主觀經(jīng)驗(yàn);TOPSIS方法的指標(biāo)信息熵計(jì)算對(duì)數(shù)據(jù)噪聲較為敏感,從而影響評(píng)估準(zhǔn)確性;貝葉斯網(wǎng)絡(luò)模型結(jié)構(gòu)的確定缺乏客觀設(shè)計(jì)標(biāo)準(zhǔn);基于粗糙集理論的方法當(dāng)歷史數(shù)據(jù)集規(guī)模較小時(shí),存在評(píng)估規(guī)則難以準(zhǔn)確提取的問(wèn)題。由此,本文針對(duì)AHP方法計(jì)算指標(biāo)權(quán)重較為主觀的問(wèn)題,引入了表征目標(biāo)特性信息的熵值法來(lái)增加準(zhǔn)則層指標(biāo)權(quán)重確定的客觀性,從而提升目標(biāo)威脅評(píng)估的準(zhǔn)確性。改進(jìn)的AHP方法計(jì)算量小,實(shí)時(shí)性好,便于工程上實(shí)現(xiàn)。
WTA優(yōu)化方法是指在WTA模型基礎(chǔ)上建立快速高效的優(yōu)化搜索算法,給出最優(yōu)或者次優(yōu)的火力分配方案。WTA優(yōu)化問(wèn)題實(shí)質(zhì)上是一類整數(shù)型非線性組合優(yōu)化問(wèn)題,屬于NP完全(NP-Complete)問(wèn)題[6]。目前,已有的WTA優(yōu)化方法包括分支定界法[7]、動(dòng)態(tài)規(guī)劃[8]、遺傳算法[9]和粒子群算法[10]等,但是,上述方法在面對(duì)中大規(guī)模WTA問(wèn)題時(shí)求解效率較低。分支定界和動(dòng)態(tài)規(guī)劃存在搜索空間維數(shù)爆炸問(wèn)題,啟發(fā)式算法搜索速度慢且容易陷入局部最優(yōu)?;趶?qiáng)化學(xué)習(xí)的決策方法可避免以上問(wèn)題,近年來(lái)已被廣泛應(yīng)用在棋類博弈[11]、機(jī)器人路徑規(guī)劃[12]及自主空戰(zhàn)決策[13]等場(chǎng)景中。本文將強(qiáng)化學(xué)習(xí)方法引入到火力分配問(wèn)題中,把WTA問(wèn)題轉(zhuǎn)化為一個(gè)多步?jīng)Q策問(wèn)題。文獻(xiàn)[14]采用強(qiáng)化學(xué)習(xí)算法解決反艦導(dǎo)彈火力分配問(wèn)題,但僅將單步?jīng)Q策帶來(lái)的毀傷概率增量作為獎(jiǎng)勵(lì)函數(shù),火力分配決策的全局最優(yōu)性很難保證,求解方案不夠理想。另外,文獻(xiàn)[14]的狀態(tài)向量和動(dòng)作向量設(shè)計(jì)不夠靈活,使得訓(xùn)練所得的智能體難以應(yīng)對(duì)場(chǎng)景參數(shù)變化的情況。本文在深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)框架下建立了高效的火力分配方法:基于最大毀傷概率準(zhǔn)則設(shè)計(jì)了兼顧快速收斂和全局收益的獎(jiǎng)勵(lì)函數(shù),構(gòu)建了火力單元狀態(tài)集、目標(biāo)庫(kù)和經(jīng)驗(yàn)池,并引入了公平采樣策略,確保等概率學(xué)習(xí)各目標(biāo)分配經(jīng)驗(yàn)。大量仿真結(jié)果表明,本文所提改進(jìn)AHP方法通過(guò)目標(biāo)屬性值分布差異可以更加客觀地評(píng)估目標(biāo)威脅度,DQN火力分配方法則可以根據(jù)目標(biāo)導(dǎo)彈的威脅度和攔截彈的毀傷能力,快速求解中大規(guī)模WTA問(wèn)題的攔截彈-目標(biāo)分配方案,實(shí)現(xiàn)最大概率毀傷來(lái)襲目標(biāo)群;同時(shí),本文訓(xùn)練得到的DQN智能火力分配模型對(duì)包括目標(biāo)-火力單元類型和數(shù)量、攔截彈毀傷概率等WTA場(chǎng)景參數(shù)變化具有一定的魯棒性。
本文分別圍繞目標(biāo)威脅評(píng)估和WTA優(yōu)化這兩部分開(kāi)展WTA問(wèn)題研究。目標(biāo)威脅評(píng)估指的是導(dǎo)彈防御系統(tǒng)對(duì)來(lái)襲目標(biāo)進(jìn)行預(yù)警探測(cè)、識(shí)別與跟蹤,確定來(lái)襲目標(biāo)的數(shù)量、種類以及相應(yīng)的運(yùn)動(dòng)狀態(tài)信息,并應(yīng)用上述目標(biāo)信息評(píng)估目標(biāo)威脅度。其中,需要提取能反映目標(biāo)特性差異的關(guān)鍵因素作為威脅度評(píng)估指標(biāo)集,由此計(jì)算來(lái)襲目標(biāo)的威脅度。對(duì)于導(dǎo)彈防御系統(tǒng)而言,不同目標(biāo)的威脅度會(huì)引起攔截優(yōu)先級(jí)的差異,且是WTA模型的關(guān)鍵參數(shù),對(duì)于后續(xù)火力分配決策起著決定性的作用。
其中,vj為由威脅評(píng)估方法得到的目標(biāo)威脅值,pij為第i個(gè)火力單元對(duì)j個(gè)目標(biāo)的毀傷概率,不等式約束則分別表示每個(gè)火力單元最多只能分配1個(gè)目標(biāo),每個(gè)目標(biāo)可以分配多個(gè)火力單元。等影響力由上級(jí)指揮專家打分給出,對(duì)應(yīng)的威脅度值可以量化為
本文考慮4類典型目標(biāo),分別為近、中、遠(yuǎn)程彈道導(dǎo)彈和高超聲速飛行器,導(dǎo)彈防御系統(tǒng)則考慮低、中和高層3類典型攔截彈,如分別由美國(guó)的愛(ài)國(guó)者攔截彈(Patriot Advanced Capability-3, PAC-3)、海基攔截彈(Standard Missile, SM-3)和陸基攔截彈(Ground-Based Interceptor, GBI)構(gòu)成的低中高層導(dǎo)彈防御系統(tǒng)。根據(jù)彈道導(dǎo)彈和高超聲速飛行器等目標(biāo)的運(yùn)動(dòng)特性和固有屬性,構(gòu)造如下威脅評(píng)估指標(biāo):來(lái)襲目標(biāo)攻擊區(qū)域重要程度、目標(biāo)剩余飛行時(shí)間、目標(biāo)最大飛行高度、目標(biāo)關(guān)機(jī)點(diǎn)速度和雷達(dá)反射面積(Radar Cross-Section, RCS)。其中,目標(biāo)打擊區(qū)域重要程度根據(jù)該區(qū)域的軍事、政治、經(jīng)濟(jì)其中,Ij為整數(shù),代表第j個(gè)目標(biāo)攻擊區(qū)域的重要程度。目標(biāo)剩余飛行時(shí)間越小,留給防御系統(tǒng)的反應(yīng)時(shí)間越短,對(duì)應(yīng)的威脅度越大。本文涉及的彈道導(dǎo)彈和高超聲速飛行器的最大飛行高度區(qū)間差別較大,分別為200~1400 km和20~80 km(臨近空間),在相應(yīng)的高度范圍內(nèi),最大飛行高度越大則威脅程度越大。目標(biāo)的關(guān)機(jī)點(diǎn)速度決定了目標(biāo)的再入速度和攻擊威力,關(guān)機(jī)點(diǎn)速度越大,則攔截窗口時(shí)間越短,較難攔截,目標(biāo)的威脅程度也越大。目標(biāo)的雷達(dá)反射面積越小,防御系統(tǒng)也越難跟蹤,其威脅程度越大。結(jié)合上述分析,可分別建立各威脅指標(biāo)對(duì)應(yīng)的分段量化函數(shù),以最大高度為例,其威脅指標(biāo)量化函數(shù)可以描述為
綜上,根據(jù)威脅指標(biāo)量化函數(shù),可以得到各來(lái)襲導(dǎo)彈目標(biāo)的威脅因子評(píng)估向量。
AHP將復(fù)雜的評(píng)估系統(tǒng)模型層次化,通過(guò)逐層比較各種評(píng)估因素的重要性進(jìn)行評(píng)估分析[2]。在導(dǎo)彈威脅評(píng)估問(wèn)題中,目標(biāo)層為目標(biāo)威脅評(píng)估值,準(zhǔn)則層為威脅評(píng)估因素,方案層為待評(píng)估的目標(biāo)彈。本文在準(zhǔn)則層中引入熵值法,通過(guò)評(píng)估目標(biāo)(來(lái)襲導(dǎo)彈)的指標(biāo)屬性信息熵來(lái)修正準(zhǔn)則層指標(biāo)權(quán)重的計(jì)算,提升指標(biāo)權(quán)重判定的客觀性。引入熵值法的改進(jìn)AHP方法整體框架如圖1所示,具體執(zhí)行步驟如下:
圖1 改進(jìn)AHP法框架示意圖
步驟1 應(yīng)用AHP方法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。根據(jù)專家意見(jiàn)采用1~9標(biāo)度法構(gòu)建準(zhǔn)則層(各威脅評(píng)估因素)的判別矩陣A,則AHP方法下的指標(biāo)權(quán)重向量wAHP可計(jì)算為
其中,λmax為判別矩陣A的最大特征值,wmax為對(duì)應(yīng)的特征向量,wmax,j為特征向量wmax中的第j個(gè)元素,wjAHP為權(quán)重向量中的第j個(gè)元素。
步驟2 應(yīng)用熵值法計(jì)算準(zhǔn)則層的指標(biāo)權(quán)重。熵值法認(rèn)為若某個(gè)指標(biāo)下各目標(biāo)屬性值的分布較為接近,則該指標(biāo)對(duì)于目標(biāo)威脅評(píng)估的價(jià)值較低,其對(duì)應(yīng)的指標(biāo)權(quán)重較??;反之,若各目標(biāo)屬性值分布較為離散,則該指標(biāo)對(duì)威脅評(píng)估的價(jià)值較高,其對(duì)應(yīng)的指標(biāo)權(quán)重也更大[15]?;陟刂捣ǖ闹笜?biāo)權(quán)重計(jì)算過(guò)程如下:
首先,將根據(jù)3.1節(jié)計(jì)算得到的各目標(biāo)威脅因素量化值進(jìn)行歸一化為
其中,ωij為第i個(gè)目標(biāo)對(duì)于第j個(gè)威脅指標(biāo)因素的量化值,zij為歸一化的指標(biāo)屬性值。
其次,應(yīng)用歸一化的指標(biāo)屬性值信息,各指標(biāo)的信息熵為
其中,ej為第j個(gè)指標(biāo)的信息熵。
最后,各評(píng)估指標(biāo)在信息熵語(yǔ)義下的指標(biāo)權(quán)重可以計(jì)算為
步驟3 利用熵值法計(jì)算得到的指標(biāo)權(quán)重對(duì)AHP準(zhǔn)則層中指標(biāo)權(quán)重進(jìn)行修正
其中,wj為準(zhǔn)則層中第j個(gè)指標(biāo)的最終權(quán)重。
步驟4 計(jì)算方案層中各目標(biāo)相對(duì)于準(zhǔn)則層的指標(biāo)權(quán)重。利用目標(biāo)威脅因子向量構(gòu)造方案層相對(duì)于準(zhǔn)則層的重要性判別矩陣。令方案層各來(lái)襲目標(biāo)導(dǎo)彈相對(duì)于準(zhǔn)則層中第j個(gè)威脅評(píng)估指標(biāo)的判別矩陣為,該判別矩陣元素計(jì)算為
步驟5 計(jì)算目標(biāo)的綜合威脅度。結(jié)合準(zhǔn)則層各指標(biāo)修正后的權(quán)重和方案層各目標(biāo)相對(duì)于準(zhǔn)則層指標(biāo)的層次排序結(jié)果,各目標(biāo)的綜合威脅度計(jì)算式為
其中,vi為第i個(gè)目標(biāo)的綜合威脅度。
基于DQN的WTA決策模型整體架構(gòu)如圖2所示,將火力分配過(guò)程看作一個(gè)多段決策過(guò)程,單步?jīng)Q策通過(guò)優(yōu)化決策獎(jiǎng)勵(lì)值,實(shí)現(xiàn)對(duì)單個(gè)攔截彈的目標(biāo)分配,通過(guò)依次對(duì)攔截彈進(jìn)行分配決策,從而完成整個(gè)WTA過(guò)程。當(dāng)完成一輪火力分配后,計(jì)算全局決策收益,并更新到臨時(shí)記憶庫(kù)中。DQN根據(jù)“均勻采樣”策略利用臨時(shí)記憶庫(kù)中的分配經(jīng)驗(yàn)(狀態(tài)轉(zhuǎn)移4元組)進(jìn)行訓(xùn)練,不斷完善Q網(wǎng)絡(luò),從而達(dá)到基于DQN的火力分配智能體可快速高效求解中大規(guī)模WTA問(wèn)題的目的。
圖2 基于DQN的WTA決策模型
根據(jù)WTA問(wèn)題特點(diǎn),以火力單元數(shù)量的編號(hào)順序作為決策時(shí)序,第i步?jīng)Q策表示對(duì)第i個(gè)攔截彈進(jìn)行目標(biāo)分配,即確定xij=1時(shí)j的取值。定義第i步?jīng)Q策的狀態(tài)轉(zhuǎn)移4元組為si,ai,ri,ai+1>,其中si為火力單元當(dāng)前狀態(tài)向量,包含第i步?jīng)Q策時(shí)的火力單元剩余量和當(dāng)前火力單元的類型;ai為當(dāng)前動(dòng)作向量,表示將第i個(gè)攔截彈分配給指定的目標(biāo),包含第i步?jīng)Q策時(shí)選擇的被分配目標(biāo)編號(hào)和類型,及該目標(biāo)已被分配的攔截彈數(shù)量;ri為獎(jiǎng)勵(lì)函數(shù),即采取相應(yīng)動(dòng)作所產(chǎn)生的獎(jiǎng)勵(lì);si+1為基于當(dāng)前決策的下一步火力單元狀態(tài)向量,即第i+1步?jīng)Q策時(shí)的火力單元剩余量和火力單元類型。
4.1.1 狀態(tài)向量si定義
根據(jù)藍(lán)方反導(dǎo)攔截系統(tǒng)的攔截彈資源配置和部署情況,構(gòu)造合適的狀態(tài)向量si。由于不同類型的攔截火力單元對(duì)同一目標(biāo)的毀傷概率存在差異,例如,美國(guó)的GBI和SM-3適用于攔截中高層目標(biāo),而PAC-3則擅長(zhǎng)攔截低空大氣層內(nèi)的目標(biāo)。因此,狀態(tài)向量需包含火力單元的類型信息,同時(shí)也需要包含火力資源的剩余情況。由此,定義第i個(gè)火力單元分配時(shí)的狀態(tài)為
其中,mcost為已分配的攔截彈數(shù)量;(i=1,2,···,l)為第i類攔截彈已分配的數(shù)量;mi_type為該攔截彈的類型獨(dú)熱編碼。類似地,當(dāng)執(zhí)行完第i個(gè)火力單元分配后,更新?tīng)顟B(tài)信息,可得第i+1步?jīng)Q策時(shí)的狀態(tài)量si+1。值得注意的是,當(dāng)i=m時(shí),不存在si+1。
4.1.2 動(dòng)作向量ai定義
在對(duì)攔截彈進(jìn)行目標(biāo)分配時(shí),需要考慮目標(biāo)的威脅度。目標(biāo)威脅度越高,對(duì)應(yīng)的打擊優(yōu)先級(jí)越高。當(dāng)一個(gè)目標(biāo)已被多個(gè)火力單元分配時(shí),該目標(biāo)的毀傷概率可以得到較好的保障,此時(shí)考慮給其分配火力單元的優(yōu)先級(jí)隨之下降。因此,在設(shè)計(jì)DQN的動(dòng)作向量時(shí),需要綜合考慮目標(biāo)威脅度、目標(biāo)彈已被分配的情況。此外,由于同一攔截彈對(duì)不同類型的目標(biāo)的毀傷概率各不相同,動(dòng)作向量還需包括目標(biāo)的類型信息。因此,假設(shè)第i步?jīng)Q策時(shí),將攔截彈分配給第j個(gè)目標(biāo),可定義ai動(dòng)作向量的一個(gè)決策動(dòng)作aij為
4.1.3 獎(jiǎng)勵(lì)函數(shù)ri定義
其中,Ji為第i步?jīng)Q策完成后的對(duì)敵方目標(biāo)的整體毀傷概率,計(jì)算公式如式(1)所示。
若DQN只學(xué)習(xí)到上述單步?jīng)Q策獎(jiǎng)勵(lì)會(huì)導(dǎo)致DQN決策時(shí)出現(xiàn)“短視”現(xiàn)象,具體可描述為:在一輪火力分配的初期,DQN為了最大化單步?jīng)Q策獎(jiǎng)勵(lì),會(huì)做出不利于最大毀傷概率的目標(biāo)分配選擇。假設(shè)有兩個(gè)威脅度相同的目標(biāo),分別為目標(biāo)1和目標(biāo)2,攔截彈1和攔截彈2對(duì)目標(biāo)1,2的毀傷概率分別為[0.86, 0.84]和[0.84, 0.75]。在基于DQN的WTA分段決策中,單步獎(jiǎng)勵(lì)最大化下的決策是將攔截彈1分配給目標(biāo)1,攔截彈2分配給目標(biāo)2,但按照最大化整體毀傷概率準(zhǔn)則的分配結(jié)果是將攔截彈1分配給目標(biāo)2,攔截彈2分配給目標(biāo)1。造成這種沖突現(xiàn)象的原因在于DQN做當(dāng)前決策時(shí)僅注重了單步?jīng)Q策獎(jiǎng)勵(lì),忽視了全局收益,即并未考慮單步?jīng)Q策對(duì)后續(xù)攔截彈的分配決策帶來(lái)的影響。由此,造成了本文所謂的“短視現(xiàn)象”。
為了改善上述這種現(xiàn)象,考慮單步?jīng)Q策對(duì)后續(xù)決策的影響,將代表一輪分配完成后的目標(biāo)最終整體毀傷概率引入到單步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)中,兼顧火力分配的單步?jīng)Q策收益和全局收益,由此修正第i步?jīng)Q策的獎(jiǎng)勵(lì)函數(shù)為
其中,αi為 權(quán)重系數(shù),rg=J(xij)為目標(biāo)整體毀傷概率。此外,將上式與僅考慮全局收益的獎(jiǎng)勵(lì)函數(shù)相比,可知由于引入了單步?jīng)Q策增益獎(jiǎng)勵(lì),可以在一定程度上引導(dǎo)決策空間的探索,表現(xiàn)在能夠使得搜索沿著在單步增益較大的空間內(nèi)開(kāi)展,提高搜索效率。因此,式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)能夠使得DQN兼顧優(yōu)化解的全局性和搜索的快速性。
在火力分配初始階段更容易發(fā)生“短視現(xiàn)象”,需要更加重視全局收益的影響,因此關(guān)于全局收益的權(quán)重系數(shù)需要設(shè)置的較大。當(dāng)火力分配進(jìn)入后期階段時(shí),由于大部分?jǐn)r截彈已分配完成,最大化單步?jīng)Q策獎(jiǎng)勵(lì)下的決策逐步與最大化整體毀傷概率下的決策趨于一致,此時(shí)關(guān)于全局收益的權(quán)重系數(shù)可以適當(dāng)減小,從而引導(dǎo)DQN進(jìn)行快速探索。綜上分析,本文采用動(dòng)態(tài)權(quán)重的方法來(lái)實(shí)現(xiàn)上述目的,變權(quán)重系數(shù)的表達(dá)式為
在完成所有火力單元的目標(biāo)分配后,可通過(guò)火力分配決策矩陣按式(1)計(jì)算該輪火力分配的整體毀傷概率,并將其更新到該輪的各狀態(tài)轉(zhuǎn)移4元組中。由于不同類型的目標(biāo)數(shù)量相差較大,導(dǎo)致對(duì)應(yīng)各類目標(biāo)的分配經(jīng)驗(yàn)數(shù)量之間存在差異。若直接使用隨機(jī)采樣策略抽取樣本進(jìn)行訓(xùn)練,則會(huì)導(dǎo)致低數(shù)量類型的目標(biāo)被抽取的概率較低,從而對(duì)該類目標(biāo)的分配訓(xùn)練效果不佳。由此,本文采用根據(jù)目標(biāo)類型進(jìn)行抽取的“均勻采樣”策略,將一輪火力分配完成后產(chǎn)生的分配經(jīng)驗(yàn)按照目標(biāo)類型分別進(jìn)行存儲(chǔ),訓(xùn)練時(shí)從各類型目標(biāo)對(duì)應(yīng)的子經(jīng)驗(yàn)池中等量隨機(jī)抽取一批經(jīng)驗(yàn),保證DQN能夠等頻率地學(xué)習(xí)到各類目標(biāo)下的分配經(jīng)驗(yàn)。
對(duì)所有的m個(gè)攔截彈完成目標(biāo)分配即完成了一輪的火力分配任務(wù),因此定義本文火力分配場(chǎng)景中Q函數(shù)的最優(yōu)貝爾曼方程為
其中,rk為第k步分配決策的獎(jiǎng)勵(lì)。
由式(16)可得Q函數(shù)的更新規(guī)則為
其中,α為學(xué)習(xí)率,0α<1。
為使DQN訓(xùn)練更加穩(wěn)定,構(gòu)造目標(biāo)網(wǎng)絡(luò)θ和預(yù)測(cè)網(wǎng)絡(luò)θ′,兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)相同,初始權(quán)重相同[16]。利用式(18)和反向傳播算法更新θ,θ′滯后若干決策步以后從θ復(fù)制節(jié)點(diǎn)權(quán)重進(jìn)行更新
利用ε- greedy算法使DQN在決策空間探索和訓(xùn)練效率之間取得平衡。
綜上,DQN訓(xùn)練流程主要包括:初始化訓(xùn)練配置參數(shù);在ε- greedy機(jī)制下利用DQN模型選取最優(yōu)攔截彈-目標(biāo)對(duì),并計(jì)算單步局部獎(jiǎng)勵(lì);一輪火力分配結(jié)束后計(jì)算目標(biāo)群整體毀傷概率并根據(jù)式(14)更新該輪經(jīng)驗(yàn)池的所有單步?jīng)Q策回報(bào)值;按照均勻采樣策略等量抽取各目標(biāo)類型的子經(jīng)驗(yàn)池,進(jìn)行目標(biāo)網(wǎng)絡(luò)訓(xùn)練,并按照預(yù)設(shè)間隔步數(shù)更新預(yù)測(cè)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)不斷訓(xùn)練直至滿足結(jié)束條件。
假定有10個(gè)來(lái)襲目標(biāo),其中目標(biāo)1,2,5為近程彈道導(dǎo)彈,目標(biāo)3,4,6為中程彈道導(dǎo)彈,目標(biāo)7和8為遠(yuǎn)程彈道導(dǎo)彈,目標(biāo)9和10為高超聲速飛行器,各目標(biāo)屬性值如表1所示。
根據(jù)表1中數(shù)據(jù),利用本文所提改進(jìn)AHP方法計(jì)算評(píng)估指標(biāo)權(quán)重,并與傳統(tǒng)AHP方法的指標(biāo)權(quán)重作對(duì)比,結(jié)果如表2所示。分析表1和表2結(jié)果可知,各目標(biāo)彈的攻擊地重要度指標(biāo)分布較為分散,對(duì)攔截優(yōu)先級(jí)判斷的影響較大,因此,相較于傳統(tǒng)的AHP方法,引入熵值法的改進(jìn)AHP法對(duì)該指標(biāo)因素給定的權(quán)重較大。相反,各目標(biāo)彈的RCS值分布較為接近,對(duì)攔截優(yōu)先級(jí)判斷的影響較小,由改進(jìn)AHP法計(jì)算得到的權(quán)重較小。因此,改進(jìn)AHP方法可根據(jù)目標(biāo)各威脅要素的量化指標(biāo)分布情況,合理地調(diào)整指標(biāo)權(quán)重,使得在威脅評(píng)估時(shí)突出不同目標(biāo)間的差異性。
表2 傳統(tǒng)和改進(jìn)AHP方法的評(píng)估指標(biāo)權(quán)重計(jì)算結(jié)果對(duì)比
利用改進(jìn)AHP法和傳統(tǒng)AHP法對(duì)表1中各來(lái)襲目標(biāo)彈進(jìn)行綜合威脅度計(jì)算,結(jié)果如表3所示,其中遠(yuǎn)程彈道導(dǎo)彈目標(biāo)8的攻擊地重要度最高,關(guān)機(jī)點(diǎn)速度大,因此兩種方法都認(rèn)為該目標(biāo)的綜合威脅度最高;而近程彈道導(dǎo)彈目標(biāo)2的攻擊地重要度和關(guān)機(jī)點(diǎn)速度最低,最大飛行高度低,因此兩種方法計(jì)算該目標(biāo)的綜合威脅度都為最低。需要注意,相較于傳統(tǒng)AHP方法,改進(jìn)AHP方法認(rèn)為高超聲速目標(biāo)9和10的目標(biāo)威脅度更高,尤其是目標(biāo)9的威脅度排序更加靠前。在實(shí)際戰(zhàn)場(chǎng)中,高超聲速目標(biāo)通常殺傷力較大且難以攔截,威脅程度較高,改進(jìn)AHP方法對(duì)高超聲速飛行器的威脅評(píng)估結(jié)果更加符合實(shí)際。由此,可以說(shuō)明本文提出的改進(jìn)AHP威脅評(píng)估方法的評(píng)價(jià)結(jié)果與實(shí)際情況更符合,具有較高的合理性。
表1 目標(biāo)屬性值
表3 改進(jìn)AHP與傳統(tǒng)AHP法的目標(biāo)威脅度評(píng)估結(jié)果
5.2.1 固定場(chǎng)景下的DQN火力分配測(cè)試與分析
針對(duì)表1中各來(lái)襲目標(biāo),利用本文所提DQN方法優(yōu)化分配策略,DQN的訓(xùn)練參數(shù)設(shè)置為:學(xué)習(xí)率等于0.001,衰減率等于0.8,隱藏層數(shù)量為3,每層各100個(gè)節(jié)點(diǎn),訓(xùn)練數(shù)據(jù)的批大小(batch_size)為32,預(yù)測(cè)網(wǎng)絡(luò)的更新步長(zhǎng)為50,共訓(xùn)練2000輪。設(shè)定攔截彈總量為20,低層、中層以及高層攔截彈的數(shù)量分別為11:6:3。其中,高層攔截彈對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率最大,為85%;對(duì)于中程目標(biāo)的毀傷概率為40%。中層攔截彈對(duì)于中程目標(biāo)的毀傷概率最大,為85%;而對(duì)于遠(yuǎn)程目標(biāo)的毀傷概率為55%。低層攔截彈對(duì)于近程目標(biāo)和高超聲速目標(biāo)具有較高的毀傷概率,分別為90%和55%。
經(jīng)過(guò)2000輪的訓(xùn)練后,得到的DQN學(xué)習(xí)曲線如圖3所示。由圖3可知,在訓(xùn)練初期,由于ε值較小,DQN對(duì)決策空間進(jìn)行隨機(jī)探索,分配結(jié)果不穩(wěn)定,隨著訓(xùn)練回合數(shù)的增加,利用學(xué)習(xí)完善的DQN進(jìn)行決策,整體毀傷概率逐漸上升并趨于穩(wěn)定,最終穩(wěn)定在0.91左右?;鹆Ψ峙浣Y(jié)果如圖4所示,該火力分配的整體毀傷概率為0.9128,由圖3可知,對(duì)于威脅度最高的遠(yuǎn)程目標(biāo)彈8,DQN分配了兩枚針對(duì)性最強(qiáng)的高層攔截彈以及一枚近程攔截彈進(jìn)行攔截,很大程度上確保毀傷該目標(biāo);對(duì)于威脅度較高的高超聲速目標(biāo)彈9,DQN則針對(duì)性地分配了3枚低層攔截彈,使該目標(biāo)的毀傷概率達(dá)到90%以上;而對(duì)于威脅度最低的近程彈2,5,1,DQN則各分配了1枚低層攔截彈,既保證了目標(biāo)的毀傷概率,也為攔截其他重要目標(biāo)留出了較多的可支配火力資源。由此,說(shuō)明DQN能夠綜合考慮目標(biāo)威脅度、攔截彈-目標(biāo)毀傷概率、火力資源配置情況,做出合理的火力分配決策。
圖3 固定場(chǎng)景下DQN訓(xùn)練效果
圖4 固定場(chǎng)景下DQN火力分配方案
此外,在上述場(chǎng)景下,對(duì)僅考慮全局收益的DQN火力分配模型進(jìn)行訓(xùn)練,整體毀傷概率收斂曲線如圖5所示。對(duì)比圖3可知,當(dāng)DQN僅考慮全局收益獎(jiǎng)勵(lì)時(shí),DQN訓(xùn)練效率降低,收斂效果較差,從而使得最終的火力分配方案不佳。利用圖5訓(xùn)練得到的DQN火力分配模型進(jìn)行仿真測(cè)試,分配結(jié)果的整體毀傷概率較低,僅為0.678,火力分配結(jié)果不太理想。綜上對(duì)比分析驗(yàn)證了式(14)綜合考慮單步和全局收益的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可帶來(lái)的訓(xùn)練效率和決策性能的提升。
圖5 固定場(chǎng)景下僅考慮全局收益的DQN訓(xùn)練效果
5.2.2 隨機(jī)場(chǎng)景下的DQN火力分配測(cè)試與分析
考慮實(shí)際作戰(zhàn)場(chǎng)景中,目標(biāo)規(guī)模通常難以準(zhǔn)確預(yù)測(cè),可用火力資源數(shù)量和配置也會(huì)隨戰(zhàn)場(chǎng)態(tài)勢(shì)動(dòng)態(tài)變化。因此,需要火力分配方法對(duì)WTA場(chǎng)景要素的變化具有較好的魯棒性??紤]目標(biāo)-攔截彈數(shù)量變化,毀傷概率和目標(biāo)威脅度在小范圍內(nèi)浮動(dòng)的WTA隨機(jī)場(chǎng)景下,對(duì)DQN火力分配模型進(jìn)行訓(xùn)練。每一輪的訓(xùn)練場(chǎng)景中,目標(biāo)數(shù)量和攔截彈數(shù)量分別為[20, 30]和[30, 60]之間的隨機(jī)整數(shù),其中近、中和遠(yuǎn)程目標(biāo)數(shù)量分別占目標(biāo)總量的20%~40%,20%~40%, 10%~20%,其余為高超聲速目標(biāo)。低、中層攔截彈配比范圍均為30%~40%,剩余為高層攔截彈。
為體現(xiàn)DQN在隨機(jī)場(chǎng)景下的訓(xùn)練效果,對(duì)訓(xùn)練過(guò)程進(jìn)行1000次蒙特卡羅仿真,得到的DQN平均學(xué)習(xí)收斂曲線如圖6所示。從圖中可以看出,DQN能夠在場(chǎng)景要素變化的情況下進(jìn)行有效訓(xùn)練,隨著訓(xùn)練的進(jìn)行,平均整體毀傷概率逐步提高并最終收斂于0.9左右。該結(jié)果可以說(shuō)明本文所提DQN方法在WTA要素變化的場(chǎng)景下具備良好且穩(wěn)定的訓(xùn)練效果。
圖6 1000次蒙特卡羅仿真訓(xùn)練
為了驗(yàn)證本文所提基于DQN的火力分配算法的性能,利用上述訓(xùn)練得到的DQN火力分配模型與文獻(xiàn)[10]中的基于改進(jìn)粒子群算法(Particle Swarm Optimization, PSO)的WTA優(yōu)化方法,以及基于目標(biāo)威脅度的隨機(jī)分配法進(jìn)行比較。其中,PSO方法的種群規(guī)模設(shè)為60,迭代次數(shù)為5000;隨機(jī)法可描述為針對(duì)第j個(gè)可用火力單元,產(chǎn)生[0,1]之間的隨機(jī)數(shù),若滿足
則將該火力單元分配給第i+1個(gè)目標(biāo),其中ωi為歸一化的目標(biāo)威脅度。該分配方法使得火力單元有更大的概率分配給威脅度較高的目標(biāo)。
設(shè)置如表4所示的3個(gè)測(cè)試用例,測(cè)試時(shí)的毀傷概率各類型目標(biāo)數(shù)量占比和各類型攔截彈數(shù)量占比的設(shè)定與訓(xùn)練場(chǎng)景保持一致。在訓(xùn)練場(chǎng)景中,目標(biāo)數(shù)量和攔截彈數(shù)量分別在[20,30]和[30,60]之間隨機(jī)取值,測(cè)試用例1是一個(gè)較小規(guī)模的WTA場(chǎng)景,目標(biāo)和攔截彈數(shù)量分別為15和25,目標(biāo)和攔截彈的數(shù)量規(guī)模均低于DQN模型訓(xùn)練時(shí)的各自最小規(guī)模;用例3是一個(gè)較大規(guī)模的WTA場(chǎng)景,目標(biāo)、攔截彈數(shù)量分別為35和50,其目標(biāo)數(shù)量規(guī)模大于DQN模型訓(xùn)練時(shí)的最大規(guī)模。
表4 測(cè)試用例參數(shù)
3種方法在不同測(cè)試場(chǎng)景下產(chǎn)生的目標(biāo)群整體毀傷概率和運(yùn)行時(shí)間如表5所示,隨著WTA規(guī)模的增大,基于改進(jìn)PSO方法的搜索空間規(guī)模爆炸式增長(zhǎng),受限于種群規(guī)模和迭代次數(shù),所得解的質(zhì)量不斷下降,尤其在用例3中,由于搜索空間的急劇增大,該方法求解得到的整體毀傷概率下降到了0.75左右,且耗時(shí)很長(zhǎng),難以滿足高動(dòng)態(tài)場(chǎng)景下火力分配決策的快速性需求。而基于DQN的火力分配模型得益于充分的訓(xùn)練,基于良好的網(wǎng)絡(luò)參數(shù),能夠適應(yīng)目標(biāo)和火力資源配置動(dòng)態(tài)變化的情況,在3個(gè)測(cè)試用例下都能保持較好的求解質(zhì)量,尤其是在用例3,較大規(guī)模的火力分配問(wèn)題中也能保持0.85以上的毀傷概率,且能夠滿足決策快速性需求。此外,用例1和用例3的測(cè)試結(jié)果表明,模型能夠適應(yīng)超出訓(xùn)練場(chǎng)景參數(shù)范圍的WTA場(chǎng)景,因此,基于訓(xùn)練得到的DQN模型對(duì)于非預(yù)期內(nèi)的場(chǎng)景參數(shù)變化情況,包括目標(biāo)和攔截彈數(shù)量、毀傷概率等變化情況,具有一定的魯棒性,可適用于戰(zhàn)場(chǎng)中的突發(fā)動(dòng)態(tài)情況下的火力分配應(yīng)用。
表5 3種場(chǎng)景測(cè)試結(jié)果
本文考慮由不同性能攔截彈組成的一體化導(dǎo)彈防御系統(tǒng)對(duì)不同類型的來(lái)襲目標(biāo)群實(shí)施火力分配的問(wèn)題,提出了一種融合改進(jìn)AHP和DQN的WTA優(yōu)化方法。首先,應(yīng)用基于熵值法的改進(jìn)AHP方法評(píng)估來(lái)襲目標(biāo)威脅度,本文方法由于引入了目標(biāo)威脅指標(biāo)量化數(shù)據(jù)的分布差異,相較于典型的AHP方法能夠較好地突出區(qū)分目標(biāo)威脅差異,結(jié)果具有良好的合理性。接著,針對(duì)基于傳統(tǒng)啟發(fā)式方法求解中大規(guī)模WTA問(wèn)題效率低、優(yōu)化解質(zhì)量不高的問(wèn)題,本文在DQN框架下將WTA過(guò)程看作一個(gè)多段決策過(guò)程,通過(guò)設(shè)置可綜合兼顧訓(xùn)練效率和決策性能的獎(jiǎng)勵(lì)函數(shù),引入公平采樣策略等手段,建立了基于DQN的火力分配方法。大量仿真結(jié)果表明,在固定和隨機(jī)的WTA場(chǎng)景下,本文提出的基于DQN的WTA優(yōu)化方法均能在較少的訓(xùn)練次數(shù)下快速收斂,針對(duì)不同的測(cè)試用例均能給出較優(yōu)的火力分配方案,且對(duì)于WTA場(chǎng)景參數(shù)動(dòng)態(tài)變化具有一定的適應(yīng)性,具備對(duì)戰(zhàn)場(chǎng)環(huán)境動(dòng)態(tài)變化的適應(yīng)能力。同時(shí),相較于經(jīng)典的PSO算法,本文算法在處理中大規(guī)模WTA問(wèn)題時(shí)優(yōu)勢(shì)明顯,具備決策的快速性和準(zhǔn)確性。