• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于強(qiáng)化學(xué)習(xí)的集群多目標(biāo)分配與智能決策方法

      2021-11-01 09:32:58朱建文趙長(zhǎng)見李小平包為民
      兵工學(xué)報(bào) 2021年9期
      關(guān)鍵詞:性能指標(biāo)導(dǎo)彈分配

      朱建文, 趙長(zhǎng)見, 李小平, 包為民,3

      (1.西安電子科技大學(xué) 空間科學(xué)與技術(shù)學(xué)院, 陜西 西安 710126; 2.中國(guó)運(yùn)載火箭技術(shù)研究院, 北京 100076;3.中國(guó)航天科技集團(tuán)有限公司, 北京 100048)

      0 引言

      隨著導(dǎo)彈信息化與體系化能力的提升,其攻擊模式由單一攻防作戰(zhàn)拓展到多對(duì)多的群體協(xié)同對(duì)抗與博弈。多彈協(xié)同攻擊能夠充分利用分散的作戰(zhàn)資源以及信息共享,是提升打擊能力與突防能力的有效途徑。針對(duì)多目標(biāo)的分配與決策直接決定著體系的攻防性能,是協(xié)同攻擊的關(guān)鍵技術(shù)之一[1]。

      多目標(biāo)決策與分配需要根據(jù)實(shí)時(shí)的攻防態(tài)勢(shì),對(duì)集群中的每個(gè)成員參與攻擊與否進(jìn)行決斷,并分配合理的待攻擊目標(biāo)。攻防性能評(píng)估是目標(biāo)分配的基礎(chǔ)條件,可利用彈目相對(duì)運(yùn)動(dòng)信息來評(píng)估制導(dǎo)的難易程度以及攻擊性能,而目標(biāo)的威脅度可基于自身價(jià)值與運(yùn)動(dòng)特性來評(píng)估[2-3]。集群決策與分配是一個(gè)以攻防性能評(píng)估結(jié)果為模型、以攻防性能最大為性能指標(biāo)的尋優(yōu)過程[3]。傾向性和主觀性是集群攻防性評(píng)估不可避免的因素,為此劉樹衎等[4]綜合利用專家系統(tǒng)與神經(jīng)網(wǎng)絡(luò)構(gòu)建行為決策基礎(chǔ)模型,進(jìn)而建立智能指揮系統(tǒng)以優(yōu)化目標(biāo)分配。另一種典型方法是將分配問題轉(zhuǎn)換為數(shù)學(xué)規(guī)劃問題,進(jìn)而利用枚舉法、分支界定法或整數(shù)規(guī)劃來求解[5-6]。然而,隨著攻防雙方規(guī)模的增加,尋優(yōu)的復(fù)雜度會(huì)急劇增大,導(dǎo)致計(jì)算耗時(shí)呈指數(shù)型增長(zhǎng)[7]。因此,具有靈活性、自適應(yīng)能力強(qiáng)以及計(jì)算相對(duì)簡(jiǎn)單的智能優(yōu)化方法,在求解復(fù)雜多目標(biāo)決策與分配中具有較大的優(yōu)勢(shì),遺傳算法與粒子群優(yōu)化(PSO)算法為其典型代表[8]。PSO算法利用種群中個(gè)體運(yùn)動(dòng)位置和整體最優(yōu)位置的記憶與學(xué)習(xí),在解空間中朝著最優(yōu)的方向運(yùn)動(dòng),該算法相對(duì)于遺傳算法具有更高的計(jì)算效率,但其精細(xì)程度與全局搜索能力不足[9-10]。

      高動(dòng)態(tài)的集群攻防為決策的最優(yōu)性與實(shí)效性提出了極高的需求,其復(fù)雜多變的攻防態(tài)勢(shì)需要進(jìn)行多次在線決策與分配。上述優(yōu)化方法在計(jì)算效率、全局最優(yōu)性以及多次決策的繼承性上存在不足。集群決策與目標(biāo)分配中能夠影響攻防性能的分配矩陣是離散的,而且多目標(biāo)決策與分配滿足馬爾可夫決策過程[9]。本文利用強(qiáng)化學(xué)習(xí)對(duì)集群攻擊的導(dǎo)彈選取以及目標(biāo)分配矩陣進(jìn)行決策判斷,具體包含攻防性能評(píng)估、非線性攻防效費(fèi)比指標(biāo)構(gòu)建、強(qiáng)化學(xué)習(xí)框架的搭建、離散化動(dòng)作空間、狀態(tài)空間以及獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。

      1 綜合攻擊性能評(píng)估

      以多發(fā)導(dǎo)彈對(duì)地球表面運(yùn)動(dòng)的目標(biāo)群進(jìn)行協(xié)同攻擊為背景,對(duì)其攻擊性能進(jìn)行評(píng)估。多對(duì)多的攻防態(tài)勢(shì)包括導(dǎo)彈自身的攻擊優(yōu)勢(shì)度以及目標(biāo)的威脅度[3]。在攻擊優(yōu)勢(shì)度中,主要考慮彈目相對(duì)角度、距離以及速度的優(yōu)勢(shì)模型;目標(biāo)的威脅度可基于固有特性與運(yùn)動(dòng)信息來評(píng)估。

      1.1 基于相對(duì)運(yùn)動(dòng)信息的攻擊優(yōu)勢(shì)度評(píng)估

      1.1.1 攻擊角度優(yōu)勢(shì)度評(píng)估

      由于導(dǎo)彈在攻擊目標(biāo)時(shí)需要滿足速度傾角約束并消除航向誤差,攻擊角度優(yōu)勢(shì)度評(píng)估需要綜合考慮速度傾角與方位角。在縱向通道,當(dāng)實(shí)時(shí)速度傾角與終端約束相等時(shí),制導(dǎo)越容易實(shí)現(xiàn),意味著攻擊優(yōu)勢(shì)度隨角度差的減小而增大。在側(cè)向通道,導(dǎo)彈制導(dǎo)的主要目標(biāo)為消除航向誤差Δσ,因此該誤差的絕對(duì)值越大,制導(dǎo)任務(wù)越艱巨。相反地,若Δσ=0,則導(dǎo)彈對(duì)該目標(biāo)的優(yōu)勢(shì)最大。因此,可構(gòu)造角度優(yōu)勢(shì)模型為

      (1)

      式中:θ為速度傾角;θf為終端速度傾角約束;σ為速度方位角;σLOS為視線方位角;SMθ與SMσ分別為基于速度傾角θ與方位角σ的攻擊優(yōu)勢(shì)度。

      1.1.2 相對(duì)距離優(yōu)勢(shì)度評(píng)估

      導(dǎo)彈與目標(biāo)之間的距離必然影響制導(dǎo)指令的生成與打擊目標(biāo)的實(shí)現(xiàn),當(dāng)距離過近時(shí)導(dǎo)彈的反應(yīng)時(shí)間太短,為制導(dǎo)指令的執(zhí)行帶來了巨大壓力。相反,當(dāng)距離太遠(yuǎn)時(shí)導(dǎo)彈的探測(cè)精度受到不良影響,并且過大的能量損耗也將影響打擊任務(wù)的完成。因此,相對(duì)距離的優(yōu)勢(shì)模型可構(gòu)造為

      (2)

      式中:SMr為基于彈目距離的攻擊優(yōu)勢(shì)度;r為彈目距離;R0為綜合考慮探測(cè)能力與機(jī)動(dòng)能力而確定的距離。(2)式中基于距離優(yōu)勢(shì)度評(píng)估的物理意義為:當(dāng)導(dǎo)彈與目標(biāo)的距離為R0時(shí)優(yōu)勢(shì)最強(qiáng);彈目距離與R0相差越大,則優(yōu)勢(shì)越弱。

      1.1.3 攻擊過載優(yōu)勢(shì)度評(píng)估

      由于導(dǎo)彈的機(jī)動(dòng)與控制能力直接體現(xiàn)在可用過載上,并且過載能夠同時(shí)包含彈目相對(duì)角度、距離以及速度大小。因此,本文進(jìn)一步引入過載為變量,以表征導(dǎo)彈對(duì)不同目標(biāo)的優(yōu)勢(shì)度。具體方法如下:基于導(dǎo)彈當(dāng)前的飛行狀態(tài)與目標(biāo)信息,采用最優(yōu)制導(dǎo)方法計(jì)算導(dǎo)彈在側(cè)向的需要過載指令。過載指令越大,意味著待飛時(shí)間越短、打擊任務(wù)更加艱巨,過大的過載指令將超過導(dǎo)彈的控制能力,導(dǎo)致打擊任務(wù)失敗。越小的過載指令意味著越小的控制能力需求以及更加平直的彈道,但是平直的彈道將降低突防性能。因此,基于過載的優(yōu)勢(shì)模型為

      (3)

      式中:SMn為基于過載的攻擊優(yōu)勢(shì)度;n為過載;n0為基于控制能力確定的過載基準(zhǔn)量,n0>0g.

      1.2 基于目標(biāo)固有信息的威脅度評(píng)估

      目標(biāo)群中不同目標(biāo)具有不同的戰(zhàn)略價(jià)值與威脅程度,對(duì)于重要目標(biāo)應(yīng)當(dāng)分配更多的導(dǎo)彈進(jìn)行打擊,以增強(qiáng)打擊效果。本文考慮了易于獲取的目標(biāo)體積信息與速度信息作為威脅度評(píng)估的標(biāo)準(zhǔn),體積代表彈載量與威脅度,速度表示目標(biāo)的動(dòng)力與機(jī)動(dòng)性能,進(jìn)一步將二者加權(quán)平均以綜合評(píng)估目標(biāo)威脅度,用于后續(xù)的目標(biāo)分配。

      1.2.1 目標(biāo)體積威脅度評(píng)估

      不同體積的目標(biāo)具有不同的作戰(zhàn)性能以及威脅程度,目標(biāo)體積越大,則受威脅程度越大。因此,基于體積信息的目標(biāo)威脅模型可構(gòu)建為

      (4)

      式中:SΓt為基于體積的目標(biāo)威脅度;Γtj為第j個(gè)目標(biāo)的體積大小;Nt為目標(biāo)的數(shù)量。目標(biāo)體積威脅模型(4)式的物理意義為:獲取所有目標(biāo)的體積,則第j個(gè)目標(biāo)的威脅度可用其在整個(gè)目標(biāo)群中的體積占比來表述。

      1.2.2 目標(biāo)速度威脅度評(píng)估

      目標(biāo)的航行速度對(duì)其威脅程度存在較大影響。目標(biāo)的機(jī)動(dòng)性能隨速度的增大而增大,但由于目標(biāo)動(dòng)力性能的限制,過大的速度意味著目標(biāo)在體積與質(zhì)量上存在不足。因此基于速度信息的威脅模型為

      (5)

      式中:Svt為基于速度的目標(biāo)威脅度;vt為目標(biāo)的實(shí)際航行速度;vt0為預(yù)先設(shè)定的速度。目標(biāo)速度威脅模型(5)式的物理意義為:當(dāng)目標(biāo)速度為vt0時(shí),越具有威脅性,過大或過小的速度都將降低威脅度。

      1.3 綜合攻擊優(yōu)勢(shì)度評(píng)估

      基于攻擊優(yōu)勢(shì)模型與目標(biāo)威脅模型,可建立用于目標(biāo)分配的綜合攻擊優(yōu)勢(shì)度模型如下:

      S=Sa+St,

      (6)

      式中:Sa為攻擊優(yōu)勢(shì)度模型,

      (7)

      kθ、kσ、kr、kn為加權(quán)系數(shù),不同參數(shù)設(shè)置對(duì)應(yīng)不同的重要程度;St為基于目標(biāo)體積與速度的威脅度模型,

      (8)

      kΓ、kv分別為體積與速度的加權(quán)系數(shù)。針對(duì)上述模型,需要給出以下3點(diǎn)說明:

      1)不同加權(quán)系數(shù)意味著不同的關(guān)注度,可根據(jù)具體攻擊任務(wù)進(jìn)行設(shè)計(jì);

      2)針對(duì)不同目標(biāo)需要考慮的因素存在差異,該模型主要針對(duì)地球表面航行的大型目標(biāo)群;

      3)除上述威脅模型外,還可根據(jù)需要考慮目標(biāo)電磁輻射情況、預(yù)設(shè)目標(biāo)的重要程度以及其他能夠反映目標(biāo)特性的重要因素。

      2 攻防一體性能指標(biāo)構(gòu)建

      多目標(biāo)分配與決策需要以綜合攻擊優(yōu)勢(shì)度S為基礎(chǔ),通過優(yōu)化方法獲得分配矩陣X,實(shí)現(xiàn)攻擊性能的最大化。首先,只考慮導(dǎo)彈運(yùn)動(dòng)信息與目標(biāo)固有信息建立如下線性攻擊性能指標(biāo):

      (9)

      式中:Jl,a為攻擊性能指標(biāo);NM與NT為導(dǎo)彈與目標(biāo)的數(shù)量;Sij為導(dǎo)彈i對(duì)目標(biāo)j的量化綜合攻擊優(yōu)勢(shì)度;Xij為導(dǎo)彈群對(duì)目標(biāo)群分配矩陣中的元素。評(píng)估模型(6)式與性能指標(biāo)(9)式構(gòu)成了典型的整數(shù)規(guī)劃問題,可利用內(nèi)點(diǎn)法等方法進(jìn)行尋優(yōu)求解[6]。

      進(jìn)一步考慮導(dǎo)彈的突防概率,建立目標(biāo)的毀傷性能指標(biāo):

      (10)

      式中:Jo,d為毀傷性能指標(biāo);Stj為第j個(gè)目標(biāo)的價(jià)值;Pij為導(dǎo)彈i對(duì)目標(biāo)j的突防概率(0~1之間取值)。另外,導(dǎo)彈攻擊必然造成導(dǎo)彈的消耗,因此導(dǎo)彈協(xié)同攻擊的成本指標(biāo)為

      (11)

      式中:Jc為導(dǎo)彈消耗指標(biāo);ci為導(dǎo)彈i的成本。綜合考慮Jl,a、Jo,d以及Jc,則可得協(xié)同攻擊的綜合效費(fèi)性能指標(biāo)為

      maxJt=[Jl,a,Jo,d,Jc].

      (12)

      指標(biāo)(12)式的目的是獲得最大的效費(fèi)比,但其中包含兩個(gè)相互矛盾的性能指標(biāo):Jl,a與Jo,d的目標(biāo)是獲得最大的攻擊與毀傷性能,Jc的目標(biāo)是獲得最小的攻擊成本。因此,進(jìn)一步引入效費(fèi)比來描述單一導(dǎo)彈的效能,將(12)式中的兩個(gè)性能指標(biāo)進(jìn)行整合,進(jìn)而利用整合之后的單一性能指標(biāo)進(jìn)行優(yōu)化設(shè)計(jì)。其中:

      攻擊效費(fèi)比指標(biāo)Ja為

      (13)

      毀傷效費(fèi)比指標(biāo)Jd為

      (14)

      攻防效費(fèi)比指標(biāo)Jt為

      (15)

      性能指標(biāo)(15)式的物理意義為:基于矩陣形式的綜合攻擊優(yōu)勢(shì)度S、突防概率Pij以及導(dǎo)彈的成本ci,確定相同維度的分配矩陣X,使得性能指標(biāo)(15)式即攻防效費(fèi)比最大。在協(xié)同攻擊的多目標(biāo)分配與決策過程中,必須滿足的約束模型為

      (16)

      約束模型(16)式的物理意義為:目標(biāo)分配結(jié)果以分配矩陣的形式表征,被攻擊的目標(biāo)標(biāo)記為1,否則標(biāo)記為0,即目標(biāo)分配矩陣X的元素只能夠是{0,1}中的某一值。由于每一發(fā)導(dǎo)彈最多只能攻擊一個(gè)目標(biāo),矩陣中的每一行元素?cái)?shù)值之和必為1.另外,需要保證每一個(gè)目標(biāo)至少分配1發(fā)導(dǎo)彈進(jìn)行攻擊,并且目標(biāo)分配矩陣中每一列元素之和不小于1,且分配至某一目標(biāo)的導(dǎo)彈數(shù)量最多為Tj.

      3 基于強(qiáng)化學(xué)習(xí)的多目標(biāo)分配

      性能指標(biāo)(15)式是嚴(yán)格的非線性方程,本文利用強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)多目標(biāo)的智能分配。強(qiáng)化學(xué)習(xí)又稱再勵(lì)學(xué)習(xí)、評(píng)價(jià)學(xué)習(xí)或增強(qiáng)學(xué)習(xí),該方法需要智能體與環(huán)境進(jìn)行反復(fù)信息交互,通過學(xué)習(xí)策略或規(guī)則實(shí)現(xiàn)回報(bào)或指標(biāo)的最優(yōu)化[11]。

      3.1 強(qiáng)化學(xué)習(xí)與Q-Learning邏輯

      強(qiáng)化學(xué)習(xí)是一種試探、評(píng)價(jià)與更新的過程,智能體選擇一個(gè)動(dòng)作作用于環(huán)境,環(huán)境在執(zhí)行完動(dòng)作之后產(chǎn)生回報(bào)(獎(jiǎng)勵(lì))信號(hào)發(fā)送至智能體,該信號(hào)包含對(duì)動(dòng)作的定量評(píng)價(jià);不同的動(dòng)作對(duì)應(yīng)不同的獎(jiǎng)勵(lì)值,智能體在接收回報(bào)信號(hào)之后,選擇下一動(dòng)作以獲得更大的獎(jiǎng)勵(lì)[12]。

      強(qiáng)化學(xué)習(xí)是迭代優(yōu)化的過程,包含值迭代與策略迭代。Q-Learning是強(qiáng)化學(xué)習(xí)最常用的值函數(shù)迭代更新方法,設(shè)Q(s,a)為狀態(tài)行為值函數(shù),其物理意義為在當(dāng)前策略π下,當(dāng)前狀態(tài)s與動(dòng)作a對(duì)應(yīng)值函數(shù)的具體取值[13]。若狀態(tài)集合為p維、動(dòng)作集合為q維,則Q(s,a)為p×q維表格,因此可稱之為Q表。Q-Learning中值函數(shù)的更新方法[14]為

      (17)

      式中:α為值函數(shù)迭代的校正系數(shù);γ為折扣系數(shù);R與s′分別為執(zhí)行當(dāng)前動(dòng)作獲得的回報(bào)值與下一時(shí)刻的狀態(tài)。

      具體的Q-Learning方法步驟[15]如下:

      步驟1人為初始化Q(s,a)表格。

      步驟2對(duì)于每次學(xué)習(xí)訓(xùn)練,給定一個(gè)初始狀態(tài)s.

      步驟3執(zhí)行以下操作:

      ①利用當(dāng)前的Q值,依據(jù)策略π,確定當(dāng)前的行為a;

      ②執(zhí)行當(dāng)前的行為a,獲得量化的回報(bào)R與下一狀態(tài)s′;

      ③根據(jù)(17)式更新Q表;

      ④更新當(dāng)前的狀態(tài)s←s′;

      ⑤當(dāng)狀態(tài)滿足終止?fàn)顟B(tài)時(shí),結(jié)束當(dāng)前回合的學(xué)習(xí)。

      步驟4基于已更新的Q表,重復(fù)執(zhí)行步驟3,直至滿足學(xué)習(xí)次數(shù)。

      3.2 基于Q-Learning的多目標(biāo)分配

      在多目標(biāo)分配與決策中,不同形式的0-1分配矩陣對(duì)應(yīng)不同的攻防效費(fèi)比。由于攻防性能只與當(dāng)前和未來分配矩陣相關(guān),而與過去的信息無關(guān),因此集群決策與分配矩陣的確定符合馬爾可夫決策過程。根據(jù)強(qiáng)化學(xué)習(xí)與Q-Learning方法的需求,需要根據(jù)實(shí)際優(yōu)化任務(wù)對(duì)搭建智能分配模型,設(shè)計(jì)狀態(tài)與動(dòng)作空間以及回報(bào)函數(shù),并利用典型的ε-greedy學(xué)習(xí)策略以探索更多的動(dòng)作[16]?;赒-Learning算法的多目標(biāo)智能分配流程如圖1所示。

      圖1 Q-Learning智能決策迭代計(jì)算流程Fig.1 Iterative calculation of intelligent decision by Q-Learning method

      圖1給出了多目標(biāo)智能分配的流程,其核心步驟為行為策略、動(dòng)作空間、狀態(tài)空間以及獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。

      3.2.1 行為策略設(shè)計(jì)

      采用ε-greedy策略實(shí)現(xiàn)多目標(biāo)分配。為了充分發(fā)揮強(qiáng)化學(xué)習(xí)的探索和尋優(yōu)能力,利用隨機(jī)方法對(duì)Q表進(jìn)行初始化,在學(xué)習(xí)前期ε可選擇較大,以探索更多的狀態(tài)與動(dòng)作;在學(xué)習(xí)后期ε逐漸減小,以使得目標(biāo)分配在已有經(jīng)驗(yàn)基礎(chǔ)上做出正確的動(dòng)作。

      3.2.2 動(dòng)作空間設(shè)計(jì)

      根據(jù)強(qiáng)化學(xué)習(xí)中對(duì)動(dòng)作空間的定義,動(dòng)作需要對(duì)上述狀態(tài)產(chǎn)生影響。過于復(fù)雜的動(dòng)作空間將增大動(dòng)作的搜索空間,進(jìn)而影響學(xué)習(xí)效率。針對(duì)該問題,設(shè)計(jì)動(dòng)作為能夠直接影響飛攻防性能的目標(biāo)分配情況,本文稱為分配向量。分配向量中,某一個(gè)具體動(dòng)作ai表示導(dǎo)彈選擇目標(biāo)i,即行向量表示的動(dòng)作ai中,第i個(gè)元素為1,其余都為0.若存在NT個(gè)目標(biāo),則存在NT個(gè)具體動(dòng)作,意味著動(dòng)作空間為NT維。

      (18)式給出了NT維的動(dòng)作空間,選擇第1個(gè)目標(biāo)的動(dòng)作1為a1=[1 0 … 0],相應(yīng)地選擇第2個(gè)目標(biāo)的動(dòng)作2為a2=[0 1 … 0],以此類推。

      (18)

      3.2.3 狀態(tài)空間設(shè)計(jì)

      狀態(tài)空間是強(qiáng)化學(xué)習(xí)中必不可少的部分,是反映當(dāng)前狀態(tài)或者終端狀態(tài)的數(shù)據(jù)集合,并且必須包含所有可能的狀態(tài)參數(shù)取值。本文設(shè)計(jì)狀態(tài)空間為量化攻防效費(fèi)比評(píng)估值組成的數(shù)據(jù)集合,基于性能指標(biāo)(15)式構(gòu)建攻防效費(fèi)比函數(shù)為

      (19)

      (20)

      進(jìn)一步將狀態(tài)范圍(20)式離散為等間隔的狀態(tài)空間,進(jìn)而獲得目標(biāo)分配的狀態(tài)空間。

      3.2.4 回報(bào)函數(shù)設(shè)計(jì)

      量化的回報(bào)函數(shù)用來判斷動(dòng)作的性能,是強(qiáng)化學(xué)習(xí)的核心。在目標(biāo)分配中,利用強(qiáng)化學(xué)習(xí)方法確定分配矩陣以獲得最優(yōu)的攻防性能。因此根據(jù)分配需求,設(shè)計(jì)回報(bào)函數(shù)如下:

      (21)

      (21)式中回報(bào)函數(shù)的物理意義是:當(dāng)某一動(dòng)作即目標(biāo)分配矩陣滿足所有攻擊約束時(shí),回報(bào)函數(shù)值為實(shí)際攻防量化值與最大值1.2倍的差。當(dāng)不滿足攻擊約束即某一導(dǎo)彈分配了多個(gè)目標(biāo),或者某一目標(biāo)未分配到導(dǎo)彈時(shí),給予-5的回報(bào)值。

      4 多目標(biāo)決策仿真驗(yàn)證

      采用數(shù)值仿真的方法對(duì)多目標(biāo)智能分配與決策進(jìn)行驗(yàn)證。在攻擊優(yōu)勢(shì)度評(píng)估中,設(shè)置距離優(yōu)勢(shì)模型中的R0=100 km,過載優(yōu)勢(shì)模型中的n0=1g,各項(xiàng)的加權(quán)系數(shù)分別為:kθ=0.2,kσ=0.2,kr=0.2,kn=0.4.在目標(biāo)威脅建模中,設(shè)置(5)式中的vt0=20 m/s,3個(gè)目標(biāo)的速度分別為vtA=25 m/s、vtB=22 m/s 和vtC=20 m/s,歸一化后的體積分別為ΓtA=1、ΓtA=1.2和ΓtA=1.5,加權(quán)系數(shù)為kΓ=0.6、kv=0.4.各發(fā)導(dǎo)彈屬于同一類型,即c=1.

      在強(qiáng)化學(xué)習(xí)中γ=0.2,采用ε-greedy策略實(shí)現(xiàn)決策目標(biāo),學(xué)習(xí)次數(shù)NQ-Learning的范圍為1~1 000,時(shí)變參數(shù)ε=exp(-NQ-Learning/100)。參數(shù)ε設(shè)置的目的是:在學(xué)習(xí)前期更大地探索新的動(dòng)作,在后期則保證學(xué)習(xí)的最優(yōu)性。

      4.1 導(dǎo)彈數(shù)量固定的智能分配

      設(shè)置6發(fā)導(dǎo)彈攻擊3個(gè)目標(biāo),各導(dǎo)彈對(duì)目標(biāo)的量化綜合攻擊優(yōu)勢(shì)度以及突防概率如表1所示。從表1中可見,第1發(fā)導(dǎo)彈M1對(duì)目標(biāo)B最具有優(yōu)勢(shì),對(duì)目標(biāo)C最無優(yōu)勢(shì)。

      表1 各導(dǎo)彈對(duì)目標(biāo)的量化綜合攻擊優(yōu)勢(shì)度與突防概率

      選擇表1中前4發(fā)導(dǎo)彈M1、M2、M3、M4攻擊3個(gè)目標(biāo),利用本文研究的強(qiáng)化學(xué)習(xí)方法實(shí)現(xiàn)目標(biāo)分配,目標(biāo)分配矩陣為

      (22)

      由(22)式可知,慢速航行的大目標(biāo)C具有較大的威脅度,因此分配矩陣中X12=1,X23=1,X33=1,X41=1,即導(dǎo)彈M2與M3都用于攻擊目標(biāo)C,以增強(qiáng)整體攻防性能。隨著導(dǎo)彈的飛行,每間隔1 s,共進(jìn)行10次目標(biāo)分配,以充分驗(yàn)證智能方法的有效性,其中第1次與第2次分配的Q-Learning主要結(jié)果如圖2、圖3所示。由仿真結(jié)果可知,由于第1次學(xué)習(xí)采用隨機(jī)方法對(duì)動(dòng)作以及Q表進(jìn)行初始化,因此迭代次數(shù)較多,在大約600次學(xué)習(xí)之后才得以收斂,綜合效費(fèi)比指標(biāo)Jt為1.735 6. 第2次學(xué)習(xí)繼承了上一次學(xué)習(xí)獲得的Q表,該表已經(jīng)包含了優(yōu)良動(dòng)的動(dòng)作信息與回報(bào)值,因此迭代次數(shù)與收斂速率都有大幅度改進(jìn)。在經(jīng)過上百次學(xué)習(xí)迭代后,Q-Learning能夠精確收斂。

      圖2 前兩次分配的累計(jì)回報(bào)值Fig.2 Cumulative reward values of the first two assignments

      圖3 前兩次分配的迭代次數(shù)Fig.3 Iteration steps of the first two assignments

      在導(dǎo)彈飛行過程中,每間隔1 s,分別采用強(qiáng)化學(xué)習(xí)與PSO算法實(shí)現(xiàn)多目標(biāo)分配,兩種方法的耗時(shí)與指標(biāo)結(jié)果如表2所示(i7 8550處理器,1.99 GHz, MATLAB 2016b仿真環(huán)境)。由表2可知,強(qiáng)化學(xué)習(xí)與PSO算法都可實(shí)現(xiàn)多目標(biāo)的自主分配,最終的綜合效費(fèi)比指標(biāo)完全相同。然而,兩種方法在計(jì)算耗時(shí)上存在一定差異,初次分配時(shí)強(qiáng)化學(xué)習(xí)方法耗時(shí)較長(zhǎng),而后續(xù)分配PSO算法耗時(shí)較長(zhǎng)。對(duì)于初次分配,強(qiáng)化學(xué)習(xí)方法采用隨機(jī)方法進(jìn)行初始化并探索更多的動(dòng)作,因此耗時(shí)較長(zhǎng)。在后續(xù)分配過程中,強(qiáng)化學(xué)習(xí)能夠繼承初次分配的結(jié)果,而PSO算法都需要由相同的初始狀態(tài)出發(fā)進(jìn)行尋優(yōu),因此強(qiáng)化學(xué)習(xí)耗時(shí)更短,效率更高。

      表2 強(qiáng)化學(xué)習(xí)方法與PSO算法性能對(duì)比

      4.2 導(dǎo)彈數(shù)量可變的智能決策

      表3 協(xié)同攻擊方案與分組

      表3中42種攻擊分組情況下的攻防性能指標(biāo)與效費(fèi)比指標(biāo)如圖4~圖9所示。由圖4可知,當(dāng)不考慮攻擊成本時(shí),攻擊導(dǎo)彈越多,則攻擊與毀傷性能越強(qiáng)。當(dāng)考慮攻擊成本時(shí)效費(fèi)比性能存在較大差異:圖5中攻擊效費(fèi)比Ja在第38號(hào)編組時(shí)達(dá)到最大,此時(shí)分配5發(fā)導(dǎo)彈M1、M2、M3、M4、M6攻擊3個(gè)目標(biāo);圖7中毀傷效費(fèi)比Jd總體上隨著數(shù)量的增多而減小;圖9中,綜合考慮攻擊與毀傷性能的攻防效費(fèi)比Jt在第23號(hào)編組時(shí)達(dá)到最大,此時(shí)需要分配導(dǎo)彈M1、M2、M3、M6攻擊目標(biāo),相應(yīng)的目標(biāo)分配矩陣為

      (23)

      (23)式中X12=1,X23=1,X33=1,X61=1,其余元素均為0,對(duì)應(yīng)的物理意義是:導(dǎo)彈M1攻擊目標(biāo)B,M2與M3都用于攻擊目標(biāo)C,M6攻擊目標(biāo)A,量化攻防效費(fèi)比指標(biāo)為1.756.

      圖4 攻擊性能指標(biāo)Jl,aFig.4 Attack performance index J l,a

      圖5 攻擊效費(fèi)比指標(biāo)JaFig.5 Attack cost-effectiveness ratio index Ja

      圖6 毀傷性能指標(biāo)Jo,dFig.6 Damage performance index Jo,d

      圖7 毀傷效費(fèi)比指標(biāo)JdFig.7 Damage cost-effectiveness ratio index Jd

      圖8 攻防性能指標(biāo)Jl,a+Jo,dFig.8 Attack-defense performance index Jl,a+Jo,d

      圖9 攻防效費(fèi)比指標(biāo)JtFig.9 Attack-defense cost-effectiveness ratio index Jt

      5 結(jié)論

      本文采用強(qiáng)化學(xué)習(xí)方法研究了復(fù)雜多變且高動(dòng)態(tài)環(huán)境下多目標(biāo)協(xié)同攻擊智能決策方法,建立了攻防性能評(píng)估準(zhǔn)則,包括基于相對(duì)運(yùn)動(dòng)信息的攻擊優(yōu)勢(shì)度評(píng)估以及基于目標(biāo)固有信息的威脅度評(píng)估。綜合攻擊性能、毀傷性能以及攻擊消耗,設(shè)計(jì)了攻防效費(fèi)比性能指標(biāo)。構(gòu)建了基于強(qiáng)化學(xué)習(xí)的多目標(biāo)決策架構(gòu),設(shè)計(jì)了目標(biāo)分配的動(dòng)作空間與狀態(tài)空間,利用Q-Learning方法對(duì)協(xié)同攻擊方案,包括導(dǎo)彈的數(shù)量、分組選取以及目標(biāo)分配進(jìn)行了智能決策。得出以下主要結(jié)論:

      1)基于相對(duì)運(yùn)動(dòng)信息與目標(biāo)固有信息,可實(shí)現(xiàn)對(duì)攻擊優(yōu)勢(shì)度與目標(biāo)威脅度的評(píng)估,結(jié)合突防概率模型,可構(gòu)建攻防效費(fèi)比指標(biāo)模型。

      2)多目標(biāo)協(xié)同攻擊的目標(biāo)是使得攻防性能最優(yōu)化,攻擊導(dǎo)彈的選取以及目標(biāo)分配的決策結(jié)果與性能指標(biāo)以及決策模型密切相關(guān)。

      3)強(qiáng)化學(xué)習(xí)能夠用于協(xié)同攻擊中多目標(biāo)的在線決策與分配,與PSO算法相比,其計(jì)算效率在非初次決策中具有更明顯的優(yōu)勢(shì)。

      本文研究的是一種基于強(qiáng)化學(xué)習(xí)的基礎(chǔ)性、通用性的目標(biāo)分配與智能決策方法。只需要建立矩陣形式的分配模型,便可利用該方法進(jìn)行分配與決策。

      猜你喜歡
      性能指標(biāo)導(dǎo)彈分配
      瀝青膠結(jié)料基本高溫性能指標(biāo)相關(guān)性研究
      石油瀝青(2021年1期)2021-04-13 01:31:08
      導(dǎo)彈燃料知多少
      軍事文摘(2020年14期)2020-12-17 06:27:16
      應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
      遺產(chǎn)的分配
      一種分配十分不均的財(cái)富
      正在發(fā)射的岸艦導(dǎo)彈
      績(jī)效考核分配的實(shí)踐與思考
      攔截那枚導(dǎo)彈
      導(dǎo)彈轉(zhuǎn)運(yùn)
      儲(chǔ)熱水箱分層性能指標(biāo)的研究進(jìn)展
      和田县| 大足县| 上犹县| 定州市| 泌阳县| 赤壁市| 江孜县| 平江县| 武冈市| 祁东县| 葫芦岛市| 茌平县| 江口县| 昌宁县| 疏勒县| 盘山县| 姜堰市| 长阳| 石泉县| 南木林县| 隆尧县| 武强县| 庄河市| 周口市| 红河县| 固始县| 吉水县| 松溪县| 桦南县| 志丹县| 甘洛县| 孟津县| 兰溪市| 元谋县| 筠连县| 石家庄市| 沁阳市| 象州县| 武城县| 和硕县| 思南县|