• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度Q網(wǎng)絡(luò)的近距空戰(zhàn)智能機(jī)動(dòng)決策研究

      2023-07-20 01:25:37張婷玉孫明瑋王永帥陳增強(qiáng)
      航空兵器 2023年3期
      關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)空戰(zhàn)

      張婷玉 孫明瑋 王永帥 陳增強(qiáng)

      摘要:針對(duì)近距空戰(zhàn)對(duì)抗中無人機(jī)機(jī)動(dòng)決策問題, 本文基于深度Q網(wǎng)絡(luò)(DQN)算法的框架, 對(duì)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)以及超參數(shù)的選擇問題進(jìn)行了研究。 對(duì)于強(qiáng)化學(xué)習(xí)中的稀疏獎(jiǎng)勵(lì)問題, 采用綜合角度、 距離、 高度和速度等空戰(zhàn)因素的輔助獎(jiǎng)勵(lì), 能夠精確描述空戰(zhàn)任務(wù), 正確引導(dǎo)智能體的學(xué)習(xí)方向。 同時(shí), 針對(duì)應(yīng)用強(qiáng)化學(xué)習(xí)超參數(shù)選擇問題, 探究了學(xué)習(xí)率、 網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)和網(wǎng)絡(luò)層數(shù)對(duì)決策系統(tǒng)的影響, 并給出較好的參數(shù)選擇范圍, 為后續(xù)研究參數(shù)選擇提供參考。 空戰(zhàn)場景的仿真結(jié)果表明, 通過訓(xùn)練智能體能夠在不同空戰(zhàn)態(tài)勢下學(xué)習(xí)到較優(yōu)的機(jī)動(dòng)策略, 但對(duì)強(qiáng)化學(xué)習(xí)超參數(shù)較敏感。

      關(guān)鍵詞:空戰(zhàn); 自主機(jī)動(dòng)決策; 深度強(qiáng)化學(xué)習(xí); DQN; 獎(jiǎng)勵(lì)函數(shù); 智能機(jī)動(dòng); 參數(shù)選擇

      中圖分類號(hào):? TJ76; V212.13文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào): 1673-5048(2023)03-0041-08

      DOI: 10.12132/ISSN.1673-5048.2022.0251

      0引言

      伴隨著現(xiàn)代戰(zhàn)爭的信息化和智能化, 空戰(zhàn)戰(zhàn)場上使用無人機(jī)的趨勢日益明顯, 無人作戰(zhàn)飛機(jī)(Unmanned Combat Aerial Vehicle, UCAV)逐漸成為未來空戰(zhàn)的主力武器[1-2]。 目前UCAV大多采用地面人員遙控的作戰(zhàn)模式, 很難適用于復(fù)雜多變的空戰(zhàn)環(huán)境。 因此, 提升UCAV的智能化水平是打贏未來空戰(zhàn)的軍事需求[3]。 飛行器自主機(jī)動(dòng)決策技術(shù)是提高空戰(zhàn)自主能力與智能化水平的關(guān)鍵技術(shù), 能夠準(zhǔn)確感知空戰(zhàn)環(huán)境并生成合理機(jī)動(dòng)決策的自主機(jī)動(dòng)決策方法是各國軍事技術(shù)的研究重點(diǎn)[4]。

      現(xiàn)有的空戰(zhàn)決策方法分為兩類: 一類是非學(xué)習(xí)策略, 另外一類是自學(xué)習(xí)策略。 非學(xué)習(xí)策略的求解過程主要采用優(yōu)化理論, 包括專家系統(tǒng)[5-6]、 微分對(duì)策[7-8]、 矩陣博弈[9-10]等方法。 而自學(xué)習(xí)空戰(zhàn)決策方法的核心是用智能算法對(duì)空戰(zhàn)決策過程建模, 并根據(jù)訓(xùn)練產(chǎn)生的經(jīng)驗(yàn)對(duì)決策模型參數(shù)進(jìn)行優(yōu)化。 典型的自學(xué)習(xí)策略算法包括遺傳算法[11]、 動(dòng)態(tài)規(guī)劃算法[12]和強(qiáng)化學(xué)習(xí)算法等。 丁林靜等人采用動(dòng)態(tài)模糊Q學(xué)習(xí)模型, 提出了基于強(qiáng)化學(xué)習(xí)的無人機(jī)空戰(zhàn)機(jī)動(dòng)決策方法[13], 但由于空戰(zhàn)問題的復(fù)雜性, 使傳統(tǒng)強(qiáng)化學(xué)習(xí)算法無法解決連續(xù)狀態(tài)空間問題, 會(huì)存在維度限制問題。

      近年來, 深度強(qiáng)化學(xué)習(xí)在多種決策問題中均有一定突破, 為解決空戰(zhàn)對(duì)抗中飛行器機(jī)動(dòng)決策問題提供了新思路。 目前, 深度強(qiáng)化學(xué)習(xí)在空戰(zhàn)對(duì)抗中的運(yùn)用主要有基于值函數(shù)的Q學(xué)習(xí)方法和基于策略搜索的Actor-Critic方法。 張強(qiáng)等人提出一種基于Q-network強(qiáng)化學(xué)習(xí)的超視距空戰(zhàn)機(jī)動(dòng)決策方法[14]。 Zhang等應(yīng)用DQN(Deep Q-Network)算法研究了二維平面的空戰(zhàn)機(jī)動(dòng)決策問題, 針對(duì)DQN算法初始隨機(jī)探索效率低的缺點(diǎn), 提出利用專家知識(shí)提高探索效率, 加快訓(xùn)練時(shí)間[15]。 Yang等基于DDPG(Deep Deterministic Policy Gradient)算法構(gòu)建空戰(zhàn)決策系統(tǒng), 針對(duì)DDPG算法缺少空戰(zhàn)先驗(yàn)知識(shí)、 導(dǎo)致數(shù)據(jù)利用率低的問題, 提出向經(jīng)驗(yàn)池加入已有機(jī)動(dòng)決策系統(tǒng)的樣本數(shù)據(jù), 加快算法收斂速度[16]。 吳宜珈等通過改進(jìn)PPO(Proximal Policy Optimization)算法, 優(yōu)化策略選擇過程, 提高決策效率[17]。 上述文獻(xiàn)主要關(guān)注對(duì)深度強(qiáng)化學(xué)習(xí)算法的改進(jìn), 對(duì)于適用于一對(duì)一空戰(zhàn)的獎(jiǎng)勵(lì)函數(shù)以及強(qiáng)化學(xué)習(xí)超參數(shù)選擇問題沒有過多研究。 在深度強(qiáng)化學(xué)習(xí)方法應(yīng)用過程中, 超參數(shù)的整定以及超參數(shù)的調(diào)整是否會(huì)帶來性能的影響, 是一個(gè)值得研究的問題。

      本文針對(duì)三維空間中無人機(jī)一對(duì)一近距對(duì)抗問題開展研究, 采用強(qiáng)化學(xué)習(xí)框架對(duì)空戰(zhàn)問題進(jìn)行建模; 針對(duì)強(qiáng)化學(xué)習(xí)的稀疏獎(jiǎng)勵(lì)問題, 考慮加入能夠準(zhǔn)確描述空戰(zhàn)任務(wù)的輔助獎(jiǎng)勵(lì), 設(shè)計(jì)一對(duì)一空戰(zhàn)的機(jī)動(dòng)決策獎(jiǎng)勵(lì), 提出了基于DQN算法的自主機(jī)動(dòng)決策方法; 針對(duì)深度強(qiáng)化學(xué)習(xí)超參數(shù)選取問題, 探究超參數(shù)對(duì)決策系統(tǒng)的影響, 并設(shè)置空戰(zhàn)場景進(jìn)行仿真, 驗(yàn)證機(jī)動(dòng)決策方法的有效性。

      1空戰(zhàn)機(jī)動(dòng)決策問題描述及建模

      1.1近距空戰(zhàn)問題描述

      空戰(zhàn)問題可用OODA環(huán)描述, 即完成空戰(zhàn)的觀察(Observe)、 判斷(Orient)、 決策(Decide)和執(zhí)行(Action)回路(簡稱OODA回路)。 結(jié)合OODA回路描述, 自主空戰(zhàn)被定義為在瞬息萬變的復(fù)雜戰(zhàn)場環(huán)境中感知并認(rèn)知戰(zhàn)場態(tài)勢和目標(biāo)意圖, 對(duì)武器和機(jī)動(dòng)動(dòng)作快速做出最優(yōu)的決策策略, 并控制飛機(jī)精確執(zhí)行機(jī)動(dòng)指令。 空戰(zhàn)決策是自主空戰(zhàn)的核心。 本文所研究的空戰(zhàn)場景為近距一對(duì)一空戰(zhàn), 如圖1所示。

      一對(duì)一空戰(zhàn)機(jī)動(dòng)決策的目的是在雙方交戰(zhàn)過程中, 使我方盡量處于空戰(zhàn)態(tài)勢的優(yōu)勢地位, 即盡可能讓敵方進(jìn)入我方的武器攻擊區(qū)域, 同時(shí)避免自身落入敵方的武器攻擊區(qū)域。 典型的武器攻擊區(qū)域是攻擊機(jī)的前方一定距離和角度的錐形范圍。

      1.2UCAV運(yùn)動(dòng)學(xué)模型

      飛行器的運(yùn)動(dòng)學(xué)模型是空戰(zhàn)機(jī)動(dòng)決策模型的基礎(chǔ), 本文研究的重點(diǎn)是機(jī)動(dòng)策略, 不考慮姿態(tài)等, 故將飛行器看作三維空間中的一個(gè)質(zhì)點(diǎn), 采用三自由度質(zhì)點(diǎn)模型。

      基于動(dòng)力學(xué)基本定理, 飛行器在慣性坐標(biāo)系下的三自由度質(zhì)點(diǎn)運(yùn)動(dòng)模型為[18]

      式中: v為飛行器的速度; x, y, z為飛行器質(zhì)心在慣性坐標(biāo)系中的坐標(biāo)值; γ, ψ, μ為飛行器的俯仰角、 航向角和滾轉(zhuǎn)角; nx為切向過載, 表示飛行器在速度方向上受到的推力與自身重力的比值; nz為法向過載, 提供飛行器所需的升力[18]。 本文所選取飛行器機(jī)動(dòng)模型的控制量為nx, nz, μ。

      2基于DQN的機(jī)動(dòng)決策方法

      2.1系統(tǒng)框架

      深度Q網(wǎng)絡(luò)(Deep Q-Network, DQN)是將傳統(tǒng)強(qiáng)化學(xué)習(xí)方法Q-learning與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的一種算法。 DQN用深度神經(jīng)網(wǎng)絡(luò)代替Q表, 解決了Q表存儲(chǔ)限制問題; 引入目標(biāo)網(wǎng)絡(luò)來計(jì)算目標(biāo)Q值, 采用暫時(shí)參數(shù)凍結(jié)的方法切斷Q網(wǎng)絡(luò)更新時(shí)的相關(guān)性, 有效避免了Q估計(jì)值不收斂的問題。 DQN算法的框架如圖2所示。

      空戰(zhàn)格斗的機(jī)動(dòng)決策是一個(gè)序貫決策過程, 強(qiáng)化學(xué)習(xí)正是一種求解序貫決策問題的優(yōu)化方法,故將機(jī)動(dòng)決策問題建模為連續(xù)狀態(tài)空間和離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)問題。 強(qiáng)化學(xué)習(xí)算法為無人機(jī)進(jìn)行動(dòng)作選擇, 我機(jī)與目標(biāo)機(jī)的狀態(tài)形成空戰(zhàn)環(huán)境的描述, 當(dāng)前空戰(zhàn)態(tài)勢的評(píng)估結(jié)果返回強(qiáng)化學(xué)習(xí)算法中。 決策系統(tǒng)的框架如圖3所示。

      2.2UCAV的強(qiáng)化學(xué)習(xí)環(huán)境構(gòu)建

      2.2.1狀態(tài)空間

      本文選擇空戰(zhàn)態(tài)勢信息作為狀態(tài)變量, 它將為無人作戰(zhàn)飛機(jī)機(jī)動(dòng)決策提供必要的信息支撐。 空戰(zhàn)態(tài)勢信息的幾何關(guān)系如圖4所示。

      狀態(tài)變量包括我機(jī)與目標(biāo)機(jī)距離R、 我機(jī)與目標(biāo)機(jī)的距離變化率R·、 我機(jī)方位角φU、 我機(jī)進(jìn)入角qU、 兩機(jī)的速度方向的夾角χ、 兩機(jī)的飛行高度差Δh以及兩機(jī)的飛行速度差Δv。 除態(tài)勢信息外, 還引入我機(jī)的當(dāng)前飛行高度zU和飛行速度vU作為狀態(tài)變量。 因此, 本文設(shè)計(jì)的系統(tǒng)狀態(tài)空間向量為

      2.2.2動(dòng)作空間

      飛行器的機(jī)動(dòng)過程可視作一些基本機(jī)動(dòng)動(dòng)作的組合[19], 因此本文選擇由美國NASA提出的“基本機(jī)動(dòng)動(dòng)作庫”作為動(dòng)作空間[20], 其包括7個(gè)基本操縱方式: 定常飛行、 加速、 減速、 左轉(zhuǎn)、 右轉(zhuǎn)、 向上拉起和向下俯沖。 飛行器可通過連續(xù)多步的基本動(dòng)作選擇,從而組合出不同戰(zhàn)術(shù)動(dòng)作。

      飛行器機(jī)動(dòng)動(dòng)作的控制量為切向過載nx、 法向過載nz和滾轉(zhuǎn)角μ, 考慮飛行器結(jié)構(gòu)特性對(duì)過載的限制, 本文切向過載的取值范圍為nx∈[-2,2], 法向過載的取值范圍為nz∈[-4,4], 滾轉(zhuǎn)角的取值范圍為μ∈[-π/3, π/3][21]。 實(shí)際每次執(zhí)行機(jī)動(dòng)動(dòng)作過程中均采用最大過載, 機(jī)動(dòng)動(dòng)作所對(duì)應(yīng)的控制指令如表1所示[21]。

      2.2.3獎(jiǎng)勵(lì)函數(shù)

      忽略武器攻擊誤差等因素, 設(shè)定當(dāng)兩機(jī)距離R小于武器攻擊范圍Rw, 方位角小于武器最大攻擊角度φw且進(jìn)入角小于qw時(shí)達(dá)到目標(biāo)狀態(tài), 可獲得最終獎(jiǎng)勵(lì)rfinal:

      為了避免飛行器在飛行過程中失速、 飛行過低或過高、 遠(yuǎn)離目標(biāo)或與目標(biāo)發(fā)生碰撞, 本文設(shè)置來自于環(huán)境的懲罰函數(shù)re:

      綜合建立的強(qiáng)化學(xué)習(xí)環(huán)境、 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及探索策略, 本文提出基于深度Q學(xué)習(xí)的機(jī)動(dòng)決策算法, 算法1描述了基于深度Q學(xué)習(xí)的機(jī)動(dòng)決策算法過程。

      算法1: 基于深度Q學(xué)習(xí)的飛行器機(jī)動(dòng)決策過程。

      輸入: 狀態(tài)空間S, 動(dòng)作空間A, 初始神經(jīng)網(wǎng)絡(luò), 訓(xùn)練參數(shù)。

      輸出: Q網(wǎng)絡(luò)參數(shù)。

      1: 初始化經(jīng)驗(yàn)回放緩沖區(qū)D, 容量為N。

      2: 初始化在線Q網(wǎng)絡(luò)及隨機(jī)權(quán)重θ。

      3: 初始化目標(biāo)Q網(wǎng)絡(luò), θ-=θ。

      4: 初始化ε=1。

      5: for episode = 1, 2, do:

      6: 初始化狀態(tài)雙方飛行器的狀態(tài), 獲取當(dāng)前態(tài)勢。

      7: if episode為N的倍數(shù)then。

      8: 進(jìn)行評(píng)估, 評(píng)估時(shí)ε=0。

      9: endif

      10: for step = 1, 2, …, T do。

      11: 以ε的概率從7個(gè)基本動(dòng)作中隨機(jī)選擇一個(gè)動(dòng)作, 否則, 選

      擇動(dòng)作at=argmaxaQ(st, a, θ)。

      12: 執(zhí)行動(dòng)作at, 得到獎(jiǎng)勵(lì)rt, 進(jìn)入下一狀態(tài)st+1。

      13: 將[st, at, rt, st+1]存儲(chǔ)到D中; 判斷該空戰(zhàn)回合是否結(jié)

      束。

      14: end for

      15: 從D中隨機(jī)抽取一批樣本[sj, aj, ?rj,? sj+1]。

      16: 定義amax=argmaxa′Q(sj+1, a′, θ)。

      17: 令yj=rj, 達(dá)到目標(biāo)狀態(tài)rj+γQ(sj+1, aj, θ-), 未達(dá)目標(biāo)狀態(tài)

      18: 根據(jù)目標(biāo)函數(shù)(yj-Q(sj, aj, θ-))2, 使用梯度下降法更新

      權(quán)重θ。

      19: 每隔C輪, 更新目標(biāo)Q網(wǎng)絡(luò), θ-←θ。

      20: 逐步減小ε的值, 直至εmin。

      21: end for

      3仿真與分析

      3.1強(qiáng)化學(xué)習(xí)超參數(shù)探究

      在目標(biāo)飛行器進(jìn)行勻速直線運(yùn)動(dòng)且雙方初始相向飛行的場景下, 探究強(qiáng)化學(xué)習(xí)超參數(shù)對(duì)機(jī)動(dòng)決策的影響。

      3.1.1學(xué)習(xí)率

      學(xué)習(xí)率決定目標(biāo)函數(shù)能否收斂以及何時(shí)收斂。 本文在網(wǎng)絡(luò)結(jié)構(gòu)不變且三個(gè)隱藏層均為64個(gè)節(jié)點(diǎn)的情況下, 探究學(xué)習(xí)率對(duì)機(jī)動(dòng)決策系統(tǒng)的影響。 由于計(jì)算機(jī)性能限制, 訓(xùn)練耗費(fèi)時(shí)間較長, 僅選擇三組對(duì)照, 所設(shè)置的三個(gè)實(shí)驗(yàn)組的學(xué)習(xí)率分別是0.01、 0.001以及0.000 1。

      各學(xué)習(xí)率學(xué)習(xí)曲線如圖7所示, 橫坐標(biāo)為訓(xùn)練次數(shù), 縱坐標(biāo)為用30回合計(jì)算平均值進(jìn)行平滑后的累計(jì)獎(jiǎng)勵(lì)值。 結(jié)果表明, 學(xué)習(xí)曲線整體均呈上升趨勢, 學(xué)習(xí)率影響收斂速度。 當(dāng)α=0.01時(shí), 在訓(xùn)練次數(shù)大于700次后獎(jiǎng)勵(lì)值下降成為負(fù)值; 當(dāng)α=0.000 1時(shí), 未出現(xiàn)收斂趨勢, 且獎(jiǎng)

      勵(lì)值為負(fù)值, 說明智能體尚未探索出較好的機(jī)動(dòng)策略; 當(dāng)α=0.001時(shí), 獎(jiǎng)勵(lì)值隨訓(xùn)練次數(shù)增加逐步提高, 且有收斂趨勢。 可見, 學(xué)習(xí)率過低會(huì)延長訓(xùn)練時(shí)間, 學(xué)習(xí)率過高可能會(huì)達(dá)到局部最優(yōu)結(jié)果或發(fā)散。 因此, 針對(duì)飛行器機(jī)動(dòng)決策問題, 學(xué)習(xí)率設(shè)置為0.001較為合理。

      3.1.2神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)

      在深度神經(jīng)網(wǎng)絡(luò)輸入層及輸出層結(jié)構(gòu)不變且均為3個(gè)隱藏層的情況下, 探究節(jié)點(diǎn)數(shù)對(duì)決策系統(tǒng)性能的影響。

      一般情況, 神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)設(shè)置為2的N次方, 另外在深度學(xué)習(xí)中, 設(shè)置倍數(shù)關(guān)系的節(jié)點(diǎn)數(shù)才會(huì)有區(qū)別。 因此, 三個(gè)實(shí)驗(yàn)組的隱藏層節(jié)點(diǎn)數(shù)分別是[32, 64, 32]、 [64, 128, 64]和[128, 256, 128]。

      三個(gè)實(shí)驗(yàn)組的學(xué)習(xí)曲線如圖8所示。 實(shí)驗(yàn)結(jié)果表明, 節(jié)點(diǎn)數(shù)將會(huì)影響收斂速度或者是否收斂, 同時(shí)神經(jīng)網(wǎng)絡(luò)寬度越大也會(huì)耗費(fèi)更長的訓(xùn)練時(shí)間。 學(xué)習(xí)曲線均有收斂趨勢, 第二組收斂速度更快。 強(qiáng)化學(xué)習(xí)的訓(xùn)練數(shù)據(jù)比監(jiān)督學(xué)習(xí)穩(wěn)定性低, 無法劃分出訓(xùn)練集與測試集來避免過擬合, 因此深度強(qiáng)化學(xué)習(xí)無需用過寬的網(wǎng)絡(luò), 避免參數(shù)過度冗余導(dǎo)致過擬合。 用深度強(qiáng)化學(xué)習(xí)解決空戰(zhàn)中飛行器的機(jī)動(dòng)決策問題時(shí), 節(jié)點(diǎn)數(shù)可選擇64或128。

      3.1.3神經(jīng)網(wǎng)絡(luò)層數(shù)

      在深度神經(jīng)網(wǎng)絡(luò)的輸入層及輸出層結(jié)構(gòu)不變且每個(gè)隱藏層均為64個(gè)節(jié)點(diǎn)的情況下, 探究神經(jīng)網(wǎng)絡(luò)層數(shù)對(duì)機(jī)動(dòng)決策系統(tǒng)的影響。 設(shè)計(jì)三個(gè)實(shí)驗(yàn)組的隱藏層數(shù)分別是3層、 4層和5層。 三個(gè)實(shí)驗(yàn)組的學(xué)習(xí)曲線如圖9所示。

      由圖9可知, 3層隱藏層的神經(jīng)網(wǎng)絡(luò)有收斂趨勢,? 4層和5層的神經(jīng)網(wǎng)絡(luò)則沒有明顯的收斂趨勢, 可能出現(xiàn)過擬合情況。 由仿真可知, 隱藏層數(shù)對(duì)決策系統(tǒng)收斂性影響較大。 因此, 解決空戰(zhàn)機(jī)動(dòng)決策問題時(shí), 可使用有3層隱藏層的深度神經(jīng)網(wǎng)絡(luò)。

      3.2仿真結(jié)果與討論

      目標(biāo)機(jī)進(jìn)行勻速直線運(yùn)動(dòng)的場景下, 設(shè)置目標(biāo)飛行器一直采取定常飛行的機(jī)動(dòng)動(dòng)作, 對(duì)我方無人機(jī)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。 我機(jī)分別以均勢和劣勢的初始狀態(tài)進(jìn)行機(jī)動(dòng)。 均勢初始狀態(tài)指雙方相互朝向?qū)Ψ剑?劣勢初始狀態(tài)指目標(biāo)機(jī)從后方追趕我機(jī)。 初始狀態(tài)設(shè)置如表2所示。

      首先設(shè)置雙方相對(duì)飛行, 初始態(tài)勢為均勢。 記錄每個(gè)回合對(duì)戰(zhàn)訓(xùn)練的飛行數(shù)據(jù), 通過Matlab繪圖可視化交戰(zhàn)雙方的飛行軌跡, 可更加直觀地展示機(jī)動(dòng)決策結(jié)果。

      經(jīng)過訓(xùn)練, 智能體能夠探索出針對(duì)當(dāng)前初始態(tài)勢較好的機(jī)動(dòng)策略, 軌跡如圖10所示。 初始時(shí)雙方為相向飛行, 我方飛行器在目標(biāo)向我方靠近時(shí)采取拉升高度的機(jī)動(dòng)動(dòng)作, 主動(dòng)脫離目標(biāo)機(jī)的武器攻擊區(qū)域; 而后通過筋斗動(dòng)作調(diào)轉(zhuǎn)方向, 朝向目標(biāo)機(jī)飛行; 降低高度接近目標(biāo)機(jī), 調(diào)整機(jī)頭方向, 進(jìn)入優(yōu)勢攻擊位置。

      在初始態(tài)勢為劣勢的情況下, 智能體經(jīng)過訓(xùn)練后選擇的飛行策略如圖11所示。 初始時(shí), 目標(biāo)機(jī)位于我機(jī)后方, 我方無人機(jī)初始處于劣勢, 且飛行高度低于目標(biāo)機(jī), 我方通過機(jī)動(dòng)決策首先拉升高度以脫離目標(biāo)機(jī)武器攻擊范圍的同時(shí), 獲得重力勢能優(yōu)勢; 而后進(jìn)行“筋斗”翻轉(zhuǎn)繞至目標(biāo)后方, 從而轉(zhuǎn)變了空戰(zhàn)態(tài)勢, 使我機(jī)處于優(yōu)勢攻擊角度; 再降低高度接近目標(biāo), 使得目標(biāo)機(jī)進(jìn)入我方的武器攻擊范圍, 成功鎖定目標(biāo)機(jī), 該機(jī)動(dòng)決策符合空戰(zhàn)中真實(shí)的無人機(jī)格斗戰(zhàn)略。

      在目標(biāo)機(jī)進(jìn)行盤旋機(jī)動(dòng)的場景下, 設(shè)置目標(biāo)機(jī)始終采取向右水平盤旋機(jī)動(dòng)動(dòng)作, 雙方的初始狀態(tài)與直線飛行均勢初始場景的設(shè)置相同。

      圖12展示了部分回合的雙方飛行軌跡。 在訓(xùn)練前期, 智能體處于隨機(jī)探索階段, 可能會(huì)飛出限定高度或者失速等, 環(huán)境會(huì)給予較大的懲罰, 通過與環(huán)境的不斷交互, 智能體能夠逐漸探索出獲得獎(jiǎng)勵(lì)值較高的決策策略。 圖12(a)中智能體一直采取定常飛行的策略, 獲得累計(jì)回報(bào)較低, 在后續(xù)訓(xùn)練中智能體嘗試抬升高度并調(diào)轉(zhuǎn)機(jī)頭方向等動(dòng)作, 如圖12(b)~(d)所示, 有逐步向目標(biāo)方向飛行的趨勢, 能夠探索出較為合理的飛行策略, 但效果尚不理想。

      以上3個(gè)情景的仿真表明: 無人機(jī)的動(dòng)作選擇策略在經(jīng)訓(xùn)練后能夠依據(jù)態(tài)勢輸出較為合理的連續(xù)動(dòng)作控制量, 對(duì)不同的情景及初始態(tài)勢決策效果有所不同, 但均具有適應(yīng)性, 具備一定空戰(zhàn)能力。 由表1和仿真結(jié)果可知, 采用確定的控制指令對(duì)飛行器進(jìn)行訓(xùn)練能保證基本任務(wù)完成, 而難以在復(fù)雜場景中取得明顯優(yōu)勢。 為提升復(fù)雜飛行場景下該算法的優(yōu)越性, 后續(xù)將考慮采用連續(xù)動(dòng)作空間, 豐富機(jī)動(dòng)動(dòng)作的控制指令。

      同時(shí), 通過采取同一實(shí)驗(yàn)場景的超參數(shù)取值, 對(duì)不同場景進(jìn)行測試, 由圖10~12可以看出, 該超參數(shù)取值的訓(xùn)練結(jié)果在目標(biāo)機(jī)勻速直線飛行的場景中更具飛行優(yōu)勢。 結(jié)果表明, 強(qiáng)化學(xué)習(xí)超參數(shù)選擇較為合理且具有一定的適應(yīng)能力, 能適用于多種飛行場景, 一定程度上能夠解決超參數(shù)整定繁冗問題。 此外, 超參數(shù)對(duì)不同場景的適應(yīng)能力問題, 仍值得進(jìn)一步探索。

      4結(jié)論

      本文針對(duì)三維空間中的一對(duì)一空戰(zhàn)機(jī)動(dòng)決策問題進(jìn)行了研究, 將機(jī)動(dòng)決策問題建模為連續(xù)狀態(tài)空間以及離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)問題, 設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)并提出了基于深度Q網(wǎng)絡(luò)的機(jī)動(dòng)決策方法。 仿真結(jié)果表明, 該方法能夠在簡單場景下探索出較合理的機(jī)動(dòng)策略, 但對(duì)學(xué)習(xí)率等強(qiáng)化學(xué)習(xí)超參數(shù)較敏感。

      未來工作及改進(jìn)方向有: (1)構(gòu)建目標(biāo)機(jī)的機(jī)動(dòng)決策系統(tǒng), 使其也具備自主決策能力, 更加符合真實(shí)空戰(zhàn)場景; (2)機(jī)動(dòng)決策系統(tǒng)的動(dòng)作空間可采用更加符合真實(shí)飛行員操縱動(dòng)作的連續(xù)動(dòng)作空間。

      參考文獻(xiàn):

      [1] 姜進(jìn)晶, 汪民樂, 姜斌. 無人機(jī)作戰(zhàn)運(yùn)用研究[J]. 飛航導(dǎo)彈, 2019(1): 41-44.

      Jiang Jinjing, Wang Minle, Jiang Bin. Research on UAV Combat Application [J]. Aerodynamic Missile Journal, 2019(1): 41-44.(in Chinese)

      [2] 范晉祥, 陳晶華. 未來空戰(zhàn)新概念及其實(shí)現(xiàn)挑戰(zhàn)[J]. 航空兵器, 2020, 27(2): 15-24.

      Fan Jinxiang, Chen Jinghua. New Concepts of Future Air Warfare and the Challenges for Its Realization[J]. Aero Weaponry, 2020, 27(2): 15-24.(in Chinese)

      [3] 鮮勇, 李揚(yáng). 人工智能技術(shù)對(duì)未來空戰(zhàn)武器的變革與展望[J]. 航空兵器, 2019, 26(5): 26-31.

      Xian Yong, Li Yang. Revolution and Prospect of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry, 2019, 26(5): 26-31.(in Chinese)

      [4] 孫智孝, 楊晟琦, 樸海音, 等. 未來智能空戰(zhàn)發(fā)展綜述[J]. 航空學(xué)報(bào), 2021, 42(8): 525799.

      Sun Zhixiao, Yang Shengqi, Piao Haiyin, et al. A Survey of Air Combat Artificial Intelligence[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(8): 525799.(in Chinese)

      [5] Goldsmith T E, Schvaneveldt R W. Representing and Training Expertise in Air Combat Maneuvering[R]. Las Cruces: New Mexico State University, 1987:1-55.

      [6] Burgin G H, Sidor L B. Rule-Based Air Combat Simulation[R]. Washington D C: NASA, 1988.

      [7] Othling W L. Application of Differential Game Theory to Pursuit-Evasion Problems of Two Aircraft: DS/MC/67-1[R]. Ohio: Air Force Institute, 1970.

      [8] Miles S, Williamson-Noble D. Toward a Differential Game Solution to a Practical Two Aircraft Pursuit-Evasion Problem in Three-Dimensional Space: GA/MC/71-5[R]. Ohio: Air Force Institute, 1970.

      [9] Austin F, Carbone G, Falco M, et al. Game Theory for Automated Maneuvering during Air-to-Air Combat[J]. Journal of Guidance, Control, and Dynamics, 1990, 13(6): 1143-1149.

      [10] 鄧可, 彭宣淇, 周德云. 基于矩陣對(duì)策與遺傳算法的無人機(jī)空戰(zhàn)決策[J]. 火力與指揮控制, 2019, 44(12): 61-66.

      Deng Ke, Peng Xuanqi, Zhou Deyun. Study on Air Combat Decision Method of UAV Based on Matrix Game and Genetic Algorithm[J]. Fire Control & Command Control, 2019, 44(12): 61-66.(in Chinese)

      [11] Kaneshige J, Krishnakumar K. Artificial Immune System Approach for Air Combat Maneuvering[C]∥ Intelligent Computing: Theory and Applications V, 2007, 6560: 68-79.

      [12] McGrew J S, How J P, Williams B, et al. Air-Combat Strategy Using Approximate Dynamic Programming[J]. Journal of Gui ̄dance, Control, and Dynamics, 2010, 33(5): 1641-1654.

      [13] 丁林靜, 楊啟明. 基于強(qiáng)化學(xué)習(xí)的無人機(jī)空戰(zhàn)機(jī)動(dòng)決策[J]. 航空電子技術(shù), 2018, 49(2): 29-35.

      Ding Linjing, Yang Qiming. Research on Air Combat Maneuver Decision of UAVs Based on Reinforcement Learning[J]. Avionics Technology, 2018, 49(2): 29-35.(in Chinese)

      [14] 張強(qiáng), 楊任農(nóng), 俞利新, 等. 基于Q-Network強(qiáng)化學(xué)習(xí)的超視距空戰(zhàn)機(jī)動(dòng)決策[J]. 空軍工程大學(xué)學(xué)報(bào): 自然科學(xué)版, 2018, 19(6): 8-14.

      Zhang Qiang, Yang Rennong, Yu Lixin, et al. BVR Air Combat Maneuvering Decision by Using Q-Network Reinforcement Learning[J]. Journal of Air Force Engineering University: Natural Science Edition, 2018, 19(6): 8-14.(in Chinese)

      [15] Zhang X B, Liu G Q, Yang C J, et al. Research on Air Combat Maneuver Decision-Making Method Based on Reinforcement Learning[J]. Electronics, 2018, 7(11): 279.

      [16] Yang Q M, Zhu Y, Zhang J D, et al. UAV Air Combat Autonomous Maneuver Decision Based on DDPG Algorithm[C]∥ IEEE 15th International Conference on Control and Automation, 2019: 37-42.

      [17] 吳宜珈, 賴俊, 陳希亮, 等. 強(qiáng)化學(xué)習(xí)算法在超視距空戰(zhàn)輔助決策上的應(yīng)用研究[J]. 航空兵器, 2021, 28(2): 55-61.

      Wu Yijia, Lai Jun, Chen Xiliang, et al. Research on the Application of Reinforcement Learning Algorithm in Decision Support of Beyond-Visual-Range Air Combat[J]. Aero Weaponry, 2021, 28(2): 55-61.(in Chinese)

      [18] 吳昭欣. 基于深度強(qiáng)化學(xué)習(xí)的飛行器自主機(jī)動(dòng)決策方法研究[D]. 成都: 四川大學(xué), 2021.

      Wu Zhaoxin. Research on Autonomous Maneuvering Decision Method for Aircraft Based on Deep Reinforcement Learning[D]. Chengdu: Sichuan University, 2021. (in Chinese)

      [19] Yang Q M, Zhang J D, Shi G Q, et al. Maneuver Decision of UAV in Short-Range Air Combat Based on Deep Reinforcement Learning[J]. IEEE Access, 2019,8: 363-378.

      [20] Austin F, Carbone G, Falco M, et al. Automated Maneuvering Decisions for Air-to-Air Combat[C]∥ Guidance, Navigation and Control Conference, AIAA, 1987: 2393.

      [21] 董肖杰, 余敏建, 宋帥. 空戰(zhàn)機(jī)動(dòng)動(dòng)作庫及控制算法設(shè)計(jì)研究[C]∥第五屆中國指揮控制大會(huì)論文集, 2017: 188-193.

      Dong Xiaojie, Yu Minjian, Song Shuai. Research on the Design of Air Combat Maneuver Library and Control Arithmetic of Movements[C]∥ Proceedings of the 5th China Command and Control Conference, 2017: 188-193.(in Chinese)

      [22] 李永豐, 史靜平, 章衛(wèi)國, 等. 深度強(qiáng)化學(xué)習(xí)的無人作戰(zhàn)飛機(jī)空戰(zhàn)機(jī)動(dòng)決策[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2021, 53(12): 33-41.

      Li Yongfeng, Shi Jingping, Zhang Weiguo, et al. Maneuver Decision of UCAV in Air Combat Based on Deep Reinforcement Learning[J]. Journal of Harbin Institute of Technology, 2021, 53(12): 33-41.(in Chinese)

      Research on Intelligent Maneuvering Decision-Making in Close Air Combat Based on Deep Q Network

      Zhang Tingyu1,? Sun Mingwei2, Wang Yongshuai1, Chen Zengqiang1

      (1. College of Artificial Intelligence, Nankai University, Tianjin 300350, China; 2. Key Laboratory of Intelligent Robotics of Tianjin, Tianjin 300350, China)

      Abstract: Aiming at the problem of UCAV maneuvering decision-making in close air combat, the design of reinforcement learning reward function and the selection of hyper-parameters are studied based on the framework of deep Q network algorithm. For the sparse reward problem in reinforcement learning, an auxiliary reward function that considers angle, range, altitude and speed factors is used to describe the air combat mission accurately and guide the learning direction of the agent correctly. Meanwhile, aiming at the problem of applying reinforcement learning hyper-parameter selection, the influence of learning rate, the number of network nodes and network layers on the decision-making system is explored, and a good range of parameter selection is given, which provides a reference for the following research on parameter selection. The simulation results show that the trained agent can learn the optimal maneuver strategy in different air combat situations, but it is sensitive to reinforcement learning hyper-parameters.

      Key words: ?air combat; autonomous maneuvering decision-making; deep reinforcement learning; DQN; reward function; intelligent maneuver; parameter selection

      收稿日期: 2022-11-22

      基金項(xiàng)目: 國家自然科學(xué)基金項(xiàng)目(62073177; 61973175)

      作者簡介: 張婷玉(2000-), 女, 河北衡水人, 碩士研究生。

      *通信作者: 孫明瑋(1972-), 男, 北京人, 教授。

      猜你喜歡
      深度強(qiáng)化學(xué)習(xí)空戰(zhàn)
      最強(qiáng)空戰(zhàn)王
      基于策略梯度算法的工作量證明中挖礦困境研究
      基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
      關(guān)于人工智能阿法元綜述
      商情(2019年14期)2019-06-15 10:20:13
      深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
      關(guān)于人工智能阿法元綜述
      西部論叢(2019年9期)2019-03-20 05:18:04
      基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問題研究
      空戰(zhàn)之城
      “85:0”的敘以空戰(zhàn)
      回眸不列顛空戰(zhàn)
      鲁山县| 通道| 陇川县| 清涧县| 托克逊县| 霍林郭勒市| 凤山市| 平遥县| 城市| 固原市| 子长县| 新野县| 五原县| 东丽区| 吉林省| 康保县| 钟祥市| 江华| 闵行区| 城固县| 双牌县| 当雄县| 新沂市| 永安市| 绵竹市| 康保县| 蛟河市| 吴川市| 鄂伦春自治旗| 白玉县| 印江| 临江市| 特克斯县| 富源县| 黄石市| 清新县| 翁牛特旗| 高平市| 宿松县| 信丰县| 唐海县|