• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)雙延遲深度確定性策略梯度法的無人機(jī)反追擊機(jī)動(dòng)決策

    2021-09-23 13:25:26郭萬春解武杰董文瀚
    關(guān)鍵詞:步長(zhǎng)重構(gòu)經(jīng)驗(yàn)

    郭萬春, 解武杰, 尹 暉, 董文瀚

    (1.空軍工程大學(xué)航空工程學(xué)院, 西安, 710038; 2.空軍工程大學(xué)教研保障中心, 西安, 710051)

    近年來,各種控制理論和方法研究為自主空戰(zhàn)決策提供了解決方案。文獻(xiàn)[1]利用差分博弈論,將空戰(zhàn)模型建模為一個(gè)確定的、完全信息的追逃博弈模型。文獻(xiàn)[2]研究了一種實(shí)時(shí)自主一對(duì)一的近似動(dòng)態(tài)規(guī)劃空戰(zhàn)方法。文獻(xiàn)[3]采用了一種基于可達(dá)性的方法來解決追逃博弈問題。此外,還有多級(jí)影響圖法[4]、滾動(dòng)時(shí)域法[5]和基于統(tǒng)計(jì)學(xué)原理的方法[6]等。由于現(xiàn)實(shí)環(huán)境的不確定性以及真實(shí)測(cè)試昂貴、耗時(shí)和危險(xiǎn)等原因,這些探索大多停留在理論研究階段,難以付諸工程實(shí)踐和實(shí)戰(zhàn)。

    深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)正成為利用AI解決決策問題的主流研究方向[7-10]。文獻(xiàn)[11]采用了深度Q學(xué)習(xí)(deep Q-learning network,DQN)的方法控制無人機(jī)的速度和轉(zhuǎn)角,然而DQN對(duì)次優(yōu)動(dòng)作高估的狀態(tài)動(dòng)作值超過最優(yōu)動(dòng)作的動(dòng)作值時(shí)將無法找到最優(yōu)動(dòng)作,并且它只能處理離散的、低維的動(dòng)作空間,這與大多實(shí)際情境不符。文獻(xiàn)[12]使用異步的優(yōu)勢(shì)行動(dòng)者評(píng)論家算法(asynchronous advantage actor-critic,A3C)訓(xùn)練無人機(jī)進(jìn)行空戰(zhàn),利用多線程的方法,同時(shí)在多個(gè)線程里分別與環(huán)境進(jìn)行交互學(xué)習(xí),避免了DQN中出現(xiàn)的經(jīng)驗(yàn)回放相關(guān)性過強(qiáng)的問題,但是訓(xùn)練出的無人機(jī)空戰(zhàn)性能有待提高。文獻(xiàn)[13]假定對(duì)戰(zhàn)的兩架飛機(jī)速度恒定,使用深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)訓(xùn)練了無人機(jī),雖然取得了良好的訓(xùn)練效果,但是訓(xùn)練出的追擊策略較為單一,并且沒有考慮飛機(jī)的火力打擊區(qū)域,僅僅以兩機(jī)間的距離在某一范圍內(nèi)作為成功打擊目標(biāo)的準(zhǔn)則。

    本文討論自主空戰(zhàn)中深度強(qiáng)化學(xué)習(xí)在無人機(jī)反追擊的應(yīng)用??紤]非對(duì)稱性的追逃博弈問題,具有扇形火力打擊區(qū)域的兩架無人機(jī)進(jìn)行追擊/反追擊的空中對(duì)抗,攻擊(以下標(biāo)注為ATTACK)無人機(jī)采用純追蹤法(pure pursuit)打擊目標(biāo),目的是訓(xùn)練速度不大于ATTACK無人機(jī)的智能(以下標(biāo)注為RL)無人機(jī)擺脫其追擊并進(jìn)行反制。

    1 問題描述

    無人機(jī)自主機(jī)動(dòng)反追擊使用參數(shù)化動(dòng)作空間馬爾科夫決策過程[14]的形式化框架,由一個(gè)五元組構(gòu)成:。RL無人機(jī)通過與環(huán)境交互學(xué)習(xí)狀態(tài)到動(dòng)作的映射關(guān)系以此獲得最大累計(jì)期望回報(bào)。假設(shè)這是一個(gè)理想模型,環(huán)境的動(dòng)態(tài)特性P(·|(s,a))=1是確定的,即不存在風(fēng)等對(duì)無人機(jī)飛行有干擾的因素。時(shí)間步為t時(shí)觀測(cè)到的無人機(jī)狀態(tài)st∈S。RL無人機(jī)從可用的行動(dòng)集合A中選用行動(dòng)at∈A,環(huán)境在at的作用下,轉(zhuǎn)換至新狀態(tài)st+1,在進(jìn)行狀態(tài)轉(zhuǎn)移到下一個(gè)新狀態(tài)的同時(shí)產(chǎn)生獎(jiǎng)勵(lì)r(st,at)。RL無人機(jī)根據(jù)新觀測(cè)到的狀態(tài)st+1,再做出新的決策,采取行為at+1,依次反復(fù)進(jìn)行直至達(dá)到環(huán)境的終止?fàn)顟B(tài)。γ∈[0,1]為未來回報(bào)折扣因子,RL無人機(jī)旨在尋找一個(gè)策略π使得其從任意初始狀態(tài)s0出發(fā)在達(dá)到終止?fàn)顟B(tài)時(shí)獲得最大的累計(jì)獎(jiǎng)勵(lì):

    (1)

    根據(jù)文獻(xiàn)[15],無人機(jī)反追擊模型可描述為:

    (3)

    設(shè)ATTACK無人機(jī)和RL無人機(jī)的偏航角分別為α和β,則其位置信息分別為XATTACK=(x1,y1,α),XRL=(x2,y2,β)。

    根據(jù)文獻(xiàn)[11],ATTACK無人機(jī)對(duì)RL無人機(jī)進(jìn)行火力打擊的示意圖如圖1所示。

    圖1 火力打擊示意圖

    ATTACK無人機(jī)進(jìn)行火力打擊的規(guī)則為純追蹤法:其速度方向?qū)r(shí)刻指向RL無人機(jī),試圖將RL無人機(jī)追擊在自己的打擊范圍內(nèi),該策略在文獻(xiàn)[16]中被證明是十分有效的追擊手段。根據(jù)最優(yōu)追逃策略[17],設(shè)ATTACK無人機(jī)相鄰兩次時(shí)間步長(zhǎng)內(nèi)的偏航角變化量φATT滿足:

    (3)

    2 無人機(jī)反追擊Markov決策過程建模

    2.1 無人機(jī)飛行狀態(tài)空間

    由于兩架無人機(jī)在同一高度上進(jìn)行追擊與反追擊的空中對(duì)抗,記位置信息為D=(x1,y1,α,x2,y2,β),在每個(gè)時(shí)間步長(zhǎng)的開始,以ATTACK無人機(jī)的位置和偏航角為基準(zhǔn),將原有的坐標(biāo)系逆時(shí)針旋轉(zhuǎn)α角,使新坐標(biāo)系的原點(diǎn)位于ATTACK無人機(jī)處,并且x軸方向與ATTACK無人機(jī)的偏航角重合。在新坐標(biāo)系下,得出RL無人機(jī)的位置滿足以下關(guān)系:

    (4)

    (5)

    β′=β-α

    (6)

    新坐標(biāo)系下無人機(jī)的相對(duì)位置信息為:

    D′=(0,0,0,(x2-x1)cosα+(y2-y1)sinα,

    (x2-x1)sinα-(y2-y1)cosα,β-α)

    (7)

    值得注意的是,這個(gè)新坐標(biāo)系是隨著ATTACK無人機(jī)的位置和偏航角實(shí)時(shí)變化的,由于ATTACK無人機(jī)也在做機(jī)動(dòng),所以每一時(shí)間步的原點(diǎn)和坐標(biāo)的橫縱軸方向,在真實(shí)物理空間上是不一樣的,引入這個(gè)坐標(biāo)系只是為了描述它們的相對(duì)位置。相對(duì)位置信息的6維向量有3維始終為0,因此通過相對(duì)坐標(biāo)系可以進(jìn)一步將無人機(jī)的飛行狀態(tài)空間壓縮一倍。構(gòu)造新的觀測(cè)狀態(tài)為:

    s=((x2-x1)cosα+(y2-y1)sinα,

    (x2-x1)sinα-(y2-y1)cosα,β-α,Nz)

    (8)

    2.2 無人機(jī)飛行動(dòng)作空間與終止獎(jiǎng)勵(lì)函數(shù)

    在每個(gè)時(shí)間步的開始,無人機(jī)從其動(dòng)作空間允許的速度和轉(zhuǎn)向過載向環(huán)境提供一個(gè)動(dòng)作,給定的動(dòng)作會(huì)立即更新當(dāng)前的速度和偏航角,在剩余的時(shí)間步長(zhǎng)中保持不變。其中ATTACK無人機(jī)采用純追蹤法的策略,保持一個(gè)恒定的速度,可以選擇從一個(gè)連續(xù)范圍的轉(zhuǎn)彎角度,使用純追蹤法可以讓ATTACK無人機(jī)穩(wěn)步拉近與對(duì)手的距離并接近對(duì)手使其置于火力打擊范圍。RL無人機(jī)使用強(qiáng)化學(xué)習(xí)算法,它的動(dòng)作空間包含速度和轉(zhuǎn)向過載值,定義為:

    A={v,Na}

    (9)

    兩種無人機(jī)機(jī)動(dòng)能力數(shù)據(jù)見表1。

    表1 機(jī)動(dòng)能力數(shù)據(jù)

    定義反追擊成功時(shí)的回報(bào),即:

    (10)

    3 基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)反追擊算法

    值函數(shù)過估計(jì)的問題既在DQN中存在,也存在于“行動(dòng)者-評(píng)論家”網(wǎng)絡(luò)。在DQN中采用的雙重深度Q學(xué)習(xí)[17](double deep Q-learning network,DDQN)方法可以一定程度上降低過估計(jì)的誤差,但在“行動(dòng)者—評(píng)論家”網(wǎng)絡(luò)中使用類似DDQN的方法是無效的,因此本文采用雙延遲深度確定性策略梯度算法TD3來解決值函數(shù)過估計(jì)的問題;為了提高訓(xùn)練前期的效率和訓(xùn)練后期的穩(wěn)定收斂,將經(jīng)驗(yàn)回放區(qū)進(jìn)行重構(gòu)并改進(jìn)傳統(tǒng)的隨機(jī)抽樣策略。

    3.1 無人機(jī)反追擊算法框架

    經(jīng)驗(yàn)回放區(qū)重構(gòu)將成功經(jīng)驗(yàn)和失敗經(jīng)驗(yàn)分為兩個(gè)經(jīng)驗(yàn)回放區(qū)。如果RL無人機(jī)反追擊任務(wù)滿足式(10)中r(s,a)=1,則被認(rèn)為是暫時(shí)的成功經(jīng)驗(yàn)儲(chǔ)存在成功經(jīng)驗(yàn)回放區(qū)中,記為Rs;相反,滿足r(s,a)=0,則將失敗經(jīng)驗(yàn)儲(chǔ)存在失敗經(jīng)驗(yàn)回放區(qū)中,記為Rf。由于RL的獎(jiǎng)勵(lì)過程中存在著時(shí)間延遲,所以存儲(chǔ)在Rs中的一些即將達(dá)到失敗前的經(jīng)驗(yàn)也與失敗有關(guān)。因此,可以把這些經(jīng)驗(yàn)從Rs以ηf的比例提取出來。具體來說,對(duì)每一個(gè)時(shí)間步,如果是成功經(jīng)驗(yàn),將被直接儲(chǔ)存在Rs中;如果是失敗經(jīng)驗(yàn),將存放至Rf,同時(shí)以ηf的比例從Rs中提取出上述的失敗經(jīng)驗(yàn)。

    改進(jìn)傳統(tǒng)的隨機(jī)采樣策略:更新時(shí),行動(dòng)者和評(píng)論家同時(shí)從Rs以ξs比例以及從Rf抽取(1-ξs)的樣本來進(jìn)行優(yōu)化。其中,考慮訓(xùn)練前期的效率和訓(xùn)練后期局部最優(yōu)的制衡,ξs應(yīng)隨著訓(xùn)練總迭代次數(shù)M衰減:

    (11)

    經(jīng)驗(yàn)回放區(qū)重構(gòu)的TD3方法見圖2。

    圖2 經(jīng)驗(yàn)回放區(qū)重構(gòu)的TD3方法框架圖

    傳統(tǒng)TD3使用經(jīng)驗(yàn)回放區(qū)解決訓(xùn)練數(shù)據(jù)間的相關(guān)性,在環(huán)境中探索得到的樣本數(shù)據(jù),以狀態(tài)轉(zhuǎn)換序列為單元存放于回放區(qū)中,當(dāng)記憶庫滿時(shí),則刪掉舊的樣本數(shù)據(jù),保證回放庫中的容量不變。每次更新時(shí),行動(dòng)者和評(píng)論家都會(huì)從中隨機(jī)的抽取一部分樣本進(jìn)行優(yōu)化,來減少一些不穩(wěn)定性。但是,隨機(jī)采樣會(huì)導(dǎo)致訓(xùn)練效率低,收斂性能差。本文提出的經(jīng)驗(yàn)回放區(qū)重構(gòu)可以一定程度上解決這一問題。

    從重構(gòu)經(jīng)驗(yàn)回放區(qū)采樣得到一個(gè)小批量的訓(xùn)練數(shù)據(jù),TD3通過梯度上升/下降算法更新當(dāng)前網(wǎng)絡(luò)的參數(shù)。然后再通過優(yōu)化的滑動(dòng)平均方法更新目標(biāo)網(wǎng)絡(luò)的參數(shù),使得目標(biāo)網(wǎng)絡(luò)參數(shù)緩慢變化,以此提高學(xué)習(xí)的穩(wěn)定性。

    3.2 基于改進(jìn)TD3的無人機(jī)反追擊決策算法

    TD3采用行動(dòng)者-評(píng)論家框架,包含6個(gè)神經(jīng)網(wǎng)絡(luò),見表2。

    表2 TD3中的神經(jīng)網(wǎng)絡(luò)

    擬合策略函數(shù)的策略網(wǎng)絡(luò)πφ,參數(shù)為φ,輸入為當(dāng)前狀態(tài)st,輸出無人機(jī)的動(dòng)作:

    at=πφ(st|φ)

    (12)

    策略網(wǎng)絡(luò)圖見圖3,網(wǎng)絡(luò)參數(shù)見表3。

    圖3 策略網(wǎng)絡(luò)

    表3 策略網(wǎng)絡(luò)的參數(shù)

    網(wǎng)絡(luò)參數(shù)通過確定性策略網(wǎng)絡(luò)梯度定理更新:

    (13)

    目標(biāo)策略網(wǎng)絡(luò)πφ′的參數(shù)為φ′,輸入為下一狀態(tài),輸出下一狀態(tài)的動(dòng)作:

    at+1=πφ′(st+1|φ′)

    (14)

    擬合狀態(tài)動(dòng)作值函數(shù)的Q1網(wǎng)絡(luò)Qθ1和Q2網(wǎng)絡(luò)Qθ2,參數(shù)分別為θ1和θ2,輸入為當(dāng)前狀態(tài)st和實(shí)際執(zhí)行的動(dòng)作at,輸出為狀態(tài)動(dòng)作值即Q1值和Q2值:

    Qi=Qθi(st,at|θi)

    (15)

    Q1網(wǎng)絡(luò)還輸出狀態(tài)動(dòng)作值函數(shù)對(duì)動(dòng)作的梯度?aQθ1(st,at|θ1)用于式(13)的參數(shù)更新。

    狀態(tài)動(dòng)作值網(wǎng)絡(luò)見圖4,網(wǎng)絡(luò)參數(shù)見表4。

    圖4 狀態(tài)動(dòng)作值網(wǎng)絡(luò)

    表4 狀態(tài)動(dòng)作值網(wǎng)絡(luò)的參數(shù)

    (16)

    TD3在兩個(gè)目標(biāo)Q網(wǎng)絡(luò)中選擇較小的Q值,防止DDPG中評(píng)論家網(wǎng)絡(luò)對(duì)動(dòng)作Q值過估計(jì)的問題:

    Q′=min{Q1′,Q2′}

    (17)

    對(duì)于Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò),定義損失函數(shù):

    (18)

    通過損失函數(shù)的反向傳播算法更新得到Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù)。其中y表示時(shí)序差分(temporal-difference,TD)目標(biāo)值:

    (19)

    (20)

    Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的TD誤差分別為:

    TDerrori=y-Qθi(st,at|θi)

    (21)

    對(duì)評(píng)論家更新2次后,行動(dòng)家再進(jìn)行更新,策略網(wǎng)絡(luò)πφ、Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù)通過滑動(dòng)平均分別得到目標(biāo)策略πφ′網(wǎng)絡(luò)和目標(biāo)Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)的參數(shù):

    (22)

    無人機(jī)反追擊決策算法訓(xùn)練流程如下:

    初始化經(jīng)驗(yàn)回放庫Rf、Rs、策略網(wǎng)絡(luò)πφ、Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò),并將它們的參數(shù)復(fù)制給目標(biāo)策略網(wǎng)絡(luò)πφ'和目標(biāo)Q1網(wǎng)絡(luò)和目標(biāo)Q2網(wǎng)絡(luò)。For episode = 1,2,…,M: a←πθμ(s)+ε,其中ε~N(0,σ),給行為添加噪聲; 獲取無人機(jī)飛行仿真環(huán)境的初始狀態(tài)。 For t = 1,2,…,T: 根據(jù)當(dāng)前策略和探索噪聲,獲得行為a; 執(zhí)行行為a,獲得回報(bào)r(s,a)和下一個(gè)狀態(tài)s';

    狀態(tài)轉(zhuǎn)換序列存儲(chǔ)于回放記憶庫Rf、Rs中; Rf、Rs中分別以ξs和(1-ξs)的比例抽取N個(gè)狀態(tài)轉(zhuǎn)換序列,作為策略網(wǎng)絡(luò)和Qi網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù); 根據(jù)式(20)計(jì)算 a; 根據(jù)式(19)計(jì)算時(shí)序差分值y; 根據(jù)式(18)更新Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)參數(shù); IFt mod 2: 根據(jù)式(13)計(jì)算樣本策略梯度,更新策略網(wǎng)絡(luò); 根據(jù)式(22)更新目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)Q1網(wǎng)絡(luò)和Q2網(wǎng)絡(luò)。 End if End forEnd for輸出最優(yōu)策略網(wǎng)絡(luò)參數(shù)以及最優(yōu)策略。

    4 仿真驗(yàn)證與分析

    設(shè)置訓(xùn)練集為M=10 000,隨機(jī)初始化兩架無人機(jī)初始位置與姿態(tài)信息。其中ATTACK無人機(jī)的初始位置在原點(diǎn),偏航角在[0,2π]內(nèi)均勻分布;RL無人機(jī)的初始位置是以原點(diǎn)為中心的橫縱坐標(biāo)x、y變量呈正態(tài)分布的隨機(jī)分布,其中x、y方向標(biāo)準(zhǔn)差均為0.5 km。這樣的隨機(jī)初始化可以做到讓RL無人機(jī)在一個(gè)時(shí)間步長(zhǎng)后擺脫追擊并進(jìn)行反制,實(shí)際上加快了收斂速度。超參數(shù)設(shè)置見表5。

    表5 超參數(shù)

    分別使用面向連續(xù)動(dòng)作空間的確定性策略方法TD3算法和DDPG算法進(jìn)行訓(xùn)練,每100次訓(xùn)練記錄當(dāng)前100次訓(xùn)練的勝率。訓(xùn)練效果見圖5。

    圖5 訓(xùn)練效果對(duì)比圖

    可以看出,與基準(zhǔn)DDPG算法相比,本文方法的勝率約高出10%左右。改進(jìn)后的TD3算法雖然在訓(xùn)練的后期與傳統(tǒng)的TD3算法能達(dá)到的勝率相差不大,但是由于經(jīng)驗(yàn)回放區(qū)的重構(gòu),新的采樣策略代替原始的隨機(jī)采樣策略,使得在訓(xùn)練伊始可以更多學(xué)習(xí)到任務(wù)成功經(jīng)驗(yàn)序列,使改進(jìn)后的TD3算法在訓(xùn)練前期的收斂速度較快,波動(dòng)也較弱。

    算法訓(xùn)練完成后,對(duì)訓(xùn)練集進(jìn)行大量仿真測(cè)試,在訓(xùn)練集中進(jìn)行4 000次對(duì)抗,每次包括100個(gè)時(shí)間步長(zhǎng),該時(shí)間步之內(nèi)未能分出勝負(fù)則為平局。仿真表明,RL無人機(jī)成功實(shí)施反追擊的次數(shù)為3 761次,成功率為94.025%,達(dá)到了預(yù)定目的。與TD3算法和DDPG算法的對(duì)比見表6。

    表6 測(cè)試效果對(duì)比表

    可以看到,改進(jìn)后的TD3算法勝率略高于TD3算法,明顯高于DDPG算法,但是由于整個(gè)算法當(dāng)中比DDPG多了兩個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù),所以從決策時(shí)間來看,決策時(shí)間均略長(zhǎng)于DDPG 算法。

    在測(cè)試集中,RL無人機(jī)使用本文訓(xùn)練好的策略進(jìn)行反追擊的勝率也很難低于93%。圖6~10展示了測(cè)試集中具有代表性的雙機(jī)軌跡,從中可以觀察到典型的RL反追擊策略。圖6~9顯示了RL無人機(jī)為了獲勝所采用的最常見的策略,圖10展示了RL平局時(shí)的大部分場(chǎng)景。

    圖6 軌跡1

    圖7 軌跡2

    圖8 軌跡3

    圖9 軌跡4

    圖10 軌跡5

    如圖6所示,RL無人機(jī)通過在被追擊的早期改變速度同時(shí)調(diào)整轉(zhuǎn)向過載值來做出長(zhǎng)期決策:一開始加速是防止在前期就被擊中,隨后進(jìn)行減速和轉(zhuǎn)彎?rùn)C(jī)動(dòng),誘騙對(duì)手也進(jìn)行轉(zhuǎn)彎大機(jī)動(dòng),從而拉開與對(duì)手的距離,再之后采用的策略類似于圖7。

    如圖7所示,RL無人機(jī)在ATTACK無人機(jī)前面先進(jìn)行轉(zhuǎn)彎?rùn)C(jī)動(dòng),隨即降低速度,由于ATTACK無人機(jī)按照純追蹤法以不小于RL無人機(jī)的恒定速度向其方向移動(dòng),最終,ATTACK無人機(jī)最終被鎖定在RL無人機(jī)的前方的火力打擊區(qū)域內(nèi)。

    如圖8所示,RL無人機(jī)通過調(diào)整速度和轉(zhuǎn)向過載圍繞ATTACK無人機(jī)軌跡兩側(cè)蜿蜒的方式進(jìn)行機(jī)動(dòng),逐漸縮小與對(duì)手的距離,最后同樣采用類似圖7的策略,使ATTACK無人機(jī)飛行至自己的前方,被鎖定在自己的火力打擊范圍內(nèi)。

    如圖9所示,RL無人機(jī)還可以學(xué)習(xí)到的策略是機(jī)會(huì)性的,不需要做過多的機(jī)動(dòng)即可以在較短的時(shí)間步長(zhǎng)內(nèi)取得對(duì)抗的勝利而非依靠上述提及的策略。根據(jù)一些合適的初始條件,RL無人機(jī)基本不調(diào)整轉(zhuǎn)向過載地徑直飛行,只是在前期需要采用類似于圖6的策略調(diào)整速度防止前期被攻擊。

    如圖10所示,還可以學(xué)到一種在規(guī)定時(shí)間步長(zhǎng)內(nèi)平局的策略,即RL無人機(jī)誘導(dǎo)ATTACK無人機(jī)一起做圓周運(yùn)動(dòng),以此讓ATTACK無人機(jī)的扇形火力區(qū)域無法攻擊自己。

    5 結(jié)論

    本文針對(duì)無人機(jī)近距空戰(zhàn)的自主機(jī)動(dòng)反追擊問題,提出經(jīng)驗(yàn)回放區(qū)重構(gòu)TD3算法。該方法將經(jīng)驗(yàn)回放區(qū)重構(gòu)為成功、失敗兩個(gè)經(jīng)驗(yàn)回放區(qū),取代傳統(tǒng)的隨機(jī)采樣使用基于成功、失敗經(jīng)驗(yàn)區(qū)的采樣策略。仿真結(jié)果表明,RL無人機(jī)學(xué)到的策略在訓(xùn)練集上兼顧了訓(xùn)練前期的學(xué)習(xí)效率與訓(xùn)練后期的穩(wěn)定收斂,在測(cè)試集上展示了較好的性能。

    本文研究基于無人機(jī)的狀態(tài)全局可觀測(cè)這一假設(shè)條件,而真實(shí)空戰(zhàn)環(huán)境下,受我機(jī)感知范圍限制,敵機(jī)位置等態(tài)勢(shì)信息并不能時(shí)刻被精確獲取。針對(duì)不完全信息博弈條件進(jìn)行空戰(zhàn)決策研究,更具挑戰(zhàn)性和實(shí)用性,將是本文下一步研究的重點(diǎn)。

    猜你喜歡
    步長(zhǎng)重構(gòu)經(jīng)驗(yàn)
    長(zhǎng)城敘事的重構(gòu)
    攝影世界(2022年1期)2022-01-21 10:50:14
    基于Armijo搜索步長(zhǎng)的BFGS與DFP擬牛頓法的比較研究
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2021年20期)2021-11-04 09:39:46
    經(jīng)驗(yàn)
    北方大陸 重構(gòu)未來
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2018年20期)2018-11-09 08:52:36
    北京的重構(gòu)與再造
    商周刊(2017年6期)2017-08-22 03:42:36
    論中止行為及其對(duì)中止犯的重構(gòu)
    當(dāng)你遇見了“零經(jīng)驗(yàn)”的他
    都市麗人(2015年4期)2015-03-20 13:33:22
    基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥搜索算法
    国产淫片久久久久久久久| 成年版毛片免费区| 日韩国内少妇激情av| 夜夜看夜夜爽夜夜摸| 色噜噜av男人的天堂激情| 噜噜噜噜噜久久久久久91| 99riav亚洲国产免费| 欧美另类亚洲清纯唯美| 久久久久久久久中文| 国产一区二区三区视频了| 97人妻精品一区二区三区麻豆| 变态另类丝袜制服| 一进一出抽搐动态| 中文字幕久久专区| ponron亚洲| 他把我摸到了高潮在线观看| 俺也久久电影网| 亚洲精品乱码久久久v下载方式| 日日摸夜夜添夜夜添小说| 欧美三级亚洲精品| 亚洲内射少妇av| 亚洲四区av| 老师上课跳d突然被开到最大视频| 欧美不卡视频在线免费观看| 99久久精品热视频| 禁无遮挡网站| 国产探花在线观看一区二区| 日韩一本色道免费dvd| 天堂√8在线中文| 春色校园在线视频观看| 成熟少妇高潮喷水视频| 国产黄片美女视频| 亚洲美女视频黄频| 丝袜美腿在线中文| 精品久久久久久久久久久久久| 成人国产综合亚洲| 久久精品国产亚洲av香蕉五月| 91在线精品国自产拍蜜月| 美女高潮的动态| 在线观看舔阴道视频| 日韩精品青青久久久久久| 亚洲内射少妇av| 久9热在线精品视频| 国产高清三级在线| 12—13女人毛片做爰片一| 久久久久久久久久黄片| 最近在线观看免费完整版| 国产色爽女视频免费观看| 国产老妇女一区| 久久这里只有精品中国| 一本久久中文字幕| 99精品在免费线老司机午夜| 亚洲专区中文字幕在线| 欧美日韩中文字幕国产精品一区二区三区| 一边摸一边抽搐一进一小说| 免费看av在线观看网站| 老司机深夜福利视频在线观看| 久久久久国产精品人妻aⅴ院| 精品人妻视频免费看| 制服丝袜大香蕉在线| 夜夜夜夜夜久久久久| 国产亚洲精品综合一区在线观看| 久久热精品热| 一个人免费在线观看电影| 亚洲一区高清亚洲精品| 亚洲av五月六月丁香网| 亚洲一级一片aⅴ在线观看| 日韩高清综合在线| 欧美潮喷喷水| 人人妻,人人澡人人爽秒播| 久久久久久大精品| 美女高潮的动态| 老司机深夜福利视频在线观看| 国产 一区精品| 在线观看美女被高潮喷水网站| 99热这里只有是精品在线观看| 在线播放无遮挡| 午夜免费成人在线视频| 亚洲av熟女| 欧美日韩亚洲国产一区二区在线观看| 麻豆成人av在线观看| 黄色女人牲交| 久久久国产成人免费| 大又大粗又爽又黄少妇毛片口| 亚洲成人久久性| 有码 亚洲区| 一进一出抽搐动态| 亚洲国产日韩欧美精品在线观看| 在线观看一区二区三区| 日韩高清综合在线| 午夜视频国产福利| 欧美bdsm另类| 亚洲最大成人手机在线| 人人妻人人看人人澡| 神马国产精品三级电影在线观看| av视频在线观看入口| 日本三级黄在线观看| 色综合色国产| 国产91精品成人一区二区三区| 男人和女人高潮做爰伦理| 精品久久久噜噜| 亚洲av成人精品一区久久| 欧美区成人在线视频| 美女黄网站色视频| 日韩 亚洲 欧美在线| 国产精品野战在线观看| 五月伊人婷婷丁香| 给我免费播放毛片高清在线观看| 国产亚洲精品综合一区在线观看| 搡老岳熟女国产| 欧美成人性av电影在线观看| 十八禁国产超污无遮挡网站| 久久欧美精品欧美久久欧美| 少妇猛男粗大的猛烈进出视频 | 欧美性猛交╳xxx乱大交人| 夜夜夜夜夜久久久久| 欧美激情久久久久久爽电影| 亚洲一级一片aⅴ在线观看| 午夜精品久久久久久毛片777| 国产精品电影一区二区三区| 精品人妻视频免费看| 男女视频在线观看网站免费| 精品国内亚洲2022精品成人| 午夜福利在线在线| 欧美激情在线99| 精品人妻熟女av久视频| 伊人久久精品亚洲午夜| 日韩欧美一区二区三区在线观看| 国产精品一区www在线观看 | 最后的刺客免费高清国语| 亚洲在线自拍视频| 一级a爱片免费观看的视频| 亚洲欧美日韩卡通动漫| 久久久久精品国产欧美久久久| 亚洲专区国产一区二区| 国产精品三级大全| 99久国产av精品| 国产精品1区2区在线观看.| 精品乱码久久久久久99久播| xxxwww97欧美| 99视频精品全部免费 在线| 亚洲熟妇中文字幕五十中出| 免费看日本二区| 色综合色国产| 精品久久国产蜜桃| 特大巨黑吊av在线直播| 麻豆久久精品国产亚洲av| 噜噜噜噜噜久久久久久91| 色av中文字幕| 全区人妻精品视频| 国产精品女同一区二区软件 | 美女黄网站色视频| 97超级碰碰碰精品色视频在线观看| 日韩,欧美,国产一区二区三区 | 日日夜夜操网爽| 人人妻,人人澡人人爽秒播| 成人午夜高清在线视频| 又爽又黄a免费视频| 免费在线观看影片大全网站| av视频在线观看入口| 一本精品99久久精品77| 亚洲精品一区av在线观看| 欧美在线一区亚洲| 国产av麻豆久久久久久久| 村上凉子中文字幕在线| 男插女下体视频免费在线播放| 免费一级毛片在线播放高清视频| eeuss影院久久| 日韩高清综合在线| 伦精品一区二区三区| 婷婷六月久久综合丁香| bbb黄色大片| 日韩国内少妇激情av| 色吧在线观看| 啦啦啦啦在线视频资源| 全区人妻精品视频| 一区二区三区四区激情视频 | 欧美成人免费av一区二区三区| 小说图片视频综合网站| 亚洲性夜色夜夜综合| 内地一区二区视频在线| 欧美日韩黄片免| 色综合站精品国产| 又爽又黄a免费视频| 亚洲专区中文字幕在线| 91久久精品国产一区二区成人| 国产 一区 欧美 日韩| 中文字幕av成人在线电影| 日日干狠狠操夜夜爽| 亚洲在线自拍视频| 深夜a级毛片| www.www免费av| 小蜜桃在线观看免费完整版高清| 亚洲av.av天堂| 简卡轻食公司| 国产老妇女一区| 狂野欧美激情性xxxx在线观看| 亚洲男人的天堂狠狠| 色哟哟哟哟哟哟| 精品免费久久久久久久清纯| 精品一区二区三区av网在线观看| 精品国产三级普通话版| aaaaa片日本免费| 一个人看的www免费观看视频| 有码 亚洲区| 精品日产1卡2卡| 国产午夜福利久久久久久| 超碰av人人做人人爽久久| 观看免费一级毛片| 黄片wwwwww| 99久久无色码亚洲精品果冻| 老师上课跳d突然被开到最大视频| 免费一级毛片在线播放高清视频| 欧美3d第一页| 成人一区二区视频在线观看| 国产免费一级a男人的天堂| 亚洲精品色激情综合| 国产中年淑女户外野战色| 婷婷亚洲欧美| av在线天堂中文字幕| 国产在视频线在精品| 99国产极品粉嫩在线观看| 一区二区三区免费毛片| 久久久久免费精品人妻一区二区| 久久精品影院6| 精品午夜福利视频在线观看一区| 亚洲精品亚洲一区二区| 午夜精品在线福利| 人妻制服诱惑在线中文字幕| 我要看日韩黄色一级片| 午夜精品一区二区三区免费看| 婷婷色综合大香蕉| 亚洲人成伊人成综合网2020| 91久久精品电影网| 色播亚洲综合网| 国产精品野战在线观看| 亚洲18禁久久av| 国产v大片淫在线免费观看| 日韩欧美 国产精品| 男女视频在线观看网站免费| 伊人久久精品亚洲午夜| 舔av片在线| 国产aⅴ精品一区二区三区波| 国产av在哪里看| a在线观看视频网站| 日日摸夜夜添夜夜添av毛片 | 高清在线国产一区| 国产不卡一卡二| 狂野欧美白嫩少妇大欣赏| 国产老妇女一区| 观看美女的网站| 精品久久久久久久久久免费视频| 国产伦精品一区二区三区视频9| 韩国av在线不卡| 成人特级黄色片久久久久久久| 日韩欧美免费精品| 国产精品不卡视频一区二区| 国产精品三级大全| 成人综合一区亚洲| 免费不卡的大黄色大毛片视频在线观看 | 狂野欧美白嫩少妇大欣赏| 在线观看免费视频日本深夜| 色播亚洲综合网| 国产亚洲精品av在线| 美女高潮喷水抽搐中文字幕| 久久精品国产亚洲av天美| 亚洲真实伦在线观看| 给我免费播放毛片高清在线观看| 欧美区成人在线视频| 国产黄色小视频在线观看| 窝窝影院91人妻| 99热网站在线观看| 欧美国产日韩亚洲一区| 国产一区二区在线观看日韩| 国产单亲对白刺激| 国产成年人精品一区二区| 国产日本99.免费观看| 网址你懂的国产日韩在线| 日日撸夜夜添| 99riav亚洲国产免费| 国产激情偷乱视频一区二区| www.色视频.com| 啦啦啦啦在线视频资源| 日本五十路高清| 国产精品嫩草影院av在线观看 | 99九九线精品视频在线观看视频| 99精品在免费线老司机午夜| 长腿黑丝高跟| 午夜精品一区二区三区免费看| 久久婷婷人人爽人人干人人爱| 美女高潮的动态| 国产乱人视频| 别揉我奶头~嗯~啊~动态视频| 99视频精品全部免费 在线| 成人午夜高清在线视频| 成人高潮视频无遮挡免费网站| 丰满乱子伦码专区| 国产精品野战在线观看| 亚洲精品粉嫩美女一区| 中文字幕久久专区| 欧美精品国产亚洲| 国产在线精品亚洲第一网站| 97超视频在线观看视频| 乱码一卡2卡4卡精品| 午夜福利欧美成人| 婷婷丁香在线五月| 美女大奶头视频| x7x7x7水蜜桃| 亚洲av中文av极速乱 | 亚洲自拍偷在线| 欧美xxxx性猛交bbbb| 999久久久精品免费观看国产| 色精品久久人妻99蜜桃| 亚洲av五月六月丁香网| 99久久无色码亚洲精品果冻| 国产乱人伦免费视频| 观看美女的网站| 国产亚洲精品综合一区在线观看| or卡值多少钱| 欧美高清成人免费视频www| 精品久久久久久久久av| 成人一区二区视频在线观看| 麻豆国产97在线/欧美| 亚洲天堂国产精品一区在线| 久久这里只有精品中国| 国内久久婷婷六月综合欲色啪| 美女免费视频网站| 久久草成人影院| 国产三级在线视频| 欧美丝袜亚洲另类 | 国产精品久久久久久久久免| 成人三级黄色视频| 国产精品伦人一区二区| 亚洲欧美日韩无卡精品| 久久久国产成人精品二区| 精品人妻1区二区| 国产精品美女特级片免费视频播放器| 91久久精品电影网| 亚洲人与动物交配视频| 男人舔奶头视频| 人妻少妇偷人精品九色| 又粗又爽又猛毛片免费看| 亚洲av免费高清在线观看| 国产精品亚洲一级av第二区| 久久久久九九精品影院| 全区人妻精品视频| 久久午夜亚洲精品久久| 1000部很黄的大片| 简卡轻食公司| 日韩欧美国产一区二区入口| 国产视频内射| 精品久久久久久,| 亚洲一区高清亚洲精品| 日本色播在线视频| 女的被弄到高潮叫床怎么办 | 最近最新中文字幕大全电影3| 精品国产三级普通话版| 久久久久精品国产欧美久久久| 久久精品国产亚洲av香蕉五月| 内地一区二区视频在线| 一进一出好大好爽视频| 黄色丝袜av网址大全| 久久99热这里只有精品18| 日韩欧美在线二视频| 久久精品久久久久久噜噜老黄 | 久久精品影院6| 久久久精品大字幕| 久久精品影院6| 免费观看精品视频网站| 欧美日韩中文字幕国产精品一区二区三区| 亚洲精华国产精华液的使用体验 | 亚州av有码| 免费av观看视频| 国产亚洲91精品色在线| 日韩欧美 国产精品| 国产精品一区二区三区四区免费观看 | 久久人人精品亚洲av| 黄片wwwwww| 99久久中文字幕三级久久日本| 国产av不卡久久| 嫩草影院精品99| 欧美激情在线99| 国产久久久一区二区三区| 男女啪啪激烈高潮av片| 久久天躁狠狠躁夜夜2o2o| 色综合婷婷激情| 成人国产麻豆网| 国产av在哪里看| 少妇的逼好多水| 欧美中文日本在线观看视频| av福利片在线观看| 国产一区二区亚洲精品在线观看| 色尼玛亚洲综合影院| av天堂在线播放| 嫁个100分男人电影在线观看| 老司机深夜福利视频在线观看| 五月玫瑰六月丁香| 免费看av在线观看网站| 亚洲一区二区三区色噜噜| 亚洲aⅴ乱码一区二区在线播放| 国产精品野战在线观看| 久久久成人免费电影| 99热6这里只有精品| 看十八女毛片水多多多| 久久久久久久午夜电影| 亚洲美女搞黄在线观看 | 日韩欧美在线乱码| 精品人妻偷拍中文字幕| 丰满乱子伦码专区| 久久精品国产亚洲网站| 中国美白少妇内射xxxbb| 成人三级黄色视频| 禁无遮挡网站| 国产高清三级在线| 国产精品国产高清国产av| 亚洲精品亚洲一区二区| 国产私拍福利视频在线观看| 少妇裸体淫交视频免费看高清| 国内精品宾馆在线| 欧美极品一区二区三区四区| 欧美潮喷喷水| 免费无遮挡裸体视频| 久久欧美精品欧美久久欧美| 高清日韩中文字幕在线| 偷拍熟女少妇极品色| 日本一二三区视频观看| 老司机午夜福利在线观看视频| 联通29元200g的流量卡| 亚洲精品一卡2卡三卡4卡5卡| 国产精品久久久久久亚洲av鲁大| 他把我摸到了高潮在线观看| 观看美女的网站| 成人性生交大片免费视频hd| 99久久成人亚洲精品观看| 国产成人一区二区在线| 日韩欧美 国产精品| 日日撸夜夜添| 日本a在线网址| 精品无人区乱码1区二区| 久久久精品大字幕| 小说图片视频综合网站| 亚洲精品日韩av片在线观看| 国产一区二区激情短视频| 男人的好看免费观看在线视频| 精品午夜福利视频在线观看一区| 麻豆一二三区av精品| 永久网站在线| 色综合亚洲欧美另类图片| 校园人妻丝袜中文字幕| 亚洲人成伊人成综合网2020| 国产成人aa在线观看| 黄色丝袜av网址大全| 日本熟妇午夜| 村上凉子中文字幕在线| 亚洲精品粉嫩美女一区| 性色avwww在线观看| 欧美高清性xxxxhd video| 国产伦一二天堂av在线观看| 在线观看av片永久免费下载| 深夜精品福利| 亚洲va在线va天堂va国产| 蜜桃久久精品国产亚洲av| 久久精品国产亚洲av涩爱 | 亚洲狠狠婷婷综合久久图片| 99精品久久久久人妻精品| 老女人水多毛片| 国产精品1区2区在线观看.| 少妇丰满av| 69av精品久久久久久| 成人亚洲精品av一区二区| 国产探花极品一区二区| 日本五十路高清| 九九热线精品视视频播放| 成人性生交大片免费视频hd| 成人一区二区视频在线观看| 午夜福利在线观看免费完整高清在 | 人人妻,人人澡人人爽秒播| 久久久久久国产a免费观看| 别揉我奶头~嗯~啊~动态视频| 欧美一级a爱片免费观看看| 成年女人看的毛片在线观看| 久久中文看片网| 春色校园在线视频观看| 久久国产精品人妻蜜桃| 在线天堂最新版资源| 美女黄网站色视频| 成年人黄色毛片网站| 精品久久久久久久久久免费视频| 欧美三级亚洲精品| 国产精品人妻久久久影院| 成年人黄色毛片网站| 联通29元200g的流量卡| 精品人妻偷拍中文字幕| 狂野欧美激情性xxxx在线观看| 韩国av在线不卡| 91狼人影院| 少妇人妻一区二区三区视频| 国产美女午夜福利| av福利片在线观看| АⅤ资源中文在线天堂| 人妻少妇偷人精品九色| 久久久久久久久中文| 亚洲真实伦在线观看| 少妇裸体淫交视频免费看高清| 国产精品伦人一区二区| 精品福利观看| 97超视频在线观看视频| 最近在线观看免费完整版| 亚洲人成网站高清观看| 久久久久久九九精品二区国产| 久久中文看片网| 一个人免费在线观看电影| 欧美中文日本在线观看视频| 亚洲人成网站高清观看| 国产午夜福利久久久久久| 国国产精品蜜臀av免费| 桃色一区二区三区在线观看| 日韩国内少妇激情av| 丰满的人妻完整版| 国产淫片久久久久久久久| 成人精品一区二区免费| 国产精品福利在线免费观看| 欧美zozozo另类| 高清在线国产一区| 亚洲成人久久性| 欧美性感艳星| 欧洲精品卡2卡3卡4卡5卡区| 在线天堂最新版资源| 成年女人永久免费观看视频| 欧美3d第一页| 国产视频一区二区在线看| 精品久久国产蜜桃| 国产精品久久久久久久久免| 九九在线视频观看精品| 琪琪午夜伦伦电影理论片6080| 欧美3d第一页| 熟女电影av网| 噜噜噜噜噜久久久久久91| 国产亚洲精品av在线| 噜噜噜噜噜久久久久久91| 国产aⅴ精品一区二区三区波| 国产91精品成人一区二区三区| 国产精品一区二区免费欧美| 国产一区二区在线av高清观看| 男女那种视频在线观看| 在线观看一区二区三区| 99热这里只有是精品在线观看| 亚洲精品一区av在线观看| 干丝袜人妻中文字幕| av在线观看视频网站免费| 国产日本99.免费观看| 人妻夜夜爽99麻豆av| a在线观看视频网站| 一个人看的www免费观看视频| 免费看美女性在线毛片视频| 亚洲性久久影院| 欧美日韩乱码在线| 精品久久久噜噜| 3wmmmm亚洲av在线观看| av女优亚洲男人天堂| 黄色一级大片看看| 永久网站在线| 国产一区二区激情短视频| 亚洲美女搞黄在线观看 | 韩国av一区二区三区四区| 高清日韩中文字幕在线| 亚洲一区高清亚洲精品| 国产一区二区三区视频了| av在线天堂中文字幕| 国产高清三级在线| 亚洲成人中文字幕在线播放| 久久久色成人| 国产精品国产高清国产av| 久久久久久久午夜电影| 级片在线观看| 日韩欧美三级三区| 美女被艹到高潮喷水动态| or卡值多少钱| 色综合婷婷激情| or卡值多少钱| 欧美日本视频| 听说在线观看完整版免费高清| 国产伦精品一区二区三区四那| 亚洲18禁久久av| 又黄又爽又刺激的免费视频.| 国产精品久久久久久精品电影| 国内久久婷婷六月综合欲色啪| 午夜a级毛片| 99热这里只有精品一区| 国产精品久久久久久亚洲av鲁大| 一本一本综合久久| 在线观看66精品国产| 日本a在线网址| 18+在线观看网站| 国产高清视频在线观看网站| 欧洲精品卡2卡3卡4卡5卡区| 国产精品无大码| 热99re8久久精品国产| 国产精品一区二区性色av| 色精品久久人妻99蜜桃| 成人高潮视频无遮挡免费网站| 亚洲无线在线观看| 日韩大尺度精品在线看网址| 一进一出好大好爽视频| 婷婷丁香在线五月| 国产男靠女视频免费网站| 成人av在线播放网站| 日韩中文字幕欧美一区二区| 男女视频在线观看网站免费| 欧美+日韩+精品| 极品教师在线免费播放| 赤兔流量卡办理| 少妇的逼好多水| 成人美女网站在线观看视频| 久久久久久伊人网av|