• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于信任域策略優(yōu)化的末制導(dǎo)控制量學(xué)習(xí)算法

    2023-01-03 10:35:32劉士榮王天一
    導(dǎo)航定位與授時 2022年6期
    關(guān)鍵詞:制導(dǎo)梯度導(dǎo)彈

    劉士榮,王天一,劉 揚

    (哈爾濱工業(yè)大學(xué)計算學(xué)部,哈爾濱 150001)

    0 引言

    近年來,隨著深度學(xué)習(xí)的崛起,深度強化學(xué)習(xí)被廣泛研究,涌現(xiàn)出了許多優(yōu)秀的強化學(xué)習(xí)算法,在游戲[1]、機(jī)器人控制任務(wù)中取得了出色的表現(xiàn)[2]。無模型強化學(xué)習(xí)算法在智能體與環(huán)境的不斷交互中采集數(shù)據(jù)學(xué)習(xí)策略,一般有兩種方法:值函數(shù)迭代法和策略梯度法。值函數(shù)迭代法通過學(xué)習(xí)狀態(tài)動作值函數(shù)來隱式學(xué)習(xí)一個確定性的策略,而策略梯度法顯式建模策略分布,通過計算策略梯度不斷學(xué)習(xí)出好的策略分布。值函數(shù)迭代法中,最廣為人知的便是DeepMind公司開發(fā)的深度Q學(xué)習(xí)(Deep Q-Learning,DQN)[3]算法,其將深度學(xué)習(xí)與Q-learning算法相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)圖像這種高維輸入的低維表示,并且可以端對端的訓(xùn)練,是第一個可以在雅達(dá)利游戲中接近人類水平的人工智能體。DQN還有一系列變體,如緩解DQN中值函數(shù)過估計的Double DQN[4],用于連續(xù)動作空間的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[5]、緩解DDPG中值函數(shù)過估計的TD3[6]算法等。幕上的反向更新(Episodic Backward Update,EBU)[7]在整個幕上采樣,并連續(xù)將狀態(tài)的值傳遞到前面的狀態(tài),優(yōu)先經(jīng)驗回放(Prioritized Experience Replay,PER)[8]根據(jù)優(yōu)先級選擇訓(xùn)練樣本,可以顯著提高DQN算法的采樣效率,事后經(jīng)驗回放(Hindsi-ght Experience Replay,HER)[9]算法可以高效解決稀疏獎勵問題。由于策略梯度法可以顯式建模策略分布,更天然地適用于連續(xù)動作問題,通常在機(jī)器人控制等連續(xù)動作問題中被廣泛使用,但需要一些技術(shù)來降低策略梯度的方差。最直接的策略梯度算法為REINFORCE[10],信任域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[11]為了讓策略能夠穩(wěn)定提升,顯式增加了一個約束,限制每次策略更新的最大偏移量,可以提高策略梯度法學(xué)習(xí)過程中的穩(wěn)定性。為了平衡優(yōu)勢函數(shù)的偏差和方差,還使用了廣義優(yōu)勢估計器(General Advantage Estimation,GAE)[12]。進(jìn)化策略(Evolution Strategy, ES)[13]通過突變操作改變原始參數(shù),并檢驗改變后參數(shù)的效果,保留那些結(jié)果較好的進(jìn)化策略類似于神經(jīng)進(jìn)化和直接策略搜索,在搜索過程中沒有使用梯度信息,本質(zhì)上相當(dāng)于在使用獎勵函數(shù)作為啟發(fā)式函數(shù)在參數(shù)空間中直接進(jìn)行搜索。

    在末制導(dǎo)領(lǐng)域中,比例制導(dǎo)律[14]是很常見的方法,在理想條件下有很好的表現(xiàn),但其導(dǎo)航比是一個常數(shù),無法為每個狀態(tài)自適應(yīng)地調(diào)整該比率,很難適應(yīng)復(fù)雜環(huán)境。文獻(xiàn)[15]使用Q-learning學(xué)習(xí)比例系數(shù),文獻(xiàn)[16]使用DDPG算法學(xué)習(xí)制導(dǎo)策略,文獻(xiàn)[17]也使用DDPG算法通過優(yōu)化導(dǎo)航比來學(xué)習(xí)末制導(dǎo)律,學(xué)習(xí)比例制導(dǎo)律中的導(dǎo)航比,算法效果優(yōu)于比例制導(dǎo)律;但其實驗環(huán)境相對簡單,沒有考慮空氣動力學(xué),其作者發(fā)現(xiàn)在考慮空氣動力學(xué)的環(huán)境中會有訓(xùn)練不穩(wěn)定的問題。本文方法關(guān)注末制導(dǎo)策略的在線學(xué)習(xí),在導(dǎo)彈與目標(biāo)在仿真環(huán)境的在線交互過程中,直接學(xué)習(xí)末制導(dǎo)控制量,即不借助已有末制導(dǎo)律,直接為導(dǎo)彈提供加速度,并在考慮空氣動力學(xué)的環(huán)境中進(jìn)行實驗,實驗結(jié)果表明,本文提出的方法在提升訓(xùn)練穩(wěn)定性的同時也學(xué)習(xí)到了高效的策略。

    本文第1章介紹了強化學(xué)習(xí)算法的基本原理,包括強化學(xué)習(xí)算法概述、策略梯度算法及信任域策略優(yōu)化算法的原理與推導(dǎo);第2章介紹了本文的實驗部分,首先給出了強化學(xué)習(xí)末制導(dǎo)問題的模擬環(huán)境,以及如何將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,介紹了馬爾可夫模型中的狀態(tài)空間設(shè)計、動作空間設(shè)計以及獎勵函數(shù)設(shè)計;在實驗部分又找到兩個強化學(xué)習(xí)算法作為基準(zhǔn),分別是EBDQN算法和ES算法,然后將本文提出的獎勵函數(shù)與另外兩種獎勵進(jìn)行對比,同時給出實驗對比結(jié)果;最后,在第3章對本文的工作進(jìn)行了總結(jié)。

    1 強化學(xué)習(xí)算法介紹

    1.1 強化學(xué)習(xí)概述

    序列決策問題通常被形式化為馬爾可夫決策過程(Markov Decision Process,MDP)。MDP定義為一個六元組(S,A,T,r,γ,ρ0),S為狀態(tài)空間,A為動作空間,T:S×A×S→R為狀態(tài)轉(zhuǎn)移概率,r:S×A→R為獎勵函數(shù),γ∈(0,1)為折扣因子,ρ0:S→R為初始狀態(tài)分布。

    強化學(xué)習(xí)考慮智能體在與環(huán)境交互過程中學(xué)習(xí)到能夠最大化獎勵的行為。在每個時刻t,智能體處在狀態(tài)st∈S下,根據(jù)自己的策略π:S×A→[0,1]選擇一個動作at∈A,然后得到獎勵rt,并進(jìn)入下一個狀態(tài)st+1∈S。

    (1)

    其中,at~π(·|st),st+1=T(st,at)。強化學(xué)習(xí)的目標(biāo)是找到一個最優(yōu)策略π*,使得期望回報最大,即π*=argmaxπJ(π)。為了便于學(xué)習(xí)策略,定義狀態(tài)值函數(shù)

    (2)

    以及狀態(tài)動作值函數(shù)

    Q(s,a)=

    (3)

    1.2 策略梯度法

    策略梯度法[10]通過計算目標(biāo)函數(shù)在策略參數(shù)處的梯度,得到策略的更新方向,用π(θ)表示待學(xué)習(xí)的參數(shù)化策略,θ為策略參數(shù),則策略梯度法的目標(biāo)函數(shù)如下

    J(θ)=Et[logπθ(at|st)*A(st,at)]

    (4)

    其中,A(st,at)=Q(st,at)-V(st),為t時刻的優(yōu)勢函數(shù)。策略梯度法的主要問題是估計得到的梯度有很大方差,容易造成策略崩塌,影響訓(xùn)練穩(wěn)定性。

    1.3 信任域策略優(yōu)化算法

    信任域策略優(yōu)化[11]算法在策略梯度法的基礎(chǔ)上加入了一個用來限制策略偏移的約束,以避免策略偏移帶來的梯度偏差所引發(fā)的策略崩塌,使得學(xué)習(xí)過程更加穩(wěn)定。信任域策略優(yōu)化算法的優(yōu)化問題如下

    (5)

    Et[DKL(πθ(at|st)||πθold(at|st))]≤δ

    (6)

    其中,πθold表示采樣策略;θold表示采樣策略的參數(shù);Et表示采樣策略πθold采集到的每個時刻樣本下的期望;DKL表示KL散度;δ是一個超參數(shù),表示策略偏移的最大幅度。

    為了求解該優(yōu)化問題,對目標(biāo)函數(shù)和約束項分別做一階、二階泰勒近似,得到如下近似優(yōu)化問題

    maxθJ(θold,θ)≈gT(θ-θold)

    (7)

    (8)

    其中

    (9)

    (10)

    該近似優(yōu)化問題可求出最優(yōu)解

    (11)

    近似優(yōu)化問題雖然有最優(yōu)解,但不一定是原問題的最優(yōu)解,故信任域策略優(yōu)化在此基礎(chǔ)上還做了線搜索(line search),將近似優(yōu)化問題求得的最優(yōu)解作為最大步長進(jìn)行指數(shù)衰減線搜索,找到可以真正優(yōu)化原始目標(biāo)函數(shù)的步長。令α為指數(shù)衰減速度,j為搜索次數(shù),則得到如下參數(shù)更新公式

    (12)

    信任域策略優(yōu)化算法需要計算KL散度的Hessian陣,是一種二階優(yōu)化算法,需要一些代碼上的優(yōu)化來加速求解,如費雪向量積和共軛梯度法。同時,信任域策略優(yōu)化算法使用了GAE估計優(yōu)勢函數(shù),可以權(quán)衡優(yōu)勢函數(shù)估計器的偏差和方差。此外,二階優(yōu)化算法也意味著信任域策略優(yōu)化更適合低維問題,在高維問題中會面臨Hessian陣估計不準(zhǔn)、計算量大的問題,從而影響算法訓(xùn)練效果和訓(xùn)練速度。末制導(dǎo)問題的狀態(tài)維度和動作維度都比較低,故本文將信任域策略優(yōu)化算法應(yīng)用到末制導(dǎo)控制量的學(xué)習(xí)中,使策略的學(xué)習(xí)變得更加穩(wěn)定,提升習(xí)得策略的表現(xiàn)。信任域策略優(yōu)化算法的偽代碼如表1和表2所示。

    表1 算法整體流程

    表2 信任域策略優(yōu)化算法

    2 使用信任域策略優(yōu)化算法學(xué)習(xí)末制導(dǎo)控制量

    2.1 仿真環(huán)境建模

    為了將強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)問題中,需要對實際制導(dǎo)問題進(jìn)行仿真模擬。導(dǎo)彈作為一種高速飛行的打擊武器,通常應(yīng)用于遠(yuǎn)距離打擊范圍任務(wù)中,在這種情況下,導(dǎo)彈與目標(biāo)本身的尺寸可以被忽略,只關(guān)注二者的相對位置關(guān)系即可,即將導(dǎo)彈與目標(biāo)簡化成為兩個質(zhì)點。

    將制導(dǎo)問題應(yīng)用在真實的三維環(huán)境中,經(jīng)大量的研究顯示,三維空間的仿真建模復(fù)雜且計算量太大。文獻(xiàn)[18]的研究結(jié)果表明,二維空間與三維空間中的運動存在相似性,可以通過降維等手段將三維空間的運動問題分解成兩個相互正交的二維平面中的運動問題。

    本文的導(dǎo)彈-目標(biāo)仿真環(huán)境建模即采用上述的思想,選擇在二維平面內(nèi)對末制導(dǎo)問題進(jìn)行仿真環(huán)境建模,并基于質(zhì)點模型,忽略了導(dǎo)彈和目標(biāo)雙方的機(jī)身尺寸,整個攔截場景處于慣性參考系下,仿真場景如圖1所示。其中,M與T分別表示導(dǎo)彈與目標(biāo)質(zhì)點;θM與θT為導(dǎo)彈和目標(biāo)的彈道傾角;q與r為視線角與彈目相對距離;aM與aT為控制導(dǎo)彈和目標(biāo)轉(zhuǎn)向的法向加速度。整個仿真過程遵循如下運動學(xué)公式

    (13)

    (14)

    (15)

    圖1 仿真場景示意圖Fig.1 Schematic diagram of simulation environment

    此外,在真實環(huán)境下,考慮到傳輸噪聲對彈頭指揮部的制導(dǎo)系統(tǒng)可能會產(chǎn)生的干擾,以及空氣動力學(xué)所產(chǎn)生的各種噪聲(如空氣密度不同帶來的聲速不同進(jìn)而影響到攔截彈飛行的情況),本文在本次仿真環(huán)境中額外加入對于噪聲的考量。首先,由于不同高度下空氣的密度和聲速是不同的,因此在這里首先對給定高度下的空氣密度和聲速進(jìn)行計算,具體方式如下:

    1)位勢高度計算:本次仿真模型均設(shè)定在標(biāo)準(zhǔn)大氣壓下。首先計算在給定目標(biāo)高度下的位勢高度

    (16)

    其中,r0為地球半徑,取6356766m;yM為彈體或者目標(biāo)的縱向高度,單位為m。

    2)實時攝氏溫度計算:此處取常壓下地面溫度15℃,由熱力學(xué)溫度轉(zhuǎn)化公式可知地面熱力學(xué)溫度為288.25K,據(jù)此計算給定高度的攝氏溫度如下

    T=Tb+cT×(Z-Zb)

    (17)

    其中,Tb為熱力學(xué)溫度;cT為一衰減系數(shù),由高度與溫度變化關(guān)聯(lián)公式可知,高度每升高1000m氣溫降低6.5℃,即設(shè)定為-6.5×10-3;Zb為擾動系數(shù),此處取0.0。

    3)空氣壓力計算:已知給定溫度,即可計算定高度下的空氣氣壓,其計算公式如下

    (18)

    其中,Pb為標(biāo)準(zhǔn)大氣壓下的毫米水柱,取值為10332.3mm H2O;g0為重力加速度,取值為9.80665;cP為干燥空氣的摩爾氣體常數(shù),通常取287.05287。

    4)空氣密度計算:在已知空氣壓力的情況下,空氣密度可由式(19)求得

    (19)

    5)聲速計算:聲速計算公式在已知攝氏溫度的情況下可以根據(jù)式(20)求得

    (20)

    單位為m/s。

    在不同的空氣密度和聲速下,模型的氣動參數(shù)也是不停變化的。不同的氣動參數(shù)會影響導(dǎo)彈的一階特性與二階特性,進(jìn)而影響到導(dǎo)彈的實時速度。此處假定導(dǎo)彈速度的初始變化率為-25m/s,結(jié)合導(dǎo)彈的特征面積,給出導(dǎo)彈受空氣密度噪聲影響的速度變化公式如下

    Vdot=

    (21)

    其中,CD、CK、CLafa均為氣動參數(shù);α為攻角指令,由過載指令結(jié)合空氣密度計算而來;ρ為前述空氣密度;VM為導(dǎo)彈的實時速度;Sxsf為導(dǎo)彈的特征面積,一般取0.2;m為導(dǎo)彈質(zhì)量,此處取m=400kg;θm為導(dǎo)彈的彈道傾角。此外,為增加算法的魯棒性,本文對于環(huán)境中也施加了部分隨機(jī)噪聲,具體方法如下:通過對導(dǎo)彈運動的角噪聲進(jìn)行處理,從而對視線轉(zhuǎn)率施加噪聲,進(jìn)而影響視線轉(zhuǎn)率的二階特性,使得訓(xùn)練更具有普遍性,減小因過擬合帶來的誤差。由上述公式,即式(16)~式(21),可以考慮真實戰(zhàn)場下的空空攻防戰(zhàn)空氣噪聲參數(shù),從而實現(xiàn)更加普遍、通用、包容性強的算法模型。

    2.2 MDP建模

    2.2.1 狀態(tài)空間設(shè)計

    在實驗中,將智能體的狀態(tài)定義為一個8維向量,前4維分別表示導(dǎo)彈和目標(biāo)雙方的坐標(biāo)在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量,后4維分別表示導(dǎo)彈和目標(biāo)雙方的速度在X坐標(biāo)軸和Y坐標(biāo)軸方向的分量。

    s=(XM,YM,XT,YT,VM,X,VM,Y,VT,X,VT,Y)

    (22)

    2.2.2 動作空間設(shè)計

    將智能體的動作定義為一個標(biāo)量,表示提供給導(dǎo)彈的加速度,是一個連續(xù)的值。動作的取值范圍通過超參數(shù)A_MAX設(shè)置,在實驗中將其設(shè)置為300。

    at∈(-A_MAX,A_MAX)

    (23)

    2.2.3 獎勵函數(shù)設(shè)計

    獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量

    rt=-1*(zemt-zemt-1)

    (24)

    其中,zemt為t時刻的預(yù)測脫靶量,是導(dǎo)彈和目標(biāo)相對距離的最小值的預(yù)測值,計算公式參考文獻(xiàn)[18-19]。直觀上說,預(yù)測脫靶量是以導(dǎo)彈為參照系,導(dǎo)彈相對靜止,而目標(biāo)在進(jìn)行勻速直線運動,目標(biāo)不斷運動直到與導(dǎo)彈的距離達(dá)到最近,此時的距離稱為預(yù)測脫靶量。可見,與當(dāng)前時刻雙方的相對距離不同,預(yù)測脫靶量的計算考慮了導(dǎo)彈和目標(biāo)的實際運動情況。但預(yù)測脫靶量只考慮了導(dǎo)彈和目標(biāo)當(dāng)前時刻的相對速度,沒有考慮它們在未來時刻的速度變化,是對實際脫靶量的近似估計,而實際脫靶量是不可能精準(zhǔn)預(yù)測的,所以本文采取這種簡單的方法,通過預(yù)測脫靶量來近似估計實際脫靶量,進(jìn)而計算獎勵。

    上述MDP建模盡量少地使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識,只使用位置和速度這些簡單易懂的量作為狀態(tài),動作也是直接為導(dǎo)彈提供的加速度,沒有制導(dǎo)律相關(guān)知識,更能驗證強化學(xué)習(xí)在末制導(dǎo)領(lǐng)域應(yīng)用的潛力。如果使用末制導(dǎo)領(lǐng)域?qū)I(yè)知識來設(shè)計狀態(tài)和獎勵,可能會提升算法的表現(xiàn)和泛化性,但降低了設(shè)計的通用性,所以本文決定采取這種簡單有效的MDP設(shè)計。

    2.3 算法超參數(shù)設(shè)置

    TRPO算法具體超參數(shù)設(shè)置如表3所示,環(huán)境中導(dǎo)彈和目標(biāo)的初始參數(shù)如表4所示。

    表3 TRPO算法超參數(shù)

    表4 導(dǎo)彈和目標(biāo)初始的參數(shù)

    2.4 實驗結(jié)果與分析

    為了驗證本文提出的算法的高效性能,對比了其他兩種強化學(xué)習(xí)制導(dǎo)律算法,分別是基于進(jìn)化策略的ES算法和基于EBDQN的自適應(yīng)導(dǎo)航比末制導(dǎo)律算法[20]。ES算法使用進(jìn)化算法直接優(yōu)化策略,EBDQN算法通過從經(jīng)驗回放池中采樣整個軌跡,并從結(jié)束狀態(tài)從后向前更新值函數(shù),可以提高樣本的使用效率。

    在2.1節(jié)介紹的仿真環(huán)境中,在2.2節(jié)介紹的MDP設(shè)置下,基于表3所示的TRPO算法超參數(shù)與表4所示的導(dǎo)彈和目標(biāo)的初始參數(shù),使用TRPO算法學(xué)習(xí)末制導(dǎo)控制量,測試脫靶量,與直接學(xué)習(xí)末制導(dǎo)控制量的ES算法和學(xué)習(xí)引導(dǎo)率參數(shù)的EBDQN算法相比,其脫靶量累積分布圖如圖2所示。在圖2中,橫軸為脫靶量大小,單位為m,縱軸為累積分布概率,實驗重復(fù)次數(shù)為500次,脫靶量分布結(jié)果如表5所示。可以看出,同是直接學(xué)習(xí)末制導(dǎo)控制量的TRPO和ES算法,TRPO算法的脫靶量比ES算法更低,而且TRPO算法的脫靶量優(yōu)于學(xué)習(xí)引導(dǎo)率導(dǎo)航比參數(shù)的EBDQN算法,說明TRPO學(xué)習(xí)到的控制量比引導(dǎo)率的效果更好,在復(fù)雜場景中直接學(xué)習(xí)控制量的方法有希望超過學(xué)習(xí)引導(dǎo)率的方法。

    圖2 脫靶量累計分布Fig.2 Cumulative distribution of miss distance

    表5 制導(dǎo)律脫靶量分布

    此外,本文將在線強化學(xué)習(xí)算法應(yīng)用于末制導(dǎo)控制量的學(xué)習(xí)中,由于末制導(dǎo)常常強調(diào)機(jī)動性,故需要通過實驗測試算法的響應(yīng)時間,即智能體做出決策所需要的時間。表6展示了三種強化學(xué)習(xí)算法的響應(yīng)時間,單位為ms,實驗運行環(huán)境為i5 7300HQ CPU,16G內(nèi)存,沒有用到 GPU。可以看到,三種算法的響應(yīng)時間都是ms級的,響應(yīng)都很快速,這是因為它們的策略網(wǎng)絡(luò)和值網(wǎng)絡(luò)都是簡單的全連接層,參數(shù)較少,計算時間短。

    表6 三種算法的響應(yīng)時間

    2.5 實驗對比不同的獎勵設(shè)計方法

    在強化學(xué)習(xí)中,獎勵承擔(dān)著重要的作用,它負(fù)責(zé)傳遞這一次動作的獎懲情況,智能體根據(jù)獎勵的變化進(jìn)行策略的優(yōu)化。本節(jié)通過實驗對比不同的獎勵函數(shù),包括稀疏獎勵、樸素獎勵以及本文提出的新穎獎勵,從而驗證本文所提的獎勵函數(shù)的高效性。

    首先介紹稀疏獎勵。在末制導(dǎo)的實際物理環(huán)境中,只有當(dāng)導(dǎo)彈命中目標(biāo)時,才會收到命中的獎勵,其他時間無論導(dǎo)彈怎么改變方向、調(diào)節(jié)速度,在命中之前都不會獲得任何獎勵,這種獎勵函數(shù)是一個典型的稀疏獎勵。將其設(shè)計為式(25),當(dāng)一條軌跡最終距離目標(biāo)小于5m時,給予10的獎勵,其余時刻全都是0的獎勵。然而,稀疏獎勵問題會導(dǎo)致強化學(xué)習(xí)算法收斂緩慢,甚至是無法收斂。

    (25)

    樸素稠密獎勵函數(shù)是最符合人類直覺的一種獎勵,將導(dǎo)彈與目標(biāo)之間的距離作為衡量獎勵的尺度,距離目標(biāo)越近,則給出越大的獎勵,距離目標(biāo)越遠(yuǎn),則給出越小的獎勵。獎勵的具體形式如式(26)所示,在每一時刻,將導(dǎo)彈與目標(biāo)之間距離的負(fù)數(shù)作為獎勵。然而,這種負(fù)獎勵會促使智能體盡早結(jié)束軌跡,影響策略學(xué)習(xí)。

    (26)

    為了解決在末制導(dǎo)環(huán)境中的稀疏獎勵問題以及樸素稠密獎勵的學(xué)習(xí)效率低下的問題,提出了一種創(chuàng)新性的獎勵函數(shù)設(shè)計。將獎勵定義為上一時刻的預(yù)測脫靶量與當(dāng)前時刻的預(yù)測脫靶量的差值,表示當(dāng)前時刻動作對預(yù)測脫靶量的降低量,關(guān)于該獎勵的更詳盡的介紹請參考2.2.3節(jié)式(24)。

    為了說明本文設(shè)計的新穎獎勵函數(shù)的高效性,圖3對比了與三種獎勵函數(shù)在相同實驗環(huán)境下訓(xùn)練時的脫靶量變化曲線,橫軸為訓(xùn)練輪數(shù),共訓(xùn)練500輪,縱軸為每一輪訓(xùn)練后的脫靶量,單位為m,每輪測試次數(shù)為5次。可以發(fā)現(xiàn),本文提出的獎勵函數(shù)能夠使訓(xùn)練更穩(wěn)定,并且能達(dá)到更低的脫靶量。

    圖3 三種獎勵在訓(xùn)練時的脫靶量變化曲線Fig.3 Curves of miss distance of three rewards during training

    3 結(jié)論

    1)本文將TRPO算法應(yīng)用于末制導(dǎo)問題,在與環(huán)境交互的過程中直接學(xué)習(xí)末制導(dǎo)控制量,而非學(xué)習(xí)末制導(dǎo)律中的參數(shù),有助于發(fā)現(xiàn)更優(yōu)的制導(dǎo)策略。設(shè)計了簡單的狀態(tài),避免引入末制導(dǎo)專業(yè)知識,并設(shè)計了一種新穎的獎勵函數(shù),該獎勵函數(shù)考慮了導(dǎo)彈和目標(biāo)的運動情況,更適合末制導(dǎo)問題。仿真環(huán)境中考慮了空氣動力學(xué),更接近真實場景。

    2)實驗結(jié)果表明,通過使用本文算法和提出的獎勵,智能體學(xué)到的控制策略可以達(dá)到更低的脫靶量,命中效果更好。

    3)本文只在仿真環(huán)境中進(jìn)行實驗,使用強化學(xué)習(xí)算法在真實場景中進(jìn)行控制量學(xué)習(xí)是未來有價值的研究方向。

    猜你喜歡
    制導(dǎo)梯度導(dǎo)彈
    一個改進(jìn)的WYL型三項共軛梯度法
    導(dǎo)彈燃料知多少
    軍事文摘(2020年14期)2020-12-17 06:27:16
    一種自適應(yīng)Dai-Liao共軛梯度法
    正在發(fā)射的岸艦導(dǎo)彈
    兵器知識(2019年1期)2019-01-23 02:20:44
    一類扭積形式的梯度近Ricci孤立子
    攔截那枚導(dǎo)彈
    導(dǎo)彈轉(zhuǎn)運
    基于MPSC和CPN制導(dǎo)方法的協(xié)同制導(dǎo)律
    基于在線軌跡迭代的自適應(yīng)再入制導(dǎo)
    帶有攻擊角約束的無抖振滑模制導(dǎo)律設(shè)計
    我的老师免费观看完整版| 在线a可以看的网站| 欧美成人免费av一区二区三区| 超碰97精品在线观看| 少妇人妻精品综合一区二区| 国产中年淑女户外野战色| 麻豆av噜噜一区二区三区| 老司机影院成人| 久99久视频精品免费| 99热这里只有是精品在线观看| 色视频www国产| 久久精品国产鲁丝片午夜精品| 国产高清三级在线| 啦啦啦韩国在线观看视频| 99久久人妻综合| 国产精品久久久久久精品电影小说 | kizo精华| 亚洲丝袜综合中文字幕| 在线播放无遮挡| 精品国产露脸久久av麻豆 | 老司机影院毛片| 国产成人一区二区在线| 亚洲无线观看免费| 天天一区二区日本电影三级| 免费看光身美女| 欧美日本视频| 亚洲成av人片在线播放无| 尤物成人国产欧美一区二区三区| 国产色爽女视频免费观看| 国产91av在线免费观看| 国产在视频线在精品| 亚洲图色成人| 美女脱内裤让男人舔精品视频| 成人国产麻豆网| 精品免费久久久久久久清纯| 亚洲国产精品久久男人天堂| 伦理电影大哥的女人| 哪个播放器可以免费观看大片| 国产一区二区在线av高清观看| 日本一二三区视频观看| 午夜精品一区二区三区免费看| 插逼视频在线观看| 精品午夜福利在线看| 久久久久九九精品影院| 嘟嘟电影网在线观看| 日本三级黄在线观看| 久久久久久久久久久丰满| 国产老妇伦熟女老妇高清| 国产成人aa在线观看| 国产真实乱freesex| 亚洲精品乱码久久久v下载方式| 伊人久久精品亚洲午夜| 97人妻精品一区二区三区麻豆| 超碰av人人做人人爽久久| 国产精品一二三区在线看| 美女被艹到高潮喷水动态| 男的添女的下面高潮视频| 又粗又硬又长又爽又黄的视频| 大香蕉97超碰在线| 亚洲在线自拍视频| 国产女主播在线喷水免费视频网站 | 搡女人真爽免费视频火全软件| 欧美激情在线99| 91精品国产九色| 一个人看视频在线观看www免费| 村上凉子中文字幕在线| 91久久精品国产一区二区成人| 中文字幕免费在线视频6| 大香蕉久久网| 七月丁香在线播放| 在线免费十八禁| 亚洲三级黄色毛片| 纵有疾风起免费观看全集完整版 | 观看美女的网站| 欧美3d第一页| 欧美最新免费一区二区三区| 99久久中文字幕三级久久日本| 成人无遮挡网站| 最近最新中文字幕大全电影3| 全区人妻精品视频| 国产成人福利小说| 麻豆精品久久久久久蜜桃| 91精品一卡2卡3卡4卡| 午夜福利在线在线| 我要搜黄色片| 国产精品永久免费网站| 国产极品精品免费视频能看的| 黑人高潮一二区| 午夜精品在线福利| 久久久欧美国产精品| 2022亚洲国产成人精品| 亚洲欧美日韩卡通动漫| 亚洲av成人精品一区久久| 亚洲精品aⅴ在线观看| 能在线免费观看的黄片| 国产免费又黄又爽又色| 欧美精品一区二区大全| 美女xxoo啪啪120秒动态图| 男人狂女人下面高潮的视频| 一个人看的www免费观看视频| 久久精品人妻少妇| 3wmmmm亚洲av在线观看| 久久精品国产亚洲av天美| 高清毛片免费看| 欧美3d第一页| 精品人妻一区二区三区麻豆| 久久久久久久久中文| 欧美成人一区二区免费高清观看| 久久鲁丝午夜福利片| 国产精品综合久久久久久久免费| 国产一区二区亚洲精品在线观看| 久久精品久久久久久久性| 搞女人的毛片| 日日撸夜夜添| 老司机影院成人| 国产激情偷乱视频一区二区| 亚洲国产精品sss在线观看| 一区二区三区四区激情视频| 真实男女啪啪啪动态图| 日韩av在线免费看完整版不卡| 日韩强制内射视频| 亚洲人成网站在线播| 色网站视频免费| 国产精品一区二区三区四区久久| 秋霞在线观看毛片| 大香蕉久久网| 免费不卡的大黄色大毛片视频在线观看 | 一级毛片电影观看 | 成人毛片60女人毛片免费| 男女边吃奶边做爰视频| 特大巨黑吊av在线直播| 你懂的网址亚洲精品在线观看 | 免费看光身美女| 精品一区二区免费观看| 亚洲人与动物交配视频| 99久久九九国产精品国产免费| 久久久久久伊人网av| 在现免费观看毛片| 久久久久久久久久成人| 免费电影在线观看免费观看| 国产乱来视频区| 国产精品乱码一区二三区的特点| 日韩三级伦理在线观看| 国产精品伦人一区二区| 成年女人看的毛片在线观看| 免费观看人在逋| 毛片女人毛片| 99久久精品一区二区三区| 中文天堂在线官网| 国产私拍福利视频在线观看| 国产精品国产三级国产专区5o | 国产精品熟女久久久久浪| 午夜免费男女啪啪视频观看| 国产不卡一卡二| 午夜老司机福利剧场| 啦啦啦观看免费观看视频高清| 日产精品乱码卡一卡2卡三| 偷拍熟女少妇极品色| 欧美成人午夜免费资源| 久久久亚洲精品成人影院| 观看美女的网站| 国产av一区在线观看免费| 国产成人精品久久久久久| a级毛片免费高清观看在线播放| 国产v大片淫在线免费观看| 少妇高潮的动态图| 国产男人的电影天堂91| 午夜福利成人在线免费观看| ponron亚洲| 日本免费a在线| 国产在线一区二区三区精 | 97热精品久久久久久| 联通29元200g的流量卡| 欧美bdsm另类| 精品人妻熟女av久视频| 三级经典国产精品| 听说在线观看完整版免费高清| 亚洲久久久久久中文字幕| 国产免费福利视频在线观看| 青青草视频在线视频观看| 国产av一区在线观看免费| 精品人妻偷拍中文字幕| 欧美xxxx黑人xx丫x性爽| 日韩一区二区视频免费看| 深夜a级毛片| 久久国内精品自在自线图片| 久久久久免费精品人妻一区二区| 亚州av有码| 麻豆乱淫一区二区| 亚洲中文字幕一区二区三区有码在线看| 91久久精品国产一区二区三区| 亚洲国产成人一精品久久久| 男人舔奶头视频| 91精品伊人久久大香线蕉| 夜夜爽夜夜爽视频| 国产伦精品一区二区三区视频9| 国产精品一区www在线观看| 国产探花极品一区二区| 变态另类丝袜制服| av黄色大香蕉| 日日啪夜夜撸| 99久久精品国产国产毛片| 国产精品人妻久久久久久| 五月伊人婷婷丁香| 亚洲欧美中文字幕日韩二区| 亚洲av二区三区四区| 欧美一区二区国产精品久久精品| 一卡2卡三卡四卡精品乱码亚洲| 国产免费一级a男人的天堂| 观看美女的网站| 国产成人精品一,二区| 日本与韩国留学比较| 一边摸一边抽搐一进一小说| 看黄色毛片网站| 国产伦精品一区二区三区视频9| 国产麻豆成人av免费视频| 搞女人的毛片| 国产男人的电影天堂91| 精品久久久久久久久久久久久| 91午夜精品亚洲一区二区三区| 欧美zozozo另类| 啦啦啦观看免费观看视频高清| 婷婷色综合大香蕉| 麻豆乱淫一区二区| 成人毛片60女人毛片免费| 亚洲av熟女| 国产探花在线观看一区二区| 色吧在线观看| 九九爱精品视频在线观看| 99久久精品一区二区三区| 久久久久精品久久久久真实原创| 三级国产精品片| 国产av码专区亚洲av| 亚洲av电影在线观看一区二区三区 | 91精品伊人久久大香线蕉| 欧美变态另类bdsm刘玥| 我的女老师完整版在线观看| 精品久久久久久成人av| 亚洲欧美精品专区久久| 亚洲人与动物交配视频| 国产精品一区二区性色av| 国产高清有码在线观看视频| 国产又色又爽无遮挡免| 亚洲av成人av| 午夜精品国产一区二区电影 | 免费av观看视频| 亚洲国产精品专区欧美| 久久精品国产99精品国产亚洲性色| 永久网站在线| 一区二区三区免费毛片| 少妇高潮的动态图| 国产亚洲最大av| 国产在视频线在精品| 国产一区二区三区av在线| av女优亚洲男人天堂| 国产精品1区2区在线观看.| a级毛片免费高清观看在线播放| 亚洲精品一区蜜桃| 26uuu在线亚洲综合色| 水蜜桃什么品种好| 国产av码专区亚洲av| 69人妻影院| 小蜜桃在线观看免费完整版高清| 国产成人免费观看mmmm| 成年av动漫网址| 国产亚洲5aaaaa淫片| 免费观看的影片在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 嫩草影院精品99| 又黄又爽又刺激的免费视频.| 欧美日韩精品成人综合77777| 狂野欧美白嫩少妇大欣赏| 九九在线视频观看精品| 好男人视频免费观看在线| 伦精品一区二区三区| 有码 亚洲区| 久久精品国产鲁丝片午夜精品| 村上凉子中文字幕在线| 麻豆乱淫一区二区| 日韩精品青青久久久久久| 毛片女人毛片| 日本免费在线观看一区| 成人无遮挡网站| 亚洲欧美日韩东京热| 欧美一区二区国产精品久久精品| 久久精品熟女亚洲av麻豆精品 | 色综合站精品国产| 欧美一级a爱片免费观看看| 日本色播在线视频| 久久精品久久久久久久性| 男的添女的下面高潮视频| 一本久久精品| av福利片在线观看| 91久久精品国产一区二区成人| 尾随美女入室| 国产亚洲最大av| 啦啦啦观看免费观看视频高清| 亚洲伊人久久精品综合 | 久久欧美精品欧美久久欧美| 亚洲人与动物交配视频| 22中文网久久字幕| 国产精品一区www在线观看| 欧美日韩一区二区视频在线观看视频在线 | 欧美人与善性xxx| 一边亲一边摸免费视频| 精品久久久噜噜| 国产精品久久久久久精品电影| 女的被弄到高潮叫床怎么办| 婷婷色综合大香蕉| 韩国高清视频一区二区三区| 久久欧美精品欧美久久欧美| 国产淫片久久久久久久久| 高清午夜精品一区二区三区| 丰满少妇做爰视频| 精品国产露脸久久av麻豆 | 99在线视频只有这里精品首页| 三级男女做爰猛烈吃奶摸视频| 成人午夜高清在线视频| 不卡视频在线观看欧美| 国产黄片视频在线免费观看| 国产精品99久久久久久久久| 日本免费a在线| 亚洲精华国产精华液的使用体验| a级毛片免费高清观看在线播放| 中文字幕久久专区| 久久久久久久久大av| 欧美高清性xxxxhd video| 亚洲欧美日韩无卡精品| 亚洲精品456在线播放app| 蜜臀久久99精品久久宅男| 欧美xxxx性猛交bbbb| 大话2 男鬼变身卡| 国产精品熟女久久久久浪| 中文亚洲av片在线观看爽| 日日干狠狠操夜夜爽| 91狼人影院| 一级毛片电影观看 | 免费不卡的大黄色大毛片视频在线观看 | 精品国内亚洲2022精品成人| 欧美精品国产亚洲| 成人欧美大片| 91久久精品国产一区二区三区| 国产欧美日韩精品一区二区| 日本猛色少妇xxxxx猛交久久| 国产成人a区在线观看| 99久久中文字幕三级久久日本| 国产av一区在线观看免费| 亚洲av成人精品一二三区| 国产精品久久久久久久久免| 黄片wwwwww| 亚洲国产成人一精品久久久| 亚洲欧美成人综合另类久久久 | 国产成年人精品一区二区| 国产又黄又爽又无遮挡在线| 国产精品人妻久久久影院| 天堂影院成人在线观看| 亚洲av.av天堂| 尤物成人国产欧美一区二区三区| 日韩大片免费观看网站 | 日本午夜av视频| 国产69精品久久久久777片| 神马国产精品三级电影在线观看| 麻豆乱淫一区二区| 国产真实伦视频高清在线观看| 韩国高清视频一区二区三区| 哪个播放器可以免费观看大片| 国产精品伦人一区二区| 亚洲精品日韩在线中文字幕| 男人的好看免费观看在线视频| 国产成人freesex在线| 久久久久久国产a免费观看| 丝袜喷水一区| 久久精品久久久久久噜噜老黄 | 国产三级在线视频| 久久国内精品自在自线图片| 亚洲,欧美,日韩| 精品久久久久久电影网 | 国内少妇人妻偷人精品xxx网站| 听说在线观看完整版免费高清| 久久人妻av系列| av在线观看视频网站免费| 亚洲综合精品二区| 日韩欧美在线乱码| 我的女老师完整版在线观看| 午夜激情福利司机影院| 老司机影院毛片| 男女国产视频网站| 久久精品国产鲁丝片午夜精品| 神马国产精品三级电影在线观看| 丰满少妇做爰视频| 在线播放无遮挡| 少妇高潮的动态图| or卡值多少钱| av在线老鸭窝| 人人妻人人澡欧美一区二区| videossex国产| 精品少妇黑人巨大在线播放 | 亚洲电影在线观看av| 亚洲最大成人手机在线| 日韩欧美 国产精品| 国产黄色视频一区二区在线观看 | 一卡2卡三卡四卡精品乱码亚洲| 免费播放大片免费观看视频在线观看 | 国产成人freesex在线| 一区二区三区四区激情视频| 国产高清不卡午夜福利| 在现免费观看毛片| 亚洲精品乱码久久久久久按摩| 精品无人区乱码1区二区| 2022亚洲国产成人精品| 麻豆av噜噜一区二区三区| 日本色播在线视频| 久久久久久久久久久丰满| 国产精品久久久久久精品电影| 观看免费一级毛片| 91aial.com中文字幕在线观看| 乱系列少妇在线播放| 亚洲电影在线观看av| 岛国在线免费视频观看| 看黄色毛片网站| 少妇的逼好多水| 国产亚洲av片在线观看秒播厂 | av在线观看视频网站免费| 国产片特级美女逼逼视频| 黄色日韩在线| 日本av手机在线免费观看| 亚洲av中文字字幕乱码综合| 美女国产视频在线观看| 三级国产精品片| 中文天堂在线官网| 亚洲成人中文字幕在线播放| av卡一久久| 麻豆成人av视频| 国产黄a三级三级三级人| 尤物成人国产欧美一区二区三区| 哪个播放器可以免费观看大片| 中文字幕精品亚洲无线码一区| 国产极品精品免费视频能看的| 男女视频在线观看网站免费| 欧美人与善性xxx| 丰满乱子伦码专区| 久久这里有精品视频免费| 久久久久久大精品| 国产精品乱码一区二三区的特点| 日韩高清综合在线| 午夜福利高清视频| 成人二区视频| 久久久久久久久大av| 大又大粗又爽又黄少妇毛片口| 国产亚洲最大av| 天天一区二区日本电影三级| 欧美成人一区二区免费高清观看| 日韩欧美 国产精品| 国产视频内射| 九九久久精品国产亚洲av麻豆| 国产精品永久免费网站| 床上黄色一级片| 亚洲成av人片在线播放无| 国产高清有码在线观看视频| av.在线天堂| 成人性生交大片免费视频hd| 成人三级黄色视频| 亚洲天堂国产精品一区在线| 久久久精品94久久精品| 国内精品一区二区在线观看| 国产亚洲av嫩草精品影院| 在线观看av片永久免费下载| 国产v大片淫在线免费观看| www.色视频.com| 国产又黄又爽又无遮挡在线| 国产亚洲最大av| 看免费成人av毛片| 国内精品宾馆在线| 国产精品福利在线免费观看| 国产乱人偷精品视频| 国产av不卡久久| 欧美日韩国产亚洲二区| 一边摸一边抽搐一进一小说| 男女啪啪激烈高潮av片| 99久国产av精品| 国产精品久久久久久精品电影| 欧美潮喷喷水| 免费观看性生交大片5| 国产熟女欧美一区二区| 午夜激情福利司机影院| 久久亚洲精品不卡| 黄色欧美视频在线观看| 欧美性感艳星| 精品国产一区二区三区久久久樱花 | 男女那种视频在线观看| 中国国产av一级| 成年版毛片免费区| 成人av在线播放网站| 村上凉子中文字幕在线| 中文在线观看免费www的网站| 国产一区二区在线av高清观看| 日本熟妇午夜| 最近手机中文字幕大全| 神马国产精品三级电影在线观看| 亚洲不卡免费看| 国产亚洲91精品色在线| 伊人久久精品亚洲午夜| 99久国产av精品国产电影| 2021天堂中文幕一二区在线观| 欧美高清性xxxxhd video| 一边亲一边摸免费视频| 成人高潮视频无遮挡免费网站| 日本一二三区视频观看| 久久99蜜桃精品久久| av黄色大香蕉| 舔av片在线| 成人亚洲欧美一区二区av| 久久精品夜色国产| 国产精品av视频在线免费观看| av专区在线播放| 久久精品久久精品一区二区三区| 大话2 男鬼变身卡| 91精品国产九色| 亚洲自偷自拍三级| 国产探花极品一区二区| 在现免费观看毛片| 精华霜和精华液先用哪个| 国产成人精品一,二区| 少妇裸体淫交视频免费看高清| 全区人妻精品视频| 美女高潮的动态| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 熟女人妻精品中文字幕| 五月伊人婷婷丁香| 久久精品熟女亚洲av麻豆精品 | 老司机影院成人| 久久国产乱子免费精品| 欧美97在线视频| 天美传媒精品一区二区| 身体一侧抽搐| 午夜福利成人在线免费观看| 麻豆国产97在线/欧美| 伦理电影大哥的女人| 麻豆成人午夜福利视频| 久久精品久久久久久噜噜老黄 | 一区二区三区四区激情视频| 两个人的视频大全免费| 精品久久久久久成人av| 丰满乱子伦码专区| 欧美日韩综合久久久久久| 99热6这里只有精品| 久久99热这里只有精品18| 麻豆一二三区av精品| 色播亚洲综合网| 久久精品人妻少妇| 尤物成人国产欧美一区二区三区| 听说在线观看完整版免费高清| 全区人妻精品视频| 男人狂女人下面高潮的视频| 久久精品影院6| 欧美激情久久久久久爽电影| 熟女人妻精品中文字幕| 精品久久久久久电影网 | 好男人视频免费观看在线| 久久久午夜欧美精品| 国产又黄又爽又无遮挡在线| 日韩成人av中文字幕在线观看| 国产精品一区二区性色av| 欧美极品一区二区三区四区| 色综合站精品国产| 最近中文字幕2019免费版| 麻豆乱淫一区二区| 久久久久久久久久黄片| 亚洲欧美日韩东京热| 熟女人妻精品中文字幕| 免费av毛片视频| 国产伦在线观看视频一区| 久久国内精品自在自线图片| 边亲边吃奶的免费视频| 欧美成人免费av一区二区三区| 精品久久国产蜜桃| 国产高清不卡午夜福利| 欧美丝袜亚洲另类| 国产成人91sexporn| 亚洲无线观看免费| 好男人在线观看高清免费视频| 久久精品久久久久久噜噜老黄 | 毛片一级片免费看久久久久| 亚洲精品久久久久久婷婷小说 | 亚洲美女视频黄频| 日日摸夜夜添夜夜添av毛片| 国产亚洲av嫩草精品影院| eeuss影院久久| 赤兔流量卡办理| 亚洲国产最新在线播放| 久久99蜜桃精品久久| 中文字幕久久专区| 美女内射精品一级片tv| 村上凉子中文字幕在线| 99热精品在线国产| 91精品伊人久久大香线蕉| 只有这里有精品99| 亚洲av成人精品一区久久| 丝袜美腿在线中文| 国产av在哪里看| 日韩视频在线欧美| 欧美成人a在线观看| av播播在线观看一区| 国产淫语在线视频| 六月丁香七月| 亚洲欧美精品专区久久| 欧美潮喷喷水| 一级毛片我不卡| 精品人妻视频免费看| 成人午夜精彩视频在线观看| 亚洲精品国产av成人精品| 少妇被粗大猛烈的视频| 日韩在线高清观看一区二区三区| 日本欧美国产在线视频| 日本wwww免费看|