• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      采用雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法

      2020-05-12 14:35:54王垚儒
      武漢科技大學(xué)學(xué)報 2020年2期
      關(guān)鍵詞:經(jīng)驗噪聲樣本

      王垚儒,李 俊

      (1.武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)

      強化學(xué)習(xí)(Reinforcement Learning,RL)方法通過智能體與環(huán)境進行交互,觀測到環(huán)境對智能體動作的反饋后,不斷調(diào)整其行為,以提升自身性能。但傳統(tǒng)的強化學(xué)習(xí)局限于低維問題,深度強化學(xué)習(xí)則能更好地處理高維狀態(tài)空間和高維動作空間設(shè)定下的決策問題,并已廣泛應(yīng)用于電腦游戲、機器人控制、語音識別、交通信號控制、自動駕駛等領(lǐng)域[1]。

      文獻[2-3]將強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,提出深度Q網(wǎng)絡(luò)(Deep Q-network, DQN)模型,該模型用于處理基于視覺感知的控制任務(wù),是深度強化學(xué)習(xí)研究領(lǐng)域的開創(chuàng)性工作。之后,很多拓展性方法不斷出現(xiàn),以提升DQN算法的速度和穩(wěn)定性。文獻[4]使用優(yōu)先經(jīng)驗回放技術(shù)有效提高了學(xué)習(xí)效率。文獻[5]采用深度雙Q學(xué)習(xí)策略,通過解耦選擇和引導(dǎo)行動評估解決了Q學(xué)習(xí)中的過估計問題。文獻[6]結(jié)合多步Q學(xué)習(xí)和深度Q學(xué)習(xí)的優(yōu)點,提出了深度多Q學(xué)習(xí)方法,其穩(wěn)定性較好且更具有普適性。文獻[7]構(gòu)建競爭網(wǎng)絡(luò)結(jié)構(gòu),采用兩條支路分別估計狀態(tài)價值和動作優(yōu)勢,這樣一來,對于各個狀態(tài)就不必評估每個動作選項產(chǎn)生的效果,進一步提高了智能體的學(xué)習(xí)效率。文獻[8]提出噪聲流深度Q學(xué)習(xí)策略,使用隨機網(wǎng)絡(luò)層進行勘測,增強了網(wǎng)絡(luò)探索性能。文獻[9]提出Rainbow算法,結(jié)合多種DQN的改進方式,在不同層面上提高了算法性能。然而,DQN算法難以應(yīng)對大的動作空間,特別是在連續(xù)動作情況下。

      文獻[10]提出的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)算法是表演者-評論家(Actor-Critic,AC)框架和 DQN 算法的結(jié)合體,其在動作輸出方面采用一個網(wǎng)絡(luò)來擬合策略函數(shù),可以很好地應(yīng)對連續(xù)動作的輸出及大的動作空間。文獻[11]提出混合型Actor-Critic指導(dǎo)方法,融合了多個策略網(wǎng)絡(luò)和對應(yīng)的值網(wǎng)絡(luò),該方法在自適應(yīng)機器人控制中取得了實質(zhì)性進展。文獻[12]采用循環(huán)確定性策略梯度和循環(huán)隨機值梯度方法,處理一系列部分可觀察場景下的連續(xù)動作控制任務(wù)。文獻[13]中提出的異步優(yōu)勢表演者-評論家算法(Asynchronous Advantage Actor-Critic,A3C)降低了訓(xùn)練時的硬件要求,在各類連續(xù)動作空間的控制任務(wù)中表現(xiàn)較好。文獻[14]提出的雙延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic Policy Gradient,TD3)是以深度雙Q學(xué)習(xí)為基礎(chǔ),采用雙評論家,選取其中較小的值來平衡價值,并延遲更新策略網(wǎng)絡(luò),以減少更新錯誤,同時為目標(biāo)行為增加噪聲,用作算法的正則化器。TD3算法很好地解決了DDPG中估計價值過高的問題,但是網(wǎng)絡(luò)的收斂速度和探索性能仍有待提高。

      本文提出一種基于多步優(yōu)先和重抽樣優(yōu)選雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法(簡記為MPNTD3),在策略網(wǎng)絡(luò)中添加噪聲以增加參數(shù)的隨機性,并引入多步優(yōu)先經(jīng)驗回放池和重抽樣優(yōu)選經(jīng)驗回放池??紤]多步回報,利用優(yōu)先級更高的樣本來更新當(dāng)前的目標(biāo)值,可解決噪聲網(wǎng)絡(luò)難以收斂的問題,同時引入重抽樣優(yōu)選經(jīng)驗池和多步優(yōu)先經(jīng)驗回放池則在一定程度上彌補了重抽樣優(yōu)選機制中低優(yōu)先級樣本不足的缺點。本文最后在OpenAI Gym仿真平臺上的Walker2d-v2場景中進行實驗,以檢驗MPNTD3算法的性能。

      1 相關(guān)知識

      1.1 DQN算法

      (1)

      式中:γ為折扣因子;E[·]代表期望值。

      當(dāng)時間步數(shù)i→時,當(dāng)前狀態(tài)-動作值Qi收斂到最優(yōu)。在實際應(yīng)用中,通常使用函數(shù)逼近的泛化方法近似估計Q*(s,a),即Q*(s,a)≈Q(s,a;θ)。DQN算法采用卷積神經(jīng)網(wǎng)絡(luò)函數(shù)近似器,這時θ代表網(wǎng)絡(luò)權(quán)重。參數(shù)θ可通過最小化損失函數(shù)的方式進行計算,損失函數(shù)定義為:

      Li(θi)=Es′~S[(yi-Q(s,a;θi))2]

      (2)

      其中,

      (3)

      在網(wǎng)絡(luò)參數(shù)θi-1保持不變的情況下,優(yōu)化損失函數(shù)Li(θi)。對損失函數(shù)的參數(shù)進行微分得到梯度公式:

      Q(s,a;θi))θiQ(s,a;θi)]

      (4)

      然后通過求解Bellman方程得出最優(yōu)策略。

      DQN算法中最關(guān)鍵的技術(shù)就是經(jīng)驗回放,即設(shè)置經(jīng)驗池。將每個時間步中智能體與環(huán)境交互得到的轉(zhuǎn)移樣本(s,a,r,s′)儲存到回放記憶單元,然后隨機取出一些樣本進行訓(xùn)練,這種將過程打成碎片存儲、訓(xùn)練時隨機抽取的方式可以避免相關(guān)性問題。

      1.2 DDPG算法

      DDPG算法是在Actor-Critic框架的基礎(chǔ)上,基于DQN的經(jīng)驗回放和雙網(wǎng)絡(luò)結(jié)構(gòu)對確定性策略梯度算法進行改進[15]。雙網(wǎng)絡(luò)結(jié)構(gòu)的方法是指構(gòu)造結(jié)構(gòu)相同而參數(shù)不同的基于Actor-Critic框架的估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),采用經(jīng)驗回放方法對目標(biāo)網(wǎng)絡(luò)參數(shù)進行更新。確定性策略可以描述為在狀態(tài)s下采取的確定性動作a,動作值函數(shù)表示在狀態(tài)s中采取a之后的預(yù)期回報,使用參數(shù)為θμ和θQ的神經(jīng)網(wǎng)絡(luò)來表示確定性策略a=μ(s|θμ)和值函數(shù)Q(s,a|θQ)。

      目標(biāo)網(wǎng)絡(luò)輸出為目標(biāo)Q值(Qtarget),估計網(wǎng)絡(luò)輸出為估計Q值(Qtarget),記二者的差值為TD-error,Critic 網(wǎng)絡(luò)訓(xùn)練基于TD-error 的平方均值。估計Q值是將當(dāng)前的狀態(tài)s和估值A(chǔ)ctor網(wǎng)絡(luò)輸出的動作a輸入估值Critic網(wǎng)絡(luò)得到,而目標(biāo)Q值是將下一時刻的狀態(tài)s′及由目標(biāo)Actor網(wǎng)絡(luò)所得動作a′輸入到目標(biāo)Critic網(wǎng)絡(luò)后得到的Q值進行折扣后與目標(biāo)獎勵r相加得到。具體公式如下:

      yi=r+γQ(s′,μ(s′|θμ′)|θQ′)

      (5)

      (6)

      式中:yi為目標(biāo)Q值;Q(s,a|θQ)為估計Q值;L為TD-error 的平方均值。

      估值A(chǔ)ctor網(wǎng)絡(luò)通過動作值函數(shù)將狀態(tài)映射到指定動作來更新當(dāng)前策略,狀態(tài)回報定義為未來折扣獎賞總回報,通過David Silver策略梯度方法對目標(biāo)函數(shù)進行端對端的優(yōu)化, 從而朝著獲得最大總回報的方向更新。Actor網(wǎng)絡(luò)參數(shù)更新公式如下:

      (7)

      1.3 TD3算法

      針對DDPG算法中估計價值過高的問題,TD3算法采用截斷雙Q學(xué)習(xí)、目標(biāo)策略平滑處理、延遲更新策略三種方法來平衡價值。

      截斷雙Q學(xué)習(xí)是將原來的一個Q函數(shù)分為兩個,這兩個Q函數(shù)都針對單目標(biāo)更新,選擇其中較小的一個作為目標(biāo)值,這樣有助于抵消Q函數(shù)中的過高估計,具體公式如下:

      (8)

      (9)

      (10)

      式中:d表示環(huán)境狀態(tài),為布爾型變量,若當(dāng)前動作后整個過程結(jié)束,則d=True,否則d=False;D為訓(xùn)練樣本集合。

      目標(biāo)策略平滑處理是基于目標(biāo)策略μ得出目標(biāo)動作,同時在動作的每個維度上添加擾動因子,使得目標(biāo)動作a的取值滿足條件:alow≤a≤ahigh,其中alow、ahigh分別表示動作a可取的最大值和最小值。目標(biāo)策略平滑處理可表示為:

      a′=clip(μ(s′)+o,alow,ahigh)

      o~clip(N(0,σ),-c,c)

      (11)

      式中:clip(x,-y,y)表示將x中的每個元素截斷到區(qū)間 [-y,y]中。

      目標(biāo)策略平滑處理為目標(biāo)行為增加了噪聲,用作算法的正則化器。它解決了DDPG中可能發(fā)生的如下特定故障模式:如果Q函數(shù)逼近器產(chǎn)生不正確的峰值,則上述方法將快速利用該峰值使Q函數(shù)變得平滑。

      延遲更新策略是指,在TD3中Actor網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)的更新頻率比Critic網(wǎng)絡(luò)參數(shù)的更新頻率要低,這有助于抑制DDPG中通常出現(xiàn)的波動現(xiàn)象。

      2 本文算法設(shè)計

      2.1 噪聲網(wǎng)絡(luò)

      為了提高本文算法的網(wǎng)絡(luò)探索性能,在策略網(wǎng)絡(luò)的全連接層中添加噪聲,以增強網(wǎng)絡(luò)參數(shù)w、b的隨機性。關(guān)于參數(shù)b和w的目標(biāo)函數(shù)服從于均值為μ、方差為σ的正態(tài)分布,同時存在一定的隨機噪聲ε,并假設(shè)噪聲服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則新形成的到噪聲層的前向傳播方式如下:

      y=(b+wx)+[bnεb+(wnεw)x]

      =(w+wnεw)x+b+bnεb

      (12)

      式中:wn和bn為噪聲層的權(quán)重和偏移量;εw和εb代表權(quán)重和偏移量的隨機噪聲。

      添加噪聲增加了參數(shù)的隨機性,網(wǎng)絡(luò)探索能力加強,網(wǎng)絡(luò)的性能也會提高,但同時網(wǎng)絡(luò)也會變得更加難以收斂。

      本文采用兩種方式來加快噪聲網(wǎng)絡(luò)的收斂。一是考慮多步回報,將截斷雙Q處理改為多步截斷雙Q處理,增加網(wǎng)絡(luò)對于目標(biāo)值的評估準(zhǔn)確性;二是通過重抽樣優(yōu)選經(jīng)驗回放池,在訓(xùn)練后期使用學(xué)習(xí)價值更大的樣本,使網(wǎng)絡(luò)進一步收斂。

      2.2 多步截斷雙Q學(xué)習(xí)

      多步截斷雙Q學(xué)習(xí)是在截斷雙Q學(xué)習(xí)方法中利用將來多步信息來更新當(dāng)前的目標(biāo)值。TD3算法僅利用了未來一步的信息,存在更新速度慢的問題,而本文采用的多步截斷雙Q學(xué)習(xí)考慮未來n步的影響。

      (13)

      選擇適當(dāng)?shù)膎值可以提高網(wǎng)絡(luò)的性能和收斂速度。

      2.3 多步優(yōu)先經(jīng)驗回放池

      在截斷雙Q處理時要考慮多步回報,因此將優(yōu)先經(jīng)驗回放池改進為多步優(yōu)先經(jīng)驗回放池,即按照優(yōu)先經(jīng)驗回放池的存儲結(jié)構(gòu)和采樣方法將多個連續(xù)樣本作為基礎(chǔ)單元進行存儲。

      優(yōu)先經(jīng)驗回放池是通過TD-error, 即目標(biāo)Q值和估計Q值的差值來評判樣本的價值[16-17]。TD-error越大,則該樣本的優(yōu)先級p越高。樣本j的采樣概率P(j)為:

      (14)

      式中:i為經(jīng)驗回放池中的所有樣本編號;pi、pj為樣本的優(yōu)先級,即所計算出的TD-error值;參數(shù)α控制采樣的隨機性程度,取值范圍為[0,1],α=0時表示均勻采樣,α=1對應(yīng)于完全根據(jù)優(yōu)先級的貪婪式采樣。

      優(yōu)先經(jīng)驗回放增加了網(wǎng)絡(luò)向有較大學(xué)習(xí)價值的樣本進行學(xué)習(xí)的概率,從而提升學(xué)習(xí)效率,使網(wǎng)絡(luò)更快收斂。

      多步優(yōu)先經(jīng)驗回放池如圖1所示,其構(gòu)建步驟如下:

      1.初始化多步學(xué)習(xí)中的超參數(shù)n和一個大小為n的隊列q,初始化優(yōu)先經(jīng)驗回放池B;設(shè)置總的運行次數(shù)T和環(huán)境狀態(tài)d

      2.fort=1 toTdo

      3. 初始化環(huán)境

      4. whiled==False

      5. 執(zhí)行動作后,產(chǎn)生樣本信息(s,a,r,s′,d)

      6. if q 已滿

      7. 刪除q中第一個樣本,將(s,a,r,s′,d)存入q的末尾

      8. else

      9. 將(s,a,r,s′,d)存入q末尾,形成一個向前移動的滑動窗口

      10. end if

      11. 將q隊列存入B中,計算TD-error:pj=R′+Qtarget-Qeval,其中R′為q隊列的樣本回報總和;按式(14)更新當(dāng)前q隊列的優(yōu)先級

      12.end while

      13.end for

      圖1 多步優(yōu)先經(jīng)驗回放池的結(jié)構(gòu)

      Fig.1 Structure of multi-step prioritized experience replay buffer

      2.4 重抽樣優(yōu)選經(jīng)驗回放池

      2.5 雙經(jīng)驗回放池的設(shè)置

      經(jīng)過重抽樣后,回放池中的記憶單元不再獨立,經(jīng)過若干次迭代后,具有高權(quán)重的記憶單元將被多次復(fù)制,而具有較低權(quán)重的記憶單元將逐漸消失,使回放池中的訓(xùn)練集太小或不充分。

      為解決上述問題,使用兩個經(jīng)驗回放池:B1和B2。B1為多步優(yōu)先經(jīng)驗回放池,B2為單步優(yōu)先經(jīng)驗回放池。B1無差別存儲樣本,B2采用重抽樣機制來存儲樣本,以概率P(j)將樣本存入B2。訓(xùn)練時,每局結(jié)束后網(wǎng)絡(luò)開始迭代更新參數(shù),樣本從B1中獲取。在模型已能取得較好的回報之后,改為每局中單步迭代更新參數(shù),樣本從B2中獲取。通過更好的訓(xùn)練樣本,增加迭代次數(shù)以提升網(wǎng)絡(luò)性能。

      2.6 本文算法流程

      MPNTD3算法的詳細(xì)步驟為:

      1.用參數(shù)θ1、θ2、φ初始化估計網(wǎng)絡(luò)中 的Critic 網(wǎng)絡(luò)(Qθ1、Qθ2)以及Actor 網(wǎng)絡(luò)(μφ)

      3.初始化經(jīng)驗池B1、B2,設(shè)置游戲步數(shù)閾值stepNum、延遲更新參數(shù)f、總的運行次數(shù)T、環(huán)境狀態(tài)d、學(xué)習(xí)率τ

      4.fort=1 toTdo

      5. 初始化環(huán)境

      6. whiled==False

      7. 根據(jù)a~μφ(s)+o,o~N(0,σ)選擇動作

      8. 執(zhí)行動作后,將(s,a,r,s′,d)存入經(jīng)驗池B1中,通過公式(14)得出概率p,以概率p存入經(jīng)驗池B2

      9. ift>stepNum

      10. 按維度batch-size從B2中采樣:(s,a,r,s′,d)

      11. 按式(11)進行噪聲剪切后得到a′

      12. 通過式(13)得到目標(biāo)值

      13. 更新 Critic 網(wǎng)絡(luò):

      14. end if

      15. ift%f==0

      16. 根據(jù)式(7)更新Actor網(wǎng)絡(luò)

      17. 更新目標(biāo)網(wǎng)絡(luò)參數(shù):

      θ′1←τθ1+(1-τ)θ′1

      θ′2←τθ2+(1-τ)θ′2

      φ′←τφ+(1-τ)φ′

      18. end if

      19.end while

      20.從B1中采樣(s,a,r,s′,d),重復(fù)步驟11~18更新網(wǎng)絡(luò)參數(shù)

      21.end for

      3 實驗與結(jié)果分析

      3.1 實驗環(huán)境及參數(shù)設(shè)置

      為了驗證改進算法的有效性并分析關(guān)鍵參數(shù)對算法的影響,下面針對OpenAI Gym平臺[18]Box2D仿真庫中的Walker2d-v2場景進行研究,如圖2所示。Walker2d-v2場景是為了使二維雙足機器人更快更穩(wěn)地向前行走。編程語言為Python 3.6.6,使用PyTorch 0.4搭建網(wǎng)絡(luò),其他軟件包括OpenAI Gym 0.10.0、Box2D-py 2.3.8。

      圖2 Walker2d-v2場景

      Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)的前兩層均采用噪聲層,分別由400和300個神經(jīng)節(jié)點組成,第一層后面和第二層后面都是激活函數(shù)ReLU,Actor的網(wǎng)絡(luò)尾部連接激活函數(shù)tanh作為最后輸出。Actor第一層輸入為狀態(tài)s,Critic的第一層輸入為狀態(tài)s和動作a。所有的網(wǎng)絡(luò)參數(shù)均采用Adam算法作為梯度下降方式,學(xué)習(xí)率為0.001。 噪聲層中σ=0.4,用于初始化噪聲流的權(quán)重。

      目標(biāo)策略平滑處理中有o~clip(N(0,σ),-c,c),參數(shù)σ=0.2、c=0.5,延遲更新策略中參數(shù)f=2。對優(yōu)先經(jīng)驗回放池的參數(shù)α進行優(yōu)化,α分別取0.1、0.3、0.5這3個值,經(jīng)測試,α為0.1和0.3時算法表現(xiàn)良好,其中α=0.1時表現(xiàn)最佳,因此后續(xù)實驗均取α=0.1。計算TD-error時,為防止TD-error為0而給其加上一個極小數(shù)v,v取0.0001。總訓(xùn)練步數(shù)為106,經(jīng)驗池容量為5×105,batch-size為100,游戲步數(shù)閾值stepNum分別為4×105、6×105、8×105,經(jīng)測試,在stepNum=6×105時表現(xiàn)最佳,多步學(xué)習(xí)策略中的n值十分敏感,在后續(xù)算法分析中比較了n分別取1、3、5、7時的訓(xùn)練情況。

      訓(xùn)練時,Walker2d-v2場景由種子0~10產(chǎn)生10個隨機的初始環(huán)境,每個任務(wù)運行106步,每5000步評估一次網(wǎng)絡(luò)。通過TD3、NTD3(噪聲網(wǎng)絡(luò)+TD3)、MNTD3(多步截斷雙Q學(xué)習(xí)+噪聲網(wǎng)絡(luò)+TD3)和MPNTD3這4種算法在Walker2d-v2場景下的得分進行比較分析,其中MNTD3采用普通的經(jīng)驗池結(jié)構(gòu)和采樣機制,將普通經(jīng)驗池中單個樣本為存儲單元改為多個樣本為一個存儲單元,對存儲單元隨機采樣。

      3.2 結(jié)果分析

      由于深度強化學(xué)習(xí)沒有訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集,難以在線評估算法的訓(xùn)練情況。因此,訓(xùn)練效果的評估主要有兩種方式:一是使用回報值,網(wǎng)絡(luò)訓(xùn)練一定周期后,平均回報值越高表明網(wǎng)絡(luò)訓(xùn)練效果越好;二是訓(xùn)練的網(wǎng)絡(luò)越快達到穩(wěn)定表明算法收斂性越好。

      3.2.1 優(yōu)化策略實施效果

      首先分析噪聲網(wǎng)絡(luò)、多步截斷雙Q學(xué)習(xí)以及雙經(jīng)驗回放池這3個優(yōu)化策略對提高本文算法性能的效果。

      圖3(a)、圖3(b)分別為Walker2d-v2場景下種子取0和1時4種算法的學(xué)習(xí)曲線,其中n為多步學(xué)習(xí)的步數(shù)。表1為各算法在種子取0和1時的最高回報的平均值。由圖3和表1可以看出:噪聲流的引入增加了網(wǎng)絡(luò)參數(shù)的隨機性,使得NTD3算法的最高回報均值比TD3算法的相應(yīng)值少了53.1%,網(wǎng)絡(luò)收斂速度也大大下降;MNTD3算法通過多步截斷雙Q學(xué)習(xí)策略避免了局部最優(yōu)問題,雖然相比于TD3算法,其最高回報均值仍下降了近10%,但是網(wǎng)絡(luò)收斂速度比NTD3和TD3算法都有所提高;MPNTD3算法通過考慮多步信息和提高訓(xùn)練樣本質(zhì)量,在多步參數(shù)n為3和5時,最高回報均值比TD3算法的相應(yīng)值分別提高了6.5%和35.9%,網(wǎng)絡(luò)收斂速度也都優(yōu)于TD3算法。

      (a)種子為0

      (b) 種子為1

      Fig.3 Learning curves of four algorithms in different initial environments

      表1 4種算法的最高回報平均值

      圖4為Walker2d-v2場景下種子取0時,TD3算法和多步參數(shù)n分別取1、3、5、7的MPNTD3算法的學(xué)習(xí)曲線。由圖4可見, MPNTD3算法對多步學(xué)習(xí)參數(shù)n十分敏感,適當(dāng)?shù)膎值使網(wǎng)絡(luò)性能和訓(xùn)練速度有較大提升;在n為3和5的情況下,MPNTD3比TD3的最高回報分別提升了13.7%和60.6%;但n值過大(如n=7)會加大網(wǎng)絡(luò)訓(xùn)練難度,甚至?xí)?dǎo)致網(wǎng)絡(luò)難以收斂;在網(wǎng)絡(luò)可以收斂的情況下,存在n值越大則前期收斂速度越慢而后期性能越好的變化趨勢。

      圖4 TD3和取不同n值的MPNTD3的學(xué)習(xí)曲線

      Fig.4 Learning curves of TD3 and MPNTD3 with differentnvalues

      在Walker2d-v2場景下種子取0時,設(shè)置單優(yōu)先經(jīng)驗回放池和雙經(jīng)驗回放池的MPNTD3算法的最高回報分別為7996.03和8236.56。設(shè)置雙經(jīng)驗回放池旨在選擇學(xué)習(xí)價值大的樣本再次訓(xùn)練網(wǎng)絡(luò),由上述結(jié)果可知,改進措施使MPNTD3算法的最高回報增加了3%。

      3.2.2 算法整體性能分析

      對Walker2d-v2場景中MPNTD3、TD3、DDPG算法以及Walker2d-v1場景中TD3算法(記為TD3-v1)[14]在10個隨機初始環(huán)境下的學(xué)習(xí)曲線進行統(tǒng)計分析,結(jié)果見圖5,圖中曲線代表10個隨機初始環(huán)境的平均回報,陰影部分代表統(tǒng)計指標(biāo)的±σ/2區(qū)域。實驗中,由種子3、4、6、7產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=3,其余種子產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=5。表2所示為10個隨機初始環(huán)境下各算法每階段最高回報的平均值及標(biāo)準(zhǔn)差。

      圖5 不同算法在10個初始環(huán)境下的平均回報

      Fig.5 Average rewards of different algorithms in ten initial environments

      表2 不同算法每階段最高回報的平均值及標(biāo)準(zhǔn)差

      Table 2 Mean and standard deviation of the highest rewards of different algorithms at each stage

      運行步數(shù)/105最高回報的平均值及標(biāo)準(zhǔn)差MPNTD3TD3DDPG22971.14±886.42629.72±1184.91603.19±379.144876.98±521.14008.01±669.61876.84±239.465355.36±774.84473.44±473.93001.7±640.185604.19±894.74645.91±460.23915.92±428.9105860.73±1208.34763.18±491.54271.4±352.1

      從圖5和表2可以看到,MPNTD3算法比TD3和DDPG算法的收斂速度和訓(xùn)練效果均有較大提升。MPNTD3算法在每個階段的平均回報和最高回報都是最優(yōu)的,而且MPNTD3在4×105步的平均回報和最高回報就超過了TD3在106步的對應(yīng)值,即MPNTD3算法大大加快了網(wǎng)絡(luò)的收斂速度。

      4 結(jié)語

      為了提高雙延遲深度確定性策略梯度算法的網(wǎng)絡(luò)收斂速度和探索性能,本文提出了采用雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法MPNTD3。噪聲流雖然增強了策略網(wǎng)絡(luò)的探索能力,但導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)速度和訓(xùn)練效率都有所下降,網(wǎng)絡(luò)更難收斂,因此通過多步截斷雙Q處理、考慮將來多步回報來更新當(dāng)前目標(biāo)值。該策略有助于算法跳出局部最優(yōu),使噪聲網(wǎng)絡(luò)變得容易收斂,但仍然存在學(xué)習(xí)能力不足的問題。而引入重抽樣優(yōu)選經(jīng)驗池和多步優(yōu)先經(jīng)驗池后,訓(xùn)練樣本質(zhì)量得以提高,彌補了經(jīng)驗回放池中樣本單一的缺點,加快了網(wǎng)絡(luò)收斂速度,提升了網(wǎng)絡(luò)訓(xùn)練效果。與DDPG、TD3等算法相比,MPNTD3的訓(xùn)練效果和訓(xùn)練效率均有較大程度改善,有助于解決深度確定性策略梯度算法中網(wǎng)絡(luò)估計價值過高、探索性差、收斂速度慢等問題。

      猜你喜歡
      經(jīng)驗噪聲樣本
      2021年第20期“最值得推廣的經(jīng)驗”評選
      黨課參考(2021年20期)2021-11-04 09:39:46
      用樣本估計總體復(fù)習(xí)點撥
      噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
      經(jīng)驗
      2018年第20期“最值得推廣的經(jīng)驗”評選
      黨課參考(2018年20期)2018-11-09 08:52:36
      推動醫(yī)改的“直銷樣本”
      控制噪聲有妙法
      隨機微分方程的樣本Lyapunov二次型估計
      村企共贏的樣本
      當(dāng)你遇見了“零經(jīng)驗”的他
      都市麗人(2015年4期)2015-03-20 13:33:22
      邯郸县| 桂林市| 夹江县| 微博| 水城县| 晋州市| 西华县| 曲沃县| 长岛县| 喀喇沁旗| 临城县| 盐亭县| 阿图什市| 墨竹工卡县| 隆安县| 陆川县| 历史| 漾濞| 西宁市| 镇宁| 罗平县| 年辖:市辖区| 深州市| 吉首市| 新化县| 体育| 资兴市| 宜良县| 鄂尔多斯市| 崇明县| 富川| 湘阴县| 宿州市| 遂平县| 祁东县| 揭西县| 探索| 鄄城县| 理塘县| 政和县| 陆河县|