• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    采用雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法

    2020-05-12 14:35:54王垚儒
    武漢科技大學(xué)學(xué)報 2020年2期
    關(guān)鍵詞:經(jīng)驗噪聲樣本

    王垚儒,李 俊

    (1.武漢科技大學(xué)計算機科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室,湖北 武漢,430065)

    強化學(xué)習(xí)(Reinforcement Learning,RL)方法通過智能體與環(huán)境進行交互,觀測到環(huán)境對智能體動作的反饋后,不斷調(diào)整其行為,以提升自身性能。但傳統(tǒng)的強化學(xué)習(xí)局限于低維問題,深度強化學(xué)習(xí)則能更好地處理高維狀態(tài)空間和高維動作空間設(shè)定下的決策問題,并已廣泛應(yīng)用于電腦游戲、機器人控制、語音識別、交通信號控制、自動駕駛等領(lǐng)域[1]。

    文獻[2-3]將強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,提出深度Q網(wǎng)絡(luò)(Deep Q-network, DQN)模型,該模型用于處理基于視覺感知的控制任務(wù),是深度強化學(xué)習(xí)研究領(lǐng)域的開創(chuàng)性工作。之后,很多拓展性方法不斷出現(xiàn),以提升DQN算法的速度和穩(wěn)定性。文獻[4]使用優(yōu)先經(jīng)驗回放技術(shù)有效提高了學(xué)習(xí)效率。文獻[5]采用深度雙Q學(xué)習(xí)策略,通過解耦選擇和引導(dǎo)行動評估解決了Q學(xué)習(xí)中的過估計問題。文獻[6]結(jié)合多步Q學(xué)習(xí)和深度Q學(xué)習(xí)的優(yōu)點,提出了深度多Q學(xué)習(xí)方法,其穩(wěn)定性較好且更具有普適性。文獻[7]構(gòu)建競爭網(wǎng)絡(luò)結(jié)構(gòu),采用兩條支路分別估計狀態(tài)價值和動作優(yōu)勢,這樣一來,對于各個狀態(tài)就不必評估每個動作選項產(chǎn)生的效果,進一步提高了智能體的學(xué)習(xí)效率。文獻[8]提出噪聲流深度Q學(xué)習(xí)策略,使用隨機網(wǎng)絡(luò)層進行勘測,增強了網(wǎng)絡(luò)探索性能。文獻[9]提出Rainbow算法,結(jié)合多種DQN的改進方式,在不同層面上提高了算法性能。然而,DQN算法難以應(yīng)對大的動作空間,特別是在連續(xù)動作情況下。

    文獻[10]提出的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)算法是表演者-評論家(Actor-Critic,AC)框架和 DQN 算法的結(jié)合體,其在動作輸出方面采用一個網(wǎng)絡(luò)來擬合策略函數(shù),可以很好地應(yīng)對連續(xù)動作的輸出及大的動作空間。文獻[11]提出混合型Actor-Critic指導(dǎo)方法,融合了多個策略網(wǎng)絡(luò)和對應(yīng)的值網(wǎng)絡(luò),該方法在自適應(yīng)機器人控制中取得了實質(zhì)性進展。文獻[12]采用循環(huán)確定性策略梯度和循環(huán)隨機值梯度方法,處理一系列部分可觀察場景下的連續(xù)動作控制任務(wù)。文獻[13]中提出的異步優(yōu)勢表演者-評論家算法(Asynchronous Advantage Actor-Critic,A3C)降低了訓(xùn)練時的硬件要求,在各類連續(xù)動作空間的控制任務(wù)中表現(xiàn)較好。文獻[14]提出的雙延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic Policy Gradient,TD3)是以深度雙Q學(xué)習(xí)為基礎(chǔ),采用雙評論家,選取其中較小的值來平衡價值,并延遲更新策略網(wǎng)絡(luò),以減少更新錯誤,同時為目標(biāo)行為增加噪聲,用作算法的正則化器。TD3算法很好地解決了DDPG中估計價值過高的問題,但是網(wǎng)絡(luò)的收斂速度和探索性能仍有待提高。

    本文提出一種基于多步優(yōu)先和重抽樣優(yōu)選雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法(簡記為MPNTD3),在策略網(wǎng)絡(luò)中添加噪聲以增加參數(shù)的隨機性,并引入多步優(yōu)先經(jīng)驗回放池和重抽樣優(yōu)選經(jīng)驗回放池??紤]多步回報,利用優(yōu)先級更高的樣本來更新當(dāng)前的目標(biāo)值,可解決噪聲網(wǎng)絡(luò)難以收斂的問題,同時引入重抽樣優(yōu)選經(jīng)驗池和多步優(yōu)先經(jīng)驗回放池則在一定程度上彌補了重抽樣優(yōu)選機制中低優(yōu)先級樣本不足的缺點。本文最后在OpenAI Gym仿真平臺上的Walker2d-v2場景中進行實驗,以檢驗MPNTD3算法的性能。

    1 相關(guān)知識

    1.1 DQN算法

    (1)

    式中:γ為折扣因子;E[·]代表期望值。

    當(dāng)時間步數(shù)i→時,當(dāng)前狀態(tài)-動作值Qi收斂到最優(yōu)。在實際應(yīng)用中,通常使用函數(shù)逼近的泛化方法近似估計Q*(s,a),即Q*(s,a)≈Q(s,a;θ)。DQN算法采用卷積神經(jīng)網(wǎng)絡(luò)函數(shù)近似器,這時θ代表網(wǎng)絡(luò)權(quán)重。參數(shù)θ可通過最小化損失函數(shù)的方式進行計算,損失函數(shù)定義為:

    Li(θi)=Es′~S[(yi-Q(s,a;θi))2]

    (2)

    其中,

    (3)

    在網(wǎng)絡(luò)參數(shù)θi-1保持不變的情況下,優(yōu)化損失函數(shù)Li(θi)。對損失函數(shù)的參數(shù)進行微分得到梯度公式:

    Q(s,a;θi))θiQ(s,a;θi)]

    (4)

    然后通過求解Bellman方程得出最優(yōu)策略。

    DQN算法中最關(guān)鍵的技術(shù)就是經(jīng)驗回放,即設(shè)置經(jīng)驗池。將每個時間步中智能體與環(huán)境交互得到的轉(zhuǎn)移樣本(s,a,r,s′)儲存到回放記憶單元,然后隨機取出一些樣本進行訓(xùn)練,這種將過程打成碎片存儲、訓(xùn)練時隨機抽取的方式可以避免相關(guān)性問題。

    1.2 DDPG算法

    DDPG算法是在Actor-Critic框架的基礎(chǔ)上,基于DQN的經(jīng)驗回放和雙網(wǎng)絡(luò)結(jié)構(gòu)對確定性策略梯度算法進行改進[15]。雙網(wǎng)絡(luò)結(jié)構(gòu)的方法是指構(gòu)造結(jié)構(gòu)相同而參數(shù)不同的基于Actor-Critic框架的估值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),采用經(jīng)驗回放方法對目標(biāo)網(wǎng)絡(luò)參數(shù)進行更新。確定性策略可以描述為在狀態(tài)s下采取的確定性動作a,動作值函數(shù)表示在狀態(tài)s中采取a之后的預(yù)期回報,使用參數(shù)為θμ和θQ的神經(jīng)網(wǎng)絡(luò)來表示確定性策略a=μ(s|θμ)和值函數(shù)Q(s,a|θQ)。

    目標(biāo)網(wǎng)絡(luò)輸出為目標(biāo)Q值(Qtarget),估計網(wǎng)絡(luò)輸出為估計Q值(Qtarget),記二者的差值為TD-error,Critic 網(wǎng)絡(luò)訓(xùn)練基于TD-error 的平方均值。估計Q值是將當(dāng)前的狀態(tài)s和估值A(chǔ)ctor網(wǎng)絡(luò)輸出的動作a輸入估值Critic網(wǎng)絡(luò)得到,而目標(biāo)Q值是將下一時刻的狀態(tài)s′及由目標(biāo)Actor網(wǎng)絡(luò)所得動作a′輸入到目標(biāo)Critic網(wǎng)絡(luò)后得到的Q值進行折扣后與目標(biāo)獎勵r相加得到。具體公式如下:

    yi=r+γQ(s′,μ(s′|θμ′)|θQ′)

    (5)

    (6)

    式中:yi為目標(biāo)Q值;Q(s,a|θQ)為估計Q值;L為TD-error 的平方均值。

    估值A(chǔ)ctor網(wǎng)絡(luò)通過動作值函數(shù)將狀態(tài)映射到指定動作來更新當(dāng)前策略,狀態(tài)回報定義為未來折扣獎賞總回報,通過David Silver策略梯度方法對目標(biāo)函數(shù)進行端對端的優(yōu)化, 從而朝著獲得最大總回報的方向更新。Actor網(wǎng)絡(luò)參數(shù)更新公式如下:

    (7)

    1.3 TD3算法

    針對DDPG算法中估計價值過高的問題,TD3算法采用截斷雙Q學(xué)習(xí)、目標(biāo)策略平滑處理、延遲更新策略三種方法來平衡價值。

    截斷雙Q學(xué)習(xí)是將原來的一個Q函數(shù)分為兩個,這兩個Q函數(shù)都針對單目標(biāo)更新,選擇其中較小的一個作為目標(biāo)值,這樣有助于抵消Q函數(shù)中的過高估計,具體公式如下:

    (8)

    (9)

    (10)

    式中:d表示環(huán)境狀態(tài),為布爾型變量,若當(dāng)前動作后整個過程結(jié)束,則d=True,否則d=False;D為訓(xùn)練樣本集合。

    目標(biāo)策略平滑處理是基于目標(biāo)策略μ得出目標(biāo)動作,同時在動作的每個維度上添加擾動因子,使得目標(biāo)動作a的取值滿足條件:alow≤a≤ahigh,其中alow、ahigh分別表示動作a可取的最大值和最小值。目標(biāo)策略平滑處理可表示為:

    a′=clip(μ(s′)+o,alow,ahigh)

    o~clip(N(0,σ),-c,c)

    (11)

    式中:clip(x,-y,y)表示將x中的每個元素截斷到區(qū)間 [-y,y]中。

    目標(biāo)策略平滑處理為目標(biāo)行為增加了噪聲,用作算法的正則化器。它解決了DDPG中可能發(fā)生的如下特定故障模式:如果Q函數(shù)逼近器產(chǎn)生不正確的峰值,則上述方法將快速利用該峰值使Q函數(shù)變得平滑。

    延遲更新策略是指,在TD3中Actor網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)參數(shù)的更新頻率比Critic網(wǎng)絡(luò)參數(shù)的更新頻率要低,這有助于抑制DDPG中通常出現(xiàn)的波動現(xiàn)象。

    2 本文算法設(shè)計

    2.1 噪聲網(wǎng)絡(luò)

    為了提高本文算法的網(wǎng)絡(luò)探索性能,在策略網(wǎng)絡(luò)的全連接層中添加噪聲,以增強網(wǎng)絡(luò)參數(shù)w、b的隨機性。關(guān)于參數(shù)b和w的目標(biāo)函數(shù)服從于均值為μ、方差為σ的正態(tài)分布,同時存在一定的隨機噪聲ε,并假設(shè)噪聲服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),則新形成的到噪聲層的前向傳播方式如下:

    y=(b+wx)+[bnεb+(wnεw)x]

    =(w+wnεw)x+b+bnεb

    (12)

    式中:wn和bn為噪聲層的權(quán)重和偏移量;εw和εb代表權(quán)重和偏移量的隨機噪聲。

    添加噪聲增加了參數(shù)的隨機性,網(wǎng)絡(luò)探索能力加強,網(wǎng)絡(luò)的性能也會提高,但同時網(wǎng)絡(luò)也會變得更加難以收斂。

    本文采用兩種方式來加快噪聲網(wǎng)絡(luò)的收斂。一是考慮多步回報,將截斷雙Q處理改為多步截斷雙Q處理,增加網(wǎng)絡(luò)對于目標(biāo)值的評估準(zhǔn)確性;二是通過重抽樣優(yōu)選經(jīng)驗回放池,在訓(xùn)練后期使用學(xué)習(xí)價值更大的樣本,使網(wǎng)絡(luò)進一步收斂。

    2.2 多步截斷雙Q學(xué)習(xí)

    多步截斷雙Q學(xué)習(xí)是在截斷雙Q學(xué)習(xí)方法中利用將來多步信息來更新當(dāng)前的目標(biāo)值。TD3算法僅利用了未來一步的信息,存在更新速度慢的問題,而本文采用的多步截斷雙Q學(xué)習(xí)考慮未來n步的影響。

    (13)

    選擇適當(dāng)?shù)膎值可以提高網(wǎng)絡(luò)的性能和收斂速度。

    2.3 多步優(yōu)先經(jīng)驗回放池

    在截斷雙Q處理時要考慮多步回報,因此將優(yōu)先經(jīng)驗回放池改進為多步優(yōu)先經(jīng)驗回放池,即按照優(yōu)先經(jīng)驗回放池的存儲結(jié)構(gòu)和采樣方法將多個連續(xù)樣本作為基礎(chǔ)單元進行存儲。

    優(yōu)先經(jīng)驗回放池是通過TD-error, 即目標(biāo)Q值和估計Q值的差值來評判樣本的價值[16-17]。TD-error越大,則該樣本的優(yōu)先級p越高。樣本j的采樣概率P(j)為:

    (14)

    式中:i為經(jīng)驗回放池中的所有樣本編號;pi、pj為樣本的優(yōu)先級,即所計算出的TD-error值;參數(shù)α控制采樣的隨機性程度,取值范圍為[0,1],α=0時表示均勻采樣,α=1對應(yīng)于完全根據(jù)優(yōu)先級的貪婪式采樣。

    優(yōu)先經(jīng)驗回放增加了網(wǎng)絡(luò)向有較大學(xué)習(xí)價值的樣本進行學(xué)習(xí)的概率,從而提升學(xué)習(xí)效率,使網(wǎng)絡(luò)更快收斂。

    多步優(yōu)先經(jīng)驗回放池如圖1所示,其構(gòu)建步驟如下:

    1.初始化多步學(xué)習(xí)中的超參數(shù)n和一個大小為n的隊列q,初始化優(yōu)先經(jīng)驗回放池B;設(shè)置總的運行次數(shù)T和環(huán)境狀態(tài)d

    2.fort=1 toTdo

    3. 初始化環(huán)境

    4. whiled==False

    5. 執(zhí)行動作后,產(chǎn)生樣本信息(s,a,r,s′,d)

    6. if q 已滿

    7. 刪除q中第一個樣本,將(s,a,r,s′,d)存入q的末尾

    8. else

    9. 將(s,a,r,s′,d)存入q末尾,形成一個向前移動的滑動窗口

    10. end if

    11. 將q隊列存入B中,計算TD-error:pj=R′+Qtarget-Qeval,其中R′為q隊列的樣本回報總和;按式(14)更新當(dāng)前q隊列的優(yōu)先級

    12.end while

    13.end for

    圖1 多步優(yōu)先經(jīng)驗回放池的結(jié)構(gòu)

    Fig.1 Structure of multi-step prioritized experience replay buffer

    2.4 重抽樣優(yōu)選經(jīng)驗回放池

    2.5 雙經(jīng)驗回放池的設(shè)置

    經(jīng)過重抽樣后,回放池中的記憶單元不再獨立,經(jīng)過若干次迭代后,具有高權(quán)重的記憶單元將被多次復(fù)制,而具有較低權(quán)重的記憶單元將逐漸消失,使回放池中的訓(xùn)練集太小或不充分。

    為解決上述問題,使用兩個經(jīng)驗回放池:B1和B2。B1為多步優(yōu)先經(jīng)驗回放池,B2為單步優(yōu)先經(jīng)驗回放池。B1無差別存儲樣本,B2采用重抽樣機制來存儲樣本,以概率P(j)將樣本存入B2。訓(xùn)練時,每局結(jié)束后網(wǎng)絡(luò)開始迭代更新參數(shù),樣本從B1中獲取。在模型已能取得較好的回報之后,改為每局中單步迭代更新參數(shù),樣本從B2中獲取。通過更好的訓(xùn)練樣本,增加迭代次數(shù)以提升網(wǎng)絡(luò)性能。

    2.6 本文算法流程

    MPNTD3算法的詳細(xì)步驟為:

    1.用參數(shù)θ1、θ2、φ初始化估計網(wǎng)絡(luò)中 的Critic 網(wǎng)絡(luò)(Qθ1、Qθ2)以及Actor 網(wǎng)絡(luò)(μφ)

    3.初始化經(jīng)驗池B1、B2,設(shè)置游戲步數(shù)閾值stepNum、延遲更新參數(shù)f、總的運行次數(shù)T、環(huán)境狀態(tài)d、學(xué)習(xí)率τ

    4.fort=1 toTdo

    5. 初始化環(huán)境

    6. whiled==False

    7. 根據(jù)a~μφ(s)+o,o~N(0,σ)選擇動作

    8. 執(zhí)行動作后,將(s,a,r,s′,d)存入經(jīng)驗池B1中,通過公式(14)得出概率p,以概率p存入經(jīng)驗池B2

    9. ift>stepNum

    10. 按維度batch-size從B2中采樣:(s,a,r,s′,d)

    11. 按式(11)進行噪聲剪切后得到a′

    12. 通過式(13)得到目標(biāo)值

    13. 更新 Critic 網(wǎng)絡(luò):

    14. end if

    15. ift%f==0

    16. 根據(jù)式(7)更新Actor網(wǎng)絡(luò)

    17. 更新目標(biāo)網(wǎng)絡(luò)參數(shù):

    θ′1←τθ1+(1-τ)θ′1

    θ′2←τθ2+(1-τ)θ′2

    φ′←τφ+(1-τ)φ′

    18. end if

    19.end while

    20.從B1中采樣(s,a,r,s′,d),重復(fù)步驟11~18更新網(wǎng)絡(luò)參數(shù)

    21.end for

    3 實驗與結(jié)果分析

    3.1 實驗環(huán)境及參數(shù)設(shè)置

    為了驗證改進算法的有效性并分析關(guān)鍵參數(shù)對算法的影響,下面針對OpenAI Gym平臺[18]Box2D仿真庫中的Walker2d-v2場景進行研究,如圖2所示。Walker2d-v2場景是為了使二維雙足機器人更快更穩(wěn)地向前行走。編程語言為Python 3.6.6,使用PyTorch 0.4搭建網(wǎng)絡(luò),其他軟件包括OpenAI Gym 0.10.0、Box2D-py 2.3.8。

    圖2 Walker2d-v2場景

    Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)的前兩層均采用噪聲層,分別由400和300個神經(jīng)節(jié)點組成,第一層后面和第二層后面都是激活函數(shù)ReLU,Actor的網(wǎng)絡(luò)尾部連接激活函數(shù)tanh作為最后輸出。Actor第一層輸入為狀態(tài)s,Critic的第一層輸入為狀態(tài)s和動作a。所有的網(wǎng)絡(luò)參數(shù)均采用Adam算法作為梯度下降方式,學(xué)習(xí)率為0.001。 噪聲層中σ=0.4,用于初始化噪聲流的權(quán)重。

    目標(biāo)策略平滑處理中有o~clip(N(0,σ),-c,c),參數(shù)σ=0.2、c=0.5,延遲更新策略中參數(shù)f=2。對優(yōu)先經(jīng)驗回放池的參數(shù)α進行優(yōu)化,α分別取0.1、0.3、0.5這3個值,經(jīng)測試,α為0.1和0.3時算法表現(xiàn)良好,其中α=0.1時表現(xiàn)最佳,因此后續(xù)實驗均取α=0.1。計算TD-error時,為防止TD-error為0而給其加上一個極小數(shù)v,v取0.0001。總訓(xùn)練步數(shù)為106,經(jīng)驗池容量為5×105,batch-size為100,游戲步數(shù)閾值stepNum分別為4×105、6×105、8×105,經(jīng)測試,在stepNum=6×105時表現(xiàn)最佳,多步學(xué)習(xí)策略中的n值十分敏感,在后續(xù)算法分析中比較了n分別取1、3、5、7時的訓(xùn)練情況。

    訓(xùn)練時,Walker2d-v2場景由種子0~10產(chǎn)生10個隨機的初始環(huán)境,每個任務(wù)運行106步,每5000步評估一次網(wǎng)絡(luò)。通過TD3、NTD3(噪聲網(wǎng)絡(luò)+TD3)、MNTD3(多步截斷雙Q學(xué)習(xí)+噪聲網(wǎng)絡(luò)+TD3)和MPNTD3這4種算法在Walker2d-v2場景下的得分進行比較分析,其中MNTD3采用普通的經(jīng)驗池結(jié)構(gòu)和采樣機制,將普通經(jīng)驗池中單個樣本為存儲單元改為多個樣本為一個存儲單元,對存儲單元隨機采樣。

    3.2 結(jié)果分析

    由于深度強化學(xué)習(xí)沒有訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集,難以在線評估算法的訓(xùn)練情況。因此,訓(xùn)練效果的評估主要有兩種方式:一是使用回報值,網(wǎng)絡(luò)訓(xùn)練一定周期后,平均回報值越高表明網(wǎng)絡(luò)訓(xùn)練效果越好;二是訓(xùn)練的網(wǎng)絡(luò)越快達到穩(wěn)定表明算法收斂性越好。

    3.2.1 優(yōu)化策略實施效果

    首先分析噪聲網(wǎng)絡(luò)、多步截斷雙Q學(xué)習(xí)以及雙經(jīng)驗回放池這3個優(yōu)化策略對提高本文算法性能的效果。

    圖3(a)、圖3(b)分別為Walker2d-v2場景下種子取0和1時4種算法的學(xué)習(xí)曲線,其中n為多步學(xué)習(xí)的步數(shù)。表1為各算法在種子取0和1時的最高回報的平均值。由圖3和表1可以看出:噪聲流的引入增加了網(wǎng)絡(luò)參數(shù)的隨機性,使得NTD3算法的最高回報均值比TD3算法的相應(yīng)值少了53.1%,網(wǎng)絡(luò)收斂速度也大大下降;MNTD3算法通過多步截斷雙Q學(xué)習(xí)策略避免了局部最優(yōu)問題,雖然相比于TD3算法,其最高回報均值仍下降了近10%,但是網(wǎng)絡(luò)收斂速度比NTD3和TD3算法都有所提高;MPNTD3算法通過考慮多步信息和提高訓(xùn)練樣本質(zhì)量,在多步參數(shù)n為3和5時,最高回報均值比TD3算法的相應(yīng)值分別提高了6.5%和35.9%,網(wǎng)絡(luò)收斂速度也都優(yōu)于TD3算法。

    (a)種子為0

    (b) 種子為1

    Fig.3 Learning curves of four algorithms in different initial environments

    表1 4種算法的最高回報平均值

    圖4為Walker2d-v2場景下種子取0時,TD3算法和多步參數(shù)n分別取1、3、5、7的MPNTD3算法的學(xué)習(xí)曲線。由圖4可見, MPNTD3算法對多步學(xué)習(xí)參數(shù)n十分敏感,適當(dāng)?shù)膎值使網(wǎng)絡(luò)性能和訓(xùn)練速度有較大提升;在n為3和5的情況下,MPNTD3比TD3的最高回報分別提升了13.7%和60.6%;但n值過大(如n=7)會加大網(wǎng)絡(luò)訓(xùn)練難度,甚至?xí)?dǎo)致網(wǎng)絡(luò)難以收斂;在網(wǎng)絡(luò)可以收斂的情況下,存在n值越大則前期收斂速度越慢而后期性能越好的變化趨勢。

    圖4 TD3和取不同n值的MPNTD3的學(xué)習(xí)曲線

    Fig.4 Learning curves of TD3 and MPNTD3 with differentnvalues

    在Walker2d-v2場景下種子取0時,設(shè)置單優(yōu)先經(jīng)驗回放池和雙經(jīng)驗回放池的MPNTD3算法的最高回報分別為7996.03和8236.56。設(shè)置雙經(jīng)驗回放池旨在選擇學(xué)習(xí)價值大的樣本再次訓(xùn)練網(wǎng)絡(luò),由上述結(jié)果可知,改進措施使MPNTD3算法的最高回報增加了3%。

    3.2.2 算法整體性能分析

    對Walker2d-v2場景中MPNTD3、TD3、DDPG算法以及Walker2d-v1場景中TD3算法(記為TD3-v1)[14]在10個隨機初始環(huán)境下的學(xué)習(xí)曲線進行統(tǒng)計分析,結(jié)果見圖5,圖中曲線代表10個隨機初始環(huán)境的平均回報,陰影部分代表統(tǒng)計指標(biāo)的±σ/2區(qū)域。實驗中,由種子3、4、6、7產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=3,其余種子產(chǎn)生的初始環(huán)境下學(xué)習(xí)步數(shù)n=5。表2所示為10個隨機初始環(huán)境下各算法每階段最高回報的平均值及標(biāo)準(zhǔn)差。

    圖5 不同算法在10個初始環(huán)境下的平均回報

    Fig.5 Average rewards of different algorithms in ten initial environments

    表2 不同算法每階段最高回報的平均值及標(biāo)準(zhǔn)差

    Table 2 Mean and standard deviation of the highest rewards of different algorithms at each stage

    運行步數(shù)/105最高回報的平均值及標(biāo)準(zhǔn)差MPNTD3TD3DDPG22971.14±886.42629.72±1184.91603.19±379.144876.98±521.14008.01±669.61876.84±239.465355.36±774.84473.44±473.93001.7±640.185604.19±894.74645.91±460.23915.92±428.9105860.73±1208.34763.18±491.54271.4±352.1

    從圖5和表2可以看到,MPNTD3算法比TD3和DDPG算法的收斂速度和訓(xùn)練效果均有較大提升。MPNTD3算法在每個階段的平均回報和最高回報都是最優(yōu)的,而且MPNTD3在4×105步的平均回報和最高回報就超過了TD3在106步的對應(yīng)值,即MPNTD3算法大大加快了網(wǎng)絡(luò)的收斂速度。

    4 結(jié)語

    為了提高雙延遲深度確定性策略梯度算法的網(wǎng)絡(luò)收斂速度和探索性能,本文提出了采用雙經(jīng)驗回放池的噪聲流雙延遲深度確定性策略梯度算法MPNTD3。噪聲流雖然增強了策略網(wǎng)絡(luò)的探索能力,但導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)速度和訓(xùn)練效率都有所下降,網(wǎng)絡(luò)更難收斂,因此通過多步截斷雙Q處理、考慮將來多步回報來更新當(dāng)前目標(biāo)值。該策略有助于算法跳出局部最優(yōu),使噪聲網(wǎng)絡(luò)變得容易收斂,但仍然存在學(xué)習(xí)能力不足的問題。而引入重抽樣優(yōu)選經(jīng)驗池和多步優(yōu)先經(jīng)驗池后,訓(xùn)練樣本質(zhì)量得以提高,彌補了經(jīng)驗回放池中樣本單一的缺點,加快了網(wǎng)絡(luò)收斂速度,提升了網(wǎng)絡(luò)訓(xùn)練效果。與DDPG、TD3等算法相比,MPNTD3的訓(xùn)練效果和訓(xùn)練效率均有較大程度改善,有助于解決深度確定性策略梯度算法中網(wǎng)絡(luò)估計價值過高、探索性差、收斂速度慢等問題。

    猜你喜歡
    經(jīng)驗噪聲樣本
    2021年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2021年20期)2021-11-04 09:39:46
    用樣本估計總體復(fù)習(xí)點撥
    噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
    經(jīng)驗
    2018年第20期“最值得推廣的經(jīng)驗”評選
    黨課參考(2018年20期)2018-11-09 08:52:36
    推動醫(yī)改的“直銷樣本”
    控制噪聲有妙法
    隨機微分方程的樣本Lyapunov二次型估計
    村企共贏的樣本
    當(dāng)你遇見了“零經(jīng)驗”的他
    都市麗人(2015年4期)2015-03-20 13:33:22
    最好的美女福利视频网| 亚洲av成人不卡在线观看播放网| 国产蜜桃级精品一区二区三区| 久久久精品欧美日韩精品| 欧美在线一区亚洲| svipshipincom国产片| 人人妻人人看人人澡| 一区二区三区激情视频| 久久精品国产清高在天天线| 禁无遮挡网站| 亚洲欧美日韩高清在线视频| 久久久久久人人人人人| 国产精品二区激情视频| 国产99白浆流出| 久久婷婷人人爽人人干人人爱| 日本a在线网址| 亚洲人成伊人成综合网2020| 91九色精品人成在线观看| 亚洲三区欧美一区| 99精品欧美一区二区三区四区| 国产精品 国内视频| 99久久精品国产亚洲精品| 久久国产亚洲av麻豆专区| 亚洲精品国产区一区二| av有码第一页| aaaaa片日本免费| 中文字幕av电影在线播放| 国产一区二区三区视频了| 18禁国产床啪视频网站| 久久午夜亚洲精品久久| 亚洲精品av麻豆狂野| 妹子高潮喷水视频| 啦啦啦 在线观看视频| 久久午夜亚洲精品久久| 波多野结衣巨乳人妻| 国产高清视频在线播放一区| a级毛片a级免费在线| 桃红色精品国产亚洲av| 一级毛片女人18水好多| 久久精品人妻少妇| 免费观看人在逋| 国产视频内射| 亚洲国产精品合色在线| 日韩欧美一区二区三区在线观看| 桃红色精品国产亚洲av| 日日爽夜夜爽网站| 女人高潮潮喷娇喘18禁视频| 性色av乱码一区二区三区2| 非洲黑人性xxxx精品又粗又长| 久久这里只有精品19| 一级毛片女人18水好多| 白带黄色成豆腐渣| 国产又色又爽无遮挡免费看| 日韩av在线大香蕉| 久久伊人香网站| 国产乱人伦免费视频| 国内揄拍国产精品人妻在线 | www.精华液| 午夜福利18| 久热这里只有精品99| cao死你这个sao货| 精品第一国产精品| 天天躁夜夜躁狠狠躁躁| 天天添夜夜摸| www国产在线视频色| 超碰成人久久| 国产又爽黄色视频| 国产成人精品无人区| 老司机福利观看| 亚洲va日本ⅴa欧美va伊人久久| 亚洲欧美日韩无卡精品| 日韩av在线大香蕉| 精品久久久久久久久久免费视频| 亚洲成人久久性| 亚洲精品国产精品久久久不卡| 欧美人与性动交α欧美精品济南到| 欧美最黄视频在线播放免费| 久久久久久九九精品二区国产 | 99精品久久久久人妻精品| 中文字幕久久专区| www.自偷自拍.com| 嫩草影院精品99| 十分钟在线观看高清视频www| 亚洲专区字幕在线| 日韩欧美一区二区三区在线观看| 给我免费播放毛片高清在线观看| 久久欧美精品欧美久久欧美| 亚洲国产欧洲综合997久久, | 午夜影院日韩av| 国产伦人伦偷精品视频| 亚洲天堂国产精品一区在线| 自线自在国产av| 听说在线观看完整版免费高清| 99久久精品国产亚洲精品| 一本大道久久a久久精品| 亚洲第一av免费看| 国产亚洲av嫩草精品影院| 国产成人av激情在线播放| 12—13女人毛片做爰片一| 成人免费观看视频高清| 婷婷丁香在线五月| 999久久久精品免费观看国产| 久久精品影院6| 人人妻人人澡人人看| 午夜日韩欧美国产| 男女做爰动态图高潮gif福利片| 一本久久中文字幕| 一区二区三区国产精品乱码| 在线观看一区二区三区| tocl精华| 人人妻人人看人人澡| 天天躁狠狠躁夜夜躁狠狠躁| 久久精品成人免费网站| 成人精品一区二区免费| avwww免费| 欧美成人一区二区免费高清观看 | 亚洲国产中文字幕在线视频| 12—13女人毛片做爰片一| 亚洲av电影在线进入| 久久久精品国产亚洲av高清涩受| 手机成人av网站| 免费电影在线观看免费观看| 国内精品久久久久久久电影| 少妇 在线观看| 亚洲熟妇中文字幕五十中出| 久久久久久亚洲精品国产蜜桃av| 亚洲人成网站在线播放欧美日韩| 国产亚洲欧美在线一区二区| 欧美中文综合在线视频| 老熟妇仑乱视频hdxx| 亚洲性夜色夜夜综合| 欧美另类亚洲清纯唯美| 欧美成人午夜精品| 嫩草影院精品99| 特大巨黑吊av在线直播 | 国产极品粉嫩免费观看在线| 757午夜福利合集在线观看| 精品国产美女av久久久久小说| 制服诱惑二区| 国产免费男女视频| 99精品欧美一区二区三区四区| 国产成人av教育| 天天一区二区日本电影三级| 长腿黑丝高跟| 午夜福利成人在线免费观看| 每晚都被弄得嗷嗷叫到高潮| 可以在线观看的亚洲视频| 欧美日本视频| 岛国视频午夜一区免费看| 亚洲人成电影免费在线| 国语自产精品视频在线第100页| 国产免费av片在线观看野外av| 国产欧美日韩一区二区精品| 色播在线永久视频| 宅男免费午夜| 黄片大片在线免费观看| 精品欧美一区二区三区在线| 国产精品亚洲av一区麻豆| 亚洲精品色激情综合| 精品免费久久久久久久清纯| 两人在一起打扑克的视频| 午夜福利成人在线免费观看| 国产熟女xx| 一进一出抽搐gif免费好疼| 亚洲激情在线av| 黄色视频不卡| 俺也久久电影网| 精品日产1卡2卡| 欧美日本视频| 久久精品人妻少妇| 久久久水蜜桃国产精品网| 午夜免费激情av| www.精华液| www日本在线高清视频| 男女午夜视频在线观看| 天堂动漫精品| 黄片大片在线免费观看| 成人亚洲精品av一区二区| 成人永久免费在线观看视频| 日本免费一区二区三区高清不卡| 欧美激情 高清一区二区三区| 18美女黄网站色大片免费观看| 国产又黄又爽又无遮挡在线| 熟女电影av网| 亚洲精品久久成人aⅴ小说| 男人操女人黄网站| 白带黄色成豆腐渣| 国产精品精品国产色婷婷| 欧美国产日韩亚洲一区| 每晚都被弄得嗷嗷叫到高潮| 中国美女看黄片| 精品久久久久久久人妻蜜臀av| 欧美在线黄色| 久久久精品国产亚洲av高清涩受| 动漫黄色视频在线观看| 国产成人精品久久二区二区91| xxx96com| 国内揄拍国产精品人妻在线 | 搡老熟女国产l中国老女人| 在线观看一区二区三区| 欧美色欧美亚洲另类二区| 变态另类成人亚洲欧美熟女| 日韩欧美免费精品| 日日爽夜夜爽网站| 91麻豆精品激情在线观看国产| 中文字幕精品亚洲无线码一区 | 俄罗斯特黄特色一大片| 中文字幕久久专区| 国产一区在线观看成人免费| 亚洲欧美激情综合另类| 欧美日韩黄片免| 久久人妻福利社区极品人妻图片| 一级毛片女人18水好多| 国产精品久久久人人做人人爽| 精品无人区乱码1区二区| 国语自产精品视频在线第100页| av有码第一页| 精品一区二区三区av网在线观看| 一区二区日韩欧美中文字幕| 亚洲成国产人片在线观看| 日本黄色视频三级网站网址| 欧美激情高清一区二区三区| 可以在线观看毛片的网站| 亚洲国产看品久久| 国产视频内射| 亚洲 国产 在线| av超薄肉色丝袜交足视频| 亚洲中文日韩欧美视频| 丰满的人妻完整版| 亚洲av电影不卡..在线观看| 男女午夜视频在线观看| 亚洲成人久久爱视频| 国产精品99久久99久久久不卡| 国产精品日韩av在线免费观看| 欧洲精品卡2卡3卡4卡5卡区| 亚洲国产精品sss在线观看| 欧美乱妇无乱码| 国产精品国产高清国产av| 国产精品九九99| 国产精品 欧美亚洲| 亚洲真实伦在线观看| 91国产中文字幕| 亚洲最大成人中文| 女生性感内裤真人,穿戴方法视频| 久久伊人香网站| 亚洲真实伦在线观看| 欧美成狂野欧美在线观看| 色婷婷久久久亚洲欧美| 国产一区二区三区在线臀色熟女| 啦啦啦韩国在线观看视频| 国产精品香港三级国产av潘金莲| 国产亚洲欧美98| 久久久久久免费高清国产稀缺| 国产成人精品久久二区二区91| 一区二区三区国产精品乱码| 日韩三级视频一区二区三区| 亚洲在线自拍视频| 久久精品国产亚洲av香蕉五月| 久久这里只有精品19| 欧美三级亚洲精品| 欧美成人一区二区免费高清观看 | 麻豆一二三区av精品| 国产精品久久久久久精品电影 | 99热只有精品国产| 在线播放国产精品三级| 99re在线观看精品视频| 很黄的视频免费| 国产一级毛片七仙女欲春2 | 国产精品影院久久| 别揉我奶头~嗯~啊~动态视频| 亚洲专区国产一区二区| 色播亚洲综合网| 美国免费a级毛片| 老汉色av国产亚洲站长工具| 久久热在线av| 精品国产美女av久久久久小说| 久久草成人影院| 一区二区三区高清视频在线| 禁无遮挡网站| 一区二区三区激情视频| 欧美成人一区二区免费高清观看 | 在线国产一区二区在线| 琪琪午夜伦伦电影理论片6080| 精品第一国产精品| 免费电影在线观看免费观看| 天堂影院成人在线观看| 男女做爰动态图高潮gif福利片| 欧美黄色淫秽网站| 神马国产精品三级电影在线观看 | 亚洲 欧美一区二区三区| 国产欧美日韩一区二区三| www国产在线视频色| 韩国精品一区二区三区| 国产精品美女特级片免费视频播放器 | 在线观看66精品国产| 免费高清视频大片| 久久人妻av系列| 国产精品香港三级国产av潘金莲| 色av中文字幕| 国产真人三级小视频在线观看| 精品无人区乱码1区二区| 色哟哟哟哟哟哟| 色精品久久人妻99蜜桃| 两性午夜刺激爽爽歪歪视频在线观看 | 91av网站免费观看| 国产伦一二天堂av在线观看| 俄罗斯特黄特色一大片| 女人爽到高潮嗷嗷叫在线视频| 黄色视频不卡| 国产精品野战在线观看| 国产主播在线观看一区二区| 中文字幕人妻熟女乱码| 亚洲av五月六月丁香网| 亚洲精品粉嫩美女一区| 久久精品国产99精品国产亚洲性色| 女人爽到高潮嗷嗷叫在线视频| 久久精品aⅴ一区二区三区四区| 久久性视频一级片| netflix在线观看网站| 国产精品香港三级国产av潘金莲| 一本一本综合久久| 一本综合久久免费| 国产精品久久久人人做人人爽| 99精品久久久久人妻精品| 两性午夜刺激爽爽歪歪视频在线观看 | 久久久久久人人人人人| 免费观看人在逋| 最新美女视频免费是黄的| 99国产极品粉嫩在线观看| 男女视频在线观看网站免费 | 黄色毛片三级朝国网站| 国产精品二区激情视频| 九色国产91popny在线| 日韩欧美一区二区三区在线观看| 黄色丝袜av网址大全| 日韩 欧美 亚洲 中文字幕| 欧美中文日本在线观看视频| 国产在线观看jvid| 性欧美人与动物交配| 午夜福利在线在线| 国产视频内射| 亚洲国产精品sss在线观看| 国产97色在线日韩免费| 国产精品久久久av美女十八| 在线av久久热| 日韩成人在线观看一区二区三区| 国产单亲对白刺激| 亚洲第一av免费看| 99热这里只有精品一区 | 777久久人妻少妇嫩草av网站| 51午夜福利影视在线观看| 国产亚洲精品综合一区在线观看 | 日韩三级视频一区二区三区| 精品久久久久久成人av| 天天躁夜夜躁狠狠躁躁| 这个男人来自地球电影免费观看| 无限看片的www在线观看| 亚洲av成人av| 日本三级黄在线观看| 人人妻,人人澡人人爽秒播| 国产黄色小视频在线观看| 观看免费一级毛片| 国产男靠女视频免费网站| 欧美成人一区二区免费高清观看 | 亚洲五月婷婷丁香| 亚洲一区二区三区不卡视频| 精品乱码久久久久久99久播| 欧美丝袜亚洲另类 | 久久久精品欧美日韩精品| 国产在线精品亚洲第一网站| 久久精品aⅴ一区二区三区四区| 成年免费大片在线观看| 亚洲国产欧美日韩在线播放| 免费搜索国产男女视频| 老司机在亚洲福利影院| a在线观看视频网站| 中文亚洲av片在线观看爽| www.www免费av| 一边摸一边做爽爽视频免费| 国产亚洲av嫩草精品影院| 黄网站色视频无遮挡免费观看| 黄片大片在线免费观看| 亚洲国产欧美日韩在线播放| 非洲黑人性xxxx精品又粗又长| 国产精品影院久久| 免费看日本二区| 亚洲国产毛片av蜜桃av| 午夜福利成人在线免费观看| 丰满的人妻完整版| 国内精品久久久久精免费| 变态另类丝袜制服| 久久精品国产综合久久久| 久久中文字幕一级| 亚洲最大成人中文| 国产精品久久视频播放| 国产一级毛片七仙女欲春2 | 日韩精品免费视频一区二区三区| 日本在线视频免费播放| 国产成年人精品一区二区| 国内精品久久久久精免费| 国产午夜精品久久久久久| 亚洲av中文字字幕乱码综合 | 一级a爱视频在线免费观看| 亚洲精华国产精华精| 日本成人三级电影网站| 真人一进一出gif抽搐免费| 99久久久亚洲精品蜜臀av| 国产麻豆成人av免费视频| 欧美+亚洲+日韩+国产| 免费在线观看成人毛片| 亚洲国产毛片av蜜桃av| 国产久久久一区二区三区| 午夜免费观看网址| 欧美最黄视频在线播放免费| 极品教师在线免费播放| 婷婷亚洲欧美| 嫁个100分男人电影在线观看| 身体一侧抽搐| 免费在线观看亚洲国产| 欧美在线黄色| 成人18禁高潮啪啪吃奶动态图| 99热只有精品国产| 一区二区三区国产精品乱码| 国产黄色小视频在线观看| 老熟妇乱子伦视频在线观看| 男人的好看免费观看在线视频 | 国产一区二区在线av高清观看| 色综合婷婷激情| 日本免费a在线| 白带黄色成豆腐渣| 久久九九热精品免费| 国产爱豆传媒在线观看 | 不卡av一区二区三区| 免费人成视频x8x8入口观看| 亚洲精品在线美女| 国产麻豆成人av免费视频| 91成人精品电影| 美女扒开内裤让男人捅视频| 欧美黑人欧美精品刺激| 一级毛片女人18水好多| 国产免费av片在线观看野外av| 午夜久久久久精精品| 国产亚洲欧美在线一区二区| 人人妻人人看人人澡| 午夜亚洲福利在线播放| 在线观看66精品国产| 色精品久久人妻99蜜桃| 12—13女人毛片做爰片一| 在线看三级毛片| 日韩 欧美 亚洲 中文字幕| 午夜久久久久精精品| 99在线人妻在线中文字幕| 久久久久久久久中文| 国产高清有码在线观看视频 | 婷婷精品国产亚洲av在线| 久久草成人影院| 在线永久观看黄色视频| 免费在线观看日本一区| 国产精品精品国产色婷婷| 欧美不卡视频在线免费观看 | 久久青草综合色| 免费高清在线观看日韩| 手机成人av网站| 久久九九热精品免费| 亚洲av成人不卡在线观看播放网| 熟女少妇亚洲综合色aaa.| 99热只有精品国产| 亚洲国产日韩欧美精品在线观看 | 国产一区二区三区视频了| 精品无人区乱码1区二区| 国产一区在线观看成人免费| 精品久久久久久久久久免费视频| 欧美性猛交╳xxx乱大交人| 成年版毛片免费区| 一本一本综合久久| 久久国产乱子伦精品免费另类| svipshipincom国产片| 一二三四社区在线视频社区8| 在线观看舔阴道视频| 69av精品久久久久久| 在线观看www视频免费| 精品无人区乱码1区二区| 午夜福利欧美成人| 黄色a级毛片大全视频| 久久中文字幕人妻熟女| 精品少妇一区二区三区视频日本电影| av福利片在线| 午夜福利欧美成人| 免费观看精品视频网站| 18禁美女被吸乳视频| 黄网站色视频无遮挡免费观看| 热99re8久久精品国产| 日韩 欧美 亚洲 中文字幕| 国产在线精品亚洲第一网站| 久久中文字幕一级| 国产亚洲精品久久久久久毛片| 99久久国产精品久久久| 国产主播在线观看一区二区| 成人欧美大片| 亚洲欧美一区二区三区黑人| 国产一区二区三区视频了| 男人操女人黄网站| 久久久久久人人人人人| aaaaa片日本免费| 欧美在线黄色| 天堂影院成人在线观看| 欧美黄色片欧美黄色片| 黄色a级毛片大全视频| 免费看美女性在线毛片视频| 夜夜看夜夜爽夜夜摸| 日韩一卡2卡3卡4卡2021年| 日本 av在线| 成人欧美大片| 99久久无色码亚洲精品果冻| 成人av一区二区三区在线看| 成人亚洲精品av一区二区| 久久精品影院6| 在线十欧美十亚洲十日本专区| 欧美乱妇无乱码| 精品久久久久久,| xxx96com| 黄频高清免费视频| 身体一侧抽搐| 欧美成人免费av一区二区三区| 国产精品一区二区三区四区久久 | 亚洲无线在线观看| 少妇 在线观看| 精品无人区乱码1区二区| 黄色女人牲交| 国产成人精品久久二区二区免费| av超薄肉色丝袜交足视频| 91字幕亚洲| 色尼玛亚洲综合影院| 90打野战视频偷拍视频| 亚洲五月色婷婷综合| 在线看三级毛片| 国产一卡二卡三卡精品| 久久久久免费精品人妻一区二区 | 美女国产高潮福利片在线看| 午夜精品久久久久久毛片777| 国产又色又爽无遮挡免费看| 成人欧美大片| 亚洲精华国产精华精| 国产精品久久久久久亚洲av鲁大| 正在播放国产对白刺激| 国产精品av久久久久免费| 亚洲国产高清在线一区二区三 | www.自偷自拍.com| 精品久久久久久久久久久久久 | 高潮久久久久久久久久久不卡| 51午夜福利影视在线观看| 亚洲国产欧美日韩在线播放| 精品久久久久久成人av| 欧美性猛交黑人性爽| 变态另类成人亚洲欧美熟女| 国产日本99.免费观看| 亚洲第一青青草原| 欧美 亚洲 国产 日韩一| 国产色视频综合| 一级a爱片免费观看的视频| 中文字幕久久专区| 夜夜爽天天搞| 亚洲精品在线观看二区| 国产又黄又爽又无遮挡在线| 国产黄色小视频在线观看| 每晚都被弄得嗷嗷叫到高潮| 欧洲精品卡2卡3卡4卡5卡区| 久久久精品欧美日韩精品| 成人特级黄色片久久久久久久| 成年女人毛片免费观看观看9| 天堂动漫精品| 免费无遮挡裸体视频| x7x7x7水蜜桃| 亚洲第一青青草原| 少妇熟女aⅴ在线视频| 久久香蕉激情| 国产免费av片在线观看野外av| 在线观看舔阴道视频| 亚洲成av人片免费观看| 99re在线观看精品视频| 亚洲中文日韩欧美视频| 国产精华一区二区三区| 国产又色又爽无遮挡免费看| 色播在线永久视频| 欧美乱妇无乱码| 男女下面进入的视频免费午夜 | 在线天堂中文资源库| 国产乱人伦免费视频| 免费在线观看亚洲国产| 国产成年人精品一区二区| 激情在线观看视频在线高清| 很黄的视频免费| 亚洲久久久国产精品| 手机成人av网站| 国产视频内射| 亚洲精品美女久久av网站| 一级a爱视频在线免费观看| 成人国语在线视频| 久久香蕉国产精品| 午夜两性在线视频| 色av中文字幕| 天天添夜夜摸| 国产成人欧美| 日韩欧美在线二视频| 欧美日韩亚洲综合一区二区三区_| 亚洲国产欧美日韩在线播放| 丰满人妻熟妇乱又伦精品不卡| 欧美日韩乱码在线| 999久久久国产精品视频| 观看免费一级毛片| 免费人成视频x8x8入口观看| 男女午夜视频在线观看| 国产精品电影一区二区三区| 1024视频免费在线观看| 美女大奶头视频|