• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于動(dòng)態(tài)延遲策略更新的TD3算法

    2020-09-01 01:55:48康朝海榮垂霆劉鵬云
    關(guān)鍵詞:步長(zhǎng)梯度神經(jīng)網(wǎng)絡(luò)

    康朝海, 孫 超, 榮垂霆, 劉鵬云

    (東北石油大學(xué) 電氣信息工程學(xué)院, 黑龍江 大慶 163318)

    0 引 言

    強(qiáng)化學(xué)習(xí)(RL: Reinforcement Learning)通過(guò)最大化智能體(Agent)與環(huán)境(Environment)交互獲得的獎(jiǎng)勵(lì)值(Reward)學(xué)習(xí)最優(yōu)控制策略(Policy)[1-2]。深度神經(jīng)網(wǎng)絡(luò)(DNN: Deep Neural Network)利用其強(qiáng)大的非線性擬合能力可對(duì)復(fù)雜信號(hào)進(jìn)行特征提取[3]。將強(qiáng)化學(xué)習(xí)的控制決策功能與深度神經(jīng)網(wǎng)絡(luò)的感知功能相結(jié)合產(chǎn)生的深度強(qiáng)化學(xué)習(xí)算法(DRL: Deep Reinforcement Learning)能在不事先了解被控制系統(tǒng)的情況下學(xué)習(xí)復(fù)雜的非線性控制策略, 其已經(jīng)成功應(yīng)用到競(jìng)技游戲[4]、 自動(dòng)駕駛[5-6]和機(jī)器人控制[7]等人工智能領(lǐng)域。

    深度強(qiáng)化學(xué)習(xí)不僅應(yīng)用深度神經(jīng)網(wǎng)絡(luò)做復(fù)雜環(huán)境的特征提取工作, 而且由于神經(jīng)網(wǎng)絡(luò)可解決強(qiáng)化學(xué)習(xí)狀態(tài)維度和動(dòng)作維度過(guò)高的問(wèn)題, 所以在實(shí)際任務(wù)中, 也將其應(yīng)用到強(qiáng)化學(xué)習(xí)的值函數(shù)及策略函數(shù)的擬合任務(wù)中[8]。深度強(qiáng)化學(xué)習(xí)中的經(jīng)典算法----深度Q學(xué)習(xí)算法(DQN: Deep Q-Network)[9-10]及行動(dòng)者-評(píng)論家算法(AC: Actor-Critic)[11-12]即是應(yīng)用神經(jīng)網(wǎng)絡(luò)擬合值函數(shù)及策略函數(shù)的典型例子。但是, 由于Q-learning的值估計(jì)中存在不可避免的噪聲, 因此神經(jīng)網(wǎng)絡(luò)在擬合值函數(shù)的過(guò)程中, 會(huì)出現(xiàn)價(jià)值過(guò)高估計(jì)的現(xiàn)象, 從而導(dǎo)致算法獲得較差的策略[13]。針對(duì)這一現(xiàn)象, Fox等[14]通過(guò)減小早期高方差估計(jì)的過(guò)度擬合降低Q值過(guò)估計(jì)。Hasselt等[15]提出Double Q-learning方法, 通過(guò)對(duì)動(dòng)作的選擇和評(píng)價(jià)進(jìn)行解耦以達(dá)到降低過(guò)估計(jì)的效果。但上述解決過(guò)估計(jì)的方法都是針對(duì)離散動(dòng)作空間任務(wù)的。針對(duì)連續(xù)動(dòng)作空間任務(wù)中的價(jià)值過(guò)估計(jì)現(xiàn)象, Fujimoto等[16]提出的TD3算法通過(guò)雙Q值網(wǎng)絡(luò)機(jī)構(gòu)及延遲更新Actor目標(biāo)網(wǎng)絡(luò)減小由于價(jià)值過(guò)估計(jì)而導(dǎo)致的策略惡化, 并且在TD3中其采用固定延遲步長(zhǎng)的更新機(jī)制, 沒(méi)有考慮價(jià)值估計(jì)的動(dòng)態(tài)性, 從而導(dǎo)致策略學(xué)習(xí)效率降低。

    針對(duì)連續(xù)動(dòng)作空間中出現(xiàn)的價(jià)值過(guò)估計(jì)而導(dǎo)致策略惡化的問(wèn)題, 結(jié)合TD3中的延遲更新方法, 筆者提出一種動(dòng)態(tài)步長(zhǎng)的延遲更新機(jī)制, 通過(guò)累計(jì)價(jià)值網(wǎng)絡(luò)Loss的指數(shù)加權(quán)移動(dòng)平均值(EWMA: Exponentially Weighted Moving Average), 并將其設(shè)置為動(dòng)態(tài)延遲步長(zhǎng)的更新標(biāo)準(zhǔn), 指導(dǎo)Actor網(wǎng)絡(luò)延遲更新。經(jīng)實(shí)驗(yàn)驗(yàn)證, 筆者提出的基于動(dòng)態(tài)步長(zhǎng)延遲更新的TD3算法具有更好的學(xué)習(xí)性能。

    1 雙延遲深度確定性梯度策略

    1.1 強(qiáng)化學(xué)習(xí)基礎(chǔ)

    狀態(tài)-動(dòng)作值函數(shù)Qπ是智能體在狀態(tài)s下采取由策略π生成動(dòng)作a后獲得的獎(jiǎng)勵(lì)值的期望

    Qπ(s,a)=Eπ[Rt|s,a]

    (1)

    將式(1)表示成遞歸的貝爾曼方程形式

    Qπ(s,a)=Eπ[Rt+γQπ(s′,a′)|s,a]

    (2)

    針對(duì)規(guī)模比較小的任務(wù), 傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法如Q-learning[17], Sarsa[18], 可通過(guò)迭代貝爾曼方程最大化值函數(shù)以獲取最優(yōu)策略

    (3)

    為解決狀態(tài)數(shù)量多或連續(xù)狀態(tài)的強(qiáng)化學(xué)習(xí)問(wèn)題, 需采用比較復(fù)雜的函數(shù)逼近器擬合值函數(shù)。深度Q學(xué)習(xí)算法(DQN)是深度強(qiáng)化學(xué)習(xí)中的經(jīng)典算法, 它采用神經(jīng)網(wǎng)絡(luò)擬合狀態(tài)-動(dòng)作值函數(shù), 并通過(guò)梯度下降法尋找最優(yōu)價(jià)值函數(shù)網(wǎng)絡(luò)。基于求解值函數(shù)的強(qiáng)化學(xué)習(xí)算法不能有效解決連續(xù)高維動(dòng)作空間的強(qiáng)化學(xué)習(xí)任務(wù), 而策略梯度算法提供了解決方法。

    1.2 深度確定性策略梯度算法

    策略梯度方法重新定義了期望收益最大化的目標(biāo), 通過(guò)直接最小化策略目標(biāo)函數(shù)獲取最優(yōu)策略

    (4)

    其中pπ為依據(jù)策略π(a|s), 智能體在狀態(tài)S時(shí)輸出動(dòng)作a的概率,θ為利用逼近器(如神經(jīng)網(wǎng)絡(luò))擬合策略π時(shí)的參數(shù)。

    深度確定性策略梯度算法(DDPG: Deep Deterministic Policy Gradient)[19]利用確定性策略大幅減少了算法訓(xùn)練所需的采樣數(shù)據(jù), 顯著提高了算法的收斂效率。確定性策略表示為

    a=μθ(s)

    (5)

    其中μθ(s)表示參數(shù)為θ的神經(jīng)網(wǎng)絡(luò), 輸入為狀態(tài)信息s, 輸出為確定動(dòng)作a, 相當(dāng)于策略更新網(wǎng)絡(luò)(Actor網(wǎng)絡(luò))。對(duì)應(yīng)的策略梯度為

    J(μθ)=Es~pπ[θμθ(s)·aQμθ(s,a)|a=μθ(s)]

    (6)

    其中Qμθ(s,a)表示依據(jù)確定性策略μθ(s), 在狀態(tài)s下采取動(dòng)作a的狀態(tài)-動(dòng)作值函數(shù)。它評(píng)價(jià)了在該狀態(tài)下做出動(dòng)作的價(jià)值, 用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)擬合。由于它控制了策略梯度更新的方向和幅度, 相當(dāng)于價(jià)值估計(jì)網(wǎng)絡(luò)(Critic網(wǎng)絡(luò))。

    1.3 雙延遲深度確定性梯度策略算法

    雙延遲深度確定新策略梯度算法(TD3: Twin Delayed Deep Deterministic Policy Gradients)是DDPG算法的升級(jí)版本。為降低Critic網(wǎng)絡(luò)的過(guò)估計(jì), TD3由兩個(gè)獨(dú)立的評(píng)論家網(wǎng)絡(luò)(Critic-1和Critic-2)擬合智能體的行為價(jià)值函數(shù)Q:S×A→i, 并選擇值最小的Critic網(wǎng)絡(luò)。

    智能體在訓(xùn)練過(guò)程中, 每行動(dòng)一步就會(huì)產(chǎn)生經(jīng)驗(yàn)信息(st,at,rt,st+1), 即當(dāng)前狀態(tài)、 動(dòng)作、 獎(jiǎng)勵(lì)值和下一步狀態(tài)。并且以元組形式保存到經(jīng)驗(yàn)回放體Replay Buffer中。Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)通過(guò)從Buffer中隨機(jī)抽取的Mini-Batch的數(shù)據(jù)進(jìn)行參數(shù)更新。Critic網(wǎng)絡(luò)通過(guò)最小化損失函數(shù)Li訓(xùn)練網(wǎng)絡(luò)

    (7)

    在Actor網(wǎng)絡(luò)的Bellman更新中, 使用目標(biāo)策略平滑化的正則化技術(shù)減小確定性策略方法在更新Actor時(shí)產(chǎn)生高方差目標(biāo)值的現(xiàn)象。Actor網(wǎng)絡(luò)更新梯度

    (8)

    在AC架構(gòu)的TD3算法中, 目標(biāo)網(wǎng)絡(luò)機(jī)制存在不可避免的問(wèn)題, 即Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的相互作用會(huì)導(dǎo)致算法不收斂。針對(duì)該問(wèn)題, 在網(wǎng)絡(luò)更新過(guò)程中, 為降低算法中Critic網(wǎng)絡(luò)的過(guò)估計(jì)而導(dǎo)致的策略惡化問(wèn)題, 設(shè)置Actor網(wǎng)絡(luò)采用延遲更新機(jī)制: 其中Critic網(wǎng)絡(luò)是在每個(gè)時(shí)間步之后更新一次, Actor網(wǎng)絡(luò)每?jī)蓚€(gè)時(shí)間步更新一次。圖1為Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)從環(huán)境中獲取狀態(tài)信息, 并且相互之間網(wǎng)絡(luò)更新存在延遲的示意圖。

    圖1 延遲更新Fig.1 Delayed policy update

    2 基于動(dòng)態(tài)延遲策略更新的雙延遲深度確定性梯度策略

    雖然在TD3算法中利用延遲更新Actor網(wǎng)絡(luò)改善策略更新效果, 但延遲步長(zhǎng)是固定的, 這并不能根據(jù)Critic網(wǎng)絡(luò)估計(jì)效果的動(dòng)態(tài)情況合理設(shè)置延遲。筆者提出的動(dòng)態(tài)延遲更新將累計(jì)的價(jià)值網(wǎng)絡(luò)Loss的指數(shù)加權(quán)移動(dòng)平均值(EWMA)作為動(dòng)態(tài)延遲步長(zhǎng)的更新標(biāo)準(zhǔn), 從而指導(dǎo)Actor網(wǎng)絡(luò)延遲更新的機(jī)制。

    2.1 指數(shù)移動(dòng)加權(quán)平均值

    指數(shù)加權(quán)移動(dòng)平均法(EWMA)[22]是當(dāng)前眾多領(lǐng)域, 如金融時(shí)間序列、 信號(hào)處理及神經(jīng)網(wǎng)絡(luò)等采用的重要算法之一。實(shí)際上, 深度學(xué)習(xí)中的Adam優(yōu)化算法就應(yīng)用了EWMA。此算法的主要作用是減少嘈雜數(shù)據(jù)中的噪聲, 平滑數(shù)據(jù)。EWMA相對(duì)于傳統(tǒng)的平均值, 不需保存過(guò)去所有的數(shù)值, 計(jì)算量顯著減小。EWMA的表達(dá)式為

    vt=βvt-1+(1-β)ρt

    (9)

    其中ρt為時(shí)刻t的實(shí)際值; 系數(shù)β為加權(quán)下降速率, 其值越小則下降越快;vt為t時(shí)刻的EWMA值。

    2.2 DD-TD3算法

    在TD3中, 由于時(shí)間差異更新機(jī)制, 值函數(shù)的估計(jì)是根據(jù)后續(xù)狀態(tài)的估計(jì)建立的, 并且Bellman方程決定了TD誤差會(huì)逐步累加, 從而導(dǎo)致可能存在大量高估偏差和次優(yōu)策略更新[16]。在利用函數(shù)逼近器表示值函數(shù)時(shí)會(huì)加劇這種現(xiàn)象, 并且每次函數(shù)更新都會(huì)留下一定量的殘余TD錯(cuò)誤δ(s,a)

    Qθ(s,a)=r+γE[Qθ(s′,a′)]-δ(s,a)

    (10)

    則通過(guò)

    Fujimoto等[16]深入研究了目標(biāo)網(wǎng)絡(luò)機(jī)制與函數(shù)逼近誤差之間的關(guān)系, 并驗(yàn)證了使用穩(wěn)定目標(biāo)可減少誤差的增長(zhǎng)。如果沒(méi)有固定目標(biāo), 每次價(jià)值估計(jì)更新都可能留下殘余誤差, 并逐步累積。設(shè)定類似目標(biāo)網(wǎng)絡(luò)機(jī)制的延遲更新機(jī)制, 減小價(jià)值網(wǎng)絡(luò)更新的方差, 通過(guò)減緩Critic網(wǎng)絡(luò)的更新頻率, 以獲得準(zhǔn)確的價(jià)值估計(jì), 從而提高優(yōu)質(zhì)策略的更新次數(shù), 提升策略收斂速度。

    在DD-TD3中, 采用網(wǎng)絡(luò)Loss的移動(dòng)平均值與網(wǎng)絡(luò)當(dāng)前Loss值的差異評(píng)價(jià)Critic網(wǎng)絡(luò)的預(yù)計(jì)更新幅度, 一旦Critic網(wǎng)絡(luò)下次大幅度更新, 則說(shuō)明這時(shí)的網(wǎng)絡(luò)價(jià)值估計(jì)是次優(yōu)的, 則設(shè)置Actor網(wǎng)絡(luò)更多步數(shù)的策略延遲更新以等待更優(yōu)的價(jià)值估計(jì)。但如果過(guò)多延遲更新Actor網(wǎng)絡(luò), 則會(huì)有更高概率錯(cuò)過(guò)優(yōu)質(zhì)的價(jià)值估計(jì), 無(wú)法及時(shí)更新網(wǎng)絡(luò)參數(shù)。

    根據(jù)式(7)中Li與式(9)計(jì)算得到在T時(shí)刻Critic網(wǎng)絡(luò)Loss的移動(dòng)平均值(EWMA-Loss,ET)

    (12)

    并通過(guò)

    (13)

    估算Critic網(wǎng)絡(luò)的計(jì)劃更新幅度。

    延遲更新公式表示為

    (14)

    其中ω為線性系數(shù), 調(diào)整f主要分布在區(qū)間(1,5)。實(shí)驗(yàn)證明ω=30時(shí)算法效果達(dá)到最佳。

    算法結(jié)構(gòu)如圖2所示。

    圖2 DD-TD3算法Fig.2 DD-TD3algorithm

    由圖2可見(jiàn), DD-TD3共有5個(gè)神經(jīng)網(wǎng)絡(luò), 分為兩類: 策略更新網(wǎng)絡(luò)(Actor)和價(jià)值評(píng)價(jià)網(wǎng)絡(luò)(Critic), 并且這兩類網(wǎng)絡(luò)皆適用目標(biāo)網(wǎng)絡(luò)機(jī)制穩(wěn)定其更新。其中在計(jì)算目標(biāo)價(jià)值網(wǎng)絡(luò)(Target-Critic)時(shí), 使用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)計(jì)算并取最小值。Actor網(wǎng)絡(luò)在與環(huán)境交互時(shí)通過(guò)加入噪聲提高其探索性能。網(wǎng)絡(luò)更新所需數(shù)據(jù)是在經(jīng)驗(yàn)回放體中用隨機(jī)小批量采樣得到的。

    DD-TD3算法步驟如下。

    fort=1 toTdo

    選擇動(dòng)作a~πφ(s)+, 其中~N(0,σ);

    執(zhí)行動(dòng)作a, 獲得立即獎(jiǎng)勵(lì)r和下一狀態(tài)s′;

    將經(jīng)驗(yàn)樣本(s,a,r,s′)存入經(jīng)驗(yàn)緩沖體B中;

    在經(jīng)驗(yàn)緩沖體B中隨機(jī)小批量采樣經(jīng)驗(yàn)樣本;

    iftmodd==0 then

    通過(guò)確定性策略梯度更新Actor網(wǎng)絡(luò)參數(shù)

    φJ(rèn)(φ)=N-1∑aQθ1(s,a)|a=πφ(s)φπφ(s)

    更新目標(biāo)網(wǎng)絡(luò)

    end if

    end for

    此算法中, 第1步為初始化各參數(shù)的過(guò)程, 第2~第5步為產(chǎn)生經(jīng)驗(yàn)樣本的過(guò)程, 第6~第9步為更新Critic網(wǎng)絡(luò)的過(guò)程, 第10~第11步為延遲更新Actor網(wǎng)絡(luò)的過(guò)程, 第12步為更新目標(biāo)網(wǎng)絡(luò)的過(guò)程。

    3 實(shí) 驗(yàn)

    3.1 環(huán)境配置

    筆者采用OpenAI開(kāi)發(fā)的Gym作為實(shí)踐環(huán)境, Gym是一個(gè)用于研究和比較強(qiáng)化學(xué)習(xí)算法的開(kāi)源工具包, 包含了各種訓(xùn)練和研究新的強(qiáng)化學(xué)習(xí)算法的模擬環(huán)境。筆者在Windows10系統(tǒng)下, 使用Pycharm2019 IDE搭載Anaconda3的Python 3.7編譯環(huán)境, 并且使用效果優(yōu)異的Pytorch 1.3.0深度學(xué)習(xí)框架搭建神經(jīng)網(wǎng)絡(luò)。

    3.2 實(shí)驗(yàn)任務(wù)

    為驗(yàn)證DD-TD3的有效性, 在OpenAI Gym工具包中的Pendulum-v0(鐘擺)環(huán)境下進(jìn)行實(shí)驗(yàn)測(cè)試。Pendulum-v0是經(jīng)典的連續(xù)動(dòng)作域的強(qiáng)化學(xué)習(xí)任務(wù), 鐘擺以隨機(jī)位置開(kāi)始, 然后利用電機(jī)的控制力矩將其向上擺動(dòng), 通過(guò)旋轉(zhuǎn)擺動(dòng)使其保持垂直并指向上方。觀測(cè)值分別為擺鐘角度的正弦及余弦值和鐘擺的角速度; 動(dòng)作值為(-2,2)的連續(xù)值, 表示對(duì)鐘擺施加的左右力的大小。

    圖3為Pendulum-v0任務(wù)的示意圖。

    圖3 鐘擺示意圖Fig.3 Pendulum-v0 diagrammatic sketch

    觀測(cè)結(jié)果如表1和表2所示。由表1可見(jiàn), 智能體的觀測(cè)值(Observation), 即環(huán)境的狀態(tài)空間(State)為3維連續(xù)值, 動(dòng)作空間(Action)為1維的連續(xù)值。

    表2 動(dòng)作值

    表1 觀測(cè)值和狀態(tài)值

    任務(wù)獎(jiǎng)勵(lì)函數(shù)(Reward)的精確等式為

    (15)

    其中α為鐘擺與豎直方向的角度,αdt為鐘擺的角速度,a為輸入力矩。由式(15)可見(jiàn), 獎(jiǎng)勵(lì)的最高值為0。任務(wù)目標(biāo)是保持鐘擺零角度(垂直), 并且旋轉(zhuǎn)速度最小, 同時(shí)電機(jī)的控制力度最小。

    3.3 實(shí)驗(yàn)參數(shù)設(shè)置

    為保證實(shí)驗(yàn)對(duì)比的公平性, 實(shí)驗(yàn)中DD-TD3算法、 TD3算法及DDPG算法參數(shù)相同。對(duì)Actor網(wǎng)絡(luò)均添加使用經(jīng)過(guò)裁剪的高斯噪聲, 裁剪范圍為(-0.5,0.5), 每批次樣本數(shù)量均相等。神經(jīng)網(wǎng)絡(luò)采用全連接層, Actor網(wǎng)絡(luò)輸入為狀態(tài), 維度為3, 隱藏層1為64, 隱藏層2為32。Critic-a網(wǎng)絡(luò)和Critic-b網(wǎng)絡(luò)的結(jié)構(gòu)相同, 輸入為狀態(tài)和動(dòng)作, 維度為4, 隱藏層1為64, 隱藏層2為32。梯度下降優(yōu)化算法為Adam優(yōu)化器。經(jīng)驗(yàn)緩沖池大小設(shè)置為10 000, 取批次選取樣本數(shù)量N=50。每情節(jié)最大時(shí)間步數(shù)設(shè)置為500, 時(shí)間步數(shù)超過(guò)500時(shí)情節(jié)重新開(kāi)始。學(xué)習(xí)率α=3×10-4, 折扣因子γ=0.99, 目標(biāo)網(wǎng)絡(luò)更新時(shí)τ=0.001, EWMA計(jì)算公式的參數(shù)β=0.3。

    3.4 實(shí)驗(yàn)結(jié)果及分析

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)算法, 評(píng)判算法的性能指標(biāo)不同于其他監(jiān)督學(xué)習(xí)算法。在強(qiáng)化學(xué)習(xí)中, 通常應(yīng)用隨訓(xùn)練時(shí)間變化的獎(jiǎng)勵(lì)值評(píng)判算法的優(yōu)劣。獎(jiǎng)勵(lì)值的收斂速度體現(xiàn)了算法是否能快速尋找到固定策略, 而獎(jiǎng)勵(lì)值的大小表現(xiàn)了算法是否收斂到最優(yōu)策略。

    圖4展示了在Pendulum-v0任務(wù)中DD-TD3算法與其他算法的效果對(duì)比。通過(guò)對(duì)比每個(gè)訓(xùn)練階段的平均累計(jì)獎(jiǎng)勵(lì)衡量算法的優(yōu)劣。

    由圖4a可見(jiàn), 由于A2C算法沒(méi)有目標(biāo)網(wǎng)絡(luò)機(jī)制和Replay-buffer機(jī)制, 而且由于Critic網(wǎng)絡(luò)存在一定程度的過(guò)估計(jì), 使A2C很難學(xué)習(xí)到優(yōu)質(zhì)的策略, 在3 000步時(shí)獎(jiǎng)勵(lì)值才有明顯的上升。

    a 延遲步長(zhǎng)分布情況 b 延遲步長(zhǎng)頻率統(tǒng)計(jì)圖5 Actor網(wǎng)絡(luò)延遲步長(zhǎng)Fig.5 The delay step of Actor network

    a A2C與DD-TD3 b DDPG與DD-TD3 c TD3與DD-TD3 圖4 實(shí)驗(yàn)效果對(duì)比圖 Fig.4 Comparison of experimental results

    由圖4b可見(jiàn), 雖然DDPG算法后期獎(jiǎng)勵(lì)值與DD-TD3基本持平, 但由于DDPG存在的價(jià)值過(guò)估計(jì)導(dǎo)致算法前期的獎(jiǎng)勵(lì)值表現(xiàn)非常差, 因此算法學(xué)習(xí)到最優(yōu)策略的效率很低。

    由圖4c可見(jiàn), 原始TD3算法的獎(jiǎng)勵(lì)值在2 000步后, 才逐漸趨向最高獎(jiǎng)勵(lì)值。也就是說(shuō), 前期原始TD3算法并不能高效地對(duì)狀態(tài)進(jìn)行正確的評(píng)估。DD-TD3算法在前期收斂速度明顯高于原始TD3算法, 并且在1 000步左右快速到達(dá)最高平均獎(jiǎng)勵(lì), 而且獎(jiǎng)勵(lì)值平穩(wěn)起伏, 沒(méi)有較多的震蕩現(xiàn)象。由于存在動(dòng)態(tài)延遲更新機(jī)制, DD-TD3算法在前期能根據(jù)更優(yōu)質(zhì)的價(jià)值估計(jì)有效的更新Actor網(wǎng)絡(luò), 從而依據(jù)此Actor網(wǎng)絡(luò)產(chǎn)生更有效的訓(xùn)練數(shù)據(jù)作為Critic網(wǎng)絡(luò)的輸入優(yōu)化網(wǎng)絡(luò)參數(shù)。上述實(shí)驗(yàn)結(jié)果表明, DD-TD3算法可更快地學(xué)習(xí)到最優(yōu)策略。

    表3為Pendulum-v0任務(wù)中實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)。從表3可見(jiàn), 與A2C、TD3及DDPG算法相比, DD-TD3算法可獲得更高的平均獎(jiǎng)勵(lì)值和最高的獎(jiǎng)勵(lì)值, 說(shuō)明在此任務(wù)中, DD-TD3算法可以學(xué)習(xí)到更優(yōu)策略。在算法訓(xùn)練的不同階段, 由于存在對(duì)環(huán)境的探索操作, 所以存在不同程度的獎(jiǎng)勵(lì)值差異, 因此存在一定的獎(jiǎng)勵(lì)值方差。

    表3 Pendulum-v0任務(wù)中實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)

    圖5展示了訓(xùn)練過(guò)程中Actor網(wǎng)絡(luò)的動(dòng)態(tài)延遲次數(shù)。由圖5可見(jiàn), 在訓(xùn)練前期, 由于智能體與環(huán)境的交互次數(shù)較少, 值函數(shù)的價(jià)值估計(jì)迭代尚不充分, 相應(yīng)的神經(jīng)網(wǎng)絡(luò)的參數(shù)尚不成熟, 則前期次優(yōu)的Critic網(wǎng)絡(luò)價(jià)值導(dǎo)致Actor網(wǎng)絡(luò)延遲步長(zhǎng)主要集中在5。

    4 結(jié) 語(yǔ)

    筆者提出的DD-TD3通過(guò)動(dòng)態(tài)調(diào)整Actor網(wǎng)絡(luò)的延遲步長(zhǎng), 能有效解決TD3算法由于Critic過(guò)估計(jì)導(dǎo)致的策略惡化問(wèn)題, 提高了策略學(xué)習(xí)效率。通過(guò)Gym平臺(tái)下連續(xù)動(dòng)作任務(wù)Pendulum-v0驗(yàn)證了算法有效性。此改進(jìn)屬于對(duì)強(qiáng)化學(xué)習(xí)任務(wù)下的神經(jīng)網(wǎng)絡(luò)更新的優(yōu)化, 具有很強(qiáng)的通用性及應(yīng)用價(jià)值, 有望在以強(qiáng)化學(xué)習(xí)為模型的自動(dòng)駕駛、 工業(yè)控制等領(lǐng)域發(fā)揮作用。但該算法在Buffer中使用均勻采樣提取數(shù)據(jù)進(jìn)行訓(xùn)練, 沒(méi)有考慮Buffer中經(jīng)驗(yàn)值優(yōu)劣的問(wèn)題。因此, 使用分類經(jīng)驗(yàn)的非均勻采樣訓(xùn)練將是下一步的重點(diǎn)研究方向。

    猜你喜歡
    步長(zhǎng)梯度神經(jīng)網(wǎng)絡(luò)
    基于Armijo搜索步長(zhǎng)的BFGS與DFP擬牛頓法的比較研究
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    一種自適應(yīng)Dai-Liao共軛梯度法
    神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    一類扭積形式的梯度近Ricci孤立子
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    基于逐維改進(jìn)的自適應(yīng)步長(zhǎng)布谷鳥(niǎo)搜索算法
    基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
    一種新型光伏系統(tǒng)MPPT變步長(zhǎng)滯環(huán)比較P&O法
    亚洲专区中文字幕在线| 亚洲美女黄片视频| 亚洲精品日韩av片在线观看| 精品久久国产蜜桃| 亚洲人成电影免费在线| 亚洲久久久久久中文字幕| a级一级毛片免费在线观看| 成年女人看的毛片在线观看| 在线观看一区二区三区| 超碰av人人做人人爽久久| 亚洲最大成人手机在线| 亚洲欧美日韩高清在线视频| 在线观看免费视频日本深夜| 美女免费视频网站| 性色av乱码一区二区三区2| 亚洲国产色片| 可以在线观看毛片的网站| 国产白丝娇喘喷水9色精品| 亚洲人成网站在线播放欧美日韩| 三级国产精品欧美在线观看| 99国产极品粉嫩在线观看| 久久精品夜夜夜夜夜久久蜜豆| 欧美性猛交╳xxx乱大交人| 别揉我奶头~嗯~啊~动态视频| 中文字幕人妻熟人妻熟丝袜美| 成人永久免费在线观看视频| 在线观看av片永久免费下载| 黄片小视频在线播放| 哪里可以看免费的av片| 亚洲激情在线av| 成人av在线播放网站| 国产精品永久免费网站| 国产精品1区2区在线观看.| 日韩成人在线观看一区二区三区| 综合色av麻豆| 国产亚洲欧美98| 看黄色毛片网站| 色哟哟哟哟哟哟| 国产私拍福利视频在线观看| 亚洲精品影视一区二区三区av| 亚洲avbb在线观看| 国产精品98久久久久久宅男小说| 在线观看一区二区三区| 久久久久国内视频| 99热这里只有是精品50| 永久网站在线| 长腿黑丝高跟| 美女 人体艺术 gogo| 啦啦啦观看免费观看视频高清| 国产黄片美女视频| 国产精品一及| 天天躁日日操中文字幕| 中文在线观看免费www的网站| 国产精品不卡视频一区二区 | 99国产极品粉嫩在线观看| 久久精品国产亚洲av香蕉五月| 欧美日韩乱码在线| 亚洲欧美精品综合久久99| 午夜视频国产福利| 国产av在哪里看| 久久久久久国产a免费观看| 毛片女人毛片| 女人被狂操c到高潮| 天堂网av新在线| 女同久久另类99精品国产91| 香蕉av资源在线| 18美女黄网站色大片免费观看| 校园春色视频在线观看| 在线观看66精品国产| 一区福利在线观看| 久久精品久久久久久噜噜老黄 | 久久99热6这里只有精品| 真人做人爱边吃奶动态| 日韩欧美国产一区二区入口| 亚洲精品粉嫩美女一区| 麻豆成人午夜福利视频| 又黄又爽又刺激的免费视频.| 日本成人三级电影网站| 精品午夜福利在线看| 午夜福利视频1000在线观看| 老女人水多毛片| 国产成+人综合+亚洲专区| 亚洲午夜理论影院| 色5月婷婷丁香| 久久久久亚洲av毛片大全| 国产av不卡久久| 精品欧美国产一区二区三| 国产精品一区二区免费欧美| 亚洲第一区二区三区不卡| 日本精品一区二区三区蜜桃| 欧美成狂野欧美在线观看| 国产成人a区在线观看| 夜夜看夜夜爽夜夜摸| 亚洲av.av天堂| www.www免费av| 国产综合懂色| 亚洲 欧美 日韩 在线 免费| 婷婷精品国产亚洲av在线| 日韩欧美精品v在线| 亚洲av电影在线进入| 日韩有码中文字幕| 国产在线男女| 亚洲精品日韩av片在线观看| 最近中文字幕高清免费大全6 | www.熟女人妻精品国产| av天堂中文字幕网| 18禁裸乳无遮挡免费网站照片| 桃色一区二区三区在线观看| 国产伦一二天堂av在线观看| 亚洲成人中文字幕在线播放| 久久久久久久精品吃奶| 久久久久久久亚洲中文字幕 | 欧美色欧美亚洲另类二区| 一本综合久久免费| 久久久成人免费电影| 欧美xxxx黑人xx丫x性爽| 又爽又黄a免费视频| 在线观看66精品国产| 国产精品免费一区二区三区在线| 欧美成狂野欧美在线观看| 99热精品在线国产| 国产真实伦视频高清在线观看 | 亚洲美女搞黄在线观看 | 天天一区二区日本电影三级| 久久精品夜夜夜夜夜久久蜜豆| 欧美成人a在线观看| 国产 一区 欧美 日韩| 午夜福利在线观看免费完整高清在 | 亚洲第一电影网av| av天堂中文字幕网| 欧美性猛交黑人性爽| 欧美丝袜亚洲另类 | 亚洲自拍偷在线| 一夜夜www| 天天躁日日操中文字幕| 中文字幕精品亚洲无线码一区| 亚洲,欧美精品.| 毛片一级片免费看久久久久 | 中文字幕av在线有码专区| 好男人电影高清在线观看| 午夜福利免费观看在线| 午夜福利成人在线免费观看| av天堂中文字幕网| 琪琪午夜伦伦电影理论片6080| 国产视频内射| 小说图片视频综合网站| 国产成人福利小说| 免费看日本二区| 757午夜福利合集在线观看| 久久这里只有精品中国| 日韩亚洲欧美综合| 国产伦一二天堂av在线观看| 在线观看一区二区三区| 日韩亚洲欧美综合| 搞女人的毛片| 91麻豆精品激情在线观看国产| 久久九九热精品免费| 免费在线观看日本一区| 色在线成人网| 欧美成狂野欧美在线观看| 成人三级黄色视频| 久久久久久国产a免费观看| 国产亚洲欧美98| 白带黄色成豆腐渣| 免费高清视频大片| 久久久国产成人精品二区| 欧美激情久久久久久爽电影| 亚洲av.av天堂| 可以在线观看的亚洲视频| 欧美乱色亚洲激情| 国产欧美日韩一区二区三| 在现免费观看毛片| 国产伦一二天堂av在线观看| 婷婷六月久久综合丁香| 国产人妻一区二区三区在| 欧美高清成人免费视频www| 精品人妻视频免费看| 亚洲国产精品成人综合色| 级片在线观看| 麻豆久久精品国产亚洲av| 女生性感内裤真人,穿戴方法视频| 亚洲欧美日韩高清专用| 国产精品久久电影中文字幕| 国产精品亚洲美女久久久| 日韩成人在线观看一区二区三区| 18禁裸乳无遮挡免费网站照片| 精品国内亚洲2022精品成人| 免费看a级黄色片| 岛国在线免费视频观看| 脱女人内裤的视频| 日本 av在线| 日本撒尿小便嘘嘘汇集6| 日日摸夜夜添夜夜添av毛片 | 国产高清有码在线观看视频| 亚洲av不卡在线观看| 免费观看精品视频网站| 成人特级黄色片久久久久久久| www.999成人在线观看| 非洲黑人性xxxx精品又粗又长| 小蜜桃在线观看免费完整版高清| 2021天堂中文幕一二区在线观| 99热只有精品国产| 美女高潮的动态| 欧美最新免费一区二区三区 | 别揉我奶头 嗯啊视频| 动漫黄色视频在线观看| 观看美女的网站| 中文字幕人妻熟人妻熟丝袜美| 日韩免费av在线播放| 免费大片18禁| 天堂影院成人在线观看| 国产精品影院久久| 一本久久中文字幕| 老司机深夜福利视频在线观看| 日韩欧美三级三区| 欧美成人免费av一区二区三区| 老熟妇乱子伦视频在线观看| 五月玫瑰六月丁香| 又爽又黄无遮挡网站| 国产老妇女一区| 色综合站精品国产| 亚洲男人的天堂狠狠| 国产极品精品免费视频能看的| a级毛片a级免费在线| 校园春色视频在线观看| 国产男靠女视频免费网站| 久久久久久久精品吃奶| 亚洲综合色惰| 国产精品久久视频播放| 国产亚洲精品av在线| 亚洲片人在线观看| 国产日本99.免费观看| 婷婷亚洲欧美| 最近视频中文字幕2019在线8| 久久伊人香网站| 亚洲 国产 在线| 日韩av在线大香蕉| 在线国产一区二区在线| 国产私拍福利视频在线观看| 欧美丝袜亚洲另类 | 国产91精品成人一区二区三区| 日韩有码中文字幕| 国产乱人伦免费视频| 男女床上黄色一级片免费看| 欧美激情在线99| 别揉我奶头~嗯~啊~动态视频| 色尼玛亚洲综合影院| 日韩中文字幕欧美一区二区| 国产精品av视频在线免费观看| 成年女人永久免费观看视频| aaaaa片日本免费| 少妇高潮的动态图| 亚洲无线在线观看| 观看免费一级毛片| 午夜a级毛片| 精品熟女少妇八av免费久了| 欧美激情久久久久久爽电影| 国产三级黄色录像| 观看免费一级毛片| 亚洲精品成人久久久久久| 欧美成狂野欧美在线观看| 内射极品少妇av片p| 免费电影在线观看免费观看| 桃色一区二区三区在线观看| 久久香蕉精品热| 超碰av人人做人人爽久久| 国产色爽女视频免费观看| av天堂在线播放| 性色avwww在线观看| 国产伦一二天堂av在线观看| 亚洲国产欧洲综合997久久,| 又爽又黄无遮挡网站| 亚洲中文字幕一区二区三区有码在线看| 日本免费a在线| 国产在线精品亚洲第一网站| 国内精品久久久久久久电影| 看黄色毛片网站| 他把我摸到了高潮在线观看| 蜜桃亚洲精品一区二区三区| 亚洲成人久久性| 毛片一级片免费看久久久久 | 亚洲,欧美,日韩| 久久久久久久久久黄片| 校园春色视频在线观看| 亚洲精品日韩av片在线观看| 精品熟女少妇八av免费久了| 又紧又爽又黄一区二区| 欧美激情在线99| 赤兔流量卡办理| 91麻豆精品激情在线观看国产| 日本黄色片子视频| 日本黄大片高清| 欧美3d第一页| 日本免费一区二区三区高清不卡| www.www免费av| 国产伦在线观看视频一区| 五月玫瑰六月丁香| 天堂影院成人在线观看| 午夜a级毛片| 成年免费大片在线观看| 亚洲精品在线观看二区| 国产真实乱freesex| .国产精品久久| 免费看美女性在线毛片视频| 午夜精品一区二区三区免费看| www日本黄色视频网| 能在线免费观看的黄片| av在线蜜桃| 欧美黑人巨大hd| 国产亚洲精品综合一区在线观看| 欧美黑人欧美精品刺激| 丰满人妻熟妇乱又伦精品不卡| 人人妻人人澡欧美一区二区| 亚洲人与动物交配视频| 999久久久精品免费观看国产| 亚洲精品粉嫩美女一区| 国产真实乱freesex| 欧美高清性xxxxhd video| 一个人看的www免费观看视频| 一区福利在线观看| 久久亚洲真实| 免费黄网站久久成人精品 | 综合色av麻豆| 51国产日韩欧美| 久久久久久久久中文| 久久久久亚洲av毛片大全| 国产精品女同一区二区软件 | 亚洲男人的天堂狠狠| 亚洲精品一卡2卡三卡4卡5卡| 在线免费观看的www视频| 99在线视频只有这里精品首页| 日日夜夜操网爽| 2021天堂中文幕一二区在线观| 久久6这里有精品| 国产精品久久久久久久久免 | 一边摸一边抽搐一进一小说| 欧美乱色亚洲激情| 久久这里只有精品中国| 97热精品久久久久久| 国产 一区 欧美 日韩| 国产视频一区二区在线看| 欧美在线黄色| 99riav亚洲国产免费| 亚洲午夜理论影院| 五月玫瑰六月丁香| 亚洲天堂国产精品一区在线| 午夜福利欧美成人| 精品日产1卡2卡| 亚洲国产精品999在线| 狂野欧美白嫩少妇大欣赏| 亚洲中文字幕一区二区三区有码在线看| 淫秽高清视频在线观看| 国产精品亚洲av一区麻豆| 亚洲经典国产精华液单 | 在现免费观看毛片| 国产亚洲精品av在线| 3wmmmm亚洲av在线观看| 天天躁日日操中文字幕| 啦啦啦观看免费观看视频高清| 免费看a级黄色片| 精品日产1卡2卡| 757午夜福利合集在线观看| 97超视频在线观看视频| 国内精品久久久久久久电影| 欧美精品啪啪一区二区三区| 他把我摸到了高潮在线观看| 午夜精品久久久久久毛片777| 欧美日韩瑟瑟在线播放| 精品午夜福利在线看| 男人狂女人下面高潮的视频| 国产午夜福利久久久久久| 欧美性感艳星| 内地一区二区视频在线| 国内精品美女久久久久久| 九九热线精品视视频播放| 99久久精品国产亚洲精品| 欧美一区二区精品小视频在线| 久久久久久久精品吃奶| 欧美一级a爱片免费观看看| 在线观看舔阴道视频| 日本一本二区三区精品| 欧美日本亚洲视频在线播放| 欧美日韩乱码在线| 天堂网av新在线| 亚洲精品日韩av片在线观看| 色精品久久人妻99蜜桃| 国内精品久久久久精免费| 精品久久久久久,| 久久亚洲真实| 久久久久久久亚洲中文字幕 | 禁无遮挡网站| 网址你懂的国产日韩在线| а√天堂www在线а√下载| 免费看光身美女| 免费高清视频大片| 如何舔出高潮| 在线观看免费视频日本深夜| a级毛片免费高清观看在线播放| 欧美日韩亚洲国产一区二区在线观看| 国产免费一级a男人的天堂| 舔av片在线| 国产视频内射| 一进一出抽搐gif免费好疼| 欧美色视频一区免费| 夜夜看夜夜爽夜夜摸| 中国美女看黄片| 国语自产精品视频在线第100页| 国产高清有码在线观看视频| 国产精品一区二区三区四区免费观看 | 国产伦在线观看视频一区| 国产野战对白在线观看| 俺也久久电影网| 国语自产精品视频在线第100页| 国产精品久久久久久人妻精品电影| 亚洲欧美日韩东京热| а√天堂www在线а√下载| 国产成+人综合+亚洲专区| 日韩欧美免费精品| 国产午夜精品论理片| 嫩草影院精品99| 窝窝影院91人妻| 日本成人三级电影网站| 欧美最黄视频在线播放免费| 成人av一区二区三区在线看| 国产精品久久视频播放| 国产精品久久久久久久电影| 禁无遮挡网站| 成人毛片a级毛片在线播放| 欧美日韩福利视频一区二区| 亚洲 国产 在线| 99热6这里只有精品| 97碰自拍视频| 蜜桃亚洲精品一区二区三区| 一区福利在线观看| 乱码一卡2卡4卡精品| 在线免费观看的www视频| 又黄又爽又刺激的免费视频.| 日本精品一区二区三区蜜桃| 可以在线观看毛片的网站| 成人国产综合亚洲| 亚洲aⅴ乱码一区二区在线播放| 黄色配什么色好看| 天美传媒精品一区二区| 老熟妇乱子伦视频在线观看| 成人无遮挡网站| 精品不卡国产一区二区三区| a在线观看视频网站| 亚洲精品在线美女| 亚洲成人久久爱视频| 亚洲精品一区av在线观看| 成熟少妇高潮喷水视频| 深夜精品福利| 午夜日韩欧美国产| 国产高清有码在线观看视频| 日本黄色视频三级网站网址| 热99re8久久精品国产| 久久国产乱子伦精品免费另类| 国产成人啪精品午夜网站| 日本撒尿小便嘘嘘汇集6| 村上凉子中文字幕在线| 亚洲avbb在线观看| 国产精品一区二区三区四区久久| 日韩欧美在线乱码| 啪啪无遮挡十八禁网站| av在线蜜桃| x7x7x7水蜜桃| 亚洲美女黄片视频| 国产精品伦人一区二区| 国产av在哪里看| 在线免费观看不下载黄p国产 | 久久热精品热| 99久国产av精品| 久久婷婷人人爽人人干人人爱| 淫妇啪啪啪对白视频| 舔av片在线| 看十八女毛片水多多多| 精品久久久久久久末码| 久久久久国产精品人妻aⅴ院| 在线观看美女被高潮喷水网站 | 国产高清有码在线观看视频| 1024手机看黄色片| 亚洲三级黄色毛片| 美女免费视频网站| 久久精品国产亚洲av天美| 日本精品一区二区三区蜜桃| 日韩欧美在线乱码| or卡值多少钱| av天堂中文字幕网| 嫩草影院精品99| 精品福利观看| 国产精品日韩av在线免费观看| 国产精品乱码一区二三区的特点| 俺也久久电影网| 在线观看免费视频日本深夜| 18禁黄网站禁片午夜丰满| 99久久久亚洲精品蜜臀av| 精品无人区乱码1区二区| av欧美777| 99热精品在线国产| 有码 亚洲区| 亚洲va日本ⅴa欧美va伊人久久| 亚洲欧美清纯卡通| 欧美三级亚洲精品| 欧美黄色淫秽网站| 高清日韩中文字幕在线| 观看免费一级毛片| 免费看美女性在线毛片视频| 久久久久久久久久成人| 嫁个100分男人电影在线观看| 国产黄片美女视频| bbb黄色大片| h日本视频在线播放| 国产成人影院久久av| 国产精品影院久久| 精品人妻一区二区三区麻豆 | 成年女人毛片免费观看观看9| 欧美午夜高清在线| 级片在线观看| 听说在线观看完整版免费高清| 国产在线男女| 亚洲五月天丁香| 国产精品99久久久久久久久| 一本久久中文字幕| 又黄又爽又免费观看的视频| 日韩亚洲欧美综合| www日本黄色视频网| 国产v大片淫在线免费观看| 久久精品国产亚洲av香蕉五月| av在线老鸭窝| 国产精品女同一区二区软件 | 免费av毛片视频| 直男gayav资源| 欧美日韩中文字幕国产精品一区二区三区| 欧美潮喷喷水| 免费人成视频x8x8入口观看| 黄色配什么色好看| 亚洲人成电影免费在线| 此物有八面人人有两片| 又爽又黄a免费视频| 美女黄网站色视频| 国产免费男女视频| 观看美女的网站| 国产一区二区三区视频了| 给我免费播放毛片高清在线观看| 美女大奶头视频| 少妇人妻精品综合一区二区 | 91在线精品国自产拍蜜月| 可以在线观看毛片的网站| av视频在线观看入口| 亚洲国产精品合色在线| 可以在线观看的亚洲视频| 麻豆久久精品国产亚洲av| 亚洲人成电影免费在线| 久久99热这里只有精品18| 在线播放国产精品三级| 欧美性感艳星| 精品一区二区三区视频在线观看免费| 18禁在线播放成人免费| 夜夜看夜夜爽夜夜摸| 一级av片app| 国产国拍精品亚洲av在线观看| 亚洲av中文字字幕乱码综合| 国模一区二区三区四区视频| 久久人人精品亚洲av| 国产成人欧美在线观看| 哪里可以看免费的av片| 国产黄片美女视频| 亚洲aⅴ乱码一区二区在线播放| 日本成人三级电影网站| 成人鲁丝片一二三区免费| 少妇人妻一区二区三区视频| 天堂网av新在线| 中文字幕熟女人妻在线| 欧美日韩瑟瑟在线播放| 18禁黄网站禁片午夜丰满| 国产精品一区二区性色av| 一卡2卡三卡四卡精品乱码亚洲| 香蕉av资源在线| 亚洲久久久久久中文字幕| 天堂√8在线中文| 欧美激情久久久久久爽电影| 搡老妇女老女人老熟妇| 欧美激情国产日韩精品一区| 美女xxoo啪啪120秒动态图 | 国产av不卡久久| 国语自产精品视频在线第100页| 亚洲欧美激情综合另类| 国产精品影院久久| 淫妇啪啪啪对白视频| 精品一区二区免费观看| 欧美+日韩+精品| 欧美一区二区亚洲| 欧美日韩瑟瑟在线播放| 99热6这里只有精品| 一级a爱片免费观看的视频| 真人做人爱边吃奶动态| 少妇裸体淫交视频免费看高清| 国产一区二区三区视频了| 亚洲欧美日韩高清专用| 久久精品国产亚洲av香蕉五月| 中文在线观看免费www的网站| 一夜夜www| 97碰自拍视频| 成人鲁丝片一二三区免费| 有码 亚洲区| 国产亚洲精品综合一区在线观看| 好男人在线观看高清免费视频| 午夜a级毛片| 91狼人影院| 亚洲人成电影免费在线| 亚洲激情在线av| 黄色一级大片看看| 国产视频内射| 亚洲精品粉嫩美女一区| 国产大屁股一区二区在线视频|