• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    增強(qiáng)型深度確定策略梯度算法

    2018-12-19 08:34:10陳建平何超劉全吳宏杰胡伏原傅啟明
    通信學(xué)報(bào) 2018年11期
    關(guān)鍵詞:深度動(dòng)作策略

    陳建平,何超,劉全,吳宏杰,胡伏原,傅啟明

    ?

    增強(qiáng)型深度確定策略梯度算法

    陳建平1,2,3,4,何超1,2,3,劉全5,吳宏杰1,2,3,4,胡伏原1,2,3,4,傅啟明1,2,3,4

    (1. 蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2. 蘇州科技大學(xué)江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009; 3. 蘇州科技大學(xué)蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009; 4. 蘇州科技大學(xué)蘇州市虛擬現(xiàn)實(shí)智能交互及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009;5. 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

    針對(duì)深度確定策略梯度算法收斂速率較慢的問(wèn)題,提出了一種增強(qiáng)型深度確定策略梯度(E-DDPG)算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個(gè)新的樣本池——多樣性樣本池和高誤差樣本池。在算法執(zhí)行過(guò)程中,訓(xùn)練樣本分別從多樣性樣本池和高誤差樣本池按比例選取,以兼顧樣本多樣性以及樣本價(jià)值信息,提高樣本的利用效率和算法的收斂性能。此外,進(jìn)一步從理論上證明了利用自模擬度量方法對(duì)樣本進(jìn)行相似性度量的合理性,建立值函數(shù)與樣本相似性之間的關(guān)系。將E-DDPG算法以及DDPG算法用于經(jīng)典的Pendulum問(wèn)題和MountainCar問(wèn)題,實(shí)驗(yàn)結(jié)果表明,E-DDPG具有更好的收斂穩(wěn)定性,同時(shí)具有更快的收斂速率。

    深度強(qiáng)化學(xué)習(xí);樣本排序;自模擬度量;時(shí)間差分誤差

    1 引言

    強(qiáng)化學(xué)習(xí)的基本思想是通過(guò)最大化智能體(agent)從環(huán)境中獲得的累計(jì)獎(jiǎng)賞值,以學(xué)習(xí)完成目標(biāo)的最優(yōu)策略[1]。依據(jù)策略表示方法和求解的不同,可以將強(qiáng)化學(xué)習(xí)方法分為3類:“評(píng)論家”算法,該算法利用值函數(shù)對(duì)策略進(jìn)行評(píng)估,最終利用最優(yōu)值函數(shù)求解最優(yōu)策略;“行動(dòng)者”算法,該算法利用類似啟發(fā)式搜索的方法從策略空間中找出最優(yōu)策略;“行動(dòng)者—評(píng)論家”算法,行動(dòng)者部分用于動(dòng)作的選取,評(píng)論家部分用于評(píng)估動(dòng)作的好壞,利用值函數(shù)信息指導(dǎo)策略的搜索[2]。然而對(duì)于上述任意一類算法,在學(xué)習(xí)過(guò)程中,都需要人工設(shè)定狀態(tài)表示方法,而通過(guò)深度學(xué)習(xí)方法,可以實(shí)現(xiàn)狀態(tài)特征的自動(dòng)學(xué)習(xí),以實(shí)現(xiàn)“端到端”的任務(wù)學(xué)習(xí)。目前,深度學(xué)習(xí)作為在機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn),已經(jīng)在圖像分析、語(yǔ)音識(shí)別、視頻分類、自然語(yǔ)言處理等領(lǐng)域獲得令人矚目的成就。深度學(xué)習(xí)的基本思想是通過(guò)多層的網(wǎng)絡(luò)結(jié)構(gòu)和非線性變換,組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[3]。深度學(xué)習(xí)模型通常由多層的非線性運(yùn)算單元組合而成,將較低層的輸出作為更高一層的輸入,通過(guò)這種方式自動(dòng)地從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示[4-5]。

    谷歌的DeepMind團(tuán)隊(duì)將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來(lái),提出深度強(qiáng)化學(xué)習(xí)方法,并將深度強(qiáng)化學(xué)習(xí)應(yīng)用于圍棋問(wèn)題。2016年,Alpha Go[6]在人機(jī)圍棋比賽中以4:1戰(zhàn)勝圍棋大師李世石,而新版的Alpha Zero[7]可以不需要任何歷史棋譜知識(shí),不借助任何人類先驗(yàn)知識(shí),僅利用深度強(qiáng)化學(xué)習(xí)進(jìn)行自我對(duì)弈,最終能以100:0的戰(zhàn)績(jī)完勝Alpha Go。目前,深度強(qiáng)化學(xué)習(xí)已經(jīng)成為人工智能領(lǐng)域的研究熱點(diǎn)。Mnih等[8-9]將卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的Q學(xué)習(xí)[10]算法相結(jié)合,提出了深度Q網(wǎng)絡(luò)(DQN, deep Q-network)模型。DQN將未被處理過(guò)的像素點(diǎn)(原始圖像)作為輸入,通過(guò)樣本池存儲(chǔ)歷史經(jīng)驗(yàn)樣本,同時(shí)利用經(jīng)驗(yàn)回放打破樣本間的聯(lián)系,以避免網(wǎng)絡(luò)參數(shù)的震蕩。但是DQN只能解決離散的、低維的動(dòng)作空間問(wèn)題,將DQN應(yīng)用到連續(xù)動(dòng)作領(lǐng)域最簡(jiǎn)單的做法是將連續(xù)動(dòng)作離散化,但是這會(huì)導(dǎo)致離散動(dòng)作的數(shù)量隨動(dòng)作維度的增加而呈指數(shù)型增長(zhǎng),同時(shí)對(duì)連續(xù)動(dòng)作進(jìn)行簡(jiǎn)單的離散化會(huì)忽略動(dòng)作域的結(jié)構(gòu),然而在很多情況下,動(dòng)作域的結(jié)構(gòu)對(duì)于問(wèn)題的求解是非常重要的,因此,目前基于DQN算法提出了很多關(guān)于DQN的變體。Hasselt等[11]在雙重Q學(xué)習(xí)算法[12]的基礎(chǔ)上提出了深度雙重Q網(wǎng)絡(luò)(DDQN, deep double Q-network)算法。Schaul等[13]在DDQN的基礎(chǔ)上提出了一種基于比例優(yōu)先級(jí)采樣的深度雙Q網(wǎng)絡(luò)(double deep Q-network with proportional prioritization)等。然而,這些改進(jìn)的算法都不能夠很好地解決連續(xù)動(dòng)作空間問(wèn)題。在連續(xù)動(dòng)作空間中,策略梯度是常用的方法,它通過(guò)不斷計(jì)算策略期望總獎(jiǎng)賞關(guān)于策略參數(shù)的梯度來(lái)更新策略參數(shù),最終收斂于最優(yōu)策略[14]。因此,在解決深度強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),可以采用深度神經(jīng)網(wǎng)絡(luò)表示策略,并利用策略梯度方法求解最優(yōu)參數(shù)。此外,在求解深度強(qiáng)化學(xué)習(xí)問(wèn)題時(shí),基于策略梯度的算法能夠直接優(yōu)化策略的期望總獎(jiǎng)賞,并以端對(duì)端的方式直接在策略空間中搜索最優(yōu)策略。因此,與DQN及其改進(jìn)算法相比,基于策略梯度的深度強(qiáng)化學(xué)習(xí)方法適用范圍更廣,策略優(yōu)化的效果也更好。Lillicrap等[15]將DPG(deterministic policy gradient)算法[16]與DQN相結(jié)合,提出了DDPG(deep deterministic policy gradient)算法。DDPG可用于解決連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題。實(shí)驗(yàn)表明,DDPG不但在一系列連續(xù)動(dòng)作空間的任務(wù)中表現(xiàn)穩(wěn)定,而且求得最優(yōu)解所需要的時(shí)間步也遠(yuǎn)低于DQN,但是DDPG需要大量的樣本數(shù)據(jù),且算法的收斂速度也有待提高。

    本文在DDPG算法的基礎(chǔ)上提出了增強(qiáng)型深度確定策略梯度(E-DDPG, enhanced deep deterministic policy gradient)算法。針對(duì)DDPG算法收斂速度慢的問(wèn)題,E-DDPG算法在原始樣本池的基礎(chǔ)上構(gòu)建了兩個(gè)樣本池——高誤差樣本池和多樣性樣本池。高誤差樣本池將TD(temporal-difference)error作為啟發(fā)式信息對(duì)樣本進(jìn)行排序,以提高誤差較大的樣本的選取概率。同時(shí),多樣性樣本池利用自模擬度量方法度量樣本間的距離,在原始樣本池的基礎(chǔ)上,選擇低相似樣本,以提高樣本池中樣本的多樣性,提高算法的執(zhí)行效率。在算法學(xué)習(xí)過(guò)程中,訓(xùn)練樣本將分別從高誤差樣本池和多樣性樣本池按比例選取,以兼顧樣本多樣性以及樣本價(jià)值信息,提高樣本的利用效率和算法的收斂性能。實(shí)驗(yàn)結(jié)果表明,與DDPG算法相比,E-DDPG算法具有更快的收斂速度以及更好的收斂穩(wěn)定性。

    2 相關(guān)理論

    2.1 馬爾可夫決策過(guò)程

    式(1)也被稱作Bellman公式。

    式(2)被稱作最優(yōu)Bellman公式。

    2.2 深度確定策略梯度算法

    在隨機(jī)策略中,策略梯度取決于狀態(tài)和動(dòng)作,而在確定策略中,策略梯度僅取決于狀態(tài)。因此,與隨機(jī)策略梯度算法相比,確定策略梯度算法收斂需要的樣本相對(duì)較少。

    其中,有

    值得注意的是,確定策略梯度算法缺少對(duì)環(huán)境的探索,而DDPG算法通過(guò)引入隨機(jī)噪聲來(lái)完成策略探索。通過(guò)添加隨機(jī)噪聲,使動(dòng)作的選擇具有一定的隨機(jī)性,以完成一定程度的策略探索,具體如式(6)所示。

    2.3 自模擬度量與狀態(tài)之間的距離

    為了度量MDP中狀態(tài)的關(guān)系,自模擬關(guān)系被Givan等[17]引入MDP中。簡(jiǎn)而言之,如果兩個(gè)狀態(tài)滿足自模擬關(guān)系,那么這兩個(gè)狀態(tài)就共享相同的最優(yōu)值函數(shù)以及最優(yōu)動(dòng)作。

    從定義1可以得出,任意兩個(gè)狀態(tài)要么滿足自模擬關(guān)系,要么不滿足自模擬關(guān)系。這種度量方法過(guò)于苛刻,且限制其使用的范圍。Ferns等[18]提出了一種可用于衡量?jī)蓚€(gè)狀態(tài)之間遠(yuǎn)近關(guān)系的自模擬度量方法(bisimulation metric)。

    計(jì)算兩個(gè)狀態(tài)距離的算法如算法1所示。

    算法1 狀態(tài)之間距離度量算法

    5) end for

    7) end for

    3 增強(qiáng)型深度確定策略梯度算法

    3.1 樣本池的構(gòu)建

    同時(shí),為了保證選取樣本的多樣性,引入自模擬度量方法。從原始樣本池0和高誤差樣本池2中隨機(jī)選取的樣本,可能存在很多近似樣本,甚至是重復(fù)樣本,這會(huì)降低算法的執(zhí)行效率。因此,考慮間隔個(gè)情節(jié),利用算法1計(jì)算出原始樣本池0中樣本之間的距離,將低相似性樣本放入多樣性樣本池1,以保證所選擇樣本的多樣性。此后,算法1將分別從多樣性樣本池1和高誤差樣本池2按一定比例選取樣本,進(jìn)行學(xué)習(xí),同時(shí)兼顧樣本多樣性以及高價(jià)值樣本信息,進(jìn)一步提高算法的執(zhí)行效率。

    3.2 行動(dòng)者—評(píng)論家網(wǎng)絡(luò)參數(shù)更新

    3.3 E-DDPG算法

    根據(jù)3.1節(jié)和3.2節(jié)的介紹,下面給出詳細(xì)的E-DDPG算法的流程,如算法2所示。

    算法2 E-DDPG算法

    2) for= 1 todo

    4) 利用自模擬度量方法,將低相似性樣本放入多樣性樣本池1

    5) 獲得初始觀察狀態(tài)1

    6) for= 1 todo

    14) else

    21) end if

    22) end if

    23) end if

    24) end for

    25) end if

    26) end for

    3.4 關(guān)于多樣性樣本池的分析

    證畢。

    因此,利用自模擬度量方法計(jì)算樣本間的距離,利用該距離確定樣本間的相似性可以進(jìn)一步反映樣本在值函數(shù)空間中的相似性。從參數(shù)更新的角度而言,在算法學(xué)習(xí)過(guò)程中,高相似性的樣本具有較低的價(jià)值,而低相似性的樣本將提高算法的更新效率,進(jìn)而加快算法收斂速度。

    3.5 關(guān)于高誤差樣本池的分析

    在強(qiáng)化學(xué)習(xí)中,從歷史樣本池中進(jìn)行均勻采樣,可能會(huì)導(dǎo)致較多的更新集中在某一些低價(jià)值的樣本上,如果將更新集中在某些特殊的樣本上,則會(huì)使算法的更新更加高效。在均勻采樣訓(xùn)練的過(guò)程中,會(huì)浪費(fèi)大量時(shí)間和計(jì)算資源進(jìn)行很多無(wú)用的更新,隨著學(xué)習(xí)的不斷進(jìn)行,有用的更新區(qū)域不斷增加,但是與將更新集中在高價(jià)值的樣本上相比,學(xué)習(xí)的效率和效果差了很多。在連續(xù)狀態(tài)空間中,這種非集中式搜索的效率將會(huì)非常低下。

    本文以TD error作為啟發(fā)式信息,將訓(xùn)練中高價(jià)值的樣本挑選出來(lái)構(gòu)建高誤差樣本池,在接下來(lái)的訓(xùn)練中,通過(guò)提高這些高價(jià)值樣本的選取概率,進(jìn)而更快地獲得有用的更新區(qū)域。由于關(guān)于TD error的閾值是人為設(shè)置的,若僅僅從高誤差樣本池2中選取訓(xùn)練樣本,可能導(dǎo)致錯(cuò)過(guò)部分高價(jià)值樣本,因此,算法同時(shí)也從多樣性樣本池中選擇一定比例的樣本。實(shí)驗(yàn)結(jié)果表明,該方法可以提高算法的收斂速度。

    4 實(shí)驗(yàn)結(jié)果分析

    4.1 Pendulum問(wèn)題

    1)實(shí)驗(yàn)描述

    為了驗(yàn)證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典Pendulum問(wèn)題。圖1給出了Pendulum問(wèn)題的示意。

    圖1 Pendulum問(wèn)題的示意

    一個(gè)倒立的鐘擺,擺桿繞中間轉(zhuǎn)軸隨機(jī)擺動(dòng)。agent的任務(wù)是學(xué)習(xí)到一個(gè)策略,使擺桿保持豎直。本文實(shí)驗(yàn)環(huán)境是OpenAI gym,狀態(tài)是三維的,其中,二維表示鐘擺的位置,一維表示鐘擺的速度。狀態(tài)可以表示為

    動(dòng)作是一維的,表示對(duì)鐘擺的作用力,取值范圍為[?2,2]。動(dòng)作可以表示為

    獎(jiǎng)賞函數(shù)可以表示為

    其中,等于式(9)的計(jì)算值的概率是0.1,等于0的概率是0.9。

    2) 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)運(yùn)行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。

    在該實(shí)驗(yàn)中,DDPG算法收斂需要8.1 h,未引入自模擬度量的E-DDPG算法收斂需要5.2 h,而引入自模擬度量的E-DDPG算法收斂?jī)H需要2.4 h。

    3) 實(shí)驗(yàn)分析

    DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的Pendulum問(wèn)題上的性能比較(在實(shí)驗(yàn)過(guò)程中,每個(gè)算法都獨(dú)立執(zhí)行3 000個(gè)情節(jié))如圖2所示,各種算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時(shí)的總回報(bào)值(回報(bào)值是通過(guò)目標(biāo)任務(wù)從開(kāi)始狀態(tài)達(dá)到終止?fàn)顟B(tài)時(shí)總的獎(jiǎng)賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報(bào)值。從圖2可以看出,E-DDPG算法在300個(gè)情節(jié)時(shí)基本收斂。DDPG算法雖然在400個(gè)情節(jié)時(shí)取得較高的回報(bào)值,但是還在震蕩并沒(méi)有收斂,直到1 200個(gè)情節(jié)才收斂。因?yàn)镋-DDPG算法引入了TD error,加大了對(duì)具有更高價(jià)值的樣本的選取概率,同時(shí)因?yàn)椴捎米阅M度量方法更新多樣性樣本池1,使選取的訓(xùn)練樣本多樣性得到保證,從而進(jìn)一步加快算法的收斂速度。此外,從圖2還可以看出,兩種算法在收斂后,E-DDPG算法每個(gè)情節(jié)的回報(bào)值震蕩的幅度比DDPG算法的震蕩幅度更小,這充分說(shuō)明E-DDPG算法的穩(wěn)定性比DDPG算法更好。

    圖2 Pendulum問(wèn)題中兩種算法的性能比較

    引入自模擬度量E-DDPG算法、未引入自摸E-DDPG算法和DDPG算法進(jìn)行的實(shí)驗(yàn)對(duì)比,結(jié)果如圖3所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖3可以看出,沒(méi)有引入自模擬度量方法的E-DDPG算法在700個(gè)情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在300個(gè)情節(jié)算法就收斂,而DDPG算法在1 200個(gè)情節(jié)才收斂。因?yàn)樽阅M度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。

    圖3 Pendulum問(wèn)題中E-DDPG算法是否引入自模擬度量方法與DDPG算法的實(shí)驗(yàn)對(duì)比

    圖4 Pendulum問(wèn)題中E-DDPG算法不同TD Error和DDPG算法的實(shí)驗(yàn)對(duì)比

    圖5 Pendulum問(wèn)題中E-DDPG算法不同樣本選取比例和DDPG算法的實(shí)驗(yàn)對(duì)比

    4.2 MountainCar問(wèn)題

    1) 實(shí)驗(yàn)描述

    為了驗(yàn)證算法的有效性,本文將DDPG算法和E-DDPG算法用于經(jīng)典的MountainCar問(wèn)題。圖6給出了MountainCar問(wèn)題的示意。

    圖6 MountainCar問(wèn)題的示意

    曲面表示一個(gè)帶有坡度的路面,小車處在坡底,由于動(dòng)力不足,小車無(wú)法直接加速?zèng)_上坡頂,因此必須通過(guò)前后加速借助慣性到達(dá)坡頂,即圖6中右側(cè)“星”形標(biāo)記的位置。本文實(shí)驗(yàn)的環(huán)境是OpenAI gym,狀態(tài)是二維的,其中,一維表示位置,另一維表示速度,狀態(tài)可以表示為

    動(dòng)作是一維的,表示小車的加速度,取值范圍為[?1,1]。動(dòng)作可以表示為

    在情節(jié)開(kāi)始時(shí),給定小車一個(gè)隨機(jī)的位置和速度,然后進(jìn)行交互學(xué)習(xí)。當(dāng)小車到達(dá)目標(biāo)位置(圖6中的“星”形位置)或當(dāng)前執(zhí)行的時(shí)間步超過(guò)1 000時(shí),情節(jié)結(jié)束,并開(kāi)始一個(gè)新的情節(jié)。當(dāng)小車到達(dá)目標(biāo)位置時(shí),立即獎(jiǎng)賞是100;其他情況下,小車的立即獎(jiǎng)賞滿足

    2)實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)運(yùn)行硬件環(huán)境為Inter(R) Xeon(R) CPU E5-2660處理器、NVIDIA GeForce GTX 1060顯卡、16 GB內(nèi)存;軟件環(huán)境為Windows 10操作系統(tǒng)、python 3.5、TensorFlow_GPU-1.4.0。

    在本實(shí)驗(yàn)中,DDPG算法收斂需要7.5 h,未引入自模擬度量的E-DDPG算法收斂需要4.7 h,而引入自模擬度量的E-DDPG算法收斂?jī)H需要1.6 h。

    3) 實(shí)驗(yàn)分析

    DDPG算法、E-DDPG算法應(yīng)用于經(jīng)典的MountainCar問(wèn)題上的性能比較(在實(shí)驗(yàn)過(guò)程中,每個(gè)算法都獨(dú)立執(zhí)行2 000個(gè)情節(jié))如圖7所示,各個(gè)算法在不同情節(jié)下,目標(biāo)任務(wù)達(dá)到終止?fàn)顟B(tài)時(shí)總的回報(bào)值(回報(bào)值是通過(guò)目標(biāo)任務(wù)從開(kāi)始狀態(tài)達(dá)到終止?fàn)顟B(tài)時(shí)總的獎(jiǎng)賞值)。其中,橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是算法執(zhí)行10次的平均回報(bào)值。從圖7可以看出,E-DDPG算法在120個(gè)情節(jié)基本收斂。DDPG算法雖然在220個(gè)情節(jié)時(shí)取得較高的回報(bào)值,但是還在震蕩并沒(méi)有收斂,直到780個(gè)情節(jié)才收斂。

    圖7 MountainCar問(wèn)題中兩種算法的性能比較

    E-DDPG算法是否引入自模擬度量方法進(jìn)行的實(shí)驗(yàn)對(duì)比如圖8所示,其中,設(shè)置自模擬度量間隔的情節(jié)數(shù)=30。從圖8可以看出,沒(méi)有引入自模擬度量方法的E-DDPG算法在470個(gè)情節(jié)算法才收斂,引入自模擬度量方法的E-DDPG算法在120個(gè)情節(jié)算法就收斂了,而DDPG算法在780個(gè)情節(jié)才收斂。這是因?yàn)樽阅M度量方法使訓(xùn)練的樣本具有更好的多樣性,提高了訓(xùn)練的效率,從而加快了訓(xùn)練的速度。實(shí)驗(yàn)表明,自模擬度量方法能夠加快算法的收斂速度。

    圖8 MountainCar問(wèn)題中E-DDPG算法是否引入自模擬度量方法的實(shí)驗(yàn)比較

    圖9 MountainCar問(wèn)題中E-DDPG算法不同TD Error和DDPG算法的實(shí)驗(yàn)比較

    圖10 MountainCar問(wèn)題中E-DDPG算法不同樣本選取比例和DDPG算法的實(shí)驗(yàn)比較

    5 結(jié)束語(yǔ)

    本文針對(duì)DDPG算法在大規(guī)模狀態(tài)動(dòng)作空間中存在收斂速度較慢的問(wèn)題,提出了E-DDPG算法。該算法在深度確定策略梯度算法的基礎(chǔ)上,重新構(gòu)建兩個(gè)新的樣本池——多樣性樣本池和高誤差樣本池。其中,多樣性樣本池主要利用自模擬度量方法對(duì)原始樣本池中的樣本相似性進(jìn)行度量,選擇低相似性樣本,并在學(xué)習(xí)過(guò)程中持續(xù)更新;高誤差樣本池主要通過(guò)計(jì)算時(shí)間差分誤差對(duì)所選擇的訓(xùn)練樣本進(jìn)行排序,選擇具有高價(jià)值的高誤差樣本,以提高后續(xù)參數(shù)更新的有效性。將算法應(yīng)用到Pendulum問(wèn)題,從算法性能角度與DDPG算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,E-DDPG算法比DDPG算法收斂速度更快,同時(shí)算法的穩(wěn)定性也更好。針對(duì)TD error閾值和多樣性樣本池與高誤差樣本池訓(xùn)練樣本比例等參數(shù)的人工設(shè)置不同,對(duì)算法性能的影響分別進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,雖然TD error閾值選取和樣本選取比例不同會(huì)導(dǎo)致E-DDPG算法性能不一樣,但是與DDPG算法相比還是有較好的效果。

    本文主要以Pendulum問(wèn)題和MountainCar問(wèn)題作為實(shí)驗(yàn)平臺(tái)驗(yàn)證算法性能,從實(shí)驗(yàn)結(jié)果可以看出,算法具有較好的收斂性和穩(wěn)定性。但是E-DDPG算法中TD error的選取和樣本比例的選取都是人工設(shè)置的,且不同的設(shè)置參數(shù)會(huì)對(duì)算法收斂性和穩(wěn)定性產(chǎn)生不同的影響。因此,接下來(lái)的工作是進(jìn)一步分析如何設(shè)置TD error和樣本選取比例,讓算法可以獲得最好的收斂性和穩(wěn)定性,使算法具有更強(qiáng)的通用性。

    [1] SUTTON R S, BARTO G A. Reinforcement learning: an introduction[M]. Cambridge: MIT press, 1998.

    [2] 朱斐, 劉全, 傅啟明, 等. 一種用于連續(xù)動(dòng)作空間的最小二乘行動(dòng)者-評(píng)論家方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(3): 548-558. ZHU F, LIU Q, FU Q M. A least square actor-critic approach for continuous action space[J]. Journal of Computer Research and Development, 2014, 51(3): 548-558.

    [3] 孫志軍, 薛磊, 許陽(yáng)明, 等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810. SUN Z J, XUE L, XU Y M, et al. Overview of deep learning[J]. Application Research of Computers, 2012, 29(8): 2806-2810.

    [4] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.

    [5] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

    [6] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.

    [7] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359.

    [8] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Playing atari with deep reinforcement learning[C]//Workshops at the 26th Neural Information Processing Systems. 2013.

    [9] MNIH V, KAVUKCUOFLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

    [10] WATKINS C J C H. Learning from delayed rewards[J]. Robotics and Autonomous Systems, 1989, 15(4): 233-235.

    [11] VAN H V, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//The AAAI Conference on Artificial Intelligence. 2016.

    [12] HASSELT H V. Double Q-learning[C]//The Advances in Neural Information Processing Systems. 2010.

    [13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[C]//The 4th International Conference on Learning Representations. 2016: 322-355.

    [14] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[J]. Advances in Neural Information Processing Systems, 2000, 12: 1057-1063.

    [15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]//The 4th International Conference on Learning Representations. 2015.

    [16] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]//The International Conference on Machine Learning. 2014.

    [17] GIVAN R, DEAN T, GREIG M. Equivalence notions and model minimization in Markov decision processes[J]. Artificial Intelligence, 2003, 147(1-2): 163-223.

    [18] FERNS N, PANANGADEN P, PRECUP D. Metrics for finite markov decision processes[C]//The 20th Conference on Uncertainty in Artificial Intelligence. 2004.

    Enhanced deep deterministic policy gradient algorithm

    CHEN Jianping1,2,3,4, HE Chao1,2,3, LIU Quan5, WU Hongjie1,2,3,4, HU Fuyuan1,2,3,4, FU Qiming1,2,3,4

    1. Institute of Electronics and Information Engineering, Suzhou University of Science and Technology, Suzhou 215009, China 2. Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou University of Science and Technology, Suzhou 215009, China 3. Suzhou Key Laboratory of Mobile Networking and Applied Technologies, Suzhou University of Science and Technology, Suzhou 215009, China 4. Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou University of Science and Technology, Suzhou 215009, China 5. School of Computer Science and Technology, Soochow University, Suzhou 215006, China

    With the problem of slow convergence for deep deterministic policy gradient algorithm, an enhanced deep deterministic policy gradient algorithm was proposed. Based on the deep deterministic policy gradient algorithm, two sample pools were constructed, and the time difference error was introduced. The priority samples were added when the experience was played back. When the samples were trained, the samples were selected from two sample pools respectively. At the same time, the bisimulation metric was introduced to ensure the diversity of the selected samples and improve the convergence rate of the algorithm. The E-DDPG algorithm was used to pendulum problem. The experimental results show that the E-DDPG algorithm can effectively improve the convergence performance of the continuous action space problems and have better stability.

    deep reinforcement learning, sample ranking, bisimulation metric, temporal difference error

    TP391

    A

    10.11959/j.issn.1000?436x.2018238

    陳建平(1963?),男,江蘇南京人,博士,蘇州科技大學(xué)教授,主要研究方向?yàn)榇髷?shù)據(jù)分析與應(yīng)用、建筑節(jié)能、智能信息處理。

    何超(1993?),男,江蘇徐州人,蘇州科技大學(xué)碩士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、深度學(xué)習(xí)、建筑節(jié)能。

    劉全(1969?),男,內(nèi)蒙古牙克石人,博士,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、自?dòng)推理與機(jī)器學(xué)習(xí)。

    吳宏杰(1977?),男,江蘇蘇州人,博士,蘇州科技大學(xué)副教授,主要研究方向?yàn)樯疃葘W(xué)習(xí)、模式識(shí)別、生物信息。

    胡伏原(1978?),男,湖南岳陽(yáng)人,博士,蘇州科技大學(xué)教授,主要研究方向?yàn)槟J阶R(shí)別與機(jī)器學(xué)習(xí)。

    傅啟明(1985?),男,江蘇淮安人,博士,蘇州科技大學(xué)講師,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、深度學(xué)習(xí)及建筑節(jié)能。

    2018?03?22;

    2018?08?01

    傅啟明,fqm_1@126.com

    國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323);江蘇省自然科學(xué)基金資助項(xiàng)目(No.BK20140283);江蘇省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.BE2017663);江蘇省高校自然科學(xué)研究基金資助項(xiàng)目(No.13KJB520020);蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分基金資助項(xiàng)目(No.SYG201422)

    The National Natural Science Foundation of China (No.61502329, No.61772357, No.61750110519, No.61772355, No.61702055, No.61672371, No.61602334, No.61502323), The Natural Science Foundation of Jiangsu Province (No.BK20140283), The Key Research and Development Program of Jiangsu Province (No.BE2017663), High School Natural Foundation of Jiangsu Province (No.13KJB520020), Suzhou Industrial Application of Basic Research Program Part (No.SYG201422)

    猜你喜歡
    深度動(dòng)作策略
    深度理解一元一次方程
    例談未知角三角函數(shù)值的求解策略
    我說(shuō)你做講策略
    深度觀察
    深度觀察
    深度觀察
    動(dòng)作描寫要具體
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    畫動(dòng)作
    動(dòng)作描寫不可少
    91aial.com中文字幕在线观看| 午夜福利视频1000在线观看| 久久99精品国语久久久| 欧美97在线视频| 激情五月婷婷亚洲| 日日啪夜夜撸| 日韩人妻高清精品专区| 亚洲精品自拍成人| 久久综合国产亚洲精品| 色哟哟·www| 日韩精品有码人妻一区| 亚洲伊人久久精品综合| 人体艺术视频欧美日本| 久久精品久久久久久久性| 能在线免费观看的黄片| 精品欧美国产一区二区三| 91精品伊人久久大香线蕉| 午夜福利在线观看吧| 99九九线精品视频在线观看视频| 国产精品人妻久久久久久| 伊人久久国产一区二区| 韩国av在线不卡| 五月天丁香电影| 97热精品久久久久久| 嫩草影院新地址| 精品一区在线观看国产| 爱豆传媒免费全集在线观看| 五月伊人婷婷丁香| 国产免费福利视频在线观看| 免费观看在线日韩| 老司机影院毛片| 熟妇人妻久久中文字幕3abv| 国产欧美日韩精品一区二区| 国产亚洲av片在线观看秒播厂 | 高清日韩中文字幕在线| 亚洲精品日韩在线中文字幕| 伊人久久精品亚洲午夜| 80岁老熟妇乱子伦牲交| 男女那种视频在线观看| 欧美极品一区二区三区四区| 男插女下体视频免费在线播放| 免费大片18禁| 日韩强制内射视频| 我的女老师完整版在线观看| 国产精品人妻久久久影院| 亚洲国产精品sss在线观看| 看免费成人av毛片| 日韩视频在线欧美| 观看免费一级毛片| 九九爱精品视频在线观看| 啦啦啦啦在线视频资源| 婷婷色av中文字幕| 51国产日韩欧美| 91av网一区二区| 国产av码专区亚洲av| 免费在线观看成人毛片| 能在线免费看毛片的网站| 18禁在线无遮挡免费观看视频| 久久午夜福利片| 青春草亚洲视频在线观看| 国产欧美另类精品又又久久亚洲欧美| 亚洲精品成人久久久久久| 街头女战士在线观看网站| 人妻夜夜爽99麻豆av| 亚洲av日韩在线播放| 人妻夜夜爽99麻豆av| 亚洲av日韩在线播放| 天堂中文最新版在线下载 | 99久久精品热视频| 免费看光身美女| 中文资源天堂在线| 人人妻人人看人人澡| 80岁老熟妇乱子伦牲交| 国产伦一二天堂av在线观看| 欧美xxⅹ黑人| 日产精品乱码卡一卡2卡三| 国产精品无大码| 婷婷色综合大香蕉| 婷婷六月久久综合丁香| 亚洲av中文av极速乱| 亚洲精华国产精华液的使用体验| 女人被狂操c到高潮| 男人爽女人下面视频在线观看| 亚洲高清免费不卡视频| 简卡轻食公司| 在线观看人妻少妇| 成人高潮视频无遮挡免费网站| 国产有黄有色有爽视频| 国产精品综合久久久久久久免费| 亚洲乱码一区二区免费版| 91av网一区二区| 亚洲国产av新网站| 我的女老师完整版在线观看| 亚洲内射少妇av| 嫩草影院入口| 韩国av在线不卡| 亚洲国产精品国产精品| 国产亚洲av片在线观看秒播厂 | 国产一区有黄有色的免费视频 | 亚洲国产日韩欧美精品在线观看| 啦啦啦韩国在线观看视频| 国产精品麻豆人妻色哟哟久久 | 99久久中文字幕三级久久日本| 亚洲自偷自拍三级| 99久久精品热视频| 国产一区二区在线观看日韩| 久久99热这里只有精品18| 日日撸夜夜添| 国产精品一及| av国产免费在线观看| 精华霜和精华液先用哪个| 精品久久国产蜜桃| 亚洲精品日本国产第一区| 高清在线视频一区二区三区| 人妻一区二区av| 久久99精品国语久久久| 久久久精品欧美日韩精品| 国产美女午夜福利| 成人美女网站在线观看视频| 欧美激情久久久久久爽电影| 亚洲国产高清在线一区二区三| eeuss影院久久| 亚洲av成人av| 一夜夜www| 久久精品国产亚洲网站| 极品少妇高潮喷水抽搐| 一级爰片在线观看| 国产成人精品福利久久| 日日啪夜夜撸| 欧美另类一区| 高清欧美精品videossex| av线在线观看网站| 亚洲丝袜综合中文字幕| 久久精品国产亚洲av涩爱| 国内精品美女久久久久久| 蜜臀久久99精品久久宅男| 中文字幕久久专区| 亚洲色图av天堂| 日产精品乱码卡一卡2卡三| 一边亲一边摸免费视频| 啦啦啦中文免费视频观看日本| 日韩 亚洲 欧美在线| 蜜桃久久精品国产亚洲av| 免费人成在线观看视频色| 欧美激情久久久久久爽电影| 中文字幕av成人在线电影| av免费在线看不卡| 丰满乱子伦码专区| 午夜老司机福利剧场| 成人鲁丝片一二三区免费| 国产亚洲av片在线观看秒播厂 | 人人妻人人澡人人爽人人夜夜 | 最近中文字幕高清免费大全6| 麻豆成人午夜福利视频| 又爽又黄a免费视频| 天天一区二区日本电影三级| 亚洲真实伦在线观看| 国产精品日韩av在线免费观看| 最近2019中文字幕mv第一页| 国产成人freesex在线| 自拍偷自拍亚洲精品老妇| 国产精品三级大全| 最后的刺客免费高清国语| 久久精品国产鲁丝片午夜精品| 国产探花极品一区二区| 欧美日韩一区二区视频在线观看视频在线 | 视频中文字幕在线观看| 51国产日韩欧美| 久久久久国产网址| 国产精品人妻久久久影院| 青春草国产在线视频| 三级经典国产精品| 天堂√8在线中文| 女人被狂操c到高潮| 插逼视频在线观看| av一本久久久久| 熟妇人妻不卡中文字幕| 我的老师免费观看完整版| 国产综合精华液| 极品少妇高潮喷水抽搐| 婷婷色麻豆天堂久久| 色播亚洲综合网| 中文字幕久久专区| av国产免费在线观看| 国内精品宾馆在线| 久久久久免费精品人妻一区二区| 菩萨蛮人人尽说江南好唐韦庄| 久99久视频精品免费| 日韩成人伦理影院| 国产精品久久久久久精品电影| 欧美xxxx性猛交bbbb| 黄色一级大片看看| 天堂√8在线中文| 久热久热在线精品观看| 深夜a级毛片| 久久综合国产亚洲精品| 中文字幕人妻熟人妻熟丝袜美| 中文天堂在线官网| 91在线精品国自产拍蜜月| 久久久久久久亚洲中文字幕| 中文欧美无线码| 丰满少妇做爰视频| 日韩成人伦理影院| 免费电影在线观看免费观看| 国产视频内射| 亚洲成人av在线免费| 色综合站精品国产| 欧美高清性xxxxhd video| 纵有疾风起免费观看全集完整版 | 美女被艹到高潮喷水动态| 精华霜和精华液先用哪个| 国产精品熟女久久久久浪| 麻豆成人av视频| 亚洲一级一片aⅴ在线观看| 久久精品国产亚洲网站| 欧美区成人在线视频| 国产视频首页在线观看| 尤物成人国产欧美一区二区三区| freevideosex欧美| 美女cb高潮喷水在线观看| 国产伦一二天堂av在线观看| 国产成年人精品一区二区| 人妻系列 视频| 欧美激情国产日韩精品一区| 欧美日韩在线观看h| 一级a做视频免费观看| 国产人妻一区二区三区在| av专区在线播放| 天天躁夜夜躁狠狠久久av| 高清av免费在线| 老司机影院成人| videos熟女内射| 三级经典国产精品| 婷婷六月久久综合丁香| 国产黄片视频在线免费观看| 欧美成人精品欧美一级黄| 成人高潮视频无遮挡免费网站| 少妇被粗大猛烈的视频| 欧美激情在线99| 韩国av在线不卡| 国产欧美日韩精品一区二区| 欧美xxⅹ黑人| 国产精品一区二区三区四区久久| 丰满少妇做爰视频| 亚洲av成人精品一区久久| 身体一侧抽搐| 天堂√8在线中文| 人妻少妇偷人精品九色| 波多野结衣巨乳人妻| 亚洲精品,欧美精品| 一级毛片久久久久久久久女| 免费看日本二区| 天天一区二区日本电影三级| 国内揄拍国产精品人妻在线| 一个人观看的视频www高清免费观看| 高清在线视频一区二区三区| 午夜福利网站1000一区二区三区| 嫩草影院精品99| 极品教师在线视频| av在线蜜桃| 亚洲国产精品成人综合色| 午夜免费观看性视频| 日日撸夜夜添| 久热久热在线精品观看| 亚洲精品亚洲一区二区| 大香蕉97超碰在线| 亚洲色图av天堂| 18禁在线播放成人免费| 成人综合一区亚洲| 亚洲国产av新网站| 国产一级毛片在线| 亚洲精品自拍成人| 亚洲av免费高清在线观看| 亚洲色图av天堂| 国产精品女同一区二区软件| 欧美潮喷喷水| 97超视频在线观看视频| 精品久久久久久成人av| av播播在线观看一区| 成人性生交大片免费视频hd| 夜夜看夜夜爽夜夜摸| 深爱激情五月婷婷| av专区在线播放| 美女黄网站色视频| 欧美成人午夜免费资源| 2021天堂中文幕一二区在线观| 成年人午夜在线观看视频 | 男女边吃奶边做爰视频| 真实男女啪啪啪动态图| 草草在线视频免费看| 国产单亲对白刺激| 亚洲精品乱码久久久久久按摩| 午夜免费激情av| 国产精品一区二区三区四区免费观看| 欧美性猛交╳xxx乱大交人| 国产成人精品一,二区| 九九久久精品国产亚洲av麻豆| 欧美丝袜亚洲另类| 日韩欧美 国产精品| 亚洲综合精品二区| 国产黄片美女视频| 国产av国产精品国产| 日韩成人伦理影院| 精品一区在线观看国产| 久久精品熟女亚洲av麻豆精品 | 亚洲一区高清亚洲精品| 久久精品人妻少妇| 老司机影院成人| 国产av码专区亚洲av| 卡戴珊不雅视频在线播放| 欧美日本视频| 丰满乱子伦码专区| 可以在线观看毛片的网站| 99久久中文字幕三级久久日本| 亚洲av不卡在线观看| 街头女战士在线观看网站| 午夜激情欧美在线| ponron亚洲| 精品欧美国产一区二区三| 九九在线视频观看精品| 亚洲国产精品成人综合色| 内射极品少妇av片p| or卡值多少钱| 日韩欧美一区视频在线观看 | 久久亚洲国产成人精品v| 国产成人福利小说| 夜夜爽夜夜爽视频| 国产一区亚洲一区在线观看| 国产综合懂色| 久久久久久久久大av| 亚洲久久久久久中文字幕| 精品人妻视频免费看| 亚洲精品成人av观看孕妇| 22中文网久久字幕| 成年人午夜在线观看视频 | 亚洲精品影视一区二区三区av| 麻豆成人av视频| 亚洲av电影在线观看一区二区三区 | 国产毛片a区久久久久| 一级二级三级毛片免费看| 日韩一区二区视频免费看| 国产亚洲91精品色在线| 亚洲人成网站高清观看| 日韩欧美三级三区| 国产 一区 欧美 日韩| 久久久久久伊人网av| 久久久久久久久久久丰满| 日韩伦理黄色片| 女人被狂操c到高潮| 久久99精品国语久久久| a级毛色黄片| 神马国产精品三级电影在线观看| 国产成人aa在线观看| 国产免费福利视频在线观看| 五月天丁香电影| 身体一侧抽搐| 男人爽女人下面视频在线观看| 亚洲欧美一区二区三区黑人 | 国产三级在线视频| 久久精品久久久久久久性| 2021天堂中文幕一二区在线观| 亚洲精品成人av观看孕妇| 午夜日本视频在线| 国产中年淑女户外野战色| 男人舔奶头视频| 国产精品美女特级片免费视频播放器| 国产爱豆传媒在线观看| 久久精品夜色国产| 汤姆久久久久久久影院中文字幕 | av在线蜜桃| 五月天丁香电影| 麻豆久久精品国产亚洲av| 国产精品嫩草影院av在线观看| av.在线天堂| 一本久久精品| 免费观看在线日韩| 亚洲精品日本国产第一区| 我的老师免费观看完整版| 中文乱码字字幕精品一区二区三区 | 国精品久久久久久国模美| 国内精品一区二区在线观看| 国产免费视频播放在线视频 | 在线免费十八禁| 国产免费一级a男人的天堂| 五月天丁香电影| 91久久精品电影网| 非洲黑人性xxxx精品又粗又长| 神马国产精品三级电影在线观看| 国产亚洲一区二区精品| 免费观看a级毛片全部| 久久草成人影院| 国产一区二区在线观看日韩| 日本三级黄在线观看| 国产成人91sexporn| 国产亚洲av片在线观看秒播厂 | 亚洲不卡免费看| 国产精品久久久久久精品电影| 中文字幕人妻熟人妻熟丝袜美| 美女黄网站色视频| 大又大粗又爽又黄少妇毛片口| 一边亲一边摸免费视频| 国产又色又爽无遮挡免| 免费看美女性在线毛片视频| 国内精品一区二区在线观看| 午夜福利在线观看吧| 高清午夜精品一区二区三区| 久久久色成人| 91午夜精品亚洲一区二区三区| 麻豆乱淫一区二区| 免费观看a级毛片全部| 亚洲人成网站在线播| 亚洲伊人久久精品综合| 成人美女网站在线观看视频| 国产精品日韩av在线免费观看| 在线播放无遮挡| 国产黄色小视频在线观看| 看免费成人av毛片| 亚洲国产最新在线播放| 国产精品一区二区性色av| 成人性生交大片免费视频hd| 国产精品国产三级专区第一集| 超碰97精品在线观看| 国产不卡一卡二| 久久久久久久久久久丰满| 久久久久久久久久黄片| 秋霞伦理黄片| 深爱激情五月婷婷| 看十八女毛片水多多多| 免费观看的影片在线观看| 午夜福利网站1000一区二区三区| 久久精品国产亚洲网站| eeuss影院久久| 尤物成人国产欧美一区二区三区| 精品午夜福利在线看| 成人午夜精彩视频在线观看| 一级二级三级毛片免费看| 免费大片黄手机在线观看| 好男人视频免费观看在线| 亚洲第一区二区三区不卡| 国产精品久久久久久精品电影小说 | 国语对白做爰xxxⅹ性视频网站| 国产精品99久久久久久久久| 亚洲熟妇中文字幕五十中出| 男人狂女人下面高潮的视频| 日本黄大片高清| 日韩成人av中文字幕在线观看| 免费人成在线观看视频色| 亚洲国产av新网站| 欧美丝袜亚洲另类| 欧美日韩综合久久久久久| 深爱激情五月婷婷| 国产淫语在线视频| 日韩欧美三级三区| 中文字幕免费在线视频6| 国产三级在线视频| 久久国内精品自在自线图片| 久久草成人影院| 成人毛片a级毛片在线播放| 99热这里只有是精品在线观看| 亚洲精品成人久久久久久| 又爽又黄a免费视频| 高清av免费在线| 欧美日本视频| 亚洲婷婷狠狠爱综合网| 91久久精品电影网| 嘟嘟电影网在线观看| 免费av毛片视频| 国产探花在线观看一区二区| 亚洲av一区综合| 亚洲av二区三区四区| 高清欧美精品videossex| 亚洲精品自拍成人| 精品久久久久久成人av| 国产av不卡久久| 国产亚洲精品av在线| 91久久精品国产一区二区成人| 成年女人看的毛片在线观看| 熟女人妻精品中文字幕| 日本午夜av视频| 国产综合懂色| 我要看日韩黄色一级片| 免费无遮挡裸体视频| 一本一本综合久久| 只有这里有精品99| 精品亚洲乱码少妇综合久久| 国产亚洲午夜精品一区二区久久 | 午夜日本视频在线| 九九爱精品视频在线观看| 国产成人精品婷婷| 十八禁网站网址无遮挡 | 国产亚洲5aaaaa淫片| 中文字幕免费在线视频6| xxx大片免费视频| 久久久久免费精品人妻一区二区| av国产久精品久网站免费入址| 成人毛片a级毛片在线播放| 欧美丝袜亚洲另类| 久久久久久久久大av| 赤兔流量卡办理| 亚洲国产精品成人综合色| 人妻夜夜爽99麻豆av| 亚洲成人一二三区av| 国产 亚洲一区二区三区 | 欧美潮喷喷水| 国精品久久久久久国模美| 国内精品美女久久久久久| 亚洲一区高清亚洲精品| 在线免费观看的www视频| 美女大奶头视频| 国产在视频线在精品| 夫妻午夜视频| 色综合色国产| 乱系列少妇在线播放| 精品久久久久久久久亚洲| 国产成人a区在线观看| 国产精品精品国产色婷婷| 大陆偷拍与自拍| 99热6这里只有精品| 亚洲国产av新网站| 人人妻人人看人人澡| 18禁在线无遮挡免费观看视频| 国产乱人视频| 直男gayav资源| 激情五月婷婷亚洲| 国产高清不卡午夜福利| 国产精品国产三级国产专区5o| 亚洲伊人久久精品综合| 免费看不卡的av| 久久午夜福利片| 久久久午夜欧美精品| 高清在线视频一区二区三区| 最近视频中文字幕2019在线8| 精品不卡国产一区二区三区| 国产精品国产三级国产专区5o| 久久久久精品久久久久真实原创| 国产淫语在线视频| 国产免费视频播放在线视频 | 18禁动态无遮挡网站| 午夜激情久久久久久久| 久久久久国产网址| 能在线免费观看的黄片| 久久这里只有精品中国| 午夜免费男女啪啪视频观看| 亚洲国产最新在线播放| 2021天堂中文幕一二区在线观| 国产 一区 欧美 日韩| 青青草视频在线视频观看| 成年女人看的毛片在线观看| 亚洲精品中文字幕在线视频 | 亚洲天堂国产精品一区在线| 成人漫画全彩无遮挡| 在线天堂最新版资源| 免费看av在线观看网站| 亚洲18禁久久av| 国产成人freesex在线| 在线免费十八禁| 久久久久精品久久久久真实原创| 成人午夜精彩视频在线观看| videossex国产| 自拍偷自拍亚洲精品老妇| 国产精品麻豆人妻色哟哟久久 | 日本-黄色视频高清免费观看| 男人狂女人下面高潮的视频| 国产国拍精品亚洲av在线观看| 久久鲁丝午夜福利片| 精品人妻熟女av久视频| 国产精品久久久久久精品电影| 中国美白少妇内射xxxbb| 毛片女人毛片| 日韩伦理黄色片| 中文字幕av在线有码专区| 日日摸夜夜添夜夜爱| 日韩人妻高清精品专区| 中文字幕人妻熟人妻熟丝袜美| 青青草视频在线视频观看| 国产免费一级a男人的天堂| 18禁动态无遮挡网站| 色综合站精品国产| 熟女电影av网| 99久国产av精品| 97在线视频观看| 九九在线视频观看精品| 国产一级毛片在线| 国国产精品蜜臀av免费| 色网站视频免费| 国产精品伦人一区二区| 床上黄色一级片| 亚洲成人av在线免费| 成人二区视频| 97在线视频观看| 全区人妻精品视频| 极品教师在线视频| 激情五月婷婷亚洲| 亚洲第一区二区三区不卡| 欧美成人精品欧美一级黄| 一级毛片电影观看| 精品熟女少妇av免费看| 久久久久久久大尺度免费视频| av一本久久久久| 午夜福利在线观看免费完整高清在| 欧美 日韩 精品 国产| 色综合站精品国产| 免费观看在线日韩| 成年av动漫网址| 18禁在线播放成人免费| 国产高潮美女av| 亚洲图色成人| 观看美女的网站| av网站免费在线观看视频 | eeuss影院久久| 日韩电影二区| 国产av国产精品国产| 人妻夜夜爽99麻豆av| 国产亚洲一区二区精品| 搡女人真爽免费视频火全软件|