• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機(jī)方差減小方法的DDPG算法

    2021-10-14 06:34:08楊薛鈺陳建平傅啟明1悠1吳宏杰1
    關(guān)鍵詞:方差梯度樣本

    楊薛鈺,陳建平,傅啟明1,,5,陸 悠1,,5,吳宏杰1,,5

    1.蘇州科技大學(xué) 電子與信息工程學(xué)院,江蘇 蘇州 215009

    2.蘇州科技大學(xué) 江蘇省建筑智慧節(jié)能重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009

    3.蘇州科技大學(xué) 蘇州市移動(dòng)網(wǎng)絡(luò)技術(shù)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009

    4.珠海米棗智能科技有限公司,廣東 珠海 519000

    5.蘇州科技大學(xué) 蘇州市虛擬現(xiàn)實(shí)智能交互與應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215009

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,強(qiáng)化學(xué)習(xí)的基本思想就是學(xué)習(xí)如何將場(chǎng)景映射到動(dòng)作,以獲得最大的數(shù)值獎(jiǎng)賞信號(hào),從而學(xué)習(xí)完成目標(biāo)的最優(yōu)策略[1]。具體而言,就是智能體處在一個(gè)環(huán)境中,每個(gè)狀態(tài)為智能體對(duì)當(dāng)前環(huán)境的感知,智能體通過(guò)動(dòng)作來(lái)影響環(huán)境,當(dāng)智能體執(zhí)行一個(gè)動(dòng)作后,會(huì)使得環(huán)境按照某種概率轉(zhuǎn)移到另外一種狀態(tài);同時(shí),環(huán)境會(huì)根據(jù)潛在的獎(jiǎng)賞函數(shù)反饋給智能體一個(gè)獎(jiǎng)賞。強(qiáng)化學(xué)習(xí)中主要包括四個(gè)要素:狀態(tài)、動(dòng)作、轉(zhuǎn)移概率以及獎(jiǎng)賞函數(shù)。目前強(qiáng)化學(xué)習(xí)在游戲博弈,工業(yè)領(lǐng)域中均得到很好的應(yīng)用[2]。

    深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的另一個(gè)重要的分支,是一種以人工神經(jīng)網(wǎng)絡(luò)為架構(gòu),對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法,它是從數(shù)據(jù)中學(xué)習(xí)表示的一種新方法[3]。強(qiáng)調(diào)從連續(xù)的層中進(jìn)行學(xué)習(xí),這些層對(duì)應(yīng)于越來(lái)越有意義的表示。至今為止已有數(shù)種深度學(xué)習(xí)框架,如深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)等。最近幾年,深度學(xué)習(xí)在實(shí)踐中也取得了革命性的進(jìn)展,在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得了顯著的成果[4]。

    目前,越來(lái)越多的任務(wù)當(dāng)中是以高維數(shù)據(jù)為輸入,以此來(lái)求得最優(yōu)策略。而當(dāng)狀態(tài)動(dòng)作空間為高維連續(xù)的時(shí)候,單純的強(qiáng)化學(xué)習(xí)將不再適用。谷歌的Deep-Mind 團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合,提出了深度強(qiáng)化學(xué)習(xí)的算法,在2016 年的人機(jī)大戰(zhàn)中,Alpha Go[5]以4∶1戰(zhàn)勝了韓國(guó)的圍棋世界冠軍李世石。其后不久,Alpha Zero[6]利用了深度強(qiáng)化學(xué)習(xí)的方法,在無(wú)需借助外部力量的情況下,僅利用深度強(qiáng)化學(xué)習(xí)進(jìn)行自我博弈,最終以100∶0 的戰(zhàn)績(jī)戰(zhàn)勝了Alpha Go。近些年來(lái),深度強(qiáng)化學(xué)習(xí)的研究取得了重要的進(jìn)展,在各個(gè)領(lǐng)域得到了實(shí)際的應(yīng)用。目前,深度強(qiáng)化學(xué)習(xí)的研究已經(jīng)成為人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。谷歌DeepMind團(tuán)隊(duì)將卷積神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)中的Q 學(xué)習(xí)[7]算法相結(jié)合,提出了深度Q 學(xué)習(xí)算法(Deep Q-Network,DQN)。該算法已在多種Atari游戲中達(dá)到或者超過(guò)了人類水平的表現(xiàn),從那時(shí)候起,很多擴(kuò)展性的方法不斷被提了出來(lái)。深度強(qiáng)化學(xué)習(xí)的算法主要有Double DQN[8]、dueling DQN[9]、Noisy DQN[10]等,以上這些算法各自都可以提升DQN 性能的各個(gè)方面。但是,DQN 在解決高維連續(xù)的動(dòng)作空間問(wèn)題的時(shí)候,只能將連續(xù)動(dòng)作離散化,這將會(huì)導(dǎo)致離散動(dòng)作的數(shù)量隨著動(dòng)作維度的增加而呈指數(shù)型的增長(zhǎng),同時(shí)在將連續(xù)的動(dòng)作離散化的過(guò)程之中,將會(huì)使動(dòng)作域的結(jié)構(gòu)發(fā)生改變[11]。然而在大部分情況下,動(dòng)作域的結(jié)構(gòu)對(duì)于實(shí)際問(wèn)題的求解是至關(guān)重要的。目前,DQN算法以及其他改進(jìn)的算法并不能夠很好地解決現(xiàn)實(shí)問(wèn)題中連續(xù)動(dòng)作的問(wèn)題。在解決連續(xù)性動(dòng)作的問(wèn)題之中,通常采用策略梯度的方法。策略梯度方法不采用迂回的方式更新策略,而是直接計(jì)算策略可能更新的方向,他不通過(guò)誤差進(jìn)行反向傳播,而是直接通過(guò)觀測(cè)到的信息選出一個(gè)行為進(jìn)行反向傳播,沒(méi)有誤差,通過(guò)獎(jiǎng)賞值的大小對(duì)選擇動(dòng)作的可能性進(jìn)行增強(qiáng)或減弱,好的動(dòng)作下次被選中的概率將增大,不好的動(dòng)作下次被選擇的概率將減小。與DQN算法以及各種改進(jìn)的算法相比較,策略梯度能直接適用高維或者連續(xù)行為動(dòng)作空間的強(qiáng)化學(xué)習(xí)情景。在2014年提出了DPG確定性策略梯度算法(Deterministic Policy Gradient)[12],DPG 算法的每一步行為通過(guò)函數(shù)μ直接獲得確定的值,Policy Gradient 其本質(zhì)是一個(gè)隨機(jī)的策略,而確定性策略梯度能夠得到一個(gè)確定的動(dòng)作。DPG算法的動(dòng)作是確定值,而不是概率分布。與PG算法相比較,具有更好的策略優(yōu)化效果。其后Lillicrap 等人[13]將DPG(Deterministic Policy Gradient)算法[14]與DQN 算法相結(jié)合,提出了DDPG(Deep Deterministic Policy Gradient)算法。DDPG 算法吸收了Actor-Critic 算法讓Policy Gradient 單步更新的優(yōu)點(diǎn),同時(shí)吸收了DQN算法的精華,合并成同一種算法。DDPG算法在連續(xù)性動(dòng)作上能夠更有效的學(xué)習(xí),相比于DQN 算法,DDPG 在求解最優(yōu)策略的過(guò)程中需要的時(shí)間步更低,但是DDPG算法在尋找最優(yōu)策略的過(guò)程中,所需的樣本數(shù)據(jù)量巨大,并且算法的收斂速度還需要提高。

    本文在DDPG算法的基礎(chǔ)之上結(jié)合隨機(jī)方差減小梯度方法提出了隨機(jī)方差減小確定性策略梯度(Stochastic Variance Reduction-Deep Deterministic Policy Gradient,SVR-DDPG)算法。針對(duì)原有DDPG 算法訓(xùn)練不穩(wěn)定,樣本利用率差,收斂速度慢的缺點(diǎn),結(jié)合隨機(jī)方差減小梯度方法,通過(guò)減小梯度估計(jì)中的方差,優(yōu)化了DDPG算法,通過(guò)實(shí)驗(yàn)結(jié)果證明,與DDPG 算法相比較,SVRDDPG算法具有更快的收斂速度和更好的穩(wěn)定性。

    1 相關(guān)工作

    1.1 馬爾可夫決策過(guò)程

    當(dāng)強(qiáng)化學(xué)習(xí)的任務(wù)滿足馬爾可夫性質(zhì)的時(shí)候,一般被稱為馬爾可夫決策過(guò)程(Markov Decision Process)[15],通常強(qiáng)化學(xué)習(xí)的問(wèn)題可以建模成一個(gè)馬爾可夫決策過(guò)程。在馬爾可夫決策過(guò)程中,將它用一個(gè)元組來(lái)表示,S表示決策過(guò)程之中的狀態(tài)集合,P表示狀態(tài)之間的轉(zhuǎn)移概率,R表示采取某一動(dòng)作到達(dá)下一狀態(tài)的時(shí)候的回報(bào)值,γ表示折扣因子。

    強(qiáng)化學(xué)習(xí)算法的目的是尋找最優(yōu)策略,并且運(yùn)用這個(gè)策略進(jìn)行動(dòng)作的選擇,以期待該動(dòng)作能獲得最大的獎(jiǎng)賞值,在強(qiáng)化學(xué)習(xí)當(dāng)中,策略用字母π表示,π(s,a)表示在狀態(tài)s下選擇動(dòng)作a的概率。

    強(qiáng)化學(xué)習(xí)的算法是基于估計(jì)值函數(shù)的,所以在強(qiáng)化學(xué)習(xí)中,運(yùn)用值函數(shù)來(lái)對(duì)策略的好壞進(jìn)行評(píng)估,可以分為基于動(dòng)作值函數(shù)Q(π)和基于狀態(tài)值函數(shù)V(π)的。Q(π)表示狀態(tài)動(dòng)作對(duì)(s,a)由策略π得到的累計(jì)期望獎(jiǎng)賞。V(π)表示在狀態(tài)s由策略π得到的累計(jì)期望獎(jiǎng)賞。通常采用動(dòng)作值函數(shù)來(lái)評(píng)估策略的好壞,即:

    稱為bellman方程。

    強(qiáng)化學(xué)習(xí)當(dāng)中,通過(guò)Q*來(lái)表示最優(yōu)策略,相對(duì)應(yīng)的Q*(s,a)表示為:

    式(2)被稱為最優(yōu)bellman公式。

    1.2 DDPG算法

    DDPG算法是以Actor-Critic算法為框架[16],同時(shí)結(jié)合了DPG算法以及DQN算法的優(yōu)點(diǎn)。在DPG算法中,其策略梯度可以表示為如下公式:

    在隨機(jī)策略方法中,策略的梯度由狀態(tài)和動(dòng)作同時(shí)決定,而在確定性策略方法中,策略梯度主要由狀態(tài)決定,所以DPG方法收斂所需要的樣本較少。

    而DDPG 算法中,行動(dòng)者部分利用公式(3)進(jìn)行參數(shù)更新,而在評(píng)論家部分利用公式(4)進(jìn)行更新,但是在利用公式(4)對(duì)評(píng)論家網(wǎng)絡(luò)直接進(jìn)行更新的時(shí)候會(huì)出現(xiàn)網(wǎng)絡(luò)的震蕩,因此在更新過(guò)程中,會(huì)同時(shí)計(jì)算相應(yīng)的目標(biāo)值,即公式(5)中的yt。

    為了解決網(wǎng)絡(luò)震蕩帶來(lái)的問(wèn)題,DDPG 算法采用了DQN 中的目標(biāo)網(wǎng)絡(luò),但是并非直接的將權(quán)重參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò)中去,而是采用soft 的方式更新參數(shù),在DDPG算法中,創(chuàng)建新的actor-critic網(wǎng)絡(luò),來(lái)更新目標(biāo)參數(shù),其更新規(guī)則為該更新方法可以有效提高算法的穩(wěn)定性。與此同時(shí),DDPG算法中引入了DQN中的經(jīng)驗(yàn)回放機(jī)制,打破經(jīng)驗(yàn)池中樣本關(guān)聯(lián)性,提高了參數(shù)更新的有效性。

    在DDPG算法中,為了增加agent對(duì)環(huán)境的探索,引入了隨機(jī)噪聲U,使動(dòng)作選擇具有一定隨機(jī)性,以此完成策略探索,具體公式如下:

    1.3 Adam算法

    Adam[17]算法是對(duì)隨機(jī)梯度下降算法的一個(gè)擴(kuò)展,被廣泛運(yùn)用于深度學(xué)習(xí)模型中。Adam算法是一種基于一階梯度信息迭代更新網(wǎng)絡(luò)參數(shù)權(quán)值的有效隨機(jī)方法,一旦有了目標(biāo)函數(shù)的梯度,Adam 算法可以自適應(yīng)的估計(jì)梯度的第一矩和第二矩,并進(jìn)一步計(jì)算自適應(yīng)學(xué)習(xí)率。

    Adam 算法是一種被廣泛使用的隨機(jī)優(yōu)化算法,并且在一系列具有挑戰(zhàn)性的任務(wù)中表現(xiàn)優(yōu)異,但是也存在不足,它的參數(shù)更新規(guī)則僅僅是基于隨機(jī)批次樣本的一階梯度信息,由于隨機(jī)抽樣將會(huì)引起方差,因此這種更新規(guī)則在更新過(guò)程中存在錯(cuò)誤,梯度更新將會(huì)不準(zhǔn)確。

    1.4 近似梯度誤差

    近似梯度誤差是代價(jià)函數(shù)f(ω)的梯度方向估計(jì)誤差,ω是該函數(shù)的超參數(shù),往往更新時(shí)會(huì)使用梯度下降法進(jìn)行迭代優(yōu)化,從而使得算法運(yùn)算過(guò)程中損失最小。通常在給定經(jīng)驗(yàn)緩沖區(qū)中保留一定的學(xué)習(xí)樣本的情況下,理想的損失函數(shù)梯度估計(jì)利用這些學(xué)習(xí)樣本提供的當(dāng)前信息給出準(zhǔn)確的學(xué)習(xí)方向,從而使Agent能夠通過(guò)優(yōu)化超參數(shù)快速收斂到策略的最優(yōu)梯度方向。但在DDPG 算法進(jìn)行梯度估計(jì)過(guò)程中會(huì)出現(xiàn)近似梯度誤差。近似梯度估計(jì)誤差是由很多原因引起的:首先由于極小化的精確度不高,導(dǎo)致了當(dāng)前超參數(shù)ω的次優(yōu)性,其次,用來(lái)推導(dǎo)梯度的樣本的有限的表示數(shù)。另外,由于經(jīng)驗(yàn)回放緩沖區(qū)的有限存儲(chǔ)導(dǎo)致了不可見(jiàn)的狀態(tài)轉(zhuǎn)移和策略,從而出現(xiàn)錯(cuò)誤。近似梯度估計(jì)誤差會(huì)導(dǎo)致梯度估計(jì)的失真,從而使得Agent 的策略選擇變得更糟,會(huì)導(dǎo)致算法性能的很大變化,使得算法的收斂速度變慢。因此為了發(fā)展快速的隨機(jī)一階方法,必須保證迭代越接近最優(yōu)時(shí),隨機(jī)更新方向的方差越小。

    2 基于隨機(jī)方差減小方法的DDPG算法

    2.1 問(wèn)題分析

    在許多機(jī)器學(xué)習(xí)問(wèn)題中,都將有限和優(yōu)化問(wèn)題歸結(jié)為:

    令ω*=arg minω f(ω)為方程(7)的最優(yōu)解,許多研究者都是為了找出ω的最優(yōu)解使得f(ω)-f(ω*)≤ε。為了解決以上述形式出現(xiàn)的問(wèn)題的時(shí)候,通常使用隨機(jī)化方差減少一階方法,因其每次迭代代價(jià)低而特別有效。

    在DDPG 算法中對(duì)在線網(wǎng)絡(luò)進(jìn)行更新的時(shí)候通常使用Adam 優(yōu)化器。在應(yīng)用梯度信息進(jìn)行迭代更新的時(shí)候,為了減小計(jì)算量,避免全梯度的計(jì)算難度,通常從N個(gè)樣本中按照一定的比例重新采樣一個(gè)大小為n的樣本集{x1,x2,…,xn},用這個(gè)樣本集的平均梯度來(lái)指導(dǎo)算法更新過(guò)程中的下降方向,而真正對(duì)下降方向起到指導(dǎo)作用的是全梯度,在Adam算法的更新過(guò)程中只是用樣本集n的平均梯度來(lái)近似全梯度。在更新過(guò)程中初始參數(shù)為θ,從訓(xùn)練集中采集樣本n{x1,x2,…,xn},對(duì)應(yīng)目標(biāo)為yi,因此更新過(guò)程中全梯度無(wú)偏估計(jì)如下:

    那么采樣過(guò)程中隨機(jī)變量{x1,x2,…,xn}的期望E即:

    由此可得在更新過(guò)程中全梯度近似的方差如下:

    式(10)中E也是采樣過(guò)程中隨機(jī)變量的期望,而在算法更新過(guò)程中,為了減小計(jì)算量,利用全梯度的無(wú)偏估計(jì)代替全梯度時(shí),當(dāng)隨機(jī)采樣樣本集大小n與N存在差異時(shí)方差將會(huì)出現(xiàn),此時(shí)方差的大小將會(huì)對(duì)算法的收斂速度,穩(wěn)定性產(chǎn)生影響。

    2.2 對(duì)Adam算法的改進(jìn)

    為了解決DDPG算法更新過(guò)程中,由近似梯度誤差所帶來(lái)的收斂速度變慢的問(wèn)題,減小隨機(jī)更新方向的方差,本文將SVRG算法運(yùn)用到隨機(jī)一階方法當(dāng)中。

    隨機(jī)方差減小梯度方法是一種不需要梯度存儲(chǔ)的隨機(jī)梯度下降的顯示方差縮減方法,該方法利用變量控制,具有非常快的收斂速度,適用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練等復(fù)雜問(wèn)題。

    SVRG 算法在更新過(guò)程中將會(huì)保存每一次迭代接近最優(yōu)解ω*的,該算法將預(yù)先計(jì)算好一個(gè)平均梯度作為一個(gè)錨點(diǎn),n是訓(xùn)練樣本的子集,

    在孔子的思想中,智、仁、勇是君子應(yīng)當(dāng)具備的三種德行,《中庸》有“知(智)、仁、勇三者,天下之達(dá)德也”。“仁”作為儒家思想的核心,既為行武的前提,又是行武的目的?!绑K不稱其力,稱其德也”[4](P157),“子曰:‘善人為邦百年,亦可以勝殘去殺矣?!\(chéng)哉是言也!”[4](P144)“智”是行武的重要品質(zhì),而“勇”在《論語(yǔ)》中較之“智”則占據(jù)了更重要的位置,實(shí)是春秋后期的動(dòng)蕩社會(huì)好勇斗狠風(fēng)氣漸長(zhǎng)時(shí),孔子有針對(duì)性的闡發(fā)。孔子說(shuō)“君子無(wú)所爭(zhēng)”“其爭(zhēng)也君子”,他所說(shuō)的“爭(zhēng)”為“君子之爭(zhēng)”,所主張的“強(qiáng)”是“君子之強(qiáng)”。

    SVRG算法更新公式如下:

    在更新過(guò)程中,方差將會(huì)縮減,并且會(huì)找到更加精確的梯度更新方向。在DDPG算法中,對(duì)在線網(wǎng)絡(luò)更新的時(shí)候通常采用Adam優(yōu)化器。本次改進(jìn)將SVRG算法和Adam 算法相結(jié)合,利用SVRG 算法在小隨機(jī)訓(xùn)練子集的基礎(chǔ)上找到更加精確的梯度方向。并將優(yōu)化后的一階信息傳播給Adam優(yōu)化器。

    2.3 SVR-DDPG算法

    本文所提出的SVR-DDPG 算法如下所示,該算法將隨機(jī)方差減小的方法用于DDPG 算法的參數(shù)更新當(dāng)中,算法其具體實(shí)施如下:

    算法1SVR-DDPG算法

    算法在開始更新在線網(wǎng)絡(luò)參數(shù)的時(shí)候,從整個(gè)訓(xùn)練樣本中抽取樣本,形成訓(xùn)練樣本集Ns,然后把它固定在整個(gè)優(yōu)化過(guò)程的外循環(huán)中,使用樣本集Ns中的樣本計(jì)算平均梯度來(lái)構(gòu)造當(dāng)前錨點(diǎn),以此解決優(yōu)化問(wèn)題。在內(nèi)循環(huán)迭代中,通過(guò)從樣本集Ns中隨機(jī)抽取的小批量樣本nt的平均值來(lái)減小梯度,并通過(guò)更新公式(11)來(lái)更新參數(shù),因?yàn)樗褂玫膫€(gè)別訓(xùn)練樣本具有較大的方差,并且計(jì)算效率低下,為了充分利用樣本集Ns中樣本的信息,以便尋找到最優(yōu)的梯度估計(jì)更新方向。小批量樣本集的大小n和SVRG內(nèi)部循環(huán)迭代次數(shù)m,需滿足約束條件n×m≥N。

    經(jīng)過(guò)SVRG 方差減小過(guò)程之后,得到更新參數(shù)θm和之前存儲(chǔ)的。計(jì)算出的估計(jì)方差減小梯度gs等于θm-。由于Adam 算法計(jì)算過(guò)程中有效步長(zhǎng)不隨梯度的大小而變化,因此無(wú)需重新調(diào)整gs,在計(jì)算出gs后,遵循標(biāo)準(zhǔn)的Adam算法流程來(lái)構(gòu)建經(jīng)偏置校正的第一矩估計(jì)和第二階原始矩估計(jì),并進(jìn)一步確定這個(gè)訓(xùn)練迭代的更新參數(shù),計(jì)算更精確的梯度估計(jì)方向。以此來(lái)更準(zhǔn)確快速的更新在線網(wǎng)絡(luò)參數(shù)。

    2.4 收斂性分析

    3 實(shí)驗(yàn)數(shù)據(jù)與分析

    3.1 Mountain Car問(wèn)題

    3.1.1 實(shí)驗(yàn)描述

    為了驗(yàn)證本文算法的有效性,將DDPG算法與改經(jīng)后的SVR-DDPG 算法運(yùn)用于Mountain Car 問(wèn)題當(dāng)中,問(wèn)題示意圖如圖1所示。

    圖1 Mountain Car示意圖Fig.1 Diagram of Mountain Car

    圖中有一帶坡度的山體,小車此時(shí)處于坡底,因?yàn)橹亓σ约白陨韯?dòng)力不足的原因,小車無(wú)法直接通過(guò)加速到達(dá)右側(cè)五角星所在的位置,必須通過(guò)前后加速借助慣性的方法到達(dá)坡頂,在每一個(gè)情節(jié)中,小車到達(dá)坡頂則實(shí)驗(yàn)結(jié)束,小車的狀態(tài)s是二維的,一維是位置信息,用p表示,另一維是小車的速度,用v表示。

    實(shí)驗(yàn)中獎(jiǎng)賞設(shè)置為,當(dāng)小車到達(dá)右側(cè)星星目標(biāo)位置后,立即獎(jiǎng)賞100,當(dāng)小車處于其他狀態(tài)時(shí),立即獎(jiǎng)賞表示為:

    3.1.2 實(shí)驗(yàn)設(shè)置

    本次實(shí)驗(yàn)基于OpenAI Gym,實(shí)驗(yàn)參數(shù)設(shè)置如下:actor網(wǎng)絡(luò)以及critic網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)率分別為10-4、10-3、L2權(quán)重縮減速率是10-2,折扣因子是0.99。目標(biāo)網(wǎng)絡(luò)中的更新參數(shù)設(shè)置α=0.001,每隔300 個(gè)情節(jié)之后,將α修改為1.1α。每個(gè)情節(jié)中最大時(shí)間步數(shù)是1 000。在相同的實(shí)驗(yàn)環(huán)境下,對(duì)兩種算法進(jìn)行重復(fù)實(shí)驗(yàn),取實(shí)驗(yàn)結(jié)果平均值來(lái)比較算法的性能。

    3.1.3 實(shí)驗(yàn)結(jié)果分析

    將DDPG 算法與SVR-DDPG 算法運(yùn)用于Mountain Car 實(shí)驗(yàn)當(dāng)中,實(shí)驗(yàn)當(dāng)中,SVR-DDPG 算法的收斂速度明顯優(yōu)于原始DDPG 算法。其實(shí)驗(yàn)結(jié)果如圖2 所示,圖中橫坐標(biāo)表示情節(jié)數(shù),縱坐標(biāo)表示算法執(zhí)行20次之后的回報(bào)均值。從圖2中可以看出,原始DDPG算法在200個(gè)情節(jié)是已經(jīng)取得了較高的回報(bào)值,但是還未完全收斂,一直到800 個(gè)情節(jié)左右時(shí)才收斂,而改進(jìn)后的SVR-DDPG算法在220個(gè)情節(jié)左右時(shí)基本完全收斂,未出現(xiàn)明顯震蕩,與原始DDPG算法比較更加快速穩(wěn)定。

    圖2 算法性能比較Fig.2 Performance comparision of different algorithms

    如圖3 是SVR-DDPG 算法在Mountain Car 實(shí)驗(yàn)中的實(shí)際方差減小效果圖,如圖所示橫坐標(biāo)代表了情節(jié)數(shù),縱坐標(biāo)代表了算法實(shí)驗(yàn)中的方差。由圖3可以看出SVR-DDPG 算法在Mountain Car 實(shí)驗(yàn)中具有一定的方差減小效果。而且當(dāng)η取0.01 時(shí)方差的減小效果明顯優(yōu)于當(dāng)η取0.005的時(shí)候,即當(dāng)η的取值越大的時(shí)候,方差減小效果越好。

    圖3 不同η 的SVR-DDPG方差比較Fig.3 Comparison of SVR-DDPG variance with different η

    如圖4 表示不同的學(xué)習(xí)率的SVR-DDPG 算法收斂速度的比較圖,其他參數(shù)設(shè)置均不改變,橫、縱坐標(biāo)分別表示情節(jié)數(shù)和每個(gè)情節(jié)的回報(bào)值,算法單獨(dú)執(zhí)行20次,取平均值。學(xué)習(xí)率分別取值為0.001、0.005、0.01,從圖3中可以看出隨著η值的增大,方差減小性能越來(lái)越優(yōu)秀,因此算法的性能也得到了提高,從圖4中可以看出,隨著學(xué)習(xí)率的增加,算法收斂效果越來(lái)越好。綜上所述當(dāng)設(shè)置學(xué)習(xí)率為0.01時(shí),算法的收斂效率最好。

    圖4 不同η 的SVR-DDPG算法Mountain Car性能對(duì)比Fig.4 Performance comparision of SVR-DDPG with different η on Mountain Car

    3.2 倒立擺控制問(wèn)題

    3.2.1 實(shí)驗(yàn)描述

    為了進(jìn)一步驗(yàn)證改進(jìn)算法的有效性,再一次將SVR-DDPG算法應(yīng)用于倒立擺控制問(wèn)題當(dāng)中,并與傳統(tǒng)的DDPG算法進(jìn)行比較分析,問(wèn)題示意如圖5所示。

    圖5 倒立擺Fig.5 Inverted pendulum

    圖5中有一個(gè)倒立的鐘擺,鐘擺擺桿繞著轉(zhuǎn)軸隨機(jī)擺動(dòng)。Agent 主要目的是為了尋找一個(gè)最優(yōu)策略,使得鐘擺擺桿一直處于豎直狀態(tài)。該實(shí)驗(yàn)是在OpenAI Gym的實(shí)驗(yàn)環(huán)境下完成的,鐘擺的狀態(tài)是二維的,分別為鐘擺的位置和鐘擺的速度。

    鐘擺狀態(tài)可表示為:

    鐘擺的動(dòng)作表示對(duì)鐘擺的作用力,是一維的,取值范圍為[-2,2] 。動(dòng)作表示如下:

    其中,r等于式(12)的計(jì)算值的概率為0.1,等于0 的概率為0.9。

    3.2.2 實(shí)驗(yàn)設(shè)置

    本次實(shí)驗(yàn)基于OpenAI Gym,實(shí)驗(yàn)參數(shù)設(shè)置如下:actor網(wǎng)絡(luò)以及critic網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)率分別為10-4、10-3、L2權(quán)重縮減速率是10-2,折扣因子是0.99。目標(biāo)網(wǎng)絡(luò)中的更新參數(shù)設(shè)置α=0.001,每隔300 個(gè)情節(jié)之后,將α修改為1.1α。每個(gè)情節(jié)中最大時(shí)間步數(shù)是1 000。在相同的實(shí)驗(yàn)環(huán)境下,對(duì)兩種算法進(jìn)行重復(fù)實(shí)驗(yàn),取實(shí)驗(yàn)結(jié)果平均值來(lái)比較算法的性能。

    3.2.3 實(shí)驗(yàn)結(jié)果分析

    本次實(shí)驗(yàn)將DDPG 算法及SVR-DDPG 算法運(yùn)用于倒立擺控制問(wèn)題,兩種算法在倒立擺問(wèn)題中算法執(zhí)行10次的平均獎(jiǎng)賞如圖6所示。

    圖6 算法性能比較Fig.6 Performance comparison of different algorithms

    如圖6 所示,橫坐標(biāo)表示情節(jié)數(shù),縱坐標(biāo)表示獎(jiǎng)賞值。比較兩個(gè)算法的表現(xiàn),SVR-DDPG算法在300個(gè)情節(jié)時(shí)已經(jīng)基本收斂,未出現(xiàn)較大波動(dòng),平均獎(jiǎng)賞基本保持穩(wěn)定,而原始的DDPG算法從400個(gè)情節(jié)以后才逐漸從震蕩中開始收斂,到800 個(gè)情節(jié)的時(shí)候才基本收斂。其中主要是應(yīng)為在原始的Adam 優(yōu)化算法基礎(chǔ)之上引入了梯度方差減小方法,減小了方差,加快了算法的收斂速度。此外還可以看出改經(jīng)后的DDPG 算法獎(jiǎng)賞值的震蕩幅度明顯小于原始DDPG 算法,以此證明SVRDDPG算法性能以及穩(wěn)定性比DDPG算法更好。

    如圖7 是SVR-DDPG 算法在倒立擺實(shí)驗(yàn)中的實(shí)際方差減小效果圖,圖7 橫坐標(biāo)代表了情節(jié)數(shù),縱坐標(biāo)代表了算法實(shí)驗(yàn)中的方差。由圖可以看出,改進(jìn)后算法在倒立擺實(shí)驗(yàn)中,方差得到了明顯減小,進(jìn)一步說(shuō)明了算法的方差減小效果,由圖中可以看出當(dāng)η取0.01時(shí)方差的減小效果明顯優(yōu)于當(dāng)η取0.005 的時(shí)候,即η的取值越大的時(shí)候,方差減小效果越好。

    圖7 不同η 的SVR-DDPG方差比較Fig.7 Comparison of SVR-DDPG variance with different η

    如圖8 所示不同的學(xué)習(xí)率的SVR-DDPG 算法收斂速度的比較圖,其他參數(shù)設(shè)置均不改變,橫、縱坐標(biāo)分別表示情節(jié)數(shù)和每個(gè)情節(jié)的回報(bào)值,算法單獨(dú)執(zhí)行20次,取平均值。學(xué)習(xí)率分別取值為0.001、0.005、0.01。從圖中可以看出,隨著學(xué)習(xí)率的增加,算法收斂效果越來(lái)越快。在實(shí)際操作過(guò)程中經(jīng)過(guò)多次實(shí)驗(yàn)當(dāng)N=512,n=32,m=32,η=0.01 時(shí),算法獲得最優(yōu)的收斂效果。

    圖8 不同η 的SVR-DDPG算法倒立擺性能對(duì)比Fig.8 Performance comparison of SVR-DDPG with different η on inverted pendulum

    4 總結(jié)

    本文針對(duì)原始DDPG 算法在應(yīng)用Adam 優(yōu)化器的過(guò)程中,會(huì)存在迭代曲線的震蕩、出現(xiàn)方差、收斂性能慢等問(wèn)題,提出了一種基于隨機(jī)方差減小方法的DDPG算法SVR-DDPG算法。該方法將隨機(jī)方差減小方法SVRG 算法與Adam 算法相結(jié)合運(yùn)用于DDPG 算法優(yōu)化當(dāng)中,通過(guò)減小方差,以此提升算法的收斂速度。將算法運(yùn)用于Mountain Car 實(shí)驗(yàn)以及倒立擺實(shí)驗(yàn)當(dāng)中,比較驗(yàn)證改進(jìn)算法的性能。實(shí)驗(yàn)結(jié)果表明,SVRDDPG 算法收斂速度以及穩(wěn)定性均優(yōu)于原始DDPG 算法。在未來(lái)的研究中,計(jì)劃研究高級(jí)約束優(yōu)化的影響,并探索與其他技術(shù)的潛在協(xié)同作用,并將算法運(yùn)用于更大規(guī)模的連續(xù)狀態(tài)空間問(wèn)題中,使得算法可以運(yùn)用于實(shí)際問(wèn)題中。

    猜你喜歡
    方差梯度樣本
    方差怎么算
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
    用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
    一種自適應(yīng)Dai-Liao共軛梯度法
    計(jì)算方差用哪個(gè)公式
    一類扭積形式的梯度近Ricci孤立子
    推動(dòng)醫(yī)改的“直銷樣本”
    方差生活秀
    隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
    亚洲成色77777| 久久热精品热| 亚洲精品久久久久久婷婷小说| 成人黄色视频免费在线看| 水蜜桃什么品种好| 18禁在线无遮挡免费观看视频| 一本—道久久a久久精品蜜桃钙片| 欧美精品一区二区大全| 岛国毛片在线播放| 欧美3d第一页| 女性被躁到高潮视频| 国产高清国产精品国产三级| 青春草视频在线免费观看| 一本一本综合久久| 亚洲国产精品一区三区| 欧美日韩在线观看h| 能在线免费看毛片的网站| 亚洲综合色惰| 国产精品成人在线| 国产一区有黄有色的免费视频| 国语对白做爰xxxⅹ性视频网站| 99热国产这里只有精品6| 午夜福利,免费看| 成年女人在线观看亚洲视频| 亚洲av不卡在线观看| 午夜老司机福利剧场| 99视频精品全部免费 在线| 国产在视频线精品| 亚洲精品国产色婷婷电影| 一级毛片黄色毛片免费观看视频| 99久久人妻综合| 五月天丁香电影| 精品卡一卡二卡四卡免费| 免费久久久久久久精品成人欧美视频 | 亚洲va在线va天堂va国产| 婷婷色综合大香蕉| 欧美日韩综合久久久久久| tube8黄色片| 简卡轻食公司| 亚洲综合精品二区| 免费在线观看成人毛片| 免费看av在线观看网站| 麻豆成人午夜福利视频| 麻豆乱淫一区二区| 热re99久久精品国产66热6| 一级av片app| 国产日韩欧美在线精品| 人妻制服诱惑在线中文字幕| 午夜福利网站1000一区二区三区| 欧美亚洲 丝袜 人妻 在线| 这个男人来自地球电影免费观看 | 人妻系列 视频| 免费黄网站久久成人精品| 美女中出高潮动态图| 在线观看一区二区三区激情| 伦精品一区二区三区| 久久国产精品大桥未久av | 视频区图区小说| 成年美女黄网站色视频大全免费 | 高清在线视频一区二区三区| 丝袜脚勾引网站| 亚洲国产最新在线播放| 国精品久久久久久国模美| 一级a做视频免费观看| 国产亚洲91精品色在线| 国国产精品蜜臀av免费| 国产成人91sexporn| freevideosex欧美| 一级,二级,三级黄色视频| 久久女婷五月综合色啪小说| 免费看不卡的av| 久久久a久久爽久久v久久| 婷婷色av中文字幕| 国产乱来视频区| 久久久久国产精品人妻一区二区| 亚洲四区av| 国产国拍精品亚洲av在线观看| 久久久久视频综合| 免费高清在线观看视频在线观看| 在线观看免费视频网站a站| 欧美成人精品欧美一级黄| 亚洲欧美日韩卡通动漫| 人人澡人人妻人| 亚洲精品国产成人久久av| 亚州av有码| 美女主播在线视频| 午夜福利,免费看| 99热这里只有是精品50| 乱人伦中国视频| 久久久久久久国产电影| 在线观看www视频免费| av在线观看视频网站免费| 久久久国产欧美日韩av| 国产日韩欧美亚洲二区| 午夜视频国产福利| 国产欧美日韩精品一区二区| tube8黄色片| 新久久久久国产一级毛片| 蜜桃久久精品国产亚洲av| 久久精品夜色国产| 热re99久久国产66热| av一本久久久久| 国产国拍精品亚洲av在线观看| 人人妻人人澡人人看| 亚洲精品日韩av片在线观看| 亚洲真实伦在线观看| 我的老师免费观看完整版| 国产高清不卡午夜福利| 十八禁网站网址无遮挡 | 亚洲精品乱码久久久久久按摩| 免费观看av网站的网址| 亚洲第一区二区三区不卡| 免费av不卡在线播放| 岛国毛片在线播放| 伦理电影大哥的女人| 99国产精品免费福利视频| 在线精品无人区一区二区三| 精品久久久噜噜| 欧美成人午夜免费资源| 久久精品国产a三级三级三级| 欧美 日韩 精品 国产| 啦啦啦啦在线视频资源| 国产av精品麻豆| 午夜老司机福利剧场| 成人漫画全彩无遮挡| 国产精品一区二区在线不卡| 青春草亚洲视频在线观看| 国产精品人妻久久久影院| 九九久久精品国产亚洲av麻豆| 一区二区av电影网| 亚洲精品色激情综合| 亚洲国产精品专区欧美| 中国三级夫妇交换| 九色成人免费人妻av| 人人澡人人妻人| 嫩草影院入口| 热99国产精品久久久久久7| 亚洲国产色片| 男人爽女人下面视频在线观看| 欧美精品亚洲一区二区| 国产黄色视频一区二区在线观看| videossex国产| 国产成人免费观看mmmm| 精品一区二区免费观看| 精品国产一区二区久久| 日本wwww免费看| 亚洲自偷自拍三级| 九色成人免费人妻av| 偷拍熟女少妇极品色| 亚洲色图综合在线观看| 美女福利国产在线| 美女福利国产在线| 国模一区二区三区四区视频| 最后的刺客免费高清国语| 性色avwww在线观看| 一二三四中文在线观看免费高清| 美女内射精品一级片tv| 18禁在线无遮挡免费观看视频| 好男人视频免费观看在线| 99九九在线精品视频 | 自线自在国产av| 啦啦啦啦在线视频资源| 纯流量卡能插随身wifi吗| 日本91视频免费播放| 亚洲精品一二三| 性高湖久久久久久久久免费观看| 欧美xxⅹ黑人| 男女边摸边吃奶| 日本色播在线视频| 少妇人妻久久综合中文| 91久久精品国产一区二区三区| 久久国产亚洲av麻豆专区| 啦啦啦中文免费视频观看日本| 偷拍熟女少妇极品色| 亚洲精品国产成人久久av| av国产久精品久网站免费入址| 日韩 亚洲 欧美在线| 亚洲精品成人av观看孕妇| 99热这里只有精品一区| 欧美精品高潮呻吟av久久| 午夜免费观看性视频| 精品久久久噜噜| av视频免费观看在线观看| 99re6热这里在线精品视频| 夫妻性生交免费视频一级片| 国产成人精品久久久久久| 国产精品福利在线免费观看| 成人国产av品久久久| 国产成人91sexporn| 日韩精品有码人妻一区| 七月丁香在线播放| 搡老乐熟女国产| 国产av国产精品国产| 成人影院久久| 欧美性感艳星| 丰满少妇做爰视频| 91精品国产九色| 精品一区二区三卡| 亚洲成色77777| 精品国产乱码久久久久久小说| 亚洲情色 制服丝袜| 五月天丁香电影| 国产日韩欧美在线精品| 成人免费观看视频高清| 日韩中字成人| 免费大片18禁| 亚洲综合精品二区| 色视频www国产| 国产成人午夜福利电影在线观看| 黑丝袜美女国产一区| 国产男女超爽视频在线观看| 寂寞人妻少妇视频99o| 亚洲精品亚洲一区二区| 午夜福利在线观看免费完整高清在| 亚洲精品亚洲一区二区| 久久热精品热| 国产免费一级a男人的天堂| 两个人的视频大全免费| 男人舔奶头视频| www.色视频.com| av卡一久久| 亚洲国产欧美日韩在线播放 | 日本欧美国产在线视频| 极品人妻少妇av视频| 欧美亚洲 丝袜 人妻 在线| 久久久亚洲精品成人影院| 我的老师免费观看完整版| 免费av不卡在线播放| 人人妻人人澡人人爽人人夜夜| 欧美+日韩+精品| 国产又色又爽无遮挡免| 久久精品国产亚洲av天美| 91精品国产九色| 久久精品久久久久久久性| 欧美成人精品欧美一级黄| 晚上一个人看的免费电影| 狠狠精品人妻久久久久久综合| 国产爽快片一区二区三区| 国产在线一区二区三区精| 国产精品麻豆人妻色哟哟久久| 免费少妇av软件| 国内揄拍国产精品人妻在线| 日韩制服骚丝袜av| 国产成人精品婷婷| 青春草亚洲视频在线观看| 大片免费播放器 马上看| 亚洲av免费高清在线观看| 国产片特级美女逼逼视频| 乱系列少妇在线播放| 秋霞在线观看毛片| 美女视频免费永久观看网站| 欧美成人午夜免费资源| av在线app专区| 人妻 亚洲 视频| 亚洲,欧美,日韩| 久久久久久久久久人人人人人人| 高清黄色对白视频在线免费看 | 18禁在线播放成人免费| 亚洲高清免费不卡视频| 日韩亚洲欧美综合| 国产精品一二三区在线看| 男人狂女人下面高潮的视频| 久久精品熟女亚洲av麻豆精品| av视频免费观看在线观看| 免费大片黄手机在线观看| 最近中文字幕2019免费版| 日本黄大片高清| 亚洲精品视频女| 久久国产乱子免费精品| 搡女人真爽免费视频火全软件| 亚洲精品色激情综合| 亚洲av电影在线观看一区二区三区| 久久97久久精品| 一级毛片我不卡| 国产黄色视频一区二区在线观看| 亚洲人与动物交配视频| 99久久人妻综合| 国产在线男女| 波野结衣二区三区在线| 日本-黄色视频高清免费观看| 人人妻人人澡人人爽人人夜夜| 亚洲av欧美aⅴ国产| 日韩制服骚丝袜av| 亚洲欧洲精品一区二区精品久久久 | 日韩av不卡免费在线播放| 国产熟女午夜一区二区三区 | 国产亚洲5aaaaa淫片| 国产真实伦视频高清在线观看| 精品午夜福利在线看| 久久ye,这里只有精品| 亚洲色图综合在线观看| 国产老妇伦熟女老妇高清| 久久久久久久精品精品| 国产黄片视频在线免费观看| 一本大道久久a久久精品| 日本黄色片子视频| 一个人免费看片子| 国产一区二区三区综合在线观看 | 日韩av免费高清视频| 久久人人爽av亚洲精品天堂| 色婷婷久久久亚洲欧美| 免费看日本二区| 欧美精品高潮呻吟av久久| 亚洲无线观看免费| 国产熟女欧美一区二区| 日本与韩国留学比较| 一区二区av电影网| 色哟哟·www| 在线观看免费高清a一片| 精品人妻熟女av久视频| 韩国高清视频一区二区三区| av线在线观看网站| 国产亚洲av片在线观看秒播厂| 尾随美女入室| 免费观看av网站的网址| 69精品国产乱码久久久| 黑人猛操日本美女一级片| 人妻人人澡人人爽人人| 黑人巨大精品欧美一区二区蜜桃 | 成人亚洲精品一区在线观看| 成年美女黄网站色视频大全免费 | 国产精品一区二区三区四区免费观看| 日韩熟女老妇一区二区性免费视频| 九九在线视频观看精品| 精品人妻偷拍中文字幕| 色婷婷av一区二区三区视频| 91在线精品国自产拍蜜月| 性色av一级| 一级爰片在线观看| 欧美+日韩+精品| 精品熟女少妇av免费看| 最新中文字幕久久久久| 一级a做视频免费观看| 国产免费视频播放在线视频| 在线免费观看不下载黄p国产| 丁香六月天网| 黄色日韩在线| 久久99精品国语久久久| 97精品久久久久久久久久精品| 免费在线观看成人毛片| 黄色欧美视频在线观看| 成人亚洲精品一区在线观看| 男女边摸边吃奶| 免费不卡的大黄色大毛片视频在线观看| 亚洲,一卡二卡三卡| 在线观看www视频免费| 99久久精品一区二区三区| 国产av码专区亚洲av| 国产极品粉嫩免费观看在线 | 国产精品.久久久| 免费人妻精品一区二区三区视频| 有码 亚洲区| 日韩亚洲欧美综合| 伊人久久国产一区二区| 久久久久国产网址| 欧美亚洲 丝袜 人妻 在线| 有码 亚洲区| 老司机亚洲免费影院| 成人美女网站在线观看视频| 波野结衣二区三区在线| 免费播放大片免费观看视频在线观看| 校园人妻丝袜中文字幕| 一级黄片播放器| 国产欧美日韩精品一区二区| 免费观看在线日韩| 女人精品久久久久毛片| 男男h啪啪无遮挡| 亚洲精品国产av蜜桃| 麻豆成人av视频| 一区二区三区精品91| 一边亲一边摸免费视频| 国产精品熟女久久久久浪| 久久久国产欧美日韩av| 久久久国产精品麻豆| 久久99精品国语久久久| 高清av免费在线| av国产久精品久网站免费入址| 丝瓜视频免费看黄片| 成年美女黄网站色视频大全免费 | 午夜日本视频在线| 啦啦啦在线观看免费高清www| 春色校园在线视频观看| 亚洲美女搞黄在线观看| 伊人久久精品亚洲午夜| 蜜臀久久99精品久久宅男| 男女国产视频网站| 水蜜桃什么品种好| 欧美97在线视频| 亚洲av日韩在线播放| 在线观看三级黄色| 国产精品久久久久成人av| 极品少妇高潮喷水抽搐| av有码第一页| 最黄视频免费看| 久久韩国三级中文字幕| 熟妇人妻不卡中文字幕| 大陆偷拍与自拍| 一本色道久久久久久精品综合| 美女cb高潮喷水在线观看| 新久久久久国产一级毛片| av天堂中文字幕网| 日韩大片免费观看网站| 国产亚洲精品久久久com| 国产日韩欧美在线精品| 天天操日日干夜夜撸| 精品国产一区二区久久| 日日摸夜夜添夜夜爱| 亚洲国产成人一精品久久久| 人妻一区二区av| 欧美日韩精品成人综合77777| 欧美国产精品一级二级三级 | 一个人看视频在线观看www免费| 欧美精品一区二区免费开放| 亚洲av电影在线观看一区二区三区| 国产乱来视频区| 九草在线视频观看| 九九久久精品国产亚洲av麻豆| 最近手机中文字幕大全| 亚洲国产毛片av蜜桃av| 高清黄色对白视频在线免费看 | 熟妇人妻不卡中文字幕| 99精国产麻豆久久婷婷| 精品午夜福利在线看| 中文乱码字字幕精品一区二区三区| 日本欧美视频一区| 最近中文字幕2019免费版| 国产成人免费观看mmmm| 成人无遮挡网站| 亚洲图色成人| 精品国产露脸久久av麻豆| 自拍欧美九色日韩亚洲蝌蚪91 | 中文资源天堂在线| 日韩中字成人| 日韩欧美精品免费久久| 国产精品麻豆人妻色哟哟久久| 纵有疾风起免费观看全集完整版| 91久久精品国产一区二区三区| 另类精品久久| 国产免费福利视频在线观看| 高清av免费在线| 极品教师在线视频| 亚洲成色77777| 亚洲一级一片aⅴ在线观看| 中文乱码字字幕精品一区二区三区| 精品一品国产午夜福利视频| 亚洲av中文av极速乱| 国产精品女同一区二区软件| 久久韩国三级中文字幕| 久久久久久久国产电影| 国产男女超爽视频在线观看| 精品午夜福利在线看| 中文乱码字字幕精品一区二区三区| 老女人水多毛片| 国产av精品麻豆| 国产欧美另类精品又又久久亚洲欧美| 最近2019中文字幕mv第一页| 国产一区二区三区综合在线观看 | 国产美女午夜福利| 欧美+日韩+精品| 午夜激情久久久久久久| 欧美成人午夜免费资源| 亚洲精品视频女| 一级毛片我不卡| 一个人看视频在线观看www免费| 亚洲国产欧美在线一区| 欧美日韩亚洲高清精品| 欧美日韩综合久久久久久| 国产av国产精品国产| 欧美+日韩+精品| 久久午夜综合久久蜜桃| 欧美高清成人免费视频www| 各种免费的搞黄视频| 婷婷色av中文字幕| av网站免费在线观看视频| 国产精品久久久久久av不卡| 亚洲人成网站在线观看播放| 国产亚洲91精品色在线| 国产精品蜜桃在线观看| 美女大奶头黄色视频| 日韩欧美精品免费久久| 国产精品99久久久久久久久| 欧美精品国产亚洲| 亚洲av成人精品一区久久| 女人精品久久久久毛片| 乱人伦中国视频| 国产伦精品一区二区三区视频9| 亚洲精品456在线播放app| 亚洲av中文av极速乱| 99久国产av精品国产电影| 蜜桃在线观看..| 久久午夜综合久久蜜桃| 少妇被粗大的猛进出69影院 | 国产成人aa在线观看| 午夜福利网站1000一区二区三区| 久久6这里有精品| 日本黄色日本黄色录像| av国产精品久久久久影院| 桃花免费在线播放| 美女福利国产在线| 国产毛片在线视频| 男女边吃奶边做爰视频| 在线观看一区二区三区激情| 99热国产这里只有精品6| 久久精品国产亚洲网站| 永久网站在线| 六月丁香七月| 久久精品国产亚洲av涩爱| 丰满乱子伦码专区| 午夜影院在线不卡| 日本wwww免费看| 女的被弄到高潮叫床怎么办| 日本与韩国留学比较| 日日摸夜夜添夜夜爱| 日韩成人伦理影院| √禁漫天堂资源中文www| 午夜影院在线不卡| 成人国产av品久久久| 在线看a的网站| 亚洲av电影在线观看一区二区三区| 精品人妻一区二区三区麻豆| 亚洲精品自拍成人| 一级毛片我不卡| 国产高清不卡午夜福利| a级毛片免费高清观看在线播放| 日本91视频免费播放| 精品国产一区二区久久| 亚洲精品中文字幕在线视频 | 尾随美女入室| 亚洲欧洲国产日韩| 嘟嘟电影网在线观看| 久久久久久久久久久久大奶| 2021少妇久久久久久久久久久| av福利片在线观看| 精品卡一卡二卡四卡免费| 亚洲国产精品999| 大码成人一级视频| 亚洲精品乱码久久久v下载方式| 久久久久久久久久久免费av| 777米奇影视久久| 热re99久久精品国产66热6| 麻豆成人av视频| 久久ye,这里只有精品| 婷婷色av中文字幕| 国产成人精品无人区| 午夜福利视频精品| 亚洲欧美日韩东京热| 日韩av免费高清视频| 嘟嘟电影网在线观看| 欧美日韩综合久久久久久| 最近中文字幕高清免费大全6| 欧美变态另类bdsm刘玥| 久久久久精品久久久久真实原创| 少妇 在线观看| 男女边摸边吃奶| 女性被躁到高潮视频| 国产精品.久久久| 人人妻人人添人人爽欧美一区卜| h视频一区二区三区| 最新中文字幕久久久久| 欧美3d第一页| 只有这里有精品99| 麻豆精品久久久久久蜜桃| 这个男人来自地球电影免费观看 | 国产成人aa在线观看| 久久久久久久久久人人人人人人| 免费观看性生交大片5| 亚洲国产毛片av蜜桃av| 一区二区三区精品91| 免费黄色在线免费观看| 午夜福利网站1000一区二区三区| av在线播放精品| 精品少妇黑人巨大在线播放| 青青草视频在线视频观看| 国产精品国产av在线观看| 大片电影免费在线观看免费| 亚洲av在线观看美女高潮| 国产 一区精品| 欧美xxxx性猛交bbbb| 亚洲精品aⅴ在线观看| 午夜福利影视在线免费观看| 人人妻人人爽人人添夜夜欢视频 | 午夜激情久久久久久久| 中文字幕制服av| 国产一区二区在线观看日韩| 狂野欧美白嫩少妇大欣赏| 成年人免费黄色播放视频 | 亚洲精品久久午夜乱码| av视频免费观看在线观看| 一区在线观看完整版| 国产美女午夜福利| 高清黄色对白视频在线免费看 | 久久精品熟女亚洲av麻豆精品| 亚州av有码| 久久国产精品男人的天堂亚洲 | 久久韩国三级中文字幕| 伊人久久精品亚洲午夜| 人人澡人人妻人| 大香蕉久久网| 中文字幕av电影在线播放| 成年人免费黄色播放视频 | 国产精品99久久99久久久不卡 | 成人漫画全彩无遮挡| 中文资源天堂在线| 九色成人免费人妻av| 日本91视频免费播放| 91aial.com中文字幕在线观看| 少妇人妻精品综合一区二区| 亚洲av欧美aⅴ国产| 欧美xxxx性猛交bbbb| 亚洲av中文av极速乱| 极品教师在线视频| 日韩大片免费观看网站| 大又大粗又爽又黄少妇毛片口| 有码 亚洲区| 另类亚洲欧美激情|