• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    結(jié)合新穎性和風(fēng)險(xiǎn)評(píng)估的內(nèi)在獎(jiǎng)勵(lì)方法

    2023-03-13 10:04:42袁琳琳
    關(guān)鍵詞:動(dòng)作環(huán)境方法

    趙 英,秦 進(jìn),袁琳琳

    1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025

    2.貴州開放大學(xué) 信息工程學(xué)院,貴陽 550023

    強(qiáng)化學(xué)習(xí)[1(]reinforcement learning,RL)是Agent不斷地與環(huán)境進(jìn)行交互,從而強(qiáng)化自己的決策能力,使得未來累積獎(jiǎng)勵(lì)達(dá)到最大值。而獎(jiǎng)勵(lì)是強(qiáng)化學(xué)習(xí)過程中的關(guān)鍵因素,它會(huì)影響學(xué)習(xí)的速度和效率,此時(shí)的獎(jiǎng)勵(lì)是Agent和環(huán)境交互中產(chǎn)生的,即外在獎(jiǎng)勵(lì)。在某些情況下,這些外在獎(jiǎng)勵(lì)是密集且形狀良好,會(huì)持續(xù)給Agent獎(jiǎng)勵(lì)信號(hào),指導(dǎo)Agent增強(qiáng)自己的決策能力,比如:到達(dá)任務(wù)中機(jī)器人手臂和物體之間的距離[2]。然而,在許多現(xiàn)實(shí)世界問題的環(huán)境中,并沒有提供穩(wěn)定且密集的獎(jiǎng)勵(lì),導(dǎo)致Agent可能會(huì)花費(fèi)很長(zhǎng)時(shí)間才能遇到獎(jiǎng)勵(lì)信號(hào),甚至沒有獎(jiǎng)勵(lì)信號(hào),比如下圍棋,人們很難為每一步設(shè)定一個(gè)獎(jiǎng)勵(lì)值。因此,如何在稀疏獎(jiǎng)勵(lì)下有效探索環(huán)境仍然是一個(gè)開放的挑戰(zhàn)[3]。

    為了解決上述的挑戰(zhàn),有研究人員受到心理學(xué)中內(nèi)在動(dòng)機(jī)的啟發(fā),提出使用內(nèi)在獎(jiǎng)勵(lì)來鼓勵(lì)A(yù)gent探索環(huán)境[4-5]。內(nèi)在獎(jiǎng)勵(lì)能夠很好地指導(dǎo)Agent去探索環(huán)境,尤其是針對(duì)于獎(jiǎng)勵(lì)特別稀疏的環(huán)境。目前針對(duì)內(nèi)在獎(jiǎng)勵(lì)的設(shè)計(jì)主要分為兩大類型。一類是通過計(jì)數(shù)的方式,這種類型的探索獎(jiǎng)勵(lì)是鼓勵(lì)A(yù)gent訪問新狀態(tài),給新狀態(tài)分配更高的獎(jiǎng)勵(lì)。Bellemare等人[6]提出偽計(jì)數(shù)的方法設(shè)計(jì)內(nèi)在獎(jiǎng)勵(lì),Strehl、Littman等人[7]提出最基本的統(tǒng)計(jì)方法來設(shè)計(jì)內(nèi)在獎(jiǎng)勵(lì)。另一類是通過好奇心的方式,使Agent能夠很好地和環(huán)境互動(dòng),從而很少去選擇帶來不好結(jié)果的動(dòng)作,比如Mohamed等人[8]提出的使用動(dòng)態(tài)模型的預(yù)測(cè)誤差作為內(nèi)在獎(jiǎng)勵(lì),或者Pathak等人[9]提高其對(duì)世界動(dòng)態(tài)的知識(shí)和前瞻性預(yù)測(cè)。除了上述兩種主要的內(nèi)在獎(jiǎng)勵(lì),還有其他形式的內(nèi)在獎(jiǎng)勵(lì)設(shè)計(jì),Klyubin等人[10]提出的鼓勵(lì)A(yù)gent控制環(huán)境,Pong等人[11]提出的目標(biāo)多樣性,鼓勵(lì)目標(biāo)分布的熵最大化。在Lair等人[12]的研究中,從語言監(jiān)督中發(fā)現(xiàn)了內(nèi)在獎(jiǎng)勵(lì)。最優(yōu)獎(jiǎng)勵(lì)框架將內(nèi)在獎(jiǎng)勵(lì)表現(xiàn)為一種超越探索的機(jī)制,將其起源置于進(jìn)化背景中。然而,針對(duì)目前內(nèi)在獎(jiǎng)勵(lì)的設(shè)計(jì)存在著一定的缺陷,通過計(jì)數(shù)形式設(shè)計(jì)的內(nèi)在獎(jiǎng)勵(lì)公式,一是在狀態(tài)空間很大的情況下,Agent訪問的每一個(gè)狀態(tài)幾乎都是新狀態(tài),不能區(qū)分狀態(tài)之前的差別。二是內(nèi)在獎(jiǎng)勵(lì)會(huì)在前期快速消失;通過動(dòng)態(tài)模型的預(yù)測(cè)誤差設(shè)計(jì)的內(nèi)在獎(jiǎng)勵(lì)只考慮當(dāng)前采取動(dòng)作帶來的短期獎(jiǎng)勵(lì),如果Agent只從短期獎(jiǎng)勵(lì)來評(píng)判此動(dòng)作的好壞,可能會(huì)促使Agent錯(cuò)失此動(dòng)作從長(zhǎng)期帶來的最大化獎(jiǎng)勵(lì)。

    為了緩解此問題,本文提出一種結(jié)合新穎性和風(fēng)險(xiǎn)評(píng)估的內(nèi)在獎(jiǎng)勵(lì)方法。將內(nèi)在獎(jiǎng)勵(lì)分為兩部分,一部分是基于狀態(tài)-動(dòng)作計(jì)數(shù),鼓勵(lì)A(yù)gent去訪問以前沒有訪問過的狀態(tài),并且使得內(nèi)在獎(jiǎng)勵(lì)不會(huì)提前消失;另外一部分是從長(zhǎng)遠(yuǎn)的角度來考慮當(dāng)前動(dòng)作的好壞,并在探索過程中加入風(fēng)險(xiǎn)因素,鼓勵(lì)A(yù)gent根據(jù)自身偏好去選擇動(dòng)作。此時(shí)的內(nèi)在獎(jiǎng)勵(lì)不僅衡量當(dāng)前狀態(tài)的新穎性,也通過執(zhí)行的動(dòng)作來衡量當(dāng)前狀態(tài)的好壞程度。使用Mujoco環(huán)境來評(píng)估本文的方法,實(shí)驗(yàn)結(jié)果表明本文的方法比僅使用外在獎(jiǎng)勵(lì)和其他內(nèi)在獎(jiǎng)勵(lì)的方法能夠獲得更高的平均獎(jiǎng)勵(lì)。

    1 相關(guān)工作

    內(nèi)在動(dòng)機(jī)已經(jīng)被廣泛地用于解決各種困難探索任務(wù)當(dāng)中。Deci等人[13]為了緩解稀疏獎(jiǎng)勵(lì)提出內(nèi)在動(dòng)機(jī)。Barto[14]首先在內(nèi)在動(dòng)機(jī)中提出Agent與其周圍環(huán)境的交互模型,并認(rèn)為將內(nèi)在動(dòng)機(jī)和外部獎(jiǎng)勵(lì)結(jié)合起來應(yīng)該比單獨(dú)使用外部獎(jiǎng)勵(lì)的效果更好。Zheng等人[4]提出一種新的基于隨機(jī)梯度的參數(shù)內(nèi)在獎(jiǎng)勵(lì)的算法(LIRPG),當(dāng)與外在獎(jiǎng)勵(lì)結(jié)合時(shí),可以提高強(qiáng)化學(xué)習(xí)解決問題時(shí)的性能。Bellemare等人[6]提出的基于偽計(jì)數(shù)的內(nèi)在獎(jiǎng)勵(lì)和Strehl等人[7]提出的基于狀態(tài)訪問計(jì)數(shù)提出的內(nèi)在獎(jiǎng)勵(lì),都是鼓勵(lì)A(yù)gent訪問新狀態(tài),為新狀態(tài)分配高的內(nèi)在獎(jiǎng)勵(lì),指導(dǎo)Agent有效地探索環(huán)境,從而緩解外在獎(jiǎng)勵(lì)稀疏的問題。Zha等人[15]提出的RAPID方法在樣本效率和最終獎(jiǎng)勵(lì)方面效果都不錯(cuò)。RAPID將每一幕(episode)視為一個(gè)整體,并從每一幕和長(zhǎng)期經(jīng)驗(yàn)給出一幕的探索分?jǐn)?shù)。這些得分很高的序列被視為良好的探索行為,并存儲(chǔ)在一個(gè)小的排名緩沖區(qū)中。Agent模擬緩沖區(qū)中的序列,重現(xiàn)過去良好的探索行為。其內(nèi)在獎(jiǎng)勵(lì)表現(xiàn)形式為:

    其中,Ndistinct表示一幕中不同狀態(tài)的數(shù)量,Ntotal表示一幕中狀態(tài)的總數(shù),N(s)是整個(gè)訓(xùn)練過程中s的狀態(tài)計(jì)數(shù),W1、W2是超參數(shù)。正如2.1節(jié)討論的,本文的方法與計(jì)數(shù)的內(nèi)在獎(jiǎng)勵(lì)有相似之處。但是只用當(dāng)前狀態(tài)計(jì)數(shù)的內(nèi)在獎(jiǎng)勵(lì)去探索環(huán)境是低效的,所以本文主要考慮采用轉(zhuǎn)移后狀態(tài)設(shè)計(jì)內(nèi)在獎(jiǎng)勵(lì)。

    在許多任務(wù)中,風(fēng)險(xiǎn)與環(huán)境的固有不確定性有關(guān)(即具有隨機(jī)性)。在這些環(huán)境中,即使是最優(yōu)策略(關(guān)于未來累積獎(jiǎng)勵(lì))在某些情況下也可能表現(xiàn)不佳[16]。因?yàn)槲磥砝鄯e獎(jiǎng)勵(lì)最大化并不一定能避免大的負(fù)面結(jié)果的罕見發(fā)生,所以需要其他標(biāo)準(zhǔn)來評(píng)估風(fēng)險(xiǎn)。在這種情況下,未來累積獎(jiǎng)勵(lì)最大化被轉(zhuǎn)化為包含一些與收益方差相關(guān)的風(fēng)險(xiǎn)概念[17-18]。Chow等人[19]研究靜態(tài)環(huán)境中的條件風(fēng)險(xiǎn)值(CVaR)和平均-條件風(fēng)險(xiǎn)值優(yōu)化。Clements等人[20]提出了一個(gè)框架來估計(jì)學(xué)習(xí)Q值的不確定性,推導(dǎo)不確定性的估計(jì)值,引入了一種不確定性感知的UADDPG算法。Dabney等人[21]為了解決狀態(tài)、獎(jiǎng)勵(lì)和動(dòng)作在觀察到的累積獎(jiǎng)勵(lì)中引起的不確定性,提出采用分布式方法(QR-DDPG算法),顯式地對(duì)收益分布進(jìn)行建模,而不僅僅是估計(jì)均值。最近,Bisi等人[22]提出一種獎(jiǎng)勵(lì)波動(dòng)性風(fēng)險(xiǎn)方差方法,該方法考慮每一步獎(jiǎng)勵(lì)的方差,并對(duì)每一步獎(jiǎng)勵(lì)的方差進(jìn)行優(yōu)化,與未來累積獎(jiǎng)勵(lì)的方差相比,每一步獎(jiǎng)勵(lì)的方差可以更好地捕捉短期風(fēng)險(xiǎn),并且通常會(huì)導(dǎo)致更平滑的軌跡。常見的風(fēng)險(xiǎn)通常從未來累積獎(jiǎng)勵(lì)和方差這兩方面進(jìn)行考慮,稱為收益方差,與之前CVaR的性能測(cè)試相比,收益方差具有明確的可解釋性和計(jì)算優(yōu)勢(shì)。Tamar等人[23]推導(dǎo)了二階矩M=E[G2]的貝爾曼式關(guān)系,然后通過關(guān)系式估計(jì)G的方差,其中G表示未來累積獎(jiǎng)勵(lì):

    M的Bellman式方程可以表示為:

    其中,rex表示外在獎(jiǎng)勵(lì),γ是折扣率。在此前的工作中還未發(fā)現(xiàn)將內(nèi)在獎(jiǎng)勵(lì)與風(fēng)險(xiǎn)結(jié)合,內(nèi)在獎(jiǎng)勵(lì)在促使Agent探索環(huán)境過程中,也并未考慮環(huán)境中某些狀態(tài)-動(dòng)作會(huì)存在不確定性和不安全性。有鑒于此,本文使用累積獎(jiǎng)勵(lì)的方差作為Agent探索環(huán)境的風(fēng)險(xiǎn)程度。

    近端策略優(yōu)化算法(PPO)[24]是一種策略梯度算法,通過與環(huán)境的交互交替采樣數(shù)據(jù),并利用隨機(jī)梯度上升的方法進(jìn)行代替的目標(biāo)函數(shù)的優(yōu)化。標(biāo)準(zhǔn)策略梯度方法對(duì)每個(gè)采樣的數(shù)據(jù)進(jìn)行一次更新,就將這些采樣的數(shù)據(jù)扔掉,重新采樣,再實(shí)現(xiàn)更新,而PPO算法可以實(shí)現(xiàn)多個(gè)小批量更新,解決了策略梯度算法中步長(zhǎng)難以確定的問題。

    2 內(nèi)在獎(jiǎng)勵(lì)設(shè)計(jì)

    在現(xiàn)實(shí)世界中,Agent往往在一個(gè)信息不完整、環(huán)境隨時(shí)變化和感知力有限的情況下進(jìn)行決策,從而使得Agent收到的反饋信號(hào)少之又少。強(qiáng)化學(xué)習(xí)的算法在每個(gè)時(shí)間步采取一個(gè)動(dòng)作,即使Agent對(duì)其選擇的動(dòng)作存在顧慮,它也會(huì)使用這個(gè)動(dòng)作進(jìn)行學(xué)習(xí)。這種不謹(jǐn)慎會(huì)導(dǎo)致Agent犯下錯(cuò)誤。而且當(dāng)Agent探索到比以前更好的策略時(shí),Agent大部分時(shí)間都會(huì)選擇這個(gè)策略,所以它很少去探索未訪問的環(huán)境。為鼓勵(lì)A(yù)gent發(fā)現(xiàn)好的狀態(tài),本文提出一種結(jié)合新穎性和風(fēng)險(xiǎn)評(píng)估的內(nèi)在獎(jiǎng)勵(lì)驅(qū)動(dòng)的探索方法。內(nèi)在獎(jiǎng)勵(lì)rin由新穎性O(shè)(s,a,s′)和風(fēng)險(xiǎn)評(píng)估M(s,a,s′)兩種因素決定。在每個(gè)時(shí)間步驟t,Agent執(zhí)行一個(gè)動(dòng)作并獲得一個(gè)獎(jiǎng)勵(lì):

    其中,α是超參數(shù)。本文在PPO算法中加入基于新穎性和風(fēng)險(xiǎn)評(píng)估的內(nèi)在獎(jiǎng)勵(lì)得到PPO+NRA(PPO-noveltyrisk assessment)方法,PPO+NRA方法使用內(nèi)在獎(jiǎng)勵(lì)和外在獎(jiǎng)勵(lì)之和,更新策略參數(shù),其中內(nèi)在獎(jiǎng)勵(lì)只會(huì)影響策略參數(shù)的變化,而本文中累積獎(jiǎng)勵(lì)的最終衡量標(biāo)準(zhǔn)是Agent所獲得的外在獎(jiǎng)勵(lì)值。下面詳細(xì)介紹構(gòu)成內(nèi)在獎(jiǎng)勵(lì)的兩種因素。

    2.1 新穎性

    新穎性作為內(nèi)在獎(jiǎng)勵(lì)的一部分,主要用于處理Agent對(duì)環(huán)境的探索能力。即促使Agent在生命周期中盡可能多地訪問不同的狀態(tài)。在有些環(huán)境中發(fā)現(xiàn)許多糟糕的探索序列經(jīng)常出現(xiàn)在同一個(gè)狀態(tài),或者探索序列前期階段總是重復(fù)之前探索過的狀態(tài)。因此Agent會(huì)被困在一個(gè)熟悉的環(huán)境,從而不去探索未訪問過的環(huán)境。從Agent和環(huán)境進(jìn)行交互過程中,根據(jù)對(duì)環(huán)境的熟悉程度和對(duì)新狀態(tài)出現(xiàn)的好奇程度,可以設(shè)置不同的獎(jiǎng)勵(lì)值。即當(dāng)狀態(tài)一直反復(fù)出現(xiàn)時(shí),該狀態(tài)獲得內(nèi)在獎(jiǎng)勵(lì)很低,此時(shí),內(nèi)在獎(jiǎng)勵(lì)無法指引Agent有效地探索環(huán)境,因此,為了獲得高的內(nèi)在獎(jiǎng)勵(lì),應(yīng)該鼓勵(lì)A(yù)gent去探索周邊的環(huán)境,而不是一直停留在熟悉的環(huán)境中進(jìn)行探索。如果環(huán)境的狀態(tài)和/或動(dòng)作空間是高維連續(xù)的,一個(gè)狀態(tài)和/或動(dòng)作幾乎不會(huì)重復(fù)出現(xiàn),采用簡(jiǎn)單的基于計(jì)數(shù)的方法,會(huì)發(fā)現(xiàn)絕大多數(shù)狀態(tài)和/或動(dòng)作的計(jì)數(shù)為1,無法區(qū)分不同狀態(tài)和/或動(dòng)作之間的差異性。為此,本文使用靜態(tài)哈希方法實(shí)現(xiàn)高維的狀態(tài)和/或動(dòng)作空間的降維,將狀態(tài)和/或動(dòng)作映射到哈希碼,并將狀態(tài)和/或動(dòng)作的計(jì)數(shù)轉(zhuǎn)換為哈希碼的計(jì)數(shù)。靜態(tài)哈希方法[25]使用SimHash[26]作為哈希函數(shù),它通過角距離來度量相似性,SimaHash將狀態(tài)s∈S的二進(jìn)制代碼檢索為:

    其中g(shù):S→RD是一個(gè)可選的預(yù)處理函數(shù),本文中沒有使用預(yù)處理函數(shù),A是矩陣,服從標(biāo)準(zhǔn)高斯分布N(0,1),k是控制粒度:更高的值會(huì)導(dǎo)致更少的沖突,更有可能區(qū)分狀態(tài)。

    新穎性是基于靜態(tài)哈希計(jì)數(shù)的探索,將新穎性定義為當(dāng)前狀態(tài)-動(dòng)作對(duì)的新穎性與狀態(tài)-動(dòng)作-轉(zhuǎn)換后狀態(tài)新穎性之和。本文主要考慮轉(zhuǎn)換后狀態(tài)的統(tǒng)計(jì)次數(shù),主要是大部分內(nèi)在獎(jiǎng)勵(lì)的計(jì)數(shù)從狀態(tài)、狀態(tài)-動(dòng)作這兩方面進(jìn)行統(tǒng)計(jì),其本質(zhì)是沒有區(qū)別的,都是對(duì)狀態(tài)s進(jìn)行統(tǒng)計(jì),這意味著新穎性對(duì)狀態(tài)進(jìn)行兩次計(jì)算,可能會(huì)導(dǎo)致Agent過早失去內(nèi)在獎(jiǎng)勵(lì)信號(hào)。而本文考慮轉(zhuǎn)換后狀態(tài)作為計(jì)數(shù),主要有兩個(gè)作用:一是分別對(duì)狀態(tài)-動(dòng)作和轉(zhuǎn)換后狀態(tài)進(jìn)行統(tǒng)計(jì),不會(huì)過早失去內(nèi)在獎(jiǎng)勵(lì)。當(dāng)狀態(tài)-動(dòng)作被訪問的次數(shù)越多,而轉(zhuǎn)換后狀態(tài)被訪問的次數(shù)是首次或者很少被訪問時(shí),Agent不會(huì)過早失去內(nèi)在獎(jiǎng)勵(lì)信號(hào),還能根據(jù)其內(nèi)在獎(jiǎng)勵(lì)信號(hào)去探索未訪問的狀態(tài)。二是判斷當(dāng)前狀態(tài)s采取動(dòng)作a是否有利于Agent探索。Agent采取動(dòng)作a,到達(dá)下一狀態(tài)s′,如果多次訪問該狀態(tài)s′,則表示該動(dòng)作不利于當(dāng)前時(shí)刻的探索,反之是有利于探索。新穎性定義為:

    其中,n(s,a)表示為對(duì)當(dāng)前狀態(tài)-動(dòng)作的訪問次數(shù)統(tǒng)計(jì),n(s,a,s′)表示為當(dāng)前狀態(tài)采取動(dòng)作a,到達(dá)下一狀態(tài)s′的訪問次數(shù)統(tǒng)計(jì),其中λ為正常數(shù),滿足0<λ<1。訪問次數(shù)越多,狀態(tài)的新穎性獎(jiǎng)勵(lì)值越低。

    2.2 風(fēng)險(xiǎn)評(píng)估

    本文提出用風(fēng)險(xiǎn)評(píng)估作為內(nèi)在獎(jiǎng)勵(lì)的一部分,主要是規(guī)避對(duì)環(huán)境不利的動(dòng)作。從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),當(dāng)來自環(huán)境的反饋很少時(shí),這種方法可以促進(jìn)有效的探索策略。強(qiáng)化學(xué)習(xí)中大多數(shù)采用隨機(jī)性探索或者是ε-greedy探索來進(jìn)行學(xué)習(xí),這些不安全性探索的學(xué)習(xí)可能會(huì)帶來巨大的風(fēng)險(xiǎn)。通過風(fēng)險(xiǎn)來修改Agent的探索過程,將下一狀態(tài)的狀態(tài)價(jià)值和當(dāng)前狀態(tài)的狀態(tài)價(jià)值的差值,與累積獎(jiǎng)勵(lì)方差來確定狀態(tài)-動(dòng)作-轉(zhuǎn)換后狀態(tài)的風(fēng)險(xiǎn)評(píng)估,用以下表達(dá)式定義它:

    其中v(s)、v(s′)分別為狀態(tài)s和s′的價(jià)值;Var[G]是累積獎(jiǎng)勵(lì)的方差(公式(2)),從整個(gè)生命周期開始計(jì)算;β是風(fēng)險(xiǎn)等級(jí)參數(shù),主要控制狀態(tài)-動(dòng)作-轉(zhuǎn)換后狀態(tài)的風(fēng)險(xiǎn)程度,當(dāng)β取值越大,意味著當(dāng)前狀態(tài)-動(dòng)作-轉(zhuǎn)換后的狀態(tài)存在風(fēng)險(xiǎn)等級(jí)越高,此時(shí)Agent會(huì)傾向于選擇其他的動(dòng)作到達(dá)下一狀態(tài),來規(guī)避對(duì)環(huán)境有重大影響的動(dòng)作。

    風(fēng)險(xiǎn)評(píng)估主要從選擇當(dāng)前動(dòng)作的風(fēng)險(xiǎn)程度進(jìn)行考慮。一方面從長(zhǎng)遠(yuǎn)的角度來判斷當(dāng)前動(dòng)作是否會(huì)使未來累積獎(jiǎng)勵(lì)達(dá)到最大值,雖然采取當(dāng)前動(dòng)作會(huì)使Agent獲得較高的短期獎(jiǎng)勵(lì)值,但有可能會(huì)導(dǎo)致未來獎(jiǎng)勵(lì)達(dá)不到最大值,從而使Agent發(fā)現(xiàn)次優(yōu)策略。另一方面Agent在選擇此動(dòng)作的時(shí)候,可能會(huì)出現(xiàn)不同的結(jié)果,即環(huán)境在發(fā)生變化時(shí),可能之前采取動(dòng)作取得可觀的獎(jiǎng)勵(lì),但也有可能在后面采取此動(dòng)作得到相應(yīng)的懲罰。因此對(duì)于此動(dòng)作采取反復(fù)探索。首先用累積獎(jiǎng)勵(lì)的方差來判斷當(dāng)前動(dòng)作對(duì)環(huán)境的影響程度,當(dāng)方差很大時(shí),說明此動(dòng)作對(duì)收益的波動(dòng)很大;其次再利用β來評(píng)估當(dāng)前動(dòng)作的風(fēng)險(xiǎn)程度,通過調(diào)節(jié)權(quán)重β,來賦予此狀態(tài)的價(jià)值。在本文的實(shí)驗(yàn)中,β值是正數(shù),Agent會(huì)規(guī)避冒險(xiǎn)行為。

    3 實(shí)驗(yàn)與分析

    3.1 實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)采用的環(huán)境是OpenAI公司開發(fā)的Gym平臺(tái)中Mujoco控制類游戲,選取4個(gè)連續(xù)控制類問題來驗(yàn)證本文方法的有效性。本文選取的4個(gè)連續(xù)控制類問題如下:

    (1)Swimmer實(shí)驗(yàn)環(huán)境中,如圖1(a)所示,在粘性流體中的三連桿游泳機(jī)器人,通過驅(qū)動(dòng)兩個(gè)關(guān)節(jié)使其盡可能快地向前游。

    (2)Hopper實(shí)驗(yàn)環(huán)境中,如圖1(b)所示,讓一個(gè)三維單腿機(jī)器人盡可能地快速向前跳躍。

    (3)Walker2d實(shí)驗(yàn)環(huán)境中,如圖1(c)所示,需要訓(xùn)練使二維雙足Agent盡可能快地向前走。

    圖1 Mujoco游戲環(huán)境圖Fig.1 Mujoco game environment map

    (4)Humanoid實(shí)驗(yàn)環(huán)境中,如圖1(d)所示,需要訓(xùn)練三維雙足Agent盡可能快地向前走,并且不會(huì)摔倒。其中,Humanoid是當(dāng)前強(qiáng)化學(xué)習(xí)算法可以解決的最具挑戰(zhàn)性的任務(wù)之一,具有非常高維的狀態(tài)、動(dòng)作空間。

    實(shí)驗(yàn)使用的CPU為Intel?Core?i5-7400,內(nèi)存為8 GB。為了驗(yàn)證本文提出的內(nèi)在獎(jiǎng)勵(lì)方法的有效性,把其應(yīng)用于PPO算法,得到的算法記為PPO+NRA,并與基線方法PPO、LIRPG、RAPID、UA-DDPG和QR-DDPG進(jìn)行比較。在實(shí)驗(yàn)中,使用步長(zhǎng)為128,熵系數(shù)為0.01,批量大小為256,折扣率為0.99,值損失項(xiàng)系數(shù)為0.5,剪裁為0.2和學(xué)習(xí)率為0.000 1,實(shí)驗(yàn)采用了均方根隨機(jī)梯度下降方法來更新網(wǎng)絡(luò)的參數(shù)。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    在強(qiáng)化學(xué)習(xí)中,主要使用一個(gè)episode所獲得的累積獎(jiǎng)勵(lì)值來評(píng)判方法的優(yōu)劣,累計(jì)獎(jiǎng)賞值越高說明方法的性能越好,學(xué)習(xí)到的是一個(gè)有利于Agent的策略。為了實(shí)驗(yàn)的穩(wěn)定性,取過去10次訓(xùn)練的每個(gè)episode的平均獎(jiǎng)勵(lì)值,每次訓(xùn)練100萬步。為創(chuàng)建一個(gè)更具挑戰(zhàn)性的稀疏獎(jiǎng)勵(lì)設(shè)置,延遲外在獎(jiǎng)勵(lì),在本文中以每20、40步來延遲外在獎(jiǎng)勵(lì),結(jié)果如圖2和3所示。圖2和圖3中的橫坐標(biāo)是學(xué)習(xí)過程中的時(shí)間步長(zhǎng),縱坐標(biāo)是過去10個(gè)episode訓(xùn)練的平均獎(jiǎng)勵(lì)。其中將外在獎(jiǎng)勵(lì)延遲40步更加體現(xiàn)出本文的方法在環(huán)境非常稀疏的條件下能獲得更高的平均獎(jiǎng)勵(lì)值。

    圖3 延遲40步實(shí)驗(yàn)結(jié)果圖Fig.3 Delayed 40-step experiment result graph

    針對(duì)環(huán)境稀疏情況不同,分別對(duì)延遲20步和40步的實(shí)驗(yàn)結(jié)果圖進(jìn)行分析。從圖2分析可以看出:

    圖2 延遲20步實(shí)驗(yàn)結(jié)果圖Fig.2 Delayed 20-step experiment result graph

    在外在獎(jiǎng)勵(lì)延遲20步的情形下,PPO+NRA在除Humanoid之外的所有三個(gè)環(huán)境中都取得了最佳性能。在Humanoid環(huán)境中,PPO+NRA比LIRPG稍差一些,原因是LIRPG中用一個(gè)以外在獎(jiǎng)勵(lì)為目標(biāo)的網(wǎng)絡(luò)來學(xué)習(xí)內(nèi)在獎(jiǎng)勵(lì),經(jīng)過一段時(shí)間的探索Agen(t相對(duì)于延遲40步的情形)容易獲得外在獎(jiǎng)勵(lì),從而改進(jìn)內(nèi)在獎(jiǎng)勵(lì)的學(xué)習(xí),進(jìn)一步改進(jìn)策略的學(xué)習(xí)。PPO的策略參數(shù)受到外在獎(jiǎng)勵(lì)的影響,由于外在獎(jiǎng)勵(lì)幾乎為0,不能很好地引導(dǎo)Agent決策,而PPO+NRA加入內(nèi)在獎(jiǎng)勵(lì),通過外在獎(jiǎng)勵(lì)和內(nèi)在獎(jiǎng)勵(lì)一起更新策略參數(shù),獲得不錯(cuò)的平均獎(jiǎng)勵(lì)。在Walker2d環(huán)境中,PPO+NRA與其他五種方法相比,性能提升明顯,其中RAPID方法相對(duì)于其他方法在前期獲取的平均獎(jiǎng)勵(lì)幾乎為0,可能是因?yàn)镽APID前期的樣本不利于Agent選擇好的策略,隨著Agent不斷地探索,RAPID方法能選擇好的樣本進(jìn)行決策。QR-DDPG在中間階段的平均獎(jiǎng)勵(lì)值低,這可能是因?yàn)椴扇×孙L(fēng)險(xiǎn)軌跡,在環(huán)境稀疏的情況下,QR-DDPG不能很好地對(duì)收益分布進(jìn)行建模。在Hopper環(huán)境中,PPO+NRA前期不如PPO,這主要的原因是PPO沒有內(nèi)在獎(jiǎng)勵(lì),而外在獎(jiǎng)勵(lì)又稀疏,導(dǎo)致Agent前期不斷地探索環(huán)境,當(dāng)Agent遇到獎(jiǎng)勵(lì)值高的狀態(tài)-動(dòng)作時(shí),就會(huì)經(jīng)常訪問此狀態(tài)-動(dòng)作,所以PPO前期獲得平均獎(jiǎng)勵(lì)值高,但在后期由于缺乏探索導(dǎo)致Agent學(xué)習(xí)到一個(gè)次優(yōu)的策略。本文的方

    法考慮新穎性,從而促使Agent探索環(huán)境,Agent在學(xué)習(xí)過程中能夠很好地平衡探索與利用,學(xué)習(xí)到一個(gè)好的策略。從平均獎(jiǎng)勵(lì)值來看,PPO+NRA相對(duì)于LIRPG較差一點(diǎn),可能是因?yàn)長(zhǎng)IRPG主要鼓勵(lì)A(yù)gent不斷地去探索環(huán)境,去發(fā)現(xiàn)未訪問過的狀態(tài),這也可能是LIRPG在30萬步之前的平均獎(jiǎng)勵(lì)值高的原因,隨著Agent探索能力減弱,中后期階段Agent訪問的狀態(tài)大部分是之前訪問過的狀態(tài),此時(shí)Agent就會(huì)偏向于利用,所以LIRPG在中后期的平均獎(jiǎng)勵(lì)值波動(dòng)不明顯。PPO+NRA在前期表現(xiàn)不好的原因可能是PPO+NRA不僅鼓勵(lì)A(yù)gent去探索環(huán)境,還對(duì)動(dòng)作進(jìn)行判斷,導(dǎo)致Agent在前期花費(fèi)大量時(shí)間訓(xùn)練。在Swimmer環(huán)境中,PPO+NRA在實(shí)驗(yàn)中期優(yōu)于其他五種方法,主要是PPO+NRA增加了風(fēng)險(xiǎn)評(píng)估,使Agent規(guī)避危險(xiǎn)動(dòng)作的選擇,大大降低了環(huán)境中所存在的陷阱。QR-DDPG的曲線比UA-DDPG的曲線波動(dòng)大,這可能是因?yàn)镾wimmer環(huán)境的外在獎(jiǎng)勵(lì)是負(fù)值且稀疏,導(dǎo)致QR-DDPG無法學(xué)習(xí)到有利的收益分布,促使Agent不能從收益分布中區(qū)分狀態(tài)-動(dòng)作是否存在風(fēng)險(xiǎn)。

    在更為稀疏的環(huán)境,PPO+NRA在四個(gè)環(huán)境中有三個(gè)環(huán)境能取得高的平均獎(jiǎng)勵(lì)值,從圖3分析可以看出:

    當(dāng)外在獎(jiǎng)勵(lì)延遲40步時(shí),Agent在更稀疏的環(huán)境中,前期探索能力較好,尤其是在最具挑戰(zhàn)的Humanoid游戲中,平均獎(jiǎng)勵(lì)值在中后期呈現(xiàn)上升趨勢(shì),而圖2的Humanoid環(huán)境平均獎(jiǎng)勵(lì)值在中后期已經(jīng)趨于收斂,雖然LIRPG算法的平均獎(jiǎng)勵(lì)值在外在獎(jiǎng)勵(lì)延遲20步時(shí)超過PPO+NRA,但是在環(huán)境更加稀疏的情況下,LIRPG算法不能很好地指引Agent獲得最優(yōu)策略,并且在前期LIRPG的探索能力也在逐漸下降。LIRPG后期下降的原因可能是內(nèi)在獎(jiǎng)勵(lì)參數(shù)的更新受到策略參數(shù)的影響,由于外在獎(jiǎng)勵(lì)太過稀疏,導(dǎo)致Agent獲取的策略不好,從而影響內(nèi)在獎(jiǎng)勵(lì)參數(shù)的變化。RAPID在此環(huán)境中表現(xiàn)得很差,主要是Humanoid環(huán)境中的動(dòng)作數(shù)量很多,RAPID算法中的內(nèi)在獎(jiǎng)勵(lì)(公式(1))從一幕中不同狀態(tài)的數(shù)量進(jìn)行考慮,也就是鼓勵(lì)A(yù)gent去探索不同的狀態(tài),然而Humanoid環(huán)境的狀態(tài)空間比Swimmer、Hopper和Walker2d更為復(fù)雜,Agent訪問的狀態(tài)幾乎是不同的,使得Agent不能區(qū)分狀態(tài)之間的區(qū)別,這會(huì)導(dǎo)致RAPID不能對(duì)好的樣本進(jìn)行采樣以更新策略的參數(shù),并且RAPID沒有考慮當(dāng)前選擇的動(dòng)作是否對(duì)Agent有利,而PPO+NRA促使Agent在探索不同狀態(tài)的同時(shí)也對(duì)選擇的動(dòng)作進(jìn)行判斷。在Walker2d游戲中,LIRPG算法在更稀疏的環(huán)境中獲得的平均獎(jiǎng)勵(lì)值很低,而PPO+NRA在更稀疏的環(huán)境中也能獲得較高的平均獎(jiǎng)勵(lì)值。PPO算法的平均獎(jiǎng)勵(lì)值僅次于PPO+NRA,這可能是因?yàn)镻PO采用的是離軌策略(off-policy),Agent與環(huán)境交互過程中產(chǎn)生好的樣本,促使Agent使用好的樣本來訓(xùn)練網(wǎng)絡(luò)。RAPID的平均獎(jiǎng)勵(lì)值低,主要是因?yàn)閃alker2d環(huán)境的動(dòng)作空間復(fù)雜,RAPID只鼓勵(lì)A(yù)gent不斷地去探索環(huán)境,沒有對(duì)動(dòng)作的選擇進(jìn)行判斷,會(huì)導(dǎo)致Agent選擇不利的動(dòng)作。UA-DDPG在后期的波動(dòng)性大,可能是因?yàn)閯?dòng)作的不確定性是有偏估計(jì),在學(xué)習(xí)過程中大部分都在執(zhí)行探索行為。在Hopper環(huán)境中,PPO+NRA比其他五種方法較為穩(wěn)定,波動(dòng)性不大,性能提升明顯。在Swimmer游戲中,RAPID算法在更稀疏的環(huán)境中也能獲得較高的平均獎(jiǎng)勵(lì)值,但是在環(huán)境復(fù)雜和動(dòng)作數(shù)量增加的Walker2d游戲和Humanoid游戲中,并沒有獲得高的平均獎(jiǎng)勵(lì)值,主要是因?yàn)镾wimmer游戲中動(dòng)作數(shù)量少,Agent只需不斷地探索環(huán)境,而另外兩個(gè)環(huán)境外在獎(jiǎng)勵(lì)非常稀疏,動(dòng)作數(shù)量多,RAPID算法只鼓勵(lì)A(yù)gent去探索不同的狀態(tài),沒有考慮此動(dòng)作是否對(duì)Agent有利,而PPO+NRA促使Agent在探索不同狀態(tài)的同時(shí)也對(duì)選擇的動(dòng)作進(jìn)行判斷。UA-DDPG比QR-DDPG的平均獎(jiǎng)勵(lì)高,這可能是因?yàn)橥庠讵?jiǎng)勵(lì)是負(fù)值的時(shí)候,UA-DDPG在學(xué)習(xí)過程中會(huì)積累更多的風(fēng)險(xiǎn)狀態(tài)-動(dòng)作,在大部分時(shí)間Agent執(zhí)行探索行為。

    通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),尤其是針對(duì)外在獎(jiǎng)勵(lì)特別稀疏的情況下,PPO+NRA相比于PPO、LIRPG、RAPID、UADDPG和QR-DDPG這五種算法來說,在多數(shù)環(huán)境中能取得較高的平均獎(jiǎng)勵(lì)值,說明本文的方法能夠解決外在獎(jiǎng)勵(lì)稀疏的問題。特別是在Humanoid這種最具挑戰(zhàn)的環(huán)境中,當(dāng)使用新穎性和風(fēng)險(xiǎn)評(píng)估作為內(nèi)在獎(jiǎng)勵(lì)時(shí),內(nèi)在獎(jiǎng)勵(lì)不會(huì)提前消失,仍然能夠鼓勵(lì)A(yù)gent長(zhǎng)期地進(jìn)行探索。從表1中可以看出PPO+NRA在延遲40步中獲得平均獎(jiǎng)勵(lì)值更高。外在獎(jiǎng)勵(lì)延遲20步的情況下,雖然LIRPG兩個(gè)環(huán)境中的平均獎(jiǎng)勵(lì)值都比本文的方法稍好,但是LIRPG在獎(jiǎng)勵(lì)更加稀疏的環(huán)境中表現(xiàn)的結(jié)果比本文的方法差,可以清晰地從表1中發(fā)現(xiàn)LIRPG隨著獎(jiǎng)勵(lì)稀疏增加平均獎(jiǎng)勵(lì)值下降,RAPID只在Swimmer一個(gè)環(huán)境中平均獎(jiǎng)勵(lì)值提升,而本文的方法在獎(jiǎng)勵(lì)非常稀疏的情況下,在大部分環(huán)境中也能夠獲取較高的平均獎(jiǎng)勵(lì)值,驗(yàn)證本文的方法能夠解決外在獎(jiǎng)勵(lì)稀疏的問題。

    表1 Mujoco環(huán)境平均獎(jiǎng)勵(lì)值Table 1 Average reward value of Mujoco environment

    4 結(jié)語

    本文提出一種結(jié)合新穎性和風(fēng)險(xiǎn)評(píng)估的內(nèi)在獎(jiǎng)勵(lì)方法,將內(nèi)在獎(jiǎng)勵(lì)加入到PPO算法當(dāng)中,得到PPO+NRA。并在Mujoco基準(zhǔn)測(cè)試任務(wù)中驗(yàn)證了它的有效性,實(shí)驗(yàn)結(jié)果均表明本文的方法能夠使Agent在外在獎(jiǎng)勵(lì)稀疏的環(huán)境下獲得較高的平均獎(jiǎng)勵(lì)值,并且在Mujoco環(huán)境中最困難的任務(wù)之一Humanoid上實(shí)現(xiàn)了最佳的性能。下一步的工作是調(diào)整內(nèi)在獎(jiǎng)勵(lì)方法進(jìn)一步提高平均獎(jiǎng)勵(lì)值和收斂速度。考慮在內(nèi)在獎(jiǎng)勵(lì)完全消失之前,讓Agent根據(jù)所獲得經(jīng)驗(yàn)來獲取相關(guān)的技能,用此技能來代替逐漸消失的內(nèi)在獎(jiǎng)勵(lì),最后根據(jù)此技能來更新策略。

    猜你喜歡
    動(dòng)作環(huán)境方法
    長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
    孕期遠(yuǎn)離容易致畸的環(huán)境
    環(huán)境
    動(dòng)作描寫要具體
    畫動(dòng)作
    動(dòng)作描寫不可少
    可能是方法不對(duì)
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    满18在线观看网站| 欧美在线一区亚洲| 大香蕉久久成人网| 操美女的视频在线观看| 国产99久久九九免费精品| 97人妻天天添夜夜摸| 黄网站色视频无遮挡免费观看| a在线观看视频网站| 亚洲第一青青草原| 精品人妻1区二区| 久9热在线精品视频| 欧美激情极品国产一区二区三区| 午夜福利乱码中文字幕| 新久久久久国产一级毛片| 久久久久久久国产电影| 欧美日韩国产mv在线观看视频| 欧美乱码精品一区二区三区| 黄片播放在线免费| 亚洲精品国产色婷婷电影| 国产成人啪精品午夜网站| 日韩中文字幕视频在线看片| 国产成人欧美在线观看 | 99九九在线精品视频| 免费久久久久久久精品成人欧美视频| 成人国产av品久久久| 免费在线观看完整版高清| 另类亚洲欧美激情| 亚洲精品一二三| 男人添女人高潮全过程视频| avwww免费| 国产日韩欧美亚洲二区| 999久久久精品免费观看国产| 啦啦啦啦在线视频资源| 久久久久久免费高清国产稀缺| 一级毛片女人18水好多| 日本av手机在线免费观看| 99九九在线精品视频| 亚洲国产精品成人久久小说| 久久久久网色| 欧美成人午夜精品| 国产精品久久久久久精品电影小说| 高清欧美精品videossex| 亚洲 欧美一区二区三区| 制服人妻中文乱码| 免费久久久久久久精品成人欧美视频| 三级毛片av免费| 大香蕉久久成人网| 久久99一区二区三区| 99国产综合亚洲精品| 亚洲,欧美精品.| 久久国产精品男人的天堂亚洲| 黄网站色视频无遮挡免费观看| av电影中文网址| 男男h啪啪无遮挡| 免费av中文字幕在线| 老司机福利观看| 国产色视频综合| av有码第一页| 欧美在线黄色| 成年av动漫网址| 老司机深夜福利视频在线观看 | 久久精品国产a三级三级三级| 亚洲成人免费电影在线观看| 我要看黄色一级片免费的| 色视频在线一区二区三区| 操美女的视频在线观看| 午夜老司机福利片| 热99re8久久精品国产| 99热网站在线观看| 法律面前人人平等表现在哪些方面 | 久久毛片免费看一区二区三区| 亚洲中文字幕日韩| 妹子高潮喷水视频| 亚洲五月色婷婷综合| 热99国产精品久久久久久7| 不卡av一区二区三区| 在线 av 中文字幕| 在线 av 中文字幕| 一区二区三区激情视频| 一二三四在线观看免费中文在| 一级黄色大片毛片| 一二三四在线观看免费中文在| 久久人人爽人人片av| 国产在线一区二区三区精| 精品亚洲成a人片在线观看| 国产精品麻豆人妻色哟哟久久| av欧美777| 国产精品二区激情视频| 捣出白浆h1v1| 大型av网站在线播放| 人人妻人人澡人人看| 黑人操中国人逼视频| 国产精品影院久久| 亚洲欧美精品自产自拍| 男女边摸边吃奶| 最新在线观看一区二区三区| 777久久人妻少妇嫩草av网站| 两个人免费观看高清视频| 18在线观看网站| 我的亚洲天堂| 亚洲成人免费av在线播放| 女性生殖器流出的白浆| 老司机福利观看| 一二三四在线观看免费中文在| a级片在线免费高清观看视频| 久久精品亚洲av国产电影网| 欧美乱码精品一区二区三区| 国产欧美日韩一区二区三 | 一级毛片精品| 精品一区二区三卡| 色精品久久人妻99蜜桃| 日本av手机在线免费观看| 亚洲 国产 在线| 国产精品九九99| 亚洲国产av影院在线观看| 亚洲欧美清纯卡通| 两个人免费观看高清视频| 一区二区三区精品91| 一区二区三区四区激情视频| 啦啦啦免费观看视频1| 男女边摸边吃奶| 我的亚洲天堂| 天天影视国产精品| 欧美亚洲 丝袜 人妻 在线| 久久99热这里只频精品6学生| 老熟女久久久| 一级,二级,三级黄色视频| 人人澡人人妻人| www.自偷自拍.com| 少妇裸体淫交视频免费看高清 | 亚洲欧洲精品一区二区精品久久久| 最近最新中文字幕大全免费视频| 国产精品久久久久久人妻精品电影 | 久久99一区二区三区| 丝袜美腿诱惑在线| 国产精品久久久久久人妻精品电影 | 日韩欧美国产一区二区入口| 精品人妻1区二区| 亚洲成人免费av在线播放| 精品乱码久久久久久99久播| 久久天堂一区二区三区四区| 1024香蕉在线观看| 一本一本久久a久久精品综合妖精| 啦啦啦 在线观看视频| 最近中文字幕2019免费版| 日本a在线网址| 老鸭窝网址在线观看| 中国美女看黄片| 爱豆传媒免费全集在线观看| 免费一级毛片在线播放高清视频 | 国产精品欧美亚洲77777| 搡老熟女国产l中国老女人| 极品少妇高潮喷水抽搐| 老司机影院毛片| 欧美人与性动交α欧美精品济南到| 一级片免费观看大全| 黄片大片在线免费观看| 免费在线观看黄色视频的| 大码成人一级视频| 首页视频小说图片口味搜索| 搡老乐熟女国产| 欧美久久黑人一区二区| 亚洲情色 制服丝袜| 一级毛片精品| 亚洲精品成人av观看孕妇| 天天躁夜夜躁狠狠躁躁| 啦啦啦免费观看视频1| 欧美午夜高清在线| 国产精品九九99| 欧美激情高清一区二区三区| 国产精品 国内视频| 国产av又大| av网站在线播放免费| 欧美大码av| 中文字幕高清在线视频| netflix在线观看网站| 99九九在线精品视频| 两性午夜刺激爽爽歪歪视频在线观看 | 水蜜桃什么品种好| 日韩中文字幕欧美一区二区| 婷婷色av中文字幕| 国产亚洲精品第一综合不卡| 老熟女久久久| 午夜免费成人在线视频| 丝袜喷水一区| 青春草视频在线免费观看| 亚洲国产看品久久| 国产欧美日韩一区二区三 | 亚洲欧美精品自产自拍| av超薄肉色丝袜交足视频| 后天国语完整版免费观看| 日本wwww免费看| 婷婷丁香在线五月| 两个人看的免费小视频| 啦啦啦在线免费观看视频4| 久久久久网色| 在线 av 中文字幕| 欧美 日韩 精品 国产| 久久精品国产亚洲av香蕉五月 | 国产欧美亚洲国产| 日韩有码中文字幕| 老司机在亚洲福利影院| 免费高清在线观看日韩| 亚洲欧洲日产国产| videos熟女内射| 嫁个100分男人电影在线观看| 国产成人精品久久二区二区免费| 久久av网站| 成人国语在线视频| 每晚都被弄得嗷嗷叫到高潮| 亚洲一区二区三区欧美精品| 欧美国产精品va在线观看不卡| 午夜福利,免费看| 性少妇av在线| 久久久久久久大尺度免费视频| 国产成人精品无人区| av国产精品久久久久影院| 精品国产一区二区三区四区第35| 一区在线观看完整版| 中文字幕av电影在线播放| 午夜视频精品福利| 亚洲精品美女久久久久99蜜臀| 国产黄频视频在线观看| 青春草亚洲视频在线观看| 久热爱精品视频在线9| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲九九香蕉| 一区在线观看完整版| 青青草视频在线视频观看| www日本在线高清视频| 波多野结衣av一区二区av| 国产免费现黄频在线看| 亚洲国产av影院在线观看| 精品国内亚洲2022精品成人 | 一级片免费观看大全| 亚洲精品国产一区二区精华液| 亚洲国产成人一精品久久久| 十八禁人妻一区二区| 亚洲专区字幕在线| 国产一区二区激情短视频 | 99精品欧美一区二区三区四区| 在线av久久热| 欧美亚洲日本最大视频资源| a级毛片在线看网站| 丰满少妇做爰视频| 美女高潮到喷水免费观看| 男女国产视频网站| 亚洲欧美色中文字幕在线| 99精品久久久久人妻精品| 97人妻天天添夜夜摸| 老司机影院毛片| 黄片播放在线免费| 欧美变态另类bdsm刘玥| 中文精品一卡2卡3卡4更新| 久久久久久久大尺度免费视频| 男女边摸边吃奶| 美国免费a级毛片| 国产欧美日韩精品亚洲av| 国产精品免费大片| 亚洲欧美色中文字幕在线| 国产极品粉嫩免费观看在线| 激情视频va一区二区三区| 国产精品自产拍在线观看55亚洲 | www.999成人在线观看| 香蕉国产在线看| 精品高清国产在线一区| 午夜免费成人在线视频| 亚洲一码二码三码区别大吗| 高清在线国产一区| 亚洲精品国产区一区二| 一个人免费在线观看的高清视频 | 又黄又粗又硬又大视频| 精品亚洲成国产av| 最近最新中文字幕大全免费视频| 亚洲欧美成人综合另类久久久| 80岁老熟妇乱子伦牲交| 午夜精品久久久久久毛片777| 久久精品国产综合久久久| 麻豆乱淫一区二区| 午夜福利,免费看| 国产成人免费观看mmmm| 亚洲一区中文字幕在线| 岛国毛片在线播放| 精品一区二区三区四区五区乱码| 久久国产精品人妻蜜桃| 国产日韩欧美亚洲二区| 天天添夜夜摸| 日韩一卡2卡3卡4卡2021年| 下体分泌物呈黄色| 亚洲久久久国产精品| 日本wwww免费看| 亚洲国产精品成人久久小说| 日本精品一区二区三区蜜桃| 日本撒尿小便嘘嘘汇集6| av电影中文网址| 成年动漫av网址| av福利片在线| 咕卡用的链子| 日韩制服丝袜自拍偷拍| 天天操日日干夜夜撸| 精品国产乱子伦一区二区三区 | www.999成人在线观看| 黄频高清免费视频| 性少妇av在线| 中文字幕精品免费在线观看视频| 在线永久观看黄色视频| 成年人黄色毛片网站| 国产高清视频在线播放一区 | 欧美乱码精品一区二区三区| 日韩视频在线欧美| 一区在线观看完整版| 一本综合久久免费| 在线永久观看黄色视频| 18禁黄网站禁片午夜丰满| 在线十欧美十亚洲十日本专区| 精品亚洲乱码少妇综合久久| 丰满少妇做爰视频| 国产伦理片在线播放av一区| 久久香蕉激情| 男男h啪啪无遮挡| 欧美黑人精品巨大| 麻豆国产av国片精品| 欧美激情久久久久久爽电影 | 精品少妇内射三级| 亚洲国产毛片av蜜桃av| 麻豆国产av国片精品| 国产精品1区2区在线观看. | 国产成+人综合+亚洲专区| 蜜桃在线观看..| 91麻豆av在线| 欧美亚洲日本最大视频资源| 交换朋友夫妻互换小说| 国产免费视频播放在线视频| avwww免费| 性少妇av在线| 欧美亚洲日本最大视频资源| 亚洲国产精品一区二区三区在线| 国产精品一区二区免费欧美 | 国产男人的电影天堂91| 午夜两性在线视频| 精品国产一区二区三区久久久樱花| 亚洲精品国产色婷婷电影| 国产亚洲精品第一综合不卡| 久久久久国内视频| 午夜91福利影院| 久久久久精品人妻al黑| 色综合欧美亚洲国产小说| 成人av一区二区三区在线看 | 在线十欧美十亚洲十日本专区| 欧美日本中文国产一区发布| 狂野欧美激情性xxxx| 国产成+人综合+亚洲专区| 国产精品二区激情视频| 中文字幕色久视频| 蜜桃国产av成人99| cao死你这个sao货| 国产成人a∨麻豆精品| 韩国精品一区二区三区| 一区二区三区精品91| 在线 av 中文字幕| 国产三级黄色录像| av天堂久久9| 极品少妇高潮喷水抽搐| 久久精品人人爽人人爽视色| 国产成人av教育| 日韩一区二区三区影片| 国内毛片毛片毛片毛片毛片| 丰满迷人的少妇在线观看| 18禁观看日本| 啪啪无遮挡十八禁网站| 脱女人内裤的视频| 男女无遮挡免费网站观看| 国产欧美日韩一区二区精品| 99九九在线精品视频| 精品人妻在线不人妻| 亚洲人成电影免费在线| 一边摸一边抽搐一进一出视频| 啦啦啦 在线观看视频| 精品欧美一区二区三区在线| 老熟妇仑乱视频hdxx| 成年美女黄网站色视频大全免费| 国产精品一区二区免费欧美 | 爱豆传媒免费全集在线观看| 在线亚洲精品国产二区图片欧美| 欧美精品人与动牲交sv欧美| 大片免费播放器 马上看| 国产精品国产av在线观看| 亚洲第一欧美日韩一区二区三区 | 亚洲专区字幕在线| 中文字幕人妻丝袜一区二区| 欧美另类亚洲清纯唯美| 成年av动漫网址| 国产成人影院久久av| 亚洲中文日韩欧美视频| 欧美在线黄色| 亚洲色图 男人天堂 中文字幕| 国产老妇伦熟女老妇高清| 亚洲国产精品999| 大码成人一级视频| 成年av动漫网址| 欧美精品人与动牲交sv欧美| 日日摸夜夜添夜夜添小说| 精品国产一区二区三区四区第35| 后天国语完整版免费观看| 欧美人与性动交α欧美软件| 高清视频免费观看一区二区| 日本撒尿小便嘘嘘汇集6| 国产精品国产三级国产专区5o| 亚洲性夜色夜夜综合| 50天的宝宝边吃奶边哭怎么回事| 日本五十路高清| 亚洲人成电影观看| 精品国内亚洲2022精品成人 | 亚洲七黄色美女视频| 天堂8中文在线网| 波多野结衣av一区二区av| 久久精品亚洲av国产电影网| 男人爽女人下面视频在线观看| 国产一区二区三区综合在线观看| 日韩中文字幕视频在线看片| 婷婷色av中文字幕| 国产福利在线免费观看视频| 免费在线观看日本一区| 欧美黑人精品巨大| 精品久久久久久电影网| 一二三四在线观看免费中文在| 五月开心婷婷网| 人妻久久中文字幕网| 午夜精品国产一区二区电影| 亚洲av欧美aⅴ国产| 色播在线永久视频| 国产不卡av网站在线观看| 国产极品粉嫩免费观看在线| 狂野欧美激情性bbbbbb| 久久国产精品大桥未久av| 欧美精品av麻豆av| 狠狠精品人妻久久久久久综合| 国产亚洲精品久久久久5区| 国产亚洲午夜精品一区二区久久| 欧美 日韩 精品 国产| 狠狠狠狠99中文字幕| 国产成人免费无遮挡视频| 久久精品熟女亚洲av麻豆精品| 在线观看免费午夜福利视频| 国产精品久久久久成人av| 19禁男女啪啪无遮挡网站| 久久久久国产一级毛片高清牌| 欧美日韩av久久| 久久精品aⅴ一区二区三区四区| 大香蕉久久成人网| 五月天丁香电影| 深夜精品福利| 国产日韩欧美亚洲二区| 亚洲五月婷婷丁香| 人妻人人澡人人爽人人| 久久中文看片网| 国产成人欧美在线观看 | a级毛片在线看网站| 一区二区三区精品91| 91国产中文字幕| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲一区二区三区欧美精品| 国产亚洲精品一区二区www | 国产97色在线日韩免费| 久久久久网色| 女性生殖器流出的白浆| 午夜成年电影在线免费观看| 午夜免费成人在线视频| 别揉我奶头~嗯~啊~动态视频 | 国产成人精品无人区| 大片免费播放器 马上看| 99精品欧美一区二区三区四区| 91麻豆av在线| 18禁观看日本| 日韩人妻精品一区2区三区| 咕卡用的链子| 亚洲精品粉嫩美女一区| 中国国产av一级| 巨乳人妻的诱惑在线观看| 少妇人妻久久综合中文| 欧美日韩亚洲高清精品| 成年人黄色毛片网站| 97精品久久久久久久久久精品| 人人妻人人澡人人爽人人夜夜| 夫妻午夜视频| 超碰97精品在线观看| 男女免费视频国产| 日日摸夜夜添夜夜添小说| h视频一区二区三区| 如日韩欧美国产精品一区二区三区| 亚洲欧美激情在线| 超色免费av| 亚洲三区欧美一区| 电影成人av| 亚洲欧美精品综合一区二区三区| 天天操日日干夜夜撸| 久久精品国产综合久久久| 欧美黄色片欧美黄色片| 成人三级做爰电影| 一个人免费看片子| bbb黄色大片| 蜜桃国产av成人99| 亚洲激情五月婷婷啪啪| 咕卡用的链子| 亚洲久久久国产精品| 久久久久国产一级毛片高清牌| 亚洲精品第二区| 男女免费视频国产| 中文字幕精品免费在线观看视频| 欧美日韩中文字幕国产精品一区二区三区 | 中文字幕最新亚洲高清| 久久精品国产a三级三级三级| 成人黄色视频免费在线看| 一区二区三区激情视频| 国产黄色免费在线视频| 一二三四在线观看免费中文在| 高清黄色对白视频在线免费看| 亚洲av片天天在线观看| 深夜精品福利| 久久ye,这里只有精品| 成年动漫av网址| 亚洲综合色网址| 欧美97在线视频| 亚洲avbb在线观看| 亚洲成人免费av在线播放| 亚洲欧美成人综合另类久久久| 国产无遮挡羞羞视频在线观看| 中亚洲国语对白在线视频| 精品福利观看| 国产成人精品无人区| 午夜福利影视在线免费观看| 久久精品人人爽人人爽视色| 欧美久久黑人一区二区| 精品乱码久久久久久99久播| 国产一区二区 视频在线| 国产91精品成人一区二区三区 | bbb黄色大片| 一本综合久久免费| 欧美日韩亚洲综合一区二区三区_| 女人爽到高潮嗷嗷叫在线视频| 国产成人精品在线电影| 国产1区2区3区精品| 岛国毛片在线播放| 一级毛片女人18水好多| 91麻豆精品激情在线观看国产 | 精品国产一区二区久久| 老熟妇仑乱视频hdxx| 国产欧美日韩综合在线一区二区| 老司机靠b影院| 一进一出抽搐动态| 97在线人人人人妻| av片东京热男人的天堂| 精品亚洲成国产av| 亚洲国产av新网站| 老汉色∧v一级毛片| 汤姆久久久久久久影院中文字幕| 9热在线视频观看99| 狠狠婷婷综合久久久久久88av| 国产成人a∨麻豆精品| 国产精品九九99| 中文字幕av电影在线播放| 日韩,欧美,国产一区二区三区| av在线播放精品| 性高湖久久久久久久久免费观看| 国产成人免费无遮挡视频| 欧美日韩中文字幕国产精品一区二区三区 | 久久综合国产亚洲精品| 人人妻人人爽人人添夜夜欢视频| 青青草视频在线视频观看| 中文字幕人妻丝袜一区二区| 日本av手机在线免费观看| 国产一卡二卡三卡精品| www.熟女人妻精品国产| 久久亚洲精品不卡| 国产亚洲欧美精品永久| 精品国产一区二区三区四区第35| 日韩中文字幕视频在线看片| 男女无遮挡免费网站观看| 亚洲精品国产一区二区精华液| 亚洲精品久久成人aⅴ小说| 日韩视频一区二区在线观看| av在线播放精品| 国产在线视频一区二区| 午夜免费鲁丝| 捣出白浆h1v1| 久久久久久久精品精品| 99精品欧美一区二区三区四区| 国产精品一区二区免费欧美 | 成人国产av品久久久| 欧美国产精品va在线观看不卡| 中文字幕人妻丝袜制服| 一区二区三区乱码不卡18| 美女脱内裤让男人舔精品视频| 午夜91福利影院| 国产精品av久久久久免费| 天天躁日日躁夜夜躁夜夜| 精品国产一区二区三区久久久樱花| 王馨瑶露胸无遮挡在线观看| 久久精品人人爽人人爽视色| 精品卡一卡二卡四卡免费| 精品久久久久久久毛片微露脸 | 精品人妻1区二区| 老司机午夜福利在线观看视频 | 亚洲熟女毛片儿| 亚洲熟女精品中文字幕| 国产欧美日韩一区二区三区在线| 午夜精品久久久久久毛片777| 不卡一级毛片| 美女主播在线视频| 久久人人97超碰香蕉20202| 国产精品秋霞免费鲁丝片| 极品少妇高潮喷水抽搐| 国产激情久久老熟女| 亚洲国产精品999| 91精品国产国语对白视频|