• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    連續(xù)空間中的隨機(jī)技能發(fā)現(xiàn)算法

    2016-06-23 00:19欒詠紅蘇州工業(yè)職業(yè)技術(shù)學(xué)院江蘇蘇州15104蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院江蘇蘇州15006吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室吉林長(zhǎng)春13001
    現(xiàn)代電子技術(shù) 2016年10期

    欒詠紅,劉 全,章 鵬(1.蘇州工業(yè)職業(yè)技術(shù)學(xué)院,江蘇蘇州 15104;.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 15006;3.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春 13001)

    ?

    連續(xù)空間中的隨機(jī)技能發(fā)現(xiàn)算法

    欒詠紅1,2,劉全2,3,章鵬2
    (1.蘇州工業(yè)職業(yè)技術(shù)學(xué)院,江蘇蘇州215104;2.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006;3.吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長(zhǎng)春130012)

    摘要:針對(duì)大規(guī)模、連續(xù)空間隨著狀態(tài)維度指數(shù)級(jí)增加造成的“維數(shù)災(zāi)”問(wèn)題,提出基于Option分層強(qiáng)化學(xué)習(xí)基礎(chǔ)框架的改進(jìn)的隨機(jī)技能發(fā)現(xiàn)算法。通過(guò)定義隨機(jī)Option生成一棵隨機(jī)技能樹(shù),構(gòu)造一個(gè)隨機(jī)技能樹(shù)集合。將任務(wù)目標(biāo)分成子目標(biāo),通過(guò)學(xué)習(xí)低階Option策略,減少因智能體增大而引起學(xué)習(xí)參數(shù)的指數(shù)增大。以二維有障礙柵格連續(xù)空間內(nèi)兩點(diǎn)間最短路徑規(guī)劃為任務(wù),進(jìn)行仿真實(shí)驗(yàn)和分析,實(shí)驗(yàn)結(jié)果表明:由于Option被隨機(jī)定義,因此算法在初始性能上具有間歇的不穩(wěn)定性,但是隨著隨機(jī)技能樹(shù)集合的增加,能較快地收斂到近似最優(yōu)解,能有效克服因?yàn)榫S數(shù)災(zāi)引起的難以求取最優(yōu)策略或收斂速度過(guò)慢的問(wèn)題。

    關(guān)鍵詞:強(qiáng)化學(xué)習(xí);Option;連續(xù)空間;隨機(jī)技能發(fā)現(xiàn)

    0 引 言

    強(qiáng)化學(xué)習(xí)[1?2](Reinforcement Learning,RL)是Agent通過(guò)與環(huán)境直接交互,學(xué)習(xí)狀態(tài)到行為的映射策略。經(jīng)典的強(qiáng)化學(xué)習(xí)算法試圖在所有領(lǐng)域中尋求一個(gè)最優(yōu)策略,這在小規(guī)?;螂x散環(huán)境中是很有效的,但是在大規(guī)模和連續(xù)狀態(tài)空間中會(huì)面臨著“維數(shù)災(zāi)”的問(wèn)題。為了解決“維數(shù)災(zāi)”等問(wèn)題,研究者們提出了狀態(tài)聚類法、有限策略空間搜索法、值函數(shù)逼近法以及分層強(qiáng)化學(xué)習(xí)等方法[3]。分層強(qiáng)化學(xué)習(xí)的層次結(jié)構(gòu)的構(gòu)建實(shí)質(zhì)是通過(guò)在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上增加抽象機(jī)制來(lái)實(shí)現(xiàn)的,也就是利用了強(qiáng)化學(xué)習(xí)方法中的原始動(dòng)作和高層次的技能動(dòng)作[3](也稱為Option)來(lái)實(shí)現(xiàn)。

    分層強(qiáng)化學(xué)習(xí)的主要研究目標(biāo)之一是自動(dòng)發(fā)現(xiàn)層次技能。近年來(lái)雖然有很多研究分層強(qiáng)化學(xué)習(xí)的方法,多數(shù)針對(duì)在較小規(guī)模的、離散領(lǐng)域中尋找層次技能。譬如Simsek與Osentoski等人通過(guò)劃分由最近經(jīng)驗(yàn)構(gòu)成的局部狀態(tài)轉(zhuǎn)移圖來(lái)尋找子目標(biāo)[4?5]。McGovern和Batro等根據(jù)狀態(tài)出現(xiàn)的頻率選擇子目標(biāo)[6]。Matthew提出將成功路徑上的高頻訪問(wèn)狀態(tài)作為子目標(biāo),Jong和Stone提出從狀態(tài)變量的無(wú)關(guān)性選擇子目標(biāo)[7]。但是,這些方法都是針對(duì)較小規(guī)模、離散的強(qiáng)化學(xué)習(xí)領(lǐng)域。2009年Konidaris和Barto等人提出了在連續(xù)強(qiáng)化學(xué)習(xí)空間中的一種技能發(fā)現(xiàn)方法,稱為技能鏈[8]。2010年Konidaris又提出根據(jù)改變子目標(biāo)點(diǎn)檢測(cè)方法[9]來(lái)分割每個(gè)求解路徑為技能的CST算法,這種方法僅限于路徑不是太長(zhǎng)且能被獲取的情況。

    本文介紹了一種在連續(xù)RL域的隨機(jī)技能發(fā)現(xiàn)算法。采用Option分層強(qiáng)化學(xué)習(xí)中自適應(yīng)、分層最優(yōu)特點(diǎn),將每個(gè)高層次的技能定義為一個(gè)Option,且隨機(jī)定義的,方法的復(fù)雜度與復(fù)雜學(xué)習(xí)領(lǐng)域的Option構(gòu)建數(shù)量成比例。雖然Option的隨機(jī)選擇可能不是最合適的,但是由于構(gòu)建的Option不僅是一個(gè)技能樹(shù)還是一個(gè)技能樹(shù)的集合,因此彌補(bǔ)了這個(gè)不足之處。

    1 分層強(qiáng)化學(xué)習(xí)與Option框架

    分層強(qiáng)化學(xué)習(xí)(Hierarchical Reinforcement Learn?ing,HRL)的核心思想是引入抽象機(jī)制對(duì)整個(gè)學(xué)習(xí)任務(wù)進(jìn)行分解。在HRL方法中,智能體不僅能處理給定的原始動(dòng)作集,同時(shí)也能處理高層次技能。

    Option是Sutton提出的一種應(yīng)用比較廣泛的HRL方法,它對(duì)學(xué)習(xí)任務(wù)的分層是一個(gè)在狀態(tài)空間上發(fā)現(xiàn)子目標(biāo)和構(gòu)造Option的過(guò)程[10]。Option方法是對(duì)MDP (Markov Decision Process)中的基本動(dòng)作進(jìn)行擴(kuò)展,一個(gè)Option可以理解為到達(dá)子目標(biāo)而定義在相關(guān)狀態(tài)子空間上的按一定策略執(zhí)行的動(dòng)作或Option序列,即動(dòng)作選擇集[11]。

    簡(jiǎn)單的Option直接定義在MDP上,由三元組o =I,π,β表示。其中s∈I為Option輸入狀態(tài)集,它包含且僅包含Option經(jīng)歷的所有可能狀態(tài),當(dāng)且僅當(dāng)智能體的當(dāng)前狀態(tài)s∈I時(shí),Option才可以根據(jù)內(nèi)部策略展開(kāi)執(zhí)行。π:S×A→[0,1]表示Option的內(nèi)部策略;其中AI為I上可以執(zhí)行的動(dòng)作集;β:S→[0,1]是Option結(jié)束的終止判斷函數(shù),Option在某一狀態(tài)s′依概率β(s′)終止,通常將Option要達(dá)到子目標(biāo)狀態(tài)sG定義為β(sG) = 1。每個(gè)Option在被執(zhí)行時(shí),動(dòng)作的選擇僅依賴于自身內(nèi)部策略π,即智能體根據(jù)策略π(s,a)選擇下一動(dòng)作a作用于環(huán)境,使環(huán)境狀態(tài)s轉(zhuǎn)移到s′。

    如果將策略定義在Option之上,即μ:S×OI→[0,1]。其中OI為狀態(tài)集I上可以執(zhí)行的Op? tion集;I和β定義不變,則I,μ,β形成分層的Option,初始Option啟動(dòng)后,根據(jù)策略μ依次選擇其他Option執(zhí)行,直到根據(jù)終止條件β結(jié)束,被選中的Option可以按照各自的策略再選擇其他Option執(zhí)行。若將所有Op?tion都展開(kāi)到基本動(dòng)作層,則μ確定了MDP的一個(gè)常規(guī)策略,Sutton稱其為與μ對(duì)應(yīng)的平坦策略,記為flat(μ)。

    利用單步Q?學(xué)習(xí)算法來(lái)對(duì)值函數(shù)進(jìn)行學(xué)習(xí),值函數(shù)的每次更新都發(fā)生在Option執(zhí)行結(jié)束之后。Precup引入多時(shí)間步模型對(duì)傳統(tǒng)的單步模型進(jìn)行泛化[12],并證明在標(biāo)準(zhǔn)Q?學(xué)習(xí)收斂條件下,基于Option的Q?學(xué)習(xí)算法依概率1收斂到:

    式中:R(s,o)為狀態(tài)s下o的獎(jiǎng)賞值;P(s′|s,o′)為狀態(tài)轉(zhuǎn)移概率。假設(shè)Option o在狀態(tài)s開(kāi)始執(zhí)行了τ步后在狀態(tài)s′終止,則Option值函數(shù)Q(s,o)的迭代算法如下:

    式中:r為Option o在整個(gè)執(zhí)行過(guò)程中的累計(jì)折扣獎(jiǎng)賞值。

    基于Option的自動(dòng)分層方法一般分為兩步:首先,通過(guò)對(duì)任務(wù)狀態(tài)空間的分割得到各子任務(wù)的狀態(tài)集合;然后,再在此狀態(tài)集上采用強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)相應(yīng)的策略[12?13]。學(xué)習(xí)新的Option算法必須包括確定何時(shí)創(chuàng)建一個(gè)Option或展開(kāi)它的起始集,如何定義它的終止條件(技能發(fā)現(xiàn)),以及如何學(xué)習(xí)它的策略的方法。策略學(xué)習(xí)通常是由一個(gè)離策略強(qiáng)化學(xué)習(xí)算法,使得智能體可以在采取動(dòng)作后同時(shí)更新多個(gè)Option[14]。

    2 隨機(jī)技能發(fā)現(xiàn)算法

    在小規(guī)模狀態(tài)空間或離散狀態(tài)空間的強(qiáng)化學(xué)習(xí)任務(wù)中,可以通過(guò)層次將學(xué)習(xí)任務(wù)分解成一系列的子目標(biāo),它們的終止?fàn)顟B(tài)是在關(guān)鍵路徑中,這些關(guān)鍵的狀態(tài)可以由設(shè)計(jì)者定義,但是當(dāng)環(huán)境為連續(xù)或大規(guī)模時(shí),面臨大空間的MDP任務(wù)時(shí),將會(huì)帶來(lái)很大的計(jì)算代價(jià)。因此,在連續(xù)狀態(tài)空間中提出了一種隨機(jī)技能發(fā)現(xiàn)算法(RSD),該算法引入隨機(jī)Option和隨機(jī)的技能樹(shù)(Skill tree),在算法中對(duì)其進(jìn)行形式化。

    2.1隨機(jī)Option

    Option創(chuàng)建與終止通常都是由目標(biāo)狀態(tài)識(shí)別完成的,它可以創(chuàng)建一個(gè)目標(biāo)狀態(tài),并在結(jié)束時(shí)終止它。

    定義1隨機(jī)Option對(duì)于一個(gè)給定的輸入集(狀態(tài)空間區(qū)域),定義o的終止?fàn)顟B(tài)和獎(jiǎng)賞函數(shù)。假定目標(biāo)狀態(tài)為So,其中對(duì)于所有的s∈So至少有一個(gè)a∈A,使得s′?Io(其中,s′是在狀態(tài)s處執(zhí)行動(dòng)作a得到的下一個(gè)狀態(tài))。換句話說(shuō),終止?fàn)顟B(tài)是由輸入集Io的前端定義的。設(shè)置o的獎(jiǎng)賞函數(shù)是Option啟動(dòng)下一個(gè)Op?tion完成所獲得的獎(jiǎng)賞。

    使用標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)算法來(lái)學(xué)習(xí)o的策略,采用一個(gè)線性函數(shù)逼近器與一套合適的基函數(shù)來(lái)表示Option的值函數(shù),如式(3)所示。

    式中:ω∈Rn為n維的參數(shù)向量;?(s,a) = [?1(s,a) ,?2(s,a) ,…,?n(s,a)]T為狀態(tài)動(dòng)作對(duì)(s,a)的n維特征向量;?1(s,a) ,?2(s,a) ,…,?n(s,a)稱為基函數(shù)(Ba?sis Functions,BFs)。

    Option學(xué)習(xí)中只在一個(gè)Option結(jié)束時(shí)更新,有時(shí)無(wú)法確定目標(biāo)狀態(tài)是Option的終止?fàn)顟B(tài),也就說(shuō)存在一些非終止的Option,其目標(biāo)狀態(tài)是包含在輸入集中的。在本文算法中采用了intra?option模型。只考慮Markov?Option模型o =I,π,β的intra?option學(xué)習(xí),則狀態(tài)Op?tion對(duì)(s,o)的值函數(shù)計(jì)算如式(4)、式(5)所示。

    式中:r是在狀態(tài)s′處的立即獎(jiǎng)賞;s′是在狀態(tài)s處執(zhí)行動(dòng)作a得到的下一狀態(tài)。

    根據(jù)式(3)~式(5)可以從狀態(tài)空間區(qū)域中得到所有的樣本。由于o的獎(jiǎng)賞函數(shù)是根據(jù)它臨近Option設(shè)置的,則它的學(xué)習(xí)策略可以在臨近Option的值改變時(shí)被更新。隨著狀態(tài)求解路徑的不斷規(guī)劃,最終只有在求解路徑中的那些狀態(tài)可以被導(dǎo)航到學(xué)習(xí)的策略,而在終止?fàn)顟B(tài)中剪掉的狀態(tài)不會(huì)包含在求解路徑中。

    2.2隨機(jī)技能樹(shù)

    本文介紹的隨機(jī)技能樹(shù)(Random Skill tree)是一個(gè)自上而下的,首先從單個(gè)子集的劃分開(kāi)始,然后逐步重新定義子集并進(jìn)行劃分。它不同于RL中經(jīng)典樹(shù)的方法,技能樹(shù)中的每個(gè)葉子節(jié)點(diǎn)不僅表示某個(gè)區(qū)域的值同時(shí)也表示了從某個(gè)空間區(qū)域的一個(gè)Option < I,π,β>。每個(gè)Option都有自己的線性函數(shù)逼近器集中在狀態(tài)空間的一個(gè)子集中。對(duì)于某個(gè)指定的連續(xù)空間來(lái)說(shuō),一個(gè)隨機(jī)的技能樹(shù)開(kāi)始于一個(gè)Option,即樹(shù)的根,它的輸入集包含了整個(gè)空間。整個(gè)技能樹(shù)的建立通過(guò)不斷地對(duì)節(jié)點(diǎn)不同方向的隨機(jī)選擇、并對(duì)每個(gè)隨機(jī)方向選擇一個(gè)隨機(jī)樣本點(diǎn)進(jìn)行預(yù)分割,將輸入集劃分為2個(gè)子集,而新的Option如同原來(lái)描述的一樣(但是對(duì)于包含目標(biāo)狀態(tài)的區(qū)域,非終止的Option將會(huì)被建立),直到滿足終止條件。從訓(xùn)練集中建立一個(gè)隨機(jī)技能樹(shù)的過(guò)程,每個(gè)節(jié)點(diǎn)的剪切點(diǎn)和剪切方向都是隨機(jī)選擇的。定義終止條件為訓(xùn)練集的大小,即為每個(gè)空間區(qū)域中的#TS。如果#TS≤nmin,則停止劃分Option節(jié)點(diǎn),其中,nmin是用于劃分節(jié)點(diǎn)訓(xùn)練集的最小尺寸。建立隨機(jī)技能樹(shù)的過(guò)程如算法1所示。

    算法1:Build_a_tree(TS,D)

    輸入訓(xùn)練集TS,狀態(tài)空間D;

    判斷#TS≤nmin成立時(shí);

    Step1:如果目標(biāo)狀態(tài)不包含在狀態(tài)空間D,則返回一個(gè)Op?tion o < I,π,β>,where I:{s|s?falls?in?D};β:{s|s∈I?and??as′?I};

    Step2:否則根據(jù)式(4)、式(5)建立一個(gè)非終止的Option;

    隨機(jī)分割狀態(tài)空間D為兩個(gè)子區(qū)域D1和D2,同時(shí)訓(xùn)練集合TS分割為T(mén)S1和TS2;

    根據(jù)分割后的樣本集TS1和TS2,遞歸調(diào)用算法1建立技能樹(shù)T1和T2;

    創(chuàng)建節(jié)點(diǎn),令T1和T2作為該節(jié)點(diǎn)的左右子樹(shù),并返回該節(jié)點(diǎn)。

    該算法首次被調(diào)用是建立整個(gè)任務(wù)的一個(gè)隨機(jī)技能樹(shù),所以第一次調(diào)用TS和D分別表示整個(gè)訓(xùn)練集和整個(gè)狀態(tài)空間。然后這個(gè)樹(shù)將通過(guò)遞歸調(diào)用算法來(lái)建立。

    2.3RSD算法描述

    針對(duì)給定的一個(gè)訓(xùn)練集,RSD算法建立隨機(jī)技能樹(shù)集合,參數(shù)為M。每個(gè)集合都是在整個(gè)訓(xùn)練集中建立的,如第2.2節(jié)中所描述的,這個(gè)訓(xùn)練集是從單個(gè)路徑中或者在整個(gè)狀態(tài)空間中隨機(jī)獲取的。對(duì)于一個(gè)狀態(tài)來(lái)說(shuō),有M個(gè)Option可以采用,其中每個(gè)Option集合都覆蓋整個(gè)任務(wù)。RSD算法的學(xué)習(xí)規(guī)則,對(duì)于無(wú)法確定目標(biāo)狀態(tài)是某些Option的終止?fàn)顟B(tài),采用式(4)、式(5)學(xué)習(xí)Option內(nèi)部策略,生成Option。RSD算法描述如下所示。

    算法2:隨機(jī)技能發(fā)現(xiàn)算法(RSD算法)

    Step3:根據(jù)式(6)使用TSN計(jì)算基函數(shù)權(quán)重,確定QN(s,o)。

    在本文中,由于考慮的是連續(xù)狀態(tài)空間,主要集中在以大量的數(shù)值型輸入變量和單個(gè)的目標(biāo)變量為特征的離線學(xué)習(xí)問(wèn)題上。當(dāng)值函數(shù)逼近模型為線性模型時(shí),典型的離線訓(xùn)練方法一般采用最小二乘回歸方法來(lái)求解。最小二乘回歸是在一定的樣本集合下,以最小化目標(biāo)函數(shù)估計(jì)值與真實(shí)值之差的平方和為目標(biāo)的回歸優(yōu)化問(wèn)題。在這個(gè)算法中,計(jì)算了采用最小二乘方法得到的基函數(shù)權(quán)重,它的目標(biāo)是獲得合適的權(quán)重去最小化真實(shí)數(shù)據(jù)和模型之間的最小二乘誤差,等價(jià)于最小化下面的表達(dá)式:

    3 實(shí)驗(yàn)結(jié)果與分析

    為了驗(yàn)證所提出算法的性能,實(shí)驗(yàn)采用10×10的連續(xù)不規(guī)則障礙柵格空間內(nèi)兩點(diǎn)間最短路徑規(guī)劃為任務(wù)背景,如圖1所示。目標(biāo)狀態(tài)就是圖1中的紅色格子,黑色柵格表示障礙物,其他網(wǎng)格為可以通行的區(qū)域。學(xué)習(xí)任務(wù)就是找到智能體各個(gè)狀態(tài)到達(dá)目標(biāo)狀態(tài)的最優(yōu)動(dòng)作策略。在每個(gè)位置,智能體有4個(gè)可能的動(dòng)作:向右、向左、向下和向上。當(dāng)這些動(dòng)作執(zhí)行完畢后,智能體都會(huì)以概率1移動(dòng)到下一個(gè)位置上。如果移動(dòng)的方向是有障礙物的,則智能體仍然在同一位置上。智能體達(dá)到目標(biāo)時(shí),就能得到一個(gè)立即獎(jiǎng)賞為+1,否則得到的立即獎(jiǎng)賞為0。

    圖1 連續(xù)的有障礙柵格空間

    在此比較三個(gè)智能體:一個(gè)是在連續(xù)域中采用原始動(dòng)作;一個(gè)是采用RSD算法中技能發(fā)現(xiàn);一個(gè)是在學(xué)習(xí)之前使用已定義的Option。每個(gè)智能體的訓(xùn)練集采樣都是從10個(gè)簡(jiǎn)單路徑上獲取的(所有的都開(kāi)始于一個(gè)隨機(jī)位置)。智能體采用Q?學(xué)習(xí)算法(折扣因子γ= 0.9)并結(jié)合線性函數(shù)逼近。如圖2所示,實(shí)驗(yàn)結(jié)果是三個(gè)智能體在連續(xù)迷宮區(qū)域,具有相同的訓(xùn)練集,從100個(gè)不同起始位置到達(dá)目標(biāo)狀態(tài)的平均步數(shù)。在圖2中,可以看到智能體在初始的一些情節(jié)中采用給定的Option表現(xiàn)的更好,遠(yuǎn)遠(yuǎn)優(yōu)于在沒(méi)有任何Option下智能體所學(xué)習(xí)的結(jié)果,在很多情節(jié)后,它能表現(xiàn)出在平坦策略下的更快的收斂結(jié)果。這表明了Option增加了學(xué)習(xí)的性能表現(xiàn),同時(shí)也在其他工作也證明了這一點(diǎn)。

    圖2同樣也展示了具有不同輸入集下RSD算法得到的性能結(jié)果。智能體采用RSD算法,設(shè)置技能樹(shù)集合參數(shù)M = 5,訓(xùn)練集最小尺寸nmin= 100時(shí),由于在初始情節(jié)中,在沒(méi)有Option的情況下執(zhí)行的更差,它的平均步數(shù)維持在一個(gè)較大的值,但是它最終收斂到與給定合適的Option情況下的相同質(zhì)量的解。由于Option通過(guò)智能體利用RSD算法隨機(jī)獲取的,因此,性能表現(xiàn)在每輪迭代中是不穩(wěn)定的。在某些情況下,它能提高性能,但在某些情況下,它也許會(huì)降低學(xué)習(xí)率。從圖2中可以看到,當(dāng)參數(shù)M = 20時(shí),智能體在初始情節(jié)中表現(xiàn)的很好,然后能以一個(gè)更快的收斂速度收斂到一個(gè)近似最優(yōu)解。智能體利用RSD算法得到的三條學(xué)習(xí)曲線,其中參數(shù)M = 20與nmin= 50,比其他兩個(gè)利用RSD算法得到的學(xué)習(xí)曲線效果好些。盡管初始性能不如前面算法,但是能在少數(shù)情節(jié)后獲得連續(xù)的最優(yōu)方法。實(shí)驗(yàn)結(jié)果分析表明,RSD算法能產(chǎn)生好的學(xué)習(xí)性能,能收斂到與定義合適的給定Option算法相同質(zhì)量的解。性能上的改進(jìn)也隨著隨機(jī)技能樹(shù)的集合尺寸的增加變得更好。

    圖2 連續(xù)有障礙柵格空間的學(xué)習(xí)性能

    4 結(jié) 語(yǔ)

    實(shí)驗(yàn)的性能結(jié)果表明了RSD算法能顯著提高連續(xù)域中RL問(wèn)題的性能,通過(guò)采用隨機(jī)技能樹(shù)集合和對(duì)每個(gè)樹(shù)葉學(xué)習(xí)一個(gè)低階的Option策略。RSD算法的優(yōu)點(diǎn),與其他的技能發(fā)現(xiàn)方法相比,可以采用Option框架更好地處理RL連續(xù)域的問(wèn)題,無(wú)需分析訓(xùn)練集的圖或值自動(dòng)創(chuàng)建Option。因此,它可以降低搜索特定Option的負(fù)擔(dān),能使它更適應(yīng)于大規(guī)?;蜻B續(xù)狀態(tài)空間,能分析一些困難較大的領(lǐng)域問(wèn)題。

    參考文獻(xiàn)

    [1]SUTTON R S,BARTO A G. Reinforcement learning:An intro?duction [M]. Cambridge,MA:MIT Press,1998.

    [2]KAELBLING L P,LITTMAN M L,MOORE A W. Reinforce?ment learning:A survey [EB/OL]. [1996?05?01]. http:// www.cs. cmu.edu/afs/cs...vey.html.

    [3]BARTO A G,MAHADEVAN S. Recent advances in hierarchi?cal reinforcement learning [J]. Discrete event dynamic systems.2003,13(4):341?379.

    [4]SIMSEK O,WOLFE A P,BARTO A G. Identifying useful sub?goals in reinforcement learning by local graph partitioning [C]// Proceedings of the 22nd International Conference on Machine learning. USA:ACM,2005,8:816?823.

    [5]OSENTOSKI S,MAHADEVAN S. Learning state?action basis functions for hierarchical MDPs [C]// Proceedings of the 24th International Conference on Machine learning. USA:ACM,2007,7:705?712.

    [6]MCGOVERN A,BARTO A. Autonomous discovery of subgolas in reinfoeremente learning using deverse density [C]// Pro?ceedings of the 8th Intemational Coference on Machine Learning. San Fransisco:Morgan Kaufmann,2001:36l?368.

    [7]JONG N K,STONE P. State abstraction discovery from irrele?vant state variables [J]. IJCAI,2005,8:752?757.

    [8]KONIDARIS G,BARTO A G. Skill discovery in continuous re?inforcement learning domains using skill chaining [J]. NIPS,2009,8:1015?1023.

    [9]KONIDARIS G,KUINDERSMA S,BARTO A G,et al. Con?structing skill trees for reinforcement learning agents from demonstration trajectories [J]. NIPS,2010,23:1162?1170.

    [10]劉全,閆其粹,伏玉琛,等.一種基于啟發(fā)式獎(jiǎng)賞函數(shù)的分層強(qiáng)化學(xué)習(xí)方法[J].計(jì)算機(jī)研究與發(fā)展,2011,48(12):2352?2358.

    [11]沈晶,劉海波,張汝波,等.基于半馬爾科夫?qū)Σ叩亩鄼C(jī)器人分層強(qiáng)化學(xué)習(xí)[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2010,40(4):1?7.

    [12]KONIDARIS G,BARTO A. Efficient skill learning using ab?straction selection [C]// Proceedings of the 21st International Joint Conference on Artificial Intelligence. Pasadena,CA,USA:[S.l.],2009:1107?1113.

    [13]XIAO Ding,LI Yitong,SHI Chuan. Autonomic discovery of subgoals in hierarchical reinforcement learning [J]. Journal of china universities of posts and telecommunications,2014,21 (5):94?104.

    [14]CHEN Chunlin,DONG Daoyi,LI Hanxiong,et al. Hybrid MDP based integrated hierarchical Q?learning [J]. Science Chi?na(information sciences),2011,54(11):2279?2294.

    A random skill discovery algorithm in continuous spaces

    LUAN Yonghong1,2,LIU Quan2,3,ZHANG Peng2
    (1. Suzhou Institute of Industrial Technology,Suzhou 215104,China;2. Institute of Computer Science and Technology,Soochow University,Suzhou 215006,China;3. MOE Key Laboratory of Symbolic Computation and Knowledge Engineering,Jilin University,Changchun 130012,China)

    Abstract:In allusion to the large and continuous space’s“dimension curse”problem caused by the increase of state di?mension exponential order,an improved random skill finding algorithm based on Option hierarchical reinforcement learning framework is proposed. A random skill tree set is generated via defining random Option to construct a random skill tree set. The task goal is divided into several sub?goals,and then the increase of learning parameter exponent due to the increase of the intel?ligent agent is reduced through learning low?order Option policy. The simulation experiment and analysis were implemented by taking a shortest path between any two points in two?dimension maze with barriers in the continuous space as the task. The experiment result shows that the algorithm may have some intermittent instability in the initial performance because Option is de?fined randomly,but it can be converged to the approximate optimal solution quickly with the increase of the random skill tree set,which can effectively overcome the problem being hard to obtain the optimal policy and slow convergence due to“dimension curse”.

    Keywords:reinforcement learning;Option;continuous space;random skill discovery

    中圖分類號(hào):TN911?34; TP18

    文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):1004?373X(2016)10?0014?04

    doi:10.16652/j.issn.1004?373x.2016.10.004

    收稿日期:2015?10?22

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61303108;61373094;61472262);江蘇省高校自然科學(xué)研究項(xiàng)目資助(13KJB520020);吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室資助項(xiàng)目(93K172014K04);江蘇省高等職業(yè)院校國(guó)內(nèi)高級(jí)訪問(wèn)學(xué)者計(jì)劃資助項(xiàng)目(2014FX058)

    作者簡(jiǎn)介:欒詠紅(1971—),女,青島人,副教授,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)員。研究方向?yàn)閿?shù)據(jù)挖掘和強(qiáng)化學(xué)習(xí)。劉全(1969—),男,教授,博士,博士生導(dǎo)師,中國(guó)計(jì)算機(jī)學(xué)會(huì)高級(jí)會(huì)員。研究領(lǐng)域?yàn)橹悄苄畔⑻幚?、自?dòng)推理等。章鵬(1992—),男,碩士研究生。研究方向?yàn)閺?qiáng)化學(xué)習(xí)。

    韩国精品一区二区三区| 啦啦啦在线观看免费高清www| 亚洲久久久国产精品| 国产精品国产av在线观看| 人妻 亚洲 视频| 国产日韩欧美亚洲二区| 一级毛片 在线播放| 少妇被粗大猛烈的视频| 日本一区二区免费在线视频| 日韩一卡2卡3卡4卡2021年| 色综合欧美亚洲国产小说| 中国国产av一级| 亚洲 欧美一区二区三区| 天堂8中文在线网| 又大又爽又粗| 91国产中文字幕| 久久精品久久久久久噜噜老黄| 国产成人欧美在线观看 | 大片电影免费在线观看免费| netflix在线观看网站| 婷婷成人精品国产| 精品人妻熟女毛片av久久网站| 18在线观看网站| 国产亚洲午夜精品一区二区久久| 最近的中文字幕免费完整| 久久狼人影院| 日韩一本色道免费dvd| 18禁裸乳无遮挡动漫免费视频| 中文字幕高清在线视频| 亚洲少妇的诱惑av| 久久久久久久久久久免费av| 亚洲av男天堂| 亚洲国产最新在线播放| 巨乳人妻的诱惑在线观看| 欧美日韩一区二区视频在线观看视频在线| 亚洲免费av在线视频| 日本一区二区免费在线视频| 七月丁香在线播放| 各种免费的搞黄视频| 国产精品人妻久久久影院| 亚洲欧洲精品一区二区精品久久久 | 日韩大码丰满熟妇| 国产黄色免费在线视频| 大香蕉久久成人网| 日韩伦理黄色片| 一级片'在线观看视频| 亚洲国产中文字幕在线视频| 久久国产亚洲av麻豆专区| 亚洲国产精品成人久久小说| 黑人巨大精品欧美一区二区蜜桃| 欧美日韩亚洲综合一区二区三区_| 性少妇av在线| av电影中文网址| 高清在线视频一区二区三区| 纵有疾风起免费观看全集完整版| 伦理电影免费视频| 最近2019中文字幕mv第一页| 亚洲国产精品999| 亚洲人成电影观看| av在线播放精品| 如何舔出高潮| 久久久久久久久久久免费av| 18禁裸乳无遮挡动漫免费视频| 国产精品久久久久成人av| 波多野结衣av一区二区av| 你懂的网址亚洲精品在线观看| 亚洲精品乱久久久久久| 国产精品99久久99久久久不卡 | 久久人人爽av亚洲精品天堂| 在线观看www视频免费| 深夜精品福利| 国产欧美日韩综合在线一区二区| 99九九在线精品视频| 九九爱精品视频在线观看| 欧美最新免费一区二区三区| 可以免费在线观看a视频的电影网站 | 不卡视频在线观看欧美| 国产极品粉嫩免费观看在线| 嫩草影院入口| 国产日韩欧美在线精品| 中文天堂在线官网| 亚洲情色 制服丝袜| 亚洲成人一二三区av| 午夜福利,免费看| 香蕉国产在线看| 日韩成人av中文字幕在线观看| 亚洲成人一二三区av| 看免费成人av毛片| 精品国产乱码久久久久久小说| 日本爱情动作片www.在线观看| 丝袜在线中文字幕| 成人亚洲欧美一区二区av| 日本vs欧美在线观看视频| 欧美日韩国产mv在线观看视频| 日日啪夜夜爽| 国产黄色免费在线视频| 啦啦啦中文免费视频观看日本| 999精品在线视频| 啦啦啦 在线观看视频| 观看av在线不卡| 丝袜美足系列| 精品视频人人做人人爽| 最新的欧美精品一区二区| av天堂久久9| 建设人人有责人人尽责人人享有的| 国产不卡av网站在线观看| 日韩大码丰满熟妇| 欧美日韩视频高清一区二区三区二| 亚洲国产欧美日韩在线播放| 欧美日本中文国产一区发布| 哪个播放器可以免费观看大片| 免费观看性生交大片5| 久久久久久久国产电影| 久久人妻熟女aⅴ| 国产男人的电影天堂91| 777久久人妻少妇嫩草av网站| 国产又色又爽无遮挡免| 美女主播在线视频| av电影中文网址| 搡老岳熟女国产| 美女大奶头黄色视频| 亚洲av福利一区| 国产片特级美女逼逼视频| h视频一区二区三区| 天天操日日干夜夜撸| 国产97色在线日韩免费| 2018国产大陆天天弄谢| 午夜日韩欧美国产| 日韩制服丝袜自拍偷拍| 在线天堂中文资源库| 免费女性裸体啪啪无遮挡网站| 成人手机av| 最新在线观看一区二区三区 | 桃花免费在线播放| 亚洲欧洲日产国产| 毛片一级片免费看久久久久| 亚洲国产精品成人久久小说| 久久人人爽人人片av| 欧美日韩精品网址| 汤姆久久久久久久影院中文字幕| 婷婷色综合大香蕉| 亚洲精品av麻豆狂野| 免费黄网站久久成人精品| 成人亚洲欧美一区二区av| 中文字幕色久视频| 国产乱来视频区| 日韩,欧美,国产一区二区三区| 一区二区av电影网| 王馨瑶露胸无遮挡在线观看| 在线观看www视频免费| 国产精品蜜桃在线观看| 亚洲综合色网址| 激情五月婷婷亚洲| 嫩草影院入口| 高清黄色对白视频在线免费看| 黑丝袜美女国产一区| 亚洲欧美成人综合另类久久久| 欧美日韩亚洲国产一区二区在线观看 | 少妇人妻精品综合一区二区| 18禁动态无遮挡网站| 高清视频免费观看一区二区| 精品视频人人做人人爽| 亚洲精品美女久久av网站| 熟女av电影| 尾随美女入室| 电影成人av| 久久久国产一区二区| 一本大道久久a久久精品| 精品久久久精品久久久| 中文字幕亚洲精品专区| 精品少妇黑人巨大在线播放| 国产极品天堂在线| 99热国产这里只有精品6| 少妇人妻久久综合中文| 一本—道久久a久久精品蜜桃钙片| 男女国产视频网站| 咕卡用的链子| 婷婷色av中文字幕| 国产日韩欧美在线精品| 黄色视频不卡| 亚洲av欧美aⅴ国产| 精品久久久久久电影网| 国产精品女同一区二区软件| 久久精品亚洲熟妇少妇任你| 女人被躁到高潮嗷嗷叫费观| 美女午夜性视频免费| 久久久久久久久久久免费av| 黄片无遮挡物在线观看| xxx大片免费视频| 王馨瑶露胸无遮挡在线观看| 少妇被粗大的猛进出69影院| 日韩伦理黄色片| 不卡av一区二区三区| 国产午夜精品一二区理论片| 免费不卡黄色视频| 亚洲精品成人av观看孕妇| 国产一区二区激情短视频 | 69精品国产乱码久久久| 夜夜骑夜夜射夜夜干| 久久久精品免费免费高清| 香蕉国产在线看| 一区二区三区乱码不卡18| 另类亚洲欧美激情| 十分钟在线观看高清视频www| 狂野欧美激情性bbbbbb| 国产免费现黄频在线看| 日韩成人av中文字幕在线观看| av在线app专区| a级毛片在线看网站| av国产精品久久久久影院| 国产亚洲av片在线观看秒播厂| 亚洲av国产av综合av卡| 一本大道久久a久久精品| 亚洲第一青青草原| 亚洲av福利一区| 亚洲成人一二三区av| 香蕉丝袜av| 成人影院久久| 国产xxxxx性猛交| 如日韩欧美国产精品一区二区三区| 女人爽到高潮嗷嗷叫在线视频| 成人午夜精彩视频在线观看| 日本一区二区免费在线视频| 日韩中文字幕欧美一区二区 | 亚洲av男天堂| 国产精品久久久久久久久免| 国产伦人伦偷精品视频| 高清不卡的av网站| 一区福利在线观看| 日本vs欧美在线观看视频| 青春草国产在线视频| 99精国产麻豆久久婷婷| 一区二区三区四区激情视频| 亚洲视频免费观看视频| 亚洲国产欧美在线一区| 婷婷色av中文字幕| 久久精品国产亚洲av高清一级| 久久久久久久精品精品| 精品视频人人做人人爽| 女人精品久久久久毛片| 国产精品一二三区在线看| 亚洲成人av在线免费| 日韩av免费高清视频| 中文字幕亚洲精品专区| 超色免费av| 精品久久久精品久久久| 在线天堂中文资源库| 免费久久久久久久精品成人欧美视频| 熟妇人妻不卡中文字幕| 青草久久国产| 9热在线视频观看99| 欧美激情极品国产一区二区三区| 久久久精品94久久精品| 亚洲国产毛片av蜜桃av| 亚洲av成人精品一二三区| 水蜜桃什么品种好| 制服丝袜香蕉在线| 丝袜美足系列| 看免费成人av毛片| 欧美久久黑人一区二区| 亚洲欧美色中文字幕在线| 日本色播在线视频| 亚洲欧美一区二区三区国产| 亚洲欧美精品自产自拍| 午夜日韩欧美国产| 黄色视频不卡| 国产精品女同一区二区软件| 国产一卡二卡三卡精品 | 嫩草影视91久久| 亚洲精品自拍成人| 国产精品一区二区精品视频观看| 亚洲七黄色美女视频| av国产精品久久久久影院| 久热这里只有精品99| 极品人妻少妇av视频| 青春草国产在线视频| 大话2 男鬼变身卡| 亚洲国产欧美网| 欧美黄色片欧美黄色片| 十分钟在线观看高清视频www| 老汉色∧v一级毛片| 男女下面插进去视频免费观看| 亚洲成人手机| 看免费成人av毛片| 国产日韩一区二区三区精品不卡| 久久久精品免费免费高清| 99热网站在线观看| 国产深夜福利视频在线观看| 观看av在线不卡| 97精品久久久久久久久久精品| 欧美日韩一区二区视频在线观看视频在线| 亚洲色图综合在线观看| 亚洲在久久综合| 国产精品欧美亚洲77777| 亚洲av在线观看美女高潮| 成人免费观看视频高清| 十八禁人妻一区二区| 久久精品久久精品一区二区三区| 亚洲国产精品成人久久小说| 成人午夜精彩视频在线观看| 免费人妻精品一区二区三区视频| 国产成人av激情在线播放| 国产欧美日韩一区二区三区在线| av有码第一页| 日本wwww免费看| 一级毛片我不卡| 搡老岳熟女国产| 一级毛片黄色毛片免费观看视频| 一级毛片 在线播放| 国产在视频线精品| 亚洲国产毛片av蜜桃av| 国产精品 国内视频| 国精品久久久久久国模美| 免费黄频网站在线观看国产| av在线观看视频网站免费| 国产免费视频播放在线视频| 丁香六月天网| 日韩av在线免费看完整版不卡| 91老司机精品| 高清在线视频一区二区三区| 精品免费久久久久久久清纯 | 午夜久久久在线观看| 亚洲专区中文字幕在线 | 妹子高潮喷水视频| 大话2 男鬼变身卡| 日本爱情动作片www.在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 大香蕉久久成人网| 免费日韩欧美在线观看| 女性生殖器流出的白浆| 国产成人啪精品午夜网站| 亚洲精品一区蜜桃| 免费人妻精品一区二区三区视频| 9191精品国产免费久久| 国产xxxxx性猛交| 亚洲美女视频黄频| 伊人久久国产一区二区| 日本午夜av视频| 麻豆乱淫一区二区| 国产精品 国内视频| 欧美人与性动交α欧美软件| 欧美日韩综合久久久久久| 国产av国产精品国产| 欧美激情 高清一区二区三区| 欧美中文综合在线视频| 日韩欧美一区视频在线观看| 国产精品欧美亚洲77777| 久久国产精品男人的天堂亚洲| 国产成人91sexporn| 免费黄网站久久成人精品| 男人操女人黄网站| 欧美 日韩 精品 国产| 免费人妻精品一区二区三区视频| 日韩中文字幕欧美一区二区 | 欧美国产精品一级二级三级| avwww免费| 少妇的丰满在线观看| 国产日韩欧美亚洲二区| 中国三级夫妇交换| 午夜影院在线不卡| 中文精品一卡2卡3卡4更新| tube8黄色片| 女人精品久久久久毛片| 午夜福利视频在线观看免费| 成人国语在线视频| 国产日韩欧美亚洲二区| 亚洲一级一片aⅴ在线观看| 国产亚洲av片在线观看秒播厂| 菩萨蛮人人尽说江南好唐韦庄| 午夜精品国产一区二区电影| 欧美日韩视频精品一区| 如何舔出高潮| 视频区图区小说| 嫩草影视91久久| 亚洲欧洲国产日韩| 十八禁高潮呻吟视频| 亚洲国产av新网站| 亚洲少妇的诱惑av| 爱豆传媒免费全集在线观看| 日韩精品免费视频一区二区三区| 黑人猛操日本美女一级片| 久久婷婷青草| 国产视频首页在线观看| 亚洲精华国产精华液的使用体验| 国产一区二区 视频在线| 熟女av电影| 国产日韩一区二区三区精品不卡| 国产成人一区二区在线| 免费观看性生交大片5| 国产在线视频一区二区| 高清不卡的av网站| 国产精品一区二区在线观看99| av卡一久久| 久久久国产精品麻豆| 毛片一级片免费看久久久久| 国产av精品麻豆| av卡一久久| 亚洲人成77777在线视频| 久久精品国产综合久久久| 色网站视频免费| 丰满少妇做爰视频| 欧美xxⅹ黑人| 免费日韩欧美在线观看| 国产精品久久久久久人妻精品电影 | 亚洲精品乱久久久久久| 亚洲一码二码三码区别大吗| 精品国产一区二区久久| 两个人看的免费小视频| 中文字幕制服av| av网站免费在线观看视频| 国产精品三级大全| 色婷婷久久久亚洲欧美| 亚洲国产毛片av蜜桃av| 在线天堂最新版资源| 街头女战士在线观看网站| 久久久精品94久久精品| 99热全是精品| 久久精品国产亚洲av高清一级| 99久久综合免费| 午夜福利视频在线观看免费| 69精品国产乱码久久久| 国产精品久久久久成人av| 欧美黑人欧美精品刺激| 人人妻人人澡人人看| 久久人人爽人人片av| 永久免费av网站大全| 卡戴珊不雅视频在线播放| 午夜影院在线不卡| 操出白浆在线播放| 国产精品熟女久久久久浪| 男女床上黄色一级片免费看| 欧美日韩亚洲国产一区二区在线观看 | 亚洲成人手机| 免费少妇av软件| 91aial.com中文字幕在线观看| 欧美人与性动交α欧美软件| 国产精品.久久久| 亚洲精品国产一区二区精华液| 涩涩av久久男人的天堂| 亚洲色图 男人天堂 中文字幕| 久热爱精品视频在线9| 亚洲七黄色美女视频| 欧美日韩国产mv在线观看视频| 老汉色av国产亚洲站长工具| 激情五月婷婷亚洲| 欧美97在线视频| 亚洲免费av在线视频| 18禁观看日本| 国产一区亚洲一区在线观看| 亚洲第一av免费看| 视频在线观看一区二区三区| 老司机亚洲免费影院| 久久女婷五月综合色啪小说| 天美传媒精品一区二区| 欧美变态另类bdsm刘玥| 啦啦啦在线观看免费高清www| 精品亚洲成国产av| 99香蕉大伊视频| 国产亚洲一区二区精品| av网站免费在线观看视频| 不卡av一区二区三区| 叶爱在线成人免费视频播放| 91精品国产国语对白视频| 99re6热这里在线精品视频| 搡老乐熟女国产| 日韩欧美一区视频在线观看| 色综合欧美亚洲国产小说| 久久国产精品大桥未久av| 可以免费在线观看a视频的电影网站 | 欧美人与善性xxx| xxxhd国产人妻xxx| 老司机影院毛片| 老司机深夜福利视频在线观看 | 婷婷色av中文字幕| 香蕉丝袜av| 高清不卡的av网站| 亚洲国产精品999| svipshipincom国产片| 亚洲av在线观看美女高潮| 国产伦人伦偷精品视频| 欧美乱码精品一区二区三区| 国产毛片在线视频| 又粗又硬又长又爽又黄的视频| 女人高潮潮喷娇喘18禁视频| 国产精品一国产av| 国产成人a∨麻豆精品| av视频免费观看在线观看| 视频区图区小说| 日韩一区二区三区影片| 亚洲国产av新网站| 人妻 亚洲 视频| 久久97久久精品| 精品国产乱码久久久久久男人| 水蜜桃什么品种好| 日韩伦理黄色片| 久久国产精品男人的天堂亚洲| 成人漫画全彩无遮挡| 90打野战视频偷拍视频| av女优亚洲男人天堂| 汤姆久久久久久久影院中文字幕| 99久久人妻综合| 又粗又硬又长又爽又黄的视频| a级片在线免费高清观看视频| 91精品伊人久久大香线蕉| 国产成人精品无人区| 曰老女人黄片| 亚洲天堂av无毛| 丁香六月天网| 国产精品亚洲av一区麻豆 | 欧美亚洲 丝袜 人妻 在线| 欧美日韩亚洲高清精品| 中国三级夫妇交换| 欧美在线黄色| 欧美日韩视频高清一区二区三区二| 熟女av电影| 丰满少妇做爰视频| 五月开心婷婷网| 久久久久网色| 男女之事视频高清在线观看 | 国产成人a∨麻豆精品| 亚洲,欧美,日韩| 咕卡用的链子| 久久女婷五月综合色啪小说| 少妇 在线观看| 国产精品 国内视频| 免费黄网站久久成人精品| 制服诱惑二区| 欧美97在线视频| 一级毛片 在线播放| 欧美老熟妇乱子伦牲交| 男女高潮啪啪啪动态图| 国产高清不卡午夜福利| 午夜日韩欧美国产| 日韩大码丰满熟妇| 最近2019中文字幕mv第一页| 日韩av在线免费看完整版不卡| 国产日韩欧美视频二区| 大香蕉久久成人网| 另类精品久久| 日本午夜av视频| 伊人久久大香线蕉亚洲五| 日韩不卡一区二区三区视频在线| 免费黄网站久久成人精品| svipshipincom国产片| 日韩电影二区| 美女福利国产在线| av有码第一页| 免费黄色在线免费观看| 伊人亚洲综合成人网| 伊人久久大香线蕉亚洲五| 欧美另类一区| 亚洲精华国产精华液的使用体验| 人妻人人澡人人爽人人| 国产男女超爽视频在线观看| 一级黄片播放器| 亚洲精品自拍成人| videos熟女内射| 日韩不卡一区二区三区视频在线| 午夜免费男女啪啪视频观看| 免费av中文字幕在线| 老司机影院毛片| 欧美日韩国产mv在线观看视频| 久久99精品国语久久久| 亚洲精品成人av观看孕妇| 国产黄频视频在线观看| 韩国av在线不卡| 日本av免费视频播放| 亚洲国产看品久久| 中文字幕av电影在线播放| 精品福利永久在线观看| 精品少妇一区二区三区视频日本电影 | 少妇被粗大猛烈的视频| 免费黄频网站在线观看国产| 大码成人一级视频| 国产精品.久久久| 国产成人免费无遮挡视频| 亚洲一区二区三区欧美精品| 国产亚洲av高清不卡| 免费不卡黄色视频| 亚洲第一av免费看| 久久韩国三级中文字幕| 啦啦啦 在线观看视频| 狂野欧美激情性bbbbbb| 老鸭窝网址在线观看| 日韩一区二区三区影片| 大码成人一级视频| 久久国产精品男人的天堂亚洲| 国产1区2区3区精品| 国产探花极品一区二区| 国产片特级美女逼逼视频| 母亲3免费完整高清在线观看| 亚洲精华国产精华液的使用体验| 搡老乐熟女国产| 巨乳人妻的诱惑在线观看| 黑人猛操日本美女一级片| 九九爱精品视频在线观看| 黄频高清免费视频| av女优亚洲男人天堂| 丝袜美腿诱惑在线| 无限看片的www在线观看| 美女高潮到喷水免费观看| 丰满乱子伦码专区| 涩涩av久久男人的天堂| 看非洲黑人一级黄片| 嫩草影视91久久| 如日韩欧美国产精品一区二区三区| 久久人人97超碰香蕉20202| 麻豆av在线久日| 欧美精品亚洲一区二区| 国产黄频视频在线观看| 97人妻天天添夜夜摸| 午夜av观看不卡| 少妇人妻精品综合一区二区| 欧美日韩一级在线毛片| 最近2019中文字幕mv第一页|