• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于可中斷Option的在線分層強化學(xué)習(xí)方法

    2016-10-13 04:06:45朱斐許志鵬劉全伏玉琛王輝
    通信學(xué)報 2016年6期
    關(guān)鍵詞:格子中斷房間

    朱斐,許志鵬,劉全,伏玉琛,王輝

    ?

    基于可中斷Option的在線分層強化學(xué)習(xí)方法

    朱斐1,2,許志鵬1,劉全1,2,伏玉琛1,王輝1

    (1. 蘇州大學(xué)計算機科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006;2. 吉林大學(xué)符號計算與知識工程教育部重點實驗室,吉林長春130012)

    針對大數(shù)據(jù)體量大的問題,在Macro-Q算法的基礎(chǔ)上提出了一種在線更新的Macro-Q算法(MQIU),同時更新抽象動作的值函數(shù)和元動作的值函數(shù),提高了數(shù)據(jù)樣本的利用率。針對傳統(tǒng)的馬爾可夫過程模型和抽象動作均難于應(yīng)對可變性,引入中斷機制,提出了一種可中斷抽象動作的Macro-Q無模型學(xué)習(xí)算法(IMQ),能在動態(tài)環(huán)境下學(xué)習(xí)并改進控制策略。仿真結(jié)果驗證了MQIU算法能加快算法收斂速度,進而能解決更大規(guī)模的問題,同時也驗證了IMQ算法能夠加快任務(wù)的求解,并保持學(xué)習(xí)性能的穩(wěn)定性。

    大數(shù)據(jù);強化學(xué)習(xí);分層強化學(xué)習(xí);Option;在線學(xué)習(xí)

    1 引言

    在強化學(xué)習(xí)(RL,reinforcement learning)框架中,用戶給出問題的目標(biāo),agent選擇某一個動作,實現(xiàn)與環(huán)境的交互,獲得環(huán)境給出的獎賞作為強化信號,agent根據(jù)強化信號和環(huán)境當(dāng)前狀態(tài)再選擇下一個動作。Agent的目標(biāo)是在每個離散狀態(tài)發(fā)現(xiàn)最優(yōu)策略以使期望的折扣獎賞和最大[1]。作為一種具有較高通用性的機器學(xué)習(xí)框架,強化學(xué)習(xí)得到了較為廣泛的研究和應(yīng)用[2]。然而,由于強化學(xué)習(xí)的算法需要通過不斷地與環(huán)境交互來進行學(xué)習(xí),同時還要保存經(jīng)驗數(shù)據(jù),因此當(dāng)問題規(guī)模擴大時,算法的復(fù)雜度往往會以指數(shù)級上升,導(dǎo)致算法的性能急劇下降,所以強化學(xué)習(xí)的經(jīng)典算法很難直接用于解決數(shù)據(jù)規(guī)模比較大的問題。研究人員提出了多種改進的強化學(xué)習(xí)算法來解決大規(guī)??臻g的“維數(shù)災(zāi)”問題,如分層強化學(xué)習(xí)[3,4]、核方法[5]、函數(shù)逼近方法[6]等。在這些方法中,分層強化學(xué)習(xí)被用于解決一些大數(shù)據(jù)環(huán)境的任務(wù)[7]。

    在分層強化學(xué)習(xí)的算法中,通過分層處理,agent關(guān)注當(dāng)前局部空間的環(huán)境以及子任務(wù)目標(biāo)狀態(tài)的變化,策略更新的過程限定于局部空間或者高層空間上,相應(yīng)地,所需解決的問題規(guī)模被限定在agent當(dāng)前所處的較小規(guī)模的空間或抽象程度較高、維數(shù)較低的空間。這樣不僅可以加快學(xué)習(xí)的速度,而且可以降低對環(huán)境的依賴性。在動態(tài)變化的環(huán)境中,這種特性有助于解決問題,因此顯得尤為重要。時間抽象的方法是分層強化學(xué)習(xí)的一類重要方法。利用時間抽象,agent可以關(guān)注更高層策略的選擇,從而降低算法的復(fù)雜度,使算法能解決一些大規(guī)模的問題。抽象動作為時間抽象提供了廣泛的框架,其代表性工作是由Sutton等[8]提出的使用“宏動作”作為抽象動作的Option框架。很多方法使用子任務(wù)來表達抽象動作,子任務(wù)構(gòu)成了整個任務(wù)的一部分[9]。也有很多工作尋找與子任務(wù)對應(yīng)的子目標(biāo)點[10~12],以及直接從值函數(shù)中得到抽象動作[13,14]。

    一般而言,大數(shù)據(jù)是指不能在可以容忍的時間內(nèi)用傳統(tǒng)信息科學(xué)的技術(shù)、軟件和硬件完成感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合[15]。大數(shù)據(jù)具有體量大(volume)、多變(variability)、價值高(value)、高速(velocity)等特點。由于大數(shù)據(jù)體量大,因此很多機器學(xué)習(xí)的算法無法直接用來解決大數(shù)據(jù)問題。大數(shù)據(jù)的多變性也要求機器學(xué)習(xí)的算法在考慮數(shù)據(jù)體量的同時,考慮數(shù)據(jù)的動態(tài)變化性。在大數(shù)據(jù)問題中,當(dāng)無法直接從整個問題空間上求解最優(yōu)解時,如何充分利用已有抽象動作來求解是一個需要解決的重要任務(wù)。雖然,Sutton等[16]對此有過初步的研究,但是,由于其工作是基于模型已知的前提下進行規(guī)劃,故而在模型未知或環(huán)境動態(tài)變化的情況下,算法性能和效果會很差,導(dǎo)致算法很難應(yīng)用于模型無關(guān)的任務(wù)和在線學(xué)習(xí)的任務(wù)中,更無法在大數(shù)據(jù)和動態(tài)的環(huán)境中很好地學(xué)習(xí)到最優(yōu)策略。本文的主要工作就是解決動態(tài)環(huán)境下如何利用時間抽象學(xué)習(xí)的問題,針對大數(shù)據(jù)體量大的特點,在Macro-Q算法的基礎(chǔ)上提出了在線式更新的算法,加快了算法的收斂速度,提高了數(shù)據(jù)樣本的利用率,同時針對大數(shù)據(jù)可變化的特點,提出了中斷式動作抽象的概念,使之能很好地適應(yīng)環(huán)境的變化,并在此基礎(chǔ)上提出了一種基于中斷動作抽象的無模型學(xué)習(xí)算法。

    2 相關(guān)工作

    2.1 強化學(xué)習(xí)

    大多數(shù)的強化學(xué)習(xí)方法都是基于馬爾可夫決策過程(MDP, Markov decision process)。一個MDP可以用一個5元組表示,其中,和分別表示有限的狀態(tài)集和動作集,表示遷移概率,表示agent得到的立即獎賞,表示折扣因子。在每個時間步,agent觀察到系統(tǒng)的狀態(tài)后采取某個動作,然后以概率遷移到下一個狀態(tài),此時agent會得到一個立即獎賞。Agent的目標(biāo)是通過最大化期望獎賞來找到最優(yōu)策略。

    在線學(xué)習(xí)是一種在學(xué)習(xí)的過程中需要及時處理收集的數(shù)據(jù),進行預(yù)測并更新模型的學(xué)習(xí)方式[17]。在線式強化學(xué)習(xí)通過與環(huán)境實時的交互來獲取樣本,然后再通過這些樣本更新策略。在線強化學(xué)習(xí)能夠在保證學(xué)習(xí)效果的前提下,同時給出次優(yōu)的學(xué)習(xí)結(jié)果,而且在線采樣比離線采樣更容易。相比之下,離線的算法要求樣本已知,只有在樣本學(xué)完后才能應(yīng)用學(xué)習(xí)好的策略。在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)體量大,無法完全裝載到內(nèi)存中處理,因此,大數(shù)據(jù)環(huán)境的很多任務(wù)都采用在線學(xué)習(xí)的方式完成。

    2.2 抽象動作

    本文使用馬爾可夫抽象動作[1,18]來描述時間抽象的動作序列。馬爾可夫抽象動作和元動作同樣是由agent選擇的,不同的是抽象動作的執(zhí)行是一個時間段,是多步完成的,而元動作則是單步完成,所以元動作被視為一種基本動作。在抽象動作執(zhí)行的過程中,遵循抽象動作的內(nèi)部策略,直到滿足抽象動作的終止條件。

    (2)

    2.3 半馬爾可夫決策過程

    在強化學(xué)習(xí)中,滿足馬爾可夫性的強化學(xué)習(xí)任務(wù)就被稱為MDP,而一個半馬爾可夫決策過程(SMDP, semi-Markov decision process)可以由一個MDP和一個抽象動作集合組成。經(jīng)典的SMDP理論是與動作相關(guān)的,其中,相關(guān)方法可以擴展到抽象動作中來。這樣,對任意的抽象動作,若表示在時刻狀態(tài)處開始的過程,那么對應(yīng)獎賞的模型為

    (4)

    對應(yīng)的動作值函數(shù)為

    (6)

    在值函數(shù)的基礎(chǔ)上,可以得到最優(yōu)值函數(shù)。在MDP中,選擇的是最優(yōu)的動作,而這里選擇的是最優(yōu)的抽象動作。使用來定義抽象動作集合,根據(jù)貝爾曼最優(yōu)等式,可以得到最優(yōu)值狀態(tài)函數(shù)和最優(yōu)動作值函數(shù),分別如式(7)和式(8)所示。

    (8)

    若抽象動作集合已經(jīng)得到,那么就可以求出最優(yōu)的狀態(tài)值函數(shù)和動作值函數(shù),最后得出最優(yōu)策略。而且,標(biāo)準(zhǔn)的SMDP理論能夠保證這樣的過程能夠收斂。

    3 算法描述

    3.1 可中斷Option

    抽象動作提高了agent探索的效率,從而使算法收斂速度更快[2]。利用抽象動作在解決相同領(lǐng)域的多任務(wù)時效果很好[10]。

    傳統(tǒng)應(yīng)用抽象動作的SMDP方法通常是把抽象動作看作一個不透明、不可分割的整體。然而,要充分地發(fā)揮抽象動作的作用,需要改變抽象動作本身的結(jié)構(gòu)。這里考慮使用中斷抽象動作,即抽象動作在根據(jù)它的終止條件之前,如果有需要就中斷抽象動作的執(zhí)行。如在房間內(nèi)導(dǎo)航的任務(wù)中,把agent從房間門入口進入到房間里這個動作序列建模成一個抽象動作,當(dāng)agent執(zhí)行這個抽象動作到剛剛準(zhǔn)備踏入房間的那一瞬間,門突然關(guān)閉了,根據(jù)傳統(tǒng)的SMDP中抽象動作的定義,此時抽象動作不應(yīng)該終止,而應(yīng)該繼續(xù)執(zhí)行,因為抽象動作的終止條件還不滿足,而這就與門已經(jīng)處于關(guān)閉狀態(tài)形成了矛盾,導(dǎo)致agent的執(zhí)行效率降低甚至失效。如果采用可中斷Option,就可以解決這一問題。

    3.2 可中斷Macro-Q算法

    傳統(tǒng)的強化算法agent通過與環(huán)境反復(fù)交互的方式來學(xué)習(xí)值函數(shù)和策略,但是隨著問題規(guī)模的擴大,agent就需要大量的時間和經(jīng)驗來與環(huán)境進行交互以獲得好的策略。使用分層強化學(xué)習(xí)方法,應(yīng)用抽象動作能在一定程度上減少對環(huán)境的探索,從而加快算法收斂和保證算法學(xué)習(xí)前期性能的穩(wěn)定性。經(jīng)典的SMDP方法把抽象動作看作一個不可拆分的整體,一旦抽象動作開始執(zhí)行,就必須執(zhí)行到抽象動作終止,不能中途結(jié)束。事實上,這種方式會面臨以下2個主要問題:首先,在動態(tài)的環(huán)境下,往往在抽象動作還沒結(jié)束時,抽象動作就執(zhí)行不下去,導(dǎo)致算法效果很差;其次,在抽象動作執(zhí)行的過程中,在某些狀態(tài)選擇其他的抽象動作會獲得更好的性能。針對這2種可能出現(xiàn)的情況,本文提出了一種可中斷Macro-Q(IMQ, interrupting Macro-Q)算法。

    算法1 可中斷Macro-Q算法

    輸入:折扣因子, 學(xué)習(xí)率, Option集合O

    輸出:值函數(shù)

    1) 初始化值函數(shù)和隊列

    2) for 每個情節(jié) do

    3) 以s作為起始狀態(tài),初始化s

    4) repeat

    5) 根據(jù)策略從O中選擇一個Option=<,,>

    6) 執(zhí)行

    7) 根據(jù)(s)選擇動作

    11) 將s,,保存到隊列中

    12) if(’)=1 or=then

    13) forindo

    14) 以批量方式更新Q(,)

    16) end if

    17) else ifV()>Q(,)

    18) forindo

    19) 以批量方式更新Q(,)

    20) 選擇一個新的Option’

    22) 終止執(zhí)行

    24) return

    算法1是一種基于中斷思想的無模型學(xué)習(xí)算法,能夠很好地解決環(huán)境變化情況下,抽象動作無法整體使用的問題。

    3.3 在線更新的Macro-Q算法

    在線學(xué)習(xí)方法延伸模型的學(xué)習(xí)過程。在使用過程中,新數(shù)據(jù)的到來會引發(fā)模型的更新。而這種學(xué)習(xí)方法的一個直接負(fù)面影響是采樣代價較高[19]。作為一種在線式的學(xué)習(xí)算法,經(jīng)典的Macro-Q就需要花費完成采樣。本文改進了Macro-Q算法,采用在線式in-place更新方法,在agent對抽象動作值更新的同時,對執(zhí)行過的元動作也進行更新,如在線更新的Macro-Q(MQIU, macro-Q with in-place updating)算法所示。Macro-Q算法加快了值更新速率,從而加快算法的收斂速度。

    算法2 在線更新的Macro-Q算法

    輸入:折扣因子, 學(xué)習(xí)率, Options 集合O

    輸出:值函數(shù)

    1) 初始化值函數(shù)和隊列

    2) for 每個情節(jié) do

    3) 以s作為起始狀態(tài),初始化s

    4) repeat

    5) 根據(jù)策略從O中選擇一個Option= <,,>

    6) 執(zhí)行

    7) 根據(jù)(s)選擇動作

    11) 將s,,保存到隊列中

    13) forindo

    16) end if

    18) 終止執(zhí)行

    20) return

    3.4 算法分析

    4 仿真實驗

    本文在格子世界實驗的基礎(chǔ)上,模擬動態(tài)和靜態(tài)的環(huán)境進行仿真實驗。通過與Q-learning做實驗對比并給出實驗結(jié)果來仿真驗證IMQ的可行性和有效性。在仿真實驗中,agent使用-greedy進行探索,初始探索概率,學(xué)習(xí)率,值都初始化為0,也可以被隨機初始化。根據(jù)問題規(guī)模的不同,將提供不同的抽象動作集合。

    4.1 動態(tài)環(huán)境的描述

    到目前為止,強化學(xué)習(xí)大多數(shù)的研究都用于解決一些簡單的學(xué)習(xí)任務(wù),如房間導(dǎo)航問題、平衡桿問題、直流電機問題、過山車問題等。但是這些問題大多都是設(shè)定為靜態(tài)環(huán)境的。如房間導(dǎo)航問題中,只有固定的墻壁或障礙物。然而,在實際的應(yīng)用環(huán)境往往是未知的或者會發(fā)生變化。相應(yīng)地,房間導(dǎo)航問題的設(shè)定中,障礙物應(yīng)該是隨機出現(xiàn)的,而且出現(xiàn)的位置也應(yīng)該是隨機的。本文的一個目標(biāo)就是在動態(tài)的、不斷變化的環(huán)境中找到最優(yōu)策略。

    在圖1(a)所示的動態(tài)格子世界的仿真實驗中,共有21×21個網(wǎng)格,標(biāo)記為“S”的格子表示agent的出發(fā)點,標(biāo)記為“G”的格子表示agent的目標(biāo)終點,標(biāo)記為“O”的格子表示障礙物。動態(tài)格子世界環(huán)境是會動態(tài)變化的,包括2種變化的對象:agent和障礙物的位置。對比圖1(a)和圖1(b)可以發(fā)現(xiàn),在不同的時間,障礙物的位置是不一樣的。

    4.2 MQIU在格子世界中的性能

    為了衡量MQIU的性能,本文在仿真實驗環(huán)境下同時實現(xiàn)了Macro-Q、Q-learning和MQIU。實驗環(huán)境為一個11×11的格子世界,如圖2(a)所示,agent的出發(fā)點設(shè)在左下方,用“S”表示,目標(biāo)點設(shè)在格子頂部的中間,用“G”表示。Agent的任務(wù)是從“S”出發(fā),以最快的方式到達目標(biāo)點“G”,agent所能采取的元動作為上、下、左和右。在算法Macro-Q和MQUI中,agent所能采取的動作除了上、下、左、右這4個元動作外,對每個狀態(tài)還有4個可選的抽象動作,分別沿4個方向移動,直到碰到墻為止。

    從圖2(b)可以看出,MQIU和Macro-Q比Q-learning收斂更快,而且在整個學(xué)習(xí)過程中MQIU和Macro-Q都保持了很好的性能,平均每個情節(jié)步數(shù)維持在50步內(nèi)。對比Macro-Q可以看出,MQIU在前15個情節(jié)稍差,但是在第15個情節(jié)之后,MQIU算法的性能就好于Macro-Q。產(chǎn)生這種現(xiàn)象的原因是MQIU在對抽象動作更新的同時更新了元動作的值,從而會加快值的收斂速度。

    4.3 IMQ在4房間靜態(tài)格子世界中的性能

    本文首先對IMQ在靜態(tài)環(huán)境下的表現(xiàn)做了深入的說明,如圖3所示。4個房間靜態(tài)格子世界實驗如圖3(a)所示,其中,“S”代表出發(fā)點,“G”代表目標(biāo)點。Agent從“S”出發(fā),經(jīng)過房間之間的通道到達“G”,則一個情節(jié)結(jié)束。為了更好地說明算法的性能,IMQ和Macro-Q所使用的抽象動作是完全一樣的。實驗中的抽象動作設(shè)為每個房間內(nèi)2個,一共8個,每個抽象動作能夠把agent從房內(nèi)任意一點帶到房間的出口處。

    從圖3(b)中可以看出,在4個房間格子世界中,IMQ和Macro-Q的算法性能比Q-learning好很多。Macro-Q性能較為穩(wěn)定,在整個學(xué)習(xí)的過程中一直保持很低的學(xué)習(xí)步數(shù),然而其收斂速度和Q-learning一樣,在500個情節(jié)后收斂。IMQ注重探索,在前50個情節(jié)性能比Q-learning好,略差于Macro-Q,但是IMQ收斂效果很好,在200個情節(jié)的時候就達到了收斂,并且一直保持很穩(wěn)定。

    4.4 IMQ在4個房間動態(tài)格子世界中的性能

    4個房間動態(tài)格子世界實驗如圖4(a)所示。由于在這個實驗中,環(huán)境被設(shè)置為動態(tài)變化的,因此更能檢驗算法的性能。目標(biāo)狀態(tài)“G”被放置在右下角的房間,起始狀態(tài)“S”被放置在左上角房間的角落里。每個情節(jié)會隨機初始化25個障礙物“O”,用來表示隨機的環(huán)境。元動作是4個方向的動作:上、下、左和右。Agent在貪心動作(元動作或者抽象動作)的選擇概率為,其他方向上,元動作或者抽象動作的選擇概率為。Agent每走一步的獎賞都是?1,到達目標(biāo)點的獎賞是0。由于本文關(guān)注的重點是抽象動作在動態(tài)環(huán)境中的應(yīng)用,因此這里的抽象動作是預(yù)先定義好的。實驗中對比了IMQ和Q-learning,沒有對比Macro-Q以及基于規(guī)劃的中斷方法,是因為在動態(tài)環(huán)境下,這2種算法性能都很差。Macro-Q沒有引入中斷機制,導(dǎo)致如果抽象動作的執(zhí)行過程被破壞,那么將無法繼續(xù)按照抽象動作的內(nèi)部策略繼續(xù)執(zhí)行。而基于規(guī)劃的中斷方法用于在線的算法中并不是很合理,而且需要模型,因此這里沒有對比這2種算法。

    圖4(b)顯示了在100次重復(fù)實驗的基礎(chǔ)上,agent從起始狀態(tài)到達目標(biāo)狀態(tài)的平均步數(shù),對比了IMQ和Q-learning在動態(tài)的格子世界中的性能。從圖中可以看出帶有不同抽象動作集合的3種IMQ算法無論是在收斂速度還是在學(xué)習(xí)時的表現(xiàn)上均好于Q-learning。其中,IMQ with integrated Option在性能上略差于另外2個IMQ算法,IMQ with good Option的性能總體上和IMQ with key Option相當(dāng);但是從圖4(c)可以看出,IMQ with key Option僅在前50個情節(jié)略差于IMQ with good Option,從長期學(xué)習(xí)來看,IMQ with key Option學(xué)習(xí)效率更高,收斂更快。仿真實驗證明了算法在動態(tài)環(huán)境下的有效性。為了更精確地說明幾種算法的性能對比,在表1中給出了4個房間動態(tài)格子世界中各算法性能的對比數(shù)據(jù)。

    表1 4個房間實驗中,不同抽象動作集IMQ和Q-learning的對比實驗結(jié)果數(shù)據(jù)

    4.5 IMQ在6個房間動態(tài)格子世界中的性能

    作為IMQ的第3個實驗,在更大規(guī)模的環(huán)境下進行實驗驗證。本文使用6個房間的動態(tài)格子世界來進行仿真實驗。Agent的任務(wù)和前面描述的基本一樣,從起始點狀態(tài)“S”走到目標(biāo)狀態(tài)“G”。實驗的環(huán)境如圖5(a)所示,其中,起始狀態(tài)“S”靠近左上角,目標(biāo)狀態(tài)靠近右邊。隨機環(huán)境以及元動作的設(shè)定和前面介紹的一樣,隨機生成25個障礙物,用“O”表示。提供的抽象動作和前一節(jié)介紹的一樣,但是由于房間的增多,這里提供的抽象動作的數(shù)量也會相應(yīng)的變化。

    圖5(b)顯示了在100次重復(fù)實驗的基礎(chǔ)上,agent從起始狀態(tài)到達目標(biāo)狀態(tài)的平均步數(shù),這個圖與4個房間實驗中的圖相比,區(qū)別在于狀態(tài)的增多、環(huán)境的復(fù)雜度更高,導(dǎo)致agent在學(xué)習(xí)的前期到達目標(biāo)點所需的步數(shù)的增加,同時收斂速度也有所減緩。從圖5可以看出,隨著環(huán)境規(guī)模的增大,各算法間的區(qū)別更加明顯。實驗圖5(b)表明,3種IMQ算法表現(xiàn)均優(yōu)于Q-learning,其中,IMQ with key Option達到收斂所需的總步數(shù)最少,情節(jié)數(shù)也最少,這說明,關(guān)鍵的抽象動作能夠更有效地加快agent的學(xué)習(xí)效率。

    5 結(jié)束語

    本文的工作主要包括以下幾個方面。首先,針對傳統(tǒng)SMDP方法不能解決動態(tài)環(huán)境下的學(xué)習(xí)和控制問題,本文提出一種在線學(xué)習(xí)的使用可中斷動作抽象的算法——IMQ。借助于分層強化學(xué)習(xí)的方法,IMQ算法能夠有效解決大數(shù)據(jù)環(huán)境下一般強化學(xué)習(xí)算法由于時間復(fù)雜度過高而不能解決的問題。相比于離線算法,IMQ算法能夠在線地進行學(xué)習(xí)和采樣,從而在加快學(xué)習(xí)效率的同時又保證了算法的性能。實驗結(jié)果表明,IMQ算法比Q-learning算法和Macro-Q算法具有更快的收斂速度。

    其次,針對Macro-Q算法樣本利用率不高的問題,本文提出了一種基于同步替代更新的算法——MQIU算法。在算法中,對抽象動作的值函數(shù)進行更新的同時,也更新元動作的值函數(shù)。實驗結(jié)果表明,MQIU算法較Macro-Q效果略好,收斂速度上略快。

    第三,針對傳統(tǒng)的抽象動作不能很好地解決動態(tài)環(huán)境的問題,本文將中斷的方式引入抽象動作的概念中,提出了中斷式動作抽象的概念,使之能很好地適應(yīng)環(huán)境的變化,并在此基礎(chǔ)上提出了一種基于中斷動作抽象的無模型學(xué)習(xí)算法。實驗結(jié)果表明,在動態(tài)的環(huán)境下,適當(dāng)?shù)乩贸橄髣幼髂軌蚣涌烊蝿?wù)的求解,并且有助于agent在學(xué)習(xí)的過程中保持性能的穩(wěn)定。

    然而,在本文中的抽象動作是預(yù)先定義好的,如何快速有效地自動發(fā)現(xiàn)合適的抽象動作來加快長期學(xué)習(xí)agent的學(xué)習(xí)效率,是將要研究的一個重要內(nèi)容。另外,在動態(tài)的環(huán)境下,如何充分利用樣本的模型學(xué)習(xí)以及如何將抽象動作用于多任務(wù)、多agent協(xié)作也是主要的一項工作。

    [1] OTTERLO M V, WIERING M. Reinforcement learning and Markov decision processes[J]. Adaptation Learning & Optimization, 2012, 206(4):3-42.

    [2] VAN H H. Reinforcement learning: state of the art[M]. Berlin: Springer, 2007.

    [3] 沈晶, 顧國昌, 劉海波. 未知動態(tài)環(huán)境中基于分層強化學(xué)習(xí)的移動機器人路徑規(guī)劃[J]. 機器人, 2006, 28(5):544-547. SHEN J, GU G C, LIU H B. Mobile robot path planning based on hierarchical reinforcement learning in unknown dynamic environment[J]. ROBOT, 2006, 28(5): 544-547.

    [4] 劉全, 閆其粹, 伏玉琛, 等. 一種基于啟發(fā)式獎賞函數(shù)的分層強化學(xué)習(xí)方法[J]. 計算機研究與發(fā)展, 2011, 48(12): 2352-2358. LIU Q, YAN Q C, FU Y C, et al. A hierarchical reinforcement learning method based on heuristic reward function[J]. Journal of Computer Research and Development, 2011, 48(12): 2352-2358.

    [5] 陳興國, 高陽, 范順國, 等. 基于核方法的連續(xù)動作Actor-Critic學(xué)習(xí)[J]. 模式識別與人工智能, 2014(2): 103-110. CHEN X G, GAO Y, FAN S G, et al. Kernel-based continuous-action actor-critic learning[J]. Pattern Recognition and Artificial Intelligence, 2014(2):103-110.

    [6] 朱斐, 劉全, 傅啟明, 等. 一種用于連續(xù)動作空間的最小二乘行動者-評論家方法[J]. 計算機研究與發(fā)展, 2014, 51(3): 548-558 ZHU F, LIU Q, FU Q M, et al. A least square actor-critic approach for continuous action space[J]. Journal of Computer Research and Development, 2014, 51(3): 548-558.

    [7] 唐昊, 張曉艷, 韓江洪, 等. 基于連續(xù)時間半馬爾可夫決策過程的Option算法[J]. 計算機學(xué)報, 2014(9): 2027-2037. TANG H, ZHANG X Y, HAN J H, et al. Option algorithm based on continuous-time semi-Markov decision process[J]. Chinese Journal of Computers, 2014(9): 2027-2037.

    [8] SUTTON R S, PRECUP D, SINGH S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1): 181-211.

    [9] MCGOVERN A, BARTO A G. Automatic discovery of subgoals in reinforcement learning using diverse density[J]. Computer Science Department Faculty Publication Series, 2001(8):361-368.

    [10] ?IM?EK ?, WOLFE A P, BARTO A G. Identifying useful subgoals in reinforcement learning by local graph partitioning[C]//The 22nd International Conference on Machine Learning. ACM, c2005: 816-823.

    [11] ?IM?EK ?, BARTO A G. Using relative novelty to identify useful temporal abstractions in reinforcement learning[C]//The Twenty-first International Conference on Machine Learning. ACM, c2004: 751-758.

    [12] CHAGANTY A T, GAUR P, RAVINDRAN B. Learning in a small world[C]//The 11th International Conference on Autonomous Agents and Multiagent Systems-Volume 1. International Foundation for Autonomous Agents and Multiagent Systems. c2012: 391-397.

    [13] SUTTON R S, SINGH S, PRECUP D, et al. Improved switching among temporally abstract actions[J]. Advances in Neural Information Processing Systems, 1999: 1066-1072.

    [14] CASTRO P S, PRECUP D. Automatic construction of temporally extended actions for mdps using bisimulation metrics[C]//European Conference on Recent Advances in Reinforcement Learning. Springer-Verlag, c2011: 140-152.

    [15] 何清, 李寧, 羅文娟, 等. 大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J]. 模式識別與人工智能, 2014, 27(4): 327-336.

    HE Q, LI N, LUO W J, et al. A survey of machine learning algorithms for big data[J]. Pattern Recognition and Artificial Intelligence, 2014,27(4): 327-336.

    [16] SUTTON R S, PRECUP D, SINGH S P. Intra-option learning about temporally abstract actions[C]//ICML. c1998, 98: 556-564.

    [17] 石川, 史忠植, 王茂光. 基于路徑匹配的在線分層強化學(xué)習(xí)方法[J]. 計算機研究與發(fā)展, 2008, 45(9): 1470-1476 SHI C, SHI Z Z, WANG M G. Online hierarchical reinforcement learning based on path-matching[J]. Journal of Computer Research and Development, 2008, 45(9): 1470-1476.

    [18] BOTVINICK M M. Hierarchical reinforcement learning and decision making [J]. Current Opinion in Neurobiology, 2012, 22(6): 956-962.

    [19] 王愛平, 萬國偉, 程志全, 等. 支持在線學(xué)習(xí)的增量式極端隨機森林分類器[J]. 軟件學(xué)報, 2011, 22(9):2059-2074. WANG A P, WAN G W, CHENG Z Q, et al. Incremental learning extremely random forest classifier for online learning[J], Journal of Software, 2011, 22(9):2059-2074.

    Online hierarchical reinforcement learning based on interrupting Option

    ZHU Fei1,2, XU Zhi-peng1, LIU Quan1,2, FU Yu-chen1, WANG Hui1

    (1. School of Computer Science and Technology, Soochow University, Suzhou 215006, China; 2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, Changchun 130012, China)

    Aiming at dealing with volume of big data, an on-line updating algorithm, named by Macro-Q with in-place updating (MQIU), which was based on Macro-Q algorithm and takes advantage of in-place updating approach, was proposed. The MQIU algorithm updates both the value function of abstract action and the value function of primitive action, and hence speeds up the convergence rate. By introducing the interruption mechanism, a model-free interrupting Macro-Q Option learning algorithm(IMQ), which was based on hierarchical reinforcement learning, was also introduced to order to handle the variability which was hard to process by the conventional Markov decision process model and abstract action so that IMQ was able to learn and improve control strategies in a dynamic environment. Simulations verify the MQIU algorithm speeds up the convergence rate so that it is able to do with the larger scale of data, and the IMQ algorithm solves the task faster with a stable learning performance.

    big data, reinforcement learning, hierarchical reinforcement learning, Option, online learning

    TP181

    A

    10.11959/j.issn.1000-436x.2016117

    2015-04-03;

    2016-04-12

    伏玉琛,yuchenfu@suda.edu.cn

    國家自然科學(xué)基金資助項目(No.61303108, No.61373094, No.61272005, No.61472262);江蘇省高校自然科學(xué)研究基金資助項目(No.13KJB520020);吉林大學(xué)符號計算與知識工程教育部重點實驗室基金資助項目(No.93K172014K04);蘇州市應(yīng)用基礎(chǔ)研究計劃基金資助項目(No.SYG201422);蘇州大學(xué)高校省級重點實驗室基金資助項目(No.KJS1524);中國國家留學(xué)基金資助項目(No.201606920013)

    The National Natural Science Foundation of China (No.61303108, No.61373094, No.61272005, No.61472262), The High School Natural Foundation of Jiangsu Province (No.13KJB520020), The Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education of Jilin University(No.93K172014K04), Suzhou Industrial Application of Basic Research Program (No.SYG201422), Provincial Key Laboratory for Computer Information Processing Technology of Soochow University (No.KJS1524), The China Scholarship Council Project (No.201606920013)

    朱斐(1978-),男,江蘇蘇州人,博士,蘇州大學(xué)副教授,主要研究方向為機器學(xué)習(xí)、人工智能、生物信息學(xué)等。

    許志鵬(1991-),男,湖北荊州人,蘇州大學(xué)碩士生,主要研究方向為強化學(xué)習(xí)、人工智能等。

    劉全(1969-),男,內(nèi)蒙古牙克石人,博士后,蘇州大學(xué)教授、博士生導(dǎo)師,主要研究方向為多強化學(xué)習(xí)、人工智能、自動推理等。

    伏玉?。?968-),男,江蘇徐州人,博士,蘇州大學(xué)教授、碩士生導(dǎo)師,主要研究方向為強化學(xué)習(xí)、人工智能等。

    王輝(1968-),男,陜西西安人,蘇州大學(xué)講師,主要研究方向為強化學(xué)習(xí)、人工智能等。

    猜你喜歡
    格子中斷房間
    Chapter 4 Merrick's first home
    房間
    數(shù)格子
    填出格子里的數(shù)
    跟蹤導(dǎo)練(二)(5)
    千里移防,衛(wèi)勤保障不中斷
    解放軍健康(2017年5期)2017-08-01 06:27:44
    格子間
    女友(2017年6期)2017-07-13 11:17:10
    房間,這是我的房間
    格子龍
    鎖在房間里的云
    亚洲精品国产色婷婷电影| 久久人人爽人人爽人人片va| 2018国产大陆天天弄谢| 亚洲精品国产av成人精品| 久久久久性生活片| 人人妻人人看人人澡| 一级毛片黄色毛片免费观看视频| 少妇人妻久久综合中文| 精品久久久精品久久久| 日本黄色片子视频| 97超碰精品成人国产| av.在线天堂| 草草在线视频免费看| 亚洲精品国产成人久久av| 免费观看的影片在线观看| 国产精品国产三级国产专区5o| 免费少妇av软件| 精品国产一区二区三区久久久樱花 | 亚洲精品中文字幕在线视频 | 狂野欧美白嫩少妇大欣赏| 蜜桃久久精品国产亚洲av| 特级一级黄色大片| 免费观看a级毛片全部| 国产精品精品国产色婷婷| 午夜爱爱视频在线播放| 成人美女网站在线观看视频| 亚洲精品aⅴ在线观看| 亚洲精品乱久久久久久| 插阴视频在线观看视频| 免费少妇av软件| 日本免费在线观看一区| 国产成人91sexporn| 男男h啪啪无遮挡| 国产v大片淫在线免费观看| 熟女av电影| 久久久亚洲精品成人影院| 啦啦啦在线观看免费高清www| 国产在视频线精品| 欧美97在线视频| 夜夜看夜夜爽夜夜摸| 日韩欧美精品v在线| 亚洲精品久久久久久婷婷小说| 全区人妻精品视频| 波野结衣二区三区在线| 十八禁网站网址无遮挡 | 免费av毛片视频| 哪个播放器可以免费观看大片| 高清午夜精品一区二区三区| 精品久久久久久久人妻蜜臀av| 亚洲成人一二三区av| 在线免费十八禁| 欧美精品国产亚洲| 久久久国产一区二区| 最近中文字幕高清免费大全6| 欧美zozozo另类| 亚洲色图综合在线观看| 亚洲国产精品专区欧美| 日韩av不卡免费在线播放| 大香蕉久久网| 精品视频人人做人人爽| 免费黄频网站在线观看国产| 一级爰片在线观看| 色播亚洲综合网| 久久热精品热| 欧美成人午夜免费资源| 精品久久国产蜜桃| 国产毛片a区久久久久| 久久久色成人| 国产 一区精品| 在线观看人妻少妇| 久久ye,这里只有精品| www.av在线官网国产| 午夜福利视频1000在线观看| 日韩av不卡免费在线播放| 如何舔出高潮| 最近最新中文字幕免费大全7| 日韩电影二区| 午夜免费鲁丝| 欧美区成人在线视频| 亚洲成人久久爱视频| 少妇被粗大猛烈的视频| 国产精品麻豆人妻色哟哟久久| 欧美另类一区| 成年版毛片免费区| 久久久久网色| av国产免费在线观看| 国产一区有黄有色的免费视频| 舔av片在线| 人人妻人人澡人人爽人人夜夜| 少妇熟女欧美另类| 在线观看av片永久免费下载| 超碰97精品在线观看| 我的女老师完整版在线观看| 赤兔流量卡办理| 国产成人a∨麻豆精品| 日韩av不卡免费在线播放| 内地一区二区视频在线| 久久人人爽人人爽人人片va| 国产成人freesex在线| 春色校园在线视频观看| 久久99精品国语久久久| 97在线人人人人妻| 亚洲精品国产色婷婷电影| 欧美区成人在线视频| 国产视频内射| av播播在线观看一区| 国产美女午夜福利| 国产精品av视频在线免费观看| 日韩一区二区视频免费看| 国产黄片视频在线免费观看| av在线蜜桃| 在线亚洲精品国产二区图片欧美 | 久久亚洲国产成人精品v| 日韩欧美精品免费久久| 久久久午夜欧美精品| av黄色大香蕉| 精品少妇久久久久久888优播| 亚洲精品aⅴ在线观看| av线在线观看网站| 成人欧美大片| 亚洲av成人精品一区久久| 91在线精品国自产拍蜜月| 纵有疾风起免费观看全集完整版| 欧美日韩亚洲高清精品| 国产亚洲午夜精品一区二区久久 | 亚州av有码| 久久鲁丝午夜福利片| 久久久久国产精品人妻一区二区| 日韩制服骚丝袜av| 熟女av电影| 日韩亚洲欧美综合| 视频区图区小说| 在线播放无遮挡| 男人爽女人下面视频在线观看| 亚洲精品成人久久久久久| 国产伦精品一区二区三区四那| 性插视频无遮挡在线免费观看| 日本与韩国留学比较| 亚洲精品一二三| 亚洲欧美日韩东京热| kizo精华| 80岁老熟妇乱子伦牲交| 国产高清三级在线| 九九爱精品视频在线观看| 水蜜桃什么品种好| 久久久久久久午夜电影| 国内少妇人妻偷人精品xxx网站| 99热这里只有是精品50| 欧美日韩国产mv在线观看视频 | av天堂中文字幕网| 如何舔出高潮| 观看美女的网站| 免费看a级黄色片| 成人午夜精彩视频在线观看| 欧美+日韩+精品| www.av在线官网国产| 99re6热这里在线精品视频| 亚洲精华国产精华液的使用体验| 亚洲三级黄色毛片| 别揉我奶头 嗯啊视频| 欧美高清性xxxxhd video| 91久久精品国产一区二区成人| 看非洲黑人一级黄片| 人人妻人人爽人人添夜夜欢视频 | 美女cb高潮喷水在线观看| 久久99热这里只有精品18| www.av在线官网国产| 在线亚洲精品国产二区图片欧美 | 国产高潮美女av| 男人添女人高潮全过程视频| 一本一本综合久久| av免费在线看不卡| 大陆偷拍与自拍| 精品人妻一区二区三区麻豆| 午夜福利视频精品| 亚洲国产av新网站| 国产精品一区二区在线观看99| 亚洲人成网站在线播| 69av精品久久久久久| 久久久久精品久久久久真实原创| www.av在线官网国产| 高清毛片免费看| 性插视频无遮挡在线免费观看| 国产伦精品一区二区三区视频9| 波野结衣二区三区在线| 亚洲精品一区蜜桃| 久久午夜福利片| 国产精品一及| 制服丝袜香蕉在线| av专区在线播放| 狂野欧美白嫩少妇大欣赏| 一级a做视频免费观看| 日本黄大片高清| 国产免费又黄又爽又色| 国产片特级美女逼逼视频| 国产av不卡久久| 成人毛片a级毛片在线播放| 99久久精品一区二区三区| 在线免费观看不下载黄p国产| 噜噜噜噜噜久久久久久91| 亚洲成人精品中文字幕电影| 亚洲,欧美,日韩| 国产精品伦人一区二区| 久久97久久精品| 亚洲av成人精品一二三区| av天堂中文字幕网| 国产成人a区在线观看| 国产精品99久久99久久久不卡 | 国产成年人精品一区二区| 寂寞人妻少妇视频99o| 人妻 亚洲 视频| 一级av片app| 国模一区二区三区四区视频| 亚洲国产欧美在线一区| 欧美性猛交╳xxx乱大交人| 汤姆久久久久久久影院中文字幕| 人人妻人人爽人人添夜夜欢视频 | 蜜桃久久精品国产亚洲av| 99久国产av精品国产电影| 听说在线观看完整版免费高清| 五月伊人婷婷丁香| 全区人妻精品视频| 欧美日本视频| 高清毛片免费看| 国产美女午夜福利| 欧美zozozo另类| 午夜激情久久久久久久| 国产精品福利在线免费观看| 国产男女超爽视频在线观看| 成年女人在线观看亚洲视频 | 精品熟女少妇av免费看| av在线亚洲专区| 五月玫瑰六月丁香| av在线天堂中文字幕| 日韩av免费高清视频| 亚洲国产成人一精品久久久| av国产精品久久久久影院| 白带黄色成豆腐渣| 午夜精品国产一区二区电影 | 超碰av人人做人人爽久久| 国产国拍精品亚洲av在线观看| 各种免费的搞黄视频| www.色视频.com| 我的女老师完整版在线观看| av在线蜜桃| 日韩欧美一区视频在线观看 | 亚洲av成人精品一二三区| 国产男女超爽视频在线观看| 又爽又黄a免费视频| 国产亚洲精品久久久com| 爱豆传媒免费全集在线观看| av在线蜜桃| 赤兔流量卡办理| 国产精品一区二区在线观看99| 九草在线视频观看| h日本视频在线播放| 日本熟妇午夜| 看黄色毛片网站| 人人妻人人澡人人爽人人夜夜| 精品久久久噜噜| 日韩一区二区三区影片| av国产精品久久久久影院| 少妇被粗大猛烈的视频| 老司机影院毛片| 国产大屁股一区二区在线视频| 日韩欧美精品免费久久| 国产亚洲91精品色在线| 国产爱豆传媒在线观看| 人妻 亚洲 视频| 欧美3d第一页| 亚洲国产精品成人综合色| 亚洲av男天堂| av.在线天堂| 欧美老熟妇乱子伦牲交| 久久久久久久大尺度免费视频| 免费大片18禁| 99热国产这里只有精品6| 熟女av电影| 亚洲不卡免费看| 亚洲精品久久午夜乱码| 成人国产麻豆网| 大陆偷拍与自拍| 一级毛片aaaaaa免费看小| 精品一区二区三区视频在线| 日韩强制内射视频| 亚洲精品日韩av片在线观看| h日本视频在线播放| 丝瓜视频免费看黄片| 男插女下体视频免费在线播放| 亚洲一级一片aⅴ在线观看| 国产爱豆传媒在线观看| 尾随美女入室| 亚洲人成网站在线播| 插阴视频在线观看视频| 国产一区二区亚洲精品在线观看| 日日啪夜夜撸| 大香蕉久久网| 国产高清三级在线| 免费黄色在线免费观看| 亚洲欧美日韩卡通动漫| 日韩制服骚丝袜av| 人体艺术视频欧美日本| 久久久久久久亚洲中文字幕| 国产人妻一区二区三区在| 色视频在线一区二区三区| 国产精品无大码| 免费观看av网站的网址| 波多野结衣巨乳人妻| 午夜精品国产一区二区电影 | 91久久精品国产一区二区成人| 777米奇影视久久| 亚洲精品亚洲一区二区| 免费看光身美女| 97人妻精品一区二区三区麻豆| 久久女婷五月综合色啪小说 | 高清欧美精品videossex| 国产亚洲最大av| 日本免费在线观看一区| 联通29元200g的流量卡| 性色av一级| 热99国产精品久久久久久7| av在线天堂中文字幕| 美女国产视频在线观看| 午夜日本视频在线| www.av在线官网国产| 国产色婷婷99| 国产精品伦人一区二区| 五月天丁香电影| 日本爱情动作片www.在线观看| 18禁裸乳无遮挡动漫免费视频 | 99热这里只有是精品50| 成人鲁丝片一二三区免费| 日韩免费高清中文字幕av| 在线观看美女被高潮喷水网站| 亚洲精品色激情综合| 欧美日韩精品成人综合77777| 免费观看av网站的网址| 精品少妇黑人巨大在线播放| 又黄又爽又刺激的免费视频.| 97精品久久久久久久久久精品| 一区二区三区免费毛片| 嫩草影院精品99| 少妇被粗大猛烈的视频| 制服丝袜香蕉在线| 亚洲欧美日韩东京热| 乱码一卡2卡4卡精品| 亚洲精品456在线播放app| 亚洲av中文字字幕乱码综合| 国产欧美亚洲国产| 国产午夜福利久久久久久| 久久久午夜欧美精品| 少妇丰满av| 97超视频在线观看视频| 一区二区av电影网| 日日啪夜夜撸| 边亲边吃奶的免费视频| 免费观看av网站的网址| 黄色配什么色好看| 国产精品久久久久久久久免| 高清欧美精品videossex| 大片免费播放器 马上看| 超碰av人人做人人爽久久| av免费在线看不卡| 亚洲精品日韩av片在线观看| 最近最新中文字幕免费大全7| 亚洲av男天堂| 午夜激情久久久久久久| 亚州av有码| 久久人人爽av亚洲精品天堂 | 自拍偷自拍亚洲精品老妇| 国产午夜福利久久久久久| 国产有黄有色有爽视频| 久久久久久久久久人人人人人人| 麻豆成人av视频| 亚洲av中文字字幕乱码综合| 久久久久久久亚洲中文字幕| 久久精品国产鲁丝片午夜精品| 欧美成人精品欧美一级黄| 啦啦啦啦在线视频资源| 国产黄色视频一区二区在线观看| 日本一二三区视频观看| 午夜福利视频精品| 久久韩国三级中文字幕| 国产精品女同一区二区软件| 国产视频首页在线观看| 一级片'在线观看视频| 在线观看三级黄色| 一级毛片 在线播放| 日本wwww免费看| 亚洲最大成人av| 国产成人福利小说| 精品午夜福利在线看| 精品久久久久久电影网| 国产精品av视频在线免费观看| 日韩不卡一区二区三区视频在线| 亚洲成人精品中文字幕电影| 自拍偷自拍亚洲精品老妇| 只有这里有精品99| 亚洲欧美日韩无卡精品| 中文欧美无线码| 91aial.com中文字幕在线观看| 免费高清在线观看视频在线观看| 久久精品人妻少妇| 国产免费福利视频在线观看| 国产免费福利视频在线观看| 国产免费福利视频在线观看| 老司机影院毛片| 你懂的网址亚洲精品在线观看| 99久久九九国产精品国产免费| 国产黄片美女视频| 成人高潮视频无遮挡免费网站| 看免费成人av毛片| av福利片在线观看| 九九在线视频观看精品| 国产av码专区亚洲av| 欧美日韩综合久久久久久| 九九在线视频观看精品| 午夜福利网站1000一区二区三区| 日本-黄色视频高清免费观看| 免费观看av网站的网址| 欧美xxⅹ黑人| 精品人妻偷拍中文字幕| 纵有疾风起免费观看全集完整版| 身体一侧抽搐| 日韩一本色道免费dvd| 免费高清在线观看视频在线观看| 久久久午夜欧美精品| 自拍偷自拍亚洲精品老妇| 中文欧美无线码| av国产免费在线观看| 欧美日韩视频精品一区| 又大又黄又爽视频免费| 国产成人91sexporn| 亚洲自偷自拍三级| 欧美少妇被猛烈插入视频| 久久ye,这里只有精品| 视频中文字幕在线观看| 天天躁日日操中文字幕| 亚洲va在线va天堂va国产| 高清欧美精品videossex| 精品人妻熟女av久视频| 日本黄色片子视频| 九九爱精品视频在线观看| 欧美一级a爱片免费观看看| 日韩一区二区视频免费看| av专区在线播放| 尾随美女入室| 黄色日韩在线| 熟女电影av网| 亚洲第一区二区三区不卡| 亚洲av免费在线观看| 美女cb高潮喷水在线观看| 国产欧美日韩一区二区三区在线 | 亚洲国产色片| 国产黄色视频一区二区在线观看| 99热这里只有是精品在线观看| 一级av片app| 国产成人精品一,二区| 欧美老熟妇乱子伦牲交| 久久久欧美国产精品| 国产伦在线观看视频一区| 国产成人freesex在线| 国产av码专区亚洲av| 亚洲av国产av综合av卡| 国产一区二区在线观看日韩| 亚洲精品乱久久久久久| 国产亚洲91精品色在线| 综合色丁香网| 最近手机中文字幕大全| 人妻少妇偷人精品九色| 狠狠精品人妻久久久久久综合| 成人美女网站在线观看视频| 精品久久久噜噜| 大陆偷拍与自拍| 欧美日韩视频精品一区| 国产亚洲91精品色在线| 在线观看免费高清a一片| 中文字幕免费在线视频6| 免费看不卡的av| 天堂中文最新版在线下载 | 国产精品爽爽va在线观看网站| av女优亚洲男人天堂| 免费观看的影片在线观看| 婷婷色av中文字幕| 成人美女网站在线观看视频| 日本熟妇午夜| 亚洲精品日韩在线中文字幕| 丰满人妻一区二区三区视频av| 亚洲精品成人av观看孕妇| 久热久热在线精品观看| 波多野结衣巨乳人妻| 麻豆久久精品国产亚洲av| 欧美精品国产亚洲| 午夜福利视频1000在线观看| 午夜精品国产一区二区电影 | 中文字幕亚洲精品专区| 在线播放无遮挡| 国产午夜福利久久久久久| 日韩伦理黄色片| 舔av片在线| 亚洲综合精品二区| 内地一区二区视频在线| 中国美白少妇内射xxxbb| 纵有疾风起免费观看全集完整版| 亚洲av成人精品一二三区| 我要看日韩黄色一级片| 亚洲四区av| 性色av一级| 少妇的逼水好多| 最近中文字幕2019免费版| 亚洲精品,欧美精品| 亚洲自偷自拍三级| 亚洲精品影视一区二区三区av| 免费黄色在线免费观看| 在线观看一区二区三区激情| 亚洲无线观看免费| 91久久精品电影网| 少妇人妻久久综合中文| 天美传媒精品一区二区| 人妻少妇偷人精品九色| 国产 一区 欧美 日韩| 国产成人精品福利久久| 只有这里有精品99| 2018国产大陆天天弄谢| 欧美成人a在线观看| 99热全是精品| 青春草视频在线免费观看| 看黄色毛片网站| 最近最新中文字幕大全电影3| 国产av码专区亚洲av| 精品久久国产蜜桃| 免费看av在线观看网站| av天堂中文字幕网| 麻豆国产97在线/欧美| 最近的中文字幕免费完整| 免费少妇av软件| 久久99精品国语久久久| a级毛片免费高清观看在线播放| 麻豆成人午夜福利视频| 丝袜喷水一区| 网址你懂的国产日韩在线| 国产黄频视频在线观看| av一本久久久久| 国产成人aa在线观看| 成年女人在线观看亚洲视频 | 天天躁夜夜躁狠狠久久av| 亚洲av.av天堂| 卡戴珊不雅视频在线播放| 国产91av在线免费观看| 九草在线视频观看| 久久精品国产自在天天线| 亚洲色图综合在线观看| 香蕉精品网在线| 久久久久国产网址| 久久精品国产自在天天线| 一级二级三级毛片免费看| 熟女人妻精品中文字幕| 日韩电影二区| 成人毛片60女人毛片免费| 五月玫瑰六月丁香| 欧美成人一区二区免费高清观看| 国产乱人偷精品视频| 九九在线视频观看精品| 少妇被粗大猛烈的视频| 少妇猛男粗大的猛烈进出视频 | 内地一区二区视频在线| 国产欧美亚洲国产| 精品国产三级普通话版| 亚洲aⅴ乱码一区二区在线播放| 极品教师在线视频| 国产成人一区二区在线| 国产成年人精品一区二区| 美女cb高潮喷水在线观看| 又黄又爽又刺激的免费视频.| 成人亚洲欧美一区二区av| 免费不卡的大黄色大毛片视频在线观看| 国产69精品久久久久777片| 在线看a的网站| 18禁在线无遮挡免费观看视频| 在线播放无遮挡| 亚洲av福利一区| 国产爽快片一区二区三区| 中文字幕av成人在线电影| 久久影院123| 色视频www国产| 亚洲欧美日韩东京热| 草草在线视频免费看| 国产在视频线精品| 男女无遮挡免费网站观看| 在线看a的网站| 最近最新中文字幕免费大全7| 好男人在线观看高清免费视频| 国产久久久一区二区三区| 成人亚洲精品一区在线观看 | 中文字幕免费在线视频6| 三级经典国产精品| 国产男人的电影天堂91| 色婷婷久久久亚洲欧美| 日本一本二区三区精品| 边亲边吃奶的免费视频| 亚洲精品国产成人久久av| 少妇熟女欧美另类| 久久久久久久久久成人| 插逼视频在线观看| 有码 亚洲区| 国产亚洲一区二区精品| 成年版毛片免费区| 各种免费的搞黄视频| 一本一本综合久久| 日韩视频在线欧美| 免费看a级黄色片| 各种免费的搞黄视频| 在线观看国产h片| 久久人人爽人人片av| 国产午夜福利久久久久久|