• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于最優(yōu)策略概率分布的POMDP值迭代算法

    2016-09-02 08:08:50王崇駿
    電子學報 2016年5期
    關(guān)鍵詞:上界下界信念

    劉 峰,王崇駿,駱 斌

    (1.南京大學軟件學院,江蘇南京 210093;2.南京大學計算機科學與技術(shù)系,江蘇南京 210093;3.南京大學軟件新技術(shù)國家重點實驗室,江蘇南京 210093)

    ?

    一種基于最優(yōu)策略概率分布的POMDP值迭代算法

    劉峰1,3,王崇駿2,3,駱斌1,3

    (1.南京大學軟件學院,江蘇南京 210093;2.南京大學計算機科學與技術(shù)系,江蘇南京 210093;3.南京大學軟件新技術(shù)國家重點實驗室,江蘇南京 210093)

    隨著應(yīng)用中POMDP問題的規(guī)模不斷擴大,基于最優(yōu)策略可達區(qū)域的啟發(fā)式方法成為了目前的研究熱點.然而目前已有的算法雖然保證了全局最優(yōu),但選擇最優(yōu)動作還不夠精確,影響了算法的效率.本文提出一種基于最優(yōu)策略概率的值迭代方法PBVIOP.該方法在深度優(yōu)先的啟發(fā)式探索中,根據(jù)各個動作值函數(shù)在其上界和下界之間的分布,用蒙特卡羅法計算動作最優(yōu)的概率,選擇概率最大的動作作為最優(yōu)探索策略.在4個基準問題上的實驗結(jié)果表明PBVIOP算法能夠收斂到全局最優(yōu)解,并明顯提高了收斂效率.

    部分可觀測馬爾科夫決策過程;基于最優(yōu)策略概率的值迭代算法;蒙特卡羅法

    1 引言

    規(guī)劃問題,即“設(shè)計合理的行動計劃以達到個體目標”[1],是人工智能研究里的重要領(lǐng)域.序列決策問題(Sequential Decision Making)是規(guī)劃問題的一個重要子領(lǐng)域.而動態(tài)不確定性環(huán)境下的行動規(guī)劃是其中的熱點,其動態(tài)性和不確定性是在這種環(huán)境下進行行動規(guī)劃的主要難點.

    部分可觀察馬氏決策過程(Partially Observable Markov Decision Process,POMDP)是一個強大的數(shù)學框架,可以用來描述并解決很多實際的不確定環(huán)境中序列決策問題,例如機器人探索任務(wù)[2]、口語對話管理[3]、服務(wù)漂移[4]、傳感器調(diào)度[5]等.

    精確求解POMDP問題計算復(fù)雜度過高,難以應(yīng)用于實際問題,因此出現(xiàn)了各種近似算法如FIB[6]、MA-Q-learning[7]等等.其中基于點的值迭代方法在可達信念點集上進行迭代,通過增加迭代次數(shù)提升了整體效率,使得POMDP可以應(yīng)用到較大規(guī)模的問題并在實際應(yīng)用中取得了良好的效果.自從基于點的值迭代方法PBVI[8]提出之后,對探索信念點集的啟發(fā)式探索方法成為了研究熱點.PEMA[9]算法選取誤差最大的后繼點,使點迭代盡可能近似精確迭代;HSVI[10]、SARSOP[11]、GapMin[12]、PGVI[13]等算法根據(jù)最優(yōu)值函數(shù)上界來選擇最優(yōu)動作探索最優(yōu)可達信念點集,保證收斂到全局最優(yōu);AEMS[14]、HHOP[15]等算法構(gòu)造啟發(fā)式函數(shù)選擇最優(yōu)動作探索最優(yōu)可達信念點集,提高了收斂效率.

    為了解決較大規(guī)模的POMDP問題,近年來基于點的算法通過探索最優(yōu)可達信念空間來提高算法的效率.為了保證值函數(shù)能夠收斂到全局最優(yōu)解,HSVI等算法在探索最優(yōu)可達信念空間時,根據(jù)IE-MAX[16]原則選取值函數(shù)上界最大的動作.但值函數(shù)的上界通過線性規(guī)劃等方法來計算,其收斂效率很低,而值函數(shù)下界基于貝爾曼方程進行迭代收斂效率較高.HSVI等算法雖然可以在理論上保證收斂,但在選擇最優(yōu)動作時僅以值函數(shù)上界為參照而完全不考慮值函數(shù)下界的取值情況,降低了值函數(shù)下界的迭代收斂效率,從而影響了算法的整體收斂效率.為保證高效地探索到全局最優(yōu)解,HHOP算法設(shè)計了有前景的策略再結(jié)合最優(yōu)值函數(shù)上界構(gòu)造了兩個獨立的啟發(fā)式搜索函數(shù)進行雜合以探索最優(yōu)可達信念空間.本文提出基于最優(yōu)策略概率的值迭代算法(Probability-based Value Iteration on Optimal Policy,PBVIOP)來提高全局最優(yōu)解的收斂效率.在探索最優(yōu)可達信念空間時,PBVIOP算法和HHOP算法一樣都考慮了值函數(shù)的上界和下界,不同之處在于HHOP算法在每次探索時是把有前景的策略和值函數(shù)上界分隔開來各自考慮后再雜合;而PBVIOP算法在每次探索時先結(jié)合動作值函數(shù)的上界和下界來探索最優(yōu)策略,再貪婪探索其不確定性最大的后繼信念點,相比之下HHOP算法更為細致復(fù)雜.PBVIOP算法在探索最優(yōu)可達信念空間方面有如下特點:首先,在尋找最優(yōu)策略的過程中同時參考動作值函數(shù)的上界和下界,保證算法的收斂質(zhì)量和效率;其次,把選擇最優(yōu)動作建模成基于各個動作值函數(shù)的分布求最大值函數(shù)的問題,以各個動作值函數(shù)最大的概率作為選擇最優(yōu)動作的標準,保證了算法的可靠性和穩(wěn)定性;最后,引入蒙特卡羅方法來近似計算動作最優(yōu)的概率,使得算法合理且高效.算法在選擇最優(yōu)動作時避免了局部化的干擾,可以穩(wěn)定達到全局最優(yōu).試驗結(jié)果表明PBVIOP算法優(yōu)于HSVI和GapMin算法的性能,且隨著POMDP問題規(guī)模的擴大其優(yōu)勢愈加顯著.

    2 背景和相關(guān)工作

    2.1POMDP模型

    POMDP模型可以表示為一個八元組(S,A,Z,b0,T,O,R,γ)[8].其中S是一個隱含狀態(tài)的有限集合,表示了系統(tǒng)所有可能處于的狀態(tài);A是一個動作的有限集合,包括Agent能夠采取的所有動作;Z是一個觀察的有限集合,表示Agent所有可能的輸入;b0是初始的狀態(tài)分布,表示在初始時刻t0系統(tǒng)在狀態(tài)集合S上的概率分布;T(s,a,s′)是狀態(tài)到狀態(tài)的轉(zhuǎn)移概率,描述Agent在狀態(tài)s采取動作a后到達狀態(tài)s′的概率,表明了動作的隨機效應(yīng);O(a,s′,z)是Agent采取動作a到達狀態(tài)s′后且觀察到z的概率,模擬了Agent部分可觀測的特性;R(s,a)是在狀態(tài)s時采取動作a所獲得的回報值;γ∈(0,1)γ∈(0,1)是折扣因子.

    在POMDP中,Agent不能直接獲取自己的狀態(tài)而只能從環(huán)境中獲得觀察信息作為狀態(tài)的參照,所以它必須根據(jù)動作和觀測的歷史序列{a0,z1,a1,z2,a2,z3,…,at-1,zt}來決策下一個動作at.因此POMDP引入維持歷史信息的充分統(tǒng)計量b來代替歷史序列以計算其長遠回報[17].b是一個代表狀態(tài)上概率分布的向量:

    bt(s)=P(st=s|zt,at-1,…,a0)

    在POMDP中t時刻的信念點bt可以根據(jù)貝葉斯規(guī)則來更新,只涉及前一步的信念狀態(tài)bt-1,最近采取的動作at-1和得到的觀測zt,因而b的更新具有Markov性.

    bt(s′)=τ(bt-1,at-1,zt)

    2.2POMDP求解

    POMDP中的策略是一個由信念到動作的映射:π(b)→a.Agent在策略π下的長遠回報為:

    POMDP的求解是指POMDP模型完全已知(狀態(tài)集合、動作集合、轉(zhuǎn)移函數(shù)、回報函數(shù)等)的情況下計算最優(yōu)策略π*,它能夠最大化長遠回報的期望.最優(yōu)策略可以由貝爾曼方程迭代獲得.Q值函數(shù)Qt+1(b,a)是t步視野內(nèi)在當前信念點b處執(zhí)行動作a的回報值:

    其對應(yīng)的最優(yōu)策略可以表示為:

    再將這些集合與一步回報集合笛卡爾和相加得到某一動作a所對應(yīng)的向量:

    其中笛卡爾和⊕定義為:

    最后得到所有動作向量集合:

    反復(fù)update至Гn收斂即可精確求解POMDP問題.每次update的計算復(fù)雜度近似為O(|S|2|A||Гt||Z|)[17],因而精確求解存在著歷史災(zāi)和維度災(zāi)的問題.雖然Witness算法和增量裁剪算法等對精確算法有所改進,但在極端情況下計算復(fù)雜度還是不能降低.

    2.3基于點的POMDP近似求解

    對于大部分的POMDP問題,Agent所能到達的信念點集合B往往只是信念空間的一小部分,因此可以用基于點的算法來求得其誤差在一定范圍之內(nèi)的近似解,避免精確求解中計算笛卡爾和的巨大計算量,通過增加迭代次數(shù)保證算法效果.

    基于點進行backup和精確算法的update的比較如圖1所示.精確求解算法在整個信念空間上進行,所以無法先行確定動作a之后各個觀察下的最優(yōu)向量,只能選取所有可能的向量作笛卡爾和,因而計算量很大.基于點的方法中,執(zhí)行動作a之后的每個觀察下的最優(yōu)向量都可以先行確定,從而可以根據(jù)|Z|個觀察所對應(yīng)的最優(yōu)向量計算出執(zhí)行動作a的回報值,再比較得出回報值最高的最優(yōu)動作,最后通過backup操作得到b在一次更新后的最優(yōu)向量.

    在點集B上由Гt構(gòu)建Гt+1過程如下:

    在點集B上進行一次backup的計算復(fù)雜度近似為O(|S|2|A||Z‖B|2).基于點的方法在達到終止條件之前反復(fù)執(zhí)行兩個步驟:探索新的信念點來擴張信念點集合B;在B上更新值函數(shù)Γ.各種基于點的值迭代方法的主要差別在于不同的信念點集探索方法[18].

    2.4最優(yōu)策略下的可達區(qū)域

    基于點的算法的核心思想是可到達區(qū)域的概念.可到達區(qū)域R(b0)是從初始信念點b0經(jīng)過任意動作和觀察序列能夠到達的信念點集合[8].但第t步時R(b0)中增加信念點的數(shù)量級為(|A‖Z|)t,隨著步數(shù)t的增加R(b0)的規(guī)模也較為可觀.R*(b0)是從b0開始按照最優(yōu)策略所到達信念點的集合[19],第t步時R*(b0)中增加信念點的數(shù)量級為|Z|t.如圖2所示,R*(b0)的規(guī)模遠小于R(b0),因而在較大規(guī)模的問題中基于R*(b0)采樣更加高效.

    盡管R*(b0)規(guī)模相對較小,但足以用于計算出b0處的最優(yōu)策略[19].然而最優(yōu)策略無法預(yù)知,所以一般通過啟發(fā)式的方法來對R*(b0)進行近似.

    已有的基于點的近似算法在探索R*(b0)時嘗試了不同的選擇最優(yōu)動作的標準.如圖3所示,信念點b處有3個可供選擇的動作a1、a2、a3,其動作值函數(shù)Q(b,ai)分別在各自的下界和上界之間取值.在此例中PEMA等算法根據(jù)動作值函數(shù)下界的最大值會選取動作a1作為最優(yōu)策略;HSVI等算法根據(jù)動作值函數(shù)上界選擇動作a2作為最優(yōu)策略.

    3 PBVIOP算法

    3.1算法思想

    目前已有的R*(b0)近似算法仍有改進的空間.PEMA算法僅根據(jù)值函數(shù)下界選取最優(yōu)動作,則值函數(shù)下界取值較高的信念點更可能會被探索到,然后在該點上的backup操作又只會使得該點附近區(qū)域的值函數(shù)下界會有所提升而其他信念區(qū)域的值函數(shù)下界幾乎沒有提升,從而在下一次的探索中該點附近區(qū)域的信念點又會被優(yōu)先探索到,因此算法不能保證值函數(shù)收斂到全局最優(yōu)解.HSVI等算法根據(jù)IE-MAX原則只根據(jù)值函數(shù)上界值最大來選擇動作,上界在更新中不斷降低,因而即使在某次迭代中只是找到了次優(yōu)動作也不會影響值函數(shù)最終能夠收斂到全局最優(yōu).但值函數(shù)的上界通過線性規(guī)劃或sawtooth算法[10]來近似計算,其收斂速度非常緩慢,HSVI等算法雖然在理論上保證收斂,但在選擇最優(yōu)動作時完全不考慮迭代收斂效率較高的值函數(shù)下界,影響了整個算法的收斂效率,不利其應(yīng)用于大規(guī)模的POMDP問題.

    事實上動作值函數(shù)在上界和下界之間取值,單單以上界或下界的值來評估動作值函數(shù)都是片面的.在圖3的示例中,以Q(b,ai)的上界和下界為端點的整個線段反映了Q(b,ai)的取值情況,僅僅以線段的上端點或下端點來評價Q(b,ai)顯然不夠全面.事實上就整個線段比較而言,在圖3的示例中可能選擇a3作為最優(yōu)動作更為合理,盡管Q(b,a3)的上界和下界都不是最大值,但是Q(b,a3)值最大的概率可能最大.

    本文提出了選擇最優(yōu)動作的新標準:以所有動作的函數(shù)值在其上界和下界之間的概率分布為基礎(chǔ),計算每個動作的值函數(shù)取值最大的概率,再選擇概率值最大的動作.基于新標準選擇動作更加合理,可以更準確地探索到R*(b0)附近的區(qū)域,從而提高迭代效率.

    3.2基于蒙特卡羅的概率計算

    p(y)=p(x1,x2,…,xn)

    其中y是一個n維向量:y=(x1,x2,…,xn)滿足∮Ωp(x1,x2,…,xn)dx1dx2…dxn=1.其中

    則動作ai的值函數(shù)的取值xi最大的概率為:

    F*(ai)=P(xi>xj,?j≠i)

    =∮Ωip(x1,…,xn)dx1…dxn

    Ωi=Ω∩{(x1,x2,…,xn)|xi>xj,?j≠i}

    由于Ωi是n維空間的一個封閉區(qū)域,F*(ai)的計算涉及高維積分.隨著維數(shù)n的增加,計算難度和復(fù)雜度將大大增加,本文通過蒙特卡羅法來求其近似值.

    證明:構(gòu)造兩個函數(shù)Qi(y)和Fi(y):

    則:F*(ai)=∮ΩQi(y)dy=∮ΩFi(y)p(y)dy

    由此F*(ai)即隨機變量Fi(y)的數(shù)學期望值,由于y1,y2,…,ym為Ω上按概率密度p(y)選取的隨機樣點,可求Fi(y)的數(shù)學期望近似值.

    本文參照AEMS1算法[14]假定動作的最優(yōu)值函數(shù)在上下界之間均勻分布,對動作值函數(shù)進行取樣,并由此計算動作最優(yōu)的概率.

    3.3PBVIOP算法

    PBVIOP算法(算法1)初始化值函數(shù)的上下界之后,反復(fù)調(diào)用子函數(shù)PBVIOPExplore從b0出發(fā)進行深度探索并更新值函數(shù)的上界和下界,直至b0處取值收斂為止.

    PBVIOP算法在選擇最優(yōu)動作時同時考慮了最優(yōu)動作值函數(shù)的上界和下界.在迭代過程中下界持續(xù)上升而上界會持續(xù)下降,隨著值函數(shù)上下界之差逐漸縮小,對各個動作最優(yōu)概率的估算會更加精確,因而保證了值函數(shù)的收斂.因為算法同時更新值函數(shù)的上界和下界,并以值函數(shù)在上界和下界之間的分布來計算動作最優(yōu)的概率,所以在信念點上更新值函數(shù)的上界和下界不會增加該點以后被探索到的可能性,故而算法會收斂到全局最優(yōu)解.

    4 實驗

    4.1實驗設(shè)置

    本文實驗對比了PBVIOP算法、HSVI算法和GapMin算法運算情況,因為PBVIOP算法和HSVI算法的主要差別在于最優(yōu)動作的選擇,而GapMin算法是目前最高效的POMDP規(guī)劃算法之一.本文在常見4個數(shù)據(jù)集上進行實驗,其中Tiger、Hallway是早期的經(jīng)典迷宮問題;RockSample模擬了Agent采樣礦石的科學考察任務(wù),是一個可擴展的問題[10].實驗所用數(shù)據(jù)集的狀態(tài)、動作和觀察規(guī)模如下表:

    表1 POMDP標準數(shù)據(jù)集的規(guī)模

    本文實驗中復(fù)用了GuyShani教授提供的POMDPSolver部分代碼.對每個問題設(shè)定折扣因子為0.95,分別用PBVIOP算法、HSVI算法和GapMin算法各做10次運算,再對10次運算的結(jié)果取平均值,選取運算時間和平均折扣回報值(AverageDiscountedReward,ADR)作為評價指標.平均折扣回報值表示了生成策略的質(zhì)量,由生成的策略模擬運行100步計算得出折扣回報值,通過反復(fù)500次的模擬來計算平均折扣回報值.

    4.2實驗結(jié)果分析

    實驗結(jié)果如表2所示,可見大多數(shù)情況下PBVIOP算法有較好的收斂效果.

    圖4是HSVI、GapMin和PBVIOP在四個問題上實驗結(jié)果的詳細對比,表示了生成策略的平均折扣回報值的演變情況.圖中橫坐標為算法運行時間(s),縱坐標為ADR值;實線表示HSVI算法對應(yīng)的結(jié)果,短劃線表示GapMin算法對應(yīng)的結(jié)果,圓點線表示PBVIOP算法對應(yīng)的結(jié)果.

    表2 實驗結(jié)果數(shù)據(jù)

    在求解Hallway和Tiger-grid問題的實驗中,因為問題規(guī)模較小,PBVIOP算法和HSVI算法收斂到相同的ADR,GapMin算法的ADR略高一點.而PBVIOP算法的收斂效率明顯較高,在Hallway問題求解中比HSVI算法快3.15倍,比GapMin算法快4.51倍;在Tiger-grid問題求解中比HSVI算法快1.36倍,比GapMin算法快4.96倍.

    在求解RockSample(5,5)問題的實驗中,PBVIOP算法收斂到的ADR比HSVI算法高出較多,收斂效率比HSVI算法快5.86倍.PBVIOP算法收斂到的ADR略低于GapMin算法,但其收斂效率比GapMin算法快157.06倍.

    在求解RockSample(7,8)問題的實驗中,PBVIOP算法和GapMin算法收斂到的ADR都比HSVI算法高出較多,且PBVIOP算法收斂到的ADR比GapMin算法略高.PBVIOP算法收斂效率比HSVI算法快1.54倍,比GapMin算法快1.66倍.

    雖然GapMin算法和HSVI算法一樣選擇值函數(shù)上界最優(yōu)的動作,但GapMin算法在每輪迭代中會探索所有Gap大于當前閾值的信念點,因而GapMin算法可以更加有效地降低上界值,在狀態(tài)規(guī)模不太大的POMDP問題上找到全局最優(yōu)解.但隨著POMDP問題中狀態(tài)數(shù)的增加,上界的下降效果變差,GapMin算法也難以有效地求解POMDP問題.另外由于GapMin算法多探索了許多信念點,其收斂效率受到較大影響.

    實驗結(jié)果表明PBVIOP算法比HSVI和GapMin算法有更高的收斂效率,并且隨著POMDP問題規(guī)模的增加,其收斂到的ADR也會明顯地優(yōu)于HSVI算法,和GapMin算法相當.隨著狀態(tài)數(shù)目的增加,上界的下降速度會顯著降低,因而HSVI和GapMin算法的收斂效率直接受到了影響.另一方面,隨著動作數(shù)量的增加,PBVIOP算法探索的R*(b0)和HSVI算法探索的R*(b0)會有更大的差異,因而PBVIOP算法的效果會更優(yōu)于HSVI算法.這說明與單純利用上界相比而言,同時利用上下界能夠更快更優(yōu)地探索到R*(b0)附近的區(qū)域,對于算法性能和收斂質(zhì)量的提升有很大的幫助.

    5 結(jié)束語

    本文提出了一種基于概率的最優(yōu)策略值迭代方法PBVIOP,解決了啟發(fā)式探索最優(yōu)策略可達區(qū)域R*(b0)時需要保障值函數(shù)上下界收斂效率的問題.PBVIOP算法與現(xiàn)有基于點的值迭代算法不同之處在于使用一種有效的新方法來探索最優(yōu)策略可達區(qū)域R*(b0).PBVIOP算法同時維持值函數(shù)的上界和下界,在啟發(fā)式的深度探索中,用蒙特卡羅法估算各個動作值函數(shù)最優(yōu)的概率,選擇概率最大的動作為最優(yōu)策略,再貪婪探索不確定性最大的后繼信念點.實驗結(jié)果表明,與HSVI和GapMin算法相比,PBVIOP算法在基準數(shù)據(jù)集上有更高的收斂效率并能夠獲得較優(yōu)的策略.未來的工作一方面是在APPL平臺上實現(xiàn)本算法,完善實驗配置,嘗試和HHOP等算法進行比較分析以完善本算法;另一方面是進一步優(yōu)化值函數(shù)的概率分布模型和后繼信念點的選擇標準,并嘗試每步探索多個有效的信念點來近似最優(yōu)策略可達區(qū)域,從而進一步提高一次深度探索的效率.

    [1]S Russell,PNorvig.Artificial Intelligence:A Modern Approach[M].Prentice-Hall,1995.

    [2]T Smith.Probabilistic planning for robotic exploration[D].Massachusetts Institute of Technology,2007.

    [3]J D Williams,S Young.Partially observable Markov decision processes for spoken dialog systems[J].Computer Speech & Language,Elsevier,2007,21(2):393-422.

    [4]趙二虎,陽小龍,等.CPSM:一種增強IP網(wǎng)絡(luò)生存性的客戶端主動服務(wù)漂移模型[J].電子學報,2010,38(9):2134-2139.

    Zhao Er-hu,Yang Xiao-long,et al.CPSM:Client-side proactive service migration model for enhancing IP network survivability[J].Acta Electronica Sinica,2010,38(9):2134-2139.(in Chinese)

    [5]張子寧,單甘霖,段修生.基于部分可觀馬氏決策過程的多平臺主被動傳感器調(diào)度[J].電子學報,2014,42 (10):2104-2109.

    Zhang Zi-ning,Shan Gan-lin,Duan Xiu-sheng.POMDP-based scheduling of active/passive sensors in multi-platform[J].Acta Electronica Sinica,2014,42(10):2104-2109.(in Chinese)

    [6]M Hauskrecht.Value-function approximations for partially observable Markov decision processes[J].Journal of Artificial Intelligence Research,2000,13(1):33-94.

    [7]劉海濤,洪炳熔,等.不確定性環(huán)境下基于進化算法的強化學習[J].電子學報,2006,34 (7):1356-1360.

    Liu Hai-tao,Hong Bing-rong,et al.Evolutionary algorithm based reinforcement learning in the uncertain environments[J].Acta Electronica Sinica,2006,34(7):1356-1360.(in Chinese)

    [8]Pineau J,Gordon G,Thrun S.Point-based value iteration:An anytime algorithm for POMDPs[A].International Joint Conference on Artificial Intelligence[C].Acapulco,Mexico:Morgan Kaufmann,2003.1025-1032.

    [9]J Pineau,G Gordon.POMDP planning for robust robot control[A].International Symposium on Robotics Research[C].San Francisco,USA:Springer,2005,69-82.

    [10]T Smith,R G Simmons.Point-based POMDP algorithms:Improved analysis and implementation[A].Conference on Uncertainty in Artificial Intelligence[C].Edinburgh,United kingdom:AUAI Press,2005,542-547.

    [11]H Kurniawati,D Hsu,W S Lee.SARSOP:Efficient point-based POMDP planning by approximating optimally reachable belief spaces[A].Robotics:Science and Systems[C].Zurich,Switzerland:MIT Press,2008,65-72.

    [12]P Poupart,K E Kim,D Kim.Closing the gap:Improved bounds on optimal POMDP solutions[A].International Conference on Planning and Scheduling[C].Freiburg,Germany:AAAI Press,2011.194-201.

    [13]Z Zhang,D Hsu,W S Lee.Covering Number for Efficient Heuristic-based POMDP Planning[A].International Conference on Machine Learning[C].Beijing,China:International Machine Learning Society,2014.48-60.

    [14]S Ross,B Chaib-Draa.AEMS:An anytime online search algorithm for approximate policy refinement in large POMDPs[A].International Joint Conference on Artificial Intelligence[C].Hyderabad,India:Morgan Kaufmann,2007.2592-2598.

    [15]章宗長,陳小平.雜合啟發(fā)式在線POMDP規(guī)劃[J].軟件學報,2013,24(7):1589-1600.

    Zhang Zong-zhang,Chen Xiao-ping.Hybrid heuristic online planning for POMDPs[J].Journal of Software,2013,24(7):1589-1600.(in Chinese)

    [16]L P Kaelbling.Learning in Embedded Systems[M].MIT Press,1993.

    [17]R D Smallwood,E J Sondik.The optimal control of partially observable markov processes over a finite horizon[J].Operations Research,1973,21(5):1071-1088.

    [18]G Shani,J Pineau,R Kaplow.A survey of point-based POMDP solvers[J].Autonomous Agents and Multi-Agent Systems,2013,27(1):1-51.

    [19]D Hsu,W S Lee,N Rong.What makes some POMDP problems easy to approximate?[A].Advances in Neural Information Processing Systems[C].Vancouver,BC,Canada:Curran Associates Inc,2007.689-696.

    劉峰男,1976年生于江蘇泰州.南京大學軟件學院講師.研究方向為強化學習、智能規(guī)劃.

    E-mail:ufeng-nju@163.com

    王崇駿男,1975年生于江蘇盱眙,南京大學計算機科學與技術(shù)系教授,中國計算機學會高級會員.研究方向為Agent及多Agent系統(tǒng)、 復(fù)雜網(wǎng)絡(luò)分析及智能應(yīng)用系統(tǒng).

    駱斌男,1967年生,南京大學軟件學院教授,博士生導(dǎo)師,中國計算機學會杰出會員.研究方向為軟件工程、人工智能.

    A Probability-Based Value Iteration on Optimal Policy Algorithm for POMDP

    LIU Feng1,3,WANG Chong-jun2,3,LUO Bin1,3

    (1.SoftwareInstitute,NanjingUniversity,Nanjing,Jiangsu210093,China;2.DepartmentofComputerScienceandTechnology,NanjingUniversity,Nanjing,Jiangsu210093,China;3.NationalKeyLaboratoryforNovelSoftwareTechnology,NanjingUniversity,Nanjing,Jiangsu210093,China)

    With the enlargement of the scale of POMDP problems in applications,the research of heuristic methods for reachable area based on the optimal policy becomes current hotspot.However,the standard of existing algorithms about choosing the best action is not perfect enough thus the efficiency of the algorithms is affected.This paper proposes a new value iteration method PBVIOP (Probability-based Value Iteration on Optimal Policy).In depth-first heuristic exploration,this method uses the Monte Carlo algorithm to calculate the probability of each optimal action according to the distribution of each action′s Q function value between its upper and lower bounds,and chooses the maximum probability action.Experiment results of four benchmarks show that PBVIOP algorithm can obtain global optimal solution and significantly improve the convergence efficiency.

    partially observable Markov decision process (POMDP);probability-based value iteration on optimal policy(PBVIOP);Monte Carlo method

    2014-09-15;

    2015-03-19;責任編輯:藍紅杰

    國家自然科學基金(No.61375069);江蘇省自然科學基金(No.BK20131277)

    TP319

    A

    0372-2112 (2016)05-1078-07

    電子學報URL:http://www.ejournal.org.cn10.3969/j.issn.0372-2112.2016.05.010

    猜你喜歡
    上界下界信念
    為了信念
    黃河之聲(2021年9期)2021-07-21 14:56:34
    發(fā)光的信念
    一個三角形角平分線不等式的上界估計
    Lower bound estimation of the maximum allowable initial error and its numerical calculation
    信念
    民族音樂(2018年4期)2018-09-20 08:59:04
    一道經(jīng)典不等式的再加強
    矩陣Hadamard積的上下界序列
    最大度為10的邊染色臨界圖邊數(shù)的新下界
    Nekrasov矩陣‖A-1‖∞的上界估計
    常維碼的一個構(gòu)造性下界
    99久久99久久久精品蜜桃| 亚洲人成网站高清观看| 日本在线视频免费播放| 午夜免费激情av| 国产精品美女特级片免费视频播放器 | 国产精品爽爽va在线观看网站| 免费无遮挡裸体视频| 欧美色欧美亚洲另类二区| 国产一区二区三区在线臀色熟女| 麻豆久久精品国产亚洲av| 亚洲专区字幕在线| 午夜精品一区二区三区免费看| 老司机午夜福利在线观看视频| 日本 欧美在线| 少妇裸体淫交视频免费看高清 | 很黄的视频免费| 亚洲aⅴ乱码一区二区在线播放 | 国产又黄又爽又无遮挡在线| 操出白浆在线播放| 51午夜福利影视在线观看| 99精品欧美一区二区三区四区| 国产av在哪里看| 黑人巨大精品欧美一区二区mp4| 欧美 亚洲 国产 日韩一| 精品国产乱子伦一区二区三区| 国产成人aa在线观看| 在线观看午夜福利视频| 国产精品自产拍在线观看55亚洲| 国产精品久久久久久精品电影| 日本黄色视频三级网站网址| 看免费av毛片| 欧美一级毛片孕妇| 禁无遮挡网站| 国产精品精品国产色婷婷| 黄色女人牲交| 伊人久久大香线蕉亚洲五| 欧美日韩精品网址| 91九色精品人成在线观看| xxx96com| 婷婷丁香在线五月| 黄色片一级片一级黄色片| 久久精品成人免费网站| 久久人妻福利社区极品人妻图片| 长腿黑丝高跟| 草草在线视频免费看| 最好的美女福利视频网| 久热爱精品视频在线9| 欧美乱码精品一区二区三区| 精品国产乱子伦一区二区三区| 日韩欧美在线二视频| 很黄的视频免费| 制服诱惑二区| 色播亚洲综合网| 国产一区二区三区在线臀色熟女| 精品乱码久久久久久99久播| 啦啦啦免费观看视频1| 波多野结衣高清无吗| 国产一区二区三区视频了| 手机成人av网站| 香蕉久久夜色| 啦啦啦韩国在线观看视频| 国产片内射在线| 精品欧美一区二区三区在线| 99精品久久久久人妻精品| 久久久久国内视频| 两个人视频免费观看高清| 色综合站精品国产| 国产成年人精品一区二区| 久久精品国产亚洲av香蕉五月| 亚洲精品一区av在线观看| 悠悠久久av| 亚洲va日本ⅴa欧美va伊人久久| 免费一级毛片在线播放高清视频| 伦理电影免费视频| 欧美中文综合在线视频| 男男h啪啪无遮挡| 午夜久久久久精精品| 成熟少妇高潮喷水视频| 国产精品亚洲av一区麻豆| 无人区码免费观看不卡| 一级作爱视频免费观看| 十八禁人妻一区二区| 母亲3免费完整高清在线观看| 香蕉丝袜av| av有码第一页| 亚洲精品色激情综合| 午夜免费观看网址| 久久婷婷人人爽人人干人人爱| 国产在线观看jvid| 日本a在线网址| 国产精品免费一区二区三区在线| 国产又色又爽无遮挡免费看| 村上凉子中文字幕在线| 欧美 亚洲 国产 日韩一| 日韩大尺度精品在线看网址| 午夜久久久久精精品| 老鸭窝网址在线观看| 国产一区二区在线av高清观看| 午夜免费成人在线视频| 精品一区二区三区视频在线观看免费| 精品福利观看| 又黄又爽又免费观看的视频| 亚洲国产日韩欧美精品在线观看 | 久久亚洲精品不卡| 男人舔女人的私密视频| 国产亚洲精品久久久久久毛片| 精品国产乱子伦一区二区三区| 夜夜夜夜夜久久久久| а√天堂www在线а√下载| 亚洲九九香蕉| 十八禁网站免费在线| 国产真人三级小视频在线观看| av天堂在线播放| 久久久久久人人人人人| 国产乱人伦免费视频| 啪啪无遮挡十八禁网站| 极品教师在线免费播放| 亚洲精品久久成人aⅴ小说| 每晚都被弄得嗷嗷叫到高潮| 一级毛片高清免费大全| 亚洲人成电影免费在线| 99在线人妻在线中文字幕| 老司机在亚洲福利影院| 亚洲一区高清亚洲精品| 精品免费久久久久久久清纯| 伊人久久大香线蕉亚洲五| 精品国内亚洲2022精品成人| 可以在线观看的亚洲视频| 亚洲av美国av| 国产一区二区三区视频了| 亚洲午夜理论影院| 亚洲第一欧美日韩一区二区三区| 久久中文字幕一级| 亚洲自拍偷在线| 熟妇人妻久久中文字幕3abv| 欧洲精品卡2卡3卡4卡5卡区| bbb黄色大片| 中国美女看黄片| 久久久精品欧美日韩精品| 美女黄网站色视频| 国产主播在线观看一区二区| 女人高潮潮喷娇喘18禁视频| 亚洲精品在线观看二区| 两个人的视频大全免费| 又紧又爽又黄一区二区| 777久久人妻少妇嫩草av网站| 日日摸夜夜添夜夜添小说| 真人做人爱边吃奶动态| 免费在线观看日本一区| 亚洲av成人精品一区久久| 欧美另类亚洲清纯唯美| 狂野欧美白嫩少妇大欣赏| 久久性视频一级片| 欧美成狂野欧美在线观看| 国产亚洲精品久久久久5区| 久久久国产精品麻豆| 黄色视频不卡| 丁香欧美五月| 男人舔女人下体高潮全视频| 国产成人系列免费观看| 国产男靠女视频免费网站| 大型黄色视频在线免费观看| 国产午夜福利久久久久久| 久热爱精品视频在线9| 老熟妇乱子伦视频在线观看| 一级黄色大片毛片| 天天一区二区日本电影三级| 国产精品一区二区三区四区免费观看 | 亚洲国产高清在线一区二区三| 国产精品98久久久久久宅男小说| 99国产精品一区二区三区| 欧美日韩瑟瑟在线播放| 好看av亚洲va欧美ⅴa在| 在线国产一区二区在线| 成人一区二区视频在线观看| 国产高清videossex| 欧美国产日韩亚洲一区| 在线看三级毛片| 中出人妻视频一区二区| 国产熟女午夜一区二区三区| 亚洲av熟女| 国产精品av久久久久免费| 一级作爱视频免费观看| 久久精品91无色码中文字幕| 国产精品 国内视频| 久久久久国内视频| 桃红色精品国产亚洲av| 啪啪无遮挡十八禁网站| 精品国产乱码久久久久久男人| 最近最新中文字幕大全免费视频| 男女视频在线观看网站免费 | 成人一区二区视频在线观看| 久久久久久久久免费视频了| www.熟女人妻精品国产| 国产在线精品亚洲第一网站| 日本在线视频免费播放| 国产精品 欧美亚洲| 国内久久婷婷六月综合欲色啪| 欧美不卡视频在线免费观看 | 最近视频中文字幕2019在线8| 日韩欧美免费精品| 久久中文字幕一级| 男女之事视频高清在线观看| 听说在线观看完整版免费高清| 日本免费a在线| 久久精品国产亚洲av高清一级| 俺也久久电影网| 黄片大片在线免费观看| 中文字幕精品亚洲无线码一区| 亚洲免费av在线视频| 可以在线观看的亚洲视频| 中出人妻视频一区二区| 最近最新中文字幕大全电影3| 精品久久久久久久人妻蜜臀av| 欧美高清成人免费视频www| 国产免费男女视频| www日本在线高清视频| 手机成人av网站| 午夜视频精品福利| www.自偷自拍.com| 成人国产综合亚洲| 国产99白浆流出| 国产精品久久久久久久电影 | 99riav亚洲国产免费| 18禁黄网站禁片午夜丰满| 非洲黑人性xxxx精品又粗又长| 亚洲人成伊人成综合网2020| xxxwww97欧美| 国产成人啪精品午夜网站| 国产精品 欧美亚洲| xxx96com| 国产精品野战在线观看| 人人妻人人看人人澡| 国语自产精品视频在线第100页| 欧美一区二区精品小视频在线| 99re在线观看精品视频| 免费高清视频大片| 欧美黑人欧美精品刺激| 精品免费久久久久久久清纯| 亚洲人成77777在线视频| cao死你这个sao货| 人成视频在线观看免费观看| 1024手机看黄色片| 中文字幕久久专区| 国产激情偷乱视频一区二区| 午夜激情av网站| 国产三级中文精品| 国产野战对白在线观看| 丁香欧美五月| 国产黄a三级三级三级人| 中文字幕熟女人妻在线| 国产成人精品无人区| 日本一区二区免费在线视频| www国产在线视频色| 久久人妻av系列| 窝窝影院91人妻| 亚洲av中文字字幕乱码综合| 天堂av国产一区二区熟女人妻 | 日日夜夜操网爽| 一级毛片高清免费大全| 亚洲av中文字字幕乱码综合| 国产激情偷乱视频一区二区| 人妻丰满熟妇av一区二区三区| 天堂影院成人在线观看| 亚洲人成网站高清观看| 色综合婷婷激情| 国产成+人综合+亚洲专区| 日本熟妇午夜| 最近最新中文字幕大全电影3| 日韩欧美在线二视频| 国模一区二区三区四区视频 | 男女之事视频高清在线观看| 麻豆国产97在线/欧美 | 亚洲av第一区精品v没综合| 一个人观看的视频www高清免费观看 | 在线观看66精品国产| 亚洲欧美精品综合一区二区三区| www.自偷自拍.com| 亚洲成人精品中文字幕电影| 国产蜜桃级精品一区二区三区| 久久99热这里只有精品18| 叶爱在线成人免费视频播放| 1024视频免费在线观看| 欧美日韩一级在线毛片| 蜜桃久久精品国产亚洲av| xxx96com| 丁香六月欧美| 久久久久国产精品人妻aⅴ院| 国语自产精品视频在线第100页| 999久久久精品免费观看国产| 亚洲精品久久成人aⅴ小说| 女生性感内裤真人,穿戴方法视频| 欧美在线一区亚洲| 国产精品爽爽va在线观看网站| or卡值多少钱| 嫁个100分男人电影在线观看| 亚洲人与动物交配视频| 老司机午夜福利在线观看视频| 777久久人妻少妇嫩草av网站| 国产精品野战在线观看| 国产亚洲精品一区二区www| 一区二区三区高清视频在线| 五月伊人婷婷丁香| 久久久久久久久久黄片| 久久天躁狠狠躁夜夜2o2o| 亚洲成人久久爱视频| 亚洲av成人精品一区久久| 在线十欧美十亚洲十日本专区| 人妻夜夜爽99麻豆av| 国产精品久久久av美女十八| 亚洲国产欧洲综合997久久,| 麻豆av在线久日| 久久久久性生活片| 50天的宝宝边吃奶边哭怎么回事| 又黄又粗又硬又大视频| 亚洲精品在线美女| 亚洲欧美日韩无卡精品| 亚洲国产欧美人成| 日本 欧美在线| 日本撒尿小便嘘嘘汇集6| 成人18禁高潮啪啪吃奶动态图| 又黄又爽又免费观看的视频| 97碰自拍视频| 国产精品av视频在线免费观看| av国产免费在线观看| 精品国产美女av久久久久小说| 亚洲av美国av| av在线天堂中文字幕| 免费看美女性在线毛片视频| 午夜亚洲福利在线播放| 欧美日韩亚洲综合一区二区三区_| 久久久久国内视频| 国产亚洲欧美98| 怎么达到女性高潮| 国产亚洲精品久久久久久毛片| 久久国产乱子伦精品免费另类| 中文字幕人妻丝袜一区二区| 啪啪无遮挡十八禁网站| 很黄的视频免费| 99国产精品99久久久久| 变态另类成人亚洲欧美熟女| 亚洲国产精品sss在线观看| 亚洲精品美女久久av网站| 国产精华一区二区三区| 精品久久蜜臀av无| 成人精品一区二区免费| 午夜两性在线视频| 久久精品国产清高在天天线| 叶爱在线成人免费视频播放| 国产真实乱freesex| 人妻久久中文字幕网| 一本精品99久久精品77| 久久精品亚洲精品国产色婷小说| 少妇粗大呻吟视频| 久久精品国产清高在天天线| 最近最新中文字幕大全免费视频| 国产单亲对白刺激| 99国产精品99久久久久| 国产视频一区二区在线看| 国产在线观看jvid| 久久人妻福利社区极品人妻图片| 99在线视频只有这里精品首页| √禁漫天堂资源中文www| 亚洲一区二区三区不卡视频| 日本免费一区二区三区高清不卡| 国内揄拍国产精品人妻在线| 母亲3免费完整高清在线观看| 夜夜夜夜夜久久久久| 高清在线国产一区| 久热爱精品视频在线9| 两个人免费观看高清视频| 欧美成人一区二区免费高清观看 | 精品国产乱码久久久久久男人| 两人在一起打扑克的视频| 亚洲天堂国产精品一区在线| 一本综合久久免费| 久久久久久九九精品二区国产 | 欧美中文日本在线观看视频| 久久精品亚洲精品国产色婷小说| 亚洲av成人不卡在线观看播放网| 日韩欧美一区二区三区在线观看| 18禁美女被吸乳视频| 香蕉国产在线看| 啦啦啦观看免费观看视频高清| 亚洲精品一卡2卡三卡4卡5卡| 国产av一区二区精品久久| 国产黄色小视频在线观看| 国产精品美女特级片免费视频播放器 | 九色成人免费人妻av| 午夜免费激情av| 黄色丝袜av网址大全| 国产精品乱码一区二三区的特点| 免费在线观看影片大全网站| 午夜免费观看网址| 一本一本综合久久| 亚洲国产精品久久男人天堂| www日本在线高清视频| 午夜影院日韩av| 狠狠狠狠99中文字幕| 国产成人av教育| 成人一区二区视频在线观看| 久久欧美精品欧美久久欧美| 香蕉av资源在线| 国模一区二区三区四区视频 | 无人区码免费观看不卡| 国产成人av激情在线播放| 精品电影一区二区在线| 岛国视频午夜一区免费看| 此物有八面人人有两片| 精品国产乱码久久久久久男人| 久久精品国产99精品国产亚洲性色| 国产1区2区3区精品| 中文亚洲av片在线观看爽| 波多野结衣高清作品| 国产成人影院久久av| 成人18禁在线播放| 欧美日韩国产亚洲二区| 国产一区二区在线观看日韩 | 女生性感内裤真人,穿戴方法视频| 欧美日韩福利视频一区二区| 中文字幕高清在线视频| avwww免费| bbb黄色大片| 国产精品永久免费网站| 岛国在线观看网站| 男人舔奶头视频| 搡老妇女老女人老熟妇| 精品无人区乱码1区二区| 特大巨黑吊av在线直播| 成人国产综合亚洲| 啦啦啦免费观看视频1| 久久香蕉国产精品| 亚洲av第一区精品v没综合| bbb黄色大片| 成人18禁在线播放| 午夜福利视频1000在线观看| 亚洲男人的天堂狠狠| 久久久国产欧美日韩av| 此物有八面人人有两片| 久久久久久久午夜电影| 中文字幕精品亚洲无线码一区| 好看av亚洲va欧美ⅴa在| 在线观看一区二区三区| 一边摸一边抽搐一进一小说| 亚洲欧美精品综合久久99| 小说图片视频综合网站| 草草在线视频免费看| 最近最新免费中文字幕在线| 精品国产乱子伦一区二区三区| 婷婷精品国产亚洲av在线| 日本a在线网址| 黑人欧美特级aaaaaa片| 午夜免费成人在线视频| 91成年电影在线观看| 99热6这里只有精品| 搞女人的毛片| 99精品欧美一区二区三区四区| 别揉我奶头~嗯~啊~动态视频| 看黄色毛片网站| 精品久久久久久,| 亚洲五月婷婷丁香| 亚洲 欧美一区二区三区| 国产一级毛片七仙女欲春2| 久久人妻福利社区极品人妻图片| 欧美成人免费av一区二区三区| 一级黄色大片毛片| 99热只有精品国产| 亚洲免费av在线视频| 日韩中文字幕欧美一区二区| 国产精品av久久久久免费| 国产视频内射| 中文资源天堂在线| 美女午夜性视频免费| 这个男人来自地球电影免费观看| 国内精品久久久久久久电影| 小说图片视频综合网站| 亚洲精品粉嫩美女一区| 成年免费大片在线观看| 国产熟女xx| 日韩精品免费视频一区二区三区| 一级片免费观看大全| 国产在线精品亚洲第一网站| 日韩欧美精品v在线| a级毛片在线看网站| 午夜久久久久精精品| 2021天堂中文幕一二区在线观| 人成视频在线观看免费观看| www.熟女人妻精品国产| 老司机靠b影院| 久久亚洲真实| 成人18禁高潮啪啪吃奶动态图| 亚洲精品在线美女| 成人午夜高清在线视频| 天堂影院成人在线观看| 老司机靠b影院| 母亲3免费完整高清在线观看| 日本在线视频免费播放| 欧美精品啪啪一区二区三区| 在线永久观看黄色视频| 欧美色欧美亚洲另类二区| 黄色成人免费大全| 99在线人妻在线中文字幕| 日本在线视频免费播放| 最近视频中文字幕2019在线8| 欧美成人免费av一区二区三区| 一级黄色大片毛片| 日本免费a在线| 国产在线精品亚洲第一网站| 日韩欧美国产一区二区入口| 久久性视频一级片| 久久久久久久久中文| 国产精品香港三级国产av潘金莲| 国产日本99.免费观看| 国产精品乱码一区二三区的特点| 1024香蕉在线观看| 欧美成人免费av一区二区三区| 在线a可以看的网站| 亚洲精品中文字幕一二三四区| 欧美大码av| 日本 av在线| 一边摸一边抽搐一进一小说| 看黄色毛片网站| 丰满的人妻完整版| 色综合欧美亚洲国产小说| 黄色 视频免费看| 不卡av一区二区三区| 九色成人免费人妻av| 欧美黄色淫秽网站| 国产三级中文精品| 亚洲av熟女| 好看av亚洲va欧美ⅴa在| 在线免费观看的www视频| 欧美3d第一页| 国产精品影院久久| av超薄肉色丝袜交足视频| netflix在线观看网站| 国产精品日韩av在线免费观看| 日本三级黄在线观看| 日韩免费av在线播放| 国模一区二区三区四区视频 | 成人av在线播放网站| 亚洲电影在线观看av| 最近视频中文字幕2019在线8| 日本一本二区三区精品| av福利片在线观看| 免费电影在线观看免费观看| 成人18禁在线播放| 2021天堂中文幕一二区在线观| 无人区码免费观看不卡| 全区人妻精品视频| www.www免费av| 欧美 亚洲 国产 日韩一| 亚洲中文av在线| 国产精品野战在线观看| 精品国产美女av久久久久小说| 亚洲一区高清亚洲精品| 国产男靠女视频免费网站| 日本一二三区视频观看| www日本在线高清视频| 搡老妇女老女人老熟妇| 啦啦啦观看免费观看视频高清| 亚洲男人天堂网一区| 熟女少妇亚洲综合色aaa.| 人人妻,人人澡人人爽秒播| 无人区码免费观看不卡| 亚洲精品在线美女| 两性夫妻黄色片| 国产精品一区二区三区四区免费观看 | 无限看片的www在线观看| 免费看美女性在线毛片视频| 久久 成人 亚洲| 欧美一区二区国产精品久久精品 | 最新在线观看一区二区三区| 久久精品91蜜桃| 午夜精品在线福利| 麻豆久久精品国产亚洲av| 日日干狠狠操夜夜爽| 最新在线观看一区二区三区| 无限看片的www在线观看| 男人舔女人的私密视频| 亚洲性夜色夜夜综合| 国产黄色小视频在线观看| 啦啦啦韩国在线观看视频| 日日摸夜夜添夜夜添小说| 国产又色又爽无遮挡免费看| 亚洲欧美激情综合另类| www日本在线高清视频| 日韩av在线大香蕉| 熟妇人妻久久中文字幕3abv| 亚洲男人天堂网一区| 国产精品 欧美亚洲| 亚洲电影在线观看av| 中国美女看黄片| 欧美不卡视频在线免费观看 | 国产精品久久电影中文字幕| 国产乱人伦免费视频| 国产精品精品国产色婷婷| 国产av又大| 手机成人av网站| 久久中文字幕一级| 蜜桃久久精品国产亚洲av| 亚洲国产看品久久| 午夜福利在线观看吧| 精品不卡国产一区二区三区| 不卡av一区二区三区| 日韩三级视频一区二区三区| 亚洲免费av在线视频| 中文资源天堂在线| 深夜精品福利| 色尼玛亚洲综合影院| 亚洲自拍偷在线| 精品福利观看| 人成视频在线观看免费观看| 特级一级黄色大片| 久久久国产精品麻豆|