• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于兩層模糊劃分的時間差分算法

    2013-10-29 08:26:00穆翔劉全傅啟明孫洪坤周鑫
    通信學(xué)報 2013年10期
    關(guān)鍵詞:模糊集硬質(zhì)規(guī)則

    穆翔,劉全,2,傅啟明,孫洪坤,周鑫

    (1. 蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2. 吉林大學(xué) 符號計算與知識工程教育部重點實驗室,吉林 長春 130012)

    1 引言

    強化學(xué)習(xí)(RL, reinforcement learning)是一種通過agent與環(huán)境進行交互學(xué)習(xí),以獲得最大累計獎賞值的機器學(xué)習(xí)方法[1,2]。通?;隈R爾科夫決策過程(MDP, Markov decision process)來定義強化學(xué)習(xí)問題的一般框架。當強化學(xué)習(xí)問題滿足MDP框架時,可以采用諸如動態(tài)規(guī)劃(DP, dynamic programming)、蒙特卡羅(MC, Monte Carlo)和時間差分(TD,temporal difference)等類型的算法求解最優(yōu)行為策略。

    傳統(tǒng)的強化學(xué)習(xí)方法一般用于求解小空間或離散空間的問題[1]。通過查詢表(lookup-table)存儲所有的狀態(tài)或者狀態(tài)動作對所對應(yīng)的值函數(shù),在學(xué)習(xí)過程中不斷地修改表項的值直至收斂,最終求得問題的最優(yōu)行為策略。這類方法雖然能夠有效地解決一些簡單的任務(wù),但不適用于求解大空間或連續(xù)空間的問題。目前解決此類問題最常用的方法是將函數(shù)逼近與強化學(xué)習(xí)算法相結(jié)合。通過采用帶有一組參數(shù)的近似函數(shù)來描述強化學(xué)習(xí)中的值函數(shù),使學(xué)習(xí)到的經(jīng)驗信息能夠從狀態(tài)空間子集泛化至整個狀態(tài)空間。Agent根據(jù)此近似函數(shù)選擇最優(yōu)動作序列[2~4]。當前已有多種函數(shù)逼近方法應(yīng)用于強化學(xué)習(xí)問題。SUTTON等人于 2009年提出了梯度TD(GTD, gradient TD)學(xué)習(xí)算法,該算法將TD學(xué)習(xí)算法與線性函數(shù)逼近相結(jié)合,同時引入一個與Bellman誤差相關(guān)的新的目標函數(shù)[5]。SHERSTOV等人于2005年提出一種基于在線自適應(yīng)Tile-Coding編碼的線性函數(shù)逼近算法,通過實驗驗證了算法的有效性[6]。HEINEN等人于2010年提出利用增量式概率神經(jīng)網(wǎng)絡(luò)來逼近強化學(xué)習(xí)問題的值函數(shù),可以較好地求解連續(xù)狀態(tài)空間的問題[7]。

    上文所述及目前常見的基于函數(shù)逼近的強化學(xué)習(xí)算法通常收斂速度較慢,而且一般只能用于求解離散行為策略[5~8]。基于模糊推理系統(tǒng)(FIS, fuzzy inference system)的強化學(xué)習(xí)算法通過引入先驗知識,不僅可以有效地加快求解連續(xù)空間問題時的收斂速度,還能獲得連續(xù)行為策略[9,10]。TADASHI等人提出了模糊插值Q學(xué)習(xí)算法,可以用于求解連續(xù)空間問題,但算法的性能較依賴于先驗知識[11]。GLORENNEC和JOUFFE將FIS與Q學(xué)習(xí)算法相結(jié)合,利用先驗知識并構(gòu)造全局近似器,有效地加快了收斂速度,但該算法不能用于求解連續(xù)行為策略[12]。TOKARCHUK等人提出的模糊Sarsa算法,在不影響算法性能的情況下可以有效地減小狀態(tài)空間的規(guī)模,進而加快收斂速度,但該算法應(yīng)用于多維狀態(tài)空間問題時,更容易出現(xiàn)“維數(shù)災(zāi)”問題[13]。HSU等人提出的基于二型模糊邏輯的自組織 Q學(xué)習(xí)算法,對于噪聲干擾有很強的頑健性,但時間復(fù)雜度較高,且不能保證收斂[10]。

    雖然基于模糊推理系統(tǒng)的強化學(xué)習(xí)算法已經(jīng)可以有效地加快收斂速度,但傳統(tǒng)的基于一個模糊規(guī)則庫的、并可用于求解關(guān)于狀態(tài)的連續(xù)行為策略的Q值迭代算法,依舊存在由于某些原因而導(dǎo)致收斂速度慢的問題:算法的某一輪迭代會出現(xiàn)狀態(tài)動作對所對應(yīng)的Q值不唯一的情況。若算法進入下一輪迭代時,需要用到的狀態(tài)動作對的Q值恰好是上述Q值不唯一的情況。已有的此類算法會簡單地隨機選擇一個狀態(tài)動作對所對應(yīng)的Q值,而并沒有固定的選擇策略,或者固定選擇策略也不一定有效。由于算法在整個的迭代過程中會多次出現(xiàn)這種情況,這會較大地減緩該類型算法的收斂速度。

    針對傳統(tǒng)的基于查詢表和一個規(guī)則庫的 Q值迭代算法收斂速度慢的問題,本文提出一種基于兩層模糊劃分的在策略時間差分算法——DFP-OPTD(on-policy TD based on double-layer fuzzy partitioning),并在理論上證明其收斂。算法在進行 2次模糊劃分時,首先在第一層將連續(xù)狀態(tài)空間進行模糊劃分,同時求得連續(xù)動作;其次,在第二層將第一層求得的連續(xù)動作進行模糊劃分,同時求得Q值函數(shù);最后,使用梯度下降方法,更新兩層模糊劃分共同的規(guī)則后件參數(shù)。將DFP-OPTD算法應(yīng)用于倒立擺問題中,實驗結(jié)果表明,DFP-OPTD可以獲得連續(xù)行為策略,且具有較好的收斂性能。

    2 相關(guān)理論

    2.1 馬爾科夫決策過程

    在強化學(xué)習(xí)框架下,agent與環(huán)境交互構(gòu)成一個有限的MDP[13],該MDP可描述為一個四元組形式M = < X, U , ρ,f> ,其中:

    1)X為所有狀態(tài)的集合,且xt∈X為agent在t時刻所處的狀態(tài);

    2)U為所有動作的集合,且ut∈U為agent在t時刻所采取的動作;

    3)ρ : X × U →Rn為獎賞值函數(shù),表示t時刻的狀態(tài) xt,在采取動作 ut并轉(zhuǎn)移到狀態(tài) xt+1時,agent所獲得的立即獎賞 r ( xt, ut),此外,用 rt表示以r( xt, ut)為均值的分布所產(chǎn)生的隨機獎賞;

    4) f :X × U×X→[0,1]為狀態(tài)轉(zhuǎn)移函數(shù),其中f( x, u, x ') 表示狀態(tài)x在采取動作u時轉(zhuǎn)移到 x '的概率。

    強化學(xué)習(xí)中的策略 h ( x, u)是從狀態(tài)空間X到動作空間U的映射,h: X→U。它表示在狀態(tài)x處選擇動作u的概率。利用策略 h( x, u)可以求解出狀態(tài)值函數(shù)(V值函數(shù))或動作值函數(shù)(Q值函數(shù))。

    強化學(xué)習(xí)的目標是求解最優(yōu)行為策略 h*,它是最優(yōu)值函數(shù)的貪心策略,且在所有的策略中滿足?x ∈ X: Vh*(x) ≥ Vh(x)。在最優(yōu)策略 h*下,最優(yōu)V值函數(shù)滿足式(1),最優(yōu)Q值函數(shù)滿足式(2),為

    當f和ρ已知時,可以采用動態(tài)規(guī)劃算法求解最優(yōu)行為策略;當f和ρ未知時,則可以采用 TD類型的算法求解最優(yōu)行為策略,例如離策略的Q學(xué)習(xí)算法和在策略(on-policy)的Sarsa算法。

    定義1是一個有界的MDP約束(主要是對狀態(tài)空間、動作空間、獎賞值以及值函數(shù)空間的界定),本文所有的算法都滿足該定義。

    定義1 有界的MDP問題 已知X和U都是有限集合,令Z表示狀態(tài)動作集合,即Z: X×U,則Z也為有限集合;獎賞值函數(shù)ρ滿足0 ≤ ρ (x, u ) ≤ C ;MDP的邊界因子 β =1(1 - γ),其中,γ為折扣因子,且對于?x∈X及?( x , u)∈ Z ,0 ≤ V ( x) ≤ β C和0 ≤ Q( x, u)≤ β C成立。

    2.2 作為逼近器的模糊規(guī)則庫

    由文獻[14]可得,模糊規(guī)則庫的輸出可以用作Q值函數(shù)的逼近器。當前有多種類型的模糊規(guī)則[15],其中,TSK 形式的規(guī)則如式(3)所示,描述了規(guī)則的輸出和輸入部分的關(guān)系為

    其中,r∈1,…,NR是規(guī)則的下標,Rr表示規(guī)則庫中的第r條規(guī)則, x =(x1,x2,… ,xN)表示N維輸入?yún)?shù)。是第r條模糊規(guī)則中對應(yīng)于第i維輸入變量的模糊集,每一個模糊集都由一個隸屬度函數(shù)μχr,i(xi):X →[0,1]定義。y是輸出變量,且g1(x),…,gNR(x):X→Y是以x為自變量的多項式函數(shù)。

    當系統(tǒng)輸入精確值 x =(x1,x2,… ,xN)時,可以計算它在第r條規(guī)則下的激活強度 φr(x)(運算規(guī)則為T-norm積運算)為

    將 φr(x)用于計算模糊規(guī)則的輸出值,以激活強度 φr(x)為權(quán)重,與其對應(yīng)的后件值yr相乘并求和,可以得到最終的輸出值為

    通常采用 MSE(mean square error)作為模糊規(guī)則庫用于逼近目標函數(shù)時的逼近誤差。當規(guī)則集合達到最優(yōu)逼近效果時,其所有模糊規(guī)則后件值所構(gòu)成的向量值θ為

    其中, Yi( x)為目標函數(shù),( x)為逼近函數(shù)。

    3 基于雙層模糊劃分的在策略TD算法

    3.1 Q值函數(shù)的計算和參數(shù)更新

    在MDP框架下,使用兩層模糊劃分相對應(yīng)的兩層模糊規(guī)則庫以計算Q值函數(shù)。

    使用兩層糊規(guī)則庫逼近Q值函數(shù)的框架如圖1所示,其中左框內(nèi)的模糊規(guī)則庫1(FRB1, fuzzy rule base 1)以狀態(tài)為輸入,通過FRB1獲得的連續(xù)動作為輸出;右框內(nèi)的模糊規(guī)則庫2 (FRB2, fuzzy rule base 2)以從FRB1中獲得的連續(xù)動作為輸入,通過FRB2獲得的連續(xù)動作的Q值分量作為輸出;最后,通過將兩層模糊規(guī)則庫輸出部分相結(jié)合,逼近在狀態(tài)x時采取連續(xù)動作 ()C x的Q值函數(shù)。

    圖1 使用兩層模糊規(guī)則庫逼近Q值函數(shù)的框架

    兩層模糊劃分的主要內(nèi)容如下所述。

    1) 模糊規(guī)則庫1中的模糊規(guī)則如下

    其中, x =(x1, x2,…,xN)為狀態(tài), ur,j為第r條模糊規(guī)則中的第j個離散動作。M個離散動作由動作空間劃分而成,qr,j為第r條模糊規(guī)則中對應(yīng)于第j個離散動作的Q值分量。當輸入狀態(tài)為x時,第r條規(guī)則的激活強度為

    在被狀態(tài)x激活的規(guī)則rR中,根據(jù),rjq 的大小,用 ε-greedy動作選擇策略從M個離散動作中選出一個動作,該動作稱為激活動作,用表示。因而,結(jié)合式(5),可以得到狀態(tài)為x時的連續(xù)動作 ()Cx為

    把 C (x)稱為連續(xù)動作的原因是 C (x)的變化是關(guān)于狀態(tài)x連續(xù)的,它并非指的是狀態(tài)x可以選擇到連續(xù)動作空間中的任意動作。為簡化式(8),正則化激活強度 φr(x),可得

    則式(8)可寫為

    2) 模糊規(guī)則庫2中的模糊規(guī)則如下

    FRB2中規(guī)則的構(gòu)建依賴于 FRB1,其M條規(guī)則中的規(guī)則以 FRB1中的第r條規(guī)則為基礎(chǔ):前件部分的νr,j為模糊集,它以FRB1中第r條規(guī)則的第j個動作為模糊中心,并用隸屬度函數(shù) σνi,j(u)描述;后件部分的 qr,j與FRB1中規(guī)則后件的 qr,j一一對應(yīng)。

    將從FRB1中得到的連續(xù)動作 C (x)作為FRB2中規(guī)則的輸入,可以激活 NR?條FRB2中的規(guī)則。通過FRB2的規(guī)則的輸出,可以得到FRB1中第r條規(guī)則所對應(yīng)的Q值分量(x,C(x))為

    與推導(dǎo)公式(9)的方法相同,正則化式(11)中的隸屬度函數(shù) σνr,j(C(x)),得到μνr,j(C(x))為

    則式(11)可寫為

    由式(13)可得,F(xiàn)RB1的激活規(guī)則 Rr所求得的Q值分量為(x,C(x)),則對FRB1中所有的激活規(guī)則,可以得到在狀態(tài)x下執(zhí)行連續(xù)動作 C (x)時的Q值為

    由式(14)可以看出,Q值的大小取決于兩層FRB中的模糊集和共同的后件變量,rjθ。由于模糊集是作為先驗知識提前設(shè)定的,且在算法中不做改變,因而要得到收斂的Q值,需要在算法執(zhí)行過程中更新,rjθ,直到收斂。

    為使FRB逼近Q值函數(shù)時的逼近誤差最小,即參數(shù)向量θ滿足式(6),DFP-OPTD利用梯度下降(GD,gradient descent)方法,結(jié)合計算Q值函數(shù)的Bellman方程,更新兩層FRB的共同后件參數(shù)向量θ為

    其中,rt+1+γQt( xt+1, ut+1) - Qt( xt, ut)是TD誤差。令δ = rt+1+ γ Qt( xt+1, ut+1) - Qt( xt, ut),結(jié)合后向TD算法[1],可以得到參數(shù)更新公式為

    其中, r = 1,… ,NR, j = 1,… ,M 。

    則式(16)可進一步表示為

    3.2 DFP-OPTD算法的學(xué)習(xí)過程

    基于文獻[1]中的在策略TD算法,結(jié)合本文3.1節(jié)描述的內(nèi)容,得到算法DFP-OPTD。該算法不僅可以解決強化學(xué)習(xí)中連續(xù)狀態(tài)、離散動作空間的問題,還可以解決連續(xù)狀態(tài)、連續(xù)動作空間的問題。算法1為DFP-OPTD的學(xué)習(xí)流程。

    算法1 基于雙層模糊劃→分的DFP-OPTD算法

    2) Repeat(對每一個情節(jié)):

    3) x←初始化狀態(tài)

    4) 根據(jù)式(7)計算 φr(x)

    5) 根據(jù)ε-greedy策略選擇激活動作 u?r

    6) 根據(jù)式(10)選擇狀態(tài)為x時的執(zhí)行動作u

    7) 根據(jù)式(12)計算 μνr,j(u)

    8) 根據(jù)式(14)計算值函數(shù) Qu

    9) Repeat(對情節(jié)中的每一步)

    10) 執(zhí)行動作u,獲得下一狀態(tài)x'和立即獎賞r

    11) δ ← r -Qu

    13) 根據(jù)式(10)選擇狀態(tài)為x'時的執(zhí)行動作 u '

    14) 根據(jù)式(12)計算 μνr,j(u')

    15) 根據(jù)式(7)計算 φr(x')

    16) 根據(jù)式(14)計算值函數(shù) Qu'

    17) δ ←δ+γQu'

    18)θ = θ + α δφr(x )μνr,j(u)

    19) u←u'

    20) Untilx'為終止狀態(tài)

    21) Until運行完設(shè)定情節(jié)數(shù)目或滿足其他終止條件

    3.3 算法收斂性分析

    在文獻[16]和文獻[17]中,針對在策略(onpolicy)TD算法在使用線性函數(shù)逼近時的收斂性做了詳細的分析,當該類型的算法滿足一定的假設(shè)和引理時,可以以1的概率收斂。DFP-OPTD正是一種使用線性函數(shù)逼近的在策略TD算法,當該算法滿足文獻[16]中定義的證明算法收斂所需的假設(shè)和引理時,即可說明其收斂。本文不再贅述對其收斂性的詳細證明。

    假設(shè)1 MDP中的狀態(tài)轉(zhuǎn)移函數(shù)和獎賞函數(shù)都服從穩(wěn)定的分布。

    引理1 DFP-OPTD依賴的馬爾科夫鏈具有不可約性和非周期性,且算法的立即獎賞和值函數(shù)有界。

    證明 首先證明其不可約性。根據(jù)馬爾科夫過程的性質(zhì),如果一個馬爾科夫過程的任意2個狀態(tài)可以相互轉(zhuǎn)移,則它具有不可約性[18]。DFP-OPTD用于解決滿足 MDP框架的強化學(xué)習(xí)問題,且該MDP滿足定義1。因而對于該MDP中的任意狀態(tài)x,必定存在一個f滿足 f ( x, u, x')≥ 0 ,這表明狀態(tài)x可以被無限次訪問。因而可得每一個狀態(tài)都可轉(zhuǎn)移到任意的其他狀態(tài)。因此,DFP-OPTD依賴的馬爾科夫鏈具有不可約性。

    其次證明其非周期性。對于不可約的馬爾科夫鏈,僅需證明某一個狀態(tài)具有非周期性,即可證明整個馬爾科夫鏈具有非周期性。而證明一個狀態(tài)具有非周期性,只需證明該狀態(tài)具有自回歸性[18]。在DFP-OPTD依賴的MDP中,對于狀態(tài)x,必定存在一個f滿足 f ( x, u, x) > 0 ,它表明了狀態(tài)x具有自回歸性,由此可得該MDP具有非周期性。因此,DFP-OPTD依賴的馬爾科夫鏈的非周期性得證。

    最后證明其立即獎賞和值函數(shù)有界。由文獻[1]可知,值函數(shù)是折扣的累計回報函數(shù),即滿足又由定義1可得,獎賞值函數(shù)ρ有界,且0 ≤ ρ (x, u ) ≤ C ,C為一個非負數(shù)。因而有

    由不等式(19)可以得出,值函數(shù) Q ( x, u)有界。

    綜上所述,引理1得證。

    條件 1 對每一個隸屬度函數(shù)i都存在唯一的狀態(tài) xi,使 μi( xi) > μi( x) ,?x ≠ xi,而其他的隸屬度函數(shù)在狀態(tài) xi處的隸屬度值都為 0,即有 μi'( xi) = 0,? i ' ≠i。

    引理2 DFP-OPTD的基函數(shù)有界,并且基函數(shù)向量線性無關(guān)。

    證明 首先證明其基函數(shù)有界。由 φr(x)∈[0,1]和μνr,j(C(x))∈ [0,1]可得

    其中,||||∞為無窮范式。已知DFP-OPTD的基函數(shù)為φr(x)μνr,j(C(x)),又由不等式(20)可得,DFP-OPTD的基函數(shù)有界。

    其次證明基函數(shù)向量線性無關(guān)。為使DFP-OPTD的基函數(shù)向量線性無關(guān),令算法所使用的基函數(shù)滿足條件1[14],其函數(shù)形式如圖3所示。由文獻[14]可得,當滿足條件1時,基函數(shù)向量線性無關(guān)。

    可以將條件1的要求適當?shù)胤艑挘?μi'( xi)在狀態(tài)xi處的隸屬度為一個較小的值,例如標準差較小的高斯隸屬度函數(shù)。將該隸屬度函數(shù)用于DFP-OPTD中,通過數(shù)次實驗可得 DFP-OPTD同樣可以收斂,但目前還不能對該收斂性給出理論的證明。

    綜上所述,引理2得證。

    引理3 DFP-OPTD的步長參數(shù)α滿足

    證明 DFP-OPTD所用的步長參數(shù)α = 1 /(t + 1 ),其中,t為時間步。使用牛頓冪級數(shù)展開可以得到

    不等式(23)中的不等式部分可通過歸納法證明,因而當t→∞時,滿足

    由式(22)和不等式(23)可以得出,DFP-OPTD所用的步長參數(shù)滿足式(21),即引理3得證。

    定理1 在假設(shè)1的條件下,若DFP-OPTD滿足引理1~引理3,則算法以1的概率收斂。

    證明 由文獻[16]可以得出,在假設(shè)1成立的條件下,在策略(on-policy)TD算法在使用線性函數(shù)逼近時,如果滿足引理1~引理3,該類型的算法收斂。滿足假設(shè)1的算法DFP-OPTD是一種利用線性函數(shù)逼近的在策略TD算法,且該算法對引理1~引理3成立。因而可以得出,DFP-OPTD以1的概率收斂。

    4 實驗結(jié)果及分析

    本文以強化學(xué)習(xí)中經(jīng)典的情節(jié)式問題——倒立擺問題為例,驗證DFP-OPTD的收斂性能和求得的連續(xù)行為策略的作用。

    倒立擺問題的示意如圖2所示,一個可以左右移動的小車位于水平面上,上面放置一根底端與小車相連且可以在一定角度范圍內(nèi)自由轉(zhuǎn)動的硬質(zhì)桿,其任務(wù)是通過小車的水平移動使硬質(zhì)桿可以在一定的角度范圍內(nèi)([- π / 2,π / 2])豎立于垂直方向。同樣將該問題建立為一個MDP模型:系統(tǒng)的狀態(tài)是1個二維變量,用硬質(zhì)桿與垂直方向的夾角θ和硬質(zhì)桿的角速度表示,即,且有和∈[-1 6π, 16π](rad/s);系統(tǒng)的動作為施加在小車上的力,其取值范圍為[-5 0,50](N)。此外,施加的力上有外力的隨機擾動,該外力服從[-1 0,10](N)的均勻分布。系統(tǒng)的動力學(xué)特性描述為

    其中, g = 9 .8 m/s2為重力加速度, m = 2 .0 kg為硬質(zhì)桿的質(zhì)量,M = 8 .0 kg為小車的質(zhì)量,l = 0 .5 m為硬質(zhì)桿的長度,常數(shù) α = 1 /(m + M )。系統(tǒng)的獎賞變化取決于狀態(tài)的變化,在每一個時間步下,當硬質(zhì)桿與垂直方向的角度不超過π/2時,會收到大小為0的立即獎賞。而超過π/2時收到的立即獎賞為-1,同時該情節(jié)結(jié)束。

    圖2 倒立擺

    將 DFP-OPTD算法與 SUTTON等人提出的GD-Sarsa(λ)算法[3]進行比較。設(shè)置 DFP-OPTD 所需的參數(shù),用三角隸屬度函數(shù)作為FRB1和FRB2的模糊集的隸屬度函數(shù)式(除了狀態(tài)的定義域不同,夾角和角速度的模糊隸屬度函數(shù)形式如圖3所示):分別采用 20個模糊中心等距的模糊集對二維的連續(xù)狀態(tài)空間的每一維進行三角模糊劃分,模糊集的個數(shù)為20×20=400;同理,用12個模糊中心等距的模糊集對連續(xù)動作空間進行三角模糊劃分,模糊集的個數(shù)為 12。其他參數(shù)設(shè)置為 ε =0.001,α=0.9,γ= 1 .0。GD-Sarsa(λ)中采用10個9×9的Tilings來劃分狀態(tài)空間,參數(shù)設(shè)置依據(jù)文獻[1]中給出的最優(yōu)實驗參數(shù):ε = 0 .001,α =0.14,λ=0.3,γ=1.0。

    圖3 三角隸屬度函數(shù)

    DFP-OPTD,GD-Sarsa(λ)針對倒立擺問題進行30次獨立仿真實驗的結(jié)果如圖4所示,圖中橫坐標表示情節(jié)數(shù),縱坐標表示硬質(zhì)桿豎立于垂直方向及兩側(cè)的一定角度范圍內(nèi)所用的平均時間步。分析圖4可得,DFP-OPTD在收斂性能上明顯優(yōu)于GD-Sarsa(λ)。

    圖4 2種算法收斂性能的比較

    2種算法的詳細性能比較如表1所示,其中,以 DFP-OPTD的一個平均迭代步所需的時間作為基準時間。

    表1 2種算法在倒立擺問題中性能的比較

    圖 5描述的分別為 DFP-OPTD和 GD-Sarsa(λ)這 2種算法在時間步增大的過程中,硬質(zhì)桿與垂直方向的角度變化情況。其中,GD-Sarsa(λ)基于離散動作,DFP-OPTD基于連續(xù)動作。從圖中可以清晰地看出,DFP-OPTD所獲得的連續(xù)行為策略可以使硬質(zhì)桿擺動的角度只在較小的范圍內(nèi)變化,而GD-Sarsa(λ)所獲得的離散行為策略會使硬質(zhì)桿在較大的角度范圍內(nèi)擺動,這說明了DFP-OPTD求得的策略的穩(wěn)定性優(yōu)于 GD-Sarsa(λ)。因而,DFP-OPTD更適用于求解對策略穩(wěn)定性要求較高的問題。

    圖5 分別使用上述2種算法時,硬質(zhì)桿的角度θ的變化情況

    5 結(jié)束語

    本文針對傳統(tǒng)的強化學(xué)習(xí)算法中使用查詢表或者函數(shù)逼近時收斂速度慢且不易獲得連續(xù)行為策略的問題,提出一種基于兩層模糊劃分的強化學(xué)習(xí)算法——DFP-OPTD。該算法先將狀態(tài)進行模糊劃分,再將第一層模糊規(guī)則庫所輸出的連續(xù)動作,作為第二層模糊規(guī)則庫的輸入,同時對動作進行模糊劃分。最后將這兩層模糊規(guī)則庫相結(jié)合以得到逼近的Q值函數(shù)。以該逼近的Q值函數(shù)與真實Q值函數(shù)的差值平方作為逼近誤差,使用梯度下降方法更新2個模糊規(guī)則庫中規(guī)則的共同后件值。將該算法與其他 3種較新的相近算法應(yīng)用于強化學(xué)習(xí)中經(jīng)典的倒立擺問題中,通過實驗數(shù)據(jù)分析可以得到,相比于已有的只使用一層模糊劃分的強化學(xué)習(xí)算法,DFP-OPTD雖然增加了時間復(fù)雜度,但需要較少的收斂步數(shù)。相比于基于查詢表或者其他的函數(shù)逼近方法,DFPOPTD有更好的收斂性能,且可以獲得連續(xù)行為策略。

    DFP-OPTD的性能主要依賴于兩層模糊劃分,而模糊規(guī)則庫的逼近性能主要取決于模糊集的隸屬度函數(shù)和模糊規(guī)則的個數(shù)。本文將隸屬度函數(shù)和規(guī)則個數(shù)作為先驗知識給出,且在算法執(zhí)行過程中不做改變。為了獲得更好的收斂性能,下一步將考慮使用合適的優(yōu)化算法,使DFP-OPTD能在運行的過程中不斷優(yōu)化隸屬度函數(shù),并且能夠自適應(yīng)地調(diào)整模糊規(guī)則的條數(shù)。

    [1] SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 1998.

    [2] 劉全, 閆其粹, 伏玉琛等. 一種基于啟發(fā)式獎賞函數(shù)的分層強化學(xué)習(xí)方法[J]. 計算機研究與發(fā)展, 2011, 48(12): 2352-2358.LIU Q, YAN Q C, FU Y C, et al. A hierarchical reinforcement learning method based on heuristic reward function[J]. Journal of Computer Research and Development, 2011, 48(12): 2352-2358.

    [3] SUTTON R S, MCALLESTER D, SINGH S, et al. Policy gradient methods for reinforcement learning with function approximation[A].Proc of the 16th Annual Conference on Neural Information Processing Systems[C]. Denver, 1999. 1057-1063.

    [4] MAEI H R, SUTTON R S. GQ(λ): a general gradient algorithm for temporal difference prediction learning with eligibility traces[A]. International Conference on Artificial General Intelligence[C]. Lugano,2010. 91-96.

    [5] SUTTON R S, SZEPESV′ARI CS, MAEI H R. A convergent O(n)algorithm for off-policy temporal-difference learning with linear function approximation[A]. Proc of the 22nd Annual Conference on Neural Information Processing Systems[C]. Vancouver, 2009. 1609-1616.

    [6] SHERSTOV A A, STONE P. Function approximation via tile coding:automating parameter choice[A]. Proc of the 5th Symposium on Abstraction, Reformulation and Approximation[C]. New York, USA, 2005.194-205.

    [7] HEINEN M R, ENGEL P M. An incremental probabilistic neural network for regression and reinforcement learning tasks[A]. Proc of the 20th International Conference on Artificial Neural Networks[C].Berlin, 2010. 170-179.

    [8] PAZIS J, LAGOUDAKIS M G. Learning continuous-action control policies[A]. Proc of the IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning[C]. Washington, 2009. 169-176.[9] BONARINI A, LAZARIC A, MONTRONE F, et al. Reinforcement distribution in fuzzy Q-learning[J]. Fuzzy Sets and Systems, 2009,160(10):1420-1443.

    [10] HSU C H, JUANG C F. Self-organizing interval type-2 fuzzy Q-learning for reinforcement fuzzy control[A]. Proc of the 2011 IEEE International Conference on Systems, Man, and Cybernetics[C]. New Jersey, 2011. 2033-2038.

    [11] TADASHI H, AKINORI F, OSAMU, et al. Fuzzy interpolation-based Q-learning with continuous states and actions[A]. Proc of the Fifth IEEE International Conference on Fuzzy Systems[C]. New York, USA,2011.594-600.

    [12] GLORENNEC P Y, JOUFFE L. Fuzzy Q-learning[A]. Proc of the Sixth IEEE International Conference on Fuzzy Systems[C]. Cambridge, 1997.659-662.

    [13] CHANG H S, FU M C, HU J, et al. Simulation-based Algorithms for Markov Decision Processes[M]. New York: Springer, 2007.

    [14] LUCIAN B, ROBERT B, BART D S, et al. Reinforcement Learning and Dynamic Programming Using Function Approximation[M]. Florida: CRC Press, 2010.

    [15] CASTILLO O, MELIN P. Type-2 Fuzzy Logic: Theory and Applications[M]. New York: Springer, 2008.

    [16] TSITSIKLIS J N, ROY V B. An analysis of temporal-difference learning with function approximation[J]. IEEE Transactions on Automatic Control, 1997, 42(5):674-690.

    [17] DAYAN P D. The convergence of TD(λ) for general λ[J]. Machine Learning, 1992, 8(3-4):341-362.

    [18] 劉次華. 隨機過程[M]. 武漢: 華中科技大學(xué)出版社, 2008.LIU C H. Stochastic Process[M]. Wuhan: Huazhong University of Science and Technology Press, 2008.

    猜你喜歡
    模糊集硬質(zhì)規(guī)則
    50號硬質(zhì)瀝青在海南省瀝青路面中的應(yīng)用研究
    石油瀝青(2022年4期)2022-09-03 09:30:04
    煤基超硬質(zhì)瀝青改性瀝青研究現(xiàn)狀與評述
    石油瀝青(2022年3期)2022-08-26 09:13:06
    撐竿跳規(guī)則的制定
    數(shù)獨的規(guī)則和演變
    基于上下截集的粗糙模糊集的運算性質(zhì)
    圓盤鋸超硬質(zhì)耐磨被覆層下方防磨損措施
    石材(2020年11期)2021-01-08 09:21:48
    硬質(zhì)道路石油瀝青產(chǎn)品開發(fā)
    石油瀝青(2019年2期)2019-04-28 08:42:24
    讓規(guī)則不規(guī)則
    Coco薇(2017年11期)2018-01-03 20:59:57
    TPP反腐敗規(guī)則對我國的啟示
    E-不變凸模糊集
    亚洲第一欧美日韩一区二区三区| 天天躁狠狠躁夜夜躁狠狠躁| 久久久久久国产a免费观看| 一边摸一边抽搐一进一小说| 91麻豆av在线| 亚洲va日本ⅴa欧美va伊人久久| 日韩免费av在线播放| 日本精品一区二区三区蜜桃| tocl精华| 国内精品久久久久精免费| 女同久久另类99精品国产91| 亚洲精品色激情综合| 国产精品久久久久久人妻精品电影| 精品无人区乱码1区二区| 成人一区二区视频在线观看| 999久久久国产精品视频| 一二三四社区在线视频社区8| 午夜免费激情av| 色尼玛亚洲综合影院| 国产精品国产高清国产av| 男女午夜视频在线观看| 亚洲精品中文字幕一二三四区| 久久这里只有精品19| 免费一级毛片在线播放高清视频| 人人妻,人人澡人人爽秒播| 欧洲精品卡2卡3卡4卡5卡区| 成人永久免费在线观看视频| 中文字幕人成人乱码亚洲影| 亚洲精华国产精华精| 中出人妻视频一区二区| 婷婷精品国产亚洲av| 午夜福利欧美成人| 久久精品91无色码中文字幕| 色尼玛亚洲综合影院| 老司机在亚洲福利影院| 日本 av在线| cao死你这个sao货| 成人18禁高潮啪啪吃奶动态图| 侵犯人妻中文字幕一二三四区| 久久精品aⅴ一区二区三区四区| 国产成人精品久久二区二区91| 中出人妻视频一区二区| 亚洲专区国产一区二区| 国产免费av片在线观看野外av| videosex国产| aaaaa片日本免费| 亚洲午夜理论影院| 美女大奶头视频| 免费看美女性在线毛片视频| 成人三级做爰电影| 色老头精品视频在线观看| 精华霜和精华液先用哪个| 搡老妇女老女人老熟妇| 亚洲第一电影网av| 成年版毛片免费区| 久久99热这里只有精品18| 国产精品 国内视频| 国产久久久一区二区三区| 欧美不卡视频在线免费观看 | 久久精品国产亚洲av高清一级| 首页视频小说图片口味搜索| 欧美性长视频在线观看| 国产一卡二卡三卡精品| 久99久视频精品免费| 窝窝影院91人妻| 日韩免费av在线播放| 成人免费观看视频高清| 成人亚洲精品av一区二区| 曰老女人黄片| 88av欧美| 很黄的视频免费| 黑人操中国人逼视频| 99国产极品粉嫩在线观看| 国产一区二区三区在线臀色熟女| 可以免费在线观看a视频的电影网站| 757午夜福利合集在线观看| 巨乳人妻的诱惑在线观看| 久久精品国产亚洲av高清一级| 精品久久久久久成人av| 亚洲精品在线美女| 久久久精品欧美日韩精品| e午夜精品久久久久久久| 国产精品亚洲美女久久久| 巨乳人妻的诱惑在线观看| 夜夜爽天天搞| 国产99久久九九免费精品| 午夜视频精品福利| 男女之事视频高清在线观看| 久久热在线av| 大型黄色视频在线免费观看| 搡老妇女老女人老熟妇| 欧美久久黑人一区二区| 男人舔女人的私密视频| 性色av乱码一区二区三区2| 精品欧美一区二区三区在线| 亚洲成人免费电影在线观看| 天堂动漫精品| 首页视频小说图片口味搜索| 亚洲色图av天堂| 国产高清有码在线观看视频 | 精品一区二区三区av网在线观看| 亚洲国产欧美日韩在线播放| 免费观看人在逋| 亚洲av电影不卡..在线观看| 欧美日韩黄片免| 88av欧美| 两人在一起打扑克的视频| 黑人操中国人逼视频| 无遮挡黄片免费观看| 大型av网站在线播放| 国产精品永久免费网站| 国产成人欧美| 51午夜福利影视在线观看| 国产成人啪精品午夜网站| 精品不卡国产一区二区三区| 国产精品日韩av在线免费观看| av片东京热男人的天堂| 亚洲色图av天堂| 99热只有精品国产| 日韩有码中文字幕| 白带黄色成豆腐渣| 波多野结衣高清作品| 国产成人av教育| 国产精品亚洲美女久久久| 久热这里只有精品99| 禁无遮挡网站| 中文字幕精品免费在线观看视频| 亚洲精品久久成人aⅴ小说| 十八禁人妻一区二区| 啦啦啦观看免费观看视频高清| 日韩精品青青久久久久久| 91av网站免费观看| 国产激情久久老熟女| 一边摸一边做爽爽视频免费| 久久久精品欧美日韩精品| 成人亚洲精品av一区二区| 熟女电影av网| 亚洲中文av在线| 性欧美人与动物交配| 亚洲自偷自拍图片 自拍| 久久婷婷人人爽人人干人人爱| 制服诱惑二区| 又黄又爽又免费观看的视频| 99在线人妻在线中文字幕| 欧美色欧美亚洲另类二区| www日本在线高清视频| 国产精品久久久久久精品电影 | 成人三级黄色视频| 一本一本综合久久| 欧美日韩瑟瑟在线播放| 久久精品影院6| 女人被狂操c到高潮| 国产精品99久久99久久久不卡| 十八禁网站免费在线| aaaaa片日本免费| 欧美日韩精品网址| 日本精品一区二区三区蜜桃| 精品午夜福利视频在线观看一区| 黄色 视频免费看| 99国产综合亚洲精品| 99热这里只有精品一区 | 亚洲精品av麻豆狂野| 天天躁狠狠躁夜夜躁狠狠躁| 国产熟女午夜一区二区三区| 欧美不卡视频在线免费观看 | 国产真实乱freesex| 国产熟女xx| 久热这里只有精品99| 一级作爱视频免费观看| 亚洲欧美精品综合一区二区三区| 久久久精品欧美日韩精品| 欧美中文综合在线视频| 国产精品影院久久| 国产色视频综合| 精品国产国语对白av| avwww免费| 欧美乱妇无乱码| 在线观看舔阴道视频| 久热这里只有精品99| 日韩有码中文字幕| 亚洲人成网站在线播放欧美日韩| 制服丝袜大香蕉在线| 中文字幕最新亚洲高清| 波多野结衣av一区二区av| 一边摸一边抽搐一进一小说| 两性午夜刺激爽爽歪歪视频在线观看 | 宅男免费午夜| 免费看日本二区| 欧美成人午夜精品| 久久中文字幕人妻熟女| 亚洲欧美日韩高清在线视频| 日韩 欧美 亚洲 中文字幕| 真人一进一出gif抽搐免费| 国产成+人综合+亚洲专区| 久久精品国产清高在天天线| 国产区一区二久久| 老司机靠b影院| 亚洲精品中文字幕一二三四区| 黄色a级毛片大全视频| 在线视频色国产色| 人人妻人人澡人人看| 国产乱人伦免费视频| 成人免费观看视频高清| 男女那种视频在线观看| 精品国产一区二区三区四区第35| 亚洲人成伊人成综合网2020| 999久久久精品免费观看国产| 极品教师在线免费播放| 日日爽夜夜爽网站| 国产高清激情床上av| 人人妻人人澡人人看| 久久国产精品影院| 丝袜美腿诱惑在线| 欧美久久黑人一区二区| 婷婷六月久久综合丁香| 成人国语在线视频| 久久精品人妻少妇| 丝袜人妻中文字幕| 老司机在亚洲福利影院| 午夜亚洲福利在线播放| 午夜免费鲁丝| 99re在线观看精品视频| 国产日本99.免费观看| 亚洲中文字幕日韩| 免费人成视频x8x8入口观看| 一本综合久久免费| 在线免费观看的www视频| 国产区一区二久久| 黄色 视频免费看| 色播亚洲综合网| 热re99久久国产66热| 他把我摸到了高潮在线观看| 欧美一级毛片孕妇| 国产男靠女视频免费网站| 高清毛片免费观看视频网站| 777久久人妻少妇嫩草av网站| 色综合站精品国产| 怎么达到女性高潮| 精品乱码久久久久久99久播| 国内久久婷婷六月综合欲色啪| 韩国精品一区二区三区| 亚洲色图 男人天堂 中文字幕| 在线十欧美十亚洲十日本专区| 国产黄a三级三级三级人| 色尼玛亚洲综合影院| av中文乱码字幕在线| 嫁个100分男人电影在线观看| 一本大道久久a久久精品| 十八禁网站免费在线| 亚洲男人的天堂狠狠| 好男人电影高清在线观看| 久久久久国内视频| 欧美国产精品va在线观看不卡| 高清毛片免费观看视频网站| 老司机在亚洲福利影院| 欧美成人性av电影在线观看| 亚洲国产日韩欧美精品在线观看 | 香蕉久久夜色| 午夜福利免费观看在线| 丁香六月欧美| 国产欧美日韩精品亚洲av| 国产久久久一区二区三区| 国产野战对白在线观看| 无人区码免费观看不卡| 亚洲精品国产区一区二| 桃红色精品国产亚洲av| 精品不卡国产一区二区三区| 亚洲一码二码三码区别大吗| 亚洲 欧美一区二区三区| 色综合亚洲欧美另类图片| 少妇的丰满在线观看| 国产高清视频在线播放一区| 后天国语完整版免费观看| 欧美精品亚洲一区二区| 国产精品精品国产色婷婷| 亚洲人成网站高清观看| 亚洲,欧美精品.| 婷婷丁香在线五月| 搡老岳熟女国产| 午夜激情福利司机影院| 久久精品人妻少妇| 日本一区二区免费在线视频| 亚洲精品中文字幕在线视频| 国产精品 国内视频| 又黄又粗又硬又大视频| av在线天堂中文字幕| 亚洲 欧美一区二区三区| 国产私拍福利视频在线观看| 日韩欧美国产在线观看| 巨乳人妻的诱惑在线观看| 亚洲欧美激情综合另类| 99国产极品粉嫩在线观看| 国产真实乱freesex| 亚洲三区欧美一区| 嫁个100分男人电影在线观看| 成年版毛片免费区| 国产精品久久久久久人妻精品电影| 美国免费a级毛片| 久久久久久久午夜电影| 成人精品一区二区免费| 欧美激情极品国产一区二区三区| 成人一区二区视频在线观看| 欧美黄色片欧美黄色片| 国产人伦9x9x在线观看| 国产精品久久久久久精品电影 | 一二三四社区在线视频社区8| 国产高清videossex| 一级a爱片免费观看的视频| x7x7x7水蜜桃| 国产av在哪里看| 麻豆国产av国片精品| 久久香蕉精品热| 亚洲五月天丁香| 婷婷亚洲欧美| 国产成人精品久久二区二区91| 国产伦一二天堂av在线观看| 制服丝袜大香蕉在线| netflix在线观看网站| 亚洲熟妇熟女久久| 窝窝影院91人妻| 亚洲熟妇中文字幕五十中出| 亚洲欧美日韩高清在线视频| 亚洲精品美女久久久久99蜜臀| 国产又黄又爽又无遮挡在线| 亚洲片人在线观看| 成人18禁在线播放| 香蕉av资源在线| 亚洲男人的天堂狠狠| 啦啦啦免费观看视频1| 欧美丝袜亚洲另类 | 国产一级毛片七仙女欲春2 | 亚洲欧美日韩无卡精品| 久久久久国产一级毛片高清牌| 精品人妻1区二区| 国产成人一区二区三区免费视频网站| 波多野结衣高清无吗| 18禁黄网站禁片午夜丰满| 亚洲成人久久性| 精品欧美国产一区二区三| 亚洲电影在线观看av| 丝袜人妻中文字幕| 日本黄色视频三级网站网址| 青草久久国产| 999精品在线视频| 午夜精品在线福利| 国产精品综合久久久久久久免费| 俺也久久电影网| 国产视频一区二区在线看| 18美女黄网站色大片免费观看| 欧美不卡视频在线免费观看 | 色尼玛亚洲综合影院| 日本 av在线| 法律面前人人平等表现在哪些方面| 美女午夜性视频免费| 久久久久国产一级毛片高清牌| 欧美av亚洲av综合av国产av| 精品午夜福利视频在线观看一区| 欧美黑人精品巨大| 正在播放国产对白刺激| 亚洲第一青青草原| 精品国产乱子伦一区二区三区| www.999成人在线观看| 精品一区二区三区av网在线观看| 亚洲熟妇熟女久久| 久久久久久久久中文| 国产精品爽爽va在线观看网站 | 天堂动漫精品| 国产激情偷乱视频一区二区| 亚洲人成77777在线视频| 精品卡一卡二卡四卡免费| 天天添夜夜摸| 亚洲最大成人中文| 日本 欧美在线| 国产精品99久久99久久久不卡| av超薄肉色丝袜交足视频| 曰老女人黄片| 高清毛片免费观看视频网站| 老司机靠b影院| 在线观看免费午夜福利视频| 日韩欧美国产一区二区入口| www国产在线视频色| 精华霜和精华液先用哪个| 色av中文字幕| 久热这里只有精品99| 国产片内射在线| 亚洲第一青青草原| 可以在线观看毛片的网站| 日韩三级视频一区二区三区| 黑人操中国人逼视频| 久久人妻福利社区极品人妻图片| 亚洲最大成人中文| 免费看十八禁软件| 久久久久久免费高清国产稀缺| tocl精华| 久久久久亚洲av毛片大全| 日韩一卡2卡3卡4卡2021年| 亚洲美女黄片视频| 欧美另类亚洲清纯唯美| 国产精品免费一区二区三区在线| 亚洲 欧美一区二区三区| 女性生殖器流出的白浆| 欧美乱色亚洲激情| av超薄肉色丝袜交足视频| 国产视频一区二区在线看| 国产色视频综合| 午夜视频精品福利| 国产亚洲欧美98| 亚洲国产精品sss在线观看| 国产亚洲欧美精品永久| 国产一卡二卡三卡精品| 成人欧美大片| 黑丝袜美女国产一区| 无限看片的www在线观看| 国产高清有码在线观看视频 | 999久久久国产精品视频| 免费在线观看成人毛片| 巨乳人妻的诱惑在线观看| √禁漫天堂资源中文www| 在线永久观看黄色视频| 免费在线观看日本一区| 久久久精品欧美日韩精品| 免费在线观看视频国产中文字幕亚洲| 一级片免费观看大全| 国产亚洲精品久久久久久毛片| 给我免费播放毛片高清在线观看| 老司机靠b影院| 中文字幕精品亚洲无线码一区 | 无人区码免费观看不卡| 巨乳人妻的诱惑在线观看| 欧美国产日韩亚洲一区| 亚洲精品美女久久av网站| 精品高清国产在线一区| 一夜夜www| 欧美精品亚洲一区二区| 1024手机看黄色片| 99国产极品粉嫩在线观看| 亚洲第一欧美日韩一区二区三区| 他把我摸到了高潮在线观看| 成人欧美大片| 男女之事视频高清在线观看| 国产视频一区二区在线看| 久久香蕉激情| 亚洲欧美日韩无卡精品| 正在播放国产对白刺激| 欧美乱妇无乱码| 久久久久久九九精品二区国产 | 久久精品亚洲精品国产色婷小说| 最近最新免费中文字幕在线| 亚洲一区二区三区色噜噜| 日韩有码中文字幕| 国产又爽黄色视频| 中文字幕最新亚洲高清| 女性生殖器流出的白浆| 757午夜福利合集在线观看| 又大又爽又粗| 自线自在国产av| 老司机午夜福利在线观看视频| 国产蜜桃级精品一区二区三区| 50天的宝宝边吃奶边哭怎么回事| av在线天堂中文字幕| 亚洲va日本ⅴa欧美va伊人久久| 两个人看的免费小视频| 亚洲精品国产精品久久久不卡| 一本综合久久免费| 日韩高清综合在线| 日韩免费av在线播放| 少妇的丰满在线观看| 日韩欧美一区二区三区在线观看| 99精品在免费线老司机午夜| 欧美日韩亚洲综合一区二区三区_| 午夜激情av网站| 1024手机看黄色片| 欧美av亚洲av综合av国产av| 欧美大码av| videosex国产| 亚洲色图av天堂| 欧美色视频一区免费| 欧美又色又爽又黄视频| 国产精品 欧美亚洲| 国产精品一区二区三区四区久久 | 亚洲精品美女久久av网站| 搡老熟女国产l中国老女人| 老鸭窝网址在线观看| 亚洲精品在线美女| 国产97色在线日韩免费| 国产精品久久久人人做人人爽| 窝窝影院91人妻| 精品免费久久久久久久清纯| 精品国产超薄肉色丝袜足j| aaaaa片日本免费| 两个人免费观看高清视频| 国产激情欧美一区二区| 久久精品国产亚洲av高清一级| 夜夜看夜夜爽夜夜摸| 非洲黑人性xxxx精品又粗又长| 日韩 欧美 亚洲 中文字幕| 久久久久久久久免费视频了| 久久久精品欧美日韩精品| 婷婷精品国产亚洲av| 欧美日韩一级在线毛片| 国产精品香港三级国产av潘金莲| 脱女人内裤的视频| 最近最新中文字幕大全免费视频| 欧美亚洲日本最大视频资源| 久久草成人影院| 亚洲,欧美精品.| 中文资源天堂在线| 桃红色精品国产亚洲av| 国产亚洲精品第一综合不卡| 最近最新中文字幕大全电影3 | 脱女人内裤的视频| 18禁美女被吸乳视频| 国产午夜福利久久久久久| 欧美黄色淫秽网站| 在线免费观看的www视频| 韩国av一区二区三区四区| 久久精品成人免费网站| www.自偷自拍.com| 国产av一区在线观看免费| 美女高潮到喷水免费观看| 老熟妇乱子伦视频在线观看| 欧美日韩福利视频一区二区| 亚洲片人在线观看| 一区二区三区国产精品乱码| 久久精品91无色码中文字幕| 人人妻,人人澡人人爽秒播| 高清在线国产一区| 嫩草影院精品99| 亚洲五月色婷婷综合| 免费在线观看亚洲国产| 宅男免费午夜| 久久精品亚洲精品国产色婷小说| 成年人黄色毛片网站| 成人三级黄色视频| 脱女人内裤的视频| 免费搜索国产男女视频| 嫩草影视91久久| 日本三级黄在线观看| 欧美性猛交黑人性爽| 精品福利观看| 黄色片一级片一级黄色片| 婷婷六月久久综合丁香| 亚洲午夜理论影院| 大香蕉久久成人网| 国产成人系列免费观看| 看免费av毛片| 大型av网站在线播放| 日韩免费av在线播放| √禁漫天堂资源中文www| 淫秽高清视频在线观看| 熟女电影av网| 久久草成人影院| 哪里可以看免费的av片| 免费无遮挡裸体视频| 热99re8久久精品国产| 免费av毛片视频| 精品国产国语对白av| 午夜免费激情av| 亚洲国产精品sss在线观看| 一级毛片女人18水好多| 免费搜索国产男女视频| 波多野结衣高清无吗| 91大片在线观看| 男女之事视频高清在线观看| 国产高清视频在线播放一区| 欧美国产日韩亚洲一区| 久久中文字幕一级| 老汉色∧v一级毛片| 99热这里只有精品一区 | 波多野结衣av一区二区av| 国内精品久久久久精免费| cao死你这个sao货| 神马国产精品三级电影在线观看 | 国产一区二区三区视频了| 老司机午夜福利在线观看视频| 99在线人妻在线中文字幕| 欧美精品亚洲一区二区| 桃色一区二区三区在线观看| 波多野结衣高清作品| 白带黄色成豆腐渣| 99久久精品国产亚洲精品| 国产精品二区激情视频| 亚洲色图av天堂| 欧美色欧美亚洲另类二区| 男女床上黄色一级片免费看| 曰老女人黄片| 欧美色欧美亚洲另类二区| 亚洲国产欧洲综合997久久, | 99精品久久久久人妻精品| 午夜福利一区二区在线看| 亚洲一区二区三区不卡视频| 午夜精品久久久久久毛片777| 黄色女人牲交| 国产亚洲精品一区二区www| 欧美成狂野欧美在线观看| 国产不卡一卡二| 黑人操中国人逼视频| 亚洲色图 男人天堂 中文字幕| 欧美黑人精品巨大| 香蕉久久夜色| av福利片在线| 亚洲成人国产一区在线观看| 日韩国内少妇激情av| 国产精品美女特级片免费视频播放器 | 一级a爱视频在线免费观看| 久久久久久亚洲精品国产蜜桃av| 黄色视频不卡| 久久香蕉精品热| 成人亚洲精品av一区二区| 免费高清在线观看日韩| 国产一区二区三区视频了| 国内久久婷婷六月综合欲色啪| 国产伦人伦偷精品视频| 嫩草影视91久久| 夜夜躁狠狠躁天天躁|