• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    兩方零和馬爾科夫博弈下的策略梯度算法

    2023-02-25 09:06:54李永強(qiáng)馮遠(yuǎn)靜
    模式識(shí)別與人工智能 2023年1期
    關(guān)鍵詞:納什方差梯度

    李永強(qiáng) 周 鍵 馮 宇 馮遠(yuǎn)靜

    LI Yongqiang1,ZHOU Jian1,F(xiàn)ENG Yu1,F(xiàn)ENG Yuanjing1

    博弈問(wèn)題是實(shí)際應(yīng)用中的常見(jiàn)問(wèn)題,如圍棋、象棋、撲克游戲、對(duì)抗類(lèi)電子游戲等.近年來(lái),在模型未知的情況下,利用多智能體強(qiáng)化學(xué)習(xí)求解博弈問(wèn)題受到廣泛關(guān)注[1-6].在現(xiàn)有文獻(xiàn)中,通常利用如下兩類(lèi)框架描述多步博弈問(wèn)題:擴(kuò)展形式博弈(Extensive-Form Games)和馬爾科夫博弈(Markov Games).

    擴(kuò)展形式博弈適用于描述不完全信息、回合制博弈問(wèn)題,如撲克游戲.回合制是指參與博弈的玩家在每步?jīng)Q策時(shí),知道已行動(dòng)玩家采取的動(dòng)作.例如,在撲克游戲中,參與的玩家輪流出牌或下注,當(dāng)前行動(dòng)的玩家可看到已行動(dòng)玩家出的牌或下的注.為了解決生活中流行的擴(kuò)展形式博弈問(wèn)題,學(xué)者們提出大量基于策略梯度的多智能體強(qiáng)化學(xué)習(xí)算法,如基于虛擬自博弈(Fictitious Self-Play)的方法[7-10]和基于反事實(shí)遺憾(Counter factual Regret)的方法[11-14].

    馬爾科夫博弈適用于描述完全信息、同時(shí)移動(dòng)博弈問(wèn)題.同時(shí)移動(dòng)博弈問(wèn)題是指在每步?jīng)Q策時(shí),所有參與的玩家同時(shí)選擇動(dòng)作,玩家在決策時(shí)并不知道另一玩家會(huì)采取的動(dòng)作,如軍事對(duì)抗博弈問(wèn)題.

    馬爾科夫博弈拓寬?cǎi)R爾科夫決策過(guò)程(Markov Decision Process, MDP)只能有一個(gè)智能體的限制,馬爾科夫博弈可包含多個(gè)智能體.在使用多智能體強(qiáng)化學(xué)習(xí)方法求解博弈問(wèn)題時(shí),強(qiáng)化學(xué)習(xí)中的術(shù)語(yǔ)“智能體”一般稱(chēng)為“玩家”,本文也保持這個(gè)習(xí)慣.這些玩家可以有各自的利益目標(biāo).兩方零和馬爾科夫博弈(Two-Player Zero-Sum Markov Games, TZMG)為馬爾科夫博弈的一種特殊情況,特殊之處是參與博弈的兩個(gè)玩家的利益完全相反.

    針對(duì)TZMG的多智能體強(qiáng)化學(xué)習(xí)算法可分為兩類(lèi):值函數(shù)方法和策略梯度方法.現(xiàn)有文獻(xiàn)中大部分方法都是值函數(shù)方法.Littman[15]提出Minimax-Q,可找到納什均衡策略,但是由于每次更新Q函數(shù)需要構(gòu)建線(xiàn)性規(guī)劃以求解每個(gè)狀態(tài)階段博弈的納什均衡策略,計(jì)算量巨大.為了解決Minimax-Q的計(jì)算效率問(wèn)題,Gran-Moya等[16]提出Soft Q-Learning,計(jì)算熵正則化條件下閉合形式的軟最優(yōu)策略,從而避免使用線(xiàn)性規(guī)劃更新Q函數(shù).然而,由于固定的正則化條件,策略可能無(wú)法達(dá)到納什均衡.為了在保持計(jì)算效率的同時(shí)保證策略收斂到納什均衡,Guan等[17]提出SNQ2L(Soft Nash Q2-Learning).值函數(shù)方法由于算法本身的限制并不適合動(dòng)作空間大的環(huán)境.對(duì)于MDP,策略梯度方法比值函數(shù)方法更容易擴(kuò)展到大動(dòng)作空間,通常收斂速度更快.

    策略梯度方法在許多領(lǐng)域具有較優(yōu)性能[18-19].但是,對(duì)于TZMG,策略梯度方法的研究結(jié)果依然很少.Daskalakis等[20]提出雙時(shí)間尺度的策略梯度算法,解決TZMG問(wèn)題,主要思想是兩個(gè)玩家采用快慢學(xué)習(xí)率交替進(jìn)行訓(xùn)練,本質(zhì)上還是單智能體強(qiáng)化學(xué)習(xí),并且訓(xùn)練過(guò)程比同時(shí)訓(xùn)練玩家的策略更繁瑣.

    本文致力于實(shí)現(xiàn)同時(shí)訓(xùn)練并更新玩家的策略,圍繞這個(gè)目標(biāo),首先將策略梯度定理擴(kuò)展到TZMG,給出針對(duì)TZMG的策略梯度定理的嚴(yán)格證明.該定理是利用采樣數(shù)據(jù)估計(jì)TZMG的玩家策略梯度的理論基礎(chǔ).本文采用類(lèi)似于單智能體REINFORCE[21]的思路估計(jì)TZMG下的玩家策略梯度,即利用完整采樣軌跡的回報(bào)均值估計(jì)期望回報(bào).得到玩家策略梯度的估計(jì)之后,可利用基于梯度的方法求解TZMG的等價(jià)問(wèn)題,即最大最小化問(wèn)題.由此,本文提出基于額外梯度的REINFORCE算法(Extra-Gradient Based REINFORCE, EG-R),求解最大最小化問(wèn)題,解決直接使用梯度上升下降算法時(shí),玩家的聯(lián)合策略無(wú)法達(dá)到近似納什均衡的問(wèn)題.

    1 問(wèn)題描述及背景知識(shí)

    1.1 馬爾科夫決策過(guò)程問(wèn)題

    馬爾科夫決策過(guò)程(MDP)可用一個(gè)五元組(S,A,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個(gè)數(shù)為|S|;A表示智能體的有限動(dòng)作空間,動(dòng)作個(gè)數(shù)為|A|;

    P(s′,r|s,a)∶S×A→Δ(S×R)

    表示在任意動(dòng)作a∈A下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且智能體獲得獎(jiǎng)勵(lì)r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.

    MDP下的智能體與環(huán)境的交互如圖1所示,環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個(gè)時(shí)刻t,智能體按照隨機(jī)策略

    圖1 MDP下的智能體與環(huán)境的交互

    π(·|St)∶S→Δ(A)

    在當(dāng)前狀態(tài)St下選擇動(dòng)作,得到的動(dòng)作記為At.環(huán)境對(duì)動(dòng)作At做出相應(yīng)響應(yīng),然后根據(jù)狀態(tài)轉(zhuǎn)移及獎(jiǎng)勵(lì)生成的概率分布P將狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎(jiǎng)勵(lì)Rt,即

    St+1,Rt~P(·,·|St,At).

    智能體和環(huán)境如此交互直至終止時(shí)刻T.每局交互產(chǎn)生一條軌跡:

    τ∶=(S0,A0,R0,S1,…,ST-1,AT-1,RT-1,ST).

    獲得的回報(bào)大小體現(xiàn)智能體在這局交互中的表現(xiàn),回報(bào)定義為累計(jì)折扣獎(jiǎng)勵(lì):

    對(duì)于MDP,只有一個(gè)智能體與環(huán)境交互,訓(xùn)練智能體的目的就是找到一個(gè)最優(yōu)策略,使智能體在與環(huán)境交互的過(guò)程中獲得最大的期望回報(bào).初始狀態(tài)為s時(shí)的期望回報(bào)定義為

    Vs(π)∶=Eπ[G(τ)|S0=s].

    (1)

    由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)也可定義為

    Vρ(π)∶=Es~ρ[Vs(π)]=Eπ[G(τ)],

    (2)

    則最優(yōu)策略滿(mǎn)足

    1.2 兩方零和馬爾科夫博弈問(wèn)題

    兩方零和馬爾科夫博弈(TZMG)可用一個(gè)六元組(S,A,B,P,ρ,γ)描述.其中:S表示有限狀態(tài)空間,狀態(tài)個(gè)數(shù)為|S|;A和B分別表示玩家1和玩家2的有限動(dòng)作空間,動(dòng)作個(gè)數(shù)分別為|A|和|B|;

    P(s′,r|s,a,b)∶S×A×B→Δ(S×R)

    表示在任意聯(lián)合動(dòng)作(a,b)∈A×B下,從任意狀態(tài)s∈S轉(zhuǎn)移到狀態(tài)s′∈S,且玩家1獲得獎(jiǎng)勵(lì)r,玩家2獲得獎(jiǎng)勵(lì)-r的概率;ρ∶S→Δ(S)表示初始狀態(tài)的概率分布;γ∈(0,1]表示折扣因子.

    TZMG下的玩家與環(huán)境的交互如圖2所示,一輪博弈開(kāi)始時(shí),環(huán)境根據(jù)初始狀態(tài)的概率分布ρ生成初始狀態(tài)S0.在每個(gè)時(shí)刻t,玩家1按照隨機(jī)策略

    圖2 TZMG下的玩家與環(huán)境的交互

    π(·|St)∶S→Δ(A)

    在當(dāng)前狀態(tài)St下選擇動(dòng)作,得到的動(dòng)作記為At.同時(shí),玩家2按照隨機(jī)策略

    μ(·|St)∶S→Δ(B)

    在當(dāng)前狀態(tài)St下選擇動(dòng)作,得到的動(dòng)作記為Bt.聯(lián)合動(dòng)作(At,Bt)送入環(huán)境中執(zhí)行,環(huán)境根據(jù)狀態(tài)轉(zhuǎn)移及獎(jiǎng)勵(lì)生成的概率分布P將環(huán)境狀態(tài)從St轉(zhuǎn)移到St+1,并給出獎(jiǎng)勵(lì)Rt,即

    St+1,Rt~P(·,·|St,At,Bt).

    如此直至本輪博弈的終止時(shí)刻T.每輪博弈都會(huì)產(chǎn)生一條軌跡

    τ∶=(S0,A0,B0,R0,S1,…,ST-1,AT-1,BT-1,RT-1,ST).

    玩家1的回報(bào)定義為累積折扣獎(jiǎng)勵(lì):

    由于是零和博弈,玩家2的回報(bào)為-G(τ).

    對(duì)于TZMG,有兩個(gè)玩家同時(shí)與環(huán)境交互,相比式(1)和式(2),期望回報(bào)發(fā)生改變,初始狀態(tài)為s時(shí)的期望回報(bào)定義為

    Vs(π,μ)∶=Eπ,μ[G(τ)|S0=s]

    ,

    由于初始狀態(tài)s服從概率分布ρ,期望回報(bào)可定義為

    Vρ(π,μ)∶=Es~ρ[Vs(π,μ)]=Eπ,μ[G(τ)].

    (3)

    由式(3)可知,期望回報(bào)Vρ(π,μ)不僅與己方策略有關(guān),也與對(duì)方策略有關(guān),即雙方的聯(lián)合策略(π,μ)共同確定Vρ(π,μ)的值.因此,TZMG的最優(yōu)策略為達(dá)到納什均衡時(shí)的聯(lián)合策略,此時(shí)的期望回報(bào)正好處于圖3中的鞍點(diǎn)處.所以,對(duì)于TZMG,訓(xùn)練玩家的目的就是找到一個(gè)納什均衡的聯(lián)合策略.由于兩個(gè)玩家的策略對(duì)期望回報(bào)的影響不同,為了找到納什均衡的聯(lián)合策略,兩個(gè)玩家的目標(biāo)也不同.玩家1的目標(biāo)是:對(duì)任意玩家2的策略μ,尋找最優(yōu)策略π*最大化期望回報(bào)Vρ(π,μ).如圖3所示,玩家1的策略參數(shù)更新方向應(yīng)為期望回報(bào)增大的方向.玩家2的目標(biāo)是:對(duì)任意玩家1的策略π,尋找最優(yōu)策略μ*最小化期望回報(bào)Vρ(π,μ).如圖3所示,玩家2的策略參數(shù)更新方向應(yīng)為期望回報(bào)減小的方向.

    圖3 雙曲拋物面

    文獻(xiàn)[22]證明TZMG滿(mǎn)足最大最小化定理,即對(duì)任意的TZMG,一定存在一個(gè)納什均衡的聯(lián)合策略(π*,μ*),使

    Vρ(π,μ*)≤Vρ(π*,μ*)≤Vρ(π*,μ),

    ?π,μ.

    (4)

    式(4)也稱(chēng)為鞍點(diǎn)不等式,由式(4)可知,納什均衡的聯(lián)合策略(π*,μ*)滿(mǎn)足

    (5)

    TZMG可能存在多個(gè)納什均衡的聯(lián)合策略,但是所有納什均衡的聯(lián)合策略的期望回報(bào)Vρ(π*,μ*)是相等的[20].

    1.3 求解兩方零和馬爾科夫博弈問(wèn)題的難點(diǎn)

    一方面,如圖1和圖2所示,根據(jù)MDP和TZMG的定義,MDP的狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)生成只跟環(huán)境狀態(tài)和一個(gè)智能體選擇的動(dòng)作有關(guān),而TZMG的狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)生成跟環(huán)境狀態(tài),及玩家1和玩家2各自選擇的動(dòng)作有關(guān).由于兩個(gè)玩家同時(shí)選擇動(dòng)作,每個(gè)玩家并不知道對(duì)方選擇的動(dòng)作,因此,有必要研究MDP下的策略梯度定理對(duì)于TZMG是否適用.

    另一方面,TZMG求解的是一個(gè)最大最小化問(wèn)題

    最優(yōu)策略為期望回報(bào)處于鞍點(diǎn)時(shí)的聯(lián)合策略.而MDP求解的是一個(gè)最大化問(wèn)題

    最優(yōu)策略為期望回報(bào)最大時(shí)的策略.最大化問(wèn)題只要使用梯度上升算法,一定可找到一個(gè)局部極大值,而最大最小化問(wèn)題更復(fù)雜,直接使用梯度上升下降算法不一定能收斂到鞍點(diǎn).為了解決這個(gè)問(wèn)題,本文使用額外梯度算法求解鞍點(diǎn).

    2 兩方零和馬爾科夫博弈下的策略梯度定理

    考慮參數(shù)化的策略πθ和μφ,其中θ∈Rd和φ∈Rd為可調(diào)參數(shù).將聯(lián)合策略(πθ,μφ)代入期望回報(bào)Vρ(π,μ),結(jié)合式(3),得到關(guān)于參數(shù)θ和φ的性能指標(biāo)函數(shù):

    J(θ,φ)=Vρ(πθ,μφ)=Eπθ,μφ[G(τ)].

    (6)

    由式(5)可知,TZMG問(wèn)題可轉(zhuǎn)化為最大最小化問(wèn)題:

    (7)

    采用基于梯度的方法(如梯度上升下降算法、額外梯度算法等)求解最大最小化問(wèn)題(7)的前提是:在狀態(tài)轉(zhuǎn)移及獎(jiǎng)勵(lì)生成的概率分布和初始狀態(tài)的概率分布未知時(shí),實(shí)現(xiàn)用玩家與環(huán)境交互的采樣數(shù)據(jù)估計(jì)指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)∈Rd和?φJ(rèn)(θ,φ)∈Rd.

    文獻(xiàn)[20]將對(duì)方策略看作環(huán)境不確定性的一部分,進(jìn)而給出關(guān)于己方策略參數(shù)的策略梯度估計(jì)方法,這本質(zhì)上還是基于MDP的策略梯度定理.本文給出針對(duì)TZMG的策略梯度定理的理論證明,該定理是利用采樣數(shù)據(jù)估計(jì)策略梯度的理論基礎(chǔ).

    定理1對(duì)于兩方零和馬爾科夫博弈問(wèn)題和參數(shù)化的聯(lián)合隨機(jī)策略(πθ,μφ),式(6)定義的指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度分別為

    (8)

    證明由式(6)可得

    ?θJ(θ,φ)=

    ?θEπθ,μφ[G(τ)]=

    Eπθ,μφ[?θlnPr(τ|πθ,μφ)G(τ)].

    (9)

    給定玩家的聯(lián)合策略(πθ,μφ),產(chǎn)生軌跡τ的概率為

    Pr(τ|πθ,μφ)=

    (10)

    由式(10)可得

    lnPr(τ|πθ,μφ)=

    在上式中,ρ(S0)、P(St+1,Rt|St,At,Bt)、μφ(Bt|St)都與參數(shù)θ無(wú)關(guān),因此

    將上式代入式(9),可得

    同理可得

    證畢.

    3 基于額外梯度的REINFORCE算法

    注意到式(8)求期望的部分并不包含狀態(tài)轉(zhuǎn)移及獎(jiǎng)勵(lì)生成的概率分布P和初始狀態(tài)的概率分布ρ,因此可使用采樣數(shù)據(jù)的均值估計(jì)期望.假設(shè)收集到一個(gè)軌跡集合

    D∶={τi}i=1,2,…,N,

    其中每條軌跡都是在當(dāng)前參數(shù)(θ,φ)確定的策略(πθ,μφ)下采樣得到,那么指標(biāo)函數(shù)J(θ,φ)關(guān)于參數(shù)θ和φ的梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)可估計(jì)如下:

    ?θJ(θ,φ)≈

    ?φJ(rèn)(θ,φ)≈

    得到J(θ,φ)關(guān)于參數(shù)θ和φ的梯度估計(jì)后,就可利用基于梯度的方法求解最大最小化問(wèn)題.簡(jiǎn)單的方法為梯度上升下降算法,即每次更新參數(shù)時(shí),沿著梯度?θJ(θ,φ)上升的方向更新參數(shù)θ的值,而沿著梯度?φJ(rèn)(θ,φ)下降的方向更新參數(shù)φ的值.

    然而,即使對(duì)于簡(jiǎn)單的最大最小化問(wèn)題——凸凹最大最小化問(wèn)題(指標(biāo)函數(shù)是關(guān)于最大化參數(shù)的凸函數(shù),關(guān)于最小化參數(shù)的凹函數(shù)),梯度上升下降算法也無(wú)法保證能收斂到指標(biāo)函數(shù)的鞍點(diǎn).例如,考慮最大最小化問(wèn)題

    其中x∈Rd,y∈Rd,顯然中心處的原點(diǎn)是該問(wèn)題的鞍點(diǎn).利用梯度上升下降算法,(x,y)的軌跡是發(fā)散的,如圖4(a)所示,圖中的“五角星”為軌跡的起點(diǎn).而利用額外梯度算法,能收斂到該問(wèn)題的鞍點(diǎn),如圖4(b)所示.相比梯度上升下降算法,每次迭代,額外梯度算法增加一步外推(Extrapolation)點(diǎn)的計(jì)算,使用外推點(diǎn)的梯度完成當(dāng)前參數(shù)的更新.

    (a)梯度上升下降算法 (b)額外梯度算法

    額外梯度算法求解最大最小化問(wèn)題(7)的參數(shù)更新為

    (11)

    其中α為更新步長(zhǎng).

    如果J(θ,φ)是關(guān)于θ的凸函數(shù)且關(guān)于φ的凹函數(shù),額外梯度算法(式(11))可收斂到J(θ,φ)的鞍點(diǎn)[23].如果J(θ,φ)是非凸非凹的,且滿(mǎn)足Minty變分不等式,那么額外梯度算法(式(11))也可收斂到J(θ,φ)的鞍點(diǎn)[24].但是最大最小化問(wèn)題(7)的解在什么條件下滿(mǎn)足Minty變分不等式目前依然是一個(gè)未解決的問(wèn)題.

    基于額外梯度的REINFORCE算法的偽代碼見(jiàn)算法1.盡管該算法的收斂性目前沒(méi)有理論上的嚴(yán)格證明,但是第5節(jié)的仿真實(shí)驗(yàn)表明該算法可求解得到近似納什均衡的聯(lián)合策略.

    算法1EG-R

    輸入初始策略參數(shù)θ,φ

    fori=1,2,…Ido

    在策略(πθ,μφ)下,收集博弈軌跡集合

    D∶={τi}i=1,2,…,N

    計(jì)算策略梯度?θJ(θ,φ)和?φJ(rèn)(θ,φ)的估計(jì)值

    D∶={τi}i=1,2,…,N

    更新策略參數(shù)θ和φ

    end for

    4 實(shí)驗(yàn)及結(jié)果分析

    4.1 實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)

    本文采用DeepMind開(kāi)發(fā)的open_spiel平臺(tái)上的兩玩家同時(shí)移動(dòng)博弈游戲Oshi_Zumo驗(yàn)證EG-R算法.這款游戲是完全信息同時(shí)移動(dòng)的零和博弈游戲,一輪博弈往往需要經(jīng)過(guò)多步博弈才能分出勝負(fù).游戲規(guī)則如下:有2K+1個(gè)格子一維排列,編號(hào)1,2,…,2K+1,在第K+1個(gè)格子上有一面旗幟,一輪博弈中玩家1和玩家2的每步博弈結(jié)果會(huì)控制旗幟的移動(dòng).玩家1和玩家2初始時(shí)各有N枚硬幣,每一步玩家1和玩家2同時(shí)出硬幣,記為M1和M2,然后對(duì)比M1和M2的大小.若M1>M2,旗幟向右移動(dòng)一個(gè)格子;若M1

    Oshi-Zumo游戲的狀態(tài)由3部分組成:玩家1的剩余硬幣數(shù)、玩家2的剩余硬幣數(shù)、旗幟的位置.旗幟的位置由格子的編號(hào)表示,當(dāng)從左移出第1個(gè)格子后,旗幟位置為0,當(dāng)從右移出第2K+1個(gè)格子后,旗幟位置為2K+2.玩家的動(dòng)作就是出幣數(shù).Oshi-

    Zumo游戲在參數(shù)確定情況下,初始狀態(tài)是確定的.在本文的仿真研究中,Oshi-Zumo游戲的參數(shù)設(shè)置如下:初始幣數(shù)N=6,格子規(guī)模K=1,最小出幣數(shù)為0.

    本文選擇2個(gè)對(duì)比算法:基于值函數(shù)的算法(Minimax-Q)和基于策略梯度的算法(梯度上升下降算法).這兩個(gè)對(duì)比算法和本文的EG-R超參數(shù)設(shè)置保持一致,更新次數(shù)設(shè)為50 000,每次更新的采樣局?jǐn)?shù)設(shè)為300,學(xué)習(xí)率α設(shè)為0.9.折扣因子λ設(shè)為1.

    梯度上升下降算法和EG-R都是基于策略梯度的算法,玩家的策略采用直接參數(shù)化的方式.玩家在狀態(tài)s下的策略參數(shù)θs∈R|As|和φs∈R|Bs|可構(gòu)成一個(gè)參數(shù)向量,其中,|As|和|Bs|分別表示玩家1和玩家2在狀態(tài)s下的合法動(dòng)作個(gè)數(shù).玩家1和玩家2在狀態(tài)s上的策略為:

    (12)

    其中,[·]a表示在狀態(tài)s下的所有合法動(dòng)作依次按照方括號(hào)內(nèi)的公式計(jì)算得到的向量,θ和φ的初始值全為0,即初始策略服從均勻分布.

    Minimax-Q是基于值函數(shù)的算法,Q值函數(shù)采用直接參數(shù)化的方式.Q值函數(shù)在狀態(tài)s下的參數(shù)q(s,·,·)∈R|As|×|Bs|可構(gòu)成一個(gè)參數(shù)矩陣.value[q(s,·,·)]表示以q(s,·,·)為收益矩陣的矩陣博弈的最優(yōu)值,定義如下:

    (13)

    式(13)可采用線(xiàn)性規(guī)劃方法求解.求解式(13)可得到策略參數(shù)θs、φs、value[q(s,·,·)],再通過(guò)式(12)得到玩家在狀態(tài)s下的策略.Q值函數(shù)的更新公式如下:

    q(St,At,Bt)=(1-α)q(St,At,Bt)+

    α(Rt+λ·value[q(St+1,·,·)]).

    本文采用常用的納什收斂指標(biāo)評(píng)價(jià)聯(lián)合策略的性能.給定聯(lián)合策略(π,μ),納什收斂指標(biāo)為[25]:

    NashConv(π,μ)=Vρ(πb,μ)+Vρ(π,μb).

    其中,πb表示玩家1在給定玩家2策略μ情況下的最佳響應(yīng)策略,μb同理.本文求解的是近似最佳響應(yīng)策略,固定對(duì)手的策略,對(duì)玩家進(jìn)行訓(xùn)練,直到玩家的勝率達(dá)到95%或策略參數(shù)的更新次數(shù)達(dá)到5 000次.給定對(duì)手玩家策略下,最佳響應(yīng)策略保證玩家的回報(bào)最大,需要注意的是,最佳響應(yīng)策略并不是唯一的.當(dāng)

    NashConv(π,μ)=0

    時(shí),聯(lián)合策略(π,μ)達(dá)到納什均衡;當(dāng)

    NashConv(π,μ)<ε, ?ε>0

    時(shí),聯(lián)合策略為近似納什均衡.

    4.2 實(shí)驗(yàn)結(jié)果對(duì)比

    3種算法均收集10組實(shí)驗(yàn)的評(píng)估數(shù)據(jù),10組實(shí)驗(yàn)的納什收斂指標(biāo)均值如圖5所示,圖中陰影部分表示10組實(shí)驗(yàn)納什收斂指標(biāo)的離散程度,陰影的上下界分別由均值加減標(biāo)準(zhǔn)差得到.這3種算法納什收斂指標(biāo)的方差如圖6所示.

    (a)EG-R

    由圖5(a)可看出,隨著更新次數(shù)的增加,EG-R納什收斂指標(biāo)的均值整體呈下降趨勢(shì),當(dāng)更新次數(shù)達(dá)到50 000次左右時(shí),納什收斂指標(biāo)的均值接近于0,此時(shí)聯(lián)合策略達(dá)到近似納什均衡.由于使用REINFORCE,所以不同實(shí)驗(yàn)組的方差較大,由圖6可知,EG-R的最大方差為0.403,在40 000次更新之前,方差的波動(dòng)較大,但在40 000次更新之后,方差開(kāi)始明顯減小,并最終趨向于0.

    由圖5(b)可看出,梯度上升下降算法的納什收斂指標(biāo)的均值在1.0~1.7之間,無(wú)明顯的下降趨勢(shì),由此可見(jiàn),梯度上升下降算法無(wú)法得到近似納什均衡的聯(lián)合策略.梯度上升下降算法使用的也是REINFORCE,由圖6可知,不同實(shí)驗(yàn)組的方差很大,呈現(xiàn)增大的趨勢(shì),最大方差為0.56.

    圖6 3種算法的納什收斂指標(biāo)方差曲線(xiàn)

    從圖6可看出Minimax-Q的方差很小,波動(dòng)也很小,最大方差為0.002,同時(shí)從圖5(c)可看出,Minimax-Q的納什收斂指標(biāo)有輕微的下降趨勢(shì),但在50 000次更新下,距離下降到0還很遙遠(yuǎn).由此可見(jiàn),在限定更新次數(shù)的條件下,Minimax-Q無(wú)法得到近似納什均衡的聯(lián)合策略.

    分析3種算法的納什收斂指標(biāo)的均值和方差的變化趨勢(shì)可看出,EG-R具有顯著的優(yōu)越性,具體體現(xiàn)在EG-R可在更少的更新次數(shù)下得到近似納什均衡的聯(lián)合策略,方差在后期明顯趨向于0.

    EG-R在訓(xùn)練過(guò)程中的方差較大,是因?yàn)槭褂肦EINFORCE.對(duì)于MDP,REINFORCE的方差也較大,廣泛認(rèn)可的一種解決方案是使用帶基線(xiàn)的RE-INFORCE.沿著這個(gè)思路,本文認(rèn)為對(duì)于TZMG,帶基線(xiàn)的EG-R的方差也會(huì)小于EG-R.為此進(jìn)行如下預(yù)實(shí)驗(yàn):使用帶基線(xiàn)的EG-R和EG-R分別進(jìn)行10組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見(jiàn)4.1節(jié).然后,選取其中5個(gè)檢查點(diǎn)(檢查點(diǎn)的更新次數(shù)為10 000次更新的整數(shù)倍)的聯(lián)合策略進(jìn)行評(píng)估,得到這兩種算法的納什收斂指標(biāo)的均值和方差,如圖7所示.需要注意的是,EG-R的基線(xiàn)可以是任意函數(shù),但不能和玩家的策略相關(guān),本文選取的基線(xiàn)是歷史軌跡回報(bào)的滑動(dòng)平均.

    由圖7可看出,帶基線(xiàn)的EG-R在前4個(gè)檢查點(diǎn)處的方差小于EG-R,而在第5個(gè)檢查點(diǎn)處略大于EG-R.由圖5(a)可知,EG-R的納什收斂指標(biāo)越接近0,方差也越接近0.在第5個(gè)檢查點(diǎn)處,帶基線(xiàn)的EG-R的納什收斂指標(biāo)均值在0.2左右,而EG-R的納什收斂指標(biāo)均值在0左右,所以在第5個(gè)檢查點(diǎn)處帶基線(xiàn)的EG-R的方差略大于EG-R.總之,帶基線(xiàn)的EG-R確實(shí)可減小方差.

    (a)方差 (b)均值

    4.3 近似納什均衡解分析

    EG-R的10組實(shí)驗(yàn)得到的聯(lián)合策略都達(dá)到近似納什均衡,但會(huì)收斂到兩個(gè)不同的近似納什均衡解(記為NE解1和NE解2).限于篇幅,本文僅給出NE解1和NE解2的聯(lián)合策略在10個(gè)狀態(tài)上的表現(xiàn),展示這兩種不同聯(lián)合策略的差異,具體如表1和表2所示.表中第2行的數(shù)字0~6表示玩家的動(dòng)作,即玩家投出的硬幣數(shù),第1列表示狀態(tài),計(jì)算玩家在該狀態(tài)下選擇對(duì)應(yīng)動(dòng)作的概率,-表示在該狀態(tài)下該玩家的合法動(dòng)作不包括該動(dòng)作.在一個(gè)狀態(tài)下,玩家選擇合法動(dòng)作的概率之和為1,這些概率就是玩家在該狀態(tài)下的策略.

    表1 部分狀態(tài)下NE解1的聯(lián)合策略

    表2 部分狀態(tài)下NE解2的聯(lián)合策略

    使用NE解1和NE解2的聯(lián)合策略各自進(jìn)行多次博弈,發(fā)現(xiàn)NE解1的聯(lián)合策略的博弈結(jié)果幾乎全是平局,輸局和贏局很少.而NE解2的聯(lián)合策略的博弈結(jié)果幾乎全是輸局和贏局,平局很少,且輸贏局?jǐn)?shù)幾乎相等.

    雖然NE解1和NE解2的聯(lián)合策略的博弈結(jié)果不同,但是期望回報(bào)幾乎相等.NE解1和NE解2的玩家策略都是混合策略,即玩家在某個(gè)狀態(tài)下以某個(gè)概率分布選擇動(dòng)作,若在某個(gè)狀態(tài)下確定性地選擇某個(gè)動(dòng)作,為純策略.混合策略的近似納什均衡相對(duì)不穩(wěn)定,因?yàn)樗赊D(zhuǎn)換為它的混合均衡策略中任意正概率的策略,即純策略,也可轉(zhuǎn)換為這些純策略的任意概率組合[26].因此,相對(duì)純策略,混合策略的求解更困難.

    為了進(jìn)一步驗(yàn)證EG-R訓(xùn)練得到的聯(lián)合策略是近似納什均衡策略,設(shè)計(jì)12組實(shí)驗(yàn),游戲參數(shù)和算法超參數(shù)的設(shè)置見(jiàn)4.1節(jié).

    在每組實(shí)驗(yàn)中,玩家1和玩家2以選定的策略進(jìn)行1 000局博弈,記錄每局的回報(bào),然后使用1 000局回報(bào)的均值作為期望回報(bào)的估計(jì)值.玩家可選擇的策略有4種:EG-R訓(xùn)練得到的NE解1和NE解2的聯(lián)合策略、兩種隨機(jī)策略(高斯分布策略和均勻分布策略).高斯分布策略表示在每個(gè)狀態(tài)下玩家選取合法動(dòng)作的概率服從標(biāo)準(zhǔn)正態(tài)分布.均勻分布策略表示在每個(gè)狀態(tài)下玩家選取動(dòng)作的概率服從均勻分布,即在每個(gè)狀態(tài)下,玩家等概率選擇合法動(dòng)作.

    4種策略交叉博弈的回報(bào)均值如表3所示.由表可看出,當(dāng)玩家1和玩家2都使用NE解1的策略時(shí),回報(bào)均值為0.當(dāng)玩家1使用NE解1的策略,玩家2使用均勻分布策略或高斯分布策略時(shí),回報(bào)均值大于0.當(dāng)玩家1使用均勻分布策略或高斯分布策略,玩家2使用NE解1的策略時(shí),回報(bào)均值小于0.根據(jù)鞍點(diǎn)不等式(4)可知,NE解1的聯(lián)合策略達(dá)到近似納什均衡.同理可知,NE解2的聯(lián)合策略也達(dá)到近似納什均衡.當(dāng)玩家1和玩家2分別選擇NE解1或NE解2的策略進(jìn)行博弈時(shí),回報(bào)均值都在0附近,這說(shuō)明雖然NE解1和NE解2的聯(lián)合策略不同,但是期望回報(bào)幾乎相等.

    表3 4種策略交叉博弈的回報(bào)均值

    4.4 不同難度等級(jí)實(shí)驗(yàn)結(jié)果對(duì)比

    為了驗(yàn)證EG-R的魯棒性,本文選擇3種不同難度等級(jí)的Oshi-Zumo游戲進(jìn)行實(shí)驗(yàn).不同難度等級(jí)的區(qū)別體現(xiàn)在:難度等級(jí)越高,游戲的狀態(tài)空間和玩家的動(dòng)作空間越大,玩家的聯(lián)合策略越難收斂.不同難度等級(jí)的Oshi-Zumo游戲參數(shù)如表4所示,EG-R的超參數(shù)設(shè)置見(jiàn)4.1節(jié).

    表4 3種難度等級(jí)的Oshi-Zumo游戲參數(shù)

    EG-R在3種游戲難度等級(jí)上的納什收斂指標(biāo)如圖8所示.由圖可看出,在難度等級(jí)1上,納什收斂指標(biāo)的均值接近于0,聯(lián)合策略達(dá)到近似納什均衡.在難度等級(jí)2和難度等級(jí)3上,納什收斂指標(biāo)的均值都呈現(xiàn)明顯的下降趨勢(shì),但是限于更新次數(shù)還未下降到0.綜上所述,EG-R在更大的狀態(tài)空間和動(dòng)作空間下,也可取得較好的效果.

    圖8 EG-R在3種游戲難度等級(jí)上的納什收斂指標(biāo)均值曲線(xiàn)

    5 結(jié)束語(yǔ)

    為了在TZMG下實(shí)現(xiàn)同時(shí)訓(xùn)練并更新玩家的策略,本文首先將策略梯度定理推廣到TZMG,然后提出基于額外梯度的REINFORCE算法(EG-R).在Oshi-Zumo游戲中,對(duì)比分析EG-R的優(yōu)越性,并進(jìn)一步在不同難度等級(jí)的Oshi-Zumo游戲中驗(yàn)證EG-R的魯棒性.但是,由于REINFORCE本身的缺點(diǎn),不同實(shí)驗(yàn)組的方差較大,如何改進(jìn)算法以減小方差是今后的一個(gè)研究方向.借鑒在MDP下的經(jīng)驗(yàn),優(yōu)化基線(xiàn)函數(shù)或引入行動(dòng)家-評(píng)論家框架會(huì)是優(yōu)先考慮的解決方案.另外將著重于EG-R收斂性的理論證明.

    猜你喜歡
    納什方差梯度
    方差怎么算
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
    概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
    THE ROLE OF L1 IN L2 LEARNING IN CHINESE MIDDLE SCHOOLS
    一種自適應(yīng)Dai-Liao共軛梯度法
    計(jì)算方差用哪個(gè)公式
    一類(lèi)扭積形式的梯度近Ricci孤立子
    方差生活秀
    河南科技(2014年3期)2014-02-27 14:05:45
    伊人亚洲综合成人网| 国产无遮挡羞羞视频在线观看| 97在线视频观看| 亚洲熟女精品中文字幕| 大陆偷拍与自拍| 欧美精品高潮呻吟av久久| 亚洲欧美中文字幕日韩二区| 欧美少妇被猛烈插入视频| 欧美区成人在线视频| 久久久国产欧美日韩av| 国模一区二区三区四区视频| 欧美日韩精品成人综合77777| 赤兔流量卡办理| 97精品久久久久久久久久精品| 爱豆传媒免费全集在线观看| 男女啪啪激烈高潮av片| 青春草视频在线免费观看| av不卡在线播放| 国产精品欧美亚洲77777| 在线观看av片永久免费下载| 精品久久久久久电影网| 一个人免费看片子| 男人爽女人下面视频在线观看| 国产精品欧美亚洲77777| 黄片无遮挡物在线观看| 久久免费观看电影| 日本黄色日本黄色录像| av线在线观看网站| 99九九在线精品视频 | 成人漫画全彩无遮挡| 天天躁夜夜躁狠狠久久av| 国产伦理片在线播放av一区| 黑人巨大精品欧美一区二区蜜桃 | 国产亚洲一区二区精品| 国产高清有码在线观看视频| 国产欧美另类精品又又久久亚洲欧美| 中文字幕人妻丝袜制服| 国产高清三级在线| 香蕉精品网在线| 最后的刺客免费高清国语| 国产一区二区在线观看av| 欧美三级亚洲精品| 赤兔流量卡办理| 成年人午夜在线观看视频| 国产极品天堂在线| 国产精品麻豆人妻色哟哟久久| 春色校园在线视频观看| 高清av免费在线| 人妻夜夜爽99麻豆av| 国产伦精品一区二区三区四那| 免费黄色在线免费观看| 亚洲欧洲精品一区二区精品久久久 | 成人国产av品久久久| av免费在线看不卡| 日韩一本色道免费dvd| 人人妻人人爽人人添夜夜欢视频 | 国产精品伦人一区二区| 日本爱情动作片www.在线观看| 日韩大片免费观看网站| 色5月婷婷丁香| 日本vs欧美在线观看视频 | 在线看a的网站| 美女大奶头黄色视频| 欧美亚洲 丝袜 人妻 在线| 在线观看www视频免费| 视频中文字幕在线观看| 亚洲熟女精品中文字幕| 极品教师在线视频| 国产精品成人在线| 99re6热这里在线精品视频| 国产在视频线精品| 18禁裸乳无遮挡动漫免费视频| 汤姆久久久久久久影院中文字幕| 人人妻人人澡人人爽人人夜夜| 两个人免费观看高清视频 | 日本wwww免费看| 制服丝袜香蕉在线| 国产在视频线精品| 国产成人精品婷婷| 亚洲av国产av综合av卡| 精品久久久噜噜| 午夜91福利影院| 搡女人真爽免费视频火全软件| 看免费成人av毛片| 国产美女午夜福利| 最后的刺客免费高清国语| xxx大片免费视频| 街头女战士在线观看网站| 哪个播放器可以免费观看大片| 久久毛片免费看一区二区三区| 亚洲国产成人一精品久久久| 午夜激情福利司机影院| 一二三四中文在线观看免费高清| 亚洲欧洲国产日韩| 成人免费观看视频高清| 丝袜喷水一区| 久久精品久久久久久久性| 九九久久精品国产亚洲av麻豆| 汤姆久久久久久久影院中文字幕| 人体艺术视频欧美日本| 两个人免费观看高清视频 | 51国产日韩欧美| 看非洲黑人一级黄片| 亚洲电影在线观看av| 日本91视频免费播放| 男人爽女人下面视频在线观看| 中文字幕av电影在线播放| 久久久久精品久久久久真实原创| 人妻夜夜爽99麻豆av| 国产精品一区二区三区四区免费观看| 国产精品蜜桃在线观看| 欧美日韩av久久| 99九九在线精品视频 | 亚洲成人av在线免费| 国产精品人妻久久久久久| 在线观看免费视频网站a站| 精品亚洲成国产av| 亚洲av不卡在线观看| 精品人妻熟女av久视频| 丰满饥渴人妻一区二区三| 老司机亚洲免费影院| 丝袜脚勾引网站| 91在线精品国自产拍蜜月| 久久人人爽人人爽人人片va| 中国三级夫妇交换| 深夜a级毛片| 肉色欧美久久久久久久蜜桃| 人妻 亚洲 视频| 自线自在国产av| 三级国产精品片| 久久国产亚洲av麻豆专区| 亚洲精品国产成人久久av| 777米奇影视久久| 久久99精品国语久久久| 成人毛片60女人毛片免费| 99久久精品一区二区三区| 水蜜桃什么品种好| 精品国产国语对白av| 日韩制服骚丝袜av| 久久精品熟女亚洲av麻豆精品| 18禁动态无遮挡网站| 久久久久人妻精品一区果冻| 亚洲综合色惰| 免费av不卡在线播放| 人妻系列 视频| 欧美日韩视频高清一区二区三区二| 一本色道久久久久久精品综合| 成人黄色视频免费在线看| 久久久久久久久久久久大奶| 欧美区成人在线视频| 精品酒店卫生间| 日韩成人伦理影院| 成人综合一区亚洲| 亚洲不卡免费看| 亚洲精品中文字幕在线视频 | 两个人的视频大全免费| 国产高清不卡午夜福利| 国产白丝娇喘喷水9色精品| 不卡视频在线观看欧美| 国产伦理片在线播放av一区| 日韩一区二区视频免费看| 亚洲av不卡在线观看| 午夜老司机福利剧场| 久久综合国产亚洲精品| 少妇人妻 视频| 一级,二级,三级黄色视频| 国产高清不卡午夜福利| 不卡视频在线观看欧美| 久久久精品免费免费高清| 中文字幕人妻熟人妻熟丝袜美| 国产深夜福利视频在线观看| 91精品一卡2卡3卡4卡| 99热6这里只有精品| 国产亚洲精品久久久com| 春色校园在线视频观看| 校园人妻丝袜中文字幕| 各种免费的搞黄视频| 午夜av观看不卡| av网站免费在线观看视频| 国产av码专区亚洲av| 精品少妇黑人巨大在线播放| 国产成人精品一,二区| 日日啪夜夜爽| a级毛色黄片| 好男人视频免费观看在线| 免费久久久久久久精品成人欧美视频 | 在线观看免费高清a一片| 国产视频首页在线观看| 十分钟在线观看高清视频www | 亚洲国产色片| 亚洲综合精品二区| 狂野欧美激情性xxxx在线观看| 啦啦啦在线观看免费高清www| 日本午夜av视频| 蜜臀久久99精品久久宅男| 美女脱内裤让男人舔精品视频| 国产高清三级在线| av黄色大香蕉| 少妇精品久久久久久久| 久热久热在线精品观看| 麻豆乱淫一区二区| 免费看av在线观看网站| 丰满饥渴人妻一区二区三| 亚洲婷婷狠狠爱综合网| 视频中文字幕在线观看| 国产免费视频播放在线视频| 国模一区二区三区四区视频| 少妇猛男粗大的猛烈进出视频| √禁漫天堂资源中文www| 日韩中文字幕视频在线看片| 人人妻人人澡人人看| 观看av在线不卡| 哪个播放器可以免费观看大片| 国内揄拍国产精品人妻在线| 日产精品乱码卡一卡2卡三| 欧美日韩在线观看h| 日韩精品有码人妻一区| 欧美日韩精品成人综合77777| 大话2 男鬼变身卡| 插逼视频在线观看| 大香蕉久久网| 亚洲性久久影院| 国产伦理片在线播放av一区| 亚洲无线观看免费| 麻豆成人av视频| 伊人久久精品亚洲午夜| 国产伦精品一区二区三区四那| 成年av动漫网址| 欧美 亚洲 国产 日韩一| 免费观看无遮挡的男女| 我要看黄色一级片免费的| 春色校园在线视频观看| 中文乱码字字幕精品一区二区三区| 国产 精品1| 国产成人aa在线观看| av卡一久久| 欧美日韩国产mv在线观看视频| 国产精品久久久久成人av| 久久国内精品自在自线图片| 婷婷色综合www| 亚洲国产精品成人久久小说| 色婷婷久久久亚洲欧美| 女性被躁到高潮视频| 精品国产乱子伦一区二区三区 | 亚洲中文字幕日韩| 久久 成人 亚洲| 香蕉丝袜av| 久久久久久人人人人人| 丝袜脚勾引网站| 国产黄色免费在线视频| 欧美精品高潮呻吟av久久| 精品人妻1区二区| 午夜日韩欧美国产| videosex国产| 欧美激情久久久久久爽电影 | 国产成人精品久久二区二区免费| 在线 av 中文字幕| 考比视频在线观看| 黄色视频不卡| 欧美另类亚洲清纯唯美| 一级毛片电影观看| 激情视频va一区二区三区| 岛国毛片在线播放| 亚洲国产av新网站| 丝袜脚勾引网站| 国产伦理片在线播放av一区| 少妇人妻久久综合中文| 在线观看免费日韩欧美大片| 久久 成人 亚洲| 国产亚洲精品第一综合不卡| 亚洲精品中文字幕一二三四区 | 91大片在线观看| 每晚都被弄得嗷嗷叫到高潮| 大香蕉久久网| 久久久久国产一级毛片高清牌| 99久久99久久久精品蜜桃| 无遮挡黄片免费观看| 亚洲av日韩在线播放| 国产真人三级小视频在线观看| 精品视频人人做人人爽| 中文字幕制服av| 考比视频在线观看| 麻豆国产av国片精品| 色视频在线一区二区三区| 久久女婷五月综合色啪小说| 自拍欧美九色日韩亚洲蝌蚪91| 久久精品国产综合久久久| 老熟妇仑乱视频hdxx| 女人久久www免费人成看片| av欧美777| 中国美女看黄片| 色视频在线一区二区三区| 欧美 日韩 精品 国产| 欧美日韩中文字幕国产精品一区二区三区 | 热99久久久久精品小说推荐| 亚洲精品中文字幕一二三四区 | 天堂8中文在线网| 又黄又粗又硬又大视频| 美女中出高潮动态图| 欧美日韩黄片免| 精品一品国产午夜福利视频| 欧美日韩成人在线一区二区| 日本猛色少妇xxxxx猛交久久| 可以免费在线观看a视频的电影网站| 成人三级做爰电影| 一级黄色大片毛片| 黑人操中国人逼视频| 狠狠精品人妻久久久久久综合| 国产又色又爽无遮挡免| 国产一区二区在线观看av| 国产av国产精品国产| 亚洲成人免费电影在线观看| 午夜免费成人在线视频| 大陆偷拍与自拍| 精品欧美一区二区三区在线| 婷婷色av中文字幕| 99国产精品一区二区蜜桃av | 亚洲欧美一区二区三区久久| 天天影视国产精品| 俄罗斯特黄特色一大片| 伦理电影免费视频| 男人舔女人的私密视频| 精品免费久久久久久久清纯 | 男人爽女人下面视频在线观看| 免费久久久久久久精品成人欧美视频| 91老司机精品| 两性午夜刺激爽爽歪歪视频在线观看 | 久久久久久久久免费视频了| 亚洲伊人色综图| 九色亚洲精品在线播放| 国产无遮挡羞羞视频在线观看| 女人久久www免费人成看片| 亚洲视频免费观看视频| 高清在线国产一区| 老熟妇仑乱视频hdxx| 亚洲七黄色美女视频| 久久ye,这里只有精品| 性色av一级| 欧美日韩亚洲综合一区二区三区_| 亚洲一码二码三码区别大吗| 首页视频小说图片口味搜索| 麻豆乱淫一区二区| 国产亚洲精品久久久久5区| 俄罗斯特黄特色一大片| 国产成人免费观看mmmm| 一边摸一边抽搐一进一出视频| 他把我摸到了高潮在线观看 | 日日夜夜操网爽| 又黄又粗又硬又大视频| 欧美黑人欧美精品刺激| 日韩大片免费观看网站| 婷婷色av中文字幕| 少妇精品久久久久久久| 国产色视频综合| netflix在线观看网站| 午夜福利影视在线免费观看| 日韩 欧美 亚洲 中文字幕| 精品一品国产午夜福利视频| 国产精品成人在线| 国产精品久久久久成人av| 亚洲国产欧美日韩在线播放| 亚洲人成77777在线视频| 亚洲精品中文字幕一二三四区 | 日日爽夜夜爽网站| 久久精品国产a三级三级三级| 纵有疾风起免费观看全集完整版| svipshipincom国产片| 自线自在国产av| 国产精品 国内视频| 高潮久久久久久久久久久不卡| 手机成人av网站| 国产成人欧美| 少妇被粗大的猛进出69影院| 一进一出抽搐动态| 淫妇啪啪啪对白视频 | 女人久久www免费人成看片| 欧美激情高清一区二区三区| 99国产综合亚洲精品| 久久久精品国产亚洲av高清涩受| 黑人操中国人逼视频| 国产xxxxx性猛交| 国内毛片毛片毛片毛片毛片| 成人18禁高潮啪啪吃奶动态图| 男女午夜视频在线观看| 成年人黄色毛片网站| 亚洲专区字幕在线| 日本五十路高清| 91av网站免费观看| 淫妇啪啪啪对白视频 | 亚洲精品国产精品久久久不卡| 99久久精品国产亚洲精品| 老司机影院成人| 午夜福利乱码中文字幕| 美女主播在线视频| 亚洲成人手机| 在线观看www视频免费| 香蕉丝袜av| 老司机午夜福利在线观看视频 | 手机成人av网站| 久久香蕉激情| 久久国产精品影院| av欧美777| 国产国语露脸激情在线看| 两个人看的免费小视频| a级毛片黄视频| 老汉色av国产亚洲站长工具| 中国国产av一级| 人妻一区二区av| 成人国产av品久久久| 国产欧美日韩一区二区三区在线| 男女之事视频高清在线观看| 亚洲国产精品一区三区| 成人影院久久| 亚洲中文日韩欧美视频| h视频一区二区三区| 啦啦啦 在线观看视频| 国产亚洲欧美精品永久| 精品少妇内射三级| 99久久人妻综合| 在线看a的网站| 精品国产一区二区久久| e午夜精品久久久久久久| 国产高清videossex| 老汉色∧v一级毛片| 日韩欧美免费精品| 久久久久久久精品精品| 热99久久久久精品小说推荐| 亚洲精品中文字幕一二三四区 | 精品少妇黑人巨大在线播放| 欧美精品高潮呻吟av久久| 青草久久国产| 一本久久精品| 亚洲精品国产精品久久久不卡| 菩萨蛮人人尽说江南好唐韦庄| 国产片内射在线| 高清欧美精品videossex| 一本一本久久a久久精品综合妖精| 1024视频免费在线观看| 欧美中文综合在线视频| 纯流量卡能插随身wifi吗| 国产av一区二区精品久久| 久久国产精品大桥未久av| 俄罗斯特黄特色一大片| 久久久久久久精品精品| 久久久久精品国产欧美久久久 | 久久久久国内视频| 老司机深夜福利视频在线观看 | 国产男女内射视频| 啦啦啦视频在线资源免费观看| 久久狼人影院| 国产免费福利视频在线观看| 人妻久久中文字幕网| 少妇粗大呻吟视频| 午夜福利免费观看在线| 日韩人妻精品一区2区三区| 欧美日韩国产mv在线观看视频| 国产免费av片在线观看野外av| 国产精品久久久久久人妻精品电影 | 国产一区二区激情短视频 | 亚洲精品一卡2卡三卡4卡5卡 | 每晚都被弄得嗷嗷叫到高潮| 91麻豆精品激情在线观看国产 | 桃红色精品国产亚洲av| 欧美精品啪啪一区二区三区 | 亚洲精品一卡2卡三卡4卡5卡 | 青春草视频在线免费观看| 波多野结衣一区麻豆| 国产老妇伦熟女老妇高清| 亚洲人成77777在线视频| 18禁黄网站禁片午夜丰满| 亚洲精品一区蜜桃| 日韩有码中文字幕| 久久久久久久久免费视频了| 欧美97在线视频| 亚洲欧美精品自产自拍| 自拍欧美九色日韩亚洲蝌蚪91| 日韩制服丝袜自拍偷拍| 黄色视频,在线免费观看| 亚洲欧美日韩高清在线视频 | 色播在线永久视频| 欧美精品亚洲一区二区| 亚洲男人天堂网一区| 国产精品免费大片| 久久久久久免费高清国产稀缺| 人人妻人人澡人人爽人人夜夜| 人人澡人人妻人| 国产免费视频播放在线视频| 欧美大码av| 日韩电影二区| 久久久久视频综合| 狠狠精品人妻久久久久久综合| 久久久国产成人免费| 菩萨蛮人人尽说江南好唐韦庄| 成人av一区二区三区在线看 | 欧美 日韩 精品 国产| 欧美 日韩 精品 国产| 亚洲人成电影观看| 91麻豆av在线| 999久久久国产精品视频| 成人黄色视频免费在线看| 麻豆乱淫一区二区| 亚洲精品一二三| 亚洲第一欧美日韩一区二区三区 | 在线观看免费高清a一片| a级片在线免费高清观看视频| 视频区欧美日本亚洲| 亚洲av电影在线观看一区二区三区| 丝袜脚勾引网站| 日本a在线网址| 久久青草综合色| 捣出白浆h1v1| 亚洲一区二区三区欧美精品| 曰老女人黄片| 好男人电影高清在线观看| 99re6热这里在线精品视频| 天天添夜夜摸| 十八禁人妻一区二区| 人人妻人人澡人人看| 人人妻人人澡人人看| 在线观看www视频免费| 久久精品久久久久久噜噜老黄| 久久久久久久大尺度免费视频| 免费不卡黄色视频| 老熟女久久久| 免费女性裸体啪啪无遮挡网站| 在线观看舔阴道视频| 91麻豆精品激情在线观看国产 | 亚洲色图综合在线观看| 精品国产一区二区三区四区第35| 国产97色在线日韩免费| 亚洲一卡2卡3卡4卡5卡精品中文| 国产日韩欧美视频二区| 久久久久久久大尺度免费视频| 色精品久久人妻99蜜桃| 国产视频一区二区在线看| 超色免费av| 一边摸一边做爽爽视频免费| 欧美精品人与动牲交sv欧美| 手机成人av网站| 亚洲专区国产一区二区| 亚洲国产欧美一区二区综合| 国产精品久久久久成人av| 亚洲精品国产av蜜桃| 亚洲天堂av无毛| 婷婷成人精品国产| 丝袜人妻中文字幕| 无限看片的www在线观看| 最近中文字幕2019免费版| 日韩大片免费观看网站| 新久久久久国产一级毛片| 在线观看免费日韩欧美大片| 蜜桃国产av成人99| 一区在线观看完整版| 日日摸夜夜添夜夜添小说| 考比视频在线观看| 大香蕉久久成人网| 日韩有码中文字幕| 纯流量卡能插随身wifi吗| 黄片大片在线免费观看| 久热爱精品视频在线9| 美女视频免费永久观看网站| 99re6热这里在线精品视频| 国产亚洲午夜精品一区二区久久| 人妻 亚洲 视频| 国产成人影院久久av| 亚洲专区国产一区二区| 男女床上黄色一级片免费看| 免费在线观看黄色视频的| 亚洲专区字幕在线| 天天添夜夜摸| 日本av免费视频播放| 青春草亚洲视频在线观看| 天天影视国产精品| 欧美成狂野欧美在线观看| 热re99久久精品国产66热6| 欧美97在线视频| 性少妇av在线| 极品少妇高潮喷水抽搐| 操美女的视频在线观看| 欧美性长视频在线观看| 国产精品久久久久久人妻精品电影 | 天堂中文最新版在线下载| 成年人午夜在线观看视频| 肉色欧美久久久久久久蜜桃| 久久ye,这里只有精品| 欧美黑人精品巨大| 一区在线观看完整版| 婷婷成人精品国产| 一区二区日韩欧美中文字幕| 91麻豆av在线| 777久久人妻少妇嫩草av网站| 一二三四社区在线视频社区8| 香蕉国产在线看| 又紧又爽又黄一区二区| 精品少妇黑人巨大在线播放| 免费女性裸体啪啪无遮挡网站| 欧美性长视频在线观看| 日韩精品免费视频一区二区三区| 欧美一级毛片孕妇| 国产xxxxx性猛交| 精品一区在线观看国产| 老熟妇乱子伦视频在线观看 | 深夜精品福利| 波多野结衣一区麻豆| 美女扒开内裤让男人捅视频| 9热在线视频观看99| 久久久精品免费免费高清| 亚洲国产中文字幕在线视频| 女人高潮潮喷娇喘18禁视频| 99re6热这里在线精品视频| 少妇猛男粗大的猛烈进出视频| 飞空精品影院首页| 国产一卡二卡三卡精品| 中文字幕最新亚洲高清| 高清欧美精品videossex|