• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于不確定性的貝葉斯策略重用方法

    2025-03-20 00:00:00付可陳浩王宇劉權(quán)黃健
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

    摘 要:針對多智能體對抗中因?qū)κ植呗宰兓瘜?dǎo)致的非平穩(wěn)性問題,在對手動作不可獲取的限制下,提出一種基于不確定性的貝葉斯策略重用算法。在離線階段,在策略學(xué)習(xí)的同時(shí),通過自編碼器建模智能體軌跡與對手動作之間的關(guān)系表征以構(gòu)建對手模型。在在線階段,依據(jù)對手模型和有限交互信息,估計(jì)對手策略類型的不確定性,并基于此選擇最優(yōu)應(yīng)對策略并重用。最后,在兩種對抗場景下的實(shí)驗(yàn)結(jié)果表明所提算法相比3種先進(jìn)的基線方法識別精度更高,且識別速度更快。

    關(guān)鍵詞: 多智能體對抗; 貝葉斯策略重用; 強(qiáng)化學(xué)習(xí); 關(guān)系表征

    中圖分類號: TP 301.6

    文獻(xiàn)標(biāo)志碼: ADOI:10.12305/j.issn.1001 506X.2025.02.20

    Uncertainty based Bayesian policy reuse method

    FU Ke, CHEN Hao, WANG Yu, LIU Quan, HUANG Jian*

    (College of Intelligence Science and Technology, National University of Defense Technology, Changsha 410073, China)

    Abstract:To solve the non stationarity problem caused by opponent policy changes in multi agent competitions, this paper proposes an algorithm called uncertainty based Bayesian policy reuse under the restriction of unavailability of the online opponent’s actions. In the offline phase, use an autoencoder to model the relationship representation between agent trajectories and the opponent actions during policy learning. In the online phase, the agent evaluates the uncertainty of the opponent type only conditioning on limited interaction information and the built opponent models. Afterward, optimal response policy is selected for execution. The proposed algorithm on two scenarios and demonstrate that it has higher recognition accuracy and faster speed than three state of the art baseline methods.

    Keywords:multi agent competition; Bayesian policy reuse; reinforcement learning; relationship representation

    0 引 言

    多智能體系統(tǒng)(multi agent systems, MAS)通過在一個(gè)系統(tǒng)中考慮多個(gè)智能體來擴(kuò)展經(jīng)典的決策問題1-2。多智能體對抗作為其子方向之一,已被廣泛應(yīng)用于游戲3-4、軍事5-6、機(jī)器人7-8等領(lǐng)域。然而,在現(xiàn)實(shí)世界的對抗交互中,對手方可能會采取不同的策略,策略會隨著時(shí)間的推移而發(fā)生變化。MAS中的智能體共享同一個(gè)環(huán)境并相互影響,導(dǎo)致系統(tǒng)非平穩(wěn),(藍(lán)方)智能體難以快速適應(yīng)變化的對手策略9-10。例如,若每個(gè)玩家都配備一個(gè)策略庫,并根據(jù)交互信息選擇適當(dāng)?shù)牟呗灾赜脕碜畲蠡约旱睦?,在這種情況下,如何快速、準(zhǔn)確地識別和適應(yīng)在線交互中突然切換策略的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。

    貝葉斯策略重用(Bayesian policy reuse, BPR)框架及其衍生方法可以在面對一個(gè)未標(biāo)記(但之前見過的)任務(wù)時(shí),有效地識別和重用已有策略11-12。BPR+[13將BPR擴(kuò)展到非平穩(wěn)對手的多智能體設(shè)定中。面向策略層面的貝葉斯心智理論策略(Bayesian theory of mind on policy, Bayes ToMoP)14算法引入了心智理論(theory of mind, TOM)[15-16來應(yīng)對具備更高層次策略推理能力的對手,即假設(shè)對手同樣也可以采用BPR推理。盡管這些方法有所成效,但其信念高度依賴只使用回合獎勵作為更新信號的性能模型,不足以快速、準(zhǔn)確地識別對手的策略。

    將對手行為融入BPR框架是提高識別精度的有效方法。深度BPR (deep BPR, Deep BPR+)17算法使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型擬合對手策略,即從對手的歷史交互序列中描述其行為。這樣處理的優(yōu)點(diǎn)是即便在面對未訪問過的狀態(tài)時(shí),依舊可以推斷對手的行為。然而,該方法假設(shè)在交互中可以準(zhǔn)確獲取對手的私有動作信息,這一假設(shè)在現(xiàn)實(shí)應(yīng)用中難以保證。例如,在空戰(zhàn)中,很難即時(shí)準(zhǔn)確判斷對方的機(jī)動動作,但卻可以感知由該動作引起的態(tài)勢變化。

    本文重點(diǎn)關(guān)注在執(zhí)行階段對手動作信息不可獲取的對抗場景下,如何快速應(yīng)對策略可切換的非平穩(wěn)對手。針對該問題,提出基于不確定性的BPR(uncertainty based BPR, Uncertainty BPR)算法,該算法結(jié)合了BPR的推理能力和識別能力。Uncertainty BPR分為離線階段和在線階段。離線階段旨在學(xué)習(xí)智能體的軌跡和對手動作之間的關(guān)系表征。具體地,通過自編碼器(auto encoder, AE)[18-19在潛在空間中構(gòu)建智能體軌跡與對手動作的關(guān)系模型,并提取潛在特征。然后,將潛在特征作為下游強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)任務(wù)的輸入增益。同時(shí),統(tǒng)計(jì)AE重建對手動作的回合累積熵,并將其擬合為高斯分布,作為對手模型。在線階段通過對手模型以在線交互所得到的回合累積熵修正關(guān)于對手策略類型與當(dāng)前所使用策略匹配度的信念,然后基于信念和性能模型,從策略庫中選擇最優(yōu)應(yīng)對策略并重用。最后,本文在兩個(gè)對抗場景中,證明所提算法相比于3個(gè)基準(zhǔn)算法在識別精度和識別速度方面性能更優(yōu)。

    本文主要貢獻(xiàn)總結(jié)如下:

    (1) 本文結(jié)合AE模型,提出了一個(gè)基于回合累積熵的對手模型,以衡量對手策略類型的不確定性程度。

    (2) 本文提出了Uncertainty BPR方法,該方法在執(zhí)行過程中不需要訪問對手行為即可以準(zhǔn)確識別對手類型。

    (3) 經(jīng)過與3個(gè)基線方法的實(shí)驗(yàn)對比,本文所提算法在識別速度和識別精度方面均表現(xiàn)出優(yōu)異的性能。

    1 準(zhǔn)備知識

    1.1 問題定義

    Uncertainty BPR算法的決策過程可以建模為雙人馬爾可夫博弈20-21,并由一個(gè)5元組組成〈S,A,O,P,R 〉。其中,S是有限狀態(tài)集;A和O是智能體和對手的有限動作集;P:S×A×O×S→[0,1]是狀態(tài)轉(zhuǎn)移函數(shù)。其中,“×”表示笛卡爾積。每個(gè)玩家i有一個(gè)獎勵函數(shù)R:S×A×O→R,且試圖最大化總預(yù)期折扣回報(bào)Ri=∑t=Tt=0γtrit,以找到最優(yōu)策略π*i。其中,R是實(shí)數(shù)集,T是回合步長,r是立即獎勵,r∈[0,1]是用于平衡即時(shí)獎勵和未來獎勵的折扣因子。

    然后,定義智能體的軌跡為={st,at}t=Tt=0。

    如果對手策略固定,那么雙人馬爾可夫博弈可簡化為馬爾可夫決策過程(Markov decision process, MDP),可通過RL算法求解,如近端策略優(yōu)化(proximal policy optimization, PPO)[22和優(yōu)勢演員-評論家(advantage actor critic, A2C)[23等。

    1.2 智能體結(jié)構(gòu)及訓(xùn)練

    本文設(shè)計(jì)的智能體的內(nèi)部結(jié)構(gòu)如圖1所示,該框架結(jié)合了AE模型和RL。其中,AE模型包含一個(gè)編碼器和一個(gè)解碼器,目的是學(xué)習(xí)智能體軌跡和對手動作之間的關(guān)系表征。假設(shè)空間Z中的潛在特征zt隱含了每個(gè)時(shí)間步t對手的動作信息。接著,采用帶有長短時(shí)記憶網(wǎng)絡(luò)(long short term memory, LSTM)的編碼器學(xué)習(xí)智能體軌跡與潛在特征之間的關(guān)系,即fω:1→Z,參數(shù)為ω。然后,同樣使用參數(shù)為u的解碼器來學(xué)習(xí)對手動作和潛在特征之間的關(guān)系,定義解碼器為fu:Z→O,即重建對手動作的模型。編碼器僅以智能體軌跡為條件關(guān)聯(lián)對手動作,并生成潛在特征,并將潛在特征輸入到下游RL任務(wù)中。

    在每個(gè)時(shí)間步t,編碼器基于智能體的信息(s:t,a:t-1)生成潛在特征zt。同樣地,在每個(gè)時(shí)間步t,解碼器基于zt學(xué)習(xí)重建對手動作ot,即輸出對手動作的類別分布。此時(shí),AE模型的損失函數(shù)可以寫為

    LAE=-1T∑Tt=1[ln fu(ot∣zt)](1)

    式中:zt=fw(s:t,a:t-1),t為時(shí)間步;T為回合步長。在本文的實(shí)驗(yàn)中,采用A2C[23來求解智能體策略,但也可以使用其他RL算法替代。給定批次數(shù)據(jù)B,A2C的損失可以寫為

    LA2C=E(st,at,rt+1,st+1)~B12(rt+1+γV(st+1,zt+1)-

    V(st,zt))2-A^lnπθ(at∣st,zt)-λH(πθ(at∣st,zt))(2)

    式中:V為值函數(shù);E是數(shù)學(xué)期望;A^是基本優(yōu)勢項(xiàng);H是熵;超參數(shù)λ控制了熵正則化項(xiàng)的強(qiáng)度。

    1.3 BPR

    BPR框架可以在面對未標(biāo)記(但之前見過的) MDP任務(wù)時(shí)有效地選擇和重用最優(yōu)策略。具體的步驟是先從離線經(jīng)驗(yàn)中學(xué)習(xí)任務(wù)x∈χ的最優(yōu)應(yīng)對策略π∈Π,其中χ是任務(wù)庫,Π是智能體的策略庫。然后,將其作為任務(wù)空間上的貝葉斯先驗(yàn),并通過來自當(dāng)前任務(wù)的新觀測信號σ∈Σ進(jìn)行更新。信號σ可以是一個(gè)與策略π性能相關(guān)的任意信息,如即時(shí)獎勵、效用(回合獎勵、回報(bào))或狀態(tài)-動作-狀態(tài)元組。此外,觀測模型P(σ∣x,π)是將策略π作用于任務(wù)x所產(chǎn)生的信號的概率分布。信念β是χ上的一個(gè)概率分布,它衡量了當(dāng)前任務(wù)x*與χ中已知任務(wù)的匹配程度。信念可以用先驗(yàn)概率來初始化。在每次試驗(yàn)k個(gè)回合后,根據(jù)智能體觀察到的信號,使用貝葉斯規(guī)則更新信念βk(x):

    βk(x)=P(αk∣x,πk)βk-1(x)Σx′∈χP(αk∣x′,πk)βk-1(x′)(3)

    BPR使用性能模型P(U|x,π)來描述每個(gè)策略π在先前解決過的任務(wù)x上獲得的效用值的概率分布。文獻(xiàn)[11]提出了一些探索啟發(fā)式方法,來選擇最優(yōu)策略的BPR變體。BPR 預(yù)期改進(jìn)(BPR expected improvement, BPR EI)啟發(fā)式算法在所有BPR變體中表現(xiàn)最佳。假設(shè)U-=maxπ∈Π∑x∈χ·β(x)E[U|x,π]是當(dāng)前信念下的最優(yōu)估計(jì),那么BPR EI選擇最優(yōu)策略的表達(dá)式如下:

    π=arg maxπ∈Π∫UmaxU-∑x∈χβ(τ)P(U+∣x,π)dU+(4)

    式中:U-lt;U+lt;Umax,U+為積分變量,Umax為最大回合累積效用。這里回顧的BPR方法主要參考文獻(xiàn)[15],文獻(xiàn)中將使用不同策略的對手視為不同的任務(wù)。

    2 Uncertainty BPR

    本節(jié)詳細(xì)描述了Uncertainty BPR算法的理論推導(dǎo)和實(shí)現(xiàn)過程。如圖2所示,圖2上半部分表示離線階段策略學(xué)習(xí)和模型生成的過程,下半部分表示在線階段信念修正和策略重用的過程。

    2.1 離線策略學(xué)習(xí)和模型生成

    假設(shè)紅藍(lán)雙方都分別伴隨著一個(gè)策略庫的形式而存在,那么首先需要在離線階段對藍(lán)方策略庫進(jìn)行填充。對于特定任務(wù)x*∈χ,固定對手策略τ∈T,智能體使用圖1結(jié)構(gòu)與對手進(jìn)行交互,以學(xué)習(xí)最優(yōu)應(yīng)對策略。然后,將學(xué)習(xí)到的應(yīng)對策略添加到最優(yōu)應(yīng)對策略庫Π中(算法1中的第1~3行)。此時(shí),智能體的應(yīng)對策略已存放于最優(yōu)應(yīng)對策略庫Π中。為了從策略庫Π中準(zhǔn)確地選擇應(yīng)對策略,在線執(zhí)行時(shí)選擇輔助識別信息是一種挑戰(zhàn)。熵或信息熵是香農(nóng)利用熱力學(xué)知識引入的一個(gè)概念,描述了信息源中每個(gè)可能事件發(fā)生的不確定性24。它遵循一個(gè)性質(zhì),即熵值越大,不確定性越大,反之亦然。熵是機(jī)器學(xué)習(xí)(machine learning, ML)中理解各種概念的有用工具,在ML研究中被廣泛應(yīng)用25,概率分布的熵可以解釋為對不確定性的度量26-27。

    定義 1 定義分布p在M個(gè)狀態(tài)的離散隨機(jī)變量Y的熵為

    H(Y)=-∑Mm=1p(Y=m)ln p(Y=m)(5)

    本文使用熵來衡量重建對手動作的準(zhǔn)確性,從而評估對手策略類型的不確定性。參考BPR建立性能模型的過程,本文統(tǒng)計(jì)了潛在特征重建對手動作時(shí)的回合累積熵。累積熵的概念與文獻(xiàn)[28]不同,指在整個(gè)回合中重建對手動作的熵累積和,可以表示為

    h-=-∑Tt=0fu(ot|zt)ln fu(ot|zt)(6)

    式中:fu(ot|zt)表示對手在時(shí)間步t時(shí)的動作類別分布;h-的值反映了重建對手動作的準(zhǔn)確性。理論上,當(dāng)智能體所使用的策略恰好是應(yīng)對對手的最優(yōu)策略時(shí),h-的值最小。算法1中的第4~10行描述了性能模型和對手模型的生成過程。

    算法 1 離線策略學(xué)習(xí)和模型生成

    輸入 智能體策略庫Π,對手策略庫Ξ

    輸出 性能模型P(U|Ξ,Π),對手模型P(H-|T,Π)

    1. for 每個(gè)對手策略τ∈Ξ do

    2." 學(xué)習(xí)最優(yōu)應(yīng)對策略并將其添加到Π

    3. end

    4. for 每個(gè)對手策略τ∈Ξ do

    5.nbsp;" for 每個(gè)應(yīng)對策略π∈Π do

    6.使用策略π對抗策略τ

    7.收集回合獎勵u和回合累積熵h-

    8."" end

    9."" 將u,h-擬合為高斯分布以生成性能模型

    P(u|Ξ,Π)和對手模型P(h-|Ξ,Π)

    10. end

    2.2 在線信念修正和策略重用

    識別對手策略類型的準(zhǔn)確度將直接影響策略重用的性能。標(biāo)準(zhǔn)BPR中的信念僅依賴性能模型。然而,針對不同對手的性能模型可能是相同的。例如,在稀疏獎勵下,只有任務(wù)成功才能獲得收益,而任何的失誤都可能導(dǎo)致零收益。假設(shè)在某個(gè)回合中,智能體以策略πi對抗對手策略τj,如果i≠j,那么性能模型可能為

    p(u=0|πi,τ1)=…=p(u=0|πi,τi-1)=…=p(u=0|π1,τn)

    這導(dǎo)致在不同對手策略上的信念模型無法區(qū)分,即:

    β(τ1)=…=β(τi-1)=β(τi+1)=…=β(τi+n)

    因此,僅依靠性能模型難以準(zhǔn)確識別對手策略類型。為了克服此問題,本文使用對手模型P(H-|Ξ,Π)來糾正信念,并且不需要在在線執(zhí)行期間直接訪問對手的動作。直觀地說,修正后的信念可以理解為識別對手策略類型的后驗(yàn)概率。

    性能模型和對手模型是相互獨(dú)立的,因?yàn)樗鼈兎謩e依賴于u和h-。因此,可以直接將兩個(gè)模型相乘,以衡量對手使用策略τ時(shí)的概率,從而得到一個(gè)更準(zhǔn)確的對手策略預(yù)測模型。此時(shí),重寫公式中的信念更新公式為

    β-k(τ)=P(h-k|τ,πk)P(uk|τ,πk)β-k-1(τ)∑τ′∈TP(h-k|τ′,πk)P(uk|τ′,πk)β-k-1(τ′)(7)

    在每一回合開始時(shí),根據(jù)信念選擇最優(yōu)匹配策略π*執(zhí)行:

    π=arg maxπ∈Π∫UmaxU-∑τ∈Tβ-(τ)P(U+∣τ,π)dU+(8)

    式中:U-=maxπ∈Π∑τ∈τβ-(τ)E[U∣τ,π]。算法2詳細(xì)描述了在線階段的信念修正和策略重用過程。值得注意的是,上述信念修正的思路類似于Deep BPR+[17,但也存在幾點(diǎn)差異:① Uncertainty BPR中的對手模型關(guān)注的是預(yù)測對手動作準(zhǔn)確性的熵分布,而不是從離線經(jīng)驗(yàn)中學(xué)習(xí)對手的真實(shí)策略;② Deep BPR+使用神經(jīng)網(wǎng)絡(luò)來建立對手模型,但本文使用了統(tǒng)計(jì)的方法;③ Deep BPR+在在線執(zhí)行時(shí)需要獲取整個(gè)回合中的對手動作來識別應(yīng)對策略。但是,本文所提方法不需要直接訪問對手動作。

    算法 2 在線信念修正和策略重用

    輸入 智能體策略庫Π,對手策略庫Ξ,性能模型P(U|Ξ,Π),對手模型P(H-|Ξ,Π),最大化回合數(shù)K,回合步長T

    輸出 應(yīng)對策略

    1. 以均勻分布初始化信念β-0(τ)

    2. for 回合k=1,2,…,K do

    3."" 初始化環(huán)境狀態(tài)

    4."" a-1←零向量,uk=hk=0

    5."" 重置編碼器中LSTM的隱藏狀態(tài)

    6."" 使用公式(8)選擇應(yīng)對策略π*k

    7."" While tlt;T and 游戲未停止 do

    8.計(jì)算隱藏特征zt=fw(s:t,a:t-1)

    9.智能體獲取環(huán)境狀態(tài)st并選擇動作

    at=π*k(at|st,zt),對手選擇動作ot

    10.計(jì)算編碼器重建對手動作的熵值

    ht=fu(ot|zt)ln fu(ot|zt)

    11.執(zhí)行動作并獲得立即獎勵rt

    12.h-k=h-k+ht,uk=uk+rt

    13."" end while

    14."" 將uk和h-k代入公式(7),更新信念β-k(τ)

    15. end

    3 實(shí)驗(yàn)分析

    在本節(jié)中,本文在足球游戲和追捕游戲兩種對抗環(huán)境中比較了最具代表性的3種算法,包括BPR+[13、Bayes ToMoP[14和Deep BPR+[17。BPR+將標(biāo)準(zhǔn)BPR擴(kuò)展到對抗環(huán)境,特別是那些從一個(gè)固定策略切換到另一個(gè)的設(shè)置13。Bayes ToMoP假設(shè)對手也使用BPR推理。Deep BPR+提出使用神經(jīng)網(wǎng)絡(luò)來近似對手的歷史軌跡,并將其視為對手模型16。在實(shí)驗(yàn)中,所有的算法都使用相同的性能模型,并且Deep BPR+可以在在線執(zhí)行中獲取真實(shí)的對手動作。實(shí)驗(yàn)環(huán)境包括二維網(wǎng)絡(luò)世界的足球游戲以及粒子群環(huán)境29-30中的追捕游戲,其中足球游戲的全局狀態(tài)采用獨(dú)熱編碼,由球員的位置和控球權(quán)組成,而追捕游戲中的全局狀態(tài)由相應(yīng)智能體的位置和速度數(shù)值組成。在離線階段,著重分析了足球游戲的實(shí)驗(yàn)結(jié)果。在在線階段,分別在兩種對抗環(huán)境中評估了累積獎勵、回合獎勵以及識別對手策略準(zhǔn)確度的指標(biāo)。

    3.1 環(huán)境描述

    3.1.1 足球游戲

    球員在足球游戲世界中的初始位置如圖3所示。紅色機(jī)器人表示智能體,藍(lán)色機(jī)器人代表對手。在每一回合開始時(shí),對手都擁有控球權(quán)。圖中的每個(gè)網(wǎng)格只能容納一個(gè)球員,而球總是與球員一起存在于同一位置。當(dāng)球員之間發(fā)生碰撞時(shí),交換球權(quán),但球員的位置不會改變。在每個(gè)時(shí)間步t,玩家從動作空間{上,下,左,右,不動}中選擇一個(gè)動作并執(zhí)行。一旦球員進(jìn)球或達(dá)到最大回合步長(T=50)時(shí),游戲結(jié)束,球員和足球的位置就會被重置。在該環(huán)境中,實(shí)驗(yàn)設(shè)定了3個(gè)不同的目標(biāo)。當(dāng)智能體帶球達(dá)到3個(gè)目標(biāo)時(shí),相應(yīng)的即時(shí)獎勵分別為:rG1=100,rG2=50,rG3=20。

    在足球游戲的實(shí)驗(yàn)中,如圖3所示,共設(shè)計(jì)了6個(gè)對手策略,分別對應(yīng)圖中的(1)~(6)。G1、G2和G3分別表示3個(gè)不同的目標(biāo),每個(gè)目標(biāo)對應(yīng)2個(gè)對手策略。實(shí)驗(yàn)設(shè)定是只有當(dāng)智能體的目標(biāo)位置與當(dāng)前對手策略的目標(biāo)位置相匹配時(shí),該目標(biāo)才有效且可以獲得獎勵。例如,在某一任務(wù)中,如果對手使用圖3中的策略(2),那么只有當(dāng)智能體將球帶入右邊的G2目標(biāo)時(shí),該結(jié)果才有效。在這種情況下,只有當(dāng)智能體準(zhǔn)確地識別到對手策略時(shí),才能從環(huán)境中獲得相應(yīng)獎勵。

    3.1.2 追捕游戲

    追捕游戲的初始玩家位置如圖4所示,其中包含3個(gè)捕食者和1個(gè)獵物。紅色圓球代表捕食者,藍(lán)色圓球代表獵物,四周表示黑色圍墻,智能體不可越過圍墻。在每個(gè)時(shí)間步t中,捕食者試圖與獵物相撞,而獵物的目標(biāo)是避免碰撞。在每個(gè)時(shí)間步t,智能體可從動作空間{上,下,左,右,不動}中選擇一個(gè)動作并執(zhí)行。如果獵物成功避免與捕食者發(fā)生碰撞,它將得到r0=0.1的獎勵。當(dāng)碰撞次數(shù)分別為1、2和3時(shí),獎勵則分別為r1=-1、r2=-5和r3=-10。一旦達(dá)到最大回合步長(T=50),游戲結(jié)束。

    在實(shí)驗(yàn)中,藍(lán)方控制獵物,將3個(gè)捕食者視為一個(gè)對手整體,并為對手設(shè)計(jì)了4種策略,即優(yōu)先垂直追蹤、優(yōu)先水平追蹤、順時(shí)針追蹤、逆時(shí)針追蹤,4種策略的具體定義如下:優(yōu)先垂直追蹤:捕食者首先通過上下移動來縮小與獵物的垂直距離,然后在垂直距離足夠小時(shí)再向左或向右移動;優(yōu)先水平追蹤:捕食者首先向左或向右移動,以減少與獵物的水平距離,然后在水平距離足夠小時(shí)再向上或向下移動;順時(shí)針追蹤:捕食者以順時(shí)針的運(yùn)動軌跡追蹤獵物;逆時(shí)針追蹤:捕食者以逆時(shí)針的運(yùn)動軌跡追蹤獵物。

    3.2 離線階段實(shí)驗(yàn)結(jié)果分析

    本節(jié)重點(diǎn)分析了離線訓(xùn)練階段足球游戲的實(shí)驗(yàn)結(jié)果,圖5(a)和圖5(b)展示了性能模型的數(shù)值可視化,圖5(c)和圖5(d)則展示了對手模型的數(shù)值可視化,其中藍(lán)色系和橙色系分別表示效用值u和回合累積熵h-擬合為高斯分布后的均值和方差。從圖5(a)可以看出,性能模型中的均值在對角線位置時(shí),效用值是最大的,即回合獎勵最大,此時(shí)恰好智能體面對某一對手時(shí)采取最優(yōu)應(yīng)對策略。但是從圖中也可以看出,由于只有在達(dá)成目標(biāo)時(shí)才會得到獎勵,因此在藍(lán)方智能體某個(gè)策略πi應(yīng)對不同對手策略時(shí),可能會出現(xiàn)性能模型相同的情況,所以如果只依賴性能模型來識別對手類型,將會導(dǎo)致識別結(jié)果不準(zhǔn)確。

    對手模型的分析與前面類似,如圖5(c)和圖5(d)所示,對角線位置依舊表示智能體的最優(yōu)應(yīng)對策略,此時(shí)均值最小,即回合累積熵值最小,不確定性也最低。相比于性能模型,對手模型中每一行內(nèi)的色塊之間顏色深淺變化更多,更能區(qū)分。因此,在性能模型的基礎(chǔ)上通過對手模型修正的信念會更加準(zhǔn)確。除此之外,圖6展示了離線訓(xùn)練階段解碼器重建對手動作的準(zhǔn)確度。圖6中,πi表示智能體i;τj表示對手j。從圖6中可以看出,隨著訓(xùn)練的進(jìn)行,該模型能夠準(zhǔn)確地重建出對手動作,并以此來關(guān)聯(lián)對手策略,由此也能證明本文所構(gòu)建出的對手模型是較為準(zhǔn)確的。

    3.3 在線階段實(shí)驗(yàn)結(jié)果分析

    3.3.1 足球游戲

    在在線階段,實(shí)驗(yàn)分為3個(gè)階段,共運(yùn)行400個(gè)回合,重復(fù)100次。在前100個(gè)回合中,對手同樣采用BPR的方式推斷智能體的策略類型并切換策略,切換間隔為20回合/次。在第100~200回合中,對手一開始采用策略(1),然后,在每3個(gè)回合中,按[(1)→(3)→(6)]或[(5)→(2)]或[(1)→(4)]的順序切換策略。在第200~400回合中,對手按照[(3)→(1)→(5)→(3)]的順序,以50回合/次的間隔切換策略。

    圖7和圖8分別展示了累積獎勵和回合獎勵,圖9表示在不同階段面對不同對手策略時(shí)的識別準(zhǔn)確率。圖中不同的顏色圖例表示不同的算法,陰影區(qū)域和灰線表示標(biāo)準(zhǔn)差。圖7和圖8中部分交替的背景顏色用以區(qū)分對手策略的切換。在第一階段的前100個(gè)回合中,對手同樣也使用性能模型對紅方智能體進(jìn)行推斷。從實(shí)驗(yàn)圖可以看出,4種算法性能基本保持一致,識別準(zhǔn)確率均可達(dá)到90%以上。

    在第100~200回合中,對手每隔幾個(gè)回合就會切換一次策略。與第一階段相比,從圖8和圖9可以看出,Uncertainty BPR在第二階段的性能優(yōu)勢明顯,且能夠更快速地識別對手策略類型。特別地,在一個(gè)回合結(jié)束、更新信念后,對手就可以被識別且延遲較小。雖然Deep BPR+同樣也使用對手模型修正原始信念,但從圖中可以看出,當(dāng)策略切換間隔小于5個(gè)回合時(shí),該算法的識別效率會降低。此外,BPR+和Beyes ToMoP都是僅依賴回合獎勵識別對手策略類型的方法。然而,當(dāng)對手策略切換間隔減小時(shí),這兩種方法的性能皆呈現(xiàn)下降趨勢(見圖7和圖8),且Beyes ToMoP的波動較大。

    在第200~400回合中,BPR+,Deep BPR+和Uncertainty BPR算法表現(xiàn)一致,皆可較快識別對手策略類型。但是,Beyes ToMoP波動最大,尤其是在第200回合開始時(shí)(見圖8),因?yàn)锽ayes ToMoP需要額外的時(shí)間判斷對手是否同樣使用BPR推理。綜上,如表1所示,Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高,達(dá)到87.7%,第2位是BPR+;識別準(zhǔn)確率為84.5%,Deep BPR+和Beyes ToMoP位列第3和第4位,識別準(zhǔn)確率分別為84.1%和81.8%。

    3.3.2 追捕游戲

    在在線階段,追捕游戲?qū)嶒?yàn)同樣分為3個(gè)階段運(yùn)行400個(gè)回合,重復(fù)100次。在前100回合中,對手采用BPR模型推斷紅方智能體的策略類型,并以20回合/次的間隔切換策略。在第100~200回合中,對手最初采用策略(1),接著以每5個(gè)回合1次的間隔按[(1)→(2)→(4)→(3)]的順序改變策略。在第200~400回合中,對手從4個(gè)候選策略中選擇1個(gè)策略,并以50回合/次的間隔進(jìn)行切換,策略切換順序?yàn)椋郏?)→(3)→(1)→(2)]。

    同樣,分析追捕游戲在在線重用階段的實(shí)驗(yàn)結(jié)果,圖例表示與足球游戲相同。在前100個(gè)回合中,對手仍然具備推理能力,如圖10所示。如圖11所示,4個(gè)算法在此階段整體表現(xiàn)優(yōu)越,識別準(zhǔn)確率皆可達(dá)到90%以上。然而,Beyes ToMoP相對其他3個(gè)算法略有波動(見圖10和圖11),這是因?yàn)锽eyes ToMoP在對手切換策略時(shí)需要額外的時(shí)間判斷對手是否使用BPR推斷。

    在第100~200回合中,對手在4種策略內(nèi)以5回合/次的間隔按設(shè)定的順序切換策略。由于智能體需要在回合間更新信息,所以難以立即檢測到對手策略的類型,至少需要一次交互來更新信念。因此,從圖10和圖11可以看出,當(dāng)切換間隔減小時(shí),所有算法的性能皆有所下降。其中,Beyes ToMoP和BPR+的識別準(zhǔn)確率相對較低,這是因?yàn)锽PR+和Beyes ToMoP過度依賴性能模型,使得當(dāng)性能模型相似時(shí),很難區(qū)分對手。此外,Deep BPR+的識別準(zhǔn)確率僅略低于Uncertainty BPR。

    在第200~400回合中,對手以50回合/次的間隔切換策略。如圖11和圖12所示,4個(gè)算法皆有較好的性能,可以快速識別和應(yīng)對對手策略切換。不過,Beyes ToMoP相對于其他3個(gè)算法性能依舊有所波動。綜上所述,如表1所示,Uncertainty BPR在整個(gè)實(shí)驗(yàn)過程中的識別準(zhǔn)確率最高,達(dá)到92.5%;第2位是Deep BPR+,識別準(zhǔn)確率為91.6%,BPR+、Beyes ToMoP排名第3和第4,識別準(zhǔn)確率分別為90.7%和89.7%。

    3.3.3 對策略切換間隔影響的分析

    為了研究對手策略切換間隔對識別精度的影響,實(shí)驗(yàn)比較不同算法在不同時(shí)間間隔切換策略時(shí)的性能。實(shí)驗(yàn)將對手的切換間隔分別設(shè)置為20、10、5和3回合/次,并且在每次切換時(shí)隨機(jī)從對手策略庫T中選擇一個(gè)策略。然后,在400個(gè)回合中分別重復(fù)100次實(shí)驗(yàn)。

    圖13和圖14分別描述了足球游戲和追捕游戲中對手使用不同切換間隔時(shí)的識別精度。從圖中可以看出,4個(gè)算法在切換間隔較小時(shí)都有較好的效果。但是,隨著切換間隔的減小,各個(gè)算法的性能皆有所下降。其中Bayes ToMoP算法性能損失最為明顯,因?yàn)樵撍惴ㄐ枰~外的時(shí)間來判斷對手是否使用BPR推斷。而Deep BPR+的表現(xiàn)明顯優(yōu)于BPR+和Bayes ToMoP。Uncertainty BPR算法的性能則依舊是最好的。綜上所述,本文所提算法在適應(yīng)一個(gè)回合后就能識別出對手的策略。

    4 結(jié) 論

    在多智能體對抗中,快速地識別和適應(yīng)在線執(zhí)行中動作不可獲取的非平穩(wěn)對手是一個(gè)具有挑戰(zhàn)性的問題。本文提出合理的假設(shè),并對具體的方法和實(shí)驗(yàn)進(jìn)行描述性分析。在理論上,為了避免在線執(zhí)行時(shí)直接獲取對手動作,本文以離線建模、在線使用的思路,結(jié)合AE模型,通過統(tǒng)計(jì)重建對手動作的回合累積熵建立對手模型。然后,利用對手模型以在線交互回合累積熵修正信念,選擇最優(yōu)策略并重用,并通過實(shí)驗(yàn)驗(yàn)證所提方法的有效性。具體地,Uncertainty BPR相比于僅依賴回合獎勵作為更新信號的BPR+和Bayes ToMoP,識別速度更快。此外,雖然Uncertainty BPR不能直接訪問對手動作,但是依舊可以取得與Deep BPR+相同、甚至更好的識別效果。

    參考文獻(xiàn)

    [1] ZHOU Z Y, LIU G J, TANG Y. Multi agent reinforcement learning: methods, applications, visionary prospects, and cha llenges[EB/OL]. [2023-09-05]. https:∥doi.org/10.48550/arXiv.2305.10091.

    [2]WEN M N, KUBA J, LIN R J, et al. Multi agent reinforcement learning is a sequence modeling problem[J]. Advances in Neural Information Processing Systems, 2022, 35: 16509-16521.

    [3]VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

    [4]GAO Y M, LIU F Y, WANG L, et al. Towards effective and interpretable human agent collaboration in MOBA games: a communication perspective[C]∥Proc.of the 11th International Conference on Learning Representations, 2023.

    [5]張磊, 李姜, 侯進(jìn)永, 等. 基于改進(jìn)強(qiáng)化學(xué)習(xí)的多無人機(jī)協(xié)同對抗算法研究[J]. 兵器裝備工程學(xué)報(bào), 2023, 44(5): 230-238.

    ZHANG L, LI J, HOU J Y, et al. Research on multi UAV cooperative confrontation algorithm based on improved reinforcement learning[J]. Journal of Ordnance Equipment Engineering, 2023, 44(5): 230-238.

    [6]POPE A P, IDE J S, MICOVIC D, et al. Hierarchical reinforcement learning for air combat at DARPA's Alpha dog fight trials[J]. IEEE Trans.on Artificial Intelligence, 2022, 4(6): 1371-1385.

    [7]ANDRIES S, HERMAN A E, WILLIE B, et al. Scaling multi agent reinforcement learning to full 11 versus 11 simulated robotic football[J]. Autonomous Agents and Multi Agent Systems, 2023, 37(1): 30.

    [8]孫輝輝, 胡春鶴, 張軍國. 基于主動風(fēng)險(xiǎn)防御機(jī)制的多機(jī)器人強(qiáng)化學(xué)習(xí)協(xié)同對抗策略[J]. 控制與決策, 2023, 38(5): 1429-1450.

    SUN H H, HU C H, ZHANG J G. Cooperative countermeasure strategy based on active risk defense multiagent reinforcement learning[J]. Control and Decision, 2023, 38(5): 1429-1450.

    [9]ZHANG T. Opponent modelling in multi agent systems[D]. London: University College London, 2021.

    [10]HU H M, SHI D X, YANG H H, et al. Independent multi agent reinforcement learning using common knowledge[C]∥Proc.of the IEEE International Conference on Systems, Man, and Cybernetics, 2022: 2703-2708.

    [11]ROSMAN B, HAWASLY M, RAMAMOORTHY S. Bayesian policy reuse[J]. Machine Learning, 2016, 104: 99-127.

    [12]何立, 沈亮, 李輝, 等. 強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(3): 884-899.

    HE L, SHEN L, LI H, et al. Survey on policy reuse in reinforcement learning[J]. Systems Engineering and Electronics, 2022, 44(3): 884-899.

    [13]HERNANDEZ LEAL P, TAYLOR M E, ROSMAN B, et al. Identifying and tracking switching, non stationary opponents: a Bayesian approach[C]∥Proc.of the 30th Conference on Artificial Intelligence, 2016.

    [14]YANG T P, MENG Z P, HAO J Y, et al. Towards efficient detection and optimal response against sophisticated opponents[C]∥Proc.of the 28th International Joint Conference on Artificial Intelligence, 2019: 623-629.

    [15]WEERD H D, VERBRUFFE R, VERHEIJ B. How much does it help to know what she knows you know? an agent based simulation study[J]. Artificial Intelligence, 2013, 199: 67-92.

    [16]HERNANDEZ LEAL P, KARTAL B, TAYLOR M E. A survey and critique of multiagent deep reinforcement learning[J]. Autonomous Agents and Multi Agent Systems, 2019, 33: 750-797.

    [17]ZHENG Y, MENG Z P, HAO J Y, et al. A deep Bayesian policy reuse approach against non stationary agents[C]∥Proc.of the Advances in Neural Information Processing Systems, 2018.

    [18]BANK D, KOENIGSTEIN N, GIRYES R. Autoencoders[J]. Machine Learning for Data Science Handbook, 2023. DOI:https:∥doi.org/10.1007/978 3 031 24628 9_16.

    [19]ZHAI J H, ZHANG S F, CHEN J F, et al. Autoencoder and its various variants[C]∥Proc.of the IEEE International Conference on Systems, Man, and Cybernetics, 2018: 415-419.

    [20]LI C J, ZHOU D, GU Q, et al. Learning two player Markov games: neural function approximation and correlated equilibrium[J]. Advances in Neural Information Processing Systems, 2022, 35: 33262-33274.

    [21]GUO W B, WU X, HUANG S, et al. Adversarial policy learning in two player competitive games[C]∥Proc.of the 38th International Conference on Machine Learning, 2021: 3910-3919.

    [22]SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[EB/OL]. [2023-09-05]. https:∥doi.org/10.48550/arXiv.1707.06347.

    [23]VOLODYMYR M, ADRIA P B, MEH D, et al. Asynchronous methods for deep reinforcement learning[C]∥Proc.of the 33th International Conference on Machine Learning, 2016.

    [24]姜楠, 王健. 信息論與編碼理論[M]. 北京:清華大學(xué)出版社, 2010.

    JIANG N, WANG J. The theory of information and coding[M]. Beijing: Tsinghua University Press, 2020.

    [25]ZHANG T, YING W G, GONG Z C, et al. A regularized opponent model with maximum entropy objective[C]∥Proc.of the 29th International Joint Conference on Artificial Intelligence, 2019.

    [26]WIMMER L, SALE Y, HOFMAN P, et al. Quantifying aleatoric and epistemic uncertainty in machine learning: are conditional entropy and mutual information appropriate measures?[C]∥Proc.of the 39th Conference on Uncertainty in Artificial Intelligence, 2023: 2282-2292.

    [27]MURPHY K P. Probabilistic machine learning: an introduction[M]. Cambridge: Massachusetts Institute of Technology Press, 2022.

    [28]CRESCENZO D A, LONGOBARD M. On cumulative entropies[J]. Journal of Statistical Planning and Inference, 2009, 139(12): 4072-4087.

    [29]PAPOUDAKIS G, CHRISTIANOU F, ALBRECHT S. Agent modelling under partial observability for deep reinforcement learning[J]. Advances in Neural Information Processing Systems, 2021, 34: 19210-19222.

    [30]LOWE R, WU Y I, TAMAR A, et al. Multi agent actor critic for mixed cooperative competitive environments[C]∥Proc.of the 31st International Conference on Neural Information Processing Systems, 2017: 6382-6393.

    作者簡介

    付 可(1993—),女,博士研究生,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    陳 浩(1993—),男,講師,博士,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    王 宇(1998—),男,博士研究生,主要研究方向?yàn)槎嘀悄荏w強(qiáng)化學(xué)習(xí)、系統(tǒng)仿真。

    劉 權(quán)(1985—),男,副研究員,博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、無線傳感器網(wǎng)絡(luò)。

    黃 ?。?971—),女,研究員,博士,主要研究方向?yàn)橄到y(tǒng)仿真、機(jī)器學(xué)習(xí)。

    猜你喜歡
    強(qiáng)化學(xué)習(xí)
    基于強(qiáng)化學(xué)習(xí)的無線網(wǎng)絡(luò)智能接入控制技術(shù)
    機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
    未來人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
    轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價(jià)值
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    亚洲av欧美aⅴ国产| 3wmmmm亚洲av在线观看| 久久久精品94久久精品| 人妻人人澡人人爽人人| 老熟女久久久| 国产伦精品一区二区三区视频9| 免费观看a级毛片全部| av又黄又爽大尺度在线免费看| 亚洲精品久久午夜乱码| 婷婷色av中文字幕| 日本黄色日本黄色录像| 国产欧美日韩综合在线一区二区 | 免费黄网站久久成人精品| 高清视频免费观看一区二区| 观看av在线不卡| 噜噜噜噜噜久久久久久91| 免费观看的影片在线观看| 久久精品国产鲁丝片午夜精品| 国产欧美亚洲国产| 一级,二级,三级黄色视频| 婷婷色综合大香蕉| 欧美精品国产亚洲| 日韩强制内射视频| 综合色丁香网| 视频中文字幕在线观看| 国精品久久久久久国模美| 午夜福利影视在线免费观看| 2021少妇久久久久久久久久久| 春色校园在线视频观看| 亚洲欧美日韩另类电影网站| 在线亚洲精品国产二区图片欧美 | 久久99热6这里只有精品| 老司机亚洲免费影院| 国产精品嫩草影院av在线观看| 最近的中文字幕免费完整| 亚洲欧美日韩另类电影网站| 女的被弄到高潮叫床怎么办| 亚洲av在线观看美女高潮| 久久国产精品男人的天堂亚洲 | 亚洲四区av| 麻豆精品久久久久久蜜桃| 一级黄片播放器| 男人狂女人下面高潮的视频| 99久久人妻综合| 国产欧美日韩精品一区二区| 国产伦在线观看视频一区| 色网站视频免费| 亚洲精品乱码久久久久久按摩| 亚洲熟女精品中文字幕| 日韩制服骚丝袜av| 97在线视频观看| 嫩草影院入口| 中文字幕人妻熟人妻熟丝袜美| av福利片在线观看| 高清av免费在线| 老司机亚洲免费影院| 日韩视频在线欧美| a级毛片在线看网站| 2018国产大陆天天弄谢| 曰老女人黄片| 尾随美女入室| 又大又黄又爽视频免费| 美女内射精品一级片tv| 亚洲国产毛片av蜜桃av| av网站免费在线观看视频| 国产亚洲欧美精品永久| 免费在线观看成人毛片| 色5月婷婷丁香| av播播在线观看一区| 丰满迷人的少妇在线观看| 欧美精品亚洲一区二区| 中文字幕制服av| videos熟女内射| 国产日韩欧美在线精品| 人妻一区二区av| 熟女电影av网| 蜜臀久久99精品久久宅男| 国产极品粉嫩免费观看在线 | 国产 一区精品| 国产成人免费观看mmmm| 色哟哟·www| 男男h啪啪无遮挡| 久久久久精品性色| 美女视频免费永久观看网站| 丝袜喷水一区| 人人妻人人看人人澡| 久久久久国产网址| 寂寞人妻少妇视频99o| 日韩av不卡免费在线播放| 欧美bdsm另类| 在线观看三级黄色| 天美传媒精品一区二区| 国产成人a∨麻豆精品| 最近的中文字幕免费完整| 国产成人午夜福利电影在线观看| 日本色播在线视频| 99久久中文字幕三级久久日本| 精品少妇内射三级| 青春草视频在线免费观看| 久久久久久久久久久久大奶| av天堂久久9| 超碰97精品在线观看| 黄色一级大片看看| 久久久久久伊人网av| 亚洲欧美清纯卡通| 亚洲欧美成人精品一区二区| 草草在线视频免费看| 亚洲国产最新在线播放| 国产av一区二区精品久久| 只有这里有精品99| 久久 成人 亚洲| 久久精品国产鲁丝片午夜精品| av.在线天堂| 日韩av免费高清视频| 国产成人aa在线观看| 欧美老熟妇乱子伦牲交| 少妇被粗大猛烈的视频| 最后的刺客免费高清国语| 夜夜爽夜夜爽视频| 男女边摸边吃奶| 一级二级三级毛片免费看| 国产精品久久久久久精品古装| 大香蕉久久网| 国产精品国产三级国产av玫瑰| av女优亚洲男人天堂| 国产又色又爽无遮挡免| 亚洲天堂av无毛| 毛片一级片免费看久久久久| 秋霞伦理黄片| 成人国产麻豆网| 亚洲精品国产av成人精品| 在线观看免费视频网站a站| 亚洲精品日韩在线中文字幕| 亚洲成人手机| 99久久精品一区二区三区| av在线观看视频网站免费| 日日爽夜夜爽网站| 亚洲国产毛片av蜜桃av| 国产永久视频网站| 在线观看免费高清a一片| 又黄又爽又刺激的免费视频.| 边亲边吃奶的免费视频| 一二三四中文在线观看免费高清| 在线观看免费视频网站a站| 国产精品福利在线免费观看| 一区二区三区免费毛片| 一级毛片aaaaaa免费看小| 久久99精品国语久久久| 国产在视频线精品| 久久久精品免费免费高清| 街头女战士在线观看网站| 免费观看无遮挡的男女| 久久久a久久爽久久v久久| 亚洲精品aⅴ在线观看| 国产日韩一区二区三区精品不卡 | 精品人妻一区二区三区麻豆| 男人舔奶头视频| 91在线精品国自产拍蜜月| videos熟女内射| 男女啪啪激烈高潮av片| 久久午夜福利片| 亚洲三级黄色毛片| 久久精品国产自在天天线| 亚洲综合精品二区| 久久久欧美国产精品| 五月伊人婷婷丁香| 亚洲精品日本国产第一区| 国产成人一区二区在线| 国产成人91sexporn| 中文乱码字字幕精品一区二区三区| 97超碰精品成人国产| 免费播放大片免费观看视频在线观看| 欧美日韩av久久| 欧美人与善性xxx| 视频区图区小说| 中文乱码字字幕精品一区二区三区| 久久av网站| 日韩制服骚丝袜av| 亚洲人与动物交配视频| 女人久久www免费人成看片| 国产精品人妻久久久影院| 国产乱来视频区| av有码第一页| 亚洲欧洲精品一区二区精品久久久 | 亚洲,一卡二卡三卡| 国产日韩欧美亚洲二区| 日本av免费视频播放| 亚洲欧美清纯卡通| 看免费成人av毛片| 国产精品欧美亚洲77777| 欧美日韩亚洲高清精品| 在线观看av片永久免费下载| 好男人视频免费观看在线| 日韩精品免费视频一区二区三区 | av有码第一页| 欧美国产精品一级二级三级 | 亚洲综合色惰| 色视频www国产| 人体艺术视频欧美日本| 亚洲精品久久午夜乱码| 少妇的逼水好多| 人人妻人人澡人人看| 精品一区二区三区视频在线| 欧美最新免费一区二区三区| 伦理电影免费视频| 精品久久久噜噜| 国产 一区精品| 日本欧美国产在线视频| 国产黄片美女视频| 少妇裸体淫交视频免费看高清| av黄色大香蕉| 五月伊人婷婷丁香| 人妻系列 视频| 精品国产露脸久久av麻豆| 男女国产视频网站| 亚洲国产精品国产精品| 五月伊人婷婷丁香| 青春草国产在线视频| 久久久久久久久久人人人人人人| 国产综合精华液| 精品亚洲成a人片在线观看| 久久久午夜欧美精品| 午夜91福利影院| a级片在线免费高清观看视频| 国产伦精品一区二区三区视频9| 乱系列少妇在线播放| 性高湖久久久久久久久免费观看| 欧美另类一区| 在线观看一区二区三区激情| 哪个播放器可以免费观看大片| 男人和女人高潮做爰伦理| 欧美激情国产日韩精品一区| 国产国拍精品亚洲av在线观看| 中文字幕亚洲精品专区| 男的添女的下面高潮视频| 热re99久久国产66热| 80岁老熟妇乱子伦牲交| 亚洲av福利一区| 成年av动漫网址| 久久免费观看电影| 一区二区三区免费毛片| 欧美激情极品国产一区二区三区 | www.色视频.com| 国产精品一区www在线观看| 久久亚洲国产成人精品v| 亚洲av男天堂| 男人狂女人下面高潮的视频| 欧美亚洲 丝袜 人妻 在线| 亚洲精品国产av成人精品| 不卡视频在线观看欧美| av天堂久久9| 国产一区有黄有色的免费视频| 69精品国产乱码久久久| a级毛色黄片| 男女免费视频国产| 成人无遮挡网站| 一个人看视频在线观看www免费| 日韩av免费高清视频| 国产深夜福利视频在线观看| av福利片在线| 美女视频免费永久观看网站| 自拍偷自拍亚洲精品老妇| 国内精品宾馆在线| 人体艺术视频欧美日本| 六月丁香七月| 性高湖久久久久久久久免费观看| 综合色丁香网| 午夜免费男女啪啪视频观看| 大片电影免费在线观看免费| 一个人免费看片子| www.色视频.com| 日韩 亚洲 欧美在线| 欧美日韩综合久久久久久| 免费大片18禁| 男人添女人高潮全过程视频| 五月玫瑰六月丁香| 在线观看人妻少妇| 少妇被粗大猛烈的视频| 人妻少妇偷人精品九色| 亚洲国产精品一区二区三区在线| 99久久综合免费| 国产精品99久久久久久久久| 久久午夜综合久久蜜桃| 国产在线男女| 欧美国产精品一级二级三级 | 成人漫画全彩无遮挡| 亚洲三级黄色毛片| 777米奇影视久久| 国产在线一区二区三区精| 欧美日韩视频精品一区| 一级黄片播放器| 国产免费一级a男人的天堂| 午夜91福利影院| 欧美激情极品国产一区二区三区 | 精品久久久久久久久av| 亚洲第一av免费看| 大码成人一级视频| 涩涩av久久男人的天堂| 极品人妻少妇av视频| 晚上一个人看的免费电影| 汤姆久久久久久久影院中文字幕| 亚洲精品第二区| 国产成人精品久久久久久| 亚洲婷婷狠狠爱综合网| 国产精品一区二区在线观看99| 日本av手机在线免费观看| 蜜桃在线观看..| 亚洲内射少妇av| 日本91视频免费播放| 国内揄拍国产精品人妻在线| 亚洲国产成人一精品久久久| 看非洲黑人一级黄片| 婷婷色av中文字幕| 如日韩欧美国产精品一区二区三区 | 高清不卡的av网站| 久久亚洲国产成人精品v| 夫妻午夜视频| 少妇的逼水好多| 高清av免费在线| 在线观看一区二区三区激情| xxx大片免费视频| 亚洲国产精品国产精品| 色婷婷av一区二区三区视频| 精品亚洲成a人片在线观看| 精品国产一区二区久久| 欧美成人精品欧美一级黄| 黄片无遮挡物在线观看| 只有这里有精品99| 日本av手机在线免费观看| 精品卡一卡二卡四卡免费| 综合色丁香网| 春色校园在线视频观看| 欧美人与善性xxx| 色婷婷av一区二区三区视频| 99热这里只有是精品在线观看| 在线天堂最新版资源| av在线播放精品| 丁香六月天网| 男女边摸边吃奶| 国产成人a∨麻豆精品| 日韩一区二区视频免费看| 欧美精品一区二区免费开放| 黄色视频在线播放观看不卡| 女性生殖器流出的白浆| 狂野欧美激情性xxxx在线观看| 91成人精品电影| 中文欧美无线码| 国产老妇伦熟女老妇高清| 亚洲经典国产精华液单| 一级二级三级毛片免费看| 欧美成人午夜免费资源| 日本与韩国留学比较| 精品一区二区三区视频在线| 亚洲成人av在线免费| 国产精品一区二区在线不卡| 精品一区二区三卡| www.色视频.com| 三级国产精品片| 午夜福利在线观看免费完整高清在| 99九九线精品视频在线观看视频| 亚洲国产毛片av蜜桃av| 中文欧美无线码| 亚洲人与动物交配视频| 久久久久久久久久久免费av| 成人漫画全彩无遮挡| 婷婷色av中文字幕| av有码第一页| 日韩不卡一区二区三区视频在线| 99九九在线精品视频 | 插逼视频在线观看| 18禁在线播放成人免费| 伊人久久国产一区二区| 最新的欧美精品一区二区| 亚洲高清免费不卡视频| 欧美高清成人免费视频www| 国产精品偷伦视频观看了| 国产精品久久久久久av不卡| 欧美精品高潮呻吟av久久| 国产真实伦视频高清在线观看| 色婷婷久久久亚洲欧美| 在线精品无人区一区二区三| 五月玫瑰六月丁香| 久久久久久久大尺度免费视频| 亚洲av日韩在线播放| av国产精品久久久久影院| 日韩精品免费视频一区二区三区 | 欧美丝袜亚洲另类| 国产精品一区二区性色av| 卡戴珊不雅视频在线播放| av视频免费观看在线观看| 一本色道久久久久久精品综合| 嘟嘟电影网在线观看| 国产免费福利视频在线观看| 国产免费视频播放在线视频| 亚洲丝袜综合中文字幕| 国产男人的电影天堂91| 日韩一区二区视频免费看| 伦理电影免费视频| 久久精品国产亚洲av涩爱| 午夜免费鲁丝| 久久女婷五月综合色啪小说| 99久国产av精品国产电影| 国产免费一级a男人的天堂| 国产精品一区www在线观看| 亚洲精品自拍成人| 一级毛片久久久久久久久女| 日韩在线高清观看一区二区三区| 在线观看国产h片| 久久av网站| 久久青草综合色| 大香蕉久久网| 一本大道久久a久久精品| 我的老师免费观看完整版| 国产 精品1| 免费高清在线观看视频在线观看| 极品教师在线视频| 久久久久久伊人网av| 亚洲av成人精品一区久久| 国产成人精品婷婷| 18+在线观看网站| 综合色丁香网| 国产男女超爽视频在线观看| 男人爽女人下面视频在线观看| 国产永久视频网站| 亚洲av综合色区一区| av福利片在线| 免费黄频网站在线观看国产| 国产精品三级大全| 国产成人一区二区在线| av卡一久久| 日本免费在线观看一区| 欧美精品亚洲一区二区| 亚洲美女黄色视频免费看| 午夜精品国产一区二区电影| 一本色道久久久久久精品综合| 日韩精品免费视频一区二区三区 | 国产精品无大码| 精品99又大又爽又粗少妇毛片| 婷婷色综合大香蕉| 丝袜喷水一区| a级毛片免费高清观看在线播放| 麻豆成人av视频| 久久国产亚洲av麻豆专区| 高清午夜精品一区二区三区| 欧美xxxx性猛交bbbb| 欧美日韩在线观看h| 欧美成人午夜免费资源| 啦啦啦在线观看免费高清www| 国产又色又爽无遮挡免| 一二三四中文在线观看免费高清| 日本-黄色视频高清免费观看| 亚洲欧美一区二区三区国产| 日本午夜av视频| av黄色大香蕉| 夫妻午夜视频| 久久久久国产网址| 国内精品宾馆在线| 成人毛片a级毛片在线播放| 一级黄片播放器| 3wmmmm亚洲av在线观看| 久久久久久久亚洲中文字幕| 久久久久人妻精品一区果冻| 国产精品.久久久| 99久久精品国产国产毛片| 欧美精品国产亚洲| 国产欧美日韩精品一区二区| 日本av手机在线免费观看| 亚洲成人av在线免费| 简卡轻食公司| 精华霜和精华液先用哪个| videos熟女内射| 多毛熟女@视频| 久久精品国产亚洲av涩爱| 99九九在线精品视频 | 久久久久久久大尺度免费视频| 女人精品久久久久毛片| 少妇的逼水好多| 高清不卡的av网站| 三级国产精品欧美在线观看| 国产69精品久久久久777片| 日韩制服骚丝袜av| 成人午夜精彩视频在线观看| 久久青草综合色| 国产精品久久久久久久电影| 韩国av在线不卡| 国产欧美日韩综合在线一区二区 | 亚洲国产av新网站| 午夜免费观看性视频| 精品少妇久久久久久888优播| 色网站视频免费| 国产黄色视频一区二区在线观看| 精品国产乱码久久久久久小说| 国产日韩欧美在线精品| 欧美日韩视频高清一区二区三区二| 久久久久久久久久人人人人人人| 久久久久国产精品人妻一区二区| 少妇丰满av| 日本欧美视频一区| 天美传媒精品一区二区| 日本-黄色视频高清免费观看| 韩国av在线不卡| 日本wwww免费看| 久久这里有精品视频免费| 国产黄片视频在线免费观看| 欧美三级亚洲精品| 啦啦啦啦在线视频资源| 最近最新中文字幕免费大全7| kizo精华| 午夜老司机福利剧场| 男女啪啪激烈高潮av片| 黑人巨大精品欧美一区二区蜜桃 | 日韩三级伦理在线观看| 伦精品一区二区三区| 午夜福利影视在线免费观看| 只有这里有精品99| 91成人精品电影| 久久影院123| 99精国产麻豆久久婷婷| 日韩一区二区三区影片| 女人精品久久久久毛片| 亚洲无线观看免费| 春色校园在线视频观看| 91aial.com中文字幕在线观看| 丁香六月天网| 亚洲情色 制服丝袜| 国产av码专区亚洲av| 人妻系列 视频| 亚洲av.av天堂| a级片在线免费高清观看视频| 午夜91福利影院| 亚洲精品日韩在线中文字幕| 日日啪夜夜爽| av天堂久久9| 99视频精品全部免费 在线| 人妻系列 视频| av免费在线看不卡| 亚洲无线观看免费| 国产亚洲精品久久久com| 国产精品无大码| 亚洲第一av免费看| 国产av国产精品国产| 久久99一区二区三区| 嘟嘟电影网在线观看| 啦啦啦在线观看免费高清www| 成年人免费黄色播放视频 | 精品国产露脸久久av麻豆| 人妻系列 视频| 中国三级夫妇交换| 国产精品人妻久久久久久| 能在线免费看毛片的网站| 国产精品国产三级专区第一集| 精品亚洲成a人片在线观看| 99九九线精品视频在线观看视频| 精品熟女少妇av免费看| 极品教师在线视频| 国产精品三级大全| 国产高清不卡午夜福利| 性色av一级| 黑人高潮一二区| 亚洲国产日韩一区二区| 乱系列少妇在线播放| 亚洲怡红院男人天堂| 亚洲精品一二三| 亚洲欧美清纯卡通| 哪个播放器可以免费观看大片| 国产淫语在线视频| 少妇猛男粗大的猛烈进出视频| 亚洲精品亚洲一区二区| 91成人精品电影| 黄色怎么调成土黄色| 午夜福利网站1000一区二区三区| 亚洲美女搞黄在线观看| 搡老乐熟女国产| 高清午夜精品一区二区三区| 美女视频免费永久观看网站| 精品久久国产蜜桃| 欧美日韩综合久久久久久| 妹子高潮喷水视频| 又粗又硬又长又爽又黄的视频| 女性生殖器流出的白浆| 久久精品国产亚洲网站| 久久久久视频综合| 久久久久国产网址| 午夜激情福利司机影院| 97超视频在线观看视频| 岛国毛片在线播放| 少妇 在线观看| 一本色道久久久久久精品综合| 国产一区二区三区综合在线观看 | 日本欧美国产在线视频| 久久精品久久久久久噜噜老黄| 国产午夜精品一二区理论片| 最近手机中文字幕大全| 欧美日韩精品成人综合77777| av视频免费观看在线观看| 午夜福利影视在线免费观看| 婷婷色综合大香蕉| 赤兔流量卡办理| 免费观看的影片在线观看| 久久精品久久久久久噜噜老黄| 日韩在线高清观看一区二区三区| 一本一本综合久久| 精品国产一区二区久久| 欧美+日韩+精品| 简卡轻食公司| 女人精品久久久久毛片| 成年人免费黄色播放视频 | 我的老师免费观看完整版| 99久久人妻综合| 国产综合精华液| 精品人妻偷拍中文字幕| 中文字幕人妻熟人妻熟丝袜美| 亚洲色图综合在线观看| 日日啪夜夜撸| 久久国产精品男人的天堂亚洲 |