• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)技能發(fā)現(xiàn)方法

    2023-10-18 05:40:08鄒啟杰李文雪高兵趙錫玲張汝波
    計算機(jī)應(yīng)用研究 2023年9期

    鄒啟杰 李文雪 高兵 趙錫玲 張汝波

    摘 要:

    針對目前大多數(shù)多智能體強(qiáng)化學(xué)習(xí)算法在智能體數(shù)量增多以及環(huán)境動態(tài)不穩(wěn)定的情況下導(dǎo)致的維度爆炸和獎勵稀疏的問題,提出了一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)技能發(fā)現(xiàn)算法。首先,該算法將集中訓(xùn)練分散執(zhí)行的架構(gòu)與分層強(qiáng)化學(xué)習(xí)相結(jié)合,在上層采用加權(quán)值函數(shù)分解的方法解決智能體在訓(xùn)練過程中容易忽略最優(yōu)策略而選擇次優(yōu)策略的問題;其次,在下層采用獨立Q學(xué)習(xí)算法使其能夠在多智能體環(huán)境中分散式地處理高維復(fù)雜的任務(wù);最后,在底層獨立Q學(xué)習(xí)的基礎(chǔ)上引入技能發(fā)現(xiàn)策略,使智能體之間相互學(xué)習(xí)互補(bǔ)的技能。分別在簡易團(tuán)隊運動和星際爭霸Ⅱ兩個仿真實驗平臺上對該算法與多智能體強(qiáng)化學(xué)習(xí)算法和分層強(qiáng)化學(xué)習(xí)算法進(jìn)行對比,實驗表明,該算法在獎勵回報以及雙方對抗勝率等性能指標(biāo)上都有所提高,提升了整個多智能體系統(tǒng)的決策能力和收斂速度,驗證了算法的可行性。

    關(guān)鍵詞:多智能體強(qiáng)化學(xué)習(xí);分層強(qiáng)化學(xué)習(xí);集中訓(xùn)練分散執(zhí)行;值函數(shù)分解;技能發(fā)現(xiàn)

    中圖分類號:TP181?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1001-3695(2023)09-027-2743-06

    doi:10.19734/j.issn.1001-3695.2022.12.0795

    Research on multi-agent hierarchical reinforcement learning skill discovery

    method based on weighted value function decomposition

    Zou Qijie1, Li Wenxue1, Gao Bing1, Zhao Xiling1, Zhang Rubo2

    (1. Dept. of Information Engineering, Dalian University, Dalian Liaoning 116622, China; 2. Dept. of Mechanical & Electrical Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)

    Abstract:

    Aiming at the problem of dimension explosion and sparse rewards caused by the increase in the number of agents and the dynamic instability of the environment in most multi-agent reinforcement learning algorithms, this paper proposed a multi-agent hierarchical reinforcement learning skill discovery algorithm based on weighted value function decomposition. Firstly, the algorithm combined the architecture of centralized training and decentralized execution with hierarchical reinforcement learning, and adopted the method of weighted value function decomposition in the upper level to solve the problem that agents tended to ignore the optimal strategy and chose the suboptimal strategy in the training process. Secondly, it adopted the independent Q learning algorithm in the lower level to enable it to deal with high-dimensional complex tasks in a multi-agent environment in a decentralized manner. Finally, it introduced a skill discovery strategy on the basis of independent Q learning at the lower level, so that agents could learn complementary skills from each other. Compared the algorithm with the multi-agent reinforcement learning algorithms and the hierarchical reinforcement learning algorithms on the two simulation experimental platforms of simple team movement and StarCraft Ⅱ respectively. The experiment shows that the algorithm has improved performance indicators such as rewards and the victory rate of both sides, improves the decision-making ability and convergence speed of the entire multi-agent system, and verifies the feasibility of the algorithm.

    Key words:multi-agent reinforcement learning; hierarchical reinforcement learning; centralized training decentralized execution; value function decomposition; skill discovery

    0 引言

    隨著分布式人工智能的不斷發(fā)展,多智能體系統(tǒng)(multi-agent system,MAS)需要面對更加復(fù)雜的應(yīng)用場景[1]。然而隨著智能體數(shù)量的不斷增加,智能體狀態(tài)空間呈指數(shù)級增長,導(dǎo)致智能體對環(huán)境的探索不足,無法學(xué)習(xí)魯棒的策略。同時,在MAS中,每個智能體獲得的獎勵都與團(tuán)隊其他智能體的動作相關(guān)[2],導(dǎo)致智能體在做出動作后無法立刻得到獎勵,也無法使某個智能體的獎勵最大化,因此多智能體在協(xié)作完成任務(wù)時會受到很大的約束。為了適應(yīng)更多數(shù)量的智能體以及更加復(fù)雜的任務(wù)環(huán)境的需要,分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning,HRL)為分布式人工智能計算提供了新的研究思路。

    在多智能體分層強(qiáng)化學(xué)習(xí)領(lǐng)域中,Dietterich[3]提出了一種典型的分級控制模型方法MAXQ,該算法通過將總?cè)蝿?wù)向下逐層分解為不同的子任務(wù),進(jìn)而遞歸求解各個子任務(wù),可以有效地解決狀態(tài)維度空間過大的問題。為了提高智能體之間的合作效率,Ahilan等人[4]在Feudal[5]方法和FuNs[6]方法的基礎(chǔ)上對管理者和工作者進(jìn)行預(yù)定義,工作者根據(jù)管理者制定的目標(biāo)執(zhí)行相應(yīng)的動作。Kim等人[7]提出讓智能體在頂層學(xué)習(xí)教學(xué)或者是傳遞知識,對于獎勵評估較低的動作給出建議并進(jìn)行更新,從而加速協(xié)同智能體的學(xué)習(xí)進(jìn)程。Vezhnevets等人[8]將分層多智能體強(qiáng)化學(xué)習(xí)擴(kuò)展到馬爾可夫博弈中,在頂層選擇對對手的戰(zhàn)略響應(yīng),在底層實現(xiàn)響應(yīng)原始動作行為的策略。

    在技能發(fā)現(xiàn)領(lǐng)域中,Shankar等人[9]提出一種共同學(xué)習(xí)機(jī)器人技能的框架,以及學(xué)習(xí)如何在無監(jiān)督的情況下從演示中使用這些技能來學(xué)習(xí)任務(wù)的時間分解。DIAYN[10]方法和DADs[11]方法都是基于互信息的目標(biāo)函數(shù)來動態(tài)學(xué)習(xí)技能,并且提出將學(xué)習(xí)到的技能用于學(xué)習(xí)HRL的底層策略中。RODE[12]方法提出通過將聯(lián)合動作空間分解為受限的角色動作空間的方法來實現(xiàn)可擴(kuò)展的多智能體學(xué)習(xí)。

    目前也有研究者借鑒集中訓(xùn)練分散執(zhí)行的思想來實現(xiàn)多智能體分層,例如Tang等人[13]提出要求每個智能體都獨立地學(xué)習(xí)自身的分層策略,并且每個智能體只能關(guān)心本地信息,將其他智能體視做環(huán)境的一部分進(jìn)行訓(xùn)練和學(xué)習(xí);Yang等人[14]提出一種集中訓(xùn)練分散執(zhí)行的雙層框架來訓(xùn)練和協(xié)調(diào)個人技能。

    但隨著環(huán)境的復(fù)雜程度不斷增大,多智能體環(huán)境存在著各種各樣復(fù)雜且多變的問題[15,16]。本文提出一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)的方法(multi-agent hierarchical reinforcement learning method based on weighted QMIX,H-WQMIX)。該算法主要通過采用分層強(qiáng)化學(xué)習(xí)的思想來解決多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)中出現(xiàn)的維度災(zāi)難和獎勵稀疏的問題。針對維度災(zāi)難問題,本文算法采用頂層集中訓(xùn)練策略,底層分散執(zhí)行各自任務(wù)的框架;同時在頂層訓(xùn)練智能體協(xié)同策略的時候引入加權(quán)值函數(shù),使智能體可以更準(zhǔn)確、快速地選擇最優(yōu)策略;在底層執(zhí)行動作過程中加入技能發(fā)現(xiàn)的思想,使智能體根據(jù)環(huán)境觀測信息來選擇合適的技能執(zhí)行動作。

    1 背景知識

    1.1 集中訓(xùn)練分散執(zhí)行的算法框架

    最早,Oliehoek等人[17]提出了集中訓(xùn)練分散執(zhí)行(centra-lized training decentralized execution,CTDE)框架的一些范例。目前該框架已經(jīng)被廣泛用于多智能體強(qiáng)化學(xué)習(xí)中,其中以MADDPG算法中的集中式的critic網(wǎng)絡(luò)和分散式的actor網(wǎng)絡(luò)結(jié)構(gòu)最為常用[18]。多智能體集中critic網(wǎng)絡(luò)和分散actor網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,其中actor使用策略函數(shù),負(fù)責(zé)生成動作ait與環(huán)境進(jìn)行交互;而critic獲取外部環(huán)境的狀態(tài)信息St以及外部獎勵rt,使用策略函數(shù)π(h1,ε)評估actor的表現(xiàn),并指導(dǎo)actor下一階段的動作。一個集中的critic可以從所有以聯(lián)合行動為條件的可用狀態(tài)信息中學(xué)習(xí),并且每個智能體從它自己的觀察行動歷史oit中學(xué)習(xí)它的策略。集中的critic只在學(xué)習(xí)過程中使用,而在執(zhí)行過程中只需要分散的actor。

    3 仿真設(shè)計與結(jié)果分析

    3.1 實驗環(huán)境平臺搭建

    實驗硬件環(huán)境采用Intel Xeon Silver 4210R CPU+Quadro RTX 6000+32 GB內(nèi)存;軟件環(huán)境使用Ubuntu 20.04+TensorFlow+Torch+pygame。為了驗證本文算法的性能,采用文獻(xiàn)[24]中推出的簡易團(tuán)隊運動模擬器(simple team sports simulator,STS2)以及文獻(xiàn)[25]中提出的星際爭霸Ⅱ微觀管理(StarCraft Ⅱ micromanagement,SMAC)兩個實驗場景。

    3.2 簡易團(tuán)隊運動模擬器

    3.2.1 實驗設(shè)計

    STS2通過有用的技能模擬類似于人類玩家的智能體和傳統(tǒng)游戲AI玩家的合作。在模擬器的最底層上,智能體的動作和移動應(yīng)該與真正的人類玩家相似;在最高層次上,智能體應(yīng)該學(xué)習(xí)如何遵循頂層的游戲計劃;在中等層次上,智能體應(yīng)該學(xué)會展示技能和協(xié)調(diào)彼此的動作。本文所涉及的訓(xùn)練是在一個中級的模擬器上進(jìn)行的,該模擬器將游戲規(guī)則和物理元素植入一個高層次的層面,并將低層次的戰(zhàn)術(shù)抽象出來。模擬器支持任意正整數(shù)N的N對抗 N匹配。兩支球隊顯示為紅色(主場)和白色(客場),如圖6所示(紅色為在左側(cè)球場得分的本地智能體,白色為在右側(cè)球場得分的AI玩家,被黑色圈住的智能體為控球者(見電子版))。傳統(tǒng)游戲AI玩家由少量規(guī)則和約束組成,這些規(guī)則和約束控制著智能體的游戲策略。模擬器的狀態(tài)信息主要包含每個隊球員的坐標(biāo)位置和速度等,離散動作集合包含前進(jìn)、后退、左移、右移、傳球、射門、什么都不做。

    在本文實驗設(shè)置中,主要設(shè)置在3v3的模式下進(jìn)行訓(xùn)練,訓(xùn)練回合數(shù)為50 000次。兩隊雙方各設(shè)置三個球員(智能體),通過人類智能體玩家和傳統(tǒng)游戲AI玩家的合作進(jìn)球來獲取更高的團(tuán)隊獎勵。智能體需要觀測除自身之外的其他智能體的動作和相對位置信息以及球門的位置。每個智能體在訓(xùn)練過程中學(xué)習(xí)不同的技能,球員通過阻斷對方進(jìn)球或者搶奪控球權(quán)或者進(jìn)球獲得獎勵。團(tuán)隊合作運動場景參數(shù)設(shè)置如表1所示。其中,Home-players表示我方戰(zhàn)隊,Away-players表示對方戰(zhàn)隊;α用于決定內(nèi)在獎勵和外部團(tuán)隊獎勵數(shù)量的動態(tài)權(quán)重。首先設(shè)置α=αthreshold,其中αthreshold表示閾值,在訓(xùn)練評估過程中如果勝率超過這個閾值,則α值將會降低αstep。在α值較高時,底層的策略進(jìn)行自主學(xué)習(xí)要執(zhí)行的動作,通過選擇有用的動作來最大化團(tuán)隊獎勵。隨著α的不斷降低,底層策略跟頂層的技能相關(guān)聯(lián),在技能不同的情況下通過調(diào)整自己的動作行為來獲得更多的內(nèi)在獎勵。

    在本文所設(shè)置的團(tuán)隊運動場景中,球隊雙方的獎勵主要來自以下兩個方面:

    a)球隊雙方是否進(jìn)球的獎勵定義,如式(12)所示。

    R1=+1? 球隊進(jìn)球-1? 對方球隊進(jìn)球(12)

    b)雙方球隊從對方手中奪得控球權(quán)的獎勵定義,如式(13)所示。

    R2=+0.1? 球隊奪得控球權(quán)-0.1? 對方球隊奪得控球權(quán)(13)

    球員(agent)每個回合獲得的總獎勵定義為RA=R1+R2。

    3.2.2 實驗結(jié)果與討論

    在本文算法中,頂層網(wǎng)絡(luò)輸入的是一個具體的狀態(tài)。經(jīng)過兩層隱藏層,第一層的單元數(shù)設(shè)置為128,第二層的單元數(shù)設(shè)置為256。通過增加第二層的單元數(shù),算法可以較之前更收斂,通過頂層的前向網(wǎng)絡(luò)輸出維數(shù)為64的全局Q值;底層網(wǎng)絡(luò)的兩個隱藏層每層的單元數(shù)為64,最后輸出當(dāng)前智能體的動作。

    同時設(shè)置一個記憶緩沖池將技能zi和軌跡τ存儲到緩沖池中,每次再從緩沖池中選擇zi和τ來更新訓(xùn)練。實驗的基本參數(shù)設(shè)置如表2所示。其中:buffer_size表示的是緩沖池大??;batch_size表示的是批尺寸;gamma表示的是折扣因子;tau表示網(wǎng)絡(luò)超參數(shù);lr_Q表示的是頂層的網(wǎng)絡(luò)學(xué)習(xí)率;lr_actor表示的是底層actor網(wǎng)絡(luò)的學(xué)習(xí)率。

    本文首先研究了改變頂層權(quán)重函數(shù)參數(shù)的影響,當(dāng)滿足式(8)中的條件,權(quán)重函數(shù)的參數(shù)為ω。如圖7所示,隨著ω值的不斷增加,球隊的勝率越來越低,性能也越來越差。當(dāng)設(shè)置ω=0.7時,球隊的勝率最低達(dá)到了10%以下。當(dāng)ω值不斷減小時,勝率的波動區(qū)間較大,但最高勝率也未超過50%。所以由圖7可得,當(dāng)設(shè)置參數(shù)為ω=0.5時,性能最好,方差相較之下最小,球隊的勝率較其他的參數(shù)設(shè)置勝率更高。

    為了評估在團(tuán)體合作運動中各智能體的學(xué)習(xí)效率,本文算法在STS2模擬器中與HSD、QMIX、IQL方法進(jìn)行對比。通過50 000回合的迭代評估來訓(xùn)練該算法模型,得到的算法平均獎勵和總獎勵結(jié)果如表3所示。

    從表3中可以看出,在相同的參數(shù)設(shè)置和環(huán)境條件下,本文算法的平均獎勵比HSD方法高了0.072,比QMIX方法高了0.078,比IQL方法高了0.165。其中,雖然HSD采取了分層的結(jié)構(gòu)訓(xùn)練策略,但是HSD并沒有很好地估計全局Q值,導(dǎo)致其探索的速率稍慢。并且本文方法的方差與其他三個方法相比更低,收斂更穩(wěn)定,性能更好。

    同時,記錄了每100步的平均獎勵并繪制出與其他算法相比的平均獎勵曲線,如圖8所示。

    根據(jù)圖8可以看出,對比于另外三種方法,本文方法在5 000回合之后出現(xiàn)較明顯的上升趨勢,并且在大約10 000回合的時候開始收斂,而另外三種方法在大約17 000回合的時候開始逐漸收斂,本文方法比另外三種方法收斂得更快,且平均獎勵在另外三種方法之上。盡管QMIX和IQL方法在多智能體的協(xié)作中可以達(dá)到很好的效果,但是在此環(huán)境的團(tuán)隊運動合作中,分層比非分層的學(xué)習(xí)效果更好。與HSD方法相比,本文方法在HSD方法的基礎(chǔ)上增加權(quán)重函數(shù),可以更加準(zhǔn)確地計算智能體的Q值,從而獲得更高的獎勵。

    另外,記錄了每100個回合中球員(agent)擊敗對手隊伍的勝率,針對不同算法的勝率曲線如圖9所示。

    從圖9可以看出,盡管在訓(xùn)練前期,本文方法波動較大,但是在大約20 000回合之后本文方法的勝率基本上都會略高于其他三個方法,勝率最高可以達(dá)到70%。在20 000回合之后,H-WQMIX訓(xùn)練的智能體逐漸能夠根據(jù)自己的位置信息選擇更合適的技能來更好地協(xié)調(diào)多個智能體之間的合作,進(jìn)而提高在每個回合中擊敗對手的勝率。

    為了進(jìn)一步驗證本文算法的實驗性能,分別在STS2模擬器的參數(shù)設(shè)置中設(shè)置不同的人類智能體玩家和傳統(tǒng)AI玩家的智能體數(shù)量進(jìn)行實驗驗證。算法的勝敗次數(shù)對比如表4所示。

    從表4可以看出,在本文設(shè)置的約100個測試集中,盡管本文算法在全人類玩家訓(xùn)練時性能不及QMIX,但是當(dāng)隊伍中有一個或者兩個隊友被腳本機(jī)器人取代時,H-WQMIX仍然可以表現(xiàn)得很好,這是由于H-WQMIX的底層策略開始是獨立訓(xùn)練的,在勝率達(dá)到一定的閾值之后與頂層相結(jié)合一起選擇合適的技能來訓(xùn)練。而QMIX和IQL方法表現(xiàn)越來越差,這可能是由于未當(dāng)經(jīng)過訓(xùn)練的機(jī)器人加入隊伍時,會給原本依靠完全集中訓(xùn)練的智能體制造很大的困難,導(dǎo)致其性能低下。

    3.3 Linux星際爭霸Ⅱ平臺

    3.3.1 實驗設(shè)計

    為了進(jìn)一步驗證本文算法的性能,選擇星際爭霸Ⅱ平臺作為其豐富環(huán)境和高復(fù)雜性環(huán)境的測試平臺。在星際爭霸Ⅱ的常規(guī)完整游戲中,一個或多個人類相互競爭或與內(nèi)置游戲AI進(jìn)行競爭,以收集資源、建造建筑、組建軍隊來擊敗對手。SMAC由一組星際爭霸Ⅱ微場景組成,旨在評估獨立智能體協(xié)調(diào)解決復(fù)雜任務(wù)的能力。每一個場景都是兩個軍隊單位之間的對抗。本文設(shè)置每個智能體特工的行動可以向東南西北四個主要方向移動、停止、什么也不做或者在每個時間步選擇一個敵人進(jìn)行攻擊。

    本文將所有地圖的縮放因子λe設(shè)置為10,并收集實驗樣本,利用式(9)所述的損失函數(shù)分別訓(xùn)練200萬個和500萬個時間步長的預(yù)測模型,同時設(shè)置batch_size為32進(jìn)行訓(xùn)練。

    3.3.2 實驗結(jié)果與討論

    SMAC地圖分為簡單模式、困難模式以及超難模式三種。為了驗證本文算法在復(fù)雜環(huán)境中的性能,主要測試算法在困難地圖模式(2c_vs_64zg)和超難地圖模式(3s5z_vs_3s6z、corridor、MMM2)下的性能。

    在困難地圖模式(2c_vs_64zg)下,如圖10所示。算法在執(zhí)行200萬步的時候效果就已經(jīng)十分明顯并且逐漸趨于平穩(wěn),且H-WQMIX算法始終優(yōu)于其他算法。

    在超難地圖模式(3s5z_vs_3s6z)下,算法在訓(xùn)練后期才會出現(xiàn)較為明顯的訓(xùn)練結(jié)果。如圖11所示,在地圖中,3名潛行者和5名狂熱者試圖擊敗3名敵方潛行者和6名敵方狂熱者。盡管前期沒有很快地學(xué)習(xí)到好的策略,但是在后期H-WQMIX算法勝率始終高于其他算法。

    與3s5z_vs_3s6z 地圖不同的是,在超難地圖模式(corridor)中,6名狂熱者面對24名敵方蟲族,所有的攻擊動作都具有相似的效果,因為敵人都是同質(zhì)的。如圖12所示,算法在訓(xùn)練的前期效果并不是很理想,盡管在訓(xùn)練后期沒有達(dá)到收斂的效果,但本文算法的勝率仍然遠(yuǎn)遠(yuǎn)高于其他算法。

    在超難地圖模式(MMM2)中,雙方軍隊由1個醫(yī)療救護(hù)隊,2個掠奪者和7個陸戰(zhàn)隊員對戰(zhàn)1個醫(yī)療救護(hù)隊,3個掠奪者和8個陸戰(zhàn)隊員,只有當(dāng)醫(yī)療救護(hù)隊出現(xiàn)之后,對抗才開始具備戰(zhàn)斗力。

    如圖13所示,H-WQMIX算法雖然相較于QMIX方法并沒有十分明顯的優(yōu)勢,但是較于其他幾個算法仍然具有很大的優(yōu)勢。

    同時,根據(jù)以上數(shù)據(jù)可以得出,H-WQMIX算法在困難地圖模式中的勝率比其他算法平均提高了約18%;在超難地圖模式中的勝率比其他算法平均提升了約23%。盡管在MMM2地圖中與QMIX方法性能相差不大,但是從收斂效果看,本文算法仍然優(yōu)于其他幾個算法,并且與HSD方法相比具有更好的遷移性??偟膩碚f,本文方法在SMAC場景中仍然可以保持較好的性能。

    4 結(jié)束語

    本文提出了一種基于加權(quán)值函數(shù)分解的多智能體分層強(qiáng)化學(xué)習(xí)方法來發(fā)現(xiàn)在團(tuán)隊活動中有用的技能。本文通過集中訓(xùn)練分散執(zhí)行的框架分別訓(xùn)練算法的頂層策略和底層策略,并通過內(nèi)外獎勵結(jié)合機(jī)制來解決智能體之間的獎勵稀疏以及信度分配的問題。通過對值函數(shù)進(jìn)行加權(quán)來提高智能體動作的有效性,更加準(zhǔn)確地評估智能體的行為動作,從而獲得更高的獎勵,加快了智能體的學(xué)習(xí)和探索效率。分別在STS2模擬器和星際爭霸Ⅱ平臺上驗證了本文算法的性能和有效性,從實驗結(jié)果可以看出,本文算法在較為簡單和稍加復(fù)雜的場景中仍然可以保持較好的訓(xùn)練性能,獲得更高的勝率。實驗結(jié)果表明,該算法在不同的操作系統(tǒng)以及實驗平臺上都表現(xiàn)出了較好的性能,具有十分重要的應(yīng)用價值,為后期將其應(yīng)用在實際開發(fā)環(huán)境中奠定了十分重要的基礎(chǔ)。近些年來,DeepMind、OpenAI等人工智能實驗室以及國外著名大學(xué)研究實驗室,清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室以及華為諾亞方舟實驗室等多個國內(nèi)外實驗室針對多智能體強(qiáng)化學(xué)習(xí)和分層強(qiáng)化學(xué)習(xí)的多項研究成果在星際爭霸Ⅱ以及團(tuán)隊運動游戲?qū)嶒炂脚_上都展現(xiàn)了很好的效果,并將其應(yīng)用在解決智能決策、資源智能化調(diào)配、交通控制等民用領(lǐng)域中,同時也應(yīng)用在可以解決異構(gòu)的多智能體各類戰(zhàn)略協(xié)同的軍事領(lǐng)域中。

    在未來,將進(jìn)一步研究子任務(wù)分配的問題,以簡化和加快智能體的訓(xùn)練步驟。同時可以引入課程學(xué)習(xí)和策略遷移的思想,將分層強(qiáng)化學(xué)習(xí)擴(kuò)展到解決更多更復(fù)雜大型的多智能體任務(wù)中。

    參考文獻(xiàn):

    [1]殷昌盛,楊若鵬,朱巍,等. 多智能體分層強(qiáng)化學(xué)習(xí)綜述 [J]. 智能系統(tǒng)學(xué)報,2020,15(4): 646-655. (Yin Changsheng,Yang Ruopeng,Zhu Wei,et al. A survey on multi-agent hierarchical reinforcement learning [J]. CAAI Trans on Intelligent Systems,2020,15(4): 646-655.)

    [2]Gronauer S,Diepold K. Multi-agent deep reinforcement learning: a survey [J]. Artificial Intelligence Review,2022,55(2): 895-943.

    [3]Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition [J]. Journal of Artificial Intelligence Research,2000,13(1): 227-303.

    [4]Ahilan S,Dayan P. Feudal multi-agent hierarchies for cooperative reinforcement learning [C]// Proc of the 4th Multidisciplinary Confe-rence on Reinforcement Learning and Decision Making. Cambridge,MA: JMLR Press,2019: 57.

    [5]Dayan P,Hinton G E. Feudal reinforcement learning [J]. Advances in Neural Information Processing Systems,1992,5: 271-278.

    [6]Vezhnevets A S,Osindero S,Schaul T,et al. Feudal networks for hie-rarchical reinforcement learning [C]// Proc of the 34th International Conference on Machine Learning. Edmore,MI: JMLR Press,2017: 3540-3549.

    [7]Kim D K,Liu Miao,Omidshafiei S,et al. Learning hierarchical tea-ching in cooperative multiagent reinforcement learning [EB/OL]. (2019) [2022-11-15]. https://arxiv. org/pdf/1903. 03216v2. pdf.

    [8]Vezhnevets A,Wu Yuhuai,Eckstein M,et al. Options as responses: grounding behavioural hierarchies in multi-agent reinforcement lear-ning [C]// Proc of the 37th International Conference on Machine Learning. Edmore,MI: JMLR Press,2020: 9733-9742.

    [9]Shankar T,Gupta A. Learning robot skills with temporal variational inference [C]// Proc of the 37th International Conference on Machine Learning. Edmore,MI: JMLR Press,2020: 8624-8633.

    [10]Eysenbach B,Gupta A,Ibarz J,et al. Diversity is all you need: lear-ning skills without a reward function [C]// Proc of the 6th Internatio-nal Conference on Learning Representations. Edmore,MI: JMLR Press,2018: 1-22.

    [11]Sharma A,Gu S,Levine S,et al. Dynamics-aware unsupervised discovery of skills [C]// Proc of the 7th International Conference on Learning Representations. Berkeley,CA: PMLR Press,2019: 1-21.

    [12]Wang Tonghan,Gupta T,Mahajan A,et al. RODE: learning roles to decompose multi-agent tasks [EB/OL]. (2020) [2022-11-20]. https://arxiv. org/pdf/2010. 01523. pdf.

    [13]Tang Hongyao,Hao Jianye,Lyu Tangjie,et al. Hierarchical deep multiagent reinforcement learning with temporal abstraction [EB/OL]. (2018) [2022-12-01]. https://arxiv. org/pdf/1809. 09332. pdf.

    [14]Yang Jiachen,Borovikov I,Zha Hongyuan. Hierarchical cooperative multi-agent reinforcement learning with skill discovery [C]// Proc of the 19th International Conference on Autonomous Agents and Multi-agent Systems.2020: 1566-1574.

    [15]曹潔,邵紫旋,侯亮. 基于分層強(qiáng)化學(xué)習(xí)的自動駕駛車輛掉頭問題研究 [J]. 計算機(jī)應(yīng)用研究,2022,39(10): 3008-3012,3045. (Cao Jie,Shao Zixuan,Hou Liang. Research on autonomous vehicle U-turn problem based on hierarchical reinforcement learning [J]. Application Research of Computers,2022,39(10): 3008-3012,3045.)

    [16]Zhang Kaiqing,Yang ZhuoranT. Multi-agent reinforcement learning: a selective overview of theories and algorithms [J]. Stu-dies in Systems,Decision and Control,2021,325: 321-384.

    [17]Oliehoek F A,Spaan M T J,Vlassis N. Optimal and approximate Q-value functions for decentralized POMDPs [J]. Journal of Artificial Intelligence Research,2008,32(1): 289-353.

    [18]Lowe R,Wu Y,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6382-6393.

    [19]Tan Ming. Multi-agent reinforcement learning: independent vs. coo-perative agents [C]// Proc of the 10th International Conference on Machine Learning. San Francisco,CA: Morgan Kaufmann Publi-shers,1993: 330-337.

    [20]Sunehag P,Lever G,Gruslys A,et al. Value-decomposition networks for cooperative multi-agent learning based on team reward [C]// Proc of the 17th International Conference on Autonomous Agents and Multiagent Systems. 2018: 2085-2087.

    [21]Rashid T,Samvelyan M,Schroeder C,et al. QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning [C]// Proc of the 35th International Conference on Machine Lear-ning.2018: 4295-4304.

    [22]Rashid T,F(xiàn)arquhar G,Peng Bei,et al. Weighted QMIX: expanding monotonic value function factorisation for deep multi-agent reinforcement learning [J]. Advances in Neural Information Processing Systems,2020,33: 10199-10210.

    [23]Ding Fan,Zhu Fei. HLifeRL: a hierarchical lifelong reinforcement learning framework [J]. Journal of King Saud University-Computer and Information Sciences,2022,34(7): 4312-4321.

    [24]Zhao Yunqi,Borovikov I,Rupert J,et al.On multi-agent learning in team sports games[EB/OL].(2019)[2023-02-19].https://arxiv.53yu.com/pdf/1906.10124.pdf.

    [25]Samvelyan M,Rashid T,De Witt C S,et al. The StarCraft multi-agent challenge [C]// Proc of the 18th International Conference on Auto-nomous Agents and Multiagent Systems. Rech Land,SC: IFAAMAS.org,2019: 2186-2188.

    收稿日期:2022-12-10;修回日期:2023-02-22? 基金項目:國家自然科學(xué)基金資助項目(61673084);2021年遼寧省教育廳項目(LJKZ1180)

    作者簡介:鄒啟杰(1978-),女,山東黃縣人,副教授,碩導(dǎo),博士,主要研究方向為智能駕駛、計算機(jī)視覺、智能規(guī)劃與決策;李文雪(1997-),女(通信作者),山東臨沂人,碩士,主要研究方向為多智能體深度強(qiáng)化學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)(li_wenx@163.com);高兵(1976-),男,遼寧鐵嶺人,副教授,碩導(dǎo),博士,主要研究方向為大數(shù)據(jù)分析、知識圖譜;趙錫玲(1999-),女,山東濟(jì)南人,碩士研究生,主要研究方向為分層強(qiáng)化學(xué)習(xí);張汝波(1963-),男,吉林人,教授,院長,主要研究方向為強(qiáng)化學(xué)習(xí)、智能規(guī)劃

    .

    国产单亲对白刺激| 久久亚洲精品不卡| 丰满饥渴人妻一区二区三| 在线 av 中文字幕| 香蕉久久夜色| 日日摸夜夜添夜夜添小说| 怎么达到女性高潮| 2018国产大陆天天弄谢| 国产成人av教育| 69精品国产乱码久久久| 丝袜人妻中文字幕| 色精品久久人妻99蜜桃| 欧美精品一区二区大全| 中文字幕另类日韩欧美亚洲嫩草| 亚洲九九香蕉| 亚洲av电影在线进入| kizo精华| 亚洲av美国av| 国产不卡av网站在线观看| 少妇被粗大的猛进出69影院| 午夜福利一区二区在线看| 精品一品国产午夜福利视频| 免费少妇av软件| 一个人免费看片子| 国产野战对白在线观看| 国产不卡一卡二| 美女午夜性视频免费| 五月开心婷婷网| 国产一区二区三区综合在线观看| 亚洲熟妇熟女久久| 精品久久久久久久毛片微露脸| 色94色欧美一区二区| 在线天堂中文资源库| 国产成人精品在线电影| 日韩欧美免费精品| 18禁美女被吸乳视频| 精品久久久久久久毛片微露脸| 久久中文字幕人妻熟女| 一区二区三区精品91| 国产一区二区三区视频了| 热re99久久精品国产66热6| 亚洲精品国产区一区二| 午夜精品国产一区二区电影| 中文字幕制服av| 欧美 日韩 精品 国产| 人人妻,人人澡人人爽秒播| 欧美在线黄色| h视频一区二区三区| 久久av网站| 视频区欧美日本亚洲| 欧美激情高清一区二区三区| 久久久久久久久久久久大奶| 男人操女人黄网站| 国产熟女午夜一区二区三区| 国产97色在线日韩免费| 在线播放国产精品三级| 大码成人一级视频| 黄色丝袜av网址大全| 国产精品电影一区二区三区 | 伦理电影免费视频| 伦理电影免费视频| 国产1区2区3区精品| 亚洲成人手机| 99国产精品一区二区三区| 亚洲欧美日韩另类电影网站| 不卡一级毛片| 老司机靠b影院| 亚洲少妇的诱惑av| 国产主播在线观看一区二区| 欧美黄色片欧美黄色片| 国产在线视频一区二区| 99国产综合亚洲精品| 免费观看人在逋| 久久久久国内视频| 最新的欧美精品一区二区| 国产精品av久久久久免费| 中文字幕另类日韩欧美亚洲嫩草| 纵有疾风起免费观看全集完整版| 欧美日韩成人在线一区二区| 成人国产av品久久久| 黄网站色视频无遮挡免费观看| 男人舔女人的私密视频| 97在线人人人人妻| 80岁老熟妇乱子伦牲交| 国产在线视频一区二区| 美女高潮到喷水免费观看| 国产精品久久久久久人妻精品电影 | av超薄肉色丝袜交足视频| 18禁黄网站禁片午夜丰满| 欧美中文综合在线视频| 怎么达到女性高潮| 超碰成人久久| 亚洲精品国产区一区二| 欧美精品高潮呻吟av久久| 国产不卡一卡二| 欧美激情极品国产一区二区三区| 久久亚洲真实| av福利片在线| 多毛熟女@视频| 日日夜夜操网爽| a级毛片黄视频| 麻豆乱淫一区二区| 午夜免费成人在线视频| 高清视频免费观看一区二区| 午夜福利在线免费观看网站| 最新的欧美精品一区二区| 三级毛片av免费| 国产亚洲欧美精品永久| 成人18禁高潮啪啪吃奶动态图| 欧美日韩国产mv在线观看视频| 女同久久另类99精品国产91| www.自偷自拍.com| 久久亚洲精品不卡| 老司机影院毛片| 最近最新免费中文字幕在线| 午夜老司机福利片| av网站在线播放免费| 亚洲欧美一区二区三区久久| 蜜桃国产av成人99| 亚洲精品久久成人aⅴ小说| 日韩三级视频一区二区三区| 中亚洲国语对白在线视频| 极品人妻少妇av视频| www.熟女人妻精品国产| 黑人操中国人逼视频| 精品国产亚洲在线| 久久久久久免费高清国产稀缺| 国产在线观看jvid| 每晚都被弄得嗷嗷叫到高潮| tube8黄色片| 欧美黄色片欧美黄色片| 19禁男女啪啪无遮挡网站| 国产不卡av网站在线观看| 深夜精品福利| 久久天堂一区二区三区四区| 视频区欧美日本亚洲| 欧美精品人与动牲交sv欧美| 欧美日韩福利视频一区二区| 国产精品免费大片| 欧美日韩国产mv在线观看视频| 久久久久久久国产电影| 国产主播在线观看一区二区| 国产精品免费一区二区三区在线 | 国产精品麻豆人妻色哟哟久久| 黄片小视频在线播放| 99国产综合亚洲精品| 嫁个100分男人电影在线观看| 久久久精品国产亚洲av高清涩受| 成人三级做爰电影| 国产成人免费无遮挡视频| av不卡在线播放| 国产欧美日韩一区二区三区在线| 在线永久观看黄色视频| 色94色欧美一区二区| 亚洲av国产av综合av卡| 十分钟在线观看高清视频www| av一本久久久久| 一本大道久久a久久精品| 蜜桃国产av成人99| 99re在线观看精品视频| 国产一区二区三区在线臀色熟女| 亚洲av第一区精品v没综合| 国产亚洲av嫩草精品影院| 精品午夜福利视频在线观看一区| 免费观看精品视频网站| 搞女人的毛片| 动漫黄色视频在线观看| 精品久久久久久,| 九九久久精品国产亚洲av麻豆 | 日本一二三区视频观看| 欧美丝袜亚洲另类 | 小蜜桃在线观看免费完整版高清| 在线观看66精品国产| 12—13女人毛片做爰片一| 一a级毛片在线观看| 国产黄a三级三级三级人| 亚洲五月天丁香| 欧美3d第一页| 99精品在免费线老司机午夜| 网址你懂的国产日韩在线| 日韩精品青青久久久久久| 亚洲片人在线观看| or卡值多少钱| 后天国语完整版免费观看| 特大巨黑吊av在线直播| 精品国内亚洲2022精品成人| 在线观看免费视频日本深夜| 日韩成人在线观看一区二区三区| 综合色av麻豆| 国产亚洲av嫩草精品影院| 法律面前人人平等表现在哪些方面| 国产亚洲精品一区二区www| 亚洲一区二区三区色噜噜| 国产私拍福利视频在线观看| 亚洲国产欧美一区二区综合| 欧美3d第一页| 99久久精品一区二区三区| 亚洲 欧美 日韩 在线 免费| 久久这里只有精品中国| 91在线精品国自产拍蜜月 | 1024手机看黄色片| 欧美另类亚洲清纯唯美| 国产熟女xx| 91字幕亚洲| 97超视频在线观看视频| 69av精品久久久久久| 老司机午夜十八禁免费视频| 午夜精品一区二区三区免费看| 不卡av一区二区三区| 欧美+亚洲+日韩+国产| АⅤ资源中文在线天堂| 免费看十八禁软件| 校园春色视频在线观看| 亚洲欧美日韩东京热| 欧美av亚洲av综合av国产av| 90打野战视频偷拍视频| 美女cb高潮喷水在线观看 | 国产不卡一卡二| 天天添夜夜摸| 午夜精品久久久久久毛片777| 制服人妻中文乱码| 老司机在亚洲福利影院| 午夜福利18| 久久久久久久午夜电影| 欧美成人一区二区免费高清观看 | 国产男靠女视频免费网站| 国产一区二区在线av高清观看| 国产亚洲av嫩草精品影院| 日本三级黄在线观看| 国产精品99久久久久久久久| 国产午夜精品论理片| 欧美成人免费av一区二区三区| 国产高清激情床上av| 人妻久久中文字幕网| 久久伊人香网站| 丁香欧美五月| 美女免费视频网站| 午夜亚洲福利在线播放| 精品久久蜜臀av无| 一本综合久久免费| 国产精品久久久久久亚洲av鲁大| 国产一区二区在线av高清观看| 亚洲国产色片| 免费观看精品视频网站| 每晚都被弄得嗷嗷叫到高潮| 97超视频在线观看视频| 日韩高清综合在线| 久久人妻av系列| 夜夜看夜夜爽夜夜摸| 美女黄网站色视频| 一本久久中文字幕| 久久热在线av| 国产欧美日韩精品一区二区| 午夜福利在线观看免费完整高清在 | 亚洲av成人不卡在线观看播放网| 国产黄a三级三级三级人| 男人和女人高潮做爰伦理| 久久人妻av系列| 久久精品91蜜桃| 岛国视频午夜一区免费看| 国模一区二区三区四区视频 | 99re在线观看精品视频| 免费人成视频x8x8入口观看| 校园春色视频在线观看| 精品福利观看| 91麻豆精品激情在线观看国产| 免费人成视频x8x8入口观看| 法律面前人人平等表现在哪些方面| 网址你懂的国产日韩在线| 精品国产三级普通话版| 一个人观看的视频www高清免费观看 | 国产97色在线日韩免费| 亚洲一区二区三区不卡视频| 久久欧美精品欧美久久欧美| 国产精品精品国产色婷婷| 国产视频内射| 欧美日韩国产亚洲二区| 免费看a级黄色片| 午夜福利免费观看在线| 18禁黄网站禁片午夜丰满| 看片在线看免费视频| 国产亚洲精品久久久久久毛片| 一二三四在线观看免费中文在| 不卡一级毛片| 搡老岳熟女国产| АⅤ资源中文在线天堂| 国产黄色小视频在线观看| 香蕉国产在线看| 欧美黄色淫秽网站| 天堂网av新在线| 亚洲专区字幕在线| 亚洲成人免费电影在线观看| 亚洲av成人不卡在线观看播放网| 午夜a级毛片| 国产精品一区二区三区四区久久| 欧美性猛交╳xxx乱大交人| 中亚洲国语对白在线视频| 非洲黑人性xxxx精品又粗又长| 国产高清videossex| 欧美乱码精品一区二区三区| av天堂中文字幕网| 亚洲av成人不卡在线观看播放网| 国产伦精品一区二区三区视频9 | 国产又色又爽无遮挡免费看| 亚洲国产精品成人综合色| www.精华液| 夜夜看夜夜爽夜夜摸| 亚洲av电影在线进入| 欧美极品一区二区三区四区| 亚洲午夜精品一区,二区,三区| 香蕉av资源在线| 亚洲人成电影免费在线| 久久精品国产综合久久久| 国产精品久久久av美女十八| 欧美zozozo另类| 精品国产乱子伦一区二区三区| 久久欧美精品欧美久久欧美| 日韩欧美免费精品| 亚洲精品456在线播放app | 国产精品影院久久| 欧美黑人巨大hd| 日韩大尺度精品在线看网址| 亚洲国产精品999在线| 天天躁日日操中文字幕| 真实男女啪啪啪动态图| 国产三级中文精品| 免费人成视频x8x8入口观看| 亚洲人成网站高清观看| 嫩草影视91久久| 日韩av在线大香蕉| 高潮久久久久久久久久久不卡| 亚洲自拍偷在线| 18美女黄网站色大片免费观看| 波多野结衣巨乳人妻| avwww免费| 久久午夜亚洲精品久久| 亚洲成av人片在线播放无| 热99在线观看视频| 别揉我奶头~嗯~啊~动态视频| 久久久久免费精品人妻一区二区| 国产精品av视频在线免费观看| 久久九九热精品免费| 久久久久免费精品人妻一区二区| 精品国产美女av久久久久小说| 狂野欧美白嫩少妇大欣赏| 成人高潮视频无遮挡免费网站| 婷婷六月久久综合丁香| 成人av在线播放网站| 国内精品一区二区在线观看| 岛国视频午夜一区免费看| 美女 人体艺术 gogo| 国产精品国产高清国产av| 中文字幕人妻丝袜一区二区| 首页视频小说图片口味搜索| 日韩中文字幕欧美一区二区| 淫秽高清视频在线观看| 亚洲欧美精品综合久久99| 在线免费观看不下载黄p国产 | 两性夫妻黄色片| 中出人妻视频一区二区| 欧美日本视频| 日韩欧美 国产精品| 午夜免费观看网址| 亚洲aⅴ乱码一区二区在线播放| 夜夜夜夜夜久久久久| 亚洲av成人一区二区三| 国内少妇人妻偷人精品xxx网站 | 久久久久性生活片| 日韩大尺度精品在线看网址| av天堂中文字幕网| 色噜噜av男人的天堂激情| 琪琪午夜伦伦电影理论片6080| 啪啪无遮挡十八禁网站| 两人在一起打扑克的视频| 看片在线看免费视频| 亚洲 欧美 日韩 在线 免费| avwww免费| 精品免费久久久久久久清纯| 精品一区二区三区四区五区乱码| 高潮久久久久久久久久久不卡| 黄色日韩在线| 久久久国产欧美日韩av| 一边摸一边抽搐一进一小说| 人人妻人人看人人澡| 久久婷婷人人爽人人干人人爱| 国产成人aa在线观看| 亚洲va日本ⅴa欧美va伊人久久| 美女黄网站色视频| 欧美丝袜亚洲另类 | 亚洲成人精品中文字幕电影| 亚洲五月婷婷丁香| 国产伦在线观看视频一区| 久久久久久久久久黄片| 久久精品国产99精品国产亚洲性色| 中文亚洲av片在线观看爽| 波多野结衣高清作品| 91麻豆av在线| 久久久久久人人人人人| 亚洲黑人精品在线| 人人妻人人看人人澡| 香蕉av资源在线| 国产69精品久久久久777片 | 久久精品91无色码中文字幕| 国产成人精品久久二区二区免费| 九九久久精品国产亚洲av麻豆 | 国产亚洲精品一区二区www| 国产91精品成人一区二区三区| 国产亚洲欧美98| 日本黄大片高清| 国产成人精品久久二区二区91| 少妇的逼水好多| 18禁国产床啪视频网站| 狂野欧美激情性xxxx| 午夜两性在线视频| 久久久精品欧美日韩精品| 欧美大码av| 亚洲美女黄片视频| 国产欧美日韩一区二区精品| 国产精品一区二区三区四区免费观看 | 狂野欧美激情性xxxx| 麻豆久久精品国产亚洲av| 搡老妇女老女人老熟妇| 久久久久久久久免费视频了| 18禁黄网站禁片免费观看直播| 亚洲国产色片| 岛国在线观看网站| 19禁男女啪啪无遮挡网站| 欧美国产日韩亚洲一区| 精品人妻1区二区| 男人和女人高潮做爰伦理| 亚洲午夜精品一区,二区,三区| 国产精品日韩av在线免费观看| 国产av一区在线观看免费| 亚洲欧美日韩无卡精品| 欧美日韩一级在线毛片| 又黄又爽又免费观看的视频| 国产三级黄色录像| 男女那种视频在线观看| www日本黄色视频网| 美女 人体艺术 gogo| 日本黄色视频三级网站网址| 亚洲av第一区精品v没综合| 国产精品电影一区二区三区| 热99re8久久精品国产| 国产精华一区二区三区| 成人永久免费在线观看视频| 床上黄色一级片| 黄色丝袜av网址大全| 亚洲一区二区三区色噜噜| 九色成人免费人妻av| 国产美女午夜福利| 国产亚洲精品综合一区在线观看| 日韩欧美国产一区二区入口| 精品国产乱码久久久久久男人| 又爽又黄无遮挡网站| 天天一区二区日本电影三级| 国产又色又爽无遮挡免费看| 亚洲aⅴ乱码一区二区在线播放| 在线播放国产精品三级| 在线观看免费视频日本深夜| 丰满人妻一区二区三区视频av | 国内少妇人妻偷人精品xxx网站 | 欧美中文综合在线视频| 日本成人三级电影网站| 黄片小视频在线播放| 99在线视频只有这里精品首页| 免费一级毛片在线播放高清视频| 成人三级黄色视频| 在线免费观看不下载黄p国产 | 少妇人妻一区二区三区视频| 欧美xxxx黑人xx丫x性爽| 欧美精品啪啪一区二区三区| 国产欧美日韩精品亚洲av| 在线播放国产精品三级| 美女午夜性视频免费| 国产成人欧美在线观看| 日韩免费av在线播放| 美女cb高潮喷水在线观看 | 日韩av在线大香蕉| 天堂av国产一区二区熟女人妻| 国产欧美日韩一区二区三| 狂野欧美激情性xxxx| 无遮挡黄片免费观看| 久久这里只有精品19| 老熟妇仑乱视频hdxx| 亚洲精品久久国产高清桃花| 不卡av一区二区三区| 国产精品精品国产色婷婷| 99国产精品99久久久久| 久久精品影院6| 天堂影院成人在线观看| 国产主播在线观看一区二区| 久久草成人影院| 日本五十路高清| 中文字幕精品亚洲无线码一区| 黄色成人免费大全| 性色av乱码一区二区三区2| 日韩欧美在线乱码| 欧美午夜高清在线| 精品久久久久久成人av| 巨乳人妻的诱惑在线观看| 成年女人毛片免费观看观看9| 精品人妻1区二区| 国产成人av教育| 老熟妇仑乱视频hdxx| 1024手机看黄色片| 变态另类成人亚洲欧美熟女| 日本a在线网址| 无限看片的www在线观看| 久久中文字幕人妻熟女| 少妇的逼水好多| 国产三级黄色录像| 脱女人内裤的视频| 男女床上黄色一级片免费看| 一本精品99久久精品77| 精品国产美女av久久久久小说| 欧美国产日韩亚洲一区| 国产高清激情床上av| 亚洲精品乱码久久久v下载方式 | 国产精品香港三级国产av潘金莲| 精品久久蜜臀av无| 亚洲国产精品sss在线观看| 国产v大片淫在线免费观看| 成人三级黄色视频| 老司机福利观看| 在线观看一区二区三区| 亚洲av电影不卡..在线观看| 丁香欧美五月| 亚洲欧美精品综合久久99| av欧美777| 欧洲精品卡2卡3卡4卡5卡区| 99久久精品热视频| 欧美大码av| 日韩欧美三级三区| 亚洲av成人精品一区久久| 国产精品一区二区三区四区久久| 亚洲精品乱码久久久v下载方式 | 日本精品一区二区三区蜜桃| 午夜精品一区二区三区免费看| 久久久水蜜桃国产精品网| 窝窝影院91人妻| 国产精品九九99| 午夜日韩欧美国产| 免费看美女性在线毛片视频| 熟妇人妻久久中文字幕3abv| 香蕉丝袜av| 无限看片的www在线观看| 亚洲av熟女| 变态另类成人亚洲欧美熟女| 国产亚洲av嫩草精品影院| 欧美日韩黄片免| 国产欧美日韩一区二区精品| 一进一出抽搐gif免费好疼| 午夜激情福利司机影院| 久久欧美精品欧美久久欧美| 成年免费大片在线观看| 美女大奶头视频| 精品久久久久久成人av| 国产精品久久久人人做人人爽| 两个人看的免费小视频| 国产三级黄色录像| 色综合婷婷激情| 51午夜福利影视在线观看| 国产精品98久久久久久宅男小说| 亚洲精华国产精华精| av天堂中文字幕网| 给我免费播放毛片高清在线观看| 身体一侧抽搐| 久久久久性生活片| 无遮挡黄片免费观看| 亚洲欧美精品综合久久99| 国产精品av视频在线免费观看| 午夜成年电影在线免费观看| 亚洲激情在线av| 欧美一级a爱片免费观看看| 99在线人妻在线中文字幕| 成人欧美大片| 精品国产乱码久久久久久男人| 又黄又爽又免费观看的视频| a级毛片在线看网站| 亚洲中文字幕一区二区三区有码在线看 | xxx96com| 变态另类丝袜制服| 欧美日本视频| 亚洲精品中文字幕一二三四区| av天堂中文字幕网| tocl精华| 成人国产一区最新在线观看| 亚洲成a人片在线一区二区| 97人妻精品一区二区三区麻豆| www.精华液| 深夜精品福利| 日日夜夜操网爽| 俄罗斯特黄特色一大片| 一个人看视频在线观看www免费 | 免费观看的影片在线观看| 国产精品综合久久久久久久免费| e午夜精品久久久久久久| 久久亚洲精品不卡| 精品久久久久久久久久免费视频| 淫秽高清视频在线观看| 不卡av一区二区三区| 在线观看午夜福利视频| 精品国产亚洲在线| x7x7x7水蜜桃| 午夜a级毛片| 夜夜躁狠狠躁天天躁| av在线天堂中文字幕| 亚洲国产精品合色在线| 久久天躁狠狠躁夜夜2o2o| 999精品在线视频| 精品一区二区三区四区五区乱码| 国产又色又爽无遮挡免费看| 夜夜躁狠狠躁天天躁| 久久久久久久午夜电影|