• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于梯度的多智能體元深度強(qiáng)化學(xué)習(xí)算法

    2024-06-01 01:53:41趙春宇賴俊陳希亮張人文

    趙春宇 賴俊 陳希亮 張人文

    摘 要:多智能體系統(tǒng)在自動(dòng)駕駛、智能物流、醫(yī)療協(xié)同等多個(gè)領(lǐng)域中廣泛應(yīng)用,然而由于技術(shù)進(jìn)步和系統(tǒng)需求的增加,這些系統(tǒng)面臨著規(guī)模龐大、復(fù)雜度高等挑戰(zhàn),常出現(xiàn)訓(xùn)練效率低和適應(yīng)能力差等問(wèn)題。為了解決這些問(wèn)題,將基于梯度的元學(xué)習(xí)方法擴(kuò)展到多智能體深度強(qiáng)化學(xué)習(xí)中,提出一種名為多智能體一階元近端策略優(yōu)化(MAMPPO)方法,用于學(xué)習(xí)多智能體系統(tǒng)的初始模型參數(shù),從而為提高多智能體深度強(qiáng)化學(xué)習(xí)的性能提供新的視角。該方法充分利用多智能體強(qiáng)化學(xué)習(xí)過(guò)程中的經(jīng)驗(yàn)數(shù)據(jù),通過(guò)反復(fù)適應(yīng),找到在梯度下降方向上最敏感的參數(shù)并學(xué)習(xí)初始參數(shù),使模型訓(xùn)練從最佳起點(diǎn)開始,有效提高了聯(lián)合策略的決策效率,顯著加快了策略變化的速度,面對(duì)新情況的適應(yīng)速度顯著加快。在星際爭(zhēng)霸Ⅱ上的實(shí)驗(yàn)結(jié)果表明,MAMPPO方法顯著提高了訓(xùn)練速度和適應(yīng)能力,為后續(xù)提高多智能強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和適應(yīng)能力提供了一種新的解決方法。

    關(guān)鍵詞:元學(xué)習(xí);深度強(qiáng)化學(xué)習(xí);梯度下降;多智能體深度強(qiáng)化學(xué)習(xí)

    中圖分類號(hào):TP181?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2024)05-011-1356-06

    doi: 10.19734/j.issn.1001-3695.2023.09.0411

    Gradient-based multi-agent meta deep reinforcement learning algorithm

    Abstract:Multi-agent systems have a wide range of applications in many fields, such as autonomous driving, intelligent logistics, and medical collaboration, etc. However, due to technological advances and increased system requirements, these systems face challenges such as large scale and high complexity, and often suffer from inefficient training and poor adaptability. To address these problems, this paper proposed a multi-agent first-order meta proximal policy optimization (MAMPPO) method by extending gradient-based meta-learning to multi-agent deep reinforcement learning. The method learned the initial model parameters in the multi-agent system to provide a new perspective for improving the performance of multi-agent deep reinforcement learning. It made full use of the previous experience in the process of multi-agent reinforcement learning to find the most sensitive parameters in the direction of gradient descent through repeated adaptation, and learned the initial parameters so that the model training starts from the optimal starting point. This method effectively improved the decision-making efficiency of the joint policy, and led to a significant increase in the speed of its policy change, which significantly accelerated the speed of adaptation in the face of a new situation. Experimental results on StarCraft Ⅱ show that the MAMPPO method can significantly improve the training speed and adaptability, which provides a new solution for the subsequent improvement of the training efficiency and adaptability of multi-agent reinforcement learning.

    Key words:meta learning; deep reinforcement learning; gradient descent; multi-agent deep reinforcement learning

    0 引言

    在單智能體強(qiáng)化學(xué)習(xí)(single-agent deep reinforcement learning,SARL)中,智能體與環(huán)境相互作用并作出有效決策以最大化累積收益。隨著計(jì)算能力和存儲(chǔ)容量的顯著提高,任務(wù)的規(guī)模和復(fù)雜程度也進(jìn)一步提高。為了有效解決一系列復(fù)雜問(wèn)題,深度學(xué)習(xí)(deep learning, DL)和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL) 成功結(jié)合產(chǎn)生了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)。并展現(xiàn)了廣泛的應(yīng)用前景,如掌握圍棋[1]、平流層氣球?qū)Ш剑?]、大規(guī)模戰(zhàn)略博弈[3]、機(jī)器人在挑戰(zhàn)性地形中的移動(dòng)[4]、3D打?。?]等。例如,Open AI Five在Dota 2 中首次擊敗人類冠軍隊(duì)伍[6],并在模擬的捉迷藏物理環(huán)境中成功訓(xùn)練出一個(gè)可以像人類一樣使用工具的智能體[7]。

    為了解決多智能體系統(tǒng)(multi-agent system,MAS)下的復(fù)雜決策問(wèn)題,在MAS中引入了DRL的思想和算法,提高多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)的性能和效率,MADRL具有較強(qiáng)的決策和協(xié)調(diào)能力,是解決大規(guī)模復(fù)雜任務(wù)的重要方法。

    元學(xué)習(xí)通過(guò)積累先前經(jīng)驗(yàn)來(lái)快速適應(yīng)新的任務(wù),憑借“學(xué)習(xí)如何學(xué)習(xí)”的特性,在單智能體強(qiáng)化學(xué)習(xí)(SADRL)中得到了廣泛應(yīng)用,有效避免了巨大數(shù)據(jù)量和高復(fù)雜度的樣本數(shù)據(jù)出現(xiàn)?;谔荻鹊脑獜?qiáng)化學(xué)習(xí)在學(xué)習(xí)過(guò)程中學(xué)習(xí)模型初始參數(shù),使模型在每次學(xué)習(xí)任務(wù)時(shí)可以從一個(gè)最佳的起點(diǎn)開始,而不是像強(qiáng)化學(xué)習(xí)一樣從零出發(fā),有效提高了訓(xùn)練效率;因其初始參數(shù)是在訓(xùn)練任務(wù)上反復(fù)適應(yīng)經(jīng)多次梯度下降所得,該參數(shù)在梯度方向上與目標(biāo)參數(shù)接近,所以訓(xùn)練好的模型在適應(yīng)過(guò)程中僅需幾步梯度下降步驟就可以達(dá)到目標(biāo)參數(shù),縮短了大量的適應(yīng)時(shí)間。然而與SADRL相比,MADRL具有更多的智能體,更高的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性,并且在聯(lián)合狀態(tài)-行動(dòng)空間中呈指數(shù)增長(zhǎng),這大大增加了探索的難度,致使其每次訓(xùn)練都要處理巨大的計(jì)算量和高復(fù)雜度的樣本數(shù)據(jù),延長(zhǎng)了訓(xùn)練和適應(yīng)速度[8]。

    為了提高訓(xùn)練效率和適應(yīng)能力,受單智能體元強(qiáng)化學(xué)習(xí)的啟發(fā),將基于梯度的元學(xué)習(xí)方法擴(kuò)展到MAS,提出了一種名為多智能體一階元近端策略優(yōu)化(multi-agent first-order meta proximal policy optimization PPO, MAMPPO)的方法,旨在從有限的經(jīng)驗(yàn)中不斷學(xué)習(xí)和適應(yīng),該方法通過(guò)收集每個(gè)智能體與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù),并將其劃分為不同的任務(wù)數(shù)據(jù)塊,通過(guò)任務(wù)數(shù)據(jù)塊進(jìn)行反復(fù)自適應(yīng)和更新,充分利用先前經(jīng)驗(yàn),學(xué)習(xí)最接近目標(biāo)模型的起始參數(shù)作為模型的初始化參數(shù)。這使得模型在新情況下只需幾步的梯度下降就能達(dá)到目標(biāo),有效提高了MADRL的策略更新效率,面對(duì)新形勢(shì)的適應(yīng)速度顯著加快。通過(guò)本文的研究和實(shí)驗(yàn)證明了MAMPPO方法在提高M(jìn)ADRL的速度泛化方面的有效性和效果,為改善多智能體系統(tǒng)中的決策問(wèn)題提供了一種新的方法,并為進(jìn)一步應(yīng)用MADRL技術(shù)提供了有益的啟示和指導(dǎo)。

    1 相關(guān)工作

    本文主要探討了一種將MADRL與元學(xué)習(xí)相結(jié)合的方法,涉及到元深度強(qiáng)化學(xué)習(xí)、MADRL的相關(guān)研究工作以及多種成功的組合成果,本章對(duì)元強(qiáng)化學(xué)習(xí)和MADRL的相關(guān)工作進(jìn)行介紹,討論了各自領(lǐng)域中的重要研究成果和方法,并指出了它們?cè)趯?shí)踐中的優(yōu)點(diǎn)和局限性。

    元學(xué)習(xí)因其“學(xué)習(xí)如何學(xué)習(xí)”的特性而被廣泛應(yīng)用于強(qiáng)化學(xué)習(xí),通過(guò)利用先前任務(wù)中學(xué)到的經(jīng)驗(yàn)和知識(shí),智能體能夠更快地適應(yīng)新任務(wù)、更高效地利用數(shù)據(jù)、更準(zhǔn)確地選擇參數(shù)更新方向,并更好地平衡探索與利用。元強(qiáng)化學(xué)習(xí)旨在通過(guò)學(xué)習(xí)適應(yīng)性算法或策略,使智能體能夠從先前的經(jīng)驗(yàn)中快速適應(yīng)新任務(wù)。與傳統(tǒng)的強(qiáng)化學(xué)習(xí)不同,元強(qiáng)化學(xué)習(xí)是一種學(xué)習(xí)輸出策略的強(qiáng)化學(xué)習(xí)算法,通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)開發(fā)學(xué)習(xí)所需的訓(xùn)練環(huán)境和參數(shù)。

    元強(qiáng)化學(xué)習(xí)假設(shè)存在相關(guān)任務(wù)的分布p(T),這對(duì)應(yīng)于馬爾可夫決策過(guò)程(MDP)M={Mi}Ni=1的分布,其中可以參數(shù)化MDP的動(dòng)態(tài)或獎(jiǎng)勵(lì)。M由元組〈S,A,p,R,γ,ρ0,H〉定義,其中S為狀態(tài)空間,A為行動(dòng)空間,p為轉(zhuǎn)移概率密度,R為獎(jiǎng)勵(lì)函數(shù),H為事件的時(shí)間范圍。元學(xué)習(xí)的目標(biāo)是找到一組合適的參數(shù)集θ和配對(duì)更新方法U,使策略π在保持累積獎(jiǎng)勵(lì)最大的情況下解決新情況。設(shè)L(Mi)為Mi的損失函數(shù),則元學(xué)習(xí)的目標(biāo)可以表示為

    本文的工作主要涉及基于梯度的元強(qiáng)化學(xué)習(xí)方法,該方法學(xué)習(xí)初始化模型參數(shù)使之在新任務(wù)上僅需微調(diào),從而使訓(xùn)練好的模型能夠適應(yīng)新任務(wù)。Finn等人[9]提出了一種名為無(wú)模型元學(xué)習(xí)(model-agnostic meta-learning,MAML)方法,通過(guò)在梯度下降過(guò)程中尋找對(duì)更新方向敏感的模型參數(shù),從而學(xué)習(xí)到適當(dāng)?shù)某跏寄P蛥?shù),實(shí)現(xiàn)了深度網(wǎng)絡(luò)在快速適應(yīng)任務(wù)上的能力增強(qiáng);然而MAML方法在實(shí)際應(yīng)用中仍面臨一些挑戰(zhàn),如對(duì)任務(wù)表示的依賴性和計(jì)算復(fù)雜度有所增加。在MAML的基礎(chǔ)上,Xu等人[10]提出了一種名為無(wú)模型元學(xué)習(xí)的元權(quán)重學(xué)習(xí)方法,在訓(xùn)練過(guò)程中對(duì)權(quán)重進(jìn)行適應(yīng)性更新,從而增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的性能和泛化能力;然而該方法仍然面臨一些挑戰(zhàn),如合理選擇元學(xué)習(xí)率、網(wǎng)絡(luò)結(jié)構(gòu)的適應(yīng)性以及計(jì)算復(fù)雜度的增加等。類似于MAML,Nichol等人[11]提出了一種稱為一階元學(xué)習(xí)(Reptile)的方法,通過(guò)在每個(gè)任務(wù)的訓(xùn)練后利用參數(shù)差異進(jìn)行參數(shù)更新,從而實(shí)現(xiàn)了原始模型的快速適應(yīng),該方法在元學(xué)習(xí)的過(guò)程中避免了二階導(dǎo)數(shù)的計(jì)算;然而仍面臨一些挑戰(zhàn),如如何選擇合適的學(xué)習(xí)率和對(duì)參數(shù)更新的限制等問(wèn)題。Song等人[12]提出了一種名為ES-MAML的簡(jiǎn)單、不使用Hessian矩陣的元學(xué)習(xí)方法,該方法通過(guò)應(yīng)用進(jìn)化策略(ES)[13]來(lái)解決MAML中估計(jì)二階導(dǎo)數(shù)的問(wèn)題,在元學(xué)習(xí)過(guò)程中通過(guò)在目標(biāo)函數(shù)中添加額外的探索項(xiàng)增加了探索的機(jī)會(huì),以提供最大量的有用信息。為了選擇合適的探索策略并平衡探索與利用之間的關(guān)系,Stadie等人[14]在元強(qiáng)化學(xué)習(xí)中考慮了學(xué)習(xí)探索策略,通過(guò)將額外的探索項(xiàng)添加到目標(biāo)函數(shù)中,提出了一種名為學(xué)習(xí)探索的元強(qiáng)化學(xué)習(xí)方法,旨在增加探索的機(jī)會(huì),以提供更多有用信息的數(shù)據(jù)量。Xu等人[15]提出了一種名為元策略梯度學(xué)習(xí)探索的方法,通過(guò)使用元策略梯度優(yōu)化探索策略,使智能體能夠?qū)W會(huì)探索未知環(huán)境,該方法旨在通過(guò)元學(xué)習(xí)的方式,提高智能體的探索能力。

    在MAS中,Sunehag等人[16]提出了值分解網(wǎng)絡(luò)(value decomposition networks,VDN)多智能體強(qiáng)化學(xué)習(xí)算法,將全局Q值分解為局部Q值的加權(quán)和,并在聯(lián)合動(dòng)作Q值中考慮各個(gè)智能體的行為特征,提高了多智能體系統(tǒng)的學(xué)習(xí)效果,但需要進(jìn)一步平衡個(gè)體智能體的貢獻(xiàn)和團(tuán)隊(duì)合作關(guān)系,以及如何處理高維狀態(tài)空間等問(wèn)題。Rashid等人[17]提出了QMIX算法,通過(guò)將值函數(shù)分解為單調(diào)函數(shù)和非單調(diào)函數(shù)的組合,以提高多智能體系統(tǒng)的學(xué)習(xí)效果,解決了值函數(shù)的高方差和不穩(wěn)定性;然而該方法仍面臨一些問(wèn)題,如如何選擇合適的值函數(shù)分解形式和如何處理大規(guī)模多智能體系統(tǒng)的挑戰(zhàn)等。Foerster等人[18]提出反事實(shí)基線的多智能體策略梯度方法(counterfactual multi-agent policy gradients,COMA),通過(guò)引入對(duì)抗性訓(xùn)練和對(duì)抗性評(píng)估來(lái)進(jìn)行策略優(yōu)化,使用反事實(shí)基線對(duì)不同主體的貢獻(xiàn)進(jìn)行信用分配,從而提高多智能體系統(tǒng)的學(xué)習(xí)性能,解決了非平穩(wěn)環(huán)境和非合作行為等問(wèn)題,但在訓(xùn)練的穩(wěn)定性和計(jì)算復(fù)雜度等方面有所欠缺。Lowe等人[19]提出MADDPG(multi-agent deep deterministic policy gradient)算法,使用集中式訓(xùn)練和去中心化執(zhí)行機(jī)制,基于DDPG的每個(gè)智能體的全局Q值來(lái)更新本地策略,智能體能夠在協(xié)作和競(jìng)爭(zhēng)之間進(jìn)行平衡以達(dá)到更好的性能,但在如何處理大規(guī)模多智能體系統(tǒng)和如何處理合作與競(jìng)爭(zhēng)之間的平衡等方面存在不足。MAPPO(multi-agent PPO)[20]采用基于近端策略優(yōu)化(proximal policy optimization,PPO)[21]的集中函數(shù)來(lái)考慮全局信息,智能體之間通過(guò)全局值函數(shù)實(shí)現(xiàn)相互協(xié)作,在處理合作多智能體環(huán)境時(shí)表現(xiàn)出良好的性能和魯棒性,為解決合作問(wèn)題提供了一種有效的方法。

    元學(xué)習(xí)應(yīng)用于MADRL中,從不同的角度解決了許多問(wèn)題,如學(xué)習(xí)與誰(shuí)溝通[22]、學(xué)習(xí)特定于智能體的獎(jiǎng)勵(lì)函數(shù)以實(shí)現(xiàn)機(jī)制設(shè)計(jì)的自動(dòng)化[23],但是目前的研究仍然較少。Charakorn等人[24]提出了一種通過(guò)元強(qiáng)化學(xué)習(xí)與未知智能體合作的方法,該方法使智能體能夠快速適應(yīng)與未知智能體的合作任務(wù),并取得良好的性能,但需要解決如何處理未知智能體的行為和如何在實(shí)際環(huán)境中應(yīng)用該方法等問(wèn)題。Feng等人[25]引入了神經(jīng)自動(dòng)課程(neural auto-curriculum,NAC),通過(guò)自適應(yīng)調(diào)整游戲難度和規(guī)則,智能體能夠通過(guò)自我學(xué)習(xí)來(lái)改進(jìn)策略和適應(yīng)對(duì)手,該方法在零和博弈中取得了良好的效果,但仍面臨一些問(wèn)題,即如何處理復(fù)雜博弈和如何擴(kuò)展到更大規(guī)模的對(duì)抗環(huán)境等。為了解決多智能體環(huán)境下的非平穩(wěn)問(wèn)題,F(xiàn)oerster等人[26]提出了一種對(duì)手感知的學(xué)習(xí)方法(learning with opponent-lear-ning awareness,LOLA),通過(guò)考慮對(duì)手的策略和行為來(lái)指導(dǎo)智能體的學(xué)習(xí)過(guò)程,該方法能使智能體更好地適應(yīng)對(duì)手的變化和策略調(diào)整,從而提高了在對(duì)抗環(huán)境中的學(xué)習(xí)性能。Kim等人[27]提出了一種多智能體強(qiáng)化學(xué)習(xí)中的元策略梯度算法,通過(guò)優(yōu)化策略梯度來(lái)實(shí)現(xiàn)智能體的元學(xué)習(xí),使得智能體能夠通過(guò)學(xué)習(xí)適應(yīng)性策略來(lái)快速適應(yīng)多智能體環(huán)境,并取得更好的性能。Al-Shedivat等人[28]基于單智能體MAML設(shè)計(jì)了一種基于梯度的多智能體元學(xué)習(xí)方法,用于自適應(yīng)動(dòng)態(tài)變化和對(duì)抗場(chǎng)景,有效提高了多智能體強(qiáng)化學(xué)習(xí)的訓(xùn)練效率和適應(yīng)速度。多智能體MAML在MAML算法架構(gòu)中設(shè)計(jì)多智能體強(qiáng)化學(xué)習(xí),且僅用兩個(gè)智能體之間的交互過(guò)程。與多智能體MAML算法不同,MAMPPO方法是在不改變多智能體強(qiáng)化學(xué)習(xí)架構(gòu)的前提下引入元學(xué)習(xí);與多智能體MAML算法類似,MAMPPO將基于梯度的一階元Reptile的思想用于多智能體環(huán)境中,以達(dá)到通過(guò)元學(xué)習(xí)提高多智能體強(qiáng)化學(xué)習(xí)算法性能的目的。

    2 MAMPPO方法

    本文提出的方法以MAPPO算法為基礎(chǔ),引入基于梯度的一階元學(xué)習(xí)Reptile的思想,在學(xué)習(xí)過(guò)程中整合以往經(jīng)驗(yàn)所需的元知識(shí),并將其保存為模型參數(shù)初始化的規(guī)則,實(shí)現(xiàn)使用有限經(jīng)驗(yàn)的持續(xù)學(xué)習(xí)和快速適應(yīng)。

    2.1 MAPPO算法

    PPO是一種非常流行的RL算法,在各種單智能體任務(wù)場(chǎng)景中都有非常出色的表現(xiàn)。MAPPO是在MARL中應(yīng)用的PPO的一種變體,采用集中訓(xùn)練分散執(zhí)行框架(centealized training and decentralized execution, CTDE)。MAPPO框架如圖1所示。

    MAPPO算法的網(wǎng)絡(luò)由AC網(wǎng)絡(luò)支持,參數(shù)化的策略和值函數(shù)由兩套獨(dú)立的網(wǎng)絡(luò)進(jìn)行計(jì)算,不同智能體各自擁有一套策略網(wǎng)絡(luò)并共享網(wǎng)絡(luò)參數(shù)。中心控制器由一套值函數(shù)網(wǎng)絡(luò)構(gòu)成,全局值函數(shù)作為中心控制器,智能體將在全局狀態(tài)s下將局部觀察信息oi=O(s;i)傳遞給中心控制器,中心控制器根據(jù)全局狀態(tài)信息進(jìn)行訓(xùn)練,得到策略πθ,各智能體執(zhí)行聯(lián)合動(dòng)作分布A=(a1,a2,…,an)。待訓(xùn)練完成后,智能體可以獨(dú)立于中心控制器,僅根據(jù)自己的局部觀察信息進(jìn)行決策并執(zhí)行最優(yōu)動(dòng)作。

    為了使單智能體PPO算法適應(yīng)多智能體的設(shè)置,局部觀察信息設(shè)定為學(xué)習(xí)策略πθ和基于全局狀態(tài)S的集中值函數(shù)V(s),并使用PopArt對(duì)V(s)進(jìn)行歸一化處理,策略函數(shù)πθ和價(jià)值函數(shù)V(s)分別由行動(dòng)者網(wǎng)絡(luò)(actor)和評(píng)論家網(wǎng)絡(luò)(critic)產(chǎn)生。具體來(lái)說(shuō),critic網(wǎng)絡(luò)將所有全局信息和一些特定于智能體的特征作為critic網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)了從狀態(tài)S到獎(jiǎng)勵(lì)R的映射;actor網(wǎng)絡(luò)將智能體的觀察信息映射到離散動(dòng)作空間中的動(dòng)作分布或者連續(xù)動(dòng)作空間中的多元高斯分布的均值和標(biāo)準(zhǔn)差向量。另外在訓(xùn)練過(guò)程中,將無(wú)法執(zhí)行的動(dòng)作概率設(shè)為零,使用帶有智能體特定標(biāo)識(shí)的向量區(qū)分訓(xùn)練過(guò)程中死亡的智能體,并將其作為critic網(wǎng)絡(luò)的輸入。actor網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是使損失函數(shù)L(θ)最大化,critic網(wǎng)絡(luò)的訓(xùn)練目標(biāo)則是使損失函數(shù)L()最小化。假設(shè)有n個(gè)智能體,B為小批處理數(shù)

    2.2 MAMPPO方法設(shè)計(jì)

    MAMPPO將基于一階梯度的元學(xué)習(xí)思想應(yīng)用到MARL設(shè)置中,提高M(jìn)ARL的泛化能力和訓(xùn)練速度,實(shí)現(xiàn)從有限經(jīng)驗(yàn)中不斷學(xué)習(xí)和適應(yīng)的能力。其關(guān)鍵在于學(xué)習(xí)過(guò)程中整合以往經(jīng)驗(yàn)所需的元知識(shí),并將其保存為模型的初始參數(shù),以實(shí)現(xiàn)有限經(jīng)驗(yàn)的持續(xù)學(xué)習(xí)和快速適應(yīng)。圖2顯示了MAMPPO框架。

    MAMPPO首先按照MAPPO訓(xùn)練流程進(jìn)行訓(xùn)練,存儲(chǔ)交互過(guò)程中產(chǎn)生的數(shù)據(jù)元組并計(jì)算對(duì)應(yīng)折扣累積獎(jiǎng)勵(lì)和獎(jiǎng)勵(lì)函數(shù),將過(guò)程中產(chǎn)生的數(shù)據(jù)劃分為不同的任務(wù)數(shù)據(jù)塊(task data chunks)用于元更新。在元更新階段,通過(guò)在任務(wù)數(shù)據(jù)塊上反復(fù)采樣進(jìn)行元學(xué)習(xí),經(jīng)過(guò)一定次數(shù)的梯度下降進(jìn)行參數(shù)軟更新,完成對(duì)模型初始化參數(shù)的學(xué)習(xí),實(shí)現(xiàn)在新任務(wù)上的快速微調(diào)。

    最后更新后的網(wǎng)絡(luò)模型參數(shù)滿足梯度下降方向最敏感的要求,使模型在處理新任務(wù)時(shí)從最佳起點(diǎn)開始,有效提高了聯(lián)合策略的決策效率。

    算法1 MAMPPO方法

    3 實(shí)驗(yàn)和結(jié)果討論

    在SMAC實(shí)驗(yàn)平臺(tái)上進(jìn)行實(shí)驗(yàn),SMAC是研究CTDE算法的主流基準(zhǔn),具有連續(xù)的觀察空間和離散的動(dòng)作空間,有各種各樣的地圖,具有很高的學(xué)習(xí)復(fù)雜性。每個(gè)智能體都是獨(dú)立的,組成一個(gè)小組與內(nèi)置腳本AI競(jìng)爭(zhēng),適合在各種協(xié)作的多智能體情況下測(cè)試本文方法。在每場(chǎng)戰(zhàn)斗中,每個(gè)智能體都需要給對(duì)方造成最大化傷害,并將自身承受的傷害最小化。

    本文選擇在一個(gè)簡(jiǎn)單地圖(3 m)、兩個(gè)困難地圖(3s_vs_5z, 3s5z)和一個(gè)超難地圖(corridor)上評(píng)估了本文方法。表1介紹了地圖的特點(diǎn),比較的方法有MAPPO、QMIX和VDN。其中,VDN算法將全局值函數(shù)分解為每個(gè)智能體的局部值函數(shù)的加權(quán)和,全局值函數(shù)考慮智能體個(gè)體行為的特性,使得該值函數(shù)更易于學(xué)習(xí),能夠解決多智能體系統(tǒng)中的合作與競(jìng)爭(zhēng)問(wèn)題,并且可在一定程度上緩解多智能體系統(tǒng)中環(huán)境不穩(wěn)定的問(wèn)題。QMIX采用混合網(wǎng)絡(luò)模塊將各智能體的局部值函數(shù)組合為全局值函數(shù),通過(guò)對(duì)全局值函數(shù)進(jìn)行因子分解,將智能體的局部值函數(shù)與一個(gè)可學(xué)習(xí)的混合函數(shù)相結(jié)合,使得每個(gè)智能體可以獨(dú)立地選擇行動(dòng),且同時(shí)考慮其他智能體的行動(dòng)和全局信息,從而提高了整體協(xié)作效果。下面分別對(duì)MAMPPO的訓(xùn)練速度和適應(yīng)性進(jìn)行了評(píng)價(jià)。

    在訓(xùn)練實(shí)驗(yàn)中對(duì)模型進(jìn)行多步訓(xùn)練,測(cè)量訓(xùn)練速度。除地圖訓(xùn)練2M時(shí)間步外,其余地圖訓(xùn)練5M時(shí)間步。在元學(xué)習(xí)過(guò)程中,適應(yīng)的數(shù)量被設(shè)置為15,元更新中的步長(zhǎng)設(shè)置為0.05。首先對(duì)訓(xùn)練過(guò)程中的勝率曲線圖進(jìn)行分析。

    a)在簡(jiǎn)單地圖3m中的勝率曲線對(duì)比如圖4所示??梢钥闯觯琈AMPPO和MAPPO的勝率曲線遠(yuǎn)高于QMIX和VDN算法,雖然MAMPPO和MAPPO在1M時(shí)間步之后的曲線大體一致,但MAMPPO訓(xùn)練前期的勝率曲線斜率大于MAPPO且比其更早收斂,說(shuō)明MAMPPO的訓(xùn)練效率有所提升。

    b)在困難地圖(3s_vs_5z和3s5z)中的勝率曲線對(duì)比如圖5所示??梢钥闯?,MAMPPO訓(xùn)練前期的勝率曲線增長(zhǎng)速率和訓(xùn)練結(jié)束所得的勝率明顯高于其他三種算法,并且能夠更快地收斂。在3s_vs_5z地圖中,作戰(zhàn)智能體為同構(gòu)類型,共享一套網(wǎng)絡(luò)參數(shù),MAMPPO的勝率在1M時(shí)間步后率先大于0,說(shuō)明由MAMPPO訓(xùn)練的我方作戰(zhàn)智能體比其他算法訓(xùn)練的作戰(zhàn)智能體出現(xiàn)獲勝的場(chǎng)次更早。在3s5z地圖中,作戰(zhàn)智能體為異構(gòu)類型,分別處理各自的網(wǎng)絡(luò)參數(shù),在整個(gè)訓(xùn)練過(guò)程中,MAMPPO的勝率曲線均高于其他三條曲線,說(shuō)明經(jīng)MAMPPO訓(xùn)練的作戰(zhàn)智能體擁有更強(qiáng)的作戰(zhàn)能力。

    c)在超難地圖corridor中的勝率曲線對(duì)比如圖6所示??梢钥闯?,MAMPPO的勝率曲線整體高于QMIX和VDN對(duì)應(yīng)勝率,且略高于MAPPO的勝率曲線,因?yàn)槌y地圖中的敵方作戰(zhàn)智能體較多,需要處理的數(shù)據(jù)也對(duì)應(yīng)增加,增加了元更新階段中反復(fù)適應(yīng)的計(jì)算難度,訓(xùn)練過(guò)程中會(huì)出現(xiàn)計(jì)算量代償?shù)膯?wèn)題。

    計(jì)算訓(xùn)練步最后10次的平均勝率,結(jié)果如表2所示。從表中可以看出,MAMPPO方法在簡(jiǎn)單地圖3m中的平均勝率高于QMIX和VDN算法,并且與MAPPO算法的對(duì)應(yīng)勝率持平。在困難地圖(3s_vs_5z和3s5z)和超難地圖corridor中的平均勝率均高于參與比較的三種算法,具體勝率提升百分比為:MAMPPO方法在3m、3s_vs_5z、3s5z、corridor地圖中的勝率比MAPPO算法分別提高了0%、4.12%、16.93%、2.62%,比QMIX算法分別提高了28.55%、87.80%、39.58%、19.04%,比VDN算法分別提高了23.51%、514.66%、241.47%、342.48%。

    因此在訓(xùn)練階段,MAMPPO所學(xué)策略的改進(jìn)速度明顯加快,訓(xùn)練速度明顯提高,訓(xùn)練所得的勝率高于其他方法,經(jīng)過(guò)元學(xué)習(xí)訓(xùn)練的作戰(zhàn)智能體的作戰(zhàn)能力高于其他多智能體算法訓(xùn)練所得。

    為了評(píng)估MAMPPO的適應(yīng)能力,通過(guò)計(jì)算每次訓(xùn)練迭代32場(chǎng)后測(cè)試的勝率來(lái)測(cè)試MAPPO和MAMPPO訓(xùn)練的作戰(zhàn)智能體的作戰(zhàn)能力,并將最后10次測(cè)試所得勝率的中位數(shù)作為評(píng)估勝率,四種地圖的評(píng)估勝率如表3所示。由表可得,除了在簡(jiǎn)單地圖中的勝率恒為100%之外,經(jīng)過(guò)MAMPPO訓(xùn)練的作戰(zhàn)智能體在其他三個(gè)地圖中取得的勝率均高于MAPPO訓(xùn)練所得,具體勝率提升百分比為:MAMPPO方法在3s_vs_5z、3s5z、corridor地圖中的勝率比MAPPO算法在其上的勝率分別提高了37.02%、18.18%、11.73%。

    因MAMPPO方法相較于MAPPO算法在困難地圖(3s_vs_5z和3s5z)中的性能表現(xiàn)提升明顯,在測(cè)試階段選擇這兩個(gè)地圖的測(cè)試勝率曲線對(duì)比如圖7所示。

    MAMPPO方法在困難地圖(3s_vs_5z和3s5z)和超難地圖corridor的評(píng)估勝率均高于MAPPO算法,表現(xiàn)出色。另外,雖然在簡(jiǎn)單地圖3m中的評(píng)估勝率均為100%,但是MAMPPO方法在6K步時(shí)獲得的作戰(zhàn)智能體勝率便可以達(dá)到100%,MAPPO算法則需要在1M步時(shí)獲得的作戰(zhàn)智能體勝率達(dá)到100%。由困難地圖(3s_vs_5z和3s5z)的評(píng)估勝率曲線可得,MAMPPO方法的勝率開始變化,時(shí)間步長(zhǎng)早于MAPPO算法,說(shuō)明MAMPPO方法訓(xùn)練所得作戰(zhàn)智能體的適應(yīng)能力強(qiáng)于MAPPO算法,更快地開始適應(yīng)新的情況。相比于MAPPO算法,在相同時(shí)間步長(zhǎng)的情況下,MAMPPO方法所得勝率高于MAPPO算法,說(shuō)明模型適應(yīng)性提升顯著,作戰(zhàn)智能體對(duì)訓(xùn)練場(chǎng)新情況的處理能力明顯提升。MAMPPO方法在新任務(wù)情況下的評(píng)估勝率高于MAPPO算法,且適應(yīng)速度顯著提高,表明MAMPPO方法的自適應(yīng)能力在引入元學(xué)習(xí)后有所提高。

    實(shí)驗(yàn)結(jié)果表明,用MAMPPO方法訓(xùn)練得到的作戰(zhàn)智能體在總體上取得了更優(yōu)的性能,在訓(xùn)練場(chǎng)中能夠更早更高效地探索出獲勝策略,在相同訓(xùn)練時(shí)間步長(zhǎng)情況下的訓(xùn)練速度明顯提升,其訓(xùn)練所得的適應(yīng)性明顯增強(qiáng),能夠處理在訓(xùn)練場(chǎng)中出現(xiàn)的情況,表現(xiàn)了出良好的訓(xùn)練效率和適應(yīng)能力。

    4 結(jié)束語(yǔ)

    本文將元學(xué)習(xí)引入到MADRL中,提出了一種MAMPPO方法,從元學(xué)習(xí)的角度提升多智能體算法性能,為解決多智能體泛化能力問(wèn)題提供了一個(gè)新的視角。將基于梯度的元強(qiáng)化學(xué)習(xí)擴(kuò)展到多智能體強(qiáng)化學(xué)習(xí),在智能體完成交互后構(gòu)建任務(wù)數(shù)據(jù)塊,在模型參數(shù)更新階段定義元梯度,并執(zhí)行多次梯度下降來(lái)學(xué)習(xí)網(wǎng)絡(luò)模型的初始參數(shù)。在SMAC環(huán)境下的實(shí)驗(yàn)結(jié)果表明,該方法在各種場(chǎng)景下的性能都優(yōu)于基線方法,有效地提高了多智能體系統(tǒng)的強(qiáng)化學(xué)習(xí)性能,縮短了訓(xùn)練時(shí)間,進(jìn)一步證實(shí)了將元學(xué)習(xí)引入多智能體強(qiáng)化學(xué)習(xí)的可行性。

    然而在訓(xùn)練多個(gè)智能體的過(guò)程中,每個(gè)智能體的感知轉(zhuǎn)移概率分布和獎(jiǎng)勵(lì)函數(shù)都會(huì)發(fā)生變化。從每個(gè)智能體的角度來(lái)看,環(huán)境具有非平穩(wěn)性。如何從每個(gè)智能體的角度使用元學(xué)習(xí),同時(shí)考慮自身的學(xué)習(xí)過(guò)程和環(huán)境中其他智能體的學(xué)習(xí),是未來(lái)需要解決的問(wèn)題。

    參考文獻(xiàn):

    [1]Silver D,Huang A,Maddison C J,et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature,2016,529(7587): 484-489.

    [2]Bellemare M G,Candido S,Castro P S,et al. Autonomous navigation of stratospheric balloons using reinforcement learning [J]. Nature,2020,588(7836): 77-82.

    [3]Henderson P,Islam R,Bachman P,et al. Deep reinforcement learning that matters [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 3207-3214.

    [4]Miki T,Lee J,Hwangbo J,et al. Learning robust perceptive locomotion for quadrupedal robots in the wild [J/OL]. Science Robotics,2022,7(62). https://arxiv.org/abs/2201.08117.

    [5]Yang Jiongzhi,Harish S,Li C,et al. Deep reinforcement learning for multi-phase microstructure design [J]. Computers,Materials & Continua,2021,68(1): 1285-1302.

    [6]Berner C,Brockman G,Chan B,et al. Dota 2 with large scale deep reinforcement learning [EB/OL]. (2019-12-13). https://arxiv.org/pdf/1912.06680.pdf.

    [7]Baker B,Kanitscheider I,Markov T,et al. Emergent tool use from multi-agent autocurricula [EB/OL]. (2020-02-11). https://arxiv.org/pdf/1909.07528.pdf.

    [8]Nguyen T T,Nguyen N D,Nahavandi S. Deep reinforcement learning for multiagent systems: a review of challenges,solutions,and applications [J]. IEEE Trans on Cybernetics,2020,50(9): 3826-3839.

    [9]Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adaptation of deep networks [C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: PMLR,2017: 1126-1135.

    [10]Xu Zhixiong,Chen Xiliang,Tang Wei,et al. Meta weight learning via model-agnostic meta-learning [J]. Neurocomputing,2021,432(4): 124-132.

    [11]Nichol A,Achiam J,Schulman J. On first-order meta-learning algorithms [EB/OL]. (2018-10-22) [2023-09-19]. https://arxiv.org/pdf/1803.02999.pdf.

    [12]Song Xingyou,Gao Wenbo,Yang Yuxiang,et al. ES-MAML: simple Hessian-free meta learning [EB/OL]. (2020-07-07)[2023-09-19]. https://arxiv.org/pdf/1910.01215.pdf.

    [13]Wierstra D,Schaul T,Glasmachers T,et al. Natural evolution strategies [J]. Journal of Machine Learning Research,2014,15(1): 949-980.

    [14]Stadie B C,Yang Ge,Houthooft R,et al. Some considerations on learning to explore via meta-reinforcement learning [EB/OL]. (2019-01-11)[2023-09-19].https://arxiv.org/pdf/1803.01118.pdf.

    [15]Xu Tianbing,Liu Qiang,Zhao Liang,et al. Learning to explore with meta-policy gradient [C]// Proc of the 35th International Conference on Machine Learning. [S.l.]: PMLR,2018: 5463-5472.

    [16]Sunehag P,Lever G,Gruslys A,et al. Value-decomposition networks for cooperative multiagent learning based on team reward [C]// Proc of the 17th International Conference on Autonomous Agents and Multi Agent Systems. 2018: 2085-2087.

    [17]Rashid T,Samvelyan M,De Witt C S,et al. Monotonic value function factorisation for deep multi-agent reinforcement learning [J]. Journal of Machine Learning Research,2020,21(1): 7234-7284.

    [18]Foerster J N,F(xiàn)arquhar G,Afouras T,et al. Counterfactual multi-agent policy gradients [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 2974-2982.

    [19]Lowe R,Wu Yi,Tamar A,et al. Multi-agent actor-critic for mixed cooperative-competitive environments [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6379-6393.

    [20]Yu Chao,Velu A,Vinitsky E,et al. The surprising effectiveness of PPO in cooperative multi-agent games [C]// Proc of the 35th Neural Information Processing Systems. Cambridge,MA: MIT Press,2022: 24611-24624.

    [21]Schulman J,Wolski F,Dhariwal P,et al. Proximal policy optimization algorithms [EB/OL]. (2017-08-28)[2023-09-19]. https://arxiv.org/pdf/1707.06347.pdf.

    [22]Zhang Qi,Chen Dingyang. A meta-gradient approach to learning cooperative multi-agent communication topology [C]// Proc of the 5th Workshop on Meta-Learning at NeurIPS. [S.l.]: Artificial Intelligence Institute,2021.

    [23]Yang Jiachen,Ethan W,Trivedi R,et al. Adaptive incentive design with multi-agent meta-gradient reinforcement learning [C]// Proc of the 21st International Conference on Autonomous Agents and Multiagent Systems. 2022: 1436-1445.

    [24]Charakorn R,Manoonpong P,Dilokthanakul N. Learning to cooperate with unseen agents through meta-reinforcement learning [C]// Proc of the 20th International Conference on Autonomous Agents and Multi Agent Systems. Richland,SC: IFAAMAS,2021: 1478-1479.

    [25]Feng Xidong,Slumbers O,Wan Ziyu,et al. Neural auto-curricula in two-player zero-sum games [J]. Neural Information Processing Systems,2021,34(1): 3504-3517.

    [26]Foerster J,Chen R Y,Al-Shedivat M,et al. Learning with opponent-learning awarenesss [C]// Proc of the 17th International Conference on Autonomous Agents and Multi Agent Systems. 2018: 122-130.

    [27]Kim D K,Liu Miao,Riemer M D,et al. A policy gradient algorithm for learning to learn in multiagent reinforcement learning [C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR,2021: 5541-5550.

    [28]Al-Shedivat M,Bansal T,Burda Y,et al. Continuous adaptation via meta-learning in nonstationary and competitive environments [EB/OL]. (2018-02-23)[2023-09-20]. https://arxiv.org/pdf/1710.03641.pdf.

    久久精品综合一区二区三区| 久久国内精品自在自线图片| 老熟妇仑乱视频hdxx| 亚洲午夜理论影院| 亚洲av成人精品一区久久| 久久久久精品国产欧美久久久| 色av中文字幕| 亚洲美女搞黄在线观看 | 久久久久久国产a免费观看| 波多野结衣高清作品| 久久久久久久久大av| 精品乱码久久久久久99久播| 最新中文字幕久久久久| 亚洲av.av天堂| 一进一出好大好爽视频| 88av欧美| 少妇的逼好多水| 色哟哟·www| eeuss影院久久| 日本 av在线| 3wmmmm亚洲av在线观看| 男女做爰动态图高潮gif福利片| 国产av不卡久久| 色综合站精品国产| 深爱激情五月婷婷| 少妇猛男粗大的猛烈进出视频 | 看黄色毛片网站| 亚洲欧美日韩东京热| 国产精品亚洲美女久久久| 内射极品少妇av片p| 日韩国内少妇激情av| 老司机深夜福利视频在线观看| 不卡视频在线观看欧美| 国产伦在线观看视频一区| 亚洲最大成人中文| 日韩精品中文字幕看吧| h日本视频在线播放| 国产熟女欧美一区二区| 午夜免费成人在线视频| 亚洲精品日韩av片在线观看| 黄色女人牲交| 女生性感内裤真人,穿戴方法视频| 舔av片在线| a级毛片免费高清观看在线播放| 观看美女的网站| 欧美日韩乱码在线| 禁无遮挡网站| 人妻少妇偷人精品九色| 亚洲一区高清亚洲精品| 欧洲精品卡2卡3卡4卡5卡区| 午夜精品一区二区三区免费看| 亚洲图色成人| 国产色爽女视频免费观看| 日韩在线高清观看一区二区三区 | 国产精品98久久久久久宅男小说| 在线天堂最新版资源| 国产精品久久久久久亚洲av鲁大| 久久人人精品亚洲av| 99久久中文字幕三级久久日本| 在线免费观看的www视频| 国产精品免费一区二区三区在线| 亚洲av日韩精品久久久久久密| 91在线精品国自产拍蜜月| 天天躁日日操中文字幕| 天天躁日日操中文字幕| 免费观看的影片在线观看| 国国产精品蜜臀av免费| 色综合站精品国产| 亚洲av第一区精品v没综合| 国产黄色小视频在线观看| 制服丝袜大香蕉在线| 欧美xxxx黑人xx丫x性爽| 麻豆国产av国片精品| 成年免费大片在线观看| 99热这里只有精品一区| 日韩欧美国产在线观看| 看黄色毛片网站| 尾随美女入室| 国产精品一区二区三区四区免费观看 | 亚洲自拍偷在线| 亚洲精品成人久久久久久| 亚洲精品日韩av片在线观看| 草草在线视频免费看| 男女边吃奶边做爰视频| 听说在线观看完整版免费高清| 亚洲五月天丁香| 国产成人影院久久av| 亚洲人与动物交配视频| 成年女人毛片免费观看观看9| 淫妇啪啪啪对白视频| 搡老熟女国产l中国老女人| 国产精品1区2区在线观看.| 亚洲第一区二区三区不卡| av天堂在线播放| 在线观看一区二区三区| 搡女人真爽免费视频火全软件 | 男女边吃奶边做爰视频| 欧美性猛交╳xxx乱大交人| 中亚洲国语对白在线视频| 亚洲最大成人手机在线| 少妇人妻精品综合一区二区 | 国内精品美女久久久久久| 搡老岳熟女国产| 久久中文看片网| 国国产精品蜜臀av免费| 男女之事视频高清在线观看| 夜夜爽天天搞| 国产真实乱freesex| 很黄的视频免费| 直男gayav资源| 国产在线男女| 国产精品国产高清国产av| 亚洲精品一卡2卡三卡4卡5卡| 国产一区二区三区视频了| 亚洲真实伦在线观看| 国产精品一及| 欧美性猛交╳xxx乱大交人| 一边摸一边抽搐一进一小说| 别揉我奶头~嗯~啊~动态视频| 啦啦啦啦在线视频资源| 黄色丝袜av网址大全| 午夜视频国产福利| 白带黄色成豆腐渣| 日韩人妻高清精品专区| 最好的美女福利视频网| 国产免费av片在线观看野外av| 91久久精品国产一区二区三区| 国模一区二区三区四区视频| aaaaa片日本免费| 国产久久久一区二区三区| 免费观看精品视频网站| 国产白丝娇喘喷水9色精品| 亚洲精品在线观看二区| 久久久久久伊人网av| 琪琪午夜伦伦电影理论片6080| 中亚洲国语对白在线视频| 99热6这里只有精品| 国产综合懂色| 国内精品一区二区在线观看| 亚洲成人免费电影在线观看| 亚洲成人久久性| 色噜噜av男人的天堂激情| 久久久久久久久大av| 中文字幕熟女人妻在线| 精品久久久久久久末码| 在线看三级毛片| 久久精品国产鲁丝片午夜精品 | 欧美日韩中文字幕国产精品一区二区三区| 一本久久中文字幕| 又爽又黄无遮挡网站| 99热精品在线国产| 婷婷精品国产亚洲av| 欧美+亚洲+日韩+国产| 国产精品人妻久久久影院| 国产精品久久久久久av不卡| 欧美色欧美亚洲另类二区| 久久久久久久久久久丰满 | 搡老岳熟女国产| 国产精品自产拍在线观看55亚洲| videossex国产| 很黄的视频免费| 国产综合懂色| 久久精品国产亚洲av涩爱 | 亚洲avbb在线观看| 美女被艹到高潮喷水动态| 婷婷亚洲欧美| 国产爱豆传媒在线观看| 99久久久亚洲精品蜜臀av| 一进一出好大好爽视频| 极品教师在线免费播放| 日本 欧美在线| 亚洲一区高清亚洲精品| a级一级毛片免费在线观看| 全区人妻精品视频| 自拍偷自拍亚洲精品老妇| 男女做爰动态图高潮gif福利片| 我要看日韩黄色一级片| 亚洲欧美清纯卡通| 成年女人毛片免费观看观看9| 国产精品野战在线观看| h日本视频在线播放| 大型黄色视频在线免费观看| 热99在线观看视频| 噜噜噜噜噜久久久久久91| 老熟妇仑乱视频hdxx| 日日夜夜操网爽| 欧美三级亚洲精品| 午夜福利在线观看免费完整高清在 | 欧美黑人欧美精品刺激| 岛国在线免费视频观看| 成人av在线播放网站| 中文字幕人妻熟人妻熟丝袜美| 日本免费a在线| 国产精品久久久久久av不卡| 午夜激情欧美在线| 大又大粗又爽又黄少妇毛片口| 国语自产精品视频在线第100页| 久久人人精品亚洲av| 变态另类丝袜制服| 美女cb高潮喷水在线观看| 国产久久久一区二区三区| 色综合婷婷激情| 免费在线观看影片大全网站| 国产欧美日韩精品亚洲av| 一边摸一边抽搐一进一小说| 中文字幕免费在线视频6| 麻豆一二三区av精品| 国产一区二区三区视频了| 亚洲综合色惰| 免费搜索国产男女视频| 国产亚洲欧美98| 中国美白少妇内射xxxbb| 无遮挡黄片免费观看| 舔av片在线| 国产美女午夜福利| 啦啦啦观看免费观看视频高清| av福利片在线观看| 黄色女人牲交| 国产高清有码在线观看视频| 最新在线观看一区二区三区| 中文字幕久久专区| 中文亚洲av片在线观看爽| 亚洲综合色惰| 国产精品久久久久久av不卡| 欧美另类亚洲清纯唯美| 成人高潮视频无遮挡免费网站| 国产午夜精品久久久久久一区二区三区 | 99久久精品一区二区三区| 1000部很黄的大片| 久久中文看片网| 桃红色精品国产亚洲av| 国产 一区 欧美 日韩| 国产精品亚洲一级av第二区| 国产免费av片在线观看野外av| 亚洲黑人精品在线| 极品教师在线视频| 欧美绝顶高潮抽搐喷水| 国产男靠女视频免费网站| a级毛片a级免费在线| 韩国av在线不卡| 久久久久免费精品人妻一区二区| 欧美+亚洲+日韩+国产| 精品久久国产蜜桃| 久9热在线精品视频| 国内精品久久久久精免费| 全区人妻精品视频| 婷婷六月久久综合丁香| 亚洲五月天丁香| 中文字幕人妻熟人妻熟丝袜美| 波野结衣二区三区在线| 午夜a级毛片| 欧美成人a在线观看| 精品久久久久久成人av| 亚洲色图av天堂| 国产精品免费一区二区三区在线| 久久午夜福利片| 极品教师在线视频| 老熟妇乱子伦视频在线观看| 日韩中字成人| 一个人观看的视频www高清免费观看| 成熟少妇高潮喷水视频| 黄色配什么色好看| 国产午夜福利久久久久久| 国产精品无大码| 一夜夜www| 国产日本99.免费观看| 亚洲久久久久久中文字幕| 国产精品不卡视频一区二区| av.在线天堂| 亚洲av中文av极速乱 | 淫妇啪啪啪对白视频| 精品人妻偷拍中文字幕| 久久久久久大精品| 最新在线观看一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看| 免费看a级黄色片| 亚洲av第一区精品v没综合| 亚洲精品456在线播放app | 久久久精品欧美日韩精品| 99热6这里只有精品| 国产午夜精品论理片| 婷婷色综合大香蕉| 最近视频中文字幕2019在线8| 99热6这里只有精品| 啦啦啦啦在线视频资源| 美女cb高潮喷水在线观看| 色综合亚洲欧美另类图片| 全区人妻精品视频| 免费观看精品视频网站| 狂野欧美白嫩少妇大欣赏| 国产黄a三级三级三级人| 丰满乱子伦码专区| 一本一本综合久久| 欧洲精品卡2卡3卡4卡5卡区| 人人妻人人看人人澡| 亚洲av中文av极速乱 | 91精品国产九色| 少妇高潮的动态图| 午夜a级毛片| 亚洲五月天丁香| 久久精品国产鲁丝片午夜精品 | 国产精品久久久久久av不卡| 亚洲图色成人| 日本-黄色视频高清免费观看| 国国产精品蜜臀av免费| 99热6这里只有精品| 欧美日本视频| 欧美bdsm另类| 最后的刺客免费高清国语| 男女那种视频在线观看| 日本黄大片高清| 久久久久久久午夜电影| 国产麻豆成人av免费视频| 中文字幕av在线有码专区| 日本撒尿小便嘘嘘汇集6| 亚洲中文日韩欧美视频| 国产精品综合久久久久久久免费| 最近视频中文字幕2019在线8| 干丝袜人妻中文字幕| 真实男女啪啪啪动态图| 在线观看66精品国产| 亚洲av.av天堂| 精品人妻熟女av久视频| 亚洲中文日韩欧美视频| 神马国产精品三级电影在线观看| 在线观看美女被高潮喷水网站| 特大巨黑吊av在线直播| 一级黄色大片毛片| 99热网站在线观看| 国产欧美日韩一区二区精品| 可以在线观看毛片的网站| 免费看a级黄色片| 久久6这里有精品| 久久久久久久久久久丰满 | 亚洲18禁久久av| 少妇人妻精品综合一区二区 | 日本精品一区二区三区蜜桃| 成人av在线播放网站| 在线播放无遮挡| 亚洲国产精品sss在线观看| 久久亚洲真实| 一本精品99久久精品77| 悠悠久久av| 听说在线观看完整版免费高清| x7x7x7水蜜桃| 国产探花极品一区二区| 欧美bdsm另类| 亚洲欧美清纯卡通| 日日夜夜操网爽| 2021天堂中文幕一二区在线观| 久久久久久久精品吃奶| 国产色爽女视频免费观看| 精品人妻偷拍中文字幕| 狠狠狠狠99中文字幕| 一本精品99久久精品77| ponron亚洲| 亚洲av一区综合| 亚洲精品乱码久久久v下载方式| 国产精品久久久久久久电影| 麻豆国产97在线/欧美| 两人在一起打扑克的视频| 国产精品国产高清国产av| 久久中文看片网| 亚洲人与动物交配视频| 伊人久久精品亚洲午夜| 久久中文看片网| 美女 人体艺术 gogo| 天天一区二区日本电影三级| 欧美bdsm另类| 国产精品嫩草影院av在线观看 | 午夜免费成人在线视频| 日日干狠狠操夜夜爽| 国产色爽女视频免费观看| 久久久久久九九精品二区国产| 免费观看人在逋| 99久久成人亚洲精品观看| 99久久久亚洲精品蜜臀av| 搡老妇女老女人老熟妇| 久久国产精品人妻蜜桃| 亚洲专区中文字幕在线| 少妇裸体淫交视频免费看高清| 国产大屁股一区二区在线视频| 老熟妇仑乱视频hdxx| 狠狠狠狠99中文字幕| 久久人妻av系列| 日本与韩国留学比较| 欧美黑人巨大hd| 免费一级毛片在线播放高清视频| 美女免费视频网站| 高清毛片免费观看视频网站| 看黄色毛片网站| 亚洲综合色惰| 国产人妻一区二区三区在| 黄色配什么色好看| 国产一区二区在线av高清观看| 国产亚洲欧美98| 女同久久另类99精品国产91| 国产一区二区三区在线臀色熟女| 中文字幕免费在线视频6| 悠悠久久av| 国产黄色小视频在线观看| 国产单亲对白刺激| 午夜福利在线观看免费完整高清在 | 国内精品久久久久久久电影| 黄色日韩在线| 有码 亚洲区| 精品99又大又爽又粗少妇毛片 | av视频在线观看入口| 国产在线精品亚洲第一网站| 日韩欧美精品v在线| 久久久久国内视频| 国产探花在线观看一区二区| 亚洲乱码一区二区免费版| 高清毛片免费观看视频网站| 国产伦精品一区二区三区四那| 国产午夜精品久久久久久一区二区三区 | 一个人看视频在线观看www免费| 一进一出好大好爽视频| 亚洲成a人片在线一区二区| 一区二区三区激情视频| 噜噜噜噜噜久久久久久91| 国产又黄又爽又无遮挡在线| 国产男靠女视频免费网站| 欧美成人a在线观看| 小蜜桃在线观看免费完整版高清| 婷婷色综合大香蕉| 熟女人妻精品中文字幕| 亚洲国产精品合色在线| 日日撸夜夜添| 桃色一区二区三区在线观看| 国产视频一区二区在线看| 乱人视频在线观看| 精品人妻一区二区三区麻豆 | 尾随美女入室| 五月玫瑰六月丁香| 又爽又黄无遮挡网站| 国产精品一区二区性色av| 欧美日韩乱码在线| 亚洲欧美日韩高清在线视频| 久久精品国产自在天天线| 亚洲欧美激情综合另类| 日本成人三级电影网站| 免费观看人在逋| 国产在线精品亚洲第一网站| 日本色播在线视频| 麻豆成人午夜福利视频| 黄色一级大片看看| 亚洲无线在线观看| 一本精品99久久精品77| 日韩精品有码人妻一区| av在线天堂中文字幕| 日本一本二区三区精品| 国产一区二区在线观看日韩| 国产日本99.免费观看| 日韩中文字幕欧美一区二区| 国产伦人伦偷精品视频| 精品99又大又爽又粗少妇毛片 | 国产欧美日韩一区二区精品| 国产精品国产高清国产av| 国产爱豆传媒在线观看| 免费人成视频x8x8入口观看| 欧美最黄视频在线播放免费| 国产主播在线观看一区二区| 日本黄色片子视频| 免费在线观看影片大全网站| 天天躁日日操中文字幕| av在线亚洲专区| a级毛片免费高清观看在线播放| 精品久久久噜噜| 亚洲乱码一区二区免费版| 99精品久久久久人妻精品| 亚洲成人免费电影在线观看| 国产黄色小视频在线观看| 国产欧美日韩精品一区二区| 一进一出好大好爽视频| 91精品国产九色| 欧美+亚洲+日韩+国产| 国产欧美日韩一区二区精品| 99视频精品全部免费 在线| 亚洲aⅴ乱码一区二区在线播放| 亚洲在线观看片| 99热只有精品国产| 国产精品永久免费网站| 亚洲精品成人久久久久久| 成人性生交大片免费视频hd| 全区人妻精品视频| 久久久久九九精品影院| 伦理电影大哥的女人| 免费大片18禁| 欧美一级a爱片免费观看看| 久久久成人免费电影| 老司机福利观看| 91av网一区二区| 一级av片app| 18禁黄网站禁片免费观看直播| 国产视频内射| 国产三级中文精品| 国内精品宾馆在线| 国产午夜福利久久久久久| 99久久精品国产国产毛片| 一个人看视频在线观看www免费| 亚洲最大成人av| 免费观看精品视频网站| 久久中文看片网| 欧美国产日韩亚洲一区| 久久国产乱子免费精品| 日韩高清综合在线| 国产视频一区二区在线看| 99国产精品一区二区蜜桃av| 国产伦一二天堂av在线观看| 国产精品自产拍在线观看55亚洲| 精品久久久噜噜| 高清日韩中文字幕在线| 色av中文字幕| 少妇人妻一区二区三区视频| 韩国av在线不卡| 久久欧美精品欧美久久欧美| 乱系列少妇在线播放| 婷婷精品国产亚洲av| 日韩av在线大香蕉| 黄色一级大片看看| 欧美一区二区亚洲| 国产激情偷乱视频一区二区| 色哟哟·www| a级一级毛片免费在线观看| 成年女人永久免费观看视频| 国产成人a区在线观看| 日本精品一区二区三区蜜桃| 国产在视频线在精品| www.色视频.com| 亚洲国产精品久久男人天堂| av国产免费在线观看| 国内精品久久久久久久电影| 国产乱人视频| 国产美女午夜福利| 午夜福利高清视频| 亚洲成人久久爱视频| 又粗又爽又猛毛片免费看| 麻豆成人午夜福利视频| 国产高清视频在线播放一区| 99国产精品一区二区蜜桃av| 不卡视频在线观看欧美| 日韩强制内射视频| 午夜日韩欧美国产| 黄色视频,在线免费观看| 午夜视频国产福利| 中文字幕熟女人妻在线| 亚洲精华国产精华液的使用体验 | 99热精品在线国产| 床上黄色一级片| 人人妻人人看人人澡| 色综合站精品国产| 在线国产一区二区在线| 有码 亚洲区| 小蜜桃在线观看免费完整版高清| 九九热线精品视视频播放| 亚洲在线观看片| 婷婷色综合大香蕉| 内地一区二区视频在线| 草草在线视频免费看| 尤物成人国产欧美一区二区三区| 色吧在线观看| 免费人成在线观看视频色| 国产精品爽爽va在线观看网站| 亚洲,欧美,日韩| 免费人成视频x8x8入口观看| 在线观看66精品国产| 国内精品宾馆在线| 国产爱豆传媒在线观看| 精品一区二区三区视频在线| 国产亚洲精品av在线| 日本-黄色视频高清免费观看| 麻豆国产av国片精品| 精品人妻1区二区| 成熟少妇高潮喷水视频| 精品乱码久久久久久99久播| 看黄色毛片网站| а√天堂www在线а√下载| av天堂中文字幕网| av女优亚洲男人天堂| 久久欧美精品欧美久久欧美| 国产v大片淫在线免费观看| 99久久中文字幕三级久久日本| 窝窝影院91人妻| 观看美女的网站| 熟女电影av网| 非洲黑人性xxxx精品又粗又长| 色噜噜av男人的天堂激情| 国产大屁股一区二区在线视频| 色哟哟·www| 韩国av一区二区三区四区| 狠狠狠狠99中文字幕| 一区二区三区激情视频| 在线看三级毛片| 他把我摸到了高潮在线观看| 国产av麻豆久久久久久久| 搡老妇女老女人老熟妇| 日本黄色视频三级网站网址| 亚洲人成伊人成综合网2020| 国产不卡一卡二| 淫妇啪啪啪对白视频| 国国产精品蜜臀av免费| 欧美精品啪啪一区二区三区| 日本欧美国产在线视频| 亚洲乱码一区二区免费版| 天堂影院成人在线观看| 亚洲精品国产成人久久av| 日韩国内少妇激情av| 国产亚洲av嫩草精品影院| av在线观看视频网站免费| 国产精品永久免费网站| 国国产精品蜜臀av免费| 看十八女毛片水多多多| 国产成人aa在线观看| 精品国产三级普通话版|