多智能體強化學習博弈訓練方式研究綜述

2023-04-21 13:24:22張人文陳希亮

計算機技術(shù)與發(fā)展 2023年4期

張人文,賴俊,陳希亮

(陸軍工程大學指揮控制工程學院,江蘇南京 210007)

0 引言

近年來,強化學習(Reinforcement Learning)[1]逐漸成為人工智能的熱門研究領(lǐng)域。智能體(Agent)通過采取不同的動作(Action)與環(huán)境進行交互[2],改變自身狀態(tài)(State),并獲得獎勵(Reward)。通過引導智能體獲得更大收益的方式驅(qū)使智能體進行學習,完成任務(wù)。2017年,以強化學習算法為核心的AlphaGo戰(zhàn)勝圍棋世界冠軍李世石,引發(fā)人們的廣泛關(guān)注。隨著研究深入,更符合現(xiàn)實需求的多智能體強化學習(Multi-agent Reinforcement Learning)獲得人們重視,已在決策支持、智能推薦、即時戰(zhàn)略游戲等領(lǐng)域取得進展。

博弈訓練方式的運用為強化學習技術(shù)進一步賦能。采用種群訓練的“FTW agent”[3]在《雷神之錘III競技場》中達到人類玩家水平;采用聯(lián)盟訓練的AlphaStar[4]在《星際2》中戰(zhàn)勝人類頂尖玩家;采用自我博弈訓練的OpenAI Five[5]在《Dota 2》中戰(zhàn)勝世界冠軍,在即時戰(zhàn)略游戲中擊敗世界冠軍。

該文對多智能體強化學習基本理論、博弈基本理論、多智能體強化學習博弈訓練方式分類、關(guān)鍵問題和前景展望進行綜述。其中第二節(jié)對強化學習基本理論、博弈基本理論進行簡要闡述;第三節(jié)結(jié)合多智能體博弈訓練研究成果應(yīng)用對典型博弈訓練算法進行分類及介紹;第四節(jié)分析博弈訓練的關(guān)鍵問題及挑戰(zhàn);第五節(jié)簡要介紹現(xiàn)有部分多智能體強化學習博弈訓練平臺;最后對多智能體強化學習博弈訓練的發(fā)展前景及展望進行討論。

1 基本理論

本節(jié)對強化學習及博弈論的概念進行闡述,介紹博弈求解方式發(fā)展歷程及博弈訓練的基本含義。

1.1 強化學習基本理論

1.1.1 馬爾可夫決策過程(MDP)

MDP由多元組構(gòu)成,一般包括S,A,P,R,γ等,S表示智能體狀態(tài)空間,A表示智能體動作空間,P為智能體狀態(tài)轉(zhuǎn)移函數(shù), 其定義為[6]:

P:S×A×S→[0,1]

(1)

P代表智能體在狀態(tài)s∈S的情況下,采用給定動作a∈A時,狀態(tài)轉(zhuǎn)移至下一狀態(tài)s'∈S的概率分布。智能體的瞬時回報函數(shù)R為:

R:S×A×S→R

(2)

R表示智能體在狀態(tài)s的情況下,采用動作a時,狀態(tài)轉(zhuǎn)移至下一狀態(tài)s'所獲得的即時回報。將所有即時回報累加,可得到智能體的總收益Rt:

(3)

式中,γ∈[0,1]是折扣系數(shù),用于平衡智能體的瞬時回報和長期回報對總回報的影響[7]。

馬爾可夫決策過程中,當智能體從一個狀態(tài)轉(zhuǎn)移到另一狀態(tài)時,只需要考慮當前的狀態(tài)與行為,不需要考慮以往所采取的行為以及所處的環(huán)境[8]。

1.1.2 強化學習

強化學習是智能體通過與環(huán)境交互以期獲得最大收益而采取的學習方式。智能體通過采取最優(yōu)的動作與環(huán)境進行交互,獲得回報,進而學習到指導問題解決的最佳策略。通俗而言,強化學習即智能體在環(huán)境中不斷“試錯”,以最大化回報為驅(qū)動力,在試錯過程中逐漸適應(yīng)環(huán)境,達成學習的目的。

智能體與環(huán)境的交互過程可以由三個要素來描述:狀態(tài)s、動作a、獎勵r。智能體根據(jù)初始狀態(tài)s,執(zhí)行動作a并與環(huán)境進行交互,獲得獎勵r,轉(zhuǎn)移至下一狀態(tài)s'[9]。強化學習基本過程如圖1所示。

圖1 強化學習基本過程

智能體學習成果是獲得一個適合環(huán)境的策略π,π是智能體可能會選擇某種行為的概率[8],表示為:

π:S×A→[0,1]

(4)

策略可分為確定性策略和隨機性策略。確定性策略即智能體在不同時刻(t)或回合(episode)時,遇到相同狀態(tài)均選擇某一確定的動作。隨機性策略為一個概率分布,即為智能體輸入一個狀態(tài),輸出選擇某個動作的概率。隨機性策略可表示為:

π(a|s)=p(at=a|st=s)

(5)

在智能體與環(huán)境交互的過程中,不斷優(yōu)化其目前使用的策略,使策略越來越好,這個過程即策略更新。策略更新在強化學習中迭代執(zhí)行,以期智能體能得到一個最佳策略。為了判斷智能體在某一狀態(tài)s時策略的優(yōu)劣,定義狀態(tài)值函數(shù)Vπ(s):

Vπ(s)=E[Gt|st=s,π]

(6)

同樣,為了判斷智能體在某一狀態(tài)s時執(zhí)行動作a的優(yōu)劣,定義狀態(tài)動作值函數(shù)Qπ(s,a):

Qπ(s,a)=E[Gt|st=s,at=a,π]

(7)

其中,Gt是智能體從當前狀態(tài)一直到交互過程結(jié)束所獲得的總收益R,即累計回報。

在強化學習過程中,智能體通過對值函數(shù)進行評價,進而判定自身策略優(yōu)劣并加以改進。

1.2 多智能體強化學習

現(xiàn)實場景往往有多個主體交互,多智能體系統(tǒng)(Multi-Agent System,MAS)[10]是對現(xiàn)實世界多主體交互場景進行的一種建模方式。多智能體強化學習(Multi-Agent Reinforcement Learning,MARL)[11]是采用強化學習方法對多智能體系統(tǒng)進行訓練的人工智能方法,遵循隨機博弈(Stochastic Game,SG)[12]過程。

在多智能體強化學習中,智能體的動作空間Ai(i=1,2,…,n)交互形成聯(lián)合動作空間A:

A=A1×A2×…×An

(8)

策略、狀態(tài)轉(zhuǎn)移函數(shù)等也相應(yīng)改變。如聯(lián)合狀態(tài)轉(zhuǎn)移函數(shù),即全部智能體在執(zhí)行聯(lián)合狀態(tài)動作a時,由狀態(tài)s轉(zhuǎn)移至下一狀態(tài)s'的概率分布。智能體的聯(lián)合策略決定智能體的總回報。

多智能體強化學習算法可分為完全合作型、完全競爭型和混合型[13],采用多智能體強化學習能完成復(fù)雜任務(wù),提升算法效率[6]。

1.3 博弈論

博弈論(Game Theory)[14]是對存在利益關(guān)系的理性行為實體之間的沖突或合作模型進行形式化研究的一門學科[15]。博弈論的形式化表述一般由玩家(Player)、策略(Strategy)、收益(Payoff)、理性(Rationality)等要素構(gòu)成。

博弈論有多種分類。根據(jù)博弈過程玩家是否同時決策,可分為標準式博弈(靜態(tài)博弈)、拓展式博弈(動態(tài)博弈);根據(jù)玩家對博弈過程信息是否了解,可分為完美信息博弈和不完美信息博弈等。

對于一般標準式博弈,進行如下形式化定義:

(9)

a-i=(a1,…,ai-1,ai+1,…,an)

(10)

根據(jù)理性假設(shè),每名玩家在博弈中都試圖通過尋求針對其他玩家的最優(yōu)響應(yīng)(Best Response)來獲得更高收益。若當每名玩家均采用最優(yōu)響應(yīng)時,任何一方單獨改變策略都不能使自己獲得更高的收益,此時博弈達到一種穩(wěn)定的局面,即納什均衡(Nash Equilibrium)。

納什均衡是博弈論的重要理論基礎(chǔ),納什證明了標準式博弈中均衡點的存在[16],為博弈論的應(yīng)用開創(chuàng)了理論基礎(chǔ)。其形式化定義如下:

(11)

1.4 博弈求解方式的發(fā)展歷程

納什均衡提出后,求解納什均衡成為研究的熱點。自我博弈的使用在精神上類似于虛擬博弈[5]。

1951年,Brown[17]提出虛擬博弈(Fictitious Play,FP)的概念。Genugten[18]提出弱化形式的虛擬游戲(Weakened Fictitious Play,WFP),獲得近似最優(yōu)響應(yīng),加快收斂速度。Heinrich[19]提出Full-width extensive-form fictitious play(XSP)和Fictitious Self-Play(FSP),將虛擬博弈由標準式博弈推廣到擴展式博弈。Heinrich等人[20]提出Neural Fictitious Self-Play (NFSP),是第一個在自我博弈中收斂到近似納什均衡的深度強化學習方法。另一方面,McMahan等人[21]提出基于博弈論的Double Oracle(DO)算法,在此基礎(chǔ)上,Lanctot等人[22]提出Policy Space Response Oracles (PSRO)算法,提升了博弈求解水平。Balduzzi 等人[23]提出PSRO-rectified Nash response(PSRO-rN),進一步提升了納什均衡下策略的改進機率。Muller等人[24]提出α-PSRO算法,使用α-Rank[25]擴展PSRO的理論基礎(chǔ),避免求解納什均衡面臨的均衡選擇問題[26]。McAleer等人[27]提出Pipeline PSRO(P2SRO),通過維護分層管道來并行化 PSRO。

1.5 博弈訓練

博弈訓練,是在對抗性環(huán)境中,智能體通過和當前的自己及自身歷史版本進行博弈對抗的訓練方式。一方面,如何在數(shù)據(jù)不足或有限的情況下,訓練出符合要求的智能體,需要尋找一種能夠平衡訓練數(shù)據(jù)規(guī)模與智能體訓練效果的方法。另一方面,如何在復(fù)雜場景中訓練智能體獲得更優(yōu)的策略,突破策略循環(huán),博弈訓練開辟了一個新的途徑。

2 博弈訓練方式分類

根據(jù)基礎(chǔ)原理的不同,可將博弈訓練分為基于自我博弈的訓練和基于博弈論的訓練;根據(jù)從對手策略池中不同“挑選和應(yīng)對對手”方法,基于自我博弈的訓練又可劃分為自我博弈、種群訓練和聯(lián)盟訓練。

2.1 自我博弈訓練

自我博弈(Self-Play,SP)是在多智能體訓練的背景下出現(xiàn)的一種訓練方案[28]。自我博弈訓練的本質(zhì)是通過自身行為模擬產(chǎn)生數(shù)據(jù),并利用數(shù)據(jù)進行學習和提升[29]。自我博弈的實證成功挑戰(zhàn)了經(jīng)典觀點,即專家對手是獲得良好表現(xiàn)所必需的[30]。

Samuel[31]在跳棋程序中設(shè)計了自我對戰(zhàn),發(fā)現(xiàn)這種模式早期特別好。Epstein[32]指出,自我博弈訓練的程序有條不紊地確定和探索自己在搜索空間中的路徑。Tesauro等人[33]設(shè)計了TD-Gammon,在玩西洋雙陸棋的能力上達到專家水平。在訓練AlphaGo[34]的策略網(wǎng)絡(luò)時,將當前正在訓練的策略網(wǎng)絡(luò)Pρ和從對手池中隨機抽樣的對手Pρ-進行對弈。AlphaGo Zero[35]的訓練數(shù)據(jù)全部來自于自我博弈訓練。Kaplanis等人[36]指出,每個智能體的經(jīng)驗分布會受到對手不斷變化的策略影響。Balduzzi等人[23]描述了自我博弈訓練算法,指出自我博弈適合由傳遞博弈建模的游戲。Hernandez 等人[28]使用形式符號定義了SP的通用框架,在該框架下統(tǒng)一了流行的SP算法的定義,進一步指出自我博弈表現(xiàn)出周期性的策略演變[37]。

2.1.1 自我博弈訓練算法基本框架

Balduzzi等人[23]描述了一種自我博弈訓練算法。其中oracle表示,從上帝視角,oracle能夠找到一個智能體Vt',其能力比Vt更好。該定義描述,通過自我博弈訓練,Vt+1的能力均比Vt要好,如算法1描述:

算法1 Self-Play算法。

輸入:智能體V1

對t=1,2,…,T執(zhí)行以下循環(huán):

智能體Vt+1←oracle(智能體Vt',φvt(·))

結(jié)束循環(huán)

輸出:智能體VT+1

Hernandez等人[37]定義了通用的自我博弈訓練框架,描述了所有自我博弈訓練方案的最小結(jié)構(gòu),同時未對策略交互的環(huán)境做出任何假設(shè)。

πο:πο∈ai;表示策略集(menagerie),智能體的行為從策略集中進行采樣,集合包括當前的訓練策略π,并隨著訓練的進行而不斷改變。

Ω:Ω∈[0,1];表示策略抽樣分布(policy sampling distribution),即策略集πο上的概率分布。

G:G∈[0,1];表示門控函數(shù)(gating function),決定是否將當前策略π引入策略集,及哪些策略π∈πο將丟棄,如算法2描述:

算法 2:強化學習Self-Play算法。

輸入:環(huán)境等要素(S,A,O,P,R等);

輸入:Self-Play要素(Ω,G);

輸入:需要訓練的策略π。

1 初始化策略集πο={π};

2 對e=0,1,2…執(zhí)行以下循環(huán):

3 根據(jù)策略抽樣分布Ω從πο中抽取π';

4 將π'加入π中;

5 采樣S0和O0;

6 對t=0,1,2…,直至終止,執(zhí)行以下循環(huán):

7 根據(jù)策略π及觀察Ot選擇動作并執(zhí)行;

8 結(jié)合狀態(tài)St和動作at,根據(jù)P得到St+1和Ot+1;

9 獲得獎勵rt;

10t=t+1;

11 結(jié)束循環(huán);

12 更新π;

13 根據(jù)G決定是否將當前策略π加入策略集πο

14 結(jié)束循環(huán)

15 輸出策略π

2.1.2 經(jīng)典自我博弈訓練算法

經(jīng)典自我博弈訓練算法(Naive Self-Play,NSP)是最典型的自我博弈訓練算法,1959年Samuel在其論文中已經(jīng)使用[31],智能體每次都與最新版本的自己進行對戰(zhàn),即智能體均在相同的最新策略的指導下進行交互[37]。形式化表述如下:

(12)

此時,門控函數(shù)G總是將最新版本的策略放入策略集πο中,且策略集中僅保持最新策略[37]。

G(π°,π)={π}

(13)

Samuel[31]使用經(jīng)典自我博弈方法訓練跳棋游戲,發(fā)現(xiàn)這種模式在訓練早期階段效果較好。Kaplanis等人[36]通過僅針對自身最新版本的自我博弈訓練,來評估智能體的持續(xù)學習能力。通過將最終智能體與在訓練的各個階段的模型進行對比,發(fā)現(xiàn)智能體的能力得到了平穩(wěn)的提高。但也發(fā)現(xiàn)存在少數(shù)被擊敗的情況。

2.1.3 成長式自我博弈訓練算法

成長式自我博弈訓練(Mature Self-Play,MSP)的核心是與過去的自我對戰(zhàn)。即訓練時將訓練過程中產(chǎn)生的模型收集起來,加入到模型池(對手池)中,正在訓練的智能體不僅與最新版本的自我對戰(zhàn),還采用多種抽樣方式與過去版本的模型進行博弈對戰(zhàn)。

Bansal等人[38]發(fā)現(xiàn),智能體針對最新版本的自我進行博弈訓練會導致訓練不平衡。相反,針對隨機舊版本對手的訓練效果要好,可以獲得更強大的策略。

根據(jù)博弈訓練時新舊模型不同采樣比例及不同采樣方式,可分為多種算法:

(1)歷史均勻訓練法。

History Uniform Self-Play(HUSP)。即智能體在進行博弈訓練時,以在整個歷史版本上進行均勻隨機采樣選擇對手,使用Uniform(0,v)方法,其中v是抽樣時的模型版本總數(shù)。參考Hernandez等人[37]描述的自我博弈訓練框架,將HUSP方法形式化描述如下:

Ω(π'|π°,π)=Uniform(0,M)

(14)

門控函數(shù)G采用確定性策略吸收新的策略。每次訓練后,將當前策略加入到策略集中。

G(π°,π)=π°∪{π}

(15)

Al-Shedivat等人[39]在進行模型的預(yù)訓練時,將模型自我博弈過程中的歷史版本進行保存,用于后期的對抗訓練。Silver等人[34]在訓練AlphoGO的策略網(wǎng)絡(luò)時,使用當前策略網(wǎng)絡(luò)和隨機選擇的先前策略網(wǎng)絡(luò)進行博弈對戰(zhàn),不斷增強對手池的多樣性。

(2)區(qū)間均勻訓練法。

區(qū)間均勻法是Bansal等人[38]提出的考慮對手抽樣時新舊版本占比的方法,目的是訓練出能夠擊敗自身隨機舊版本的策略。即選取對手時,不是在整個歷史版本上進行均勻隨機采樣,而是使用Uniform(δM,M)方法,其中M是抽樣時對手池內(nèi)所含模型版本數(shù)量。δ∈[0,1]是抽樣比例的閾值。Hernandez等人[37]將該方法命名為δ-Uniform Self-Play(δ-USP),形式化描述為:

Ω(π'|π°,π)=Uniform(δM,M)

(16)

與歷史均勻訓練法相同,門控函數(shù)G為:

G(π°,π)=π°∪{π}

(17)

Bansal等人[38]發(fā)現(xiàn),針對最新版本的對手進行自我博弈訓練會導致最差的表現(xiàn)。δ的取值對不同的場景較為敏感,將直接影響博弈訓練效果。

(3)區(qū)間限制訓練法。

受到RL方法順序數(shù)據(jù)收集方式影響,較早的對手比最近添加的對手被更加頻繁地采樣。Van Der Ree[40]發(fā)現(xiàn),訓練期間對手策略質(zhì)量與智能體策略的潛在質(zhì)量呈現(xiàn)相關(guān)性。相對而言,早期智能體版本的性能較差,可能影響智能體最終訓練效果。

Hernandez等人[37]提出了一種新的博弈訓練方法,命名為δ-Limit Uniform Self-Play(δ-LUSP)。通過改進對手抽樣分布,定義了新的采樣概率公式和歸一化算法,增加后續(xù)策略被抽樣的概率。

(18)

(19)

Hernandez等人[37]發(fā)現(xiàn)這種方法能夠降低早期版本的抽樣頻率,但仍然存在策略循環(huán)的情況。

(4)回溯比例訓練法。

回溯比例訓練法是前述方法的結(jié)合,博弈訓練時,以一定訓練比例與最新的自我對戰(zhàn),其余訓練比例與過去的版本對戰(zhàn)?；厮荼壤柧毞ㄎ瓷釛壢魏芜^去的對手,所有歷史對手均保存在對手池中。

該文給出回溯比例訓練法的形式化描述:

(20)

lastestself表示與最新版本模型進行對戰(zhàn),即經(jīng)典自我博弈;historyself表示與過去版本對手模型進行對戰(zhàn),可根據(jù)需求選擇多種對手抽樣算法;η∈[0,1]表示lastestself在總體訓練中所占比例。

表1 典型自我博弈訓練方法分類

OpenAI Five進行自我博弈訓練時,80%的訓練場次采用經(jīng)典自我博弈法,20%的訓練場次與過去的對手進行對戰(zhàn),即η=0.8。Berner等人[5]指出,保持與過去的版本進行對抗,獲得更強大策略的同時,減小智能體忘記如何打敗過去對手的可能性。

Inseok等人[41]使用了類似方式,但以概率p選擇最近的k個版本對手,以1-p的概率選擇其余版本,p以一定的方式下降,前期較大的p有助于快速適應(yīng)對手,后期使用較小的p減輕災(zāi)難性遺忘的影響,穩(wěn)定學習過程[41]。

2.2 種群訓練

PBT(Population Based Training)算法[42]具有高效和易并行的特點,進化策略類似于遺傳算法[43]。

圖2 常見的參數(shù)調(diào)優(yōu)方式

For The Win(FTW)[3]采用基于種群的自我博弈訓練算法(Population Based Training Self-Play,PBTSF),將PBT算法與多智能體強化學習方法結(jié)合。智能體之間的關(guān)系是多樣的,根據(jù)訓練效果“優(yōu)勝劣汰”,獲得水平較高的智能體并保持魯棒性。

種群內(nèi)的每個智能體使用Elo分數(shù)[44]作為標準,抽樣與其水平相近的對手,使對戰(zhàn)結(jié)果具有不確定性,當智能體勝率低于70%時,將較好智能體的參數(shù)復(fù)制至較差智能體,同時對參數(shù)進行探索[3],這種方式思想上類似遺傳算法的選擇、交叉和變異階段。

PBTSF使整個種群內(nèi)的智能體相互對戰(zhàn),每個智能體都要進行學習,通過挑選高水平智能體并不斷進行探索,使整個種群都變得更加智能。

2.3 聯(lián)盟訓練

由于策略循環(huán)非傳遞性問題的限制,自我博弈訓練常常會陷入局部最優(yōu)中,無法獲得更好的表現(xiàn)。

Vinyals等人[4]為名為AlphaStar的星際爭霸AI設(shè)計了一種新的博弈訓練算法——聯(lián)盟訓練(League Training),旨在解決自我博弈訓練中常見的循環(huán)問題,并整合各種策略[4]。對手抽樣方面,Vinyals等人[4]設(shè)計了優(yōu)先虛擬自我博弈算法(Prioritized Fictitious Self-Play,PFSP),PFSP使用了新的抽樣匹配機制:

(21)

上式含義為:給定一個正在訓練的智能體A,從對手池C中采樣對手B的概率為p。式中,f:[0,1]→[0,∞)是權(quán)重函數(shù),Vinyals等人[4]設(shè)計了fhard(x)和fvar(x)兩種具體的函數(shù):

fhard(x)=(1-x)2

(22)

fvar(x)=x(1-x)

(23)

fhard(x)是PFSP的默認式,智能體專注于較難戰(zhàn)勝的對手。為了避免陷入只與最難對手對戰(zhàn)的循環(huán),PFSP還提出另外一種形式fvar(x),使智能體關(guān)注與自己水平相近的對手。

聯(lián)盟由三種不同類型的智能體組成,包括主智能體(Main agents)、主利用者(Main exploiters)和聯(lián)盟利用者(League exploiters)[4]。主智能體是最終需要的智能體,采用混合策略進行對手采樣,且不會被重置。主利用者的目標是發(fā)現(xiàn)主智能體的缺陷。打敗智能體了解的對手是不夠的,培養(yǎng)更好的對手也很重要,他們表現(xiàn)出智能體不知道的行為[23]。聯(lián)盟利用者的目標是發(fā)現(xiàn)整個聯(lián)盟的弱點,使用PFSP在聯(lián)盟中抽樣對手進行訓練,采用一定的規(guī)則被重置。

星際爭霸指揮官(StarCraft Commander,SCC)[45]也采用了聯(lián)盟訓練方法。Wang等人[45]設(shè)計了智能體分支(Agent branching),使用當前主智能體初始化新的主利用者,而不使用監(jiān)督學習的參數(shù)。Han等人[46]設(shè)計了TStarBot-X,采用多元化聯(lián)盟訓練(Diversified League Training ,DLT),豐富了聯(lián)盟的多樣性。

2.4 策略空間響應(yīng)預(yù)言機

基于博弈論的博弈訓練方面,Lanctot等人[22]定義了策略空間響應(yīng)預(yù)言機(Policy Space Response Oracle,PSRO)算法,統(tǒng)一了多智能體訓練的博弈論算法。

PSRO算法是雙預(yù)言機(Double Oracle,DO)算法[21]的延伸,是基于博弈論的博弈訓練方式,通過迭代生成相對于現(xiàn)有策略單調(diào)更強的策略解決博弈訓練問題。DO算法根據(jù)對手歷史策略求出納什均衡,采取最優(yōu)響應(yīng),若當前最優(yōu)響應(yīng)已在策略空間中,則算法終止,否則將此最優(yōu)響應(yīng)作為新的策略加入策略空間,繼續(xù)迭代至終止[47]。

圖3 Double Oracle算法示意圖

PSRO算法迭代進行以下循環(huán):在當前策略集上定義元博弈(meta-game),通過使用元求解器獲得元博弈最優(yōu)響應(yīng),每個博弈訓練輪次加入新的策略(通過“Oracle”獲得),近似最優(yōu)響應(yīng)不斷提升。開始時僅有單個策略[22],最終得到近似最優(yōu)響應(yīng)。

與DO算法操作的“動作”不同,PSRO算法的操作對象是“策略”,不同的元求解器以及從元求解器生成新策略的過程是PSRO算法之間的區(qū)別所在。

PSRO具有泛化性明顯的特點,但強化學習訓練可能需要很長時間才能收斂到近似最優(yōu)反應(yīng)。Lanctot等人[22]提出深層認知層次(Deep Cognitive Hierarchies,DCH)算法,提升訓練速度,但犧牲了部分準確性。Balduzzi等人[23]提出改進版本PSROrN(Response to the rectified Nash),鼓勵智能體“放大自的優(yōu)勢并忽略自身的弱點”。Muller等人[24]提出α-PSRO算法,使用α-Rank[25]擴展PSRO的理論基礎(chǔ),避免求解納什均衡的均衡選擇問題[26],在撲克中得到更快收斂的實例[24]McAleer等人[27]提出Pipeline PSRO (P2SRO),通過維護分層管道來并行化PSRO,同時具有收斂保證。Smith等人[48]提出兩種PSRO變體,減少應(yīng)用深度強化學習所需的訓練量。

3 博弈訓練的關(guān)鍵問題與挑戰(zhàn)

3.1 策略循環(huán)

在具備博弈對抗性質(zhì)的現(xiàn)實場景中,多智能體強化學習可能會遇到傳遞性場景和非傳遞性場景。以游戲場景為例,傳遞性游戲[23]可以通過等級或積分的高低判斷勝率;而諸如石頭剪刀布等非傳遞性游戲[23]則極有可能表現(xiàn)出策略循環(huán),為博弈訓練帶來挑戰(zhàn)。

自我博弈對于傳遞性游戲有較好策略提升效果。Balduzzi等人[23]指出,自我博弈是一種開放式學習算法,具有傳遞性。然而,對于非傳遞性游戲,智能體的一個策略改進并不能保證針對其他策略均改進。

為了跳出非傳遞性場景中的策略循環(huán),許多研究者利用游戲環(huán)境進行了嘗試。OpenAI Five采用并行自我博弈生成訓練數(shù)據(jù),確保智能體對廣泛的對手具有魯棒性。聯(lián)盟訓練[4]采用不同類型的智能體組合,在解決策略循環(huán)問題上取得了一定進展。SCC[45]和TStarBot-X[46]對聯(lián)盟訓練進行了豐富和探索。Balduzzi等人[23]提出PSROrN算法,為應(yīng)對策略循環(huán)挑戰(zhàn)提供了新的思路。

3.2 策略遺忘

在多智能體強化學習博弈訓練過程中,訓練后期的模型對戰(zhàn)前期版本的模型時勝率下降,甚至被前期版本擊敗,這種策略遺忘的情況廣泛存在。

由于利用神經(jīng)網(wǎng)絡(luò)學習新任務(wù)時,需要更新相關(guān)參數(shù),但前期任務(wù)提取出來的知識也儲存在這些參數(shù)上,因此學習新任務(wù)時,智能體會遺忘舊知識。Fedus等人[49]建立了災(zāi)難性遺忘與強化學習中樣本效率低下等核心問題的經(jīng)驗聯(lián)系。Reed等人[50]構(gòu)建了多任務(wù)智能體 Gato,在更高層次解決策略遺忘問題。

3.3 策略探索

探索(Exploration)是強化學習的一個關(guān)鍵挑戰(zhàn),其目的是確保智能體的行為不會過早收斂到局部最優(yōu)[51]。通過博弈訓練得到的模型,是否可以在真實的博弈環(huán)境中發(fā)揮很好的效果,取決于當前智能體所在的環(huán)境分布與真實分布之間的差距情況。

Epstein[32]指出,在自我博弈訓練中,不能保證智能體探索的空間是最重要的部分,并且探索的區(qū)域可能與所需要的幾乎無關(guān)。Tesauro等人[33]指出,在確定性博弈環(huán)境中,通過自我博弈訓練的系統(tǒng)最終可能只探索狀態(tài)空間非常狹窄的部分。Inseok等人[41]指出,自我博弈得到的策略空間并不能保證對具有較大問題空間的場景具有足夠覆蓋率。

為了應(yīng)對探索難題,許多研究者進行了深入的探討。Pathak等人[52]提出好奇心探索(Curiosity-driven Exploration)算法,使智能體能夠進一步探索環(huán)境并學習有用的策略。Fortunato等人[53]提出NoisyNet算法,幫助智能體進行有效探索。Ecoffet等人[54]提出Go-Explore 算法,記錄訪問狀態(tài),提升了探索效率。

3.4 策略突破

如何在策略提升的過程中突破策略循環(huán),是一個重要挑戰(zhàn)。首先,對于剪刀石頭布這樣完全循環(huán)的博弈場景而言,哪個策略更好是沒有實際意義的。其次,策略的探索和遺忘在一定程度上制約高質(zhì)量策略的獲得,同時受算法、硬件條件限制,存在現(xiàn)實困難。Czarnecki等人[55]分析了現(xiàn)實世界游戲的幾何特性,指出現(xiàn)實世界的游戲是由傳遞部分和非傳遞部分混合而成,幾何結(jié)構(gòu)類似于旋轉(zhuǎn)陀螺。

目前,研究者從設(shè)置規(guī)則、添加人類經(jīng)驗、利用人類玩家數(shù)據(jù)等方面進行了有益嘗試。AlphaGO使用人類專家數(shù)據(jù)進行監(jiān)督學習,而后通過自我博弈訓練進行改進提升。AlphaStar[4]和SCC[45]在監(jiān)督學習中利用高質(zhì)量人類數(shù)據(jù)集進行初始化,在強化學習中利用聯(lián)盟訓練方式提升和改進智能體。JueWu[56]雖沒有使用人類數(shù)據(jù)用于智能體初始化,但其將人類高質(zhì)量數(shù)據(jù)用于分析英雄陣容。OpenAI Five[5]未直接使用人類數(shù)據(jù),但在神經(jīng)網(wǎng)絡(luò)和獎勵函數(shù)等設(shè)計中一定程度上融入了人類先驗知識。

4 博弈訓練測試框架及平臺

4.1 MALib

MALib[57]是首個專門面向基于種群的多智能體強化學習的開源大規(guī)模并行訓練框架(官網(wǎng)鏈接:https://malib.io/)。支持自我博弈、聯(lián)盟訓練及PSRO等多種博弈訓練方式,已對接多種多智能體環(huán)境。

4.2 POAC

部分可觀測異步智能體協(xié)同(POAC)平臺[58]是多智能體強化學習算法的標準測試環(huán)境(官網(wǎng)鏈接:http://turingai.ia.ac.cn/app/detail/30),可用于兵棋AI人機對抗挑戰(zhàn),支持自我博弈、人機對抗等模式。

4.3 Go-Bigger

Go-Bigger是OpenDILab推出的多智能體強化學習博弈訓練環(huán)境(文檔鏈接:https://gobigger.readthedocs.io/en/latest/index.html),涵蓋自我博弈、聯(lián)盟訓練等多種博弈訓練方式,提供了直觀、高效的平臺。

4.4 RoboSumo

RoboSumo[39]是多智能體競爭環(huán)境,具有模擬物理特征,使用相撲規(guī)則,智能體觀察敵我位置、速度等參數(shù),在連續(xù)動作空間進行自我博弈訓練。

5 博弈訓練的前景展望

博弈訓練方法為多智能體強化學習開拓了思路,解決現(xiàn)實場景的能力有了顯著提升,必將成為未來博弈訓練的重點研究方向。同時,博弈訓練方法還存在一些亟待解決的問題。

一方面,目前的博弈訓練方法大多是啟發(fā)式的[59],具體的理論解釋還不完善,如新舊版本的比例設(shè)定、抽樣方式的設(shè)計,可解釋性不強,泛化性較弱。

另一方面,正如通過博弈訓練能否獲得最強玩家一樣,智能體的決策水平能否通過自身博弈無限地提升下去?智能體自我博弈學習是否存在極限[29]?從這兩個方面來看,博弈訓練方法的研究還處于起步階段,需要進行更加深入細致的研究。

6 結(jié)束語

從智能體訓練的角度出發(fā),對多智能體強化學習博弈訓練方法進行了梳理,介紹了博弈訓練的基本概念、方式分類、關(guān)鍵問題、測試平臺及前景展望等。通過該文可以看出,多智能體強化學習博弈訓練是一種新興的智能體訓練方式,能夠在許多現(xiàn)實復(fù)雜場景中獲得較好表現(xiàn),具有極大的發(fā)展?jié)摿蛻?yīng)用價值。相信隨著研究的深入,博弈訓練必將不斷在可解釋性、解決策略循環(huán)、探索、突破等問題上取得進展,成為多智能體強化學習領(lǐng)域一顆閃亮的新星。

猜你喜歡

狀態(tài)智能算法

基于MapReduce的改進Eclat算法

成都信息工程大學學報(2019年4期)2019-11-04 00:56:02

Travellng thg World Full—time for Rree

閱讀與作文(英語初中版)(2019年8期)2019-08-27 03:59:25

狀態(tài)聯(lián)想

小學生作文(低年級適用)(2019年5期)2019-07-26 00:45:10

智能前沿

文苑(2018年23期)2018-12-14 01:06:06

進位加法的兩種算法

小學生學習指導(低年級)(2018年11期)2018-12-03 05:05:00

智能前沿

文苑(2018年19期)2018-11-09 01:30:14

智能前沿

文苑(2018年17期)2018-11-09 01:29:26

智能前沿

文苑(2018年21期)2018-11-09 01:22:32

生命的另一種狀態(tài)

讀友·少年文學(清雅版)(2018年12期)2018-04-04 05:16:40

一種改進的整周模糊度去相關(guān)算法

現(xiàn)代防御技術(shù)(2016年1期)2016-06-01 12:13:27

計算機技術(shù)與發(fā)展2023年4期

計算機技術(shù)與發(fā)展的其它文章: 去主元相關(guān)性DKPCA故障檢測與診斷方法; 基于混合策略改進的麻雀搜索算法; 一種改進的粒子群算法在交通分配上的應(yīng)用; 基于節(jié)點重要性和模塊度優(yōu)化的社團劃分算法; 基于注意力機制和殘差網(wǎng)絡(luò)的視頻行為識別; 基于多資源協(xié)同優(yōu)化的虛擬機整合方法

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区

多智能體強化學習博弈訓練方式研究綜述

0 引 言

1 基本理論

1.1 強化學習基本理論

1.2 多智能體強化學習

1.3 博弈論

1.4 博弈求解方式的發(fā)展歷程

1.5 博弈訓練

2 博弈訓練方式分類

2.1 自我博弈訓練

2.2 種群訓練

2.3 聯(lián)盟訓練

2.4 策略空間響應(yīng)預(yù)言機

3 博弈訓練的關(guān)鍵問題與挑戰(zhàn)

3.1 策略循環(huán)

3.2 策略遺忘

3.3 策略探索

3.4 策略突破

4 博弈訓練測試框架及平臺

4.1 MALib

4.2 POAC

4.3 Go-Bigger

4.4 RoboSumo

5 博弈訓練的前景展望

6 結(jié)束語

0 引言