• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配算法

    2021-01-21 03:22:38姚興虎譚曉陽
    計(jì)算機(jī)應(yīng)用 2021年1期
    關(guān)鍵詞:分配智能

    姚興虎,譚曉陽*

    (1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106;2.模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)),南京 211106;3.南京航空航天大學(xué)軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 211106)

    0 引言

    近年來,深度強(qiáng)化學(xué)習(xí)在游戲人工智能[1-2]、機(jī)器人自動(dòng)控制[3]等領(lǐng)域取得了很大的進(jìn)步。然而,許多現(xiàn)實(shí)世界的真實(shí)場景需要多個(gè)智能體在同一個(gè)環(huán)境中與環(huán)境進(jìn)行交互,這類問題場景可以建模為多智能體系統(tǒng)[4-5]。常見的多智能體系統(tǒng)包括多智能體協(xié)同規(guī)劃[6]、信號(hào)燈的控制[7]以及多玩家電子游戲[8]等。然而,多智能體系統(tǒng)的復(fù)雜性使得多智能體系統(tǒng)面臨著諸多單智能體系統(tǒng)中沒有的問題,這些問題使得簡單地將單智能體強(qiáng)化學(xué)習(xí)算法移植到多智能體場景中不會(huì)取得令人滿意的效果。具體來說,多智能體系統(tǒng)中面臨的主要問題包括:每個(gè)智能體只能觀測到環(huán)境的一部分所導(dǎo)致的對(duì)環(huán)境的部分可觀測問題[9];環(huán)境本身所具有的更強(qiáng)的非馬爾可夫性[10];多個(gè)智能體與環(huán)境進(jìn)行不斷的交互所導(dǎo)致的環(huán)境不穩(wěn)定問題[11];多個(gè)智能體的聯(lián)合動(dòng)作空間隨著智能體數(shù)量的增加所導(dǎo)致的指數(shù)爆炸[12-15];以及如何將環(huán)境反饋的針對(duì)環(huán)境中所有智能體聯(lián)合動(dòng)作的全局獎(jiǎng)勵(lì)分配給每個(gè)獨(dú)立的智能體(稱之為全局信用分配問題)[12-15]。這些問題的存在不僅使得無法將所有的智能體建模為一個(gè)單智能體然后利用單智能體算法進(jìn)行訓(xùn)練,而且也不適合將其他智能體看成環(huán)境的一部分從而為每個(gè)智能體單獨(dú)進(jìn)行建模。

    近年來,由于概念上簡單并且執(zhí)行效率高,“中心訓(xùn)練-分散執(zhí)行”的方式已經(jīng)成為求解多智能體強(qiáng)化學(xué)習(xí)問題的一個(gè)標(biāo)準(zhǔn)范式[12-15]。所謂“中心訓(xùn)練”,指的是在訓(xùn)練的過程中通過一個(gè)中心化的值函數(shù)來與環(huán)境直接進(jìn)行交互;所謂“分散執(zhí)行”,指的是每個(gè)智能體都有自己單獨(dú)的值函數(shù)網(wǎng)絡(luò)或者策略網(wǎng)絡(luò),因此在執(zhí)行階段每個(gè)智能體可以根據(jù)其自身的觀測獨(dú)立地執(zhí)行動(dòng)作。在這一范式中,中心化的值函數(shù)直接接收環(huán)境給出的獎(jiǎng)勵(lì)信號(hào),之后通過適當(dāng)?shù)娜中庞梅峙錂C(jī)制將全局獎(jiǎng)勵(lì)分配到每個(gè)智能體。因此,中心化的值函數(shù)建立了每個(gè)智能體與環(huán)境進(jìn)行交互的橋梁并在整個(gè)框架中處于核心地位。

    如何設(shè)計(jì)中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的約束關(guān)系是設(shè)計(jì)整個(gè)信用分配機(jī)制的核心。一個(gè)合適的約束關(guān)系不僅能夠有利于對(duì)全局信用進(jìn)行一個(gè)良好的分配,還應(yīng)使得整個(gè)算法復(fù)雜度不易過高。若采用簡單的信用分配機(jī)制(比如“值分解網(wǎng)絡(luò)(Value decompose network,Vdn)[13]”中的加性方式),則會(huì)限制中心化值函數(shù)的表達(dá)能力并進(jìn)一步影響到獎(jiǎng)勵(lì)分配過程;若設(shè)計(jì)復(fù)雜的獎(jiǎng)勵(lì)分配機(jī)制(比如“反直覺的多智能體策略梯度法(Counterfactual multi-agent policy gradient,Coma[12])”和“Q 值變換網(wǎng)絡(luò)(QTRAN[15])”)則會(huì)增加優(yōu)化求解的復(fù)雜度。

    此外,Vdn[13]、QMIX[14]以及QTRAN[15]算法均假設(shè)全局最優(yōu)的聯(lián)合動(dòng)作等價(jià)于每個(gè)智能體按照自己的值函數(shù)求得的局部最優(yōu)動(dòng)作的聯(lián)合。然而,復(fù)雜場景下的全局最優(yōu)動(dòng)作可能需要某些智能體做出一些犧牲其個(gè)人利益的行為;因而,基于這一假設(shè)的算法最終會(huì)收斂到問題的一個(gè)局部最優(yōu)解。

    針對(duì)多智能體強(qiáng)化學(xué)習(xí)問題中全局信用分配機(jī)制存在的上述問題,在“中心訓(xùn)練-分散執(zhí)行”的框架下,本文提出了一種新的全局信用分配方法,稱之為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(Reward HighWay Network,RHWNet)。RHWNet將中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的耦合分為兩部分:一方面通過混合網(wǎng)絡(luò)來實(shí)現(xiàn)全局的獎(jiǎng)勵(lì)分配,這一方式能夠?qū)Σ煌闹悄荏w進(jìn)行特異性的獎(jiǎng)勵(lì)分配;另一方面利用獎(jiǎng)勵(lì)高速路連接將全局獎(jiǎng)勵(lì)信號(hào)橋接到每個(gè)智能體值函數(shù)的訓(xùn)練過程中,從而實(shí)現(xiàn)全局信用的二次分配,這將使得單個(gè)智能體在最大化自身獎(jiǎng)勵(lì)值的同時(shí)兼顧其行為對(duì)全局獎(jiǎng)勵(lì)的影響。在算法復(fù)雜度方面,本文所提出的全局信用的二次分配過程幾乎不需要額外的優(yōu)化代價(jià)。在星際爭霸微操作平臺(tái)上的實(shí)驗(yàn)結(jié)果表明:本文方法在多個(gè)復(fù)雜的場景下能夠獲得很好的測試勝率提升,并且具有更高的樣本利用效率。

    1 相關(guān)工作

    近年來,隨著深度強(qiáng)化學(xué)習(xí)方法的流行,多智能體強(qiáng)化學(xué)習(xí)算法的研究已從簡單的環(huán)境過渡到復(fù)雜的場景。

    “中心訓(xùn)練-分散執(zhí)行”一類的算法通常假設(shè)每個(gè)智能體的局部最優(yōu)動(dòng)作的拼接等價(jià)于聯(lián)合的最優(yōu)動(dòng)作。其中代表性的方法有:Coma[12]、Vdn[13]、QMIX[14]和QTRAN[15]。Coma 是一種同策略的“演員-評(píng)論家”算法,通過一個(gè)精心設(shè)計(jì)的反直覺的基準(zhǔn)來實(shí)現(xiàn)全局信用的分配,但是這一基準(zhǔn)需要額外的計(jì)算代價(jià)。Vdn、QMIX 和QTRAN 則是利用值函數(shù)迭代的方式,首先學(xué)習(xí)中心化的值函數(shù),然后利用中心化值函數(shù)與非中心化值函數(shù)之間的約束關(guān)系完成全局信用的分配。值函數(shù)之間不同程度的約束關(guān)系使得Vdn、QMIX 和QTRAN 三種方法的信用分配機(jī)制的復(fù)雜程度和優(yōu)化求解難度有所不同。SMIX(λ)[16]旨在學(xué)習(xí)一個(gè)更為靈活和更強(qiáng)泛化能力的中心化值函數(shù)結(jié)構(gòu),未改變原有算法的獎(jiǎng)勵(lì)分配機(jī)制。

    本文所提出的基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的信用分配機(jī)制同樣屬于“中心訓(xùn)練-分散執(zhí)行”的框架,但是其重點(diǎn)在于如何在不引入額外的信息以及不增加優(yōu)化代價(jià)的前提下進(jìn)行更為有效的信用分配。

    此外,為智能體之間建立通信信道或者建立智能體之間的協(xié)調(diào)配合機(jī)制可以為單個(gè)智能體的決策提供更多的環(huán)境信息或者環(huán)境中其他智能體的信息。建立通信信道的方法主要包括文獻(xiàn)[17-18]等;智能體之間的協(xié)調(diào)配合機(jī)制可以通過在智能體之間引入注意力機(jī)制[19-20]或者利用圖神經(jīng)網(wǎng)絡(luò)[21-22]來實(shí)現(xiàn)。每個(gè)智能體利用更多的信息進(jìn)行決策所產(chǎn)生的行為將會(huì)間接影響到整個(gè)系統(tǒng)的獎(jiǎng)勵(lì)分配。而本文所提出的方法在不考慮更多信息的條件下改善已有的信用分配機(jī)制。因此,這類方法與本文所提出的方法是互補(bǔ)的。

    2 背景知識(shí)

    在本章中將介紹多智能體強(qiáng)化學(xué)習(xí)的相關(guān)背景知識(shí)。其中:2.1 節(jié)給出了多智能體強(qiáng)化學(xué)習(xí)的相關(guān)符號(hào)與問題建模;2.2 節(jié)介紹了本文所提算法的值函數(shù)的基本形式——深度循環(huán)Q 函數(shù)網(wǎng)絡(luò)(Deep Recurrent Q Network,DRQN)[23];2.3 節(jié)介紹了3 種流行的基于值函數(shù)迭代的多智能體強(qiáng)化學(xué)習(xí)算法——Vdn[13]、QMIX[14]和QTRAN[15]。

    2.1 問題建立

    本文考慮完全合作場景下的多智能體強(qiáng)化學(xué)習(xí)問題,它可被描述為非中心化部分可觀測馬爾可夫決策過程(Decentralized Partial Observable Markov Decision Process,Dec-POMDP)[24]的一個(gè)變種。具體來說,本文可以用八元組來描述這一問題,其中s∈S表示環(huán)境的真實(shí)狀態(tài),A是每個(gè)智能體的所能采取的動(dòng)作的集合。其中智能體的數(shù)目的總數(shù)是N,γ是獎(jiǎng)勵(lì)折扣因子。在每個(gè)時(shí)刻,每個(gè)智能體i∈{1,2,…,N}分別選取動(dòng)作ai∈A從而拼成聯(lián)合動(dòng)作向量a={a1,a2,…,aN}∈AN。本文考慮一個(gè)部分可觀測的場景,其中每個(gè)智能體i只能通過觀測函數(shù)Z(s,i):S×N?O得到部分信息o∈O。每個(gè)智能體i歷史的觀測和動(dòng)作序列為τi∈T≡(O×A)*。每個(gè)智能體將依據(jù)歷史的觀測和動(dòng)作序列τ來進(jìn)行決策。策略函數(shù)可分為靜態(tài)策略函數(shù)和隨機(jī)策略函數(shù),其中隨機(jī)策略函數(shù)可以定義為:π[a|τ]:T×A?[0,1]。

    在“中心訓(xùn)練-分散執(zhí)行”的框架下,訓(xùn)練階段利用環(huán)境的全局狀態(tài)s和各個(gè)智能體的歷史觀測信息τ={τ1,τ2,…,τN}學(xué)習(xí)一個(gè)中心化的動(dòng)作值函數(shù)Q([s,τ],a)(簡記為Q(τ,a))。在執(zhí)行階段,每個(gè)智能體的策略函數(shù)πi僅僅依賴于其自身的觀測和動(dòng)作歷史序列τi。所有智能體的共同目標(biāo)是最大化所能從環(huán)境中得到的全局折扣獎(jiǎng)勵(lì)和:在下文中,為了簡化記號(hào),本文用黑體字符表示所有智能體的聯(lián)合行為,并且在不引起歧義的情況下,省略每個(gè)智能體的序號(hào)i。

    2.2 深度循環(huán)Q網(wǎng)絡(luò)

    在復(fù)雜的現(xiàn)實(shí)世界中的問題場景下,通常不能得到完整的狀態(tài)信息并且觀測的數(shù)據(jù)往往是具有噪聲的,這種部分可觀測的問題在多智能體場景下更為嚴(yán)重。此外,多智能體環(huán)境所天然具有的非馬爾可夫性使得每個(gè)智能體需要考慮更多的歷史信息來進(jìn)行當(dāng)前時(shí)刻的決策。文獻(xiàn)[23]的結(jié)果表明,傳統(tǒng)的深度Q 網(wǎng)絡(luò)在處理部分可觀測的馬爾可夫決策過程(Markov Decision Process,MDP)問題中會(huì)出現(xiàn)性能下降,而深度循環(huán)Q網(wǎng)絡(luò)更為適合處理部分可觀測以及非馬爾可夫的環(huán)境。

    深度循環(huán)Q 網(wǎng)絡(luò)通過引入GRU(Gated Recurrent Unit)[25]或者長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[26]等循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)對(duì)歷史信息的融合從而計(jì)算狀態(tài)動(dòng)作值。一方面,多智能體環(huán)境面臨更嚴(yán)重的部分可觀測性,采用這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地對(duì)歷史信息進(jìn)行融合,從而緩解對(duì)環(huán)境的部分可觀測問題。另一方面,序列決策問題中當(dāng)前的策略可能受到之前多步的狀態(tài)和動(dòng)作的影響,因此這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還能有助于處理序列決策問題場景下的非馬爾可夫問題。與深度Q網(wǎng)絡(luò)[1]相同,DRQN[23]也利用一個(gè)數(shù)據(jù)緩存區(qū)(replay buffer)來存儲(chǔ)經(jīng)驗(yàn)數(shù)據(jù)其中τ′是在聯(lián)合的局部觀測τ下智能體采取聯(lián)合動(dòng)作a后獲得全局獎(jiǎng)勵(lì)值r所得到的下一個(gè)聯(lián)合觀測值。DRQN 通過最小化如下的均方時(shí)間差分損失來進(jìn)行學(xué)習(xí):

    其中θ是值函數(shù)網(wǎng)絡(luò)的參數(shù)。θ-是目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù),其更新方式為每隔固定的迭代次數(shù)將主網(wǎng)絡(luò)的參數(shù)θ直接復(fù)制。

    2.3 Vdn,QMIX和QTRAN

    多智能體系統(tǒng)中聯(lián)合的動(dòng)作空間隨著智能體數(shù)量的增加指數(shù)爆炸,因此直接優(yōu)化聯(lián)合的動(dòng)作值函數(shù)代價(jià)巨大。為了降低算法的復(fù)雜度,眾多算法假設(shè)智能體的聯(lián)合最優(yōu)動(dòng)作等價(jià)于每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的動(dòng)作選擇所得到的局部最優(yōu)值的拼接,即:

    值函數(shù)分解網(wǎng)絡(luò)(Vdn)[13]限制中心化的值函數(shù)Qtot(τ,a)為每個(gè)智能體的值函數(shù)的和,即:

    Vdn 算法的損失函數(shù)和(1)相同,這一方法的優(yōu)勢在于其結(jié)構(gòu)簡單,但是這一簡單的結(jié)構(gòu)限制了中心化值函數(shù)的表達(dá)能力和全局信用分配的有效性。QMIX[14]將這一線性分解拓展到了單調(diào)非線性分解。具體來說,QMIX假設(shè)中心化的值函數(shù)是每個(gè)智能體值函數(shù)的非負(fù)線性組合,即:

    QMIX算法通過建立每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),一個(gè)混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來實(shí)現(xiàn)上述約束,并且QMIX 算法在超網(wǎng)絡(luò)中輸入全局的狀態(tài)來輔助中心化值函數(shù)的訓(xùn)練。

    Vdn 和QMIX 算法的約束都是假設(shè)(2)的一個(gè)充分條件,QTRAN[15]算法則進(jìn)一步對(duì)約束進(jìn)行松弛從而直接優(yōu)化假設(shè)(2)的一個(gè)充要條件。盡管QTRAN 工作在一個(gè)更大的假設(shè)空間,但是這一方法需要求解聯(lián)合動(dòng)作空間中的優(yōu)化問題,這將帶來龐大的計(jì)算代價(jià),因此QTRAN 并不適用于復(fù)雜的多智能體場景。

    3 本文方法

    3.1 獎(jiǎng)勵(lì)高速路連接

    殘差網(wǎng)絡(luò)[27]通過在深度神經(jīng)網(wǎng)絡(luò)中增加跳躍連接來緩解深度神經(jīng)網(wǎng)絡(luò)在信息傳遞的過程中所造成的信息丟失與損耗。高速路網(wǎng)絡(luò)則是利用門控機(jī)制,將當(dāng)前的信息選擇性地進(jìn)行傳遞。本文利用殘差學(xué)習(xí)的觀點(diǎn),將每個(gè)智能體應(yīng)分到的獎(jiǎng)勵(lì)分為兩部分:貪心獎(jiǎng)勵(lì)和合作獎(jiǎng)勵(lì)。所謂貪心獎(jiǎng)勵(lì)是指按照假設(shè)(2)進(jìn)行信用分配所分給每個(gè)智能體的獎(jiǎng)勵(lì),記作rg,僅僅采用這種分配方式將使得每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的策略選擇;所謂合作獎(jiǎng)勵(lì)指的是每個(gè)智能體還應(yīng)考慮的全局獎(jiǎng)勵(lì)部分,記作rc。rc可通過對(duì)全局獎(jiǎng)勵(lì)R進(jìn)行部分橋接得到,即rc=λ·R,λ∈[0,1]。本文稱這種全局獎(jiǎng)勵(lì)直達(dá)的連接方式為獎(jiǎng)勵(lì)高速路連接。經(jīng)過這兩種形式的獎(jiǎng)勵(lì)分配后,訓(xùn)練過程中單個(gè)智能體i的實(shí)際收到的獎(jiǎng)勵(lì)信號(hào)為記環(huán)境所給的外部獎(jiǎng)勵(lì)為R,則在一個(gè)有N個(gè)智能體的多智能體環(huán)境中,rg,rc與R之間的關(guān)系為:

    其中F為滿足假設(shè)(2)所進(jìn)行的全局信用分配函數(shù),它可以是簡單的所有貪心獎(jiǎng)勵(lì)rg的和(對(duì)應(yīng)于Vdn),或者是所有rg的非負(fù)組合(對(duì)應(yīng)于QMIX)。上述二路的獎(jiǎng)勵(lì)分配方式及其與殘差網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比可以用圖1來描述。

    從圖1 可以看出,殘差連接[27]和獎(jiǎng)勵(lì)高速路連接均是在深度網(wǎng)絡(luò)中添加一些跳過某些中間層的跳躍連接。這種跳躍連接的方式幾乎不會(huì)帶來額外的優(yōu)化代價(jià),但更多的信息將通過跳躍連接進(jìn)行傳遞。兩種結(jié)構(gòu)不同之處在于:殘差連接的信息流向是從前往后的,這樣上一階段的信息能夠?qū)罄m(xù)階段產(chǎn)生影響;而獎(jiǎng)勵(lì)分配的方式是從后往前的,這將使得兩路獎(jiǎng)勵(lì)信號(hào)都被用來訓(xùn)練每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),從而使得單獨(dú)的智能體在考慮最優(yōu)化其自身的利益的同時(shí)最大化全局獎(jiǎng)勵(lì)值。

    圖1 殘差連接和獎(jiǎng)勵(lì)高速路連接對(duì)比Fig.1 Comparison of residual connection and reward highway connection

    3.2 本文所提算法

    本文采用QMIX 的網(wǎng)絡(luò)結(jié)構(gòu)作為本文算法的基本網(wǎng)絡(luò)結(jié)構(gòu)。QMIX 采用混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來構(gòu)造信用分配網(wǎng)絡(luò)F。每個(gè)超網(wǎng)絡(luò)接受全局狀態(tài)作為輸入,輸出的非負(fù)值作為混合網(wǎng)絡(luò)的權(quán)重。本文稱在這一信用分配網(wǎng)絡(luò)F上加入獎(jiǎng)勵(lì)高速路連接所得到的網(wǎng)絡(luò)為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(RHWNet)。RHWNet的示意圖如圖2所示,與QMIX 相同,在每個(gè)智能體單獨(dú)的值函數(shù)網(wǎng)絡(luò)中加入GRU 來實(shí)現(xiàn)對(duì)歷史信息的利用,并且所有智能體的值函數(shù)網(wǎng)絡(luò)是參數(shù)共享的。通過圖2 可以看出,獎(jiǎng)勵(lì)高速路連接并不會(huì)引入額外的神經(jīng)網(wǎng)絡(luò)參數(shù),因此RHWNet并沒有額外的優(yōu)化代價(jià)。

    圖2 本文所提算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the proposed algorithm

    在實(shí)現(xiàn)過程中,本文算法通過最小化如下的損失函數(shù)進(jìn)行端到端的訓(xùn)練:

    其中:Nb為采樣批量(batch)的大小,λ為將全局獎(jiǎng)勵(lì)通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)輸送到每個(gè)智能體上的權(quán)重,θ為所有智能體非中心化的值函數(shù)網(wǎng)絡(luò)的參數(shù),φ為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的參數(shù),其中γ是獎(jiǎng)勵(lì)折扣因子,θ-、φ-是與標(biāo)準(zhǔn)的深度Q 學(xué)習(xí)算法中相同的目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù)。所有的神經(jīng)網(wǎng)絡(luò)都是通過端到端的方式進(jìn)行訓(xùn)練的。

    4 實(shí)驗(yàn)與結(jié)果

    本章首先給出本文所提算法的實(shí)驗(yàn)環(huán)境和算法的實(shí)現(xiàn)細(xì)節(jié),然后給出實(shí)驗(yàn)結(jié)果和消融分析。

    4.1 實(shí)驗(yàn)環(huán)境

    本文在星際爭霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge,SMAC)[28]環(huán)境上對(duì)本文所提的RHWNet 進(jìn)行評(píng)估。SMAC 是基于星際爭霸Ⅱ游戲的一個(gè)實(shí)驗(yàn)環(huán)境,與完整的星際爭霸Ⅱ游戲相比,SMAC 側(cè)重研究每個(gè)智能體的微操作。微操作指的是SMAC 重點(diǎn)關(guān)注如何控制每個(gè)士兵去戰(zhàn)勝敵方,而不考慮如何發(fā)展經(jīng)濟(jì)以及進(jìn)行資源的調(diào)度等高層次的宏觀操作。

    SMAC 提供了多種復(fù)雜的微操作場景來探究智能體之間的合作行為。在每個(gè)場景中,開始時(shí)刻兩組敵對(duì)的士兵被分配到戰(zhàn)場中的隨機(jī)位置。戰(zhàn)場中的每個(gè)士兵只能在其視野范圍內(nèi)搜集到關(guān)于戰(zhàn)場環(huán)境的局部信息,這將帶來嚴(yán)重的對(duì)環(huán)境的部分可觀測性。環(huán)境僅根據(jù)智能體所采取的聯(lián)合動(dòng)作來給出一個(gè)全局的獎(jiǎng)勵(lì)信號(hào)。本文采用強(qiáng)化學(xué)習(xí)算法來控制戰(zhàn)場中的一組士兵(同盟單元),來與內(nèi)置的基于啟發(fā)式規(guī)則的游戲AI控制的另一組士兵進(jìn)行對(duì)抗。在實(shí)驗(yàn)中,內(nèi)置AI的難度被設(shè)置為“非常困難”來驗(yàn)證本文算法的有效性。

    本文所提算法旨在優(yōu)化合作場景下的全局獎(jiǎng)勵(lì)分配問題。因此重點(diǎn)考慮非對(duì)稱(asymmetic)場景(敵我雙方士兵構(gòu)成不同)以及非齊次且對(duì)稱(heterogeneous and symmetic)場景下(敵我雙方士兵人員組成相同,但均由不同種類的士兵構(gòu)成)的對(duì)抗。表1列出了實(shí)驗(yàn)所考慮的4種實(shí)驗(yàn)場景。

    表1 實(shí)驗(yàn)中所考慮的不同場景Tab.1 Scenarios considered in experiments

    4.2 實(shí)現(xiàn)細(xì)節(jié)

    每個(gè)智能體的值函數(shù)網(wǎng)絡(luò)由以下結(jié)構(gòu)構(gòu)成:首先從環(huán)境中得到的觀測傳入一層維度為64 維的全連接層,經(jīng)過ReLU[29]激活函數(shù)后,輸入到維度為64 的GRU 模塊進(jìn)行當(dāng)前信息與歷史信息的整合,GRU 模塊的輸出傳入到一層維度為64 的全連接層,之后再經(jīng)過ReLU 激活函數(shù)得到當(dāng)前智能體的動(dòng)作值向量Qi(τi,·)。然后根據(jù)這一動(dòng)作值函數(shù)進(jìn)行ε-貪心的策略選擇,隨著訓(xùn)練的進(jìn)行,ε的取值從1.0 線性衰減到0.05。為了降低網(wǎng)絡(luò)的參數(shù)數(shù)量,所有智能體共享同一個(gè)動(dòng)作值函數(shù)網(wǎng)絡(luò)。

    之后每個(gè)智能體的Q 值傳入獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò),獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)中的混合網(wǎng)絡(luò)部分采用與QMIX 算法相同的結(jié)構(gòu)。全局獎(jiǎng)勵(lì)值經(jīng)過高速路傳輸?shù)亩嗌儆墒剑?)中的λ參數(shù)控制,在本文的所有實(shí)驗(yàn)場景中本文均設(shè)置λ=0.2。

    本文采用RMSprop方法來最小化損失函數(shù)(6),其參數(shù)設(shè)置為:lr=0.000 5,α=0.99,獎(jiǎng)勵(lì)折扣因子γ=0.99。每經(jīng)過200局游戲?qū)δ繕?biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行一次更新。

    4.3 主要實(shí)驗(yàn)結(jié)果

    本文將所提算法與SMAC 平臺(tái)上較先進(jìn)的算法Coma 和QMIX進(jìn)行對(duì)比,并與不進(jìn)行全局信用分配的獨(dú)立Q學(xué)習(xí)算法(Independent Q learning,Iql)和只進(jìn)行簡單全局信用分配的Vdn算法進(jìn)行對(duì)比,主要實(shí)驗(yàn)結(jié)果如圖3所示。本文將每個(gè)算法在所有不同的場景中均獨(dú)立訓(xùn)練10 次,得到的線條和陰影部分分別表示平均測試勝率及對(duì)應(yīng)勝率方差的95%的置信區(qū)間。陰影部分的面積大小可以作為衡量算法穩(wěn)定性和魯棒性的評(píng)價(jià)指標(biāo),陰影面積越小意味著算法的性能方差越小從而算法的穩(wěn)定性和魯棒性越好。

    可以看到,在所有的非齊次對(duì)稱場景下(3s5z,1c3s5z,3s6z),本文提出的算法能夠取得最優(yōu)的性能,并且在較為簡單的場景(2s_vs_1sc)下也能獲得接近最優(yōu)的性能。此外RHWNet 的性能提升不僅體現(xiàn)在最終的勝率上,還體現(xiàn)在學(xué)習(xí)的效率上。

    具體來說,在智能體數(shù)量較少的2s_vs_1sc 場景下,本文可以看出采用較為復(fù)雜獎(jiǎng)勵(lì)分配機(jī)制的QMIX 性能要明顯差于結(jié)構(gòu)更簡單的Vdn和Iql算法。這意味著QMIX這一較為復(fù)雜的全局信用分配機(jī)制在某些較為簡單的場景下也有可能失效。而通過獎(jiǎng)勵(lì)高速路連接之后,RHWNet 算法在這一場景下得到了很大的性能提升。

    圖3 本文算法與其他算法在4個(gè)場景下的測試勝率對(duì)比Fig.3 Test winning rate comparison of the proposed algorithm and other algorithms

    在1c3s5z 場景下,每個(gè)團(tuán)隊(duì)中都有3 種不同類型的智能體。如圖3(c)所示,在這一場景下,QMIX 和Vdn 算法性能都出現(xiàn)了較大的波動(dòng)(對(duì)應(yīng)的陰影部分面積增大)。而RHWNet在取得性能提升的同時(shí)還具有更小的性能上的方差,這意味著RHWNet在復(fù)雜的問題場景下依然具有很好的魯棒性。

    在3s5z 場景下,本文可以看到采用更為復(fù)雜獎(jiǎng)勵(lì)分配方式的QMIX 算法性能要大大優(yōu)于采用簡單信用分配方式的Vdn 算法以及不進(jìn)行信用分配的Iql 算法。尤其需要指出的是,Vdn 算法可看作QMIX 算法的簡化版本,這意味著在這一復(fù)雜的場景下,QMIX所采用的更復(fù)雜的結(jié)構(gòu)更有效。然而這些基準(zhǔn)算法都存在樣本利用率低、學(xué)習(xí)速度慢的問題,而RHWNet 則能大大提高算法的學(xué)習(xí)速度和樣本利用的效率。同樣的結(jié)果可以在更為復(fù)雜的3s6z場景下得到。在3s6z場景中,Coma、Vdn 和Iql 的訓(xùn)練基本無效,QMIX 也不能得到令人滿意的結(jié)果;而RHWNet 在僅需要QMIX 算法所需樣本數(shù)量的1/3 的情形下,最終勝率能達(dá)到QMIX 算法的1.5 倍。這表明在3s6z 這一智能體數(shù)量和種類較多的復(fù)雜場景下,已有算法的獎(jiǎng)勵(lì)分配機(jī)制不能有效地進(jìn)行全局獎(jiǎng)勵(lì)分配,而獎(jiǎng)勵(lì)高速路連接為這種復(fù)雜場景引入了一個(gè)更好的獎(jiǎng)勵(lì)分配機(jī)制,從而取得了最終性能和樣本效率的提升。

    4.4 消融測試

    在這一部分本文重點(diǎn)探究通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)傳遞的全局獎(jiǎng)勵(lì)的比例對(duì)最終的實(shí)驗(yàn)性能所產(chǎn)生的影響。式(6)中參數(shù)λ的作用其實(shí)起到了平衡原有的端到端的獎(jiǎng)勵(lì)分配方式和直接利用全局獎(jiǎng)勵(lì)的作用。當(dāng)式(6)中的λ取值較小時(shí),每個(gè)智能體所獲得的獎(jiǎng)勵(lì)信號(hào)更多地來源于直接的全局獎(jiǎng)勵(lì);當(dāng)λ取值較大時(shí),每個(gè)智能體的獎(jiǎng)勵(lì)信號(hào)則更多地來源于混合網(wǎng)絡(luò)的信用分配結(jié)果。

    圖4顯示了在3s5z場景下,λ的不同取值所獲得的實(shí)驗(yàn)結(jié)果。其中實(shí)線和陰影表示獨(dú)立進(jìn)行10 次實(shí)驗(yàn)的均值和95%的置信區(qū)間。從這一實(shí)驗(yàn)結(jié)果可以看出,當(dāng)λ=0.2,0.4,0.6時(shí),RHWNet 均能得到明顯的性能提升。但是當(dāng)λ的值進(jìn)一步增大時(shí),反而會(huì)出現(xiàn)性能下降。因此,通過信息高速路網(wǎng)絡(luò)進(jìn)行傳輸?shù)娜知?jiǎng)勵(lì)值的比例實(shí)際上起到了對(duì)原有信用分配機(jī)制與僅考慮全局獎(jiǎng)勵(lì)的平衡作用。實(shí)驗(yàn)結(jié)果表明,λ=0.2是一個(gè)比較魯棒的值。因此本文的所有實(shí)驗(yàn)場景都采用λ=0.2作為獎(jiǎng)勵(lì)高速路鏈接網(wǎng)絡(luò)的權(quán)重。

    圖4 在3s5z場景中所提出的算法對(duì)超參數(shù)λ的敏感性Fig.4 Sensitivity of the proposed algorithm to hyperparameter λ in 3s5z scenario

    5 結(jié)語

    在“中心訓(xùn)練-分散執(zhí)行”的多智能體強(qiáng)化學(xué)習(xí)框架下,全局信用的分配可以通過對(duì)中心化值函數(shù)和非中心化值函數(shù)之間施加約束來實(shí)現(xiàn)。然而,不同的約束關(guān)系不僅決定了算法的復(fù)雜程度,還直接決定了獎(jiǎng)勵(lì)分配機(jī)制的有效性。本文提出了一種基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的全局信用分配算法RHWNet,通過在獎(jiǎng)勵(lì)分配機(jī)制上引入獎(jiǎng)勵(lì)高速路連接,能夠達(dá)到:

    1)每個(gè)智能體的決策行為能夠考慮其自身所分得的局部獎(jiǎng)勵(lì)和整個(gè)團(tuán)隊(duì)的全局獎(jiǎng)勵(lì);

    2)獎(jiǎng)勵(lì)高速路連接結(jié)構(gòu)簡單,幾乎不會(huì)引入額外的優(yōu)化代價(jià);

    3)在多個(gè)復(fù)雜的場景下,RHWNet 相比原有的先進(jìn)算法能夠取得很好的性能提升。

    本文的后續(xù)工作將會(huì)研究限制條件下的全局獎(jiǎng)勵(lì)分配問題(比如智能體之間存在資源競爭的關(guān)系),以及為智能體之間建立通信機(jī)制來進(jìn)行協(xié)調(diào)配合。

    猜你喜歡
    分配智能
    基于可行方向法的水下機(jī)器人推力分配
    應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
    智能制造 反思與期望
    遺產(chǎn)的分配
    一種分配十分不均的財(cái)富
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    績效考核分配的實(shí)踐與思考
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    嫩草影院入口| 成人三级黄色视频| 一个人看视频在线观看www免费 | 91在线观看av| 日本黄色片子视频| av视频在线观看入口| 国产一区在线观看成人免费| 99国产精品一区二区三区| 午夜福利成人在线免费观看| 精品久久久久久久末码| 久久婷婷人人爽人人干人人爱| 一级黄色大片毛片| 国产 一区 欧美 日韩| 亚洲最大成人手机在线| 叶爱在线成人免费视频播放| 波多野结衣高清无吗| 国产亚洲精品一区二区www| 最新在线观看一区二区三区| 男女之事视频高清在线观看| 国产精品久久久人人做人人爽| 午夜福利在线观看免费完整高清在 | 色av中文字幕| 国产精品久久视频播放| 美女黄网站色视频| 久久精品91蜜桃| 久久久久久久久中文| 婷婷丁香在线五月| 亚洲黑人精品在线| 亚洲,欧美精品.| 日韩欧美 国产精品| 国产成人a区在线观看| 亚洲精品久久国产高清桃花| av欧美777| 日本黄色视频三级网站网址| 日日夜夜操网爽| 美女高潮的动态| 啪啪无遮挡十八禁网站| 久久精品91无色码中文字幕| 日本免费a在线| 天堂√8在线中文| 国产蜜桃级精品一区二区三区| 在线观看免费视频日本深夜| 啦啦啦韩国在线观看视频| 在线看三级毛片| 女人十人毛片免费观看3o分钟| 久久久久久久久大av| 精品电影一区二区在线| 无限看片的www在线观看| 成人18禁在线播放| 别揉我奶头~嗯~啊~动态视频| 亚洲成av人片免费观看| 国产午夜精品论理片| 日本黄色片子视频| 日本 欧美在线| 天堂√8在线中文| 欧美av亚洲av综合av国产av| 久久香蕉精品热| 久久精品国产综合久久久| 国产成人啪精品午夜网站| 精品一区二区三区视频在线 | 色尼玛亚洲综合影院| 国产淫片久久久久久久久 | 亚洲精品粉嫩美女一区| 夜夜看夜夜爽夜夜摸| 中文字幕高清在线视频| 桃色一区二区三区在线观看| 俺也久久电影网| 久久精品综合一区二区三区| 午夜a级毛片| 高清日韩中文字幕在线| 精品久久久久久久毛片微露脸| 免费人成视频x8x8入口观看| 亚洲成人久久爱视频| 亚洲不卡免费看| 人人妻人人看人人澡| 变态另类成人亚洲欧美熟女| 婷婷精品国产亚洲av在线| 亚洲激情在线av| 听说在线观看完整版免费高清| 桃红色精品国产亚洲av| 国产视频内射| 在线播放国产精品三级| 亚洲人成网站高清观看| 一区二区三区国产精品乱码| 国产精品国产高清国产av| 国产一级毛片七仙女欲春2| 国产一区二区三区视频了| 久久欧美精品欧美久久欧美| 一进一出好大好爽视频| 九九热线精品视视频播放| 18禁裸乳无遮挡免费网站照片| 国产精品久久电影中文字幕| 久久久久国产精品人妻aⅴ院| 3wmmmm亚洲av在线观看| 欧美激情在线99| 特大巨黑吊av在线直播| 亚洲精品一卡2卡三卡4卡5卡| av中文乱码字幕在线| 欧美性感艳星| 蜜桃久久精品国产亚洲av| 国产乱人伦免费视频| 婷婷六月久久综合丁香| 毛片女人毛片| 在线播放无遮挡| 村上凉子中文字幕在线| 久久精品91无色码中文字幕| 天堂av国产一区二区熟女人妻| 国产av在哪里看| 午夜亚洲福利在线播放| 尤物成人国产欧美一区二区三区| 国产99白浆流出| 床上黄色一级片| 国产中年淑女户外野战色| 欧美日韩国产亚洲二区| 国产免费av片在线观看野外av| 桃红色精品国产亚洲av| 真人做人爱边吃奶动态| 啦啦啦免费观看视频1| 嫩草影院入口| 亚洲欧美日韩高清在线视频| 久久久久亚洲av毛片大全| 日韩欧美免费精品| 高清在线国产一区| 不卡一级毛片| 久久精品综合一区二区三区| 日韩欧美在线二视频| 一区二区三区激情视频| 亚洲狠狠婷婷综合久久图片| 亚洲精品乱码久久久v下载方式 | 国产麻豆成人av免费视频| 在线播放无遮挡| 日韩 欧美 亚洲 中文字幕| 国模一区二区三区四区视频| 窝窝影院91人妻| av福利片在线观看| 成人国产一区最新在线观看| 在线视频色国产色| 宅男免费午夜| 18禁在线播放成人免费| 久久中文看片网| 99国产综合亚洲精品| 国产精品嫩草影院av在线观看 | 99久久久亚洲精品蜜臀av| 丰满的人妻完整版| 日本撒尿小便嘘嘘汇集6| 免费看光身美女| 国产蜜桃级精品一区二区三区| 男人和女人高潮做爰伦理| 欧美高清成人免费视频www| 18禁黄网站禁片免费观看直播| 最近最新免费中文字幕在线| 日韩欧美在线乱码| 日韩欧美一区二区三区在线观看| 操出白浆在线播放| h日本视频在线播放| 亚洲熟妇中文字幕五十中出| 亚洲av不卡在线观看| 久久香蕉精品热| 久久久久久国产a免费观看| 亚洲成人中文字幕在线播放| 搡老妇女老女人老熟妇| 欧美国产日韩亚洲一区| 一区二区三区高清视频在线| 国产精品 国内视频| 亚洲人成网站高清观看| 3wmmmm亚洲av在线观看| 亚洲人与动物交配视频| 亚洲av二区三区四区| 一级黄色大片毛片| 宅男免费午夜| 蜜桃亚洲精品一区二区三区| 精品一区二区三区人妻视频| 91在线精品国自产拍蜜月 | 老汉色av国产亚洲站长工具| 人妻久久中文字幕网| 日韩中文字幕欧美一区二区| 亚洲熟妇中文字幕五十中出| 精品99又大又爽又粗少妇毛片 | 亚洲精品一卡2卡三卡4卡5卡| 波多野结衣高清作品| aaaaa片日本免费| 在线十欧美十亚洲十日本专区| 高清日韩中文字幕在线| 国产日本99.免费观看| 国产免费男女视频| 一二三四社区在线视频社区8| av片东京热男人的天堂| 国内精品美女久久久久久| 亚洲狠狠婷婷综合久久图片| 国产高清三级在线| 男女下面进入的视频免费午夜| 久久九九热精品免费| 9191精品国产免费久久| 久久久久久久久久黄片| 国产视频内射| 在线天堂最新版资源| 精品国产美女av久久久久小说| 成人av在线播放网站| 久久久久国产精品人妻aⅴ院| 亚洲av美国av| 午夜福利成人在线免费观看| 神马国产精品三级电影在线观看| 欧美成人性av电影在线观看| 中文字幕高清在线视频| 美女高潮喷水抽搐中文字幕| 最新在线观看一区二区三区| 成人特级av手机在线观看| 夜夜夜夜夜久久久久| 又紧又爽又黄一区二区| 国产精品日韩av在线免费观看| 色av中文字幕| 亚洲专区中文字幕在线| 国产精华一区二区三区| 国产精品国产高清国产av| 九色成人免费人妻av| 人妻久久中文字幕网| 一区二区三区高清视频在线| 国产成人影院久久av| 欧美日本视频| 久久久久久久久大av| 99久久精品国产亚洲精品| 久久国产精品影院| 一个人免费在线观看电影| 国产精品一区二区免费欧美| 男人舔女人下体高潮全视频| 桃色一区二区三区在线观看| 国产精品综合久久久久久久免费| 高清毛片免费观看视频网站| 欧美日韩精品网址| 我要搜黄色片| 人人妻人人看人人澡| 久久婷婷人人爽人人干人人爱| 很黄的视频免费| 99视频精品全部免费 在线| 国产精品女同一区二区软件 | 国产亚洲欧美98| 欧美三级亚洲精品| 狠狠狠狠99中文字幕| 看免费av毛片| 高清日韩中文字幕在线| 法律面前人人平等表现在哪些方面| 嫩草影视91久久| 精品久久久久久久末码| 久久久久国产精品人妻aⅴ院| 国产成人福利小说| 久久人妻av系列| 少妇人妻一区二区三区视频| 国产麻豆成人av免费视频| 欧美日韩综合久久久久久 | 国产午夜精品久久久久久一区二区三区 | 两人在一起打扑克的视频| 国产精品亚洲一级av第二区| 日韩av在线大香蕉| 香蕉久久夜色| 欧美性猛交黑人性爽| 国产 一区 欧美 日韩| 一级a爱片免费观看的视频| 麻豆国产av国片精品| 婷婷亚洲欧美| 舔av片在线| 观看免费一级毛片| 国产一区在线观看成人免费| 亚洲人成伊人成综合网2020| 两个人看的免费小视频| 国产精品日韩av在线免费观看| 亚洲av二区三区四区| 亚洲国产欧洲综合997久久,| 性欧美人与动物交配| 亚洲欧美日韩东京热| 88av欧美| 亚洲avbb在线观看| 亚洲av成人不卡在线观看播放网| 亚洲欧美一区二区三区黑人| 国产激情欧美一区二区| 五月伊人婷婷丁香| 国产精品美女特级片免费视频播放器| 午夜两性在线视频| 亚洲黑人精品在线| netflix在线观看网站| 男女做爰动态图高潮gif福利片| 欧美日韩一级在线毛片| 亚洲成人免费电影在线观看| 男女之事视频高清在线观看| 看黄色毛片网站| 国产蜜桃级精品一区二区三区| 99热6这里只有精品| 小说图片视频综合网站| 两个人视频免费观看高清| 日日摸夜夜添夜夜添小说| 亚洲精品成人久久久久久| 久99久视频精品免费| 99久久九九国产精品国产免费| 琪琪午夜伦伦电影理论片6080| 精品久久久久久久久久久久久| 国产成人福利小说| 日韩人妻高清精品专区| а√天堂www在线а√下载| 欧美一级a爱片免费观看看| www日本黄色视频网| 精品熟女少妇八av免费久了| 亚洲成人免费电影在线观看| 亚洲五月天丁香| 午夜免费男女啪啪视频观看 | 麻豆久久精品国产亚洲av| 成人午夜高清在线视频| 国产免费男女视频| 噜噜噜噜噜久久久久久91| 精品久久久久久久久久久久久| 无遮挡黄片免费观看| 好男人在线观看高清免费视频| 国产精品国产高清国产av| 十八禁网站免费在线| 欧美极品一区二区三区四区| 国产野战对白在线观看| 女警被强在线播放| 999久久久精品免费观看国产| 岛国在线免费视频观看| 国产亚洲精品一区二区www| 亚洲国产欧洲综合997久久,| 亚洲在线自拍视频| 色吧在线观看| 国产av一区在线观看免费| 国产男靠女视频免费网站| 男人和女人高潮做爰伦理| 婷婷精品国产亚洲av| 欧美日韩乱码在线| 久久久久免费精品人妻一区二区| 亚洲无线在线观看| 免费一级毛片在线播放高清视频| 床上黄色一级片| 一本精品99久久精品77| 久久99热这里只有精品18| 国产精品久久久久久久久免 | www日本黄色视频网| 国产视频内射| 人人妻,人人澡人人爽秒播| 一本一本综合久久| 精品一区二区三区人妻视频| 好男人在线观看高清免费视频| 熟女电影av网| www.www免费av| 欧美乱色亚洲激情| 偷拍熟女少妇极品色| 真人做人爱边吃奶动态| 丰满乱子伦码专区| 国产av麻豆久久久久久久| 亚洲av美国av| xxx96com| 中文字幕人妻丝袜一区二区| 国产在线精品亚洲第一网站| 久久久久久久久久黄片| 国产精品一区二区免费欧美| 色吧在线观看| 精品一区二区三区av网在线观看| 岛国视频午夜一区免费看| 黄色丝袜av网址大全| 欧美bdsm另类| 欧美日韩亚洲国产一区二区在线观看| 3wmmmm亚洲av在线观看| 欧美成人免费av一区二区三区| 日韩成人在线观看一区二区三区| 亚洲精品456在线播放app | 人妻夜夜爽99麻豆av| 男插女下体视频免费在线播放| 国产老妇女一区| 国产精品久久久久久人妻精品电影| 欧美+日韩+精品| 色综合站精品国产| 在线国产一区二区在线| 中文字幕熟女人妻在线| 在线观看舔阴道视频| 欧美性猛交黑人性爽| 成人一区二区视频在线观看| 国产精品三级大全| 真人做人爱边吃奶动态| 亚洲狠狠婷婷综合久久图片| 欧美乱码精品一区二区三区| 欧美性猛交黑人性爽| 中文字幕av在线有码专区| 国产精品一区二区三区四区久久| 啦啦啦观看免费观看视频高清| 亚洲av免费在线观看| 制服人妻中文乱码| 97超视频在线观看视频| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 91麻豆精品激情在线观看国产| 亚洲不卡免费看| 国内揄拍国产精品人妻在线| svipshipincom国产片| 国产伦精品一区二区三区视频9 | 成人三级黄色视频| 欧美一级毛片孕妇| 国产精品香港三级国产av潘金莲| 在线播放国产精品三级| 黄色女人牲交| 久久久久久久亚洲中文字幕 | 国产精华一区二区三区| 国产一级毛片七仙女欲春2| 国产精华一区二区三区| 久久久久久人人人人人| 国内精品久久久久久久电影| 午夜福利18| 日本黄色片子视频| 18禁黄网站禁片免费观看直播| 中出人妻视频一区二区| 97人妻精品一区二区三区麻豆| 狂野欧美激情性xxxx| 在线视频色国产色| 午夜福利成人在线免费观看| 久久精品国产亚洲av香蕉五月| av黄色大香蕉| 美女高潮喷水抽搐中文字幕| 精品国内亚洲2022精品成人| 琪琪午夜伦伦电影理论片6080| 人人妻人人看人人澡| 国产精品日韩av在线免费观看| 在线国产一区二区在线| 国产黄色小视频在线观看| 伊人久久精品亚洲午夜| 免费搜索国产男女视频| 亚洲精品一卡2卡三卡4卡5卡| 最近最新免费中文字幕在线| 全区人妻精品视频| 欧美色视频一区免费| 免费在线观看影片大全网站| 午夜激情欧美在线| 村上凉子中文字幕在线| 亚洲欧美精品综合久久99| 国产一区二区在线观看日韩 | 99国产极品粉嫩在线观看| 日韩有码中文字幕| 99国产极品粉嫩在线观看| 国产成人欧美在线观看| av欧美777| 中文在线观看免费www的网站| 国产蜜桃级精品一区二区三区| 真实男女啪啪啪动态图| 变态另类丝袜制服| 一本综合久久免费| 老汉色∧v一级毛片| 成年人黄色毛片网站| 国产免费一级a男人的天堂| 国产欧美日韩一区二区精品| 又粗又爽又猛毛片免费看| 精品无人区乱码1区二区| 国产av在哪里看| 国产成人欧美在线观看| www.色视频.com| xxx96com| 精品久久久久久久毛片微露脸| 香蕉久久夜色| 最近最新免费中文字幕在线| 老汉色∧v一级毛片| 中文字幕精品亚洲无线码一区| 国产av在哪里看| 色综合欧美亚洲国产小说| 亚洲片人在线观看| 中文在线观看免费www的网站| 天堂√8在线中文| 精品久久久久久久人妻蜜臀av| 日韩欧美免费精品| 国产乱人伦免费视频| 免费观看的影片在线观看| 在线观看av片永久免费下载| 首页视频小说图片口味搜索| 精品国产三级普通话版| 亚洲av成人精品一区久久| 九色成人免费人妻av| 色综合婷婷激情| 日日干狠狠操夜夜爽| 亚洲精品一卡2卡三卡4卡5卡| 国产亚洲av嫩草精品影院| 一区二区三区高清视频在线| 国产视频内射| 国产蜜桃级精品一区二区三区| 人妻丰满熟妇av一区二区三区| 九九热线精品视视频播放| 欧美日韩瑟瑟在线播放| 黄片大片在线免费观看| 嫩草影视91久久| 亚洲精品456在线播放app | 国产一区在线观看成人免费| 黑人欧美特级aaaaaa片| 露出奶头的视频| 色老头精品视频在线观看| a在线观看视频网站| 国产爱豆传媒在线观看| 久久草成人影院| 免费av毛片视频| 欧美最黄视频在线播放免费| 在线观看美女被高潮喷水网站 | 亚洲精品亚洲一区二区| 成熟少妇高潮喷水视频| 久久久久久久久久黄片| 好看av亚洲va欧美ⅴa在| 免费搜索国产男女视频| 一进一出抽搐gif免费好疼| 少妇的丰满在线观看| 丰满的人妻完整版| 看黄色毛片网站| 99久久无色码亚洲精品果冻| 人妻夜夜爽99麻豆av| 久久久国产成人精品二区| 国产蜜桃级精品一区二区三区| 美女被艹到高潮喷水动态| 日本a在线网址| 国产精品亚洲一级av第二区| 国产成人av教育| 3wmmmm亚洲av在线观看| 免费在线观看日本一区| 最近最新中文字幕大全免费视频| 精品国产亚洲在线| 97超级碰碰碰精品色视频在线观看| 在线观看一区二区三区| av专区在线播放| 亚洲av第一区精品v没综合| 精品国产超薄肉色丝袜足j| 免费在线观看亚洲国产| 欧美午夜高清在线| 亚洲午夜理论影院| 亚洲五月天丁香| 好男人电影高清在线观看| 国产精品久久久久久久久免 | 在线观看美女被高潮喷水网站 | 亚洲美女黄片视频| 99久久成人亚洲精品观看| 亚洲18禁久久av| 国产亚洲精品av在线| 精品久久久久久久末码| 亚洲专区中文字幕在线| 欧美另类亚洲清纯唯美| 国产一区二区亚洲精品在线观看| 岛国在线观看网站| 亚洲最大成人手机在线| 亚洲自拍偷在线| 国产综合懂色| 乱人视频在线观看| 日本黄色视频三级网站网址| 国产单亲对白刺激| 国产欧美日韩精品亚洲av| 欧美绝顶高潮抽搐喷水| 好男人在线观看高清免费视频| 亚洲精品成人久久久久久| 99热精品在线国产| 国产高清有码在线观看视频| 国产精品综合久久久久久久免费| 色av中文字幕| 琪琪午夜伦伦电影理论片6080| 一个人看的www免费观看视频| 51国产日韩欧美| 午夜a级毛片| 国产欧美日韩精品一区二区| 亚洲aⅴ乱码一区二区在线播放| 午夜福利在线观看免费完整高清在 | 狠狠狠狠99中文字幕| 每晚都被弄得嗷嗷叫到高潮| 成熟少妇高潮喷水视频| 国产精品日韩av在线免费观看| 黄色成人免费大全| 午夜激情福利司机影院| 久久99热这里只有精品18| 久久精品国产综合久久久| 日韩高清综合在线| av天堂在线播放| 两个人看的免费小视频| 亚洲七黄色美女视频| 我的老师免费观看完整版| 99久久综合精品五月天人人| 国产三级黄色录像| 一个人看的www免费观看视频| 一级黄片播放器| 国产精品,欧美在线| 国产亚洲精品一区二区www| 午夜精品在线福利| 亚洲成人中文字幕在线播放| 精品国内亚洲2022精品成人| 欧美成人a在线观看| 女人高潮潮喷娇喘18禁视频| 国产成人av激情在线播放| 男女之事视频高清在线观看| 欧美一区二区精品小视频在线| 高清在线国产一区| 香蕉丝袜av| 亚洲成人久久性| 成人18禁在线播放| 国内毛片毛片毛片毛片毛片| 免费在线观看影片大全网站| svipshipincom国产片| 俄罗斯特黄特色一大片| 人妻夜夜爽99麻豆av| 日韩欧美在线二视频| 俄罗斯特黄特色一大片| 1000部很黄的大片| 成人18禁在线播放| 我要搜黄色片| 麻豆久久精品国产亚洲av| 亚洲精品乱码久久久v下载方式 | 亚洲av二区三区四区| 夜夜夜夜夜久久久久| 哪里可以看免费的av片| 国产乱人伦免费视频| 国产亚洲欧美98| 国产精品一区二区三区四区久久| 网址你懂的国产日韩在线| e午夜精品久久久久久久| 岛国视频午夜一区免费看| 少妇高潮的动态图| x7x7x7水蜜桃| 日韩欧美三级三区| 亚洲av五月六月丁香网| e午夜精品久久久久久久| 少妇的逼好多水| 国产精品99久久99久久久不卡| 国产69精品久久久久777片| 国产欧美日韩精品亚洲av|