• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配算法

    2021-01-21 03:22:38姚興虎譚曉陽(yáng)
    計(jì)算機(jī)應(yīng)用 2021年1期
    關(guān)鍵詞:分配智能

    姚興虎,譚曉陽(yáng)*

    (1.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106;2.模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室(南京航空航天大學(xué)),南京 211106;3.南京航空航天大學(xué)軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,南京 211106)

    0 引言

    近年來(lái),深度強(qiáng)化學(xué)習(xí)在游戲人工智能[1-2]、機(jī)器人自動(dòng)控制[3]等領(lǐng)域取得了很大的進(jìn)步。然而,許多現(xiàn)實(shí)世界的真實(shí)場(chǎng)景需要多個(gè)智能體在同一個(gè)環(huán)境中與環(huán)境進(jìn)行交互,這類問題場(chǎng)景可以建模為多智能體系統(tǒng)[4-5]。常見的多智能體系統(tǒng)包括多智能體協(xié)同規(guī)劃[6]、信號(hào)燈的控制[7]以及多玩家電子游戲[8]等。然而,多智能體系統(tǒng)的復(fù)雜性使得多智能體系統(tǒng)面臨著諸多單智能體系統(tǒng)中沒有的問題,這些問題使得簡(jiǎn)單地將單智能體強(qiáng)化學(xué)習(xí)算法移植到多智能體場(chǎng)景中不會(huì)取得令人滿意的效果。具體來(lái)說,多智能體系統(tǒng)中面臨的主要問題包括:每個(gè)智能體只能觀測(cè)到環(huán)境的一部分所導(dǎo)致的對(duì)環(huán)境的部分可觀測(cè)問題[9];環(huán)境本身所具有的更強(qiáng)的非馬爾可夫性[10];多個(gè)智能體與環(huán)境進(jìn)行不斷的交互所導(dǎo)致的環(huán)境不穩(wěn)定問題[11];多個(gè)智能體的聯(lián)合動(dòng)作空間隨著智能體數(shù)量的增加所導(dǎo)致的指數(shù)爆炸[12-15];以及如何將環(huán)境反饋的針對(duì)環(huán)境中所有智能體聯(lián)合動(dòng)作的全局獎(jiǎng)勵(lì)分配給每個(gè)獨(dú)立的智能體(稱之為全局信用分配問題)[12-15]。這些問題的存在不僅使得無(wú)法將所有的智能體建模為一個(gè)單智能體然后利用單智能體算法進(jìn)行訓(xùn)練,而且也不適合將其他智能體看成環(huán)境的一部分從而為每個(gè)智能體單獨(dú)進(jìn)行建模。

    近年來(lái),由于概念上簡(jiǎn)單并且執(zhí)行效率高,“中心訓(xùn)練-分散執(zhí)行”的方式已經(jīng)成為求解多智能體強(qiáng)化學(xué)習(xí)問題的一個(gè)標(biāo)準(zhǔn)范式[12-15]。所謂“中心訓(xùn)練”,指的是在訓(xùn)練的過程中通過一個(gè)中心化的值函數(shù)來(lái)與環(huán)境直接進(jìn)行交互;所謂“分散執(zhí)行”,指的是每個(gè)智能體都有自己?jiǎn)为?dú)的值函數(shù)網(wǎng)絡(luò)或者策略網(wǎng)絡(luò),因此在執(zhí)行階段每個(gè)智能體可以根據(jù)其自身的觀測(cè)獨(dú)立地執(zhí)行動(dòng)作。在這一范式中,中心化的值函數(shù)直接接收環(huán)境給出的獎(jiǎng)勵(lì)信號(hào),之后通過適當(dāng)?shù)娜中庞梅峙錂C(jī)制將全局獎(jiǎng)勵(lì)分配到每個(gè)智能體。因此,中心化的值函數(shù)建立了每個(gè)智能體與環(huán)境進(jìn)行交互的橋梁并在整個(gè)框架中處于核心地位。

    如何設(shè)計(jì)中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的約束關(guān)系是設(shè)計(jì)整個(gè)信用分配機(jī)制的核心。一個(gè)合適的約束關(guān)系不僅能夠有利于對(duì)全局信用進(jìn)行一個(gè)良好的分配,還應(yīng)使得整個(gè)算法復(fù)雜度不易過高。若采用簡(jiǎn)單的信用分配機(jī)制(比如“值分解網(wǎng)絡(luò)(Value decompose network,Vdn)[13]”中的加性方式),則會(huì)限制中心化值函數(shù)的表達(dá)能力并進(jìn)一步影響到獎(jiǎng)勵(lì)分配過程;若設(shè)計(jì)復(fù)雜的獎(jiǎng)勵(lì)分配機(jī)制(比如“反直覺的多智能體策略梯度法(Counterfactual multi-agent policy gradient,Coma[12])”和“Q 值變換網(wǎng)絡(luò)(QTRAN[15])”)則會(huì)增加優(yōu)化求解的復(fù)雜度。

    此外,Vdn[13]、QMIX[14]以及QTRAN[15]算法均假設(shè)全局最優(yōu)的聯(lián)合動(dòng)作等價(jià)于每個(gè)智能體按照自己的值函數(shù)求得的局部最優(yōu)動(dòng)作的聯(lián)合。然而,復(fù)雜場(chǎng)景下的全局最優(yōu)動(dòng)作可能需要某些智能體做出一些犧牲其個(gè)人利益的行為;因而,基于這一假設(shè)的算法最終會(huì)收斂到問題的一個(gè)局部最優(yōu)解。

    針對(duì)多智能體強(qiáng)化學(xué)習(xí)問題中全局信用分配機(jī)制存在的上述問題,在“中心訓(xùn)練-分散執(zhí)行”的框架下,本文提出了一種新的全局信用分配方法,稱之為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(Reward HighWay Network,RHWNet)。RHWNet將中心化值函數(shù)與每個(gè)智能體的值函數(shù)之間的耦合分為兩部分:一方面通過混合網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)全局的獎(jiǎng)勵(lì)分配,這一方式能夠?qū)Σ煌闹悄荏w進(jìn)行特異性的獎(jiǎng)勵(lì)分配;另一方面利用獎(jiǎng)勵(lì)高速路連接將全局獎(jiǎng)勵(lì)信號(hào)橋接到每個(gè)智能體值函數(shù)的訓(xùn)練過程中,從而實(shí)現(xiàn)全局信用的二次分配,這將使得單個(gè)智能體在最大化自身獎(jiǎng)勵(lì)值的同時(shí)兼顧其行為對(duì)全局獎(jiǎng)勵(lì)的影響。在算法復(fù)雜度方面,本文所提出的全局信用的二次分配過程幾乎不需要額外的優(yōu)化代價(jià)。在星際爭(zhēng)霸微操作平臺(tái)上的實(shí)驗(yàn)結(jié)果表明:本文方法在多個(gè)復(fù)雜的場(chǎng)景下能夠獲得很好的測(cè)試勝率提升,并且具有更高的樣本利用效率。

    1 相關(guān)工作

    近年來(lái),隨著深度強(qiáng)化學(xué)習(xí)方法的流行,多智能體強(qiáng)化學(xué)習(xí)算法的研究已從簡(jiǎn)單的環(huán)境過渡到復(fù)雜的場(chǎng)景。

    “中心訓(xùn)練-分散執(zhí)行”一類的算法通常假設(shè)每個(gè)智能體的局部最優(yōu)動(dòng)作的拼接等價(jià)于聯(lián)合的最優(yōu)動(dòng)作。其中代表性的方法有:Coma[12]、Vdn[13]、QMIX[14]和QTRAN[15]。Coma 是一種同策略的“演員-評(píng)論家”算法,通過一個(gè)精心設(shè)計(jì)的反直覺的基準(zhǔn)來(lái)實(shí)現(xiàn)全局信用的分配,但是這一基準(zhǔn)需要額外的計(jì)算代價(jià)。Vdn、QMIX 和QTRAN 則是利用值函數(shù)迭代的方式,首先學(xué)習(xí)中心化的值函數(shù),然后利用中心化值函數(shù)與非中心化值函數(shù)之間的約束關(guān)系完成全局信用的分配。值函數(shù)之間不同程度的約束關(guān)系使得Vdn、QMIX 和QTRAN 三種方法的信用分配機(jī)制的復(fù)雜程度和優(yōu)化求解難度有所不同。SMIX(λ)[16]旨在學(xué)習(xí)一個(gè)更為靈活和更強(qiáng)泛化能力的中心化值函數(shù)結(jié)構(gòu),未改變?cè)兴惴ǖ莫?jiǎng)勵(lì)分配機(jī)制。

    本文所提出的基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的信用分配機(jī)制同樣屬于“中心訓(xùn)練-分散執(zhí)行”的框架,但是其重點(diǎn)在于如何在不引入額外的信息以及不增加優(yōu)化代價(jià)的前提下進(jìn)行更為有效的信用分配。

    此外,為智能體之間建立通信信道或者建立智能體之間的協(xié)調(diào)配合機(jī)制可以為單個(gè)智能體的決策提供更多的環(huán)境信息或者環(huán)境中其他智能體的信息。建立通信信道的方法主要包括文獻(xiàn)[17-18]等;智能體之間的協(xié)調(diào)配合機(jī)制可以通過在智能體之間引入注意力機(jī)制[19-20]或者利用圖神經(jīng)網(wǎng)絡(luò)[21-22]來(lái)實(shí)現(xiàn)。每個(gè)智能體利用更多的信息進(jìn)行決策所產(chǎn)生的行為將會(huì)間接影響到整個(gè)系統(tǒng)的獎(jiǎng)勵(lì)分配。而本文所提出的方法在不考慮更多信息的條件下改善已有的信用分配機(jī)制。因此,這類方法與本文所提出的方法是互補(bǔ)的。

    2 背景知識(shí)

    在本章中將介紹多智能體強(qiáng)化學(xué)習(xí)的相關(guān)背景知識(shí)。其中:2.1 節(jié)給出了多智能體強(qiáng)化學(xué)習(xí)的相關(guān)符號(hào)與問題建模;2.2 節(jié)介紹了本文所提算法的值函數(shù)的基本形式——深度循環(huán)Q 函數(shù)網(wǎng)絡(luò)(Deep Recurrent Q Network,DRQN)[23];2.3 節(jié)介紹了3 種流行的基于值函數(shù)迭代的多智能體強(qiáng)化學(xué)習(xí)算法——Vdn[13]、QMIX[14]和QTRAN[15]。

    2.1 問題建立

    本文考慮完全合作場(chǎng)景下的多智能體強(qiáng)化學(xué)習(xí)問題,它可被描述為非中心化部分可觀測(cè)馬爾可夫決策過程(Decentralized Partial Observable Markov Decision Process,Dec-POMDP)[24]的一個(gè)變種。具體來(lái)說,本文可以用八元組來(lái)描述這一問題,其中s∈S表示環(huán)境的真實(shí)狀態(tài),A是每個(gè)智能體的所能采取的動(dòng)作的集合。其中智能體的數(shù)目的總數(shù)是N,γ是獎(jiǎng)勵(lì)折扣因子。在每個(gè)時(shí)刻,每個(gè)智能體i∈{1,2,…,N}分別選取動(dòng)作ai∈A從而拼成聯(lián)合動(dòng)作向量a={a1,a2,…,aN}∈AN。本文考慮一個(gè)部分可觀測(cè)的場(chǎng)景,其中每個(gè)智能體i只能通過觀測(cè)函數(shù)Z(s,i):S×N?O得到部分信息o∈O。每個(gè)智能體i歷史的觀測(cè)和動(dòng)作序列為τi∈T≡(O×A)*。每個(gè)智能體將依據(jù)歷史的觀測(cè)和動(dòng)作序列τ來(lái)進(jìn)行決策。策略函數(shù)可分為靜態(tài)策略函數(shù)和隨機(jī)策略函數(shù),其中隨機(jī)策略函數(shù)可以定義為:π[a|τ]:T×A?[0,1]。

    在“中心訓(xùn)練-分散執(zhí)行”的框架下,訓(xùn)練階段利用環(huán)境的全局狀態(tài)s和各個(gè)智能體的歷史觀測(cè)信息τ={τ1,τ2,…,τN}學(xué)習(xí)一個(gè)中心化的動(dòng)作值函數(shù)Q([s,τ],a)(簡(jiǎn)記為Q(τ,a))。在執(zhí)行階段,每個(gè)智能體的策略函數(shù)πi僅僅依賴于其自身的觀測(cè)和動(dòng)作歷史序列τi。所有智能體的共同目標(biāo)是最大化所能從環(huán)境中得到的全局折扣獎(jiǎng)勵(lì)和:在下文中,為了簡(jiǎn)化記號(hào),本文用黑體字符表示所有智能體的聯(lián)合行為,并且在不引起歧義的情況下,省略每個(gè)智能體的序號(hào)i。

    2.2 深度循環(huán)Q網(wǎng)絡(luò)

    在復(fù)雜的現(xiàn)實(shí)世界中的問題場(chǎng)景下,通常不能得到完整的狀態(tài)信息并且觀測(cè)的數(shù)據(jù)往往是具有噪聲的,這種部分可觀測(cè)的問題在多智能體場(chǎng)景下更為嚴(yán)重。此外,多智能體環(huán)境所天然具有的非馬爾可夫性使得每個(gè)智能體需要考慮更多的歷史信息來(lái)進(jìn)行當(dāng)前時(shí)刻的決策。文獻(xiàn)[23]的結(jié)果表明,傳統(tǒng)的深度Q 網(wǎng)絡(luò)在處理部分可觀測(cè)的馬爾可夫決策過程(Markov Decision Process,MDP)問題中會(huì)出現(xiàn)性能下降,而深度循環(huán)Q網(wǎng)絡(luò)更為適合處理部分可觀測(cè)以及非馬爾可夫的環(huán)境。

    深度循環(huán)Q 網(wǎng)絡(luò)通過引入GRU(Gated Recurrent Unit)[25]或者長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[26]等循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)歷史信息的融合從而計(jì)算狀態(tài)動(dòng)作值。一方面,多智能體環(huán)境面臨更嚴(yán)重的部分可觀測(cè)性,采用這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠更好地對(duì)歷史信息進(jìn)行融合,從而緩解對(duì)環(huán)境的部分可觀測(cè)問題。另一方面,序列決策問題中當(dāng)前的策略可能受到之前多步的狀態(tài)和動(dòng)作的影響,因此這一循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還能有助于處理序列決策問題場(chǎng)景下的非馬爾可夫問題。與深度Q網(wǎng)絡(luò)[1]相同,DRQN[23]也利用一個(gè)數(shù)據(jù)緩存區(qū)(replay buffer)來(lái)存儲(chǔ)經(jīng)驗(yàn)數(shù)據(jù)其中τ′是在聯(lián)合的局部觀測(cè)τ下智能體采取聯(lián)合動(dòng)作a后獲得全局獎(jiǎng)勵(lì)值r所得到的下一個(gè)聯(lián)合觀測(cè)值。DRQN 通過最小化如下的均方時(shí)間差分損失來(lái)進(jìn)行學(xué)習(xí):

    其中θ是值函數(shù)網(wǎng)絡(luò)的參數(shù)。θ-是目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù),其更新方式為每隔固定的迭代次數(shù)將主網(wǎng)絡(luò)的參數(shù)θ直接復(fù)制。

    2.3 Vdn,QMIX和QTRAN

    多智能體系統(tǒng)中聯(lián)合的動(dòng)作空間隨著智能體數(shù)量的增加指數(shù)爆炸,因此直接優(yōu)化聯(lián)合的動(dòng)作值函數(shù)代價(jià)巨大。為了降低算法的復(fù)雜度,眾多算法假設(shè)智能體的聯(lián)合最優(yōu)動(dòng)作等價(jià)于每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的動(dòng)作選擇所得到的局部最優(yōu)值的拼接,即:

    值函數(shù)分解網(wǎng)絡(luò)(Vdn)[13]限制中心化的值函數(shù)Qtot(τ,a)為每個(gè)智能體的值函數(shù)的和,即:

    Vdn 算法的損失函數(shù)和(1)相同,這一方法的優(yōu)勢(shì)在于其結(jié)構(gòu)簡(jiǎn)單,但是這一簡(jiǎn)單的結(jié)構(gòu)限制了中心化值函數(shù)的表達(dá)能力和全局信用分配的有效性。QMIX[14]將這一線性分解拓展到了單調(diào)非線性分解。具體來(lái)說,QMIX假設(shè)中心化的值函數(shù)是每個(gè)智能體值函數(shù)的非負(fù)線性組合,即:

    QMIX算法通過建立每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),一個(gè)混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)上述約束,并且QMIX 算法在超網(wǎng)絡(luò)中輸入全局的狀態(tài)來(lái)輔助中心化值函數(shù)的訓(xùn)練。

    Vdn 和QMIX 算法的約束都是假設(shè)(2)的一個(gè)充分條件,QTRAN[15]算法則進(jìn)一步對(duì)約束進(jìn)行松弛從而直接優(yōu)化假設(shè)(2)的一個(gè)充要條件。盡管QTRAN 工作在一個(gè)更大的假設(shè)空間,但是這一方法需要求解聯(lián)合動(dòng)作空間中的優(yōu)化問題,這將帶來(lái)龐大的計(jì)算代價(jià),因此QTRAN 并不適用于復(fù)雜的多智能體場(chǎng)景。

    3 本文方法

    3.1 獎(jiǎng)勵(lì)高速路連接

    殘差網(wǎng)絡(luò)[27]通過在深度神經(jīng)網(wǎng)絡(luò)中增加跳躍連接來(lái)緩解深度神經(jīng)網(wǎng)絡(luò)在信息傳遞的過程中所造成的信息丟失與損耗。高速路網(wǎng)絡(luò)則是利用門控機(jī)制,將當(dāng)前的信息選擇性地進(jìn)行傳遞。本文利用殘差學(xué)習(xí)的觀點(diǎn),將每個(gè)智能體應(yīng)分到的獎(jiǎng)勵(lì)分為兩部分:貪心獎(jiǎng)勵(lì)和合作獎(jiǎng)勵(lì)。所謂貪心獎(jiǎng)勵(lì)是指按照假設(shè)(2)進(jìn)行信用分配所分給每個(gè)智能體的獎(jiǎng)勵(lì),記作rg,僅僅采用這種分配方式將使得每個(gè)智能體依據(jù)其自身的值函數(shù)進(jìn)行貪心的策略選擇;所謂合作獎(jiǎng)勵(lì)指的是每個(gè)智能體還應(yīng)考慮的全局獎(jiǎng)勵(lì)部分,記作rc。rc可通過對(duì)全局獎(jiǎng)勵(lì)R進(jìn)行部分橋接得到,即rc=λ·R,λ∈[0,1]。本文稱這種全局獎(jiǎng)勵(lì)直達(dá)的連接方式為獎(jiǎng)勵(lì)高速路連接。經(jīng)過這兩種形式的獎(jiǎng)勵(lì)分配后,訓(xùn)練過程中單個(gè)智能體i的實(shí)際收到的獎(jiǎng)勵(lì)信號(hào)為記環(huán)境所給的外部獎(jiǎng)勵(lì)為R,則在一個(gè)有N個(gè)智能體的多智能體環(huán)境中,rg,rc與R之間的關(guān)系為:

    其中F為滿足假設(shè)(2)所進(jìn)行的全局信用分配函數(shù),它可以是簡(jiǎn)單的所有貪心獎(jiǎng)勵(lì)rg的和(對(duì)應(yīng)于Vdn),或者是所有rg的非負(fù)組合(對(duì)應(yīng)于QMIX)。上述二路的獎(jiǎng)勵(lì)分配方式及其與殘差網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比可以用圖1來(lái)描述。

    從圖1 可以看出,殘差連接[27]和獎(jiǎng)勵(lì)高速路連接均是在深度網(wǎng)絡(luò)中添加一些跳過某些中間層的跳躍連接。這種跳躍連接的方式幾乎不會(huì)帶來(lái)額外的優(yōu)化代價(jià),但更多的信息將通過跳躍連接進(jìn)行傳遞。兩種結(jié)構(gòu)不同之處在于:殘差連接的信息流向是從前往后的,這樣上一階段的信息能夠?qū)罄m(xù)階段產(chǎn)生影響;而獎(jiǎng)勵(lì)分配的方式是從后往前的,這將使得兩路獎(jiǎng)勵(lì)信號(hào)都被用來(lái)訓(xùn)練每個(gè)智能體的值函數(shù)網(wǎng)絡(luò),從而使得單獨(dú)的智能體在考慮最優(yōu)化其自身的利益的同時(shí)最大化全局獎(jiǎng)勵(lì)值。

    圖1 殘差連接和獎(jiǎng)勵(lì)高速路連接對(duì)比Fig.1 Comparison of residual connection and reward highway connection

    3.2 本文所提算法

    本文采用QMIX 的網(wǎng)絡(luò)結(jié)構(gòu)作為本文算法的基本網(wǎng)絡(luò)結(jié)構(gòu)。QMIX 采用混合網(wǎng)絡(luò)和一系列的超網(wǎng)絡(luò)來(lái)構(gòu)造信用分配網(wǎng)絡(luò)F。每個(gè)超網(wǎng)絡(luò)接受全局狀態(tài)作為輸入,輸出的非負(fù)值作為混合網(wǎng)絡(luò)的權(quán)重。本文稱在這一信用分配網(wǎng)絡(luò)F上加入獎(jiǎng)勵(lì)高速路連接所得到的網(wǎng)絡(luò)為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)(RHWNet)。RHWNet的示意圖如圖2所示,與QMIX 相同,在每個(gè)智能體單獨(dú)的值函數(shù)網(wǎng)絡(luò)中加入GRU 來(lái)實(shí)現(xiàn)對(duì)歷史信息的利用,并且所有智能體的值函數(shù)網(wǎng)絡(luò)是參數(shù)共享的。通過圖2 可以看出,獎(jiǎng)勵(lì)高速路連接并不會(huì)引入額外的神經(jīng)網(wǎng)絡(luò)參數(shù),因此RHWNet并沒有額外的優(yōu)化代價(jià)。

    圖2 本文所提算法的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of the proposed algorithm

    在實(shí)現(xiàn)過程中,本文算法通過最小化如下的損失函數(shù)進(jìn)行端到端的訓(xùn)練:

    其中:Nb為采樣批量(batch)的大小,λ為將全局獎(jiǎng)勵(lì)通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)輸送到每個(gè)智能體上的權(quán)重,θ為所有智能體非中心化的值函數(shù)網(wǎng)絡(luò)的參數(shù),φ為獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的參數(shù),其中γ是獎(jiǎng)勵(lì)折扣因子,θ-、φ-是與標(biāo)準(zhǔn)的深度Q 學(xué)習(xí)算法中相同的目標(biāo)網(wǎng)絡(luò)(target network)的參數(shù)。所有的神經(jīng)網(wǎng)絡(luò)都是通過端到端的方式進(jìn)行訓(xùn)練的。

    4 實(shí)驗(yàn)與結(jié)果

    本章首先給出本文所提算法的實(shí)驗(yàn)環(huán)境和算法的實(shí)現(xiàn)細(xì)節(jié),然后給出實(shí)驗(yàn)結(jié)果和消融分析。

    4.1 實(shí)驗(yàn)環(huán)境

    本文在星際爭(zhēng)霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge,SMAC)[28]環(huán)境上對(duì)本文所提的RHWNet 進(jìn)行評(píng)估。SMAC 是基于星際爭(zhēng)霸Ⅱ游戲的一個(gè)實(shí)驗(yàn)環(huán)境,與完整的星際爭(zhēng)霸Ⅱ游戲相比,SMAC 側(cè)重研究每個(gè)智能體的微操作。微操作指的是SMAC 重點(diǎn)關(guān)注如何控制每個(gè)士兵去戰(zhàn)勝敵方,而不考慮如何發(fā)展經(jīng)濟(jì)以及進(jìn)行資源的調(diào)度等高層次的宏觀操作。

    SMAC 提供了多種復(fù)雜的微操作場(chǎng)景來(lái)探究智能體之間的合作行為。在每個(gè)場(chǎng)景中,開始時(shí)刻兩組敵對(duì)的士兵被分配到戰(zhàn)場(chǎng)中的隨機(jī)位置。戰(zhàn)場(chǎng)中的每個(gè)士兵只能在其視野范圍內(nèi)搜集到關(guān)于戰(zhàn)場(chǎng)環(huán)境的局部信息,這將帶來(lái)嚴(yán)重的對(duì)環(huán)境的部分可觀測(cè)性。環(huán)境僅根據(jù)智能體所采取的聯(lián)合動(dòng)作來(lái)給出一個(gè)全局的獎(jiǎng)勵(lì)信號(hào)。本文采用強(qiáng)化學(xué)習(xí)算法來(lái)控制戰(zhàn)場(chǎng)中的一組士兵(同盟單元),來(lái)與內(nèi)置的基于啟發(fā)式規(guī)則的游戲AI控制的另一組士兵進(jìn)行對(duì)抗。在實(shí)驗(yàn)中,內(nèi)置AI的難度被設(shè)置為“非常困難”來(lái)驗(yàn)證本文算法的有效性。

    本文所提算法旨在優(yōu)化合作場(chǎng)景下的全局獎(jiǎng)勵(lì)分配問題。因此重點(diǎn)考慮非對(duì)稱(asymmetic)場(chǎng)景(敵我雙方士兵構(gòu)成不同)以及非齊次且對(duì)稱(heterogeneous and symmetic)場(chǎng)景下(敵我雙方士兵人員組成相同,但均由不同種類的士兵構(gòu)成)的對(duì)抗。表1列出了實(shí)驗(yàn)所考慮的4種實(shí)驗(yàn)場(chǎng)景。

    表1 實(shí)驗(yàn)中所考慮的不同場(chǎng)景Tab.1 Scenarios considered in experiments

    4.2 實(shí)現(xiàn)細(xì)節(jié)

    每個(gè)智能體的值函數(shù)網(wǎng)絡(luò)由以下結(jié)構(gòu)構(gòu)成:首先從環(huán)境中得到的觀測(cè)傳入一層維度為64 維的全連接層,經(jīng)過ReLU[29]激活函數(shù)后,輸入到維度為64 的GRU 模塊進(jìn)行當(dāng)前信息與歷史信息的整合,GRU 模塊的輸出傳入到一層維度為64 的全連接層,之后再經(jīng)過ReLU 激活函數(shù)得到當(dāng)前智能體的動(dòng)作值向量Qi(τi,·)。然后根據(jù)這一動(dòng)作值函數(shù)進(jìn)行ε-貪心的策略選擇,隨著訓(xùn)練的進(jìn)行,ε的取值從1.0 線性衰減到0.05。為了降低網(wǎng)絡(luò)的參數(shù)數(shù)量,所有智能體共享同一個(gè)動(dòng)作值函數(shù)網(wǎng)絡(luò)。

    之后每個(gè)智能體的Q 值傳入獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò),獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)中的混合網(wǎng)絡(luò)部分采用與QMIX 算法相同的結(jié)構(gòu)。全局獎(jiǎng)勵(lì)值經(jīng)過高速路傳輸?shù)亩嗌儆墒剑?)中的λ參數(shù)控制,在本文的所有實(shí)驗(yàn)場(chǎng)景中本文均設(shè)置λ=0.2。

    本文采用RMSprop方法來(lái)最小化損失函數(shù)(6),其參數(shù)設(shè)置為:lr=0.000 5,α=0.99,獎(jiǎng)勵(lì)折扣因子γ=0.99。每經(jīng)過200局游戲?qū)δ繕?biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行一次更新。

    4.3 主要實(shí)驗(yàn)結(jié)果

    本文將所提算法與SMAC 平臺(tái)上較先進(jìn)的算法Coma 和QMIX進(jìn)行對(duì)比,并與不進(jìn)行全局信用分配的獨(dú)立Q學(xué)習(xí)算法(Independent Q learning,Iql)和只進(jìn)行簡(jiǎn)單全局信用分配的Vdn算法進(jìn)行對(duì)比,主要實(shí)驗(yàn)結(jié)果如圖3所示。本文將每個(gè)算法在所有不同的場(chǎng)景中均獨(dú)立訓(xùn)練10 次,得到的線條和陰影部分分別表示平均測(cè)試勝率及對(duì)應(yīng)勝率方差的95%的置信區(qū)間。陰影部分的面積大小可以作為衡量算法穩(wěn)定性和魯棒性的評(píng)價(jià)指標(biāo),陰影面積越小意味著算法的性能方差越小從而算法的穩(wěn)定性和魯棒性越好。

    可以看到,在所有的非齊次對(duì)稱場(chǎng)景下(3s5z,1c3s5z,3s6z),本文提出的算法能夠取得最優(yōu)的性能,并且在較為簡(jiǎn)單的場(chǎng)景(2s_vs_1sc)下也能獲得接近最優(yōu)的性能。此外RHWNet 的性能提升不僅體現(xiàn)在最終的勝率上,還體現(xiàn)在學(xué)習(xí)的效率上。

    具體來(lái)說,在智能體數(shù)量較少的2s_vs_1sc 場(chǎng)景下,本文可以看出采用較為復(fù)雜獎(jiǎng)勵(lì)分配機(jī)制的QMIX 性能要明顯差于結(jié)構(gòu)更簡(jiǎn)單的Vdn和Iql算法。這意味著QMIX這一較為復(fù)雜的全局信用分配機(jī)制在某些較為簡(jiǎn)單的場(chǎng)景下也有可能失效。而通過獎(jiǎng)勵(lì)高速路連接之后,RHWNet 算法在這一場(chǎng)景下得到了很大的性能提升。

    圖3 本文算法與其他算法在4個(gè)場(chǎng)景下的測(cè)試勝率對(duì)比Fig.3 Test winning rate comparison of the proposed algorithm and other algorithms

    在1c3s5z 場(chǎng)景下,每個(gè)團(tuán)隊(duì)中都有3 種不同類型的智能體。如圖3(c)所示,在這一場(chǎng)景下,QMIX 和Vdn 算法性能都出現(xiàn)了較大的波動(dòng)(對(duì)應(yīng)的陰影部分面積增大)。而RHWNet在取得性能提升的同時(shí)還具有更小的性能上的方差,這意味著RHWNet在復(fù)雜的問題場(chǎng)景下依然具有很好的魯棒性。

    在3s5z 場(chǎng)景下,本文可以看到采用更為復(fù)雜獎(jiǎng)勵(lì)分配方式的QMIX 算法性能要大大優(yōu)于采用簡(jiǎn)單信用分配方式的Vdn 算法以及不進(jìn)行信用分配的Iql 算法。尤其需要指出的是,Vdn 算法可看作QMIX 算法的簡(jiǎn)化版本,這意味著在這一復(fù)雜的場(chǎng)景下,QMIX所采用的更復(fù)雜的結(jié)構(gòu)更有效。然而這些基準(zhǔn)算法都存在樣本利用率低、學(xué)習(xí)速度慢的問題,而RHWNet 則能大大提高算法的學(xué)習(xí)速度和樣本利用的效率。同樣的結(jié)果可以在更為復(fù)雜的3s6z場(chǎng)景下得到。在3s6z場(chǎng)景中,Coma、Vdn 和Iql 的訓(xùn)練基本無(wú)效,QMIX 也不能得到令人滿意的結(jié)果;而RHWNet 在僅需要QMIX 算法所需樣本數(shù)量的1/3 的情形下,最終勝率能達(dá)到QMIX 算法的1.5 倍。這表明在3s6z 這一智能體數(shù)量和種類較多的復(fù)雜場(chǎng)景下,已有算法的獎(jiǎng)勵(lì)分配機(jī)制不能有效地進(jìn)行全局獎(jiǎng)勵(lì)分配,而獎(jiǎng)勵(lì)高速路連接為這種復(fù)雜場(chǎng)景引入了一個(gè)更好的獎(jiǎng)勵(lì)分配機(jī)制,從而取得了最終性能和樣本效率的提升。

    4.4 消融測(cè)試

    在這一部分本文重點(diǎn)探究通過獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)傳遞的全局獎(jiǎng)勵(lì)的比例對(duì)最終的實(shí)驗(yàn)性能所產(chǎn)生的影響。式(6)中參數(shù)λ的作用其實(shí)起到了平衡原有的端到端的獎(jiǎng)勵(lì)分配方式和直接利用全局獎(jiǎng)勵(lì)的作用。當(dāng)式(6)中的λ取值較小時(shí),每個(gè)智能體所獲得的獎(jiǎng)勵(lì)信號(hào)更多地來(lái)源于直接的全局獎(jiǎng)勵(lì);當(dāng)λ取值較大時(shí),每個(gè)智能體的獎(jiǎng)勵(lì)信號(hào)則更多地來(lái)源于混合網(wǎng)絡(luò)的信用分配結(jié)果。

    圖4顯示了在3s5z場(chǎng)景下,λ的不同取值所獲得的實(shí)驗(yàn)結(jié)果。其中實(shí)線和陰影表示獨(dú)立進(jìn)行10 次實(shí)驗(yàn)的均值和95%的置信區(qū)間。從這一實(shí)驗(yàn)結(jié)果可以看出,當(dāng)λ=0.2,0.4,0.6時(shí),RHWNet 均能得到明顯的性能提升。但是當(dāng)λ的值進(jìn)一步增大時(shí),反而會(huì)出現(xiàn)性能下降。因此,通過信息高速路網(wǎng)絡(luò)進(jìn)行傳輸?shù)娜知?jiǎng)勵(lì)值的比例實(shí)際上起到了對(duì)原有信用分配機(jī)制與僅考慮全局獎(jiǎng)勵(lì)的平衡作用。實(shí)驗(yàn)結(jié)果表明,λ=0.2是一個(gè)比較魯棒的值。因此本文的所有實(shí)驗(yàn)場(chǎng)景都采用λ=0.2作為獎(jiǎng)勵(lì)高速路鏈接網(wǎng)絡(luò)的權(quán)重。

    圖4 在3s5z場(chǎng)景中所提出的算法對(duì)超參數(shù)λ的敏感性Fig.4 Sensitivity of the proposed algorithm to hyperparameter λ in 3s5z scenario

    5 結(jié)語(yǔ)

    在“中心訓(xùn)練-分散執(zhí)行”的多智能體強(qiáng)化學(xué)習(xí)框架下,全局信用的分配可以通過對(duì)中心化值函數(shù)和非中心化值函數(shù)之間施加約束來(lái)實(shí)現(xiàn)。然而,不同的約束關(guān)系不僅決定了算法的復(fù)雜程度,還直接決定了獎(jiǎng)勵(lì)分配機(jī)制的有效性。本文提出了一種基于獎(jiǎng)勵(lì)高速路網(wǎng)絡(luò)的全局信用分配算法RHWNet,通過在獎(jiǎng)勵(lì)分配機(jī)制上引入獎(jiǎng)勵(lì)高速路連接,能夠達(dá)到:

    1)每個(gè)智能體的決策行為能夠考慮其自身所分得的局部獎(jiǎng)勵(lì)和整個(gè)團(tuán)隊(duì)的全局獎(jiǎng)勵(lì);

    2)獎(jiǎng)勵(lì)高速路連接結(jié)構(gòu)簡(jiǎn)單,幾乎不會(huì)引入額外的優(yōu)化代價(jià);

    3)在多個(gè)復(fù)雜的場(chǎng)景下,RHWNet 相比原有的先進(jìn)算法能夠取得很好的性能提升。

    本文的后續(xù)工作將會(huì)研究限制條件下的全局獎(jiǎng)勵(lì)分配問題(比如智能體之間存在資源競(jìng)爭(zhēng)的關(guān)系),以及為智能體之間建立通信機(jī)制來(lái)進(jìn)行協(xié)調(diào)配合。

    猜你喜歡
    分配智能
    基于可行方向法的水下機(jī)器人推力分配
    應(yīng)答器THR和TFFR分配及SIL等級(jí)探討
    智能制造 反思與期望
    遺產(chǎn)的分配
    一種分配十分不均的財(cái)富
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    績(jī)效考核分配的實(shí)踐與思考
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    国产三级中文精品| 日本黄色片子视频| 99九九线精品视频在线观看视频| 亚洲av.av天堂| 亚州av有码| 国产成人福利小说| 久久久久久大精品| av视频在线观看入口| 国产成人a∨麻豆精品| 国产精品熟女久久久久浪| 中文字幕精品亚洲无线码一区| 国产69精品久久久久777片| 欧美成人午夜免费资源| 日韩视频在线欧美| 欧美高清成人免费视频www| 国产毛片a区久久久久| 夜夜看夜夜爽夜夜摸| 亚洲中文字幕日韩| 夜夜爽夜夜爽视频| 国产精品av视频在线免费观看| 中文亚洲av片在线观看爽| 99久久九九国产精品国产免费| 国产午夜精品一二区理论片| 老女人水多毛片| 亚洲图色成人| 国产精品伦人一区二区| 成人av在线播放网站| 亚洲最大成人手机在线| 成人无遮挡网站| 卡戴珊不雅视频在线播放| 美女内射精品一级片tv| 亚洲精品影视一区二区三区av| 免费观看性生交大片5| 亚洲av成人av| 午夜a级毛片| 久久精品夜夜夜夜夜久久蜜豆| 久久99精品国语久久久| 午夜福利网站1000一区二区三区| 亚洲成色77777| .国产精品久久| 少妇高潮的动态图| 99久久九九国产精品国产免费| 欧美激情国产日韩精品一区| 两性午夜刺激爽爽歪歪视频在线观看| 日韩成人伦理影院| 亚洲欧美成人精品一区二区| 国产精品国产高清国产av| 亚洲国产高清在线一区二区三| 日韩av不卡免费在线播放| 国产成人精品久久久久久| av福利片在线观看| 国产精品一区二区三区四区免费观看| 欧美+日韩+精品| 麻豆一二三区av精品| 欧美潮喷喷水| 中文字幕久久专区| 亚洲精品乱码久久久v下载方式| 国产精品久久久久久久久免| 男人狂女人下面高潮的视频| 国产v大片淫在线免费观看| 欧美丝袜亚洲另类| 简卡轻食公司| 午夜福利在线观看吧| 美女xxoo啪啪120秒动态图| 男女国产视频网站| 少妇的逼好多水| 国产成人精品婷婷| 18禁在线播放成人免费| 人人妻人人澡欧美一区二区| 日产精品乱码卡一卡2卡三| 看十八女毛片水多多多| 麻豆成人av视频| av在线亚洲专区| 看黄色毛片网站| 日韩成人伦理影院| 少妇熟女aⅴ在线视频| 亚洲国产精品合色在线| 伦精品一区二区三区| 久久久久久久久久成人| 熟妇人妻久久中文字幕3abv| 免费看光身美女| 特级一级黄色大片| 特级一级黄色大片| 91狼人影院| 午夜视频国产福利| 欧美日韩国产亚洲二区| 国产又色又爽无遮挡免| 久久精品熟女亚洲av麻豆精品 | 久久久久精品久久久久真实原创| 亚洲精品日韩av片在线观看| 91av网一区二区| 亚洲成人中文字幕在线播放| 亚洲国产精品sss在线观看| 国产精品国产三级专区第一集| 午夜日本视频在线| 国产午夜精品久久久久久一区二区三区| 97人妻精品一区二区三区麻豆| 亚洲精品日韩av片在线观看| 97人妻精品一区二区三区麻豆| 亚洲欧美成人综合另类久久久 | 国产一级毛片在线| 中文字幕制服av| 99久久人妻综合| 高清在线视频一区二区三区 | 亚洲最大成人中文| 大香蕉久久网| 小说图片视频综合网站| 最近中文字幕2019免费版| 日本免费在线观看一区| 国内少妇人妻偷人精品xxx网站| 22中文网久久字幕| 日本与韩国留学比较| 精华霜和精华液先用哪个| www日本黄色视频网| 国产成人免费观看mmmm| 亚洲熟妇中文字幕五十中出| 国产精品日韩av在线免费观看| 视频中文字幕在线观看| 色播亚洲综合网| 在现免费观看毛片| 三级毛片av免费| 国产精品一二三区在线看| 特大巨黑吊av在线直播| 久久久久久久久久久丰满| 十八禁国产超污无遮挡网站| 亚洲三级黄色毛片| 国产伦一二天堂av在线观看| 国产伦在线观看视频一区| 亚洲av二区三区四区| ponron亚洲| 亚洲欧美日韩无卡精品| 亚洲av成人精品一二三区| 国产成人精品婷婷| 美女xxoo啪啪120秒动态图| 97热精品久久久久久| 日韩 亚洲 欧美在线| 色视频www国产| 九九爱精品视频在线观看| 午夜精品一区二区三区免费看| 国产欧美日韩精品一区二区| 免费看光身美女| 网址你懂的国产日韩在线| 伦理电影大哥的女人| 夜夜看夜夜爽夜夜摸| 久久久午夜欧美精品| 久久99蜜桃精品久久| eeuss影院久久| 美女黄网站色视频| 我要搜黄色片| 性色avwww在线观看| 国产精品美女特级片免费视频播放器| 青春草国产在线视频| 青春草国产在线视频| 中文字幕免费在线视频6| 黄色欧美视频在线观看| 熟妇人妻久久中文字幕3abv| 国产熟女欧美一区二区| 日韩av在线免费看完整版不卡| 3wmmmm亚洲av在线观看| 国国产精品蜜臀av免费| 欧美激情在线99| 亚洲国产色片| 如何舔出高潮| 成人综合一区亚洲| 国产亚洲精品av在线| av福利片在线观看| 精品人妻偷拍中文字幕| 国产真实伦视频高清在线观看| 精品熟女少妇av免费看| 啦啦啦观看免费观看视频高清| 免费av观看视频| 国产精品不卡视频一区二区| 日韩国内少妇激情av| 成人毛片60女人毛片免费| 成人三级黄色视频| 久久婷婷人人爽人人干人人爱| 高清av免费在线| av视频在线观看入口| 欧美xxxx性猛交bbbb| 国产在视频线在精品| 亚洲最大成人中文| 人妻夜夜爽99麻豆av| 91aial.com中文字幕在线观看| 色综合亚洲欧美另类图片| 综合色av麻豆| 日韩高清综合在线| 国产视频内射| 最近最新中文字幕大全电影3| 又爽又黄a免费视频| 久久人人爽人人片av| 亚洲美女视频黄频| 午夜精品国产一区二区电影 | 欧美bdsm另类| 亚洲中文字幕一区二区三区有码在线看| 日韩一本色道免费dvd| 精品久久久久久久久亚洲| 九色成人免费人妻av| 天天躁日日操中文字幕| 能在线免费观看的黄片| 欧美成人精品欧美一级黄| 啦啦啦韩国在线观看视频| 亚洲最大成人中文| 美女脱内裤让男人舔精品视频| 又粗又爽又猛毛片免费看| 精品久久久久久电影网 | 国产色爽女视频免费观看| 麻豆成人av视频| 久久精品91蜜桃| 黄片无遮挡物在线观看| 爱豆传媒免费全集在线观看| 综合色丁香网| 午夜精品在线福利| 欧美成人午夜免费资源| 搞女人的毛片| 在线观看av片永久免费下载| 精品国产三级普通话版| 中文字幕熟女人妻在线| 亚洲最大成人手机在线| 亚洲国产精品久久男人天堂| 麻豆一二三区av精品| 一级黄色大片毛片| 国产精品国产三级专区第一集| 日韩制服骚丝袜av| 深爱激情五月婷婷| 一本一本综合久久| 亚洲人成网站在线播| 看黄色毛片网站| 精品一区二区三区人妻视频| 七月丁香在线播放| 亚洲精品国产成人久久av| 男人的好看免费观看在线视频| 亚洲av不卡在线观看| 波多野结衣巨乳人妻| 一个人看的www免费观看视频| 欧美又色又爽又黄视频| 国产精品国产三级国产av玫瑰| 免费观看人在逋| 国产麻豆成人av免费视频| 天堂网av新在线| 欧美日韩综合久久久久久| www日本黄色视频网| 亚洲最大成人av| 男人和女人高潮做爰伦理| 午夜精品国产一区二区电影 | 美女脱内裤让男人舔精品视频| 麻豆久久精品国产亚洲av| 亚洲怡红院男人天堂| 99九九线精品视频在线观看视频| 亚洲精品国产av成人精品| 欧美成人免费av一区二区三区| 久久精品熟女亚洲av麻豆精品 | 亚洲一区高清亚洲精品| 男女那种视频在线观看| 看十八女毛片水多多多| 中文欧美无线码| 久久久精品欧美日韩精品| 亚洲欧美中文字幕日韩二区| 国产又黄又爽又无遮挡在线| 国产精品.久久久| 国产精品国产三级专区第一集| 国产精品人妻久久久影院| 少妇猛男粗大的猛烈进出视频 | 人妻夜夜爽99麻豆av| 99久久精品热视频| 舔av片在线| 亚洲欧美日韩高清专用| 久久人妻av系列| 国产精品乱码一区二三区的特点| 婷婷色麻豆天堂久久 | 久久精品久久久久久久性| 亚洲丝袜综合中文字幕| 最近中文字幕2019免费版| 亚洲综合色惰| 搡老妇女老女人老熟妇| 亚洲,欧美,日韩| 高清午夜精品一区二区三区| 九九在线视频观看精品| 免费观看a级毛片全部| 日日啪夜夜撸| 九色成人免费人妻av| 久久国内精品自在自线图片| 久久久久久久久久久丰满| 国产毛片a区久久久久| 亚洲成人中文字幕在线播放| 精品久久国产蜜桃| 免费观看的影片在线观看| 亚洲天堂国产精品一区在线| av天堂中文字幕网| 亚洲综合色惰| 欧美成人a在线观看| 欧美另类亚洲清纯唯美| 国产伦一二天堂av在线观看| 久久久久久九九精品二区国产| 最近最新中文字幕免费大全7| 日韩av在线大香蕉| 久久精品久久久久久久性| 午夜免费男女啪啪视频观看| 永久网站在线| 日韩制服骚丝袜av| 91久久精品国产一区二区成人| 中文字幕免费在线视频6| 亚洲性久久影院| 国产免费一级a男人的天堂| 99久久精品热视频| 久久韩国三级中文字幕| 国产v大片淫在线免费观看| 国产亚洲精品av在线| 国产免费一级a男人的天堂| 亚洲综合色惰| 一区二区三区四区激情视频| 超碰97精品在线观看| 天天一区二区日本电影三级| 只有这里有精品99| 久久久久久久午夜电影| 禁无遮挡网站| 真实男女啪啪啪动态图| 精品国产一区二区三区久久久樱花 | 免费不卡的大黄色大毛片视频在线观看 | 国产精品国产三级专区第一集| 麻豆国产97在线/欧美| 久久久色成人| 欧美97在线视频| 国产女主播在线喷水免费视频网站 | 不卡视频在线观看欧美| 亚洲欧美精品专区久久| 狂野欧美激情性xxxx在线观看| 男人和女人高潮做爰伦理| 十八禁国产超污无遮挡网站| 亚洲电影在线观看av| 亚洲国产欧美在线一区| 一边摸一边抽搐一进一小说| 内地一区二区视频在线| 一个人看的www免费观看视频| 色综合亚洲欧美另类图片| 国产精华一区二区三区| 乱码一卡2卡4卡精品| 人体艺术视频欧美日本| 婷婷六月久久综合丁香| 美女内射精品一级片tv| av线在线观看网站| 国产黄片美女视频| 亚洲怡红院男人天堂| 美女xxoo啪啪120秒动态图| 成人av在线播放网站| 国产成人a区在线观看| 亚洲中文字幕日韩| 免费av毛片视频| 99久久精品国产国产毛片| 久久精品国产亚洲av天美| 国产亚洲精品av在线| 日韩一本色道免费dvd| 久久久久久久午夜电影| 99热全是精品| 高清视频免费观看一区二区 | 永久免费av网站大全| 日韩大片免费观看网站 | 高清毛片免费看| 成人亚洲欧美一区二区av| 免费电影在线观看免费观看| 毛片一级片免费看久久久久| 中文字幕亚洲精品专区| 岛国毛片在线播放| 久久这里只有精品中国| 嫩草影院入口| 国产色爽女视频免费观看| 三级国产精品欧美在线观看| 变态另类丝袜制服| 18禁裸乳无遮挡免费网站照片| 国产色婷婷99| 久久久午夜欧美精品| 在线观看美女被高潮喷水网站| a级毛色黄片| 久久久久久久久久成人| 久久亚洲精品不卡| 日本一二三区视频观看| 老师上课跳d突然被开到最大视频| 你懂的网址亚洲精品在线观看 | 精品久久久久久成人av| 精品国产露脸久久av麻豆 | 九草在线视频观看| 国产伦精品一区二区三区视频9| 性色avwww在线观看| 国产激情偷乱视频一区二区| 亚洲欧美精品专区久久| 国产成人a∨麻豆精品| 中文字幕人妻熟人妻熟丝袜美| 亚洲精品aⅴ在线观看| 又粗又硬又长又爽又黄的视频| 简卡轻食公司| 18+在线观看网站| 亚洲欧美日韩无卡精品| 丰满少妇做爰视频| 亚洲经典国产精华液单| av.在线天堂| 97人妻精品一区二区三区麻豆| 欧美激情在线99| 久99久视频精品免费| 国产成人午夜福利电影在线观看| 国产精品福利在线免费观看| 成人午夜高清在线视频| 亚洲国产精品国产精品| 久久热精品热| 91在线精品国自产拍蜜月| 免费黄网站久久成人精品| 国产老妇女一区| 99热网站在线观看| av女优亚洲男人天堂| 国产激情偷乱视频一区二区| 哪个播放器可以免费观看大片| 久久午夜福利片| 国产免费又黄又爽又色| 国产精品国产三级专区第一集| 69av精品久久久久久| 国产高清三级在线| 国内少妇人妻偷人精品xxx网站| 免费大片18禁| 国产精品久久电影中文字幕| 麻豆久久精品国产亚洲av| 狂野欧美激情性xxxx在线观看| 成人二区视频| 你懂的网址亚洲精品在线观看 | 欧美高清性xxxxhd video| 永久免费av网站大全| 日韩成人av中文字幕在线观看| 99热这里只有精品一区| 日本免费在线观看一区| 国产精品精品国产色婷婷| 国产91av在线免费观看| 大话2 男鬼变身卡| 美女xxoo啪啪120秒动态图| 女人被狂操c到高潮| 人人妻人人澡人人爽人人夜夜 | 国产白丝娇喘喷水9色精品| 美女黄网站色视频| 精品人妻熟女av久视频| 亚洲av二区三区四区| 高清av免费在线| 国产精品蜜桃在线观看| 在线观看av片永久免费下载| av卡一久久| 免费一级毛片在线播放高清视频| 久久这里只有精品中国| 51国产日韩欧美| 美女脱内裤让男人舔精品视频| 激情 狠狠 欧美| 国产大屁股一区二区在线视频| 亚洲精品亚洲一区二区| 毛片一级片免费看久久久久| 可以在线观看毛片的网站| 亚洲欧美成人综合另类久久久 | 人妻少妇偷人精品九色| 久热久热在线精品观看| 国产成人精品久久久久久| 久久6这里有精品| 久久精品熟女亚洲av麻豆精品 | 内射极品少妇av片p| 国产欧美另类精品又又久久亚洲欧美| 一级av片app| 永久免费av网站大全| 色播亚洲综合网| 午夜免费男女啪啪视频观看| av免费在线看不卡| 91精品国产九色| 在线观看av片永久免费下载| 天天躁日日操中文字幕| 久久久欧美国产精品| 亚洲av男天堂| 日本黄色片子视频| av在线蜜桃| 一区二区三区免费毛片| 欧美日韩国产亚洲二区| 精品午夜福利在线看| 国产久久久一区二区三区| 2022亚洲国产成人精品| 插阴视频在线观看视频| 伦精品一区二区三区| 久久精品影院6| 久久久久久久久久久丰满| 少妇人妻一区二区三区视频| 在线免费十八禁| 国产av码专区亚洲av| 精品免费久久久久久久清纯| 久久精品熟女亚洲av麻豆精品 | 免费观看在线日韩| 卡戴珊不雅视频在线播放| 亚洲无线观看免费| 九色成人免费人妻av| 国产在视频线在精品| 免费观看a级毛片全部| 久久精品夜色国产| 亚洲国产高清在线一区二区三| 欧美zozozo另类| 尾随美女入室| 久久久久久久午夜电影| 国产又黄又爽又无遮挡在线| 男人舔女人下体高潮全视频| 国产亚洲一区二区精品| 91久久精品电影网| 一本久久精品| 国产精品国产高清国产av| 欧美性感艳星| 日韩欧美在线乱码| 长腿黑丝高跟| 亚洲精品乱码久久久v下载方式| 国产三级在线视频| 99久国产av精品国产电影| 在线观看66精品国产| 亚洲欧美日韩卡通动漫| 麻豆成人av视频| 久久久久久国产a免费观看| 99热这里只有是精品50| 国产精品久久久久久精品电影| 久久草成人影院| 汤姆久久久久久久影院中文字幕 | 99久久中文字幕三级久久日本| 午夜精品国产一区二区电影 | 岛国在线免费视频观看| 国产一区有黄有色的免费视频 | 国产成人freesex在线| 久久久精品94久久精品| 99热精品在线国产| 我的女老师完整版在线观看| 欧美成人午夜免费资源| 哪个播放器可以免费观看大片| 午夜激情欧美在线| 亚洲av日韩在线播放| 能在线免费看毛片的网站| 久久久久久久久久久免费av| 一个人免费在线观看电影| 中文资源天堂在线| 国产亚洲午夜精品一区二区久久 | 国产一区二区在线av高清观看| 国产又黄又爽又无遮挡在线| 亚洲欧洲国产日韩| 中文字幕亚洲精品专区| 久久国产乱子免费精品| 久久精品国产亚洲网站| 日韩精品青青久久久久久| 国产真实乱freesex| 91久久精品电影网| 国产精品久久久久久精品电影小说 | 亚洲国产精品久久男人天堂| 日本色播在线视频| 婷婷色av中文字幕| 国产三级在线视频| 麻豆乱淫一区二区| 日韩精品青青久久久久久| 最近2019中文字幕mv第一页| 亚洲精品aⅴ在线观看| 久久久久网色| 一区二区三区高清视频在线| 最近手机中文字幕大全| 插逼视频在线观看| av国产久精品久网站免费入址| 白带黄色成豆腐渣| 中国国产av一级| 国产成人一区二区在线| 欧美性猛交黑人性爽| 天堂av国产一区二区熟女人妻| 99在线人妻在线中文字幕| 夜夜爽夜夜爽视频| 国产成人精品婷婷| 精品久久久噜噜| 国产精品一区二区三区四区久久| 真实男女啪啪啪动态图| 免费不卡的大黄色大毛片视频在线观看 | 亚洲自偷自拍三级| 免费观看精品视频网站| АⅤ资源中文在线天堂| 国产色婷婷99| 少妇的逼好多水| 久久这里有精品视频免费| 国国产精品蜜臀av免费| 中文字幕av在线有码专区| 一级毛片电影观看 | 欧美区成人在线视频| 日韩高清综合在线| 亚洲国产高清在线一区二区三| 午夜老司机福利剧场| 全区人妻精品视频| 1024手机看黄色片| 国产精品一区二区性色av| 日本欧美国产在线视频| 国产高潮美女av| 国产中年淑女户外野战色| 国产极品天堂在线| 99热6这里只有精品| 2022亚洲国产成人精品| 国产单亲对白刺激| 欧美bdsm另类| 亚洲国产精品国产精品| 日韩大片免费观看网站 | 插逼视频在线观看| 男插女下体视频免费在线播放| 亚洲国产高清在线一区二区三| 欧美色视频一区免费| 又粗又爽又猛毛片免费看| 麻豆精品久久久久久蜜桃| 国产精品无大码| 欧美另类亚洲清纯唯美| 菩萨蛮人人尽说江南好唐韦庄 | 欧美人与善性xxx| 久久精品综合一区二区三区| 成人美女网站在线观看视频| 亚洲怡红院男人天堂| 国产一级毛片在线| 国产亚洲5aaaaa淫片| 国产在视频线精品| 精品少妇黑人巨大在线播放 | 久久久久性生活片| 国内精品美女久久久久久| 男人的好看免费观看在线视频| av福利片在线观看| 99久久精品国产国产毛片| 亚洲精品aⅴ在线观看|