• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于雙評論家的多智能體深度確定性策略梯度方法

    2023-10-27 02:51:08丁世飛郭麗麗
    計算機(jī)研究與發(fā)展 2023年10期
    關(guān)鍵詞:評論家行動者網(wǎng)絡(luò)結(jié)構(gòu)

    丁世飛 杜 威 郭麗麗 張 健 徐 曉

    1(中國礦業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇徐州 221116)

    2(礦山數(shù)字化教育部工程研究中心(中國礦業(yè)大學(xué))江蘇徐州 221116)

    強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)作為一種機(jī)器學(xué)習(xí)方法,其主要思想是使智能體通過最大化從環(huán)境中獲得的累積獎勵來學(xué)習(xí)最優(yōu)策略.Q-learning是單智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中的經(jīng)典方法之一,但其難以應(yīng)對動作空間和狀態(tài)空間維數(shù)較高的環(huán)境.深度Q網(wǎng)絡(luò)(deepQ-network,DQN)利用深度神經(jīng)網(wǎng)絡(luò)逼近價值函數(shù)來解決這個困難.得益于DQN 在高維空間中展現(xiàn)出的優(yōu)越性能,學(xué)者們基于此方法提出諸多深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)[1-4]方法.

    隨著DRL 在機(jī)器控制[5-7]、人機(jī)游戲[8-10]等單智能體領(lǐng)域取得顯著成功,許多工作將單智能體DRL方法擴(kuò)展到多智能體設(shè)置并應(yīng)用到真實環(huán)境中,如自動駕駛[11-12]、交通控制[13-14].然而,實現(xiàn)高效的多智能體強(qiáng)化學(xué)習(xí)通常會面臨2 個主要困難:可擴(kuò)展性問題和部分可觀測性限制.一方面,利用環(huán)境的所有信息進(jìn)行決策可能會導(dǎo)致大規(guī)模的聯(lián)合狀態(tài)動作空間.隨著智能體的數(shù)量增加,狀態(tài)動作空間規(guī)模將呈指數(shù)增長,這導(dǎo)致智能體的規(guī)模難以擴(kuò)展,即產(chǎn)生可擴(kuò)展性問題.另一方面,部分可觀測性限制要求智能體只根據(jù)自己的局部觀測歷史來選擇動作和做出決策.這雖然提高了決策效率,但也嚴(yán)重限制智能體探索最優(yōu)動作的能力,同時造成了環(huán)境的不穩(wěn)定性.

    為應(yīng)對部分可觀測性限制帶來的問題,Lowe 等人[15]提出了多智能體深度確定性策略梯度(multiagent deep deterministic policy gradient,MADDPG)方法.該方法引入集中訓(xùn)練和分散執(zhí)行(centralized training with decentralized execution,CTDE)框架:在集中訓(xùn)練階段,智能體可以訪問全局信息;在分散執(zhí)行階段智能體只根據(jù)局部觀測歷史選擇動作[16-18].隨著MADDPG 方法在應(yīng)對部分可觀測限制情況時展現(xiàn)出的優(yōu)越性能,基于CTDE 框架的多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)方法不斷涌現(xiàn),CTDE 框架也成為MARL 中最常用的框架之一.此外,為了解決CTDE 范式的可擴(kuò)展性問題,學(xué)者們提出了各種價值函數(shù)分解方法[19-22].盡管MADDPG 已成為MARL 中最常用的基線方法之一,以MADDPG 為代表的CTDE 方法存在的Q值高估問題沒有得到廣泛研究.Q值高估問題源于bootstrapping 目標(biāo)中常用的max 算子.具體地,Qlearning 中的max 算子用最大估計值逼近最大期望值,這將導(dǎo)致價值高估:其中表示給定狀態(tài)下動作ai的Q值的隨機(jī)變量.Q值高估問題會損害智能體的行為,導(dǎo)致智能體學(xué)得次優(yōu)的策略[23-24].

    在CTDE 方法中,Q值高估問題同樣存在.具體地,假設(shè)有n個智能體,每個智能體有L個動作,每個動作的Q值獨(dú)立地由均勻分布U(0,1)得到,則1/2.同時=Ln/(Ln+1),由于聯(lián)合動作空間的大小L隨智能體的數(shù)量呈指數(shù)增長,趨向于1,且大于,由此可得CTDE 方法存在Q值高估問題.在CTDE 方法中,個體智能體的決策質(zhì)量取決于集中訓(xùn)練的評論家網(wǎng)絡(luò),評論家網(wǎng)絡(luò)的價值函數(shù)高估問題可能會造成更嚴(yán)重的影響.因此,研究MADDPG 為代表的CTDE 方法中存在的價值高估問題顯得尤為必要和具有挑戰(zhàn)性.

    為應(yīng)對這個挑戰(zhàn),本文提出基于雙評論家的多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient method based on double critics,MADDPG-DC)方法來避免價值函數(shù)的過高估計.本文的核心思想是通過在雙評論家網(wǎng)絡(luò)上的最小值操作來避免價值高估.此外,為保證學(xué)習(xí)的穩(wěn)定性和效率,本文采用延遲策略更新技術(shù).通過延遲行動者網(wǎng)絡(luò)更新,減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.本文的主要貢獻(xiàn)和創(chuàng)新點有3 點:

    1)從理論和實驗層面上分別證明了MADDPGDC 存在嚴(yán)重的高估問題,并通過引入雙評論家網(wǎng)絡(luò)結(jié)構(gòu)避免價值高估,從而促進(jìn)更好的策略學(xué)習(xí).

    2)為保證策略學(xué)習(xí)的效率和穩(wěn)定性,在提出的MADDPG-DC 中引入延遲行動者網(wǎng)絡(luò)更新的方法,進(jìn)一步提高策略更新的質(zhì)量,使智能體更高效地學(xué)習(xí)最優(yōu)策略.

    3)在多智能體粒子環(huán)境和交通信號控制環(huán)境上對所提出的MADDPG-DC 方法進(jìn)行了實驗評估,實驗結(jié)果表明提出的方法在仿真環(huán)境和實際系統(tǒng)上都具有可行性和優(yōu)越性.

    1 基礎(chǔ)理論

    1.1 Dec-POMDP

    MARL 問題一般建模為去中心化部分可觀測馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDPs)[25].具體地,Dec-POMDPs 用元組G=〈S,A,P,R,O,n,γ〉表示,其中部分可觀測環(huán)境的狀態(tài)記為s∈S,智能體i可獲得的局部觀測值記為oi∈Oi.智能體i根據(jù)其局部觀測值oi決定其動作ai∈A,聯(lián)合動作表示為a=(a1,a2,…,aN)∈A,環(huán)境狀態(tài)基于狀態(tài)轉(zhuǎn)移函數(shù)P:S×A→S和聯(lián)合動作轉(zhuǎn)移至下一個狀態(tài).智能體i的學(xué)習(xí)目標(biāo)是最大化其累計折扣獎勵值,其中γ ∈[0,1]為折扣因子,rit表示智能體i在時間步t獲得的獎勵值.

    1.2 多智能體深度確定性策略梯度

    MADDPG 方法的關(guān)鍵思想是:在訓(xùn)練階段,每個智能體都接收全局信息來學(xué)習(xí)一個集中的Q函數(shù);在執(zhí)行階段,每個智能體只使用局部信息來選擇動作.MADDPG 利用CTDE 框架與行動者-評論家結(jié)構(gòu),其中集中訓(xùn)練的評論家網(wǎng)絡(luò)獲得了全局信息,而分散的行動者網(wǎng)絡(luò)只能獲得個體的局部觀測歷史.

    具體地,假設(shè)一個包含N個智能體的環(huán)境,智能體的策略是連續(xù)的,用μ={μ1,μ2,…,μN(yùn)}表示,策略的參數(shù)是φ={φ1,φ2,…,φN},智能體i的策略梯度J(φi)=E[Ri]表示為

    2 MADDPG-DC 方法

    在本節(jié)中,首先通過理論和實驗證明,MADDPG存在過高估計價值函數(shù)的問題,然后介紹提出的改進(jìn)方法,即基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.

    2.1 MADDPG 中的價值函數(shù)高估問題

    首先,給出理論證明以論證MADDPG 中存在價值函數(shù)的過高估計問題.定義策略參數(shù) φ,表示智能體i的由對應(yīng)評論家網(wǎng)絡(luò)指導(dǎo)的行動者網(wǎng)絡(luò)的近似參數(shù),并用表示由真實價值函數(shù)指導(dǎo)的行動者網(wǎng)絡(luò)的參數(shù):

    2.2 MADDPG-DC

    MADDPG 中存在的價值函數(shù)過高估計一般會導(dǎo)致2 個問題:一方面,價值高估會在多次更新后導(dǎo)致顯著的偏差;另一方面,價值估計偏差會進(jìn)一步導(dǎo)致策略更新的不準(zhǔn)確.評論家網(wǎng)絡(luò)對次優(yōu)動作進(jìn)行過高的評估,從而導(dǎo)致在接下來的策略更新中引導(dǎo)行動者網(wǎng)絡(luò)對次優(yōu)動作的選擇.

    在降低單智能體深度強(qiáng)化學(xué)習(xí)中的價值函數(shù)過高估計問題方面,已有多項工作取得了成功,其中深度雙Q網(wǎng)絡(luò)采用目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)來進(jìn)行獨(dú)立的價值估計,利用當(dāng)前值網(wǎng)絡(luò)的價值估計來選擇最優(yōu)動作,利用目標(biāo)值網(wǎng)絡(luò)的價值估計來評估最優(yōu)動作,將最優(yōu)動作的選擇和價值估計分開,降低了對次優(yōu)動作過高估計價值的可能性[2].

    MADDPG 方法中的評論家網(wǎng)絡(luò)也采取相似的目標(biāo)值網(wǎng)絡(luò)和當(dāng)前值網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行更新:

    然而,由于MADDPG 方法的策略變化緩慢,導(dǎo)致目標(biāo)值網(wǎng)絡(luò)與當(dāng)前值網(wǎng)絡(luò)過于相似,難以進(jìn)行有效的獨(dú)立的價值估計,過高估計的問題仍然存在.如圖1 所示,本文實驗評估了MADDPG 中存在的估計偏差問題.

    Fig.1 Comparison of estimation biases for MADDPG and MADDPG-DC圖1 MADDPG 和MADDPG-DC 的估計偏差對比

    在多智能體粒子環(huán)境(multi-agent particle environment)中的捕食者獵物(predator-prey)環(huán)境上,測量MADDPG 和MADDPG-DC 在學(xué)習(xí)過程中的價值估計的估計偏差、采樣狀態(tài)和經(jīng)驗回放池的動作,確定真實的和估計的Q值.結(jié)果如圖1 所示,一個非常明顯的過高估計偏差發(fā)生在MADDPG 的學(xué)習(xí)過程中,而MADDPG-DC 在學(xué)習(xí)過程中不存在明顯的估計偏差.

    MADDPG-DC 使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估,2 個評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)分別為

    MADDPG-DC 通過在雙評論家網(wǎng)絡(luò)上進(jìn)行最小值操作,能夠避免價值估計過高的問題.雖然該更新規(guī)則可能會導(dǎo)致價值低估,但價值低估不會在策略更新過程中顯式傳播[26-28].MADDPG-DC 方法的評論家網(wǎng)絡(luò)的目標(biāo)函數(shù)為

    MADDPG-DC 方法利用目標(biāo)網(wǎng)絡(luò)來減少目標(biāo)更新過程中的誤差.由于高誤差狀態(tài)下的策略更新會導(dǎo)致智能體動作的發(fā)散,MADDPG-DC 方法引入延遲行動者網(wǎng)絡(luò)更新的方法,將行動者網(wǎng)絡(luò)的更新頻率設(shè)置為低于評論家網(wǎng)絡(luò)的更新頻率,以使得行動者網(wǎng)絡(luò)的策略更新前的誤差最小化.具體地,設(shè)定評論家網(wǎng)絡(luò)每更新3 次后,行動者網(wǎng)絡(luò)更新1 次.同時為確保誤差最小,緩慢地更新目標(biāo)網(wǎng)絡(luò):

    在評論家網(wǎng)絡(luò)每3 次迭代后,對于智能體i,基于評論家網(wǎng)絡(luò)利用確定性策略梯度方法更新行動者網(wǎng)絡(luò).通過延遲行動者網(wǎng)絡(luò)更新,MADDPG-DC 方法減少了使用沒變化的評論家網(wǎng)絡(luò)得到的Q值來指導(dǎo)行動者網(wǎng)絡(luò)重復(fù)更新的可能性,從而實現(xiàn)更高質(zhì)量的策略更新.

    圖2 展示了MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練階段,只對行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)進(jìn)行訓(xùn)練,而行動者目標(biāo)網(wǎng)絡(luò)和評論家目標(biāo)網(wǎng)絡(luò)用于穩(wěn)定行動者網(wǎng)絡(luò)和雙評論家網(wǎng)絡(luò)的學(xué)習(xí)效果.算法1 給出了MADDPG-DC 的偽代碼.

    Fig.2 Network structure of MADDPG-DC圖2 MADDPG-DC 的網(wǎng)絡(luò)結(jié)構(gòu)

    算法1.MADDPG-DC.

    2.3 方法復(fù)雜度分析

    MADDPG-DC 方法使用神經(jīng)網(wǎng)絡(luò)來促進(jìn)評論家的訓(xùn)練,其中神經(jīng)網(wǎng)絡(luò)使用多層感知器(multilayer perceptron,MLP)架構(gòu).首先,對于使用MLP 架構(gòu)的單智能體強(qiáng)化學(xué)習(xí)方法而言,其訓(xùn)練復(fù)雜度是O(M×T(S×H+H×A)).其中M為回合數(shù),T是每回合的時間步數(shù);S表示輸入層的大小,也表示智能體的觀測集合的大小,H表示神經(jīng)網(wǎng)絡(luò)隱藏層的大??;A表示輸出層的大小,也表示智能體的動作集合的大小.

    對于MADDPG-DC 的訓(xùn)練階段,每個評論家網(wǎng)絡(luò)用單一的值來評估多個智能體的聯(lián)合動作和觀測結(jié)果,其復(fù)雜度為O(M×T(N×(A+S)×H+H×1)),N表示智能體的數(shù)量.在執(zhí)行階段的復(fù)雜度方面,由于每個智能體都是獨(dú)立行動,不需要評論家網(wǎng)絡(luò)和其他智能體的交互,因此每個智能體在給定時間步數(shù)上執(zhí)行1 個動作的復(fù)雜度為O(S×H+H×A).MADDPG方法的復(fù)雜度與MADDPG-DC 一致.

    3 實驗結(jié)果

    本節(jié)在各種復(fù)雜的平臺和任務(wù)上進(jìn)行了實驗,以驗證MADDPG-DC 方法的優(yōu)越性和有效性.首先在MARL 領(lǐng)域中廣泛使用的多智能體粒子環(huán)境進(jìn)行了仿真實驗;然后在交通信號控制環(huán)境的真實系統(tǒng)中評估MADDPG-DC 方法,以證明該方法在真實環(huán)境中應(yīng)用的可行性.

    3.1 多智能體粒子環(huán)境

    首先使用MARL 中常用的多智能體粒子環(huán)境進(jìn)行實驗.實驗配置如表1 所示.環(huán)境是2 維連續(xù)的,包含K個相互協(xié)作的智能體、Z個地標(biāo)和L個敵對的智能體.本文在多智能體粒子環(huán)境中的3 個環(huán)境上進(jìn)行了實驗,以驗證所提方法的有效性.

    Table 1 Experimental Configuration for Multi-Agent Particle Environments表1 多智能體粒子環(huán)境的實驗配置

    1)捕食者-獵物環(huán)境.如圖3 所示,這個環(huán)境包含了3 個合作的捕食者,即智能體1,2,3;1 個移動速度更快的獵物,即敵方智能體和2 個阻礙前進(jìn)的障礙.捕食者需要協(xié)作來追趕獵物,如果捕食者成功捕獲獵物,捕食者得到獎勵,而獵物得到懲罰.

    2)物理欺騙(physical deception)環(huán)境.該環(huán)境包括2 個合作的智能體、1 個敵對的智能體和2 個地標(biāo)物體.2 個合作智能體的目標(biāo)是在敵對智能體不知道地標(biāo)物體的情況下,從一個地標(biāo)到達(dá)另一個地標(biāo).合作智能體的獎勵取決于其中一個智能體到達(dá)目的地的最小距離.

    3)世界(world)環(huán)境.在包含4 個移動較慢的智能體和2 個移動較快的敵對智能體的世界環(huán)境中,較慢的智能體的目標(biāo)是學(xué)會合作以捕獲2 個移動較快的敵對智能體.

    本文將提出的MADDPG-DC 方法與多種基線方法在以上3 個環(huán)境中進(jìn)行對比實驗.實驗選擇了MADDPG[15]、反事實的多智能體策略梯度[18](counterfactual multi-agent policy gradient,COMA)、值分解網(wǎng)絡(luò)[19](value-decomposition networks,VDN)方法、QMIX[20]這4 種基于CTDE 框架的方法作為基線方法.COMA使用一個基于反事實基線的評論家網(wǎng)絡(luò)結(jié)構(gòu)來推導(dǎo)智能體學(xué)習(xí)策略的優(yōu)勢函數(shù).VDN 和QMIX 是價值函數(shù)分解方法的代表性方法,使用個體價值函數(shù)的組合來估計聯(lián)合價值函數(shù).

    由于這些基線方法全部基于CTDE 框架,于是都存在價值函數(shù)高估問題.所有實驗在CPU Intel Xeon Silver 4210 和GPU Nvidia RTX 2080 上使用5 個隨機(jī)種子構(gòu)建.對于MADDPG 和COMA,使用與MADDPGDC 相同的參數(shù),如表2 所示.VDN 和QMIX 包括更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),參數(shù)如表3 所示.

    Table 3 Hyperparameters of VDN and QMIX on Multi-Agent Particle Environments表3 VDN 和QMIX 在多智能體粒子環(huán)境上的超參數(shù)

    圖4~6 展示了各方法的平均獎勵值.在捕食者-獵物環(huán)境中,在參數(shù)相對一致的情況下,MADDPG和QMIX 方法下的智能體未學(xué)得穩(wěn)定的策略,導(dǎo)致平均獎勵呈下降狀態(tài).本文提出的MADDPG-DC 方法在訓(xùn)練一開始的表現(xiàn)低于價值函數(shù)分解方法VDN,但最終收斂到更高的平均獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 收斂得最快且學(xué)得的平均獎勵值最高,而MADDPG,COMA,VDN 方法未能學(xué)得最優(yōu)的策略.在世界環(huán)境下,除了QMIX 以外的大部分方法都采用收斂到穩(wěn)定的策略,而MADDPG-DC 同樣取得了最好的表現(xiàn).綜上,對比其他存在價值高估問題的基線方法,MADDPG-DC 方法取得了更好的性能.

    Fig.4 Performance comparison on predator-prey environment圖4 捕食者-獵物環(huán)境下的性能比較

    Fig.6 Performance comparison on world environment圖6 世界環(huán)境下的性能比較

    此外,為探討雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對性能提升的影響,本文設(shè)計了消融實驗.實驗中使用2 個變體:使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但不延遲行動者網(wǎng)絡(luò)更新的MADDPG-D 和不使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)但延遲行動者網(wǎng)絡(luò)更新的MADDPG-C.將這2 個變體與原始MADDPG 方法以及同時使用雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新的MADDPG-DC 進(jìn)行了比較.首先,比較MADDPGD 與MADDPG 的性能表現(xiàn).圖7~9 展示了不同多智能體粒子環(huán)境環(huán)境下的消融實驗.實驗結(jié)果表明,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-D 的學(xué)習(xí)性能顯著,并持續(xù)優(yōu)于MADDPG 且收斂到穩(wěn)定的策略.在物理欺騙環(huán)境下,雖然MADDPG-D 的表現(xiàn)持續(xù)優(yōu)于MADDPG,但其學(xué)習(xí)曲線在后期也呈現(xiàn)下降趨勢.

    Fig.7 Ablation experiment on predator-prey environment圖7 捕食者-獵物環(huán)境下的消融實驗

    Fig.8 Ablation experiment on physical deception environment圖8 物理欺騙環(huán)境下的消融實驗

    Fig.9 Ablation experiment on world environment圖9 世界環(huán)境下的消融實驗

    進(jìn)一步,為驗證延遲行動者網(wǎng)絡(luò)的有效性,首先對比MADDPG,MADDPG-C,MADDPG-D 在3 個環(huán)境中,MADDPG-C 的性能相比MADDPG 有一定的提升,但無法超過MADDPG-D 的性能.接下來,對比MADDPG-D 和MADDPG-DC 的表現(xiàn).如圖7~9 所示,在捕食者-獵物環(huán)境和世界環(huán)境下,MADDPG-DC 收斂更快,且收斂至更高的獎勵值.在物理欺騙環(huán)境下,MADDPG-DC 相比MADDPG-D,其可以收斂到穩(wěn)定的最優(yōu)策略.由此可見雙評論家網(wǎng)絡(luò)結(jié)構(gòu)和延遲行動者網(wǎng)絡(luò)更新這2 個因素對方法的性能都有提升作用,且同時使用2 個改進(jìn)因素的效果大于單獨(dú)使用任意1 個的效果.

    3.2 交通信號控制環(huán)境

    隨著城市化的快速發(fā)展,車輛數(shù)量的增加不可避免地導(dǎo)致交通擁堵程度的增加.通過優(yōu)化管理方法可以實現(xiàn)交通系統(tǒng)的可持續(xù)發(fā)展[29].交通信號控制(traffic signal control,TSC)是一種有效的優(yōu)化策略,它有助于改善交通狀況、減少擁堵、縮短出行時間[30-31].為了應(yīng)對TSC 的規(guī)模需求,學(xué)者們嘗試在多智能體系統(tǒng)中使用RL.

    在局部觀測和通信受限的情況下,將TSC 定義為由分散的強(qiáng)化學(xué)習(xí)智能體控制交叉口的協(xié)作MARL 問題是一種有效且通用的方法.其中一種思路是使用獨(dú)立Q學(xué)習(xí)(independentQ-learning,IQL)方法建模[32],在這種方法中,分散的強(qiáng)化學(xué)習(xí)智能體獨(dú)立地學(xué)習(xí)各自的策略,并將其他智能體當(dāng)作環(huán)境的一部分.IQL 方法可以解決可擴(kuò)展性問題,但當(dāng)其他智能體改變自己的策略[33]時,IQL 會出現(xiàn)不收斂和不穩(wěn)定性問題.

    然而,現(xiàn)有的工作包括IQL 方法通常采用分散訓(xùn)練和分散執(zhí)行框架,這個框架通常會存在環(huán)境不穩(wěn)定性問題[34].基于CTDE 框架的MARL 是一種有效的改進(jìn),如MADDPG 方法.然而,在TSC 中,MADDPG方法的性能表現(xiàn)一般[35].其原因可能是在復(fù)雜環(huán)境下,MADDPG 中價值估計的不準(zhǔn)確導(dǎo)致了智能體行為的發(fā)散或者智能體學(xué)得了次優(yōu)的策略.同時,MADDPG在分散執(zhí)行階段缺乏通信學(xué)習(xí)機(jī)制[36-38],而通信學(xué)習(xí)機(jī)制對于保證整體交通狀態(tài)的控制穩(wěn)定性和效果具有重要意義.

    本文應(yīng)用MADDPG-DC 和CTDE 框架來處理TSC 問題.為驗證MADDPG-DC 在實際系統(tǒng)中的可行性和有效性,本文在成都市實際交通網(wǎng)絡(luò)[39-40]上進(jìn)行了實驗.利用城市交通平臺模擬真實的交通狀況.實驗將每個交叉口的交通信號控制器建模為一個智能體,將網(wǎng)絡(luò)交通狀態(tài)建模為全局狀態(tài).

    在真實的交通信號控制環(huán)境中,為證明MADDPDC 方法的有效性,選擇IQL[32]、MADDPG[15]和最大壓力控制(max pressure control)[41]等3 種方法作為基線方法.IQL[32]基于分散訓(xùn)練分散執(zhí)行框架,分散的智能體獨(dú)立地學(xué)習(xí)各自的策略,而MADDPG 利用CTDE 框架.最大壓力控制是TSC 領(lǐng)域最先進(jìn)的控制方法之一,通過選擇信號相位,最大化通過交叉口的車輛數(shù)量.

    評價結(jié)果以各交叉口的交通擁堵情況和車輛通行效率為主要評價指標(biāo),包括3 個主要指標(biāo): 平均隊列長度、平均延遲和平均行駛時間.平均隊列長度是指在交叉口的所有車輛的平均等待隊列長度.平均延遲是指交通路口的所有車輛的平均等待時間除以隊列長度.這二者的值越高,表示方法的性能越差.平均行駛時間是指整個交通網(wǎng)絡(luò)中車輛從起點行駛到終點所花費(fèi)的平均時間.同樣地,平均行駛時間的值越高,表示該方法的性能越差.

    首先,本文從合成道路數(shù)據(jù)集中隨機(jī)選取合成交通網(wǎng)絡(luò)來訓(xùn)練MADDPG-DC 方法以及其他基線方法,仿真實驗運(yùn)行了8 000 回合.交通信號控制環(huán)境下的MADDPG-DC 的超參數(shù)如表4 所示.基線MADDPG和MADDPG-D 也設(shè)置相同的超參數(shù)進(jìn)行訓(xùn)練.IQL的超參數(shù)如表5 所示.最大壓力控制不是一種MARL方法,其參數(shù)設(shè)置保持和文獻(xiàn)[41]一致.

    Table 4 Hyperparameters of MADDPG,MADDPG-D,MADDPG-DC Under Traffic Signal Control Environments表4 交通信號控制環(huán)境下MADDPG,MADDPG-D,MADDPG-DC 的超參數(shù)

    Table 5 Hyperparameters of IQL Under Traffic Signal Control Environments表5 交通信號控制環(huán)境下IQL 的參數(shù)

    然后,在真實交通網(wǎng)絡(luò)中對訓(xùn)練后的方法分別進(jìn)行1h 的時變交通流訓(xùn)練.考慮到計算成本,實驗在1h 后停止評估.圖10 和圖11 分別展示了各方法下的真實交通網(wǎng)絡(luò)中的平均隊列長度和平均延遲.從圖11 可以看出,MADDPG-DC 方法的平均隊列長度小于其他基線方法.在模擬時間為2 700 s 時,MADDPG-DC 方法下的平均隊列長度達(dá)到峰值,約為0.63 輛.而對于其他基線方法,MADDPG 方法在2 980 s時達(dá)到約為1.41 輛的峰值,MADDPC-D 方法在2 980 s時的峰值在0.92 輛以上,IQL 方法在3 010 s 時的峰值在2.69 輛以上,最大壓力控制方法在2 730 s 時的峰值在1.65 輛左右.

    Fig.10 Average queues for different methods in real traffic networks圖10 真實交通網(wǎng)絡(luò)中不同方法的平均隊列

    Fig.11 Average delay of different methods in real traffic networks圖11 真實交通網(wǎng)絡(luò)中不同方法的平均延遲

    對比圖10 和圖11 可以發(fā)現(xiàn),不同方法的曲線大部分都有相似的趨勢.大多數(shù)曲線在前期增加,然后在不同的時間到達(dá)峰值,最后趨于下降.因此,可以推斷這2 個指標(biāo)是相關(guān)的.隨著車輛隊列的增加,交叉口的平均延遲也會增加.值得注意的是,所有方法通過積累的交通數(shù)據(jù)進(jìn)行學(xué)習(xí)后,都不同程度地減少了隊列長度.

    表6 給出了不同方法在實際 下的表現(xiàn).可以發(fā)現(xiàn),MADDPG-DC 的表現(xiàn)優(yōu)于MADDPG-D,說明延遲行動者網(wǎng)絡(luò)更新的有效性.同時MADDPG-D 的表現(xiàn)其次,證明雙評論家網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了更準(zhǔn)確的價值估計,進(jìn)而促進(jìn)更高質(zhì)量的策略學(xué)習(xí).

    Table 6 Performance of Different Methods in Real Traffic Networks表6 不同方法在真實交通網(wǎng)絡(luò)中的性能

    圖11 展示了所有方法的平均隊列長度變化曲線.如圖11 所示,MADDPG-DC 方法在所有方法中表現(xiàn)最好,且MADDPG-D 的表現(xiàn)其次.2 種變體方法在初期的曲線非常接近,但MADDPG-DC 在3 050 s 達(dá)到約26.42 s/輛的峰值,而MADDPG-D 在時間3 250 s達(dá)到的峰值超過44.02 s/輛.MADDPG曲線雖然在模擬時間1 700~1 900 s 之間有所下降,但之后一直呈現(xiàn)上升趨勢.IQL 方法和最大壓力控制方法都直到結(jié)束時才出現(xiàn)一定程度的下降.

    此外,值得注意的是,所有平均延遲曲線在前期均呈平穩(wěn)上升趨勢.最大壓力控制方法和IQL 方法在后期仍然呈上升趨勢,而MADDPG-D 方法和MADDPG-DC 方法在前期達(dá)到峰值,但在后期趨于下降.無論是IQL 方法還是最大壓力控制方法都不能依靠一種可持續(xù)的策略來快速恢復(fù)擁堵的交通網(wǎng)絡(luò). 與 MADDPG 相比,MADDPG-D 受益于更準(zhǔn)確的價值估計可以學(xué)得更好的策略.與MADDPG-D相比,MADDPG-DC 傾向于一種更穩(wěn)定和可持續(xù)的策略,能夠?qū)崿F(xiàn)更快的交通擁堵恢復(fù).MADDPG-DC的平均隊列長度趨于0,說明該方法對于減少交叉口擁堵,提高車輛行駛效率發(fā)揮了重要作用.

    4 總結(jié)和展望

    為更好地估計MARL 方法中的價值函數(shù),本文提出基于雙評論家網(wǎng)絡(luò)的多智能體深度確定性策略梯度方法.通過理論和實驗論證MADDPG 存在價值高估問題,并提出雙評論家網(wǎng)絡(luò)結(jié)構(gòu)來避免價值高估.此外,為提高策略更新的質(zhì)量,延遲行動者網(wǎng)絡(luò)更新.實驗結(jié)果表明,本文提出的方法在多智能體粒子環(huán)境的多個環(huán)境上的表現(xiàn)顯著優(yōu)于MADDPG 等其他基線方法.此外,交通信號控制環(huán)境上的實驗結(jié)果證明所提方法在真實環(huán)境中的可行性.

    然而,大多數(shù)基于CTDE 框架的MARL 方法可能都存在價值高估或低估的問題,本文沒有對其他基于CTDE 的MARL 方法進(jìn)行深入研究,這是未來的一個有趣且有價值的研究方向.同時,在價值函數(shù)分解方法和其他CTDE 方法中實現(xiàn)更好的價值估計將是我們下一步的工作.

    作者貢獻(xiàn)聲明:丁世飛提出論文的研究方向及指導(dǎo)論文寫作;杜威負(fù)責(zé)論文的撰寫及研究框架設(shè)計;郭麗麗、張健、徐曉負(fù)責(zé)實驗指導(dǎo)及論文寫作指導(dǎo).

    猜你喜歡
    評論家行動者網(wǎng)絡(luò)結(jié)構(gòu)
    與異質(zhì)性行動者共生演進(jìn):基于行動者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
    音樂評論家的“內(nèi)功”修煉——論八項追求
    中國音樂(2022年3期)2022-06-10 06:28:36
    著名詩人、評論家
    鴨綠江(2021年29期)2021-02-28 05:44:26
    著名詩人、評論家 吳思敬
    鴨綠江(2020年29期)2020-11-15 07:05:52
    評論家楊占平
    火花(2019年8期)2019-08-28 08:45:06
    敬仰中國大地上的綠色行動者
    綠色中國(2016年1期)2016-06-05 09:02:59
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
    復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進(jìn)展
    99热6这里只有精品| 国产精品一区二区三区四区免费观看| 中文字幕人妻丝袜制服| 精品久久久久久久久亚洲| 一级a做视频免费观看| 精品国产国语对白av| 久久亚洲国产成人精品v| 中文字幕制服av| 国产成人精品婷婷| 99精国产麻豆久久婷婷| av黄色大香蕉| 免费观看av网站的网址| 精品人妻在线不人妻| 丝袜脚勾引网站| 18禁在线无遮挡免费观看视频| 各种免费的搞黄视频| 色94色欧美一区二区| 成人综合一区亚洲| 老司机影院成人| 欧美人与性动交α欧美精品济南到 | 麻豆乱淫一区二区| 国产极品天堂在线| 精品亚洲成国产av| 欧美性感艳星| 国产成人一区二区在线| 国产免费一区二区三区四区乱码| 成年美女黄网站色视频大全免费 | 黄片无遮挡物在线观看| 国产不卡av网站在线观看| 在线观看免费日韩欧美大片 | 麻豆乱淫一区二区| 狠狠婷婷综合久久久久久88av| 街头女战士在线观看网站| 亚洲精品第二区| 成人国语在线视频| 久久久久网色| 乱码一卡2卡4卡精品| 大香蕉97超碰在线| av天堂久久9| 久久ye,这里只有精品| 国产视频首页在线观看| 日本猛色少妇xxxxx猛交久久| 男女啪啪激烈高潮av片| 久久久久久久久久久免费av| 免费黄网站久久成人精品| 一本久久精品| 国产日韩一区二区三区精品不卡 | 日韩强制内射视频| 一级毛片电影观看| 欧美另类一区| 91精品一卡2卡3卡4卡| 丝袜在线中文字幕| 欧美xxxx性猛交bbbb| 久久97久久精品| 午夜av观看不卡| 人妻一区二区av| 在线观看www视频免费| 午夜免费鲁丝| 五月伊人婷婷丁香| 日本免费在线观看一区| 日韩在线高清观看一区二区三区| 18禁动态无遮挡网站| 午夜免费鲁丝| 日本av免费视频播放| 久久亚洲国产成人精品v| 69精品国产乱码久久久| 亚洲综合色惰| 汤姆久久久久久久影院中文字幕| 亚洲成色77777| 精品久久久噜噜| 久久免费观看电影| 美女中出高潮动态图| 狂野欧美白嫩少妇大欣赏| 最新中文字幕久久久久| 成人毛片a级毛片在线播放| 亚洲成人av在线免费| 熟女av电影| 国产色婷婷99| 涩涩av久久男人的天堂| av在线app专区| 色94色欧美一区二区| 日韩不卡一区二区三区视频在线| 精品久久久精品久久久| 亚洲三级黄色毛片| 成人毛片60女人毛片免费| 精品久久蜜臀av无| 午夜激情福利司机影院| 热re99久久精品国产66热6| 日本爱情动作片www.在线观看| 这个男人来自地球电影免费观看 | 亚洲欧美成人精品一区二区| 91精品一卡2卡3卡4卡| 香蕉精品网在线| 成年人午夜在线观看视频| 国产精品熟女久久久久浪| 水蜜桃什么品种好| 午夜激情av网站| 国产一级毛片在线| 久久婷婷青草| 人妻夜夜爽99麻豆av| 国产免费福利视频在线观看| 晚上一个人看的免费电影| 涩涩av久久男人的天堂| 国产探花极品一区二区| 亚洲精品亚洲一区二区| 国产精品偷伦视频观看了| 日韩制服骚丝袜av| 免费观看性生交大片5| 99久国产av精品国产电影| 中文字幕免费在线视频6| 秋霞伦理黄片| 纵有疾风起免费观看全集完整版| 各种免费的搞黄视频| av在线播放精品| 国产69精品久久久久777片| 18禁观看日本| 国产精品国产av在线观看| 成人免费观看视频高清| 国产成人精品久久久久久| 草草在线视频免费看| 久久99热这里只频精品6学生| 水蜜桃什么品种好| 欧美一级a爱片免费观看看| 一级毛片黄色毛片免费观看视频| 一区二区av电影网| 国产男人的电影天堂91| 国产精品久久久久久av不卡| 妹子高潮喷水视频| 亚洲av成人精品一区久久| 大陆偷拍与自拍| 国产女主播在线喷水免费视频网站| 欧美三级亚洲精品| 成人黄色视频免费在线看| 亚洲,一卡二卡三卡| 国产日韩一区二区三区精品不卡 | 亚洲精品国产色婷婷电影| 亚洲欧美中文字幕日韩二区| 内地一区二区视频在线| 国产精品麻豆人妻色哟哟久久| 久久亚洲国产成人精品v| 高清午夜精品一区二区三区| 精品国产乱码久久久久久小说| 成人漫画全彩无遮挡| 久久精品夜色国产| 日韩欧美一区视频在线观看| 夫妻性生交免费视频一级片| 一级毛片 在线播放| 久久人人爽av亚洲精品天堂| 国产精品久久久久成人av| a级毛色黄片| 亚洲精品乱码久久久v下载方式| 亚洲精品第二区| 日韩视频在线欧美| 你懂的网址亚洲精品在线观看| 中文欧美无线码| 青青草视频在线视频观看| 精品人妻熟女av久视频| 国产 精品1| 在线 av 中文字幕| 国产欧美日韩一区二区三区在线 | 超色免费av| 日韩强制内射视频| 99热6这里只有精品| 女的被弄到高潮叫床怎么办| 国产色婷婷99| 日韩欧美一区视频在线观看| 中国美白少妇内射xxxbb| 美女脱内裤让男人舔精品视频| 日韩伦理黄色片| 国产精品一区二区在线不卡| 最后的刺客免费高清国语| 久久久久久久国产电影| 黄色配什么色好看| 日韩伦理黄色片| 高清不卡的av网站| 国产欧美日韩一区二区三区在线 | 亚洲怡红院男人天堂| 欧美xxⅹ黑人| 亚洲美女搞黄在线观看| 尾随美女入室| 国产一区二区在线观看日韩| 91精品国产国语对白视频| 99久久人妻综合| 成人亚洲精品一区在线观看| 亚洲国产精品专区欧美| 免费观看无遮挡的男女| 精品少妇内射三级| 少妇猛男粗大的猛烈进出视频| 九色亚洲精品在线播放| 新久久久久国产一级毛片| 国产精品蜜桃在线观看| 两个人免费观看高清视频| 男女免费视频国产| 国产精品国产三级国产av玫瑰| 插阴视频在线观看视频| 国产精品国产三级国产专区5o| 久久久国产欧美日韩av| 久久久久久久久久成人| 久久久午夜欧美精品| 免费久久久久久久精品成人欧美视频 | 亚洲国产欧美日韩在线播放| 男人添女人高潮全过程视频| 免费观看av网站的网址| 2018国产大陆天天弄谢| 国产精品久久久久久精品古装| 在线天堂最新版资源| 日韩av免费高清视频| 五月天丁香电影| 蜜桃久久精品国产亚洲av| 日韩成人伦理影院| 久久久国产精品麻豆| 国产精品一国产av| 国产成人一区二区在线| 免费看光身美女| 3wmmmm亚洲av在线观看| 91久久精品国产一区二区成人| 国产日韩一区二区三区精品不卡 | 91精品三级在线观看| 久久av网站| av卡一久久| 满18在线观看网站| 国产精品无大码| 国产国语露脸激情在线看| av一本久久久久| 日韩亚洲欧美综合| 国产色爽女视频免费观看| 国产有黄有色有爽视频| 99久久中文字幕三级久久日本| 亚洲高清免费不卡视频| 国产日韩欧美亚洲二区| 两个人免费观看高清视频| 热re99久久精品国产66热6| 一级毛片电影观看| 亚洲精品国产av蜜桃| 人体艺术视频欧美日本| 日本-黄色视频高清免费观看| 十分钟在线观看高清视频www| 亚洲av免费高清在线观看| 赤兔流量卡办理| 观看av在线不卡| 亚洲成人一二三区av| 精品99又大又爽又粗少妇毛片| 国产乱来视频区| 成年人免费黄色播放视频| 91精品三级在线观看| 黄片无遮挡物在线观看| 97在线视频观看| 欧美日韩av久久| 午夜免费观看性视频| 欧美日韩综合久久久久久| 欧美bdsm另类| 日日摸夜夜添夜夜爱| 特大巨黑吊av在线直播| 亚洲精品久久成人aⅴ小说 | 亚洲av欧美aⅴ国产| 26uuu在线亚洲综合色| 亚洲欧洲国产日韩| 精品一区二区三区视频在线| 亚洲性久久影院| 亚洲av日韩在线播放| 精品国产一区二区久久| 我要看黄色一级片免费的| 秋霞伦理黄片| 亚洲三级黄色毛片| 观看av在线不卡| 亚洲精品日本国产第一区| 亚洲第一av免费看| 日韩av不卡免费在线播放| 精品久久久久久久久av| 亚洲成人一二三区av| 国产精品99久久99久久久不卡 | 91久久精品电影网| 爱豆传媒免费全集在线观看| 在现免费观看毛片| 在线精品无人区一区二区三| 777米奇影视久久| 亚洲欧美中文字幕日韩二区| 一区二区日韩欧美中文字幕 | 国产精品99久久久久久久久| 亚洲精品日韩av片在线观看| 久久午夜综合久久蜜桃| av在线app专区| 日本av免费视频播放| 又粗又硬又长又爽又黄的视频| 国产片特级美女逼逼视频| 99re6热这里在线精品视频| 免费观看a级毛片全部| videossex国产| av在线app专区| 一区在线观看完整版| 亚洲四区av| 亚洲欧美成人精品一区二区| 国产精品无大码| videossex国产| 夜夜爽夜夜爽视频| 国产精品一区二区在线观看99| 国产亚洲最大av| 97在线人人人人妻| 亚洲av日韩在线播放| 狂野欧美激情性xxxx在线观看| 亚洲成人一二三区av| 久久国产精品大桥未久av| 777米奇影视久久| 黑人巨大精品欧美一区二区蜜桃 | 伊人久久精品亚洲午夜| 99热国产这里只有精品6| 搡老乐熟女国产| 亚洲精品第二区| 99国产精品免费福利视频| 在线观看免费日韩欧美大片 | 永久网站在线| 国内精品宾馆在线| 寂寞人妻少妇视频99o| 啦啦啦视频在线资源免费观看| 久久久久久久亚洲中文字幕| 午夜激情久久久久久久| 亚洲av.av天堂| 国产精品秋霞免费鲁丝片| 99久久中文字幕三级久久日本| 王馨瑶露胸无遮挡在线观看| 久久久国产欧美日韩av| 天天操日日干夜夜撸| 久久ye,这里只有精品| 高清毛片免费看| 亚洲精品日韩av片在线观看| 香蕉精品网在线| 亚洲美女黄色视频免费看| 久久精品国产亚洲网站| 久久久午夜欧美精品| 国产黄色视频一区二区在线观看| 久久免费观看电影| 亚洲五月色婷婷综合| 国产精品 国内视频| 亚洲国产色片| 22中文网久久字幕| 少妇人妻精品综合一区二区| 日产精品乱码卡一卡2卡三| 欧美xxxx性猛交bbbb| 伊人亚洲综合成人网| a级毛片黄视频| 三级国产精品欧美在线观看| a 毛片基地| 满18在线观看网站| 国产 精品1| 91久久精品电影网| 欧美xxxx性猛交bbbb| 男的添女的下面高潮视频| 女性被躁到高潮视频| 国产成人精品久久久久久| 高清欧美精品videossex| 熟女电影av网| av电影中文网址| 精品国产一区二区三区久久久樱花| 好男人视频免费观看在线| 岛国毛片在线播放| 嫩草影院入口| 波野结衣二区三区在线| av电影中文网址| 国产av码专区亚洲av| 99久久综合免费| 女性生殖器流出的白浆| 亚洲婷婷狠狠爱综合网| 国产精品久久久久久久电影| 五月天丁香电影| 国产亚洲精品第一综合不卡 | 日韩中字成人| 久久精品国产亚洲av天美| 国产国语露脸激情在线看| 中文字幕免费在线视频6| 精品国产乱码久久久久久小说| 亚洲国产成人一精品久久久| 极品人妻少妇av视频| 亚洲精品乱码久久久v下载方式| 亚洲欧美成人综合另类久久久| 九九爱精品视频在线观看| 久久精品久久久久久噜噜老黄| 精品99又大又爽又粗少妇毛片| 久久精品久久久久久噜噜老黄| 亚洲美女搞黄在线观看| av免费在线看不卡| 丁香六月天网| 少妇的逼好多水| 日韩欧美一区视频在线观看| 成人影院久久| 99re6热这里在线精品视频| xxxhd国产人妻xxx| 亚洲av二区三区四区| 久久精品久久精品一区二区三区| 亚洲经典国产精华液单| 中文字幕精品免费在线观看视频 | 欧美精品国产亚洲| 成人午夜精彩视频在线观看| 亚洲情色 制服丝袜| 在线播放无遮挡| 久久久久人妻精品一区果冻| 日本黄色日本黄色录像| av国产精品久久久久影院| 亚洲中文av在线| 少妇猛男粗大的猛烈进出视频| 亚洲av二区三区四区| 日韩欧美精品免费久久| 国产成人精品无人区| 九色亚洲精品在线播放| 日本与韩国留学比较| 999精品在线视频| 五月伊人婷婷丁香| 精品人妻一区二区三区麻豆| 在线观看三级黄色| 国产成人午夜福利电影在线观看| 精品少妇久久久久久888优播| 黄色一级大片看看| 人妻人人澡人人爽人人| 亚洲av欧美aⅴ国产| 一级黄片播放器| 国产精品成人在线| 自线自在国产av| 日日撸夜夜添| 在线观看免费视频网站a站| 丰满乱子伦码专区| 91精品三级在线观看| 久久国产亚洲av麻豆专区| 成人亚洲欧美一区二区av| 嫩草影院入口| .国产精品久久| 99久久精品国产国产毛片| 亚洲av欧美aⅴ国产| 麻豆乱淫一区二区| 国产欧美日韩综合在线一区二区| 久久久a久久爽久久v久久| 少妇的逼好多水| 国产成人午夜福利电影在线观看| 91在线精品国自产拍蜜月| 久久久国产精品麻豆| 亚洲精品国产av成人精品| 国产女主播在线喷水免费视频网站| 亚洲欧美日韩另类电影网站| 国产精品无大码| 久久久久久人妻| 亚洲一级一片aⅴ在线观看| 国产淫语在线视频| 黄片播放在线免费| 老司机影院毛片| 女性被躁到高潮视频| 亚洲精品乱码久久久久久按摩| 青春草国产在线视频| 欧美日韩精品成人综合77777| 精品亚洲乱码少妇综合久久| 高清av免费在线| 久久亚洲国产成人精品v| 亚洲精品av麻豆狂野| 国产av码专区亚洲av| 黄色视频在线播放观看不卡| 日本av免费视频播放| 老熟女久久久| 午夜久久久在线观看| 伦精品一区二区三区| 卡戴珊不雅视频在线播放| 一级毛片黄色毛片免费观看视频| 少妇人妻精品综合一区二区| 少妇丰满av| 亚洲欧美色中文字幕在线| av一本久久久久| 久久久久国产网址| 春色校园在线视频观看| 2022亚洲国产成人精品| 99热这里只有精品一区| 久久人人爽人人爽人人片va| 欧美+日韩+精品| 亚洲高清免费不卡视频| 久久久久久久久久久久大奶| 麻豆精品久久久久久蜜桃| 国产国语露脸激情在线看| 一级爰片在线观看| tube8黄色片| 欧美精品一区二区免费开放| 狂野欧美白嫩少妇大欣赏| 成人毛片a级毛片在线播放| 国语对白做爰xxxⅹ性视频网站| 亚洲中文av在线| 国产av国产精品国产| 亚洲在久久综合| 美女xxoo啪啪120秒动态图| 亚洲国产精品国产精品| 久久99精品国语久久久| 97精品久久久久久久久久精品| 亚洲欧美精品自产自拍| 精品国产国语对白av| 黄色一级大片看看| 免费观看性生交大片5| a级片在线免费高清观看视频| 我的女老师完整版在线观看| 久久精品国产a三级三级三级| 最新中文字幕久久久久| 日韩视频在线欧美| 校园人妻丝袜中文字幕| 日本-黄色视频高清免费观看| 青春草国产在线视频| 国产一区二区在线观看av| 一级毛片aaaaaa免费看小| 综合色丁香网| 日本-黄色视频高清免费观看| 建设人人有责人人尽责人人享有的| 欧美人与性动交α欧美精品济南到 | av又黄又爽大尺度在线免费看| 日韩成人伦理影院| 精品久久久精品久久久| 免费高清在线观看视频在线观看| 久久精品国产a三级三级三级| 国产亚洲午夜精品一区二区久久| 国产在线免费精品| 热99国产精品久久久久久7| 成人手机av| 午夜福利视频在线观看免费| 美女xxoo啪啪120秒动态图| 色网站视频免费| 在线免费观看不下载黄p国产| 免费播放大片免费观看视频在线观看| 免费人成在线观看视频色| 亚洲色图综合在线观看| 高清黄色对白视频在线免费看| 亚洲精品456在线播放app| 黑人高潮一二区| 麻豆成人av视频| 中文字幕精品免费在线观看视频 | 久久久久久久精品精品| 寂寞人妻少妇视频99o| 婷婷成人精品国产| 啦啦啦在线观看免费高清www| 免费看光身美女| 在现免费观看毛片| 婷婷色综合大香蕉| 精品一区二区三卡| 亚洲色图综合在线观看| 亚洲av欧美aⅴ国产| 亚洲人成网站在线播| 多毛熟女@视频| 母亲3免费完整高清在线观看 | 亚洲精品久久午夜乱码| 制服丝袜香蕉在线| 国产一级毛片在线| 高清av免费在线| 亚洲中文av在线| 九色亚洲精品在线播放| 极品人妻少妇av视频| 日韩在线高清观看一区二区三区| 性色avwww在线观看| av播播在线观看一区| 午夜影院在线不卡| av在线播放精品| 母亲3免费完整高清在线观看 | 国产在视频线精品| 国产精品无大码| 夜夜爽夜夜爽视频| 国产成人免费无遮挡视频| 久久免费观看电影| 亚洲少妇的诱惑av| 在线观看美女被高潮喷水网站| 99国产综合亚洲精品| 天堂俺去俺来也www色官网| 亚洲av成人精品一二三区| 免费看不卡的av| 一本久久精品| 亚洲天堂av无毛| 亚洲丝袜综合中文字幕| 亚洲高清免费不卡视频| 免费人妻精品一区二区三区视频| 久久久久久久亚洲中文字幕| 国精品久久久久久国模美| 天天躁夜夜躁狠狠久久av| 精品亚洲乱码少妇综合久久| 亚洲情色 制服丝袜| 亚洲av日韩在线播放| 亚洲人成网站在线播| 亚洲精品国产色婷婷电影| 国产有黄有色有爽视频| 久热久热在线精品观看| 夫妻午夜视频| 波野结衣二区三区在线| 性色av一级| 爱豆传媒免费全集在线观看| 黄色配什么色好看| 免费黄色在线免费观看| 免费不卡的大黄色大毛片视频在线观看| 99国产精品免费福利视频| a 毛片基地| 亚洲综合色惰| 精品人妻熟女毛片av久久网站| 在线观看美女被高潮喷水网站| 永久免费av网站大全| av线在线观看网站| 99九九线精品视频在线观看视频| 亚洲av日韩在线播放| 亚洲不卡免费看| 99九九线精品视频在线观看视频| 三级国产精品欧美在线观看| 亚洲不卡免费看| 久久综合国产亚洲精品| 交换朋友夫妻互换小说| av黄色大香蕉| 最近中文字幕高清免费大全6| 国产永久视频网站| 精品亚洲成国产av| 日日爽夜夜爽网站| 蜜臀久久99精品久久宅男| 夜夜爽夜夜爽视频| 18禁在线无遮挡免费观看视频| 亚洲美女黄色视频免费看| 午夜免费观看性视频| 亚洲精品国产av成人精品| 看非洲黑人一级黄片| 欧美老熟妇乱子伦牲交| 日韩亚洲欧美综合| 精品久久久久久电影网| 久久精品国产亚洲av涩爱| 老司机影院成人|