• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    稀疏獎勵場景下基于個體落差情緒的多智能體協(xié)作算法

    2022-06-09 01:43:22方寶富
    模式識別與人工智能 2022年5期
    關(guān)鍵詞:協(xié)作個體情緒

    王 浩 汪 京 方寶富

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)以試錯機(jī)制與環(huán)境進(jìn)行交互,通過最大化累積獎勵學(xué)習(xí)完成目標(biāo)任務(wù)的最優(yōu)策略.RL主要用于解決序貫決策問題,廣泛應(yīng)用于交通控制[1]、機(jī)器人控制[2]、游戲博弈[3]等領(lǐng)域.然而在面對一些真實場景下的復(fù)雜決策問題時,單智能體系統(tǒng)的決策能力有限,需要多個決策者之間相互協(xié)作共同完成任務(wù).因此將強(qiáng)化學(xué)習(xí)與多智能體系統(tǒng)交叉融合形成的多智能體強(qiáng)化學(xué)習(xí)(Multi-agent RL, MARL)[4]成為人工智能領(lǐng)域中的重要研究方向.

    在強(qiáng)化學(xué)習(xí)中,獎勵具有引導(dǎo)智能體學(xué)習(xí)方向的作用[5],智能體依賴獎勵進(jìn)行策略優(yōu)化.在訓(xùn)練開始階段,智能體采用隨機(jī)策略探索環(huán)境,需要經(jīng)過一系列復(fù)雜的操作才能獲得獎勵,導(dǎo)致智能體訓(xùn)練困難.缺乏外在獎勵信息導(dǎo)致智能體學(xué)習(xí)緩慢甚至無法學(xué)習(xí)到有效策略,這就是稀疏獎勵問題(Sparse Reward Problem)[6].在多智能體系統(tǒng)中,多位決策者需要相互協(xié)作共同完成目標(biāo)任務(wù)才能獲得獎勵,因此稀疏獎勵問題在多智能體系統(tǒng)中普遍存在.在一定程度上解決稀疏獎勵問題,有助于提高多智能體強(qiáng)化學(xué)習(xí)算法的樣本利用率,加快策略學(xué)習(xí)的速度.

    針對稀疏獎勵問題,一種直觀的解決方法是利用先驗知識人工設(shè)計密集的獎勵函數(shù).通過人為設(shè)計的密集獎勵,引導(dǎo)智能體完成目標(biāo)任務(wù),簡化訓(xùn)練過程.但是人工設(shè)計的獎勵函數(shù)與任務(wù)密切相關(guān),缺乏通用性.針對獎勵設(shè)計困難的問題,Hussein等[7]提出模仿學(xué)習(xí)方法,使用示例數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),使智能體快速掌握示例策略,加快智能體訓(xùn)練速度,但是模仿不可能精確復(fù)制示范動作,又由于強(qiáng)化學(xué)習(xí)是序列決策問題,因此將累積誤差.

    此外,解決稀疏獎勵問題的另一個研究方向是將內(nèi)在動機(jī)引入強(qiáng)化學(xué)習(xí),外在獎勵結(jié)合內(nèi)在獎勵共同指導(dǎo)智能體學(xué)習(xí).Pathak等[8]學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移,使用預(yù)測誤差作為內(nèi)在獎勵,促進(jìn)智能體的探索.Strouse 等[9]使用目標(biāo)與狀態(tài)或行動之間的交互信息作為內(nèi)在獎勵,加快智能體的收斂速度.上述內(nèi)在動機(jī)方法引入額外的網(wǎng)絡(luò)計算內(nèi)在獎勵,并引入額外的偏差,在一定程度上影響智能體訓(xùn)練.

    在人類行為塑造中,情緒起到關(guān)鍵作用.人類和其它動物在學(xué)習(xí)和探索過程中也會使用情緒傳達(dá)關(guān)于個體內(nèi)部狀態(tài)的信息,這種方式與語言無關(guān)[10],具有一定的通用性.另一方面,情緒通過提供對過去、現(xiàn)在和未來情況的反饋塑造行為[11],這種反饋在影響行為選擇時,總是使行為偏向某個特定方向.當(dāng)智能體選擇并執(zhí)行一個動作,到達(dá)新的狀態(tài)時,如果獎勵高于預(yù)期或情況優(yōu)于預(yù)期,智能體將產(chǎn)生積極情緒,從而指導(dǎo)智能體在該狀態(tài)下更多地選擇這一動作.情緒的加入使智能體能感受到自身行動的優(yōu)劣,通過為其增加內(nèi)在獎勵的方式,幫助智能體調(diào)整行為策略,緩解稀疏獎勵問題.

    借鑒情緒對決策的重要作用,本文提出基于個體落差情緒的多智能體協(xié)作算法(Multi-agent Cooperative Algorithm Based on Individual Gap Emo-tion, IGE).遵循CTDE(Centralized Training with Decentralized Execution)[12]框架,學(xué)習(xí)一個集中但分解的評論家,將集中式評論家分解為以自身觀測為條件的單個評論家的加權(quán)線性組合.集中式策略梯度估計器直接優(yōu)化整個聯(lián)合動作空間,加強(qiáng)智能體間策略的協(xié)調(diào).綜合考慮多智能體系統(tǒng)中全局獎勵對每個智能體的不同影響,將個體動作值函數(shù)映射為落差情緒.該落差情緒直接與RL的學(xué)習(xí)過程關(guān)聯(lián),把智能體的個體落差情緒作為內(nèi)在情緒獎勵反饋到每個智能體.該獎勵在每個時間步分別刺激相應(yīng)的智能體,促進(jìn)智能體行為的多樣性,同時緩解稀疏獎勵問題.在不同稀疏程度的多智能體追捕任務(wù)上評估IGE,實驗表明,IGE在追捕成功率和收斂步數(shù)上均較優(yōu),能在獎勵稀疏的環(huán)境中更快地學(xué)會協(xié)作策略.

    1 相關(guān)工作

    1.1 多智能體深度確定性策略梯度算法

    多智能體深度確定性策略梯度算法(Multi-agent Deep Deterministic Policy Gradient, MADDP-G)[13]將深度確定性策略梯度算法(Deep Determi-nistic Policy Gradient, DDPG)擴(kuò)展到多智能體系統(tǒng),使用CTDE范式學(xué)習(xí)連續(xù)動作空間的確定性策略.為每個智能體建立一個中心化的評論家(Critic)網(wǎng)絡(luò),在訓(xùn)練階段使用所有智能體的信息而非僅使用個體信息,以此緩解多智能體系統(tǒng)的非平穩(wěn)問題.而在執(zhí)行階段策略(Actor)網(wǎng)絡(luò)僅根據(jù)當(dāng)前智能體的局部觀測信息oi選擇動作ai.

    在MADDPG中,集中式Critic網(wǎng)絡(luò)通過全局狀態(tài)s和所有智能體的動作{a1,a2,…,an}估計聯(lián)合動作值函數(shù)Qi,由φi參數(shù)化.最小化損失

    L(φi)=Es,a,r,s′[(y-Qi(s,a1,a2,…,an;φi))2]

    以訓(xùn)練集中式Critic網(wǎng)絡(luò),其中

    y=ri+γQ′i(s′,a′1,a′2,…,a′n;φ′i)|a′j=μ′j(oj),

    ri為智能體i收到的外在獎勵,{μ′1,μ′2,…,μ′n}為智能體的目標(biāo)策略集合,φ′i為目標(biāo)Critic網(wǎng)絡(luò)Q′i的參數(shù).

    MADDPG單獨(dú)計算策略梯度

    ?θiJ(μi)=

    Es,a~D[?θiμi(ai|oi)?aiQi(s,ai,…,an)|ai=μi(oi)],

    以更新每個智能體的策略μi(oi|θi).

    1.2 內(nèi)在獎勵

    內(nèi)在動機(jī)是心理學(xué)中一個被廣泛研究的領(lǐng)域,它關(guān)注由內(nèi)在滿足而不是結(jié)果驅(qū)動的行為[14].通過內(nèi)在動機(jī)計算額外的內(nèi)在獎勵以支持智能體訓(xùn)練,促進(jìn)智能體的探索.

    Tang等[15]提出基于計數(shù)(Count-Based)、可泛化到高維狀態(tài)空間的探索策略.使用狀態(tài)的訪問頻率衡量狀態(tài)的不確定性,訪問次數(shù)越少的狀態(tài)具有越強(qiáng)的新穎性.通過Hash函數(shù)將狀態(tài)映射到Hash表進(jìn)行計數(shù),以與計數(shù)成反比的方式為智能體提供內(nèi)在獎勵,實現(xiàn)在高維狀態(tài)空間中應(yīng)用基于計數(shù)的探索方法,取得較優(yōu)效果.

    Pathak等[8]提出ICM(Intrinsic Curiosity Mo-dule),學(xué)習(xí)有效的觀測表示.使用逆環(huán)境模型獲取狀態(tài)的特征表示,去除環(huán)境模型中與動作無關(guān)的部分.通過前向動態(tài)模型的預(yù)測誤差作為鼓勵其好奇心的內(nèi)在獎勵,促進(jìn)智能體的探索.

    Badia等[16]提出NGU(Never Give Up),基于智能體最近經(jīng)驗的k近鄰構(gòu)建基于情景記憶的內(nèi)在獎勵,并通過長期新穎性模塊使智能體保持持久好奇心,以此訓(xùn)練定向探索策略,鼓勵智能體訪問其環(huán)境中的所有狀態(tài).

    1.3 情緒與強(qiáng)化學(xué)習(xí)

    情緒在學(xué)習(xí)中扮演著重要的角色,通過激發(fā)生理信號,使行為偏向于獎勵最大化和懲罰最小化.

    目前也有學(xué)者將情緒結(jié)合RL.Horio等[17]通過基于蒙特卡洛方法的學(xué)習(xí)調(diào)整情緒,根據(jù)自己的位置與他人位置之間的關(guān)系,選擇要執(zhí)行的協(xié)作動作,并結(jié)合由強(qiáng)化學(xué)習(xí)獲得的戰(zhàn)略決策訓(xùn)練智能體.Salichs等[18]提出基于價值的情緒激發(fā)方法,對特定狀態(tài)的恐懼建模為與該狀態(tài)相關(guān)的最糟糕的歷史動作值,建立的模型會記住它應(yīng)該害怕的特定壞位置.上述方法僅適用于離散動作空間且狀態(tài)空間較小,難以泛化到高維連續(xù)動作空間.

    針對情緒在多智能體復(fù)雜決策中的應(yīng)用,方寶富等[19]側(cè)重考慮智能體的異構(gòu)性,根據(jù)智能體自身的個性特點(diǎn)建立情感模型,經(jīng)歷衰減和刺激后生成具有自身個性特征的情感值,基于情感值生成智能體的內(nèi)在獎勵.但是,該方法需要事先設(shè)定每個智能體的個性特征,不同的個性將導(dǎo)致不同的策略方案,缺乏對環(huán)境的通用性,并且也未充分考慮總體獎勵對每個智能體的不同影響.

    2 基于個體落差情緒的多智能體協(xié)作算法

    情緒是智能體的一種內(nèi)在屬性,與智能體行為選擇機(jī)制密切相關(guān).受此啟發(fā),綜合考慮全局團(tuán)隊獎勵對多智能體系統(tǒng)中每個智能體的不同影響,提出基于個體落差情緒的多智能體協(xié)作算法(IGE).為每個智能體建立落差情緒模型,作為內(nèi)在動機(jī)機(jī)制,該情緒模型僅以自身觀測信息作為條件,以每個智能體產(chǎn)生不同的內(nèi)在情緒獎勵作為外在獎勵的有效補(bǔ)充,以此緩解稀疏獎勵問題,并促進(jìn)智能體行為多樣化.

    2.1 個體落差情緒

    情緒是對外部事件或內(nèi)部事件的反應(yīng),事件是一種狀態(tài)變化[20].這一變化是否具有象征意義并不重要,重要的是,生物體能推斷出相比之前情況發(fā)生的變化.在大多數(shù)認(rèn)知情緒理論中,情緒與狀態(tài)變化有關(guān)[21].由于情緒是對事件的反應(yīng),這意味著情緒總是包含對狀態(tài)變化的積極評估和消極評估.

    基于上述特點(diǎn),本文提出落差情緒概念,基于個體相關(guān)性,由預(yù)期結(jié)果與實際情況之間的差異產(chǎn)生落差情緒,這里的預(yù)期是指對未來可能狀態(tài)的預(yù)測.落差情緒定義如下:

    Eg=Φ′(s)-Φ(s),

    其中,Φ′、Φ分別表示對事件的預(yù)期評價與實際評價,s表示狀態(tài)信息.

    本文中的情緒并不意味著智能體應(yīng)該“了解自己的情緒”.情緒更多來自于RL學(xué)習(xí)過程的各方面(如價值函數(shù)),且在學(xué)習(xí)趨同后也可能持續(xù)存在[22].因此,在強(qiáng)化學(xué)習(xí)中,可通過價值函數(shù)衡量預(yù)期評價與實際評價.落差情緒通過預(yù)期評價與實際評價之間差值的正負(fù),反映個體對事件積極評價和消極評價.通過落差情緒提供的反饋信息,個體可調(diào)整未來的行為趨勢.

    2.2 基于落差情緒的內(nèi)在情緒獎勵

    將情緒引入強(qiáng)化學(xué)習(xí)中并進(jìn)行量化分析,智能體根據(jù)量化的情緒模型將感知的狀態(tài)信息映射為相應(yīng)的情緒值,將情緒值進(jìn)行加權(quán)處理,作為最終的內(nèi)在情緒獎勵信號.

    在RL中量化落差情緒時,若采用狀態(tài)值函數(shù),則意味著狀態(tài)本身導(dǎo)致情緒的產(chǎn)生,類似人類的狀態(tài)評估,當(dāng)處于絕境時,會直接影響心情的好壞.而采用動作值函數(shù)量化情緒,更側(cè)重于動作選擇的影響.綜合考慮后,本文采用動作值函數(shù)量化落差情緒.強(qiáng)化學(xué)習(xí)中動作值函數(shù)表示智能體在當(dāng)前狀態(tài)下采取行動獲得的預(yù)期累積獎勵,以此作為對當(dāng)前狀態(tài)的評價.

    在多智能體系統(tǒng)中,聯(lián)合動作空間會隨著智能體數(shù)目呈指數(shù)增長,難以單純學(xué)習(xí)以全局狀態(tài)和聯(lián)合動作為條件的集中式情感模型,會造成過大偏差,并且該集中式情感模型未充分體現(xiàn)多智能體系統(tǒng)中個體之間的差異.因此,本文學(xué)習(xí)集中但分解的Critic網(wǎng)絡(luò),通過個體Critic建模情緒,充分考慮個體間的差異性,同時緩解狀態(tài)空間和動作空間增長造成的難訓(xùn)練問題.在AC(Actor-Critic)框架中采用值分解方法,相比基于價值的值分解方法,集中式Critic網(wǎng)絡(luò)的設(shè)計不受約束[23].所有智能體共享一個集中式Critic網(wǎng)絡(luò),聯(lián)合動作值函數(shù)Qtot被分解為

    集中但分解的Critic網(wǎng)絡(luò)通過最小化

    L(φ)=ED[(ytot-Qtot(s,τ,a;φ))2]

    (1)

    進(jìn)行訓(xùn)練,其中

    ytot=rex+γQ′tot(s′,τ′,a′;φ′),

    落差情緒中預(yù)期結(jié)果與實際情況的差值可由TD誤差計算.強(qiáng)化學(xué)習(xí)中TD根據(jù)當(dāng)前獲得的獎勵和對未來獎勵的預(yù)測,估計情境變得更好或更壞的程度,通過TD誤差可反映智能體對事件的積極評價和消極評價.

    但是,生物往往通過獎勵而非懲罰學(xué)習(xí)新技能,頻繁的懲罰只會使學(xué)習(xí)者因為恐懼而停止[20].受此啟發(fā),本文在落差情緒定義的基礎(chǔ)上,通過實際結(jié)果與預(yù)期評價之間的相對距離計算落差情緒值,以此反映個體對環(huán)境的掌控力度,鼓勵智能體提高積極情緒.并且引入最大控制力常量ξ,若相對差值大于ξ,表明情緒波動較大,對環(huán)境的掌控力較弱,給予消極評價,反之亦然.本文以上述方式對事件進(jìn)行積極評價和消極評價.

    個體落差情緒反映個體對其能力的主觀評價,表明個體對環(huán)境模型的控制力度(即對環(huán)境變化的預(yù)測能力),對環(huán)境模型預(yù)測越準(zhǔn)確,意味著個體對環(huán)境的控制力越強(qiáng).每次更新時Q值變化越大,意味著智能體在該“狀態(tài)-動作”下的策略越不穩(wěn)定,離到達(dá)收斂越遠(yuǎn),即控制力越小,而隨著智能體的學(xué)習(xí),控制力會逐漸提高.

    將個體落差情緒映射到內(nèi)在情緒獎勵,對落差情緒值進(jìn)行加權(quán),得到每個智能體的內(nèi)在情緒獎勵:

    (2)

    2.3 基于內(nèi)在情緒獎勵的多智能體算法

    基于個體落差情緒的內(nèi)在情緒獎勵可準(zhǔn)確分配給特定的智能體,因此單獨(dú)最大化內(nèi)在獎勵比聯(lián)合最大化所有智能體的內(nèi)在獎勵總和更有效[24].

    (3)

    ?φiJ(φi)=

    (4)

    以此提高全局獎勵和內(nèi)在情緒獎勵,而非直接將內(nèi)在情緒獎勵加入聯(lián)合動作值函數(shù)的TD 誤差中,該輔助梯度方式不會導(dǎo)致原來的TD 誤差增加.同時混合網(wǎng)絡(luò)參數(shù)仍通過原有聯(lián)合動作值函數(shù)的TD誤差δtot進(jìn)行更新.由于未引入內(nèi)在獎勵的影響,因此不會因為引入內(nèi)在情緒獎勵導(dǎo)致過高的TD誤差,從而影響智能體的訓(xùn)練.

    圖1 IGE整體架構(gòu)

    在更新智能體策略網(wǎng)絡(luò)時,IGE使用一個集中式梯度估計器優(yōu)化整個動作空間,而非分別優(yōu)化每個智能體的動作空間,以此實現(xiàn)智能體間策略的更好協(xié)調(diào).集中式策略梯度

    ?ψJ(μ)=
    Es,a~D[?ψμ?aQtot(s,a1,a2,…,an)|ai=μi(oi)],

    (5)

    其中,

    μ={μ1(o1;ψ1),μ2(o2;ψ2),…,μn(on;ψn)}

    為所有智能體的當(dāng)前策略集合,

    ψ={ψ1,ψ2,…,ψn}

    為智能體策略參數(shù)集合,D為經(jīng)驗緩沖池.

    本文方法是異策略(Off-Policy)算法,環(huán)境的外在獎勵存放在經(jīng)驗緩沖區(qū)中,因為個體動作值函數(shù)在智能體學(xué)習(xí)過程中不斷改變,所以在每次更新之前,需要在采樣批次中重新計算內(nèi)在情緒獎勵.

    IGE完整訓(xùn)練過程如算法1所示.

    算法 1IGE

    初始化智能體網(wǎng)絡(luò)的權(quán)重參數(shù)ψ,

    價值網(wǎng)絡(luò)的權(quán)重參數(shù)φ,

    內(nèi)在情緒網(wǎng)絡(luò)的權(quán)重參數(shù)θ,

    混合網(wǎng)絡(luò)的權(quán)重參數(shù)φ,經(jīng)驗池D,

    對應(yīng)目標(biāo)網(wǎng)絡(luò)的權(quán)重參數(shù)

    φ′=φ,ψ′=ψ,θ′=θ,φ′=φ.

    fort=1 toTdo

    對于每個智能體i,選擇動作ai~μi(oi)+ε.

    執(zhí)行動作a=(a1,a2,…,an),得到獎勵r及下一

    個狀態(tài)s′.

    在經(jīng)驗池D中存儲(s,a,r,s′).

    s←s′.

    以均勻分布在D中采樣N條記錄.

    for agenti=1 tondo

    最小化損失函數(shù)(3)以更新內(nèi)在情緒網(wǎng)絡(luò)的權(quán)

    重參數(shù)θi.

    根據(jù)式(4)計算的策略梯度更新價值網(wǎng)絡(luò)的權(quán)

    重參數(shù)φi.

    end for

    通過最小化損失函數(shù)(1)更新混合網(wǎng)絡(luò)gφ.

    通過集中式策略梯度(5)更新智能體網(wǎng)路μψi.

    更新目標(biāo)網(wǎng)絡(luò):

    φ′=τφ+(1-τ)φ′,ψ′=τψ+(1-τ)ψ′,

    θ′=τθ+(1-τ)θ′,φ′=τφ+(1-τ)φ′.

    end for

    3 實驗及結(jié)果分析

    本文以多智能體追捕任務(wù)為實驗場景,在3種不同稀疏程度的追捕環(huán)境中進(jìn)行實驗,包括單目標(biāo)追捕、多目標(biāo)追捕和協(xié)作追捕.在這些環(huán)境中將IGE與多種基線方法進(jìn)行對比.

    3.1 實驗環(huán)境

    多智能體追捕環(huán)境改編自Lowe等[13]原始 Predator-Prey 環(huán)境,引入追捕半徑同時允許智能體死亡,取消根據(jù)距離人為設(shè)置的密集獎勵,以此驗證多智能體稀疏獎勵問題.

    追捕環(huán)境設(shè)置為:在一個二維世界中,有n位追捕者(研究主體)和m位逃跑者(任務(wù)目標(biāo)),只能控制追捕者,逃跑者是隨機(jī)智能體.所有智能體可出現(xiàn)在二維世界中任意位置,并向任意方向移動.追捕者的目標(biāo)是協(xié)調(diào)以盡可能少的步驟捕獲逃跑者.每位追捕者的狀態(tài)包括當(dāng)前位置和速度、其它智能體的相對位置及逃跑者的速度,追捕者的動作空間是二維連續(xù)動作空間,取值范圍為[-1,1].追捕者的追捕半徑為0.15,當(dāng)逃跑者與追捕者的距離小于追捕半徑時逃跑者被捕獲,被捕獲的逃跑者會死亡.

    實驗環(huán)境如圖2所示.有3位追捕者(紅色)和一位逃跑者(紫色).黑色圓形表示障礙物,可以阻礙雙方的行動.淺紅色圓圈表示該追捕者的追捕范圍,追捕范圍的數(shù)值可控.

    圖2 實驗環(huán)境

    本文共設(shè)計3組實驗,分別從目標(biāo)數(shù)量和追捕條件的角度對環(huán)境中獎勵稀疏級別進(jìn)行分級,如表1所示.

    表1 實驗環(huán)境稀疏等級

    1)單目標(biāo)追捕.逃跑者數(shù)量為單人,所有追捕者合圍逃跑者,僅當(dāng)追捕到逃跑者時全局獎勵+5,同時任務(wù)結(jié)束,中間其它時間步不獲得獎勵.

    2)多目標(biāo)追捕.逃跑者數(shù)量為多人,追捕到其中一位逃跑者不獲得獎勵,僅當(dāng)所有逃跑者都被捕獲時才獲得全局獎勵.相比單目標(biāo)追捕,多目標(biāo)環(huán)境的獎勵稀疏程度更高,同時隨著智能體數(shù)目的增加,訓(xùn)練難度也相應(yīng)提高.

    3)協(xié)作追捕.考慮多智能體間的協(xié)作,設(shè)置追捕者處于弱勢,需要兩位及以上追捕者同時追到逃跑者,該逃跑者才會被捕獲.若逃跑者只被一個追捕者追到,捕獲失敗,無法獲得全局獎勵.相比只需一位追捕者就能成功捕獲的情況,協(xié)作追捕環(huán)境需要更強(qiáng)的協(xié)作能力,同時減弱環(huán)境的隨機(jī)性,稀疏程度相應(yīng)增加.

    3.2 對比方法和評價指標(biāo)

    在3種不同稀疏程度的追捕實驗中選擇如下對比算法:1)使用原始架構(gòu)的MADDPG[13],使用內(nèi)在獎勵解決稀疏問題的算法;2)ICM[8],使用前向動態(tài)模型的預(yù)測誤差作為鼓勵好奇心的內(nèi)在獎勵;3)NGU[16],通過長期新穎模塊和情節(jié)內(nèi)新穎模塊計算內(nèi)在獎勵;4)基于計數(shù)的算法(簡記為Count)[15],使用狀態(tài)的訪問頻率衡量狀態(tài)的不確定性.

    在實驗中,為了保持相對的公平性,所有多智能體算法的策略和評論網(wǎng)絡(luò)都由MLP(Multilayer Perceptron)參數(shù)化,折扣因子γ設(shè)置為0.97,所有模型都由自適應(yīng)矩估計(Adaptive Moment Estimation, Adam)優(yōu)化器訓(xùn)練[26],學(xué)習(xí)率設(shè)置為1e-3.最大時間步設(shè)置為25.當(dāng)所有逃跑者都被追捕成功或達(dá)到最大時間步后,一個情節(jié)終止.每100個情節(jié)后暫停訓(xùn)練并獨(dú)立運(yùn)行10個情節(jié)進(jìn)行評估.目標(biāo)網(wǎng)絡(luò)采用軟更新方式,更新率τ=0.001.

    每組實驗分別從測試勝率和收斂步數(shù)進(jìn)行分析對比.測試勝率指追捕者在一定時間內(nèi)追捕到所有逃跑者的情節(jié)數(shù)占總測試情節(jié)數(shù)的百分比,平均追捕步數(shù)指在總測試情節(jié)中,追捕到所有逃跑者所需的平均時間步.

    3.3 實驗結(jié)果

    在3種不同稀疏程度的追捕場景中對每種算法進(jìn)行評估,每個場景中每種算法按照不同的隨機(jī)種子運(yùn)行5次,本節(jié)所有實驗圖中實線表示5次運(yùn)行結(jié)果的均值,誤差帶表示5次運(yùn)行結(jié)果的95%置信區(qū)間.

    3.3.1 單目標(biāo)追捕

    在本次實驗中,設(shè)置追捕者數(shù)量為3,逃跑者數(shù)量為1,即設(shè)定一個3追1的單目標(biāo)追逃場景.只有最終追到逃跑者時追捕者才獲得全局獎勵,其余中間時間步均不獲得獎勵.

    在單目標(biāo)追捕環(huán)境中不同方法的性能對比如圖3所示.

    (a)追捕成功率 (b)追捕時間步

    由圖3可知,IGE在追捕成功率和追捕步數(shù)上均最優(yōu).相比基于內(nèi)在獎勵的算法,IGE收斂速度更快,表明內(nèi)在獎勵的設(shè)置有利于提高算法的學(xué)習(xí)效率,緩解稀疏獎勵問題.而MADDPG在單目標(biāo)追捕中也有相當(dāng)勝率,原因在于單目標(biāo)追捕中獎勵稀疏程度較弱,通過隨機(jī)方式也能探索到正向獎勵,以此更新策略逐漸提升得到獎勵的概率直至收斂.

    3.3.2 多目標(biāo)追捕

    為了增加環(huán)境中獎勵的稀疏程度,設(shè)置逃跑者數(shù)量為2,即設(shè)置一個3追2的多目標(biāo)追捕場景.相比單目標(biāo)追捕環(huán)境,此時只有兩位逃跑者都被追到時,才會獲得全局獎勵,因此外在獎勵更稀疏,同時智能體數(shù)量的增加也進(jìn)一步增加狀態(tài)空間的維度,智能體訓(xùn)練的難度更大.

    各算法在多目標(biāo)追捕中的性能對比如圖4所示.由圖可知,相比基于內(nèi)在獎勵的算法(ICM、Count),NGU在追捕勝率和收斂時間步上具有一定提升,這表明NGU能緩解內(nèi)在獎勵算法隨著訓(xùn)練進(jìn)行,環(huán)境狀態(tài)不再新穎,導(dǎo)致無法提供內(nèi)在獎勵的問題.而本文的內(nèi)在情緒獎勵直接與強(qiáng)化學(xué)習(xí)過程關(guān)聯(lián),也進(jìn)一步避免知識衰退這一問題.

    相比單目標(biāo)追捕場景,其它基線算法的追捕成功率和追捕所需步數(shù)均產(chǎn)生明顯下降,分析原因如下.一方面,多目標(biāo)環(huán)境的獎勵更稀疏,基于內(nèi)在獎勵的基線方法通過額外的網(wǎng)絡(luò)計算內(nèi)在獎勵,引入一定偏差.另一方面,基線算法均采用集中式Critic網(wǎng)絡(luò),簡單地將所有智能體的觀測連接到一個單一的輸入向量中,學(xué)習(xí)聯(lián)合動作值函數(shù),使學(xué)習(xí)一個好的集中式Critic網(wǎng)絡(luò)變得更困難.而相比之下,IGE性能下降較小,仍能達(dá)到90%以上的勝率,同時在追捕所需步數(shù)上也明顯最優(yōu).這是因為IGE的個體情緒獎勵與動作值函數(shù)關(guān)聯(lián),直接優(yōu)化強(qiáng)化學(xué)習(xí)的學(xué)習(xí)過程,引入的偏差較小.相比其它基線方法,IGE的內(nèi)在情緒獎勵僅需個體的觀測信息,緩解集中式的擴(kuò)展性問題,同時分解架構(gòu)也未忽略總體獎勵對個體的影響.

    (a)追捕成功率 (b)追捕時間步

    3.3.3 協(xié)作追捕

    從多智能體間協(xié)作的角度出發(fā),進(jìn)一步增加環(huán)境中獎勵的稀疏程度,需要兩位及以上追捕者同時追到逃跑者,該逃跑者才會死亡,即設(shè)置一個4追2協(xié)作追捕環(huán)境,該環(huán)境需要智能體間更高的協(xié)作能力.

    各算法在協(xié)作追捕中的性能對比如圖5所示.由圖可知,IGE在追捕成功率和收斂步數(shù)上仍最優(yōu),而基于內(nèi)在獎勵的基線算法的性能優(yōu)于MADDPG,說明內(nèi)在獎勵算法對智能體訓(xùn)練有一定的促進(jìn)作用,但對于智能體間協(xié)作能力的提升作用有限.相比ICM和Count,NGU在訓(xùn)練后期有較明顯的提升,這是由于NGU能克服上述兩種算法因持續(xù)訓(xùn)練而導(dǎo)致無法及時提供內(nèi)在獎勵的問題.相比之下,IGE在收斂速度上具有明顯提升,能更好地完成協(xié)作任務(wù).通過集中但分解的評論家,將全局獎勵進(jìn)行隱式分配,個體情緒獎勵分別刺激不同智能體,促進(jìn)智能體間的探索,并優(yōu)化整個聯(lián)合動作空間,避免陷入局部最優(yōu),以此促進(jìn)智能體間的協(xié)作.

    (a)追捕成功率 (b)追捕時間步

    3.4 消融實驗

    本節(jié)將對IGE進(jìn)行進(jìn)一步的消融研究,驗證加入個體落差情緒獎勵的有效性.選擇在3追2多目標(biāo)追捕環(huán)境中進(jìn)行實驗.IGE取消內(nèi)在情緒獎勵模塊后記作no-emotion,并與IGE在3追2多目標(biāo)追捕環(huán)境中進(jìn)行分析對比,以此反映情緒對多智能體訓(xùn)練的影響.

    具體消融實驗結(jié)果如圖6所示.圖中兩種算法按照不同的隨機(jī)種子運(yùn)行8次,誤差帶表示8次運(yùn)行結(jié)果的95%置信區(qū)間.由圖可知,no-emotion誤差帶較寬,反映算法結(jié)果波動較大,原因在于未加入情感模塊,算法通過隨機(jī)方式探索環(huán)境,存在一定的隨機(jī)誤差,導(dǎo)致訓(xùn)練困難甚至失敗.通過內(nèi)在情緒獎勵,可在一定程度上指導(dǎo)智能體的訓(xùn)練方向,促進(jìn)智能體更穩(wěn)定的訓(xùn)練,同時在一定程度上提高智能體的學(xué)習(xí)效率.

    (a)追捕成功率 (b)追捕時間步

    4 結(jié) 束 語

    針對多智能體系統(tǒng)中的稀疏獎勵問題,本文結(jié)合情緒與強(qiáng)化學(xué)習(xí),提出基于個體落差情緒的多智能體協(xié)作算法.基于個體的落差情緒生成智能體的內(nèi)在情緒獎勵,可分別刺激不同智能體,促進(jìn)智能體產(chǎn)生多樣性的行為,加強(qiáng)智能體間的協(xié)作.以該內(nèi)在情緒獎勵作為外在稀疏獎勵的有效補(bǔ)充,緩解稀疏獎勵問題.在不同稀疏程度的追捕環(huán)境中驗證算法的有效性和魯棒性.今后將研究抽象級別更高的情緒維度,豐富情緒的表示形式.

    猜你喜歡
    協(xié)作個體情緒
    團(tuán)結(jié)協(xié)作成功易
    關(guān)注個體防護(hù)裝備
    小情緒
    小情緒
    小情緒
    協(xié)作
    讀者(2017年14期)2017-06-27 12:27:06
    協(xié)作
    讀寫算(下)(2016年9期)2016-02-27 08:46:31
    個體反思機(jī)制的缺失與救贖
    可與您并肩協(xié)作的UR3
    How Cats See the World
    亚洲国产色片| 在线观看免费视频网站a站| 日韩欧美精品免费久久| 香蕉丝袜av| 国产av精品麻豆| 18禁动态无遮挡网站| 一本大道久久a久久精品| 精品一区二区免费观看| 日韩人妻精品一区2区三区| 国产av精品麻豆| 夫妻性生交免费视频一级片| 在线天堂中文资源库| 人人妻人人爽人人添夜夜欢视频| av网站在线播放免费| 国产白丝娇喘喷水9色精品| 超碰97精品在线观看| 亚洲一区中文字幕在线| 不卡av一区二区三区| 麻豆乱淫一区二区| 一本久久精品| 欧美国产精品va在线观看不卡| 国产成人aa在线观看| 国产精品国产三级国产专区5o| 99久久综合免费| 亚洲精品日本国产第一区| 午夜福利影视在线免费观看| 丝袜美足系列| 亚洲经典国产精华液单| 亚洲第一区二区三区不卡| 亚洲国产精品999| 亚洲精华国产精华液的使用体验| 日韩欧美一区视频在线观看| 在线观看www视频免费| 午夜激情av网站| 咕卡用的链子| 人人妻人人添人人爽欧美一区卜| 欧美日韩亚洲国产一区二区在线观看 | 宅男免费午夜| 亚洲一区中文字幕在线| 久久综合国产亚洲精品| 99热国产这里只有精品6| 亚洲精华国产精华液的使用体验| 免费在线观看视频国产中文字幕亚洲 | 国产国语露脸激情在线看| 成年人免费黄色播放视频| 天天躁狠狠躁夜夜躁狠狠躁| 国产精品国产三级国产专区5o| 免费观看性生交大片5| 国产麻豆69| 欧美精品一区二区大全| 日韩,欧美,国产一区二区三区| 精品国产超薄肉色丝袜足j| 丝袜美足系列| 久久人人爽av亚洲精品天堂| 国产亚洲午夜精品一区二区久久| av免费观看日本| 国产一区二区三区综合在线观看| 国产亚洲精品第一综合不卡| 国产爽快片一区二区三区| 欧美精品亚洲一区二区| 91在线精品国自产拍蜜月| 久久99热这里只频精品6学生| 国产成人av激情在线播放| 久久影院123| av天堂久久9| 中国国产av一级| 亚洲内射少妇av| 中文精品一卡2卡3卡4更新| 国产精品秋霞免费鲁丝片| 一级毛片 在线播放| 各种免费的搞黄视频| 五月伊人婷婷丁香| 国产一区二区在线观看av| 性少妇av在线| 免费不卡的大黄色大毛片视频在线观看| 国产成人精品婷婷| 夫妻午夜视频| 国产精品三级大全| 中国国产av一级| 中文字幕av电影在线播放| 91在线精品国自产拍蜜月| 一二三四中文在线观看免费高清| 亚洲 欧美一区二区三区| 久久久精品94久久精品| 国产亚洲最大av| 夫妻午夜视频| 免费av中文字幕在线| 又粗又硬又长又爽又黄的视频| 可以免费在线观看a视频的电影网站 | 欧美+日韩+精品| 成年动漫av网址| tube8黄色片| 午夜福利视频在线观看免费| 黑人巨大精品欧美一区二区蜜桃| 久久久久久久国产电影| 亚洲国产成人一精品久久久| 热re99久久精品国产66热6| 啦啦啦啦在线视频资源| 国产精品蜜桃在线观看| 丰满饥渴人妻一区二区三| 日韩一区二区三区影片| a 毛片基地| 一级a爱视频在线免费观看| 女性被躁到高潮视频| 王馨瑶露胸无遮挡在线观看| 99久久综合免费| 国产老妇伦熟女老妇高清| 国产精品免费视频内射| 国产精品国产三级国产专区5o| 久久精品夜色国产| 国产精品免费视频内射| 黄网站色视频无遮挡免费观看| 日韩中文字幕欧美一区二区 | 边亲边吃奶的免费视频| 91午夜精品亚洲一区二区三区| 久久99蜜桃精品久久| 视频区图区小说| av片东京热男人的天堂| xxx大片免费视频| 七月丁香在线播放| 啦啦啦在线观看免费高清www| xxx大片免费视频| 夫妻午夜视频| 久久热在线av| 亚洲精品av麻豆狂野| 91精品伊人久久大香线蕉| 在线观看免费高清a一片| 黑人猛操日本美女一级片| 久久人人爽av亚洲精品天堂| 91精品国产国语对白视频| 精品久久久精品久久久| a级毛片黄视频| 国产日韩欧美视频二区| 99re6热这里在线精品视频| 亚洲国产看品久久| 久久av网站| 国产精品.久久久| 免费观看av网站的网址| 一区二区三区精品91| 久久这里只有精品19| 日韩一卡2卡3卡4卡2021年| 美女xxoo啪啪120秒动态图| 夜夜骑夜夜射夜夜干| 最近2019中文字幕mv第一页| 国产片特级美女逼逼视频| 久久精品夜色国产| 免费少妇av软件| 夫妻性生交免费视频一级片| 伊人亚洲综合成人网| 成人国产av品久久久| 黄色视频在线播放观看不卡| 少妇人妻精品综合一区二区| 国产在线一区二区三区精| 国产精品国产av在线观看| 香蕉丝袜av| 男人操女人黄网站| 欧美中文综合在线视频| 精品国产国语对白av| 亚洲国产成人一精品久久久| 亚洲人成网站在线观看播放| 黄频高清免费视频| 国产熟女午夜一区二区三区| www.熟女人妻精品国产| 卡戴珊不雅视频在线播放| 亚洲精品第二区| h视频一区二区三区| 亚洲第一区二区三区不卡| 国产极品粉嫩免费观看在线| 免费av中文字幕在线| 在现免费观看毛片| 精品亚洲成a人片在线观看| 亚洲国产日韩一区二区| 边亲边吃奶的免费视频| xxx大片免费视频| 天天躁日日躁夜夜躁夜夜| 美女视频免费永久观看网站| 久久狼人影院| av.在线天堂| 亚洲色图 男人天堂 中文字幕| 伦理电影免费视频| www日本在线高清视频| 国产野战对白在线观看| 岛国毛片在线播放| 波多野结衣一区麻豆| 男女高潮啪啪啪动态图| 亚洲av免费高清在线观看| 久久久久久人人人人人| 18禁国产床啪视频网站| 大话2 男鬼变身卡| 久久久久久伊人网av| 精品国产超薄肉色丝袜足j| 久久精品久久久久久久性| 考比视频在线观看| 中文天堂在线官网| 日韩三级伦理在线观看| 国产精品久久久久久av不卡| 久久久久久久大尺度免费视频| 欧美在线黄色| 国产av精品麻豆| 国产极品粉嫩免费观看在线| av在线播放精品| 女的被弄到高潮叫床怎么办| 18禁国产床啪视频网站| 麻豆av在线久日| 有码 亚洲区| 国产精品免费视频内射| 久久这里有精品视频免费| 寂寞人妻少妇视频99o| 桃花免费在线播放| 性色avwww在线观看| 日本91视频免费播放| 在线天堂最新版资源| 成人国产av品久久久| 超色免费av| 青青草视频在线视频观看| 久久人人爽人人片av| 成年动漫av网址| av网站免费在线观看视频| 夫妻午夜视频| 午夜福利影视在线免费观看| 伊人久久国产一区二区| 十八禁网站网址无遮挡| 国产精品无大码| 久久99热这里只频精品6学生| 久热久热在线精品观看| 国产不卡av网站在线观看| 国产精品成人在线| 青青草视频在线视频观看| 国产成人欧美| 老汉色av国产亚洲站长工具| 看非洲黑人一级黄片| videossex国产| 自线自在国产av| 国产精品一区二区在线观看99| 久久久精品国产亚洲av高清涩受| 亚洲婷婷狠狠爱综合网| 久久久国产欧美日韩av| 日本免费在线观看一区| 亚洲国产欧美在线一区| 五月天丁香电影| 在线观看免费视频网站a站| 男的添女的下面高潮视频| 欧美少妇被猛烈插入视频| 国产片特级美女逼逼视频| h视频一区二区三区| a级毛片在线看网站| 亚洲av电影在线观看一区二区三区| 亚洲国产精品一区三区| 亚洲精品成人av观看孕妇| 亚洲男人天堂网一区| 欧美日韩视频精品一区| 中文字幕av电影在线播放| 三上悠亚av全集在线观看| 久久女婷五月综合色啪小说| 日韩制服骚丝袜av| 高清欧美精品videossex| 青春草视频在线免费观看| 肉色欧美久久久久久久蜜桃| 精品午夜福利在线看| 丝袜脚勾引网站| 久久精品熟女亚洲av麻豆精品| 中文天堂在线官网| 久久午夜综合久久蜜桃| 久久久久久免费高清国产稀缺| 在线精品无人区一区二区三| 日韩中字成人| 我的亚洲天堂| 精品亚洲乱码少妇综合久久| 亚洲av电影在线进入| 在线观看三级黄色| 丝袜脚勾引网站| 在线观看人妻少妇| 色网站视频免费| 在线观看三级黄色| 97人妻天天添夜夜摸| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲一码二码三码区别大吗| 制服人妻中文乱码| 丝袜在线中文字幕| 黑丝袜美女国产一区| 自拍欧美九色日韩亚洲蝌蚪91| 97精品久久久久久久久久精品| 18禁国产床啪视频网站| 日本色播在线视频| 美国免费a级毛片| 在线观看免费视频网站a站| 只有这里有精品99| 少妇猛男粗大的猛烈进出视频| 男女午夜视频在线观看| 人成视频在线观看免费观看| 丰满迷人的少妇在线观看| 亚洲精品国产av蜜桃| 在线天堂最新版资源| 久久久精品94久久精品| 亚洲av综合色区一区| 久久女婷五月综合色啪小说| 亚洲国产欧美在线一区| 秋霞在线观看毛片| 岛国毛片在线播放| 成人国语在线视频| 久久久久网色| 国产伦理片在线播放av一区| 看非洲黑人一级黄片| 一本大道久久a久久精品| 黄片小视频在线播放| 欧美日韩一级在线毛片| 免费观看无遮挡的男女| 欧美97在线视频| 一级,二级,三级黄色视频| 久久久久久久精品精品| 国产在线一区二区三区精| 欧美精品人与动牲交sv欧美| 亚洲国产精品一区三区| 韩国精品一区二区三区| 男女免费视频国产| 久久久国产一区二区| 亚洲精品成人av观看孕妇| 成人免费观看视频高清| 日韩三级伦理在线观看| 日韩中文字幕欧美一区二区 | 韩国av在线不卡| 久久久久久久久久久免费av| 国产精品人妻久久久影院| 一区二区三区激情视频| 久久久久久久久久人人人人人人| 欧美中文综合在线视频| 亚洲成人一二三区av| 欧美日韩一区二区视频在线观看视频在线| 久久ye,这里只有精品| 亚洲av在线观看美女高潮| 日韩人妻精品一区2区三区| 啦啦啦中文免费视频观看日本| 巨乳人妻的诱惑在线观看| 亚洲精品久久久久久婷婷小说| av在线播放精品| 亚洲国产毛片av蜜桃av| 国产精品成人在线| 丰满少妇做爰视频| 免费看不卡的av| 国产国语露脸激情在线看| 中文乱码字字幕精品一区二区三区| 久久av网站| 日韩三级伦理在线观看| 国产精品一二三区在线看| 成人亚洲欧美一区二区av| 在线观看国产h片| 丝袜喷水一区| 欧美精品一区二区免费开放| 精品久久久精品久久久| 国产成人一区二区在线| 国产一区亚洲一区在线观看| 韩国高清视频一区二区三区| 人体艺术视频欧美日本| 久久影院123| tube8黄色片| 国产精品无大码| 老司机亚洲免费影院| 老汉色av国产亚洲站长工具| 精品午夜福利在线看| 黄色 视频免费看| 国产有黄有色有爽视频| 久久热在线av| 免费少妇av软件| 观看av在线不卡| 五月天丁香电影| 看十八女毛片水多多多| 男女国产视频网站| 男女午夜视频在线观看| 香蕉国产在线看| 老司机影院成人| 九草在线视频观看| 欧美精品av麻豆av| tube8黄色片| 欧美日韩成人在线一区二区| 大片免费播放器 马上看| 日韩电影二区| 亚洲欧美成人综合另类久久久| 一级a爱视频在线免费观看| 亚洲成人av在线免费| 男女边吃奶边做爰视频| 天天躁夜夜躁狠狠躁躁| 麻豆av在线久日| 亚洲综合精品二区| 欧美黄色片欧美黄色片| xxx大片免费视频| 国产欧美日韩一区二区三区在线| 久久久久久久久久久久大奶| 好男人视频免费观看在线| 亚洲国产精品999| 日韩大片免费观看网站| 超碰97精品在线观看| 中文天堂在线官网| 性色avwww在线观看| 国产在线视频一区二区| 日本猛色少妇xxxxx猛交久久| 精品亚洲乱码少妇综合久久| 如日韩欧美国产精品一区二区三区| 嫩草影院入口| 欧美黄色片欧美黄色片| 久久久国产一区二区| 国产乱人偷精品视频| 国产精品偷伦视频观看了| 超碰成人久久| 国产成人精品福利久久| 免费av中文字幕在线| 国产日韩欧美亚洲二区| 免费观看a级毛片全部| 亚洲国产精品成人久久小说| 亚洲成色77777| 黑人欧美特级aaaaaa片| 天天影视国产精品| 亚洲熟女精品中文字幕| 丝袜脚勾引网站| 黑丝袜美女国产一区| 校园人妻丝袜中文字幕| 国产av一区二区精品久久| 色吧在线观看| 999精品在线视频| 精品福利永久在线观看| av国产久精品久网站免费入址| 欧美黄色片欧美黄色片| 各种免费的搞黄视频| 老汉色∧v一级毛片| 婷婷色麻豆天堂久久| 9191精品国产免费久久| 欧美激情 高清一区二区三区| 777米奇影视久久| 在线亚洲精品国产二区图片欧美| 婷婷色麻豆天堂久久| 国产精品熟女久久久久浪| 久久久久久久久久人人人人人人| 久久99热这里只频精品6学生| 成年动漫av网址| 少妇的丰满在线观看| 国产欧美日韩一区二区三区在线| 亚洲精品久久久久久婷婷小说| a级毛片黄视频| 国产av码专区亚洲av| 我的亚洲天堂| 国产成人午夜福利电影在线观看| 一本色道久久久久久精品综合| 免费黄网站久久成人精品| 日本av免费视频播放| 日韩 亚洲 欧美在线| 亚洲欧美精品自产自拍| 国产精品久久久久久av不卡| 不卡视频在线观看欧美| 久久影院123| 人妻 亚洲 视频| 国产男人的电影天堂91| 国产野战对白在线观看| 亚洲欧美成人综合另类久久久| 女人被躁到高潮嗷嗷叫费观| 亚洲精品久久久久久婷婷小说| 国产 精品1| 国产成人精品久久久久久| videossex国产| 岛国毛片在线播放| 日本爱情动作片www.在线观看| 国产精品国产av在线观看| 又粗又硬又长又爽又黄的视频| 欧美av亚洲av综合av国产av | 亚洲精品乱久久久久久| 亚洲精品一区蜜桃| 日韩精品有码人妻一区| 蜜桃国产av成人99| 国产精品偷伦视频观看了| 久久久久久久久久久久大奶| 91在线精品国自产拍蜜月| 熟女av电影| 国产亚洲最大av| 成人午夜精彩视频在线观看| 日韩三级伦理在线观看| 精品亚洲成a人片在线观看| 精品久久久久久电影网| 18禁观看日本| 香蕉国产在线看| 另类精品久久| 丝袜人妻中文字幕| 亚洲欧美一区二区三区国产| 日韩人妻精品一区2区三区| 下体分泌物呈黄色| 交换朋友夫妻互换小说| www日本在线高清视频| 亚洲欧美一区二区三区黑人 | 久久人妻熟女aⅴ| 王馨瑶露胸无遮挡在线观看| 色94色欧美一区二区| 嫩草影院入口| 国产成人精品在线电影| 9191精品国产免费久久| 90打野战视频偷拍视频| 啦啦啦在线免费观看视频4| 亚洲精品美女久久久久99蜜臀 | 满18在线观看网站| av不卡在线播放| 狠狠婷婷综合久久久久久88av| 色播在线永久视频| 亚洲中文av在线| av在线播放精品| 免费大片黄手机在线观看| 久久久久久久精品精品| 伦精品一区二区三区| 人人澡人人妻人| 国产伦理片在线播放av一区| 制服人妻中文乱码| 欧美老熟妇乱子伦牲交| 中文字幕最新亚洲高清| 亚洲视频免费观看视频| 久久影院123| 高清视频免费观看一区二区| 国产综合精华液| 中文字幕人妻丝袜一区二区 | 亚洲综合精品二区| 亚洲第一区二区三区不卡| 亚洲四区av| 国产av精品麻豆| 一本大道久久a久久精品| 大话2 男鬼变身卡| 下体分泌物呈黄色| 亚洲欧美精品自产自拍| 在线 av 中文字幕| 老鸭窝网址在线观看| 97人妻天天添夜夜摸| 1024视频免费在线观看| 麻豆精品久久久久久蜜桃| 亚洲精品久久久久久婷婷小说| 亚洲三区欧美一区| 18在线观看网站| 免费看av在线观看网站| 一区在线观看完整版| 免费黄网站久久成人精品| 亚洲伊人久久精品综合| 波多野结衣av一区二区av| av免费在线看不卡| 国产成人精品一,二区| 欧美精品国产亚洲| 考比视频在线观看| 9色porny在线观看| 亚洲,欧美,日韩| 亚洲,一卡二卡三卡| 性高湖久久久久久久久免费观看| 毛片一级片免费看久久久久| 久久久久国产网址| 日本爱情动作片www.在线观看| 国产欧美亚洲国产| 久久午夜福利片| 欧美xxⅹ黑人| 国产 精品1| 国产精品偷伦视频观看了| 久热久热在线精品观看| 国产国语露脸激情在线看| 极品少妇高潮喷水抽搐| 大码成人一级视频| 成年动漫av网址| 久久影院123| 黄色一级大片看看| 咕卡用的链子| 最近最新中文字幕大全免费视频 | 日韩制服骚丝袜av| 国产日韩欧美亚洲二区| 精品久久蜜臀av无| 考比视频在线观看| 亚洲情色 制服丝袜| 国产在线免费精品| 中文天堂在线官网| 免费黄色在线免费观看| av免费观看日本| av线在线观看网站| av又黄又爽大尺度在线免费看| 午夜福利乱码中文字幕| av天堂久久9| 国产欧美亚洲国产| 日韩免费高清中文字幕av| 一级毛片黄色毛片免费观看视频| 亚洲精品日本国产第一区| 2022亚洲国产成人精品| 欧美成人精品欧美一级黄| 欧美日韩一级在线毛片| 丁香六月天网| 黑人猛操日本美女一级片| 熟女av电影| 国产免费视频播放在线视频| 99国产综合亚洲精品| 曰老女人黄片| 街头女战士在线观看网站| 亚洲美女搞黄在线观看| 国产一区亚洲一区在线观看| 日韩精品免费视频一区二区三区| 国产一区二区 视频在线| av有码第一页| 在现免费观看毛片| 在线观看免费日韩欧美大片| 伊人久久大香线蕉亚洲五| 久久久久国产一级毛片高清牌| 国产成人午夜福利电影在线观看| 亚洲精品久久午夜乱码| 亚洲人成77777在线视频| 男人爽女人下面视频在线观看| 2022亚洲国产成人精品| 久久久久久人妻| 亚洲av福利一区| 国产毛片在线视频| videossex国产| 精品人妻偷拍中文字幕| 日韩一区二区三区影片| 一区二区三区精品91| 亚洲欧美一区二区三区国产| 国产 一区精品| 极品少妇高潮喷水抽搐| 欧美中文综合在线视频| 捣出白浆h1v1| 欧美 亚洲 国产 日韩一| freevideosex欧美| 自线自在国产av|