• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于優(yōu)先經(jīng)驗(yàn)回放的多智能體協(xié)同算法

    2021-09-21 08:27:18黃子蓉甯彥淞
    太原理工大學(xué)學(xué)報 2021年5期
    關(guān)鍵詞:發(fā)射塔漫游者經(jīng)驗(yàn)

    黃子蓉,甯彥淞,王 莉

    (太原理工大學(xué) 大數(shù)據(jù)學(xué)院,山西 晉中 030600)

    協(xié)作是多智能體系統(tǒng)的核心,智能體間通過協(xié)調(diào)配合可提高團(tuán)隊(duì)協(xié)作效率且獲得更高的利益。深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)自學(xué)習(xí)、自適應(yīng)的能力和強(qiáng)化學(xué)習(xí)感知試錯能力,在多智能體協(xié)同中取得了階段性成果,如星際爭霸Ⅱ[1]、交通樞紐任務(wù)[2]、飛機(jī)編隊(duì)[3]等。但基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法仍然存在經(jīng)驗(yàn)數(shù)據(jù)回放、可擴(kuò)展性和合作性能等諸多方面的挑戰(zhàn)。

    On-policy強(qiáng)化學(xué)習(xí)算法中,智能體與環(huán)境交互一次獲得的經(jīng)驗(yàn)元組(st,at,rt,st+1)僅利用一次便被拋棄。為了重復(fù)利用歷史經(jīng)驗(yàn)數(shù)據(jù),DQN(Deep Q-Networks)算法中引入經(jīng)驗(yàn)回放緩存機(jī)制[4-5],將歷史數(shù)據(jù)存入經(jīng)驗(yàn)回放緩存池中,極大地提高了經(jīng)驗(yàn)利用率。但先前的工作采取隨機(jī)采樣方式回放經(jīng)驗(yàn)或僅采樣近期經(jīng)驗(yàn)數(shù)據(jù),忽略了經(jīng)驗(yàn)數(shù)據(jù)的優(yōu)先級,這可能造成成功經(jīng)驗(yàn)很快被遺忘或成功經(jīng)驗(yàn)較少的問題。SCHAUL et al[6]研究者提出的PER(prioritized experience replay)算法對經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行優(yōu)先級評估和排序,在采樣時選取優(yōu)先級較高的經(jīng)驗(yàn)進(jìn)行模型訓(xùn)練。該算法使重要經(jīng)驗(yàn)被回放的概率增大,增加了模型采樣效率和學(xué)習(xí)效率。但這種算法僅關(guān)注單智能體環(huán)境,隨著科技的發(fā)展,人們不再僅滿足于用深度強(qiáng)化學(xué)習(xí)算法控制單智能體,基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同研究逐步進(jìn)入人們視野。如何在多智能體環(huán)境中有效利用歷史經(jīng)驗(yàn)且提高采樣效率和合作性能成為關(guān)鍵研究挑戰(zhàn)。

    多智能體合作環(huán)境中,集中訓(xùn)練分散執(zhí)行的框架已被證明是處理智能體間合作的有效范式。訓(xùn)練階段,集中訓(xùn)練的框架允許每個智能體的評判網(wǎng)絡(luò)使用其他智能體的狀態(tài)和動作信息,幫助智能體更好地合作。執(zhí)行階段,分散執(zhí)行的框架使智能體僅依賴它自身的觀測進(jìn)行決策。這一范式解決了多智能體環(huán)境非平穩(wěn)問題。當(dāng)面對連續(xù)型環(huán)境時,MADDPG(multi-agent deep deterministic policy gradient)算法[7]成為提升智能體間合作性能的代表性方法。MADDPG算法遵循集中訓(xùn)練分散執(zhí)行框架, 每個智能體有自己獨(dú)立的Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò),Critic網(wǎng)絡(luò)以所有智能體的觀測和動作為輸入,解決了多智能體環(huán)境非平穩(wěn)性問題。但當(dāng)環(huán)境中智能體數(shù)量增多時,狀態(tài)動作空間的大小呈指數(shù)型增長,造成可擴(kuò)展性差的問題。且MADDPG算法僅選取近期經(jīng)驗(yàn)進(jìn)行回放,使之前的經(jīng)驗(yàn)被遺忘,經(jīng)驗(yàn)利用率低。MAAC算法[8]嘗試解決上述問題。首先,MAAC算法學(xué)習(xí)帶有注意力機(jī)制的Critic網(wǎng)絡(luò),注意力機(jī)制使智能體動態(tài)地選取周邊信息,改善了智能體在復(fù)雜環(huán)境中的合作性能。同時,模型的輸入維度隨智能體的增長呈線性增長趨勢,而非之前工作中的二次增長,一定程度上解決了可擴(kuò)展性差的問題。其次,MAAC算法采用隨機(jī)采樣的方式進(jìn)行經(jīng)驗(yàn)回放,利用了歷史經(jīng)驗(yàn),但該算法仍忽略了歷史經(jīng)驗(yàn)的重要程度。本文擴(kuò)展了MAAC算法,提出一種基于優(yōu)先經(jīng)驗(yàn)回放的多智能體協(xié)同算法(prioritized experience replayfor multi-agent cooperation,PEMAC)。

    該算法的主要貢獻(xiàn)為:

    1) 在多智能體系統(tǒng)中,算法基于TD誤差求出每條經(jīng)驗(yàn)數(shù)據(jù)的優(yōu)先級,每次采樣均采取優(yōu)先級較高的經(jīng)驗(yàn)數(shù)據(jù)更新網(wǎng)絡(luò)。PEMAC算法提升了訓(xùn)練數(shù)據(jù)的質(zhì)量,從而提升了模型收斂速度和智能體的合作性能。

    2) PEMAC算法使用了基于注意力機(jī)制的Critic網(wǎng)絡(luò)學(xué)習(xí)智能體間的合作,使智能體動態(tài)地選取周邊信息,一定程度上實(shí)現(xiàn)多智能體系統(tǒng)的可擴(kuò)展性。算法適用于合作、競爭和合作競爭混合的環(huán)境。

    1 相關(guān)工作

    深度強(qiáng)化學(xué)習(xí)已有很長的發(fā)展歷史。其中,幾個關(guān)鍵的研究點(diǎn)為:智能體如何使用歷史經(jīng)驗(yàn)提高經(jīng)驗(yàn)利用率;智能體如何提高合作性能;面對智能體數(shù)量較多的環(huán)境時模型的可擴(kuò)展性等。

    針對智能體經(jīng)驗(yàn)利用率問題,MNIH et al[5]提出的DQN算法引入經(jīng)驗(yàn)回放緩存機(jī)制,將經(jīng)驗(yàn)元組存入經(jīng)驗(yàn)回放緩存池中,極大地提高了經(jīng)驗(yàn)利用率。但其對所有數(shù)據(jù)均勻采樣,忽略了經(jīng)驗(yàn)數(shù)據(jù)的重要程度。SCHAUL et al[6]提出的PER算法對經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行優(yōu)先級評估和排序,采樣時選取優(yōu)先級較高的經(jīng)驗(yàn)進(jìn)行模型訓(xùn)練,使高優(yōu)先級的經(jīng)驗(yàn)被回放的概率增大,增加了模型采樣效率和學(xué)習(xí)效率。HOU et al[9]學(xué)者將PER算法引入DDPG(deep deterministic policy gradient)算法中,進(jìn)一步提高了DDPG算法中經(jīng)驗(yàn)回放機(jī)制的效率,從而加速訓(xùn)練過程。SHEN et al[10]將TD誤差的分布進(jìn)行分段,然后根據(jù)更新后的TD誤差對經(jīng)驗(yàn)進(jìn)行分類,實(shí)現(xiàn)相似經(jīng)驗(yàn)的交換機(jī)制,改變經(jīng)驗(yàn)池中的經(jīng)驗(yàn)的生命周期。這一算法降低了經(jīng)驗(yàn)池大小,節(jié)約了系統(tǒng)內(nèi)存。BU et al[11]提出DPSR算法為經(jīng)驗(yàn)元組中的舊狀態(tài)選擇新動作,計算新的TD誤差,將原始緩存池中TD誤差值最小經(jīng)驗(yàn)元組替換,解決了模型無法選擇TD誤差較小的經(jīng)驗(yàn)元組的問題。

    針對多智能體合作問題,集中訓(xùn)練分散執(zhí)行的框架已被證明是處理智能體間合作的一個有效范式。集中訓(xùn)練階段,智能體的評判網(wǎng)絡(luò)輸入所有智能體的狀態(tài)和動作,分散執(zhí)行階段智能體僅依賴它自身觀測和策略網(wǎng)絡(luò)進(jìn)行決策,評判網(wǎng)絡(luò)失效。這一框架中,VDN[12]和QMIX[13]算法學(xué)習(xí)聯(lián)合的動作值函數(shù),然后將其分解為智能體自身的值函數(shù),達(dá)成智能體間有效的合作。但這些方法僅適用于合作環(huán)境,且很難處理大的動作空間的游戲場景,尤其是具有連續(xù)動作空間的場景。COMA[14]和CoRe[15]算法使用反事實(shí)基線方法推斷每個智能體對團(tuán)隊(duì)利益的貢獻(xiàn),從而達(dá)成智能體間合作。每個智能體的反事實(shí)基線是通過比較智能體的聯(lián)合動作值函數(shù)和將其他智能體的動作固定后只改變當(dāng)前智能體的動作獲得的動作值函數(shù)得出的。然而這些方法必須為每個智能體所有給定動作都計算一條基線。當(dāng)智能體數(shù)量增多或智能體的動作空間較大時,這些方法將更難訓(xùn)練。且上述方法僅從環(huán)境中獲得聯(lián)合獎勵,對純合作環(huán)境適用,但對于競爭和合作競爭共存的環(huán)境不適用。

    MADDPG算法同樣遵循集中訓(xùn)練分散執(zhí)行的框架,該算法中每個智能體都有自身的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),所以適用于合作、競爭和合作競爭共存的環(huán)境。但MADDPG算法僅選取近期經(jīng)驗(yàn)進(jìn)行回放,使之前的經(jīng)驗(yàn)被遺忘,經(jīng)驗(yàn)利用率低,且模型無法通過經(jīng)驗(yàn)學(xué)習(xí)一個智能體間的顯式通信,模型的可擴(kuò)展性較差。MD-MADDPG算法[16]通過引入存儲設(shè)備,端到端的學(xué)習(xí)智能體間的顯式通信協(xié)議,提高智能體的合作性能。SMARL算法[17]提出一種基于Seq2eq序列多智能體強(qiáng)化學(xué)習(xí)算法,該算法將智能體策略網(wǎng)絡(luò)分解為動作網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)兩部分,可以適應(yīng)智能體規(guī)模動態(tài)變化的環(huán)境。BiC-DDPG算法[18]使用雙向RNN結(jié)構(gòu)實(shí)現(xiàn)信息通信。當(dāng)智能體合作時,算法采用了一種映射方法將連續(xù)的聯(lián)合動作空間輸出映射到離散的聯(lián)合動作空間,解決智能體在大型聯(lián)合動作空間上的決策問題。但大多數(shù)環(huán)境中通信信道、通信協(xié)議是不可用的或通信帶寬受限制,使智能體間可進(jìn)行交流的信息變少。MAAC算法擴(kuò)展了MADDPG算法,學(xué)習(xí)帶有注意力機(jī)制的Critic網(wǎng)絡(luò),降低模型輸入維度,一定程度上解決了可擴(kuò)展性差的問題。且該算法采用隨機(jī)采樣的方式進(jìn)行經(jīng)驗(yàn)回放,利用了歷史經(jīng)驗(yàn),但該算法仍忽略了歷史經(jīng)驗(yàn)的重要程度。本文基于MAAC算法提出一種基于優(yōu)先經(jīng)驗(yàn)回放的多智能體協(xié)同算法PEMAC.PEMAC算法為每條經(jīng)驗(yàn)元組計算優(yōu)先級,并基于這一優(yōu)先級選取歷史經(jīng)驗(yàn),訓(xùn)練Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)。

    2 基于優(yōu)先經(jīng)驗(yàn)回放的多智能體協(xié)同算法

    現(xiàn)實(shí)世界中,智能體往往通過不斷試錯,從錯誤經(jīng)驗(yàn)中學(xué)習(xí)知識,從而實(shí)現(xiàn)某一目標(biāo)。如人類在學(xué)會走路之前經(jīng)過了無數(shù)次摔跤。受這一思想的啟發(fā),本文提出了PEMAC算法。該算法利用TD誤差評估經(jīng)驗(yàn)元組的優(yōu)先級,然后選取優(yōu)先級大的經(jīng)驗(yàn)訓(xùn)練Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。同時考慮到智能體和環(huán)境交互時會選擇性地關(guān)注周邊智能體中的一些重要信息,這樣智能體能更好地做出決策。PEMAC算法在Critic網(wǎng)絡(luò)部分引入多頭自注意力機(jī)制,動態(tài)地選擇其要關(guān)注智能體的哪些信息,從而提高多智能體在復(fù)雜環(huán)境中的交互性能,網(wǎng)絡(luò)框架如圖1所示。

    圖1 PEMAC算法框架圖Fig.1 Architecture of PEMAC

    具體地,在經(jīng)驗(yàn)存儲和采樣階段,先初始化所有智能體在t時刻的狀態(tài),將狀態(tài)作為智能體的局部觀測o,o=s=(s1,t,…,sn,t),用參數(shù)θ={θ1,…,θn}初始化策略網(wǎng)絡(luò),策略網(wǎng)絡(luò)生成策略集π={π1,…,πn},然后智能體根據(jù)局部觀測和策略集做出t時刻的決策a,a=(a1,t,…,an,t),智能體在狀態(tài)s,執(zhí)行動作a,與環(huán)境交互獲得了獎勵r,r=(r1,t,…,rn,t),且智能體轉(zhuǎn)移到t+1時刻狀態(tài)s′=(s1,t+1,…,sn,t+1).之后將每個智能體的游戲軌跡四元組(si,t,ai,t,ri,t,si,t+1)和經(jīng)驗(yàn)優(yōu)先級Pi,t存入經(jīng)驗(yàn)回放緩存區(qū)~U(D).其中經(jīng)驗(yàn)優(yōu)先級Pi,t初始時刻均賦值為最大概率1.最后本文從U(D)中選取Pi,t值最大的一個批次的經(jīng)驗(yàn)作為模型訓(xùn)練數(shù)據(jù)集。

    在模型訓(xùn)練階段,每個智能體將自己t時刻的狀態(tài)和動作輸入各自評判網(wǎng)絡(luò)的全連接編碼器中,智能體i的編碼信息為ei,t,ei,t=gi(si,t,ai,t).gi為一層的MLP編碼器。然后對智能體的編碼信息進(jìn)行多頭自注意力選取,選取后的信息為(x1,t,…,xn,t).其中,

    xi,t=∑j≠iαjvj=∑j≠iαjh(Vej,t).

    (1)

    式中:V為一個共享的線性變換矩陣,h為非線性函數(shù)(本文選取ReLU函數(shù)),注意力權(quán)重αj為智能體i的信息編碼ei,t與線性變換矩陣Wq相乘后得到的鍵碼與鄰居智能體j的鍵碼求相似度得到,即:

    (2)

    接著將智能體i的編碼信息ei和其他智能體經(jīng)過注意力選取后的信息xi,t輸入到一個兩層的全連接網(wǎng)絡(luò)fi中,進(jìn)而得出智能體i的動作值函數(shù)Qi,即:

    (3)

    (4)

    (5)

    其中α是在獎勵值部分加入最大熵后的超參,遵循SAC算法模型。然后可通過TD誤差更新智能體i在t時刻的經(jīng)驗(yàn)元組的采樣概率Pi,t,具體地:

    (6)

    pi=|LQi(ψ)|+ε.

    (7)

    其中指數(shù)σ決定使用多少優(yōu)先級,當(dāng)σ=0時為均勻采樣。參數(shù)μ和β是結(jié)合貪婪優(yōu)選算法和隨機(jī)選擇的優(yōu)點(diǎn),保證經(jīng)驗(yàn)元組的更新概率是單調(diào)的,同時也保證了所有經(jīng)驗(yàn)元組以較高的概率更新經(jīng)驗(yàn)回放緩存池,而低優(yōu)先級的經(jīng)驗(yàn)元組也可以一定概率更新緩存池。ε為正數(shù),防止TD誤差逼近0時,經(jīng)驗(yàn)元組的采樣概率逼近于0.此時策略網(wǎng)絡(luò)的更新變?yōu)椋?/p>

    (8)

    上述策略網(wǎng)絡(luò)更新中,PEMAC算法用反事實(shí)機(jī)制方法解決信度分配問題,即排除其他智能體對當(dāng)前智能體期望收益的影響。b(o,ai)是反事實(shí)基線,為:

    (9)

    3 實(shí)驗(yàn)

    獎勵(reward)是強(qiáng)化學(xué)習(xí)中一個重要的評估指標(biāo),它指導(dǎo)智能體優(yōu)化策略且反映了強(qiáng)化學(xué)習(xí)中任務(wù)的完成程度。 為了驗(yàn)證算法的有效性,本章以獎勵作為評價指標(biāo),分別基于合作尋寶[7]和漫游者-發(fā)射塔[8]兩種環(huán)境進(jìn)行了實(shí)驗(yàn)驗(yàn)證。合作尋寶和漫游者-發(fā)射塔環(huán)境是完全合作的環(huán)境,本文控制環(huán)境中所有的智能體。

    3.1 實(shí)驗(yàn)環(huán)境

    合作尋寶環(huán)境中,我方智能體必須在有限的步長內(nèi)協(xié)調(diào)它們的行為盡可能收集到所有寶藏。如圖2(a)所示,粉色的大圓代表我方智能體,其他顏色的小圓代表寶藏。我方智能體能觀察到其他智能體和寶藏的相應(yīng)位置。將智能體到寶藏的相對位置作為智能體的獎勵。這就意味著,我方智能體必須盡可能地尋找與自己距離最近的寶藏,同時避免與其他智能體到達(dá)相同的寶藏處。另外,智能體占據(jù)一定的物理空間,當(dāng)智能體間相互碰撞時會受到一定程度的懲罰。

    圖2 實(shí)驗(yàn)環(huán)境Fig.2 Experimental environment

    漫游者-發(fā)射塔環(huán)境中總共有2N個智能體,N個為漫游者,N個為發(fā)射塔。另外環(huán)境中設(shè)有N+1個隨機(jī)地標(biāo)。如圖2(b)所示,灰色智能體為發(fā)射塔,大圓表示漫游者,小圓表示隨機(jī)地標(biāo)。每次迭代中,漫游者和塔隨機(jī)配對。漫游者無法探知周邊環(huán)境和目標(biāo)地標(biāo)位置,其必須依賴于發(fā)射塔的通信。而發(fā)射塔可以定位漫游者的位置以及它們的目標(biāo)地標(biāo)。

    3.2 實(shí)驗(yàn)設(shè)置

    對于合作尋寶環(huán)境來說,為驗(yàn)證算法在智能體數(shù)量較多的環(huán)境中模型仍適用,本文分別設(shè)置了3個合作的智能體和4個合作的智能體。環(huán)境中目標(biāo)地標(biāo)寶藏的數(shù)量與智能體數(shù)量一致,即分別選取了3個寶藏和4個寶藏。各個智能體計算它距離各個寶藏的相對距離,然后智能體以距離它最近的寶藏與當(dāng)前智能體的相對距離的負(fù)值作為獎勵。但當(dāng)智能體間互相碰撞時,智能體得到-1的懲罰。

    對于漫游者-發(fā)射塔環(huán)境,本文設(shè)置了2個漫游者,2個發(fā)射塔,3個目標(biāo)地標(biāo)。漫游者以其與目標(biāo)地標(biāo)距離的負(fù)值作為獎勵,發(fā)射塔以與其配對的漫游者距離目標(biāo)地表的距離的負(fù)值作為獎勵。但當(dāng)智能體間互相碰撞時,智能體得到-1的懲罰。

    另外,本文選取當(dāng)前運(yùn)行的進(jìn)程數(shù)+當(dāng)前運(yùn)行次數(shù)×1 000作為隨機(jī)種子初始化環(huán)境。每輪游戲設(shè)置了25個步長。為證明算法有效性,本文中每種算法都在所有環(huán)境中獨(dú)立運(yùn)行了5次,獎勵選取5次運(yùn)行的平均結(jié)果。

    3.3 實(shí)驗(yàn)結(jié)果

    為驗(yàn)證PEMAC算法的有效性,本章選取MADDPG算法、MD-MADDPG算法和MAAC算法作為基線模型進(jìn)行對比試驗(yàn)。表1顯示了當(dāng)模型收斂時,所有環(huán)境中智能體所在團(tuán)隊(duì)5次運(yùn)行結(jié)果的平均獎勵。表中所示結(jié)果為未經(jīng)過平滑的平均獎勵和浮動范圍。圖3顯示了3個智能體的合作尋寶環(huán)境中,每種算法獲得獎勵的變化趨勢,圖4顯示了4個智能體的合作尋寶環(huán)境中獎勵的變化趨勢,圖5顯示了漫游者-發(fā)射塔環(huán)境中獎勵的變化趨勢。所有圖均為經(jīng)過smooth函數(shù)平滑后的獎勵變化趨勢圖。

    表1 模型收斂后合作尋寶和漫游者-發(fā)射塔環(huán)境中的平均獎勵Table 1 Average reward per episode after model converging in the cooperative treasure hunt and the rover-tower environments

    表1和圖3的結(jié)果表明,在合作尋寶環(huán)境中,當(dāng)智能體數(shù)量為3時,智能體在局部觀測情況下,PEMAC算法的性能優(yōu)于MADDPG算法8.7%,優(yōu)于MD-MADDPG算法5.2%,優(yōu)于MAAC算法2.9%.表1和圖4的結(jié)果表明,當(dāng)智能體數(shù)量為4時,PEMAC算法的性能優(yōu)于MADDPG算法8.4%,優(yōu)于MD-MADDPG算法3.5%,優(yōu)于MAAC算法1.6%.

    圖3 合作尋寶環(huán)境中智能體數(shù)量為3時獎勵的變化趨勢Fig.3 Change trend of rewards when the number of agents is three in the cooperative treasure hunt environment

    圖4 合作尋寶環(huán)境中智能體數(shù)量為4時獎勵的變化趨勢Fig.4 Change trend of rewards when the number of agents is four in the cooperative treasure hunt environment

    表1和圖5的結(jié)果表明,在漫游者-發(fā)射塔環(huán)境中,智能體在局部觀測情況下,PEMAC算法的性能是MADDPG算法的118.09倍,是MD-MADDPG算法的204.11倍,比MAAC算法的性能高3.7%.也證明當(dāng)環(huán)境較為復(fù)雜時,注意力機(jī)制可以使智能體有選擇地關(guān)注周邊信息,從而提升合作性能。

    圖5 漫游者-發(fā)射塔環(huán)境中的獎勵變化趨勢Fig.5 Change trend of rewards in the rover-tower environment

    由上可知,PEMAC算法整體性能均高于MADDPG算法、MD-MADDPG算法和MAAC算法。引入優(yōu)先經(jīng)驗(yàn)回放,使重要經(jīng)驗(yàn)被回放的概率增大,學(xué)習(xí)更有效。智能體可從大量失敗經(jīng)驗(yàn)中更有效地學(xué)習(xí)到隱藏的成功經(jīng)驗(yàn),從而提升算法性能。且由圖3、圖4和圖5可知,PEMAC算法的收斂速度比其他算法的收斂速度快。算法收斂速度由智能體獲得相同獎勵所需要的運(yùn)行次數(shù)和模型趨于穩(wěn)定所運(yùn)行的迭代步?jīng)Q定。另外,由表1和圖中的浮動范圍可知,當(dāng)模型收斂后,智能體使用PEMAC算法獲得的獎勵在平均獎勵附近波動范圍比MAAC算法波動范圍小,因而PEMAC算法可以提高M(jìn)AAC算法的穩(wěn)定性。

    為了更細(xì)粒度地顯示注意力機(jī)制如何工作,本文對漫游者-發(fā)射塔環(huán)境中漫游者對所有發(fā)射塔的注意力權(quán)重進(jìn)行了可視化分析。如圖6所示,流浪者1對與其匹配的發(fā)射塔1的關(guān)注度高于對發(fā)射塔2的關(guān)注度。流浪者2對發(fā)射塔2的關(guān)注度高于發(fā)射塔1。經(jīng)過分析可知漫游者在無法探知周邊情況時,學(xué)會了關(guān)注與其配對的塔,并與塔進(jìn)行通信,從而提高智能體收益。

    圖6 漫游者對發(fā)射塔的注意力權(quán)重Fig.6 Attention weights over all tower for a rover in rover-tower environment

    4 結(jié)束語

    本文提出基于優(yōu)先經(jīng)驗(yàn)回放的多智能體協(xié)同算法PEMAC.該算法通過使用優(yōu)先經(jīng)驗(yàn)回放機(jī)制,從失敗經(jīng)驗(yàn)中學(xué)習(xí)隱藏成功經(jīng)驗(yàn),提升了模型性能,加快了收斂速度和模型穩(wěn)定性。同時使用注意力機(jī)制使智能體可以選擇性的關(guān)注周邊信息,進(jìn)一步提升了模型性能。最后本文基于合作尋寶和流浪者-發(fā)射塔環(huán)境對算法性能進(jìn)行對比驗(yàn)證,實(shí)驗(yàn)結(jié)果表明PEMAC算法具有較優(yōu)的合作性能。

    本文雖對智能體數(shù)量增多時模型性能進(jìn)行了實(shí)驗(yàn)驗(yàn)證,但環(huán)境規(guī)模仍受限。接下來計劃擴(kuò)展多智能體環(huán)境規(guī)模和環(huán)境復(fù)雜度,將PEMAC算法推廣到更復(fù)雜的環(huán)境中。

    猜你喜歡
    發(fā)射塔漫游者經(jīng)驗(yàn)
    城市里的漫游者(節(jié)選)
    英語世界(2023年12期)2023-12-28 03:35:56
    新建小區(qū)屋頂通訊基站的設(shè)計與研究
    電視信號發(fā)射塔防雷技術(shù)應(yīng)用探索
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評選
    黨課參考(2021年20期)2021-11-04 09:39:46
    基于高山臺改造方案分析
    經(jīng)驗(yàn)
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評選
    黨課參考(2018年20期)2018-11-09 08:52:36
    無功補(bǔ)償在廣播電視工程中的應(yīng)用
    科技傳播(2016年12期)2016-12-01 01:35:54
    “漫游者”的空間:克利夫蘭藝術(shù)博物分析(下)
    當(dāng)你遇見了“零經(jīng)驗(yàn)”的他
    都市麗人(2015年4期)2015-03-20 13:33:22
    免费无遮挡裸体视频| 精品久久久久久成人av| 他把我摸到了高潮在线观看| 国内少妇人妻偷人精品xxx网站 | 免费在线观看成人毛片| 在线观看日韩欧美| 给我免费播放毛片高清在线观看| 久久亚洲真实| 久久亚洲真实| 国产黄色小视频在线观看| 成年免费大片在线观看| 久久欧美精品欧美久久欧美| 免费观看精品视频网站| 最近在线观看免费完整版| 欧美zozozo另类| 床上黄色一级片| 亚洲av美国av| 午夜影院日韩av| 国产一区在线观看成人免费| 国产伦精品一区二区三区视频9 | 真实男女啪啪啪动态图| 亚洲无线观看免费| 9191精品国产免费久久| 国产亚洲av高清不卡| 精品久久久久久,| 亚洲精品美女久久av网站| 99国产精品一区二区蜜桃av| 在线看三级毛片| 两个人看的免费小视频| 成年女人看的毛片在线观看| 亚洲片人在线观看| 国内毛片毛片毛片毛片毛片| 老司机午夜十八禁免费视频| 精品一区二区三区av网在线观看| 国产精品亚洲一级av第二区| 日韩欧美三级三区| 男人的好看免费观看在线视频| 国产单亲对白刺激| 色老头精品视频在线观看| 婷婷精品国产亚洲av在线| 国产精品久久久久久精品电影| 免费大片18禁| 精品日产1卡2卡| 天天一区二区日本电影三级| 少妇丰满av| 黄频高清免费视频| 亚洲av电影不卡..在线观看| 亚洲色图av天堂| 亚洲乱码一区二区免费版| a级毛片a级免费在线| 99精品久久久久人妻精品| 国产aⅴ精品一区二区三区波| 岛国在线观看网站| 久久99热这里只有精品18| 91久久精品国产一区二区成人 | 亚洲精品456在线播放app | 在线观看免费视频日本深夜| 亚洲中文日韩欧美视频| 三级男女做爰猛烈吃奶摸视频| 午夜两性在线视频| 国产野战对白在线观看| 国产亚洲精品久久久久久毛片| 身体一侧抽搐| www日本黄色视频网| 1024香蕉在线观看| 久久精品aⅴ一区二区三区四区| 亚洲片人在线观看| 国产精品,欧美在线| 午夜免费观看网址| 欧美日韩中文字幕国产精品一区二区三区| 最近最新免费中文字幕在线| 国产美女午夜福利| 狂野欧美激情性xxxx| 天堂影院成人在线观看| 亚洲av成人一区二区三| 麻豆成人av在线观看| 亚洲 国产 在线| 亚洲国产看品久久| 国产私拍福利视频在线观看| 老司机在亚洲福利影院| 精品乱码久久久久久99久播| 一二三四在线观看免费中文在| 美女 人体艺术 gogo| 亚洲av电影在线进入| 精品人妻1区二区| 国产亚洲精品久久久久久毛片| 成人国产综合亚洲| 我要搜黄色片| 后天国语完整版免费观看| 国产69精品久久久久777片 | 日韩中文字幕欧美一区二区| 精品久久久久久,| 老汉色av国产亚洲站长工具| 欧美在线一区亚洲| 一进一出抽搐动态| 国产精品一区二区免费欧美| 搡老熟女国产l中国老女人| 精品福利观看| 99国产极品粉嫩在线观看| www日本黄色视频网| 国产黄a三级三级三级人| 日日干狠狠操夜夜爽| 在线观看免费午夜福利视频| 日韩欧美国产在线观看| 伦理电影免费视频| 一级毛片女人18水好多| 变态另类成人亚洲欧美熟女| 国产一区二区在线观看日韩 | 欧美一区二区精品小视频在线| 99国产极品粉嫩在线观看| 手机成人av网站| 少妇丰满av| av在线天堂中文字幕| 亚洲精品久久国产高清桃花| 亚洲在线观看片| 国产精品国产高清国产av| 国产乱人视频| 天堂√8在线中文| 国产精品自产拍在线观看55亚洲| 亚洲欧美精品综合久久99| 中文字幕高清在线视频| 久久香蕉精品热| 黄色日韩在线| 黄色日韩在线| 国产亚洲精品综合一区在线观看| 又爽又黄无遮挡网站| 成人特级av手机在线观看| 亚洲无线在线观看| 久久精品综合一区二区三区| 这个男人来自地球电影免费观看| 午夜福利在线观看吧| 一本久久中文字幕| 久久久色成人| 18禁黄网站禁片午夜丰满| tocl精华| 国产真实乱freesex| 两个人视频免费观看高清| 综合色av麻豆| 亚洲色图 男人天堂 中文字幕| 蜜桃久久精品国产亚洲av| 亚洲av片天天在线观看| 欧美又色又爽又黄视频| 国产免费av片在线观看野外av| 俄罗斯特黄特色一大片| 观看免费一级毛片| 精品国产超薄肉色丝袜足j| 在线永久观看黄色视频| 精品久久久久久久末码| 美女扒开内裤让男人捅视频| 激情在线观看视频在线高清| 少妇丰满av| 国产私拍福利视频在线观看| 偷拍熟女少妇极品色| 国内精品久久久久久久电影| 美女被艹到高潮喷水动态| 麻豆成人av在线观看| 久久精品夜夜夜夜夜久久蜜豆| 亚洲九九香蕉| 在线免费观看不下载黄p国产 | 亚洲成av人片在线播放无| 亚洲成人中文字幕在线播放| а√天堂www在线а√下载| 非洲黑人性xxxx精品又粗又长| 精品国产乱子伦一区二区三区| 又粗又爽又猛毛片免费看| 美女高潮喷水抽搐中文字幕| 亚洲欧美精品综合久久99| 搡老熟女国产l中国老女人| 亚洲片人在线观看| 两个人视频免费观看高清| 亚洲成人久久爱视频| 国产成+人综合+亚洲专区| 欧美+亚洲+日韩+国产| 日韩三级视频一区二区三区| 久99久视频精品免费| 99热这里只有是精品50| 亚洲成人久久性| 午夜影院日韩av| 天堂动漫精品| 成年人黄色毛片网站| 国产高清videossex| 亚洲一区二区三区不卡视频| 99精品欧美一区二区三区四区| 色精品久久人妻99蜜桃| 欧美成人一区二区免费高清观看 | 国产一区二区三区视频了| 丁香欧美五月| 97超视频在线观看视频| av片东京热男人的天堂| 久久久久国产精品人妻aⅴ院| 波多野结衣高清无吗| 叶爱在线成人免费视频播放| 午夜激情欧美在线| 亚洲人成网站高清观看| 久久香蕉精品热| 精品国产三级普通话版| 少妇裸体淫交视频免费看高清| 日本三级黄在线观看| 国内揄拍国产精品人妻在线| 久99久视频精品免费| 亚洲最大成人中文| 此物有八面人人有两片| 免费人成视频x8x8入口观看| 18禁黄网站禁片午夜丰满| 可以在线观看毛片的网站| 亚洲午夜精品一区,二区,三区| 国产高清三级在线| 99久国产av精品| 淫妇啪啪啪对白视频| 欧美乱色亚洲激情| 99国产极品粉嫩在线观看| a级毛片在线看网站| 在线看三级毛片| 亚洲国产欧美网| 欧美又色又爽又黄视频| 搡老岳熟女国产| tocl精华| 小蜜桃在线观看免费完整版高清| 日本黄大片高清| 一a级毛片在线观看| 免费观看的影片在线观看| 亚洲在线自拍视频| 身体一侧抽搐| 最近视频中文字幕2019在线8| 成熟少妇高潮喷水视频| 国产免费男女视频| 夜夜看夜夜爽夜夜摸| 亚洲av片天天在线观看| a在线观看视频网站| 一个人观看的视频www高清免费观看 | 色综合欧美亚洲国产小说| 午夜久久久久精精品| 99热这里只有是精品50| 久久精品亚洲精品国产色婷小说| 可以在线观看毛片的网站| 国产亚洲精品综合一区在线观看| 国产精品一区二区三区四区免费观看 | 久久人妻av系列| 国产精品亚洲美女久久久| 欧美精品啪啪一区二区三区| 久久精品aⅴ一区二区三区四区| 欧美激情在线99| 久久久久国产一级毛片高清牌| 9191精品国产免费久久| 亚洲国产看品久久| 91在线精品国自产拍蜜月 | 色视频www国产| 看片在线看免费视频| 欧美+亚洲+日韩+国产| 亚洲无线在线观看| 国产精品美女特级片免费视频播放器 | 久久人妻av系列| 一个人看的www免费观看视频| 久久久国产欧美日韩av| 亚洲国产欧美人成| 精品熟女少妇八av免费久了| 亚洲五月婷婷丁香| 91在线精品国自产拍蜜月 | 免费人成视频x8x8入口观看| 天天躁日日操中文字幕| 老鸭窝网址在线观看| 午夜福利视频1000在线观看| 国产欧美日韩精品亚洲av| 九九热线精品视视频播放| or卡值多少钱| 搡老妇女老女人老熟妇| 天天躁日日操中文字幕| 国产成人aa在线观看| 法律面前人人平等表现在哪些方面| 亚洲av成人一区二区三| 午夜视频精品福利| 一二三四社区在线视频社区8| 亚洲国产中文字幕在线视频| 每晚都被弄得嗷嗷叫到高潮| 99国产综合亚洲精品| www国产在线视频色| 九色国产91popny在线| 免费av不卡在线播放| 美女大奶头视频| 99精品欧美一区二区三区四区| 久久午夜亚洲精品久久| 日日摸夜夜添夜夜添小说| 欧美又色又爽又黄视频| 51午夜福利影视在线观看| 人妻久久中文字幕网| 曰老女人黄片| 五月玫瑰六月丁香| 亚洲人成伊人成综合网2020| 曰老女人黄片| 国内揄拍国产精品人妻在线| www.www免费av| 国内精品久久久久精免费| 大型黄色视频在线免费观看| 舔av片在线| 成人鲁丝片一二三区免费| 99国产精品一区二区三区| 少妇丰满av| 一边摸一边抽搐一进一小说| 小蜜桃在线观看免费完整版高清| 男女午夜视频在线观看| 国产高清有码在线观看视频| 男人和女人高潮做爰伦理| 高潮久久久久久久久久久不卡| 国产视频一区二区在线看| 国产私拍福利视频在线观看| 午夜激情福利司机影院| 天天一区二区日本电影三级| 国产精品久久久久久精品电影| 成人无遮挡网站| 高潮久久久久久久久久久不卡| 欧美激情久久久久久爽电影| 18禁国产床啪视频网站| 悠悠久久av| 禁无遮挡网站| 日本一本二区三区精品| 国产精品香港三级国产av潘金莲| 波多野结衣高清作品| 欧美黄色淫秽网站| 狂野欧美激情性xxxx| 又粗又爽又猛毛片免费看| 2021天堂中文幕一二区在线观| 一区福利在线观看| 国产精品av久久久久免费| 99久久无色码亚洲精品果冻| bbb黄色大片| 观看免费一级毛片| 757午夜福利合集在线观看| 999久久久精品免费观看国产| 亚洲精品在线观看二区| 精品国产美女av久久久久小说| 日本免费a在线| 欧美日韩福利视频一区二区| 亚洲av电影不卡..在线观看| 国产97色在线日韩免费| 亚洲av熟女| 国产av一区在线观看免费| 国产99白浆流出| a级毛片a级免费在线| av片东京热男人的天堂| 国产野战对白在线观看| 精品无人区乱码1区二区| av天堂中文字幕网| 露出奶头的视频| 真实男女啪啪啪动态图| 亚洲成人中文字幕在线播放| 欧美色视频一区免费| 日本熟妇午夜| 99在线人妻在线中文字幕| 两人在一起打扑克的视频| 国产精品1区2区在线观看.| 国产91精品成人一区二区三区| 亚洲男人的天堂狠狠| 成人av一区二区三区在线看| 性色av乱码一区二区三区2| 亚洲av成人精品一区久久| av天堂在线播放| 丝袜人妻中文字幕| 亚洲av成人一区二区三| 他把我摸到了高潮在线观看| 禁无遮挡网站| 色老头精品视频在线观看| 亚洲av免费在线观看| 欧美黄色淫秽网站| 国产亚洲精品一区二区www| 无限看片的www在线观看| 国产日本99.免费观看| 国内精品久久久久久久电影| 一级毛片女人18水好多| 日本黄大片高清| АⅤ资源中文在线天堂| 国产成人av教育| 淫妇啪啪啪对白视频| 欧美日韩瑟瑟在线播放| 一二三四社区在线视频社区8| 给我免费播放毛片高清在线观看| 国产精品电影一区二区三区| 亚洲人成网站在线播放欧美日韩| 他把我摸到了高潮在线观看| 高清毛片免费观看视频网站| 国产成人福利小说| 又大又爽又粗| 亚洲精品456在线播放app | 桃红色精品国产亚洲av| 特大巨黑吊av在线直播| 99久久99久久久精品蜜桃| 一进一出抽搐gif免费好疼| 国产91精品成人一区二区三区| 啪啪无遮挡十八禁网站| 亚洲人成伊人成综合网2020| 真人一进一出gif抽搐免费| 女人被狂操c到高潮| 99久久精品一区二区三区| 天堂影院成人在线观看| 亚洲精品一卡2卡三卡4卡5卡| av国产免费在线观看| 一个人免费在线观看的高清视频| 90打野战视频偷拍视频| 日韩有码中文字幕| 99久久精品国产亚洲精品| 91老司机精品| 国产男靠女视频免费网站| 99热只有精品国产| 麻豆久久精品国产亚洲av| 久久久久久久精品吃奶| 脱女人内裤的视频| 国产免费av片在线观看野外av| xxxwww97欧美| 在线观看66精品国产| 国产精品女同一区二区软件 | 偷拍熟女少妇极品色| 18禁裸乳无遮挡免费网站照片| 麻豆一二三区av精品| 久久久久久九九精品二区国产| 久久中文看片网| 免费看十八禁软件| 无限看片的www在线观看| 波多野结衣高清作品| 99在线视频只有这里精品首页| 国产美女午夜福利| 亚洲电影在线观看av| 露出奶头的视频| 天堂影院成人在线观看| 天堂√8在线中文| www.精华液| 伊人久久大香线蕉亚洲五| 性色avwww在线观看| 久久精品亚洲精品国产色婷小说| 97超视频在线观看视频| 91麻豆av在线| 老熟妇仑乱视频hdxx| 高清毛片免费观看视频网站| 亚洲va日本ⅴa欧美va伊人久久| 国产精品久久久久久人妻精品电影| a在线观看视频网站| 成人三级黄色视频| 免费av毛片视频| 国产一区二区在线av高清观看| 久久久久九九精品影院| 成人亚洲精品av一区二区| 亚洲自偷自拍图片 自拍| 午夜免费成人在线视频| 五月玫瑰六月丁香| 国产成人精品无人区| 国产精品美女特级片免费视频播放器 | 日本在线视频免费播放| 亚洲色图av天堂| 日本黄大片高清| 色综合站精品国产| 日韩有码中文字幕| 一区二区三区国产精品乱码| 免费看a级黄色片| 亚洲熟妇熟女久久| 久久久久精品国产欧美久久久| 一级a爱片免费观看的视频| 久久久久国内视频| 1000部很黄的大片| 嫩草影院入口| 看黄色毛片网站| 国产一区二区三区在线臀色熟女| 欧美3d第一页| 亚洲 国产 在线| 欧美黄色淫秽网站| 真人做人爱边吃奶动态| 欧美在线黄色| 久久伊人香网站| av中文乱码字幕在线| 欧美xxxx黑人xx丫x性爽| 日韩欧美在线乱码| 国产成人福利小说| 国产伦在线观看视频一区| 老汉色av国产亚洲站长工具| 亚洲人成网站高清观看| 亚洲无线在线观看| 可以在线观看毛片的网站| 久久亚洲精品不卡| av视频在线观看入口| 亚洲av第一区精品v没综合| 国产v大片淫在线免费观看| 在线观看免费视频日本深夜| 99久久无色码亚洲精品果冻| av片东京热男人的天堂| 日韩精品中文字幕看吧| 人人妻人人看人人澡| 精品不卡国产一区二区三区| 丁香欧美五月| а√天堂www在线а√下载| 欧美zozozo另类| 久久久国产精品麻豆| 中文字幕人妻丝袜一区二区| 香蕉丝袜av| 欧美色视频一区免费| 老司机午夜福利在线观看视频| 久久久久免费精品人妻一区二区| 亚洲自拍偷在线| 18禁美女被吸乳视频| 欧美丝袜亚洲另类 | 国产欧美日韩精品一区二区| 他把我摸到了高潮在线观看| 日本三级黄在线观看| 久久久国产欧美日韩av| 久久天躁狠狠躁夜夜2o2o| 久久久久久久久中文| 欧美黄色片欧美黄色片| 精品熟女少妇八av免费久了| 国产精品99久久久久久久久| 在线免费观看的www视频| 国产视频内射| 欧美三级亚洲精品| 岛国在线免费视频观看| 亚洲国产日韩欧美精品在线观看 | 97超视频在线观看视频| 国产精品久久电影中文字幕| 欧美日本亚洲视频在线播放| 免费看美女性在线毛片视频| 国产 一区 欧美 日韩| 亚洲专区中文字幕在线| 亚洲天堂国产精品一区在线| 1000部很黄的大片| 精品一区二区三区视频在线 | 男人舔奶头视频| 成年人黄色毛片网站| 久久久久久久久免费视频了| 日韩免费av在线播放| 国产成人福利小说| 国产高清有码在线观看视频| 美女扒开内裤让男人捅视频| 国产精品99久久99久久久不卡| 亚洲国产看品久久| 国产成人精品无人区| 最新美女视频免费是黄的| 久久久久久人人人人人| 黄色女人牲交| 精品免费久久久久久久清纯| 亚洲欧美日韩卡通动漫| 母亲3免费完整高清在线观看| 法律面前人人平等表现在哪些方面| 久久久久久大精品| 一进一出抽搐动态| 国产精品久久电影中文字幕| 久久精品国产综合久久久| 看黄色毛片网站| 欧美+亚洲+日韩+国产| 琪琪午夜伦伦电影理论片6080| 美女 人体艺术 gogo| 国产精品野战在线观看| 日本与韩国留学比较| 亚洲aⅴ乱码一区二区在线播放| 偷拍熟女少妇极品色| 国产亚洲欧美98| 手机成人av网站| 美女大奶头视频| 制服丝袜大香蕉在线| 日本撒尿小便嘘嘘汇集6| 欧美日本视频| av福利片在线观看| 国产精品国产高清国产av| 一个人免费在线观看的高清视频| 夜夜夜夜夜久久久久| 一本综合久久免费| 国产欧美日韩精品亚洲av| 色视频www国产| 成年女人看的毛片在线观看| 精品免费久久久久久久清纯| 黄片大片在线免费观看| 窝窝影院91人妻| 欧美三级亚洲精品| 97超视频在线观看视频| 狂野欧美白嫩少妇大欣赏| 精品久久蜜臀av无| 国产精品1区2区在线观看.| 中文亚洲av片在线观看爽| 国产亚洲欧美在线一区二区| 夜夜夜夜夜久久久久| 一个人看视频在线观看www免费 | 黄色片一级片一级黄色片| www日本在线高清视频| 亚洲精品美女久久av网站| 国产视频内射| 国产亚洲av高清不卡| av在线天堂中文字幕| 人妻久久中文字幕网| 国产精品1区2区在线观看.| 听说在线观看完整版免费高清| 亚洲天堂国产精品一区在线| 欧美日韩精品网址| 久久久成人免费电影| 精品无人区乱码1区二区| 亚洲精品在线美女| 一个人免费在线观看的高清视频| 日本一本二区三区精品| 国产精品98久久久久久宅男小说| 在线观看日韩欧美| 99国产精品一区二区三区| 老汉色av国产亚洲站长工具| 午夜福利成人在线免费观看| 久久精品人妻少妇| 十八禁人妻一区二区| 亚洲欧美日韩东京热| 90打野战视频偷拍视频| www.精华液| 亚洲成人久久爱视频| www国产在线视频色| 每晚都被弄得嗷嗷叫到高潮| 18美女黄网站色大片免费观看| 无限看片的www在线观看| www.999成人在线观看| 欧美中文日本在线观看视频| 午夜视频精品福利| 99国产精品一区二区蜜桃av| 日日摸夜夜添夜夜添小说| 草草在线视频免费看| or卡值多少钱| 亚洲在线自拍视频| 日韩精品中文字幕看吧| 国产精品日韩av在线免费观看|