• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究

    2017-06-01 12:21:31張文旭馬磊王曉東
    智能系統(tǒng)學(xué)報(bào) 2017年1期
    關(guān)鍵詞:計(jì)算資源時(shí)刻次數(shù)

    張文旭,馬磊,王曉東

    (西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)

    基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究

    張文旭,馬磊,王曉東

    (西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)

    本文針對(duì)多智能體強(qiáng)化學(xué)習(xí)中存在的通信和計(jì)算資源消耗大等問(wèn)題,提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層方面的研究。在智能體與環(huán)境的交互過(guò)程中,算法基于事件驅(qū)動(dòng)的思想,根據(jù)智能體觀(guān)測(cè)信息的變化率設(shè)計(jì)觸發(fā)函數(shù),使學(xué)習(xí)過(guò)程中的通信和學(xué)習(xí)時(shí)機(jī)無(wú)需實(shí)時(shí)或按周期地進(jìn)行,故在相同時(shí)間內(nèi)可以降低數(shù)據(jù)傳輸和計(jì)算次數(shù)。另外,分析了該算法的計(jì)算資源消耗,以及對(duì)算法收斂性進(jìn)行了論證。最后,仿真實(shí)驗(yàn)說(shuō)明了該算法可以在學(xué)習(xí)過(guò)程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解了通信和計(jì)算資源消耗。

    事件驅(qū)動(dòng);多智能體;強(qiáng)化學(xué)習(xí);分布式馬爾科夫決策過(guò)程;收斂性

    近年來(lái),基于事件驅(qū)動(dòng)的方法在多智能體研究中得到廣泛關(guān)注[1-3]。在事件驅(qū)動(dòng)的思想中,智能體可以根據(jù)測(cè)量誤差間歇性的更新?tīng)顟B(tài),減少通信次數(shù)和計(jì)算量。文獻(xiàn)[4]首次在多智能體系統(tǒng)的協(xié)作中運(yùn)用事件驅(qū)動(dòng)的策略,并設(shè)計(jì)了基于事件驅(qū)動(dòng)機(jī)制的狀態(tài)反饋控制器。隨后,文獻(xiàn)[5-7]將基于事件驅(qū)動(dòng)的控制器擴(kuò)展到非線(xiàn)性系統(tǒng),以及復(fù)雜網(wǎng)絡(luò)等領(lǐng)域。但是,目前事件驅(qū)動(dòng)與強(qiáng)化學(xué)習(xí)的結(jié)合還相對(duì)不足[8-9],并主要集中在對(duì)多智能體的控制器設(shè)計(jì)上,較少有學(xué)者關(guān)注其在學(xué)習(xí)策略層的應(yīng)用。在現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)算法中,由于智能體攜帶的通信設(shè)備和微處理器性能有限,其學(xué)習(xí)過(guò)程中通常存在兩個(gè)問(wèn)題:1)智能體間的信息交互需占用較大的通信帶寬;2)在學(xué)習(xí)的試錯(cuò)和迭代過(guò)程中,消耗了大量的計(jì)算資源。以上問(wèn)題都將減少智能體的工作時(shí)間,或增加設(shè)計(jì)上的復(fù)雜性。本文區(qū)別于傳統(tǒng)的多智能體學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層的研究,首先從自觸發(fā)和聯(lián)合觸發(fā)兩個(gè)方面定義觸發(fā)函數(shù),然后在分布式馬爾可夫模型中設(shè)計(jì)了基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,最后對(duì)算法的收斂性進(jìn)行了論證。

    1 問(wèn)題描述

    1.1 分布式馬爾可夫模型

    1.2Q-學(xué)習(xí)

    文獻(xiàn)[11]提出了一類(lèi)通過(guò)引入期望的延時(shí)回報(bào),求解無(wú)完全信息的MDPs類(lèi)問(wèn)題的方法,稱(chēng)為Q-學(xué)習(xí)(Q-learning)。Q-學(xué)習(xí)是一種模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)方法,通過(guò)對(duì)狀態(tài)-動(dòng)作對(duì)的值函數(shù)進(jìn)行估計(jì),以求得最優(yōu)策略。Q-學(xué)習(xí)算法的基本形式如下:

    Q*(s,a)=R(s,a)+γ∑s′∈SP(s,a,s′)maxQ*(s′,a′)

    式中:Q*(s,a)表示智能體在狀態(tài)s下采用動(dòng)作a所獲得的獎(jiǎng)賞折扣總和;γ為折扣因子;P(s,a,s′)表示概率函數(shù);最優(yōu)策略為智能體在狀態(tài)s下選用Q值最大的策略。Q-學(xué)習(xí)存在的最大問(wèn)題為,智能體需要通過(guò)試錯(cuò)的方式找到最優(yōu)策略,這樣的方式使得Q-學(xué)習(xí)需要考慮所有的可能策略,從而需要消耗大量計(jì)算資源。

    2 觸發(fā)規(guī)則設(shè)計(jì)

    在事件驅(qū)動(dòng)思想中,智能體把從環(huán)境中得到的觀(guān)測(cè)誤差作為重要的評(píng)判標(biāo)準(zhǔn),當(dāng)它超過(guò)一個(gè)預(yù)設(shè)的閾值時(shí)事件被觸發(fā),智能體更新?tīng)顟B(tài)并計(jì)算聯(lián)合策略,而事件觸發(fā)的關(guān)鍵在于對(duì)觸發(fā)函數(shù)的設(shè)計(jì)。

    2.1 自事件觸發(fā)設(shè)計(jì)

    DEC-MDPs模型中,每一個(gè)智能體通過(guò)獨(dú)立的觀(guān)測(cè)獲取局部信息,然后廣播到全隊(duì),所以每一個(gè)智能體首先需要自觸發(fā)設(shè)計(jì)。在時(shí)刻t,當(dāng)每一個(gè)智能體觀(guān)測(cè)結(jié)束后,其根據(jù)上一刻觀(guān)測(cè)與當(dāng)前觀(guān)測(cè)的變化率,進(jìn)行一次自觸發(fā)過(guò)程,智能體用自觸發(fā)方式來(lái)判斷是否需要廣播自身的觀(guān)測(cè)信息。智能體i從t-1時(shí)刻到t時(shí)刻的觀(guān)測(cè)變化率定義為

    式中:oi(t)為在t時(shí)刻的觀(guān)測(cè)值。定義0

    2.2 聯(lián)合事件觸發(fā)設(shè)計(jì)

    聯(lián)合事件觸發(fā)的對(duì)象是智能體團(tuán)隊(duì),考慮的是一個(gè)聯(lián)合觀(guān)測(cè)的變化情況。假設(shè)在時(shí)刻t智能體團(tuán)隊(duì)獲得當(dāng)前的聯(lián)合觀(guān)測(cè)O(t)=(O1(t),O2(t),…,On(t))。此時(shí),智能體團(tuán)隊(duì)從t-1時(shí)刻到t時(shí)刻的聯(lián)合觀(guān)測(cè)變化率定義為

    式中:p=1/n為ei(t)的分布律,令

    定義0

    自事件觸發(fā)和聯(lián)合事件觸發(fā)的區(qū)別在于:

    1)自事件觸發(fā)的對(duì)象是單個(gè)智能體,對(duì)應(yīng)的事件由智能體自身的觀(guān)測(cè)變化率所觸發(fā),觸發(fā)后的行動(dòng)為進(jìn)行廣播式通信,自事件觸發(fā)的目的是為了減少通信資源消耗;而聯(lián)合事件觸發(fā)針對(duì)的是智能體團(tuán)隊(duì)的聯(lián)合觀(guān)測(cè)變化率,觸發(fā)后的行動(dòng)是計(jì)算聯(lián)合策略,目的在于減少計(jì)算資源消耗。

    2)當(dāng)單個(gè)智能體的觀(guān)測(cè)發(fā)生變化時(shí),并不一定導(dǎo)致團(tuán)隊(duì)的聯(lián)合觀(guān)測(cè)變化率發(fā)生較大改變。即當(dāng)環(huán)境整體發(fā)生變化時(shí),雖然每一個(gè)智能體的觀(guān)測(cè)都發(fā)生了變化,但對(duì)聯(lián)合觀(guān)測(cè)而言,所有智能體在兩個(gè)時(shí)刻的變化率相對(duì)無(wú)變化,所以制定的聯(lián)合策略可能無(wú)明顯變化,此時(shí)也認(rèn)為智能體團(tuán)隊(duì)不需要被觸發(fā)。比如在機(jī)器人足球問(wèn)題中,t-1時(shí)刻機(jī)器人團(tuán)隊(duì)的聯(lián)合策略為,機(jī)器人A帶球行動(dòng)且其他隊(duì)友跑位行動(dòng)。到t時(shí)刻后,機(jī)器人A和其他機(jī)器人的觀(guān)測(cè)(雙方機(jī)器人的站位和距離)都發(fā)生了較大變化,機(jī)器人團(tuán)隊(duì)在通過(guò)廣播通信獲得全局觀(guān)測(cè)信息后,根據(jù)觀(guān)測(cè)信息進(jìn)行判斷,兩個(gè)時(shí)刻雙方機(jī)器人的相對(duì)站位和相對(duì)距離可能無(wú)大變化。此時(shí),如果團(tuán)隊(duì)計(jì)算新的聯(lián)合策略,也將是機(jī)器人A帶球且其他隊(duì)友跑位,與t-1時(shí)刻的聯(lián)合策略相同。所以,認(rèn)為團(tuán)隊(duì)在t時(shí)刻無(wú)需計(jì)算新的聯(lián)合策略,可以直接使用上一刻的策略。圖1為事件觸發(fā)流程圖。

    圖1 事件觸發(fā)流程圖Fig.1 The flow chart of event-triggered

    3 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)

    本節(jié)介紹了基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法,以及對(duì)事件驅(qū)動(dòng)下計(jì)算資源消耗進(jìn)行了分析,同時(shí)對(duì)算法的收斂性進(jìn)行了論證。

    3.1 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)設(shè)計(jì)

    在完全通信情況下,DEC-MDPs被簡(jiǎn)化為M-MDPs模型,所以直接考慮基于事件驅(qū)動(dòng)的多智能體馬爾可夫模型(event-triggered M-MDPs),其由一個(gè)六元組〈I,{S},{Ai},P,R,e〉構(gòu)成,其中e表示事件觸發(fā)函數(shù),當(dāng)團(tuán)隊(duì)的觸發(fā)函數(shù)大于閾值時(shí),團(tuán)隊(duì)被觸發(fā)并執(zhí)行聯(lián)合行動(dòng)策略,同時(shí)發(fā)生狀態(tài)轉(zhuǎn)移,轉(zhuǎn)移函數(shù)為P={st+1|st,a,e}?;谑录?qū)動(dòng)的強(qiáng)化學(xué)習(xí)過(guò)程不同于經(jīng)典的強(qiáng)化學(xué)習(xí),如圖2所示,智能體需要首先根據(jù)觸發(fā)函數(shù)來(lái)判斷事件是否被觸發(fā),如果被觸發(fā)才執(zhí)行一個(gè)聯(lián)合行動(dòng)并影響環(huán)境。

    圖2 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)框架Fig.2 The frame of reinforcement learning with event-triggered

    對(duì)于任意一個(gè)策略和下一個(gè)狀態(tài),在狀態(tài)s的值和后繼狀態(tài)值之間存在如下關(guān)系:

    (a)傳統(tǒng)的Q-學(xué)習(xí)

    (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)圖3 兩種方式回溯圖Fig.3 The backtracking of two methods

    根據(jù)貝爾曼迭代,Q值逐漸收斂到一個(gè)最優(yōu)Q值,在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,每一個(gè)學(xué)習(xí)步智能體都需要通過(guò)查表方式找到最大的Q值,其迭代表達(dá)式為

    事件驅(qū)動(dòng)的思路則不同,當(dāng)智能體沒(méi)有被觸發(fā)情況下,將直接選用上一個(gè)Q值作為當(dāng)前的Q值,在基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)中,Q值迭代過(guò)程可以表示為

    式中k表示上次觸發(fā)時(shí)刻和當(dāng)前時(shí)刻的差值。

    3.2 計(jì)算資源消耗

    對(duì)于基于事件驅(qū)動(dòng)的決策樹(shù),在智能體不被驅(qū)動(dòng)的樹(shù)層中,下一刻狀態(tài)將直接等于當(dāng)前狀態(tài),即st+1=st,狀態(tài)轉(zhuǎn)移概率為

    3.3 算法收斂性分析

    智能體每次的策略評(píng)估,即策略迭代,都是從前一個(gè)策略的值函數(shù)開(kāi)始。在事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)中,智能體只有在觀(guān)測(cè)信息變化情況下,才更新信念空間并進(jìn)行策略評(píng)估,否則直接使用上一時(shí)刻的策略。假設(shè)在t時(shí)刻,智能體沒(méi)有被事件所觸發(fā),那么智能體在t時(shí)刻不參與式(9)的迭代,直接使用t-1時(shí)刻迭代后的Q值。此時(shí),在達(dá)到最優(yōu)策略的過(guò)程中,Q值的迭代計(jì)算過(guò)程由每一時(shí)刻都計(jì)算,減少為事件觸發(fā)時(shí)刻才計(jì)算。

    如圖4(a)和式(10)所示,Q值從初始到收斂至最優(yōu)Q*的過(guò)程,是一個(gè)漸進(jìn)收斂的過(guò)程,Q值通過(guò)迭代,從t-1時(shí)間到t時(shí)刻逐漸接近最優(yōu);如圖4(b)和式(11)所示,在智能體不被驅(qū)動(dòng)的情況下,Q值不進(jìn)行迭代,在t-1時(shí)刻直接使用t時(shí)刻的Q值,減少了Q值的迭代計(jì)算。

    (a)經(jīng)典的Q-學(xué)習(xí)策略迭代

    (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)策略迭代圖4 兩種方式策略迭代Fig.4 Policy iteration of two methods

    推論1 基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)算法,不會(huì)影響算法的收斂性。

    1)對(duì)所有的U1和U2∈F0,對(duì)所有的x∈χ,

    2)對(duì)所有的U和V∈F0,對(duì)所有的x∈χ,

    Ft(x)(‖v*-V‖

    式中:當(dāng)t→時(shí),λt以概率1收斂到0。

    3)對(duì)所有的k>0,當(dāng)t→時(shí)收斂到0。

    4)當(dāng)t→時(shí),存在0≤γ<1對(duì)所有的x∈X有

    Gt(x)δt(x)+Ft(x)‖v*-Vt‖

    在滿(mǎn)足條件1)和2)的情況下,雖然基于事件驅(qū)動(dòng)的動(dòng)作序列T中有相同的動(dòng)作Tk=Tk+1,但仍然滿(mǎn)足李普西斯條件,所以不會(huì)影響Q-學(xué)習(xí)的收斂,證畢。

    4 仿真結(jié)果及分析

    考慮一個(gè)多智能體覆蓋問(wèn)題,2個(gè)智能體隨機(jī)出現(xiàn)在一個(gè)大小為10×10的格子世界中,如圖5所示。每一個(gè)智能體都有上下左右4個(gè)行動(dòng),且觀(guān)測(cè)范圍為自身周?chē)蝗?個(gè)格子,觀(guān)測(cè)到的格子分為“沒(méi)走過(guò)”“走過(guò)”和“障礙物”3個(gè)狀態(tài),分別對(duì)應(yīng)著30、-5和-10的回報(bào)值,世界的邊界對(duì)智能體作為障礙物;且每一個(gè)智能體可以進(jìn)行廣播式通信。在這個(gè)場(chǎng)景中,每一個(gè)智能體獲得的是一個(gè)局部觀(guān)測(cè),當(dāng)它們進(jìn)行廣播通信后,對(duì)于整個(gè)世界,獲得的仍然是一個(gè)局部的觀(guān)測(cè)。但考慮到對(duì)整個(gè)世界的全局觀(guān)測(cè)需要極大的計(jì)算量,所以實(shí)驗(yàn)設(shè)定每一時(shí)刻當(dāng)兩個(gè)智能體通信后,所獲得的信息對(duì)它們而言是一個(gè)全局觀(guān)測(cè)。

    智能體團(tuán)隊(duì)的任務(wù)為盡快走完所有的格子,即完成對(duì)格子世界的覆蓋,當(dāng)走過(guò)的格子超過(guò)90%以上,認(rèn)為此次覆蓋任務(wù)成功,當(dāng)智能體在1 000步仍不能完成90%的覆蓋時(shí),認(rèn)為此次任務(wù)失敗。其中定義學(xué)習(xí)率為0.6,折扣因子為0.2。

    圖5 多智能體覆蓋問(wèn)題Fig.5 The coverage problem of multi-agent

    圖6比較了事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)任務(wù)成功率,可以看出兩種算法成功率一致,但是由于Q值迭代次數(shù)減少,使得事件驅(qū)動(dòng)Q-學(xué)習(xí)的收斂速度變慢。

    圖6 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的成功率Fig.6 The success rate of event-triggered Q and classical Q

    圖7說(shuō)明了聯(lián)合觸發(fā)函數(shù)與算法收斂速度的關(guān)系,可以看出聯(lián)合觸發(fā)函數(shù)選取越小,算法收斂性越慢。因?yàn)槁?lián)合觸發(fā)函數(shù)越小,事件觸發(fā)的次數(shù)就越少,從而導(dǎo)致Q值迭代次數(shù)減少,收斂速度變慢。

    圖7 聯(lián)合觸發(fā)函數(shù)與收斂速度Fig.7 The joint event-triggered function and convergence speed

    在學(xué)習(xí)過(guò)程中,智能體團(tuán)隊(duì)在每一步需要遍歷Q值數(shù)量為(38×4)2≈229.3次,由表1可以看出,隨著學(xué)習(xí)步數(shù)的增加,事件驅(qū)動(dòng)將大量減小Q值的遍歷次數(shù),繼而減少計(jì)算資源占用,相比較傳統(tǒng)的Q-學(xué)習(xí)存在明顯的優(yōu)勢(shì)。

    表1 事件驅(qū)動(dòng)傳統(tǒng)Q-學(xué)習(xí)遍歷次數(shù)

    Table 1 The number of traverse of event-triggered and classicalQ

    步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少總遍歷次數(shù)50≈229.3×50≈229.3×42≈232.3100≈229.3×100≈229.3×79≈233.6200≈229.3×200≈229.3×153≈234.9300≈229.3×300≈229.3×221≈235.6500≈229.3×500≈229.3×386≈236.2

    表2比較了在一次成功的任務(wù)中,事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的通信次數(shù)??梢钥闯觯录?qū)動(dòng)減少了智能體間的通信次數(shù)。同時(shí)與表1比較,可以看出自事件觸發(fā)和聯(lián)合事件觸發(fā)次數(shù)的區(qū)別。

    表2 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)通信次數(shù)

    Table 2 The number of communication of event-triggered and classicalQ

    步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少通信次數(shù)50504551001008911200200172283003002584250050041090

    5 結(jié)束語(yǔ)

    本文提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于多智能體在學(xué)習(xí)策略層的事件驅(qū)動(dòng)研究。智能體在與環(huán)境的交互中,可以根據(jù)觀(guān)測(cè)的變化來(lái)觸發(fā)通信和學(xué)習(xí)過(guò)程。在相同時(shí)間內(nèi),采用事件驅(qū)動(dòng)可以降低數(shù)據(jù)傳輸次數(shù),節(jié)約通信資源;同時(shí),智能體不需要每一時(shí)刻進(jìn)行試錯(cuò)和迭代,進(jìn)而減少計(jì)算資源。最后,對(duì)算法的收斂性進(jìn)行了論證,仿真結(jié)果表明事件驅(qū)動(dòng)可以在學(xué)習(xí)過(guò)程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解通信和計(jì)算資源消耗。進(jìn)一步工作主要基于現(xiàn)有的研究,將事件驅(qū)動(dòng)的思想應(yīng)用于不同類(lèi)的強(qiáng)化學(xué)習(xí)方法中,并結(jié)合事件驅(qū)動(dòng)的特點(diǎn)設(shè)計(jì)更合理的觸發(fā)函數(shù)。

    [1]ZHU Wei, JIANG ZhongPing, FENG Gang. Event-based consensus of multi-agent systems with general linear models[J]. Automatica, 2014, 50(2): 552-558.

    [2]FAN Yuan, FENG Gang, WANG Yong, et al. Distributed event-triggered control of multi-agent systems with combinational measurements[J]. Automatica, 2013, 49(2): 671-675.

    [3]WANG Xiaofeng, LEMMON M D. Event-triggering in distributed networked control systems[J]. IEEE transactions on automatic control, 2011, 56(3): 586-601.

    [4]TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE transactions on automatic control, 2007, 52(9): 1680-1685.

    [5]ZOU Lei, WANG Zidong, GAO Huijun, et al. Event-triggered state estimation for complex networks with mixed time delays via sampled data information: the continuous-time case[J]. IEEE transactions on cybernetics, 2015, 45(12): 2804-2815.

    [6]SAHOO A, XU Hao, JAGANNATHAN S. Adaptive neural network-based event-triggered control of single-input single-output nonlinear discrete-time systems[J]. IEEE transactions on neural networks and learning systems, 2016, 27(1): 151-164.

    [7]HU Wenfeng, LIU Lu, FENG Gang. Consensus of linear multi-agent systems by distributed event-triggered strategy[J]. IEEE transactions on cybernetics, 2016, 46(1): 148-157.

    [8]ZHONG Xiangnan, NI Zhen, HE Haibo, et al. Event-triggered reinforcement learning approach for unknown nonlinear continuous-time system[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 3677-3684.

    [9]XU Hao, JAGANNATHAN S. Near optimal event-triggered control of nonlinear continuous-time systems using input and output data[C]//Proceedings of the 11th World Congress on Intelligent Control and Automation. Shenyang, China, 2014: 1799-1804.

    [10]BERNSTEIN D S, GIVAN R, IMMERMAN N, et al. The complexity of decentralized control of Markov decision processes[J]. Mathematics of operations research, 2002, 27(4): 819-840.

    [11]WATKINS C J C H, DAYAN P.Q-learning[J]. Machine learning, 1992, 8(3/4): 279-292.

    Reinforcement learning for event-triggered multi-agent systems

    ZHANG Wenxu, MA Lei, WANG Xiaodong

    (School of Electrical Engineering,Southwest Jiaotong University, Chengdu 610031, China)

    Focusing on the existing multi-agent reinforcement learning problems such as huge consumption of communication and calculation, a novel event-triggered multi-agent reinforcement learning algorithm was presented. The algorithm focused on an event-triggered idea at the strategic level of multi-agent learning. In particular, during the interactive process between agents and the learning environment, the communication and learning were triggered through the change rate of observation.Using an appropriate event-triggered design, the discontinuous threshold was employed, and thus real-time or periodical communication and learning can be avoided, and the number of communications and calculations were reduced within the same time. Moreover, the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven. Finally, the simulation results show that the number of communications and traversals were reduced in learning, thus saving the computing and communication resources.

    event-triggered; multi-agent; reinforcement learning;decentralized Markov decision processes;convergence

    張文旭,男,1985年生,博士研究生,主要研究方向?yàn)槎嘀悄荏w系統(tǒng)、機(jī)器學(xué)習(xí)。發(fā)表論文4篇,其中被EI檢索4篇。

    馬磊,男,1972年生,教授,博士,主要研究方向?yàn)榭刂评碚摷捌湓跈C(jī)器人、新能源和軌道交通系統(tǒng)中的應(yīng)用等。主持國(guó)內(nèi)外項(xiàng)目14項(xiàng),發(fā)表論文40余篇,其中被EI檢索37篇。

    王曉東,男,1992年生,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)。獲得國(guó)家發(fā)明型專(zhuān)利3項(xiàng),發(fā)表論文4篇。

    10.11992/tis.201604008

    http://kns.cnki.net/kcms/detail/23.1538.TP.20170301.1147.002.html

    2016-04-05.

    日期:2017-03-01.

    國(guó)家自然科學(xué)基金青年項(xiàng)目(61304166).

    張文旭.Email: wenxu_zhang@163.com.

    TP181

    A

    1673-4785(2017)01-0082-06

    張文旭,馬磊,王曉東. 基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2017, 12(1): 82-87.

    英文引用格式:ZHANG Wenxu, MA Lei, WANG Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI transactions on intelligent systems, 2017, 12(1): 82-87.

    猜你喜歡
    計(jì)算資源時(shí)刻次數(shù)
    冬“傲”時(shí)刻
    機(jī)場(chǎng)航站樓年雷擊次數(shù)計(jì)算
    2020年,我國(guó)汽車(chē)召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
    捕獵時(shí)刻
    基于模糊規(guī)劃理論的云計(jì)算資源調(diào)度研究
    一類(lèi)無(wú)界算子的二次數(shù)值域和譜
    改進(jìn)快速稀疏算法的云計(jì)算資源負(fù)載均衡
    基于Wi-Fi與Web的云計(jì)算資源調(diào)度算法研究
    耦合分布式系統(tǒng)多任務(wù)動(dòng)態(tài)調(diào)度算法
    依據(jù)“次數(shù)”求概率
    亚洲高清免费不卡视频| 欧美一区二区国产精品久久精品| 青春草国产在线视频 | 国产成人91sexporn| 日本黄大片高清| 99精品在免费线老司机午夜| 性色avwww在线观看| 综合色丁香网| 精品一区二区三区人妻视频| 精品久久久噜噜| 69av精品久久久久久| 美女国产视频在线观看| 色哟哟哟哟哟哟| 久久久久久久亚洲中文字幕| 春色校园在线视频观看| 有码 亚洲区| 国产白丝娇喘喷水9色精品| 青春草国产在线视频 | 中文字幕熟女人妻在线| 2022亚洲国产成人精品| 在线观看66精品国产| 久久久欧美国产精品| 大又大粗又爽又黄少妇毛片口| 亚洲熟妇中文字幕五十中出| 久久久欧美国产精品| 极品教师在线视频| 亚洲久久久久久中文字幕| 免费看日本二区| 午夜激情福利司机影院| 亚洲人与动物交配视频| 99热这里只有是精品在线观看| 麻豆乱淫一区二区| 在线免费观看不下载黄p国产| 乱系列少妇在线播放| 麻豆精品久久久久久蜜桃| 一级av片app| 人妻久久中文字幕网| 人妻久久中文字幕网| 中文字幕人妻熟人妻熟丝袜美| 精品久久久久久久久久免费视频| 欧美人与善性xxx| 精品熟女少妇av免费看| 我的老师免费观看完整版| 91av网一区二区| 亚洲国产欧美人成| 99久国产av精品国产电影| 国产av一区在线观看免费| 黄色一级大片看看| 日韩精品有码人妻一区| 久久午夜福利片| 欧美另类亚洲清纯唯美| www.av在线官网国产| 国产极品天堂在线| 青青草视频在线视频观看| 人妻系列 视频| 看黄色毛片网站| 久久精品人妻少妇| 欧美性猛交╳xxx乱大交人| 51国产日韩欧美| 99热精品在线国产| 悠悠久久av| 亚洲熟妇中文字幕五十中出| 热99re8久久精品国产| 赤兔流量卡办理| 日韩人妻高清精品专区| 亚洲精品国产成人久久av| 国产美女午夜福利| 中文字幕av在线有码专区| 午夜福利高清视频| 青春草亚洲视频在线观看| 一级黄片播放器| 久久久久久久久中文| 日韩一本色道免费dvd| 有码 亚洲区| 能在线免费观看的黄片| 一级毛片aaaaaa免费看小| 悠悠久久av| 变态另类丝袜制服| 一级黄片播放器| 日韩在线高清观看一区二区三区| 国产亚洲5aaaaa淫片| 我要看日韩黄色一级片| 中文字幕制服av| 两性午夜刺激爽爽歪歪视频在线观看| 久久亚洲精品不卡| 亚洲婷婷狠狠爱综合网| 日韩欧美国产在线观看| 寂寞人妻少妇视频99o| 亚洲自偷自拍三级| 日本欧美国产在线视频| 看黄色毛片网站| 99国产极品粉嫩在线观看| 狂野欧美激情性xxxx在线观看| 最近的中文字幕免费完整| 久久这里有精品视频免费| 欧美精品一区二区大全| 少妇裸体淫交视频免费看高清| 久久精品国产99精品国产亚洲性色| 欧美日韩国产亚洲二区| 欧美日韩精品成人综合77777| 搡老妇女老女人老熟妇| 国产av一区在线观看免费| 在线观看免费视频日本深夜| 在线免费观看的www视频| 午夜福利视频1000在线观看| 99久久精品一区二区三区| 一进一出抽搐gif免费好疼| 色哟哟·www| 日韩 亚洲 欧美在线| 人人妻人人看人人澡| 欧美又色又爽又黄视频| 女人十人毛片免费观看3o分钟| 亚洲不卡免费看| 黄色日韩在线| 九九久久精品国产亚洲av麻豆| 午夜福利在线观看吧| 高清在线视频一区二区三区 | 熟女电影av网| 国产亚洲91精品色在线| 在线免费观看不下载黄p国产| 观看免费一级毛片| 国产三级中文精品| 成人午夜高清在线视频| 国产高清三级在线| 亚洲精品日韩在线中文字幕 | 成年版毛片免费区| 亚洲av男天堂| 国产亚洲av嫩草精品影院| 国产成人精品一,二区 | 中文字幕免费在线视频6| 成人欧美大片| 麻豆久久精品国产亚洲av| 色哟哟·www| 国产亚洲欧美98| 国产探花极品一区二区| 爱豆传媒免费全集在线观看| 久久久久网色| 人人妻人人看人人澡| 美女大奶头视频| 欧美成人a在线观看| 国产成人精品一,二区 | 十八禁国产超污无遮挡网站| 自拍偷自拍亚洲精品老妇| 嫩草影院新地址| 亚洲国产精品久久男人天堂| 插逼视频在线观看| 狂野欧美激情性xxxx在线观看| 久久精品久久久久久久性| 色5月婷婷丁香| 婷婷色综合大香蕉| 欧美xxxx黑人xx丫x性爽| 亚洲在久久综合| 久久精品夜夜夜夜夜久久蜜豆| 日韩欧美精品免费久久| 赤兔流量卡办理| 91aial.com中文字幕在线观看| 岛国在线免费视频观看| 精品久久久久久久久久免费视频| 亚洲精品亚洲一区二区| 日本av手机在线免费观看| 又爽又黄无遮挡网站| 国产欧美日韩精品一区二区| 亚洲成人精品中文字幕电影| 18禁裸乳无遮挡免费网站照片| 国产成人a区在线观看| 我的老师免费观看完整版| 国产视频首页在线观看| 桃色一区二区三区在线观看| av天堂中文字幕网| 亚洲国产欧美人成| 精品99又大又爽又粗少妇毛片| 在线a可以看的网站| 亚洲18禁久久av| 久久国内精品自在自线图片| 亚洲性久久影院| 国产精品av视频在线免费观看| 在现免费观看毛片| 国产伦理片在线播放av一区 | 国产亚洲欧美98| 欧美最新免费一区二区三区| 国产精品日韩av在线免费观看| 欧美色欧美亚洲另类二区| 国产精品一区二区三区四区免费观看| АⅤ资源中文在线天堂| 婷婷色av中文字幕| 悠悠久久av| 免费观看人在逋| 国产精品永久免费网站| 久久99精品国语久久久| 99久久精品国产国产毛片| 日韩欧美在线乱码| av免费在线看不卡| a级毛色黄片| 三级男女做爰猛烈吃奶摸视频| 又粗又硬又长又爽又黄的视频 | 人妻夜夜爽99麻豆av| 淫秽高清视频在线观看| 真实男女啪啪啪动态图| 亚洲精品日韩av片在线观看| 简卡轻食公司| 九草在线视频观看| 国国产精品蜜臀av免费| 99久久成人亚洲精品观看| 久久热精品热| 国产成人a∨麻豆精品| 成人一区二区视频在线观看| 菩萨蛮人人尽说江南好唐韦庄 | 免费看日本二区| 欧美三级亚洲精品| 午夜亚洲福利在线播放| 国产色婷婷99| 午夜福利在线在线| 国内精品宾馆在线| h日本视频在线播放| 久久人人爽人人爽人人片va| 国产乱人偷精品视频| 亚洲精品日韩在线中文字幕 | 国产一级毛片七仙女欲春2| 黄色视频,在线免费观看| 又爽又黄a免费视频| 91午夜精品亚洲一区二区三区| 日日摸夜夜添夜夜爱| 大又大粗又爽又黄少妇毛片口| 婷婷色综合大香蕉| 人妻系列 视频| 插逼视频在线观看| 欧美激情在线99| 亚洲在线自拍视频| 亚洲乱码一区二区免费版| 国产成人影院久久av| 国产午夜精品论理片| av又黄又爽大尺度在线免费看 | 中出人妻视频一区二区| 亚洲精品亚洲一区二区| 久久国内精品自在自线图片| kizo精华| 国产成年人精品一区二区| 午夜激情福利司机影院| 国产精品1区2区在线观看.| 九九热线精品视视频播放| 直男gayav资源| 欧美+亚洲+日韩+国产| 中国美女看黄片| 人人妻人人看人人澡| 国产私拍福利视频在线观看| 蜜桃亚洲精品一区二区三区| 日日啪夜夜撸| 毛片女人毛片| 尾随美女入室| 中文精品一卡2卡3卡4更新| 色视频www国产| 不卡一级毛片| 毛片一级片免费看久久久久| 内射极品少妇av片p| 欧美精品国产亚洲| 高清毛片免费看| 蜜臀久久99精品久久宅男| 毛片女人毛片| 国产精品.久久久| 一级毛片电影观看 | 成人欧美大片| 99热网站在线观看| 中文字幕免费在线视频6| 久久久午夜欧美精品| 毛片女人毛片| h日本视频在线播放| av在线天堂中文字幕| 成人美女网站在线观看视频| 日韩精品有码人妻一区| 国产一级毛片在线| 亚洲精品日韩在线中文字幕 | 人人妻人人澡欧美一区二区| 国产人妻一区二区三区在| 国产黄片美女视频| av在线播放精品| 国产成人午夜福利电影在线观看| 日韩三级伦理在线观看| 日本在线视频免费播放| 五月伊人婷婷丁香| 国产成人影院久久av| 啦啦啦韩国在线观看视频| 菩萨蛮人人尽说江南好唐韦庄 | 最近最新中文字幕大全电影3| av国产免费在线观看| 精品无人区乱码1区二区| 日本-黄色视频高清免费观看| 免费人成视频x8x8入口观看| www.av在线官网国产| 最近视频中文字幕2019在线8| 亚洲在线自拍视频| 高清日韩中文字幕在线| 亚洲美女搞黄在线观看| 国产av在哪里看| 国产片特级美女逼逼视频| 一级黄色大片毛片| 亚洲精品影视一区二区三区av| 国产免费男女视频| 成人漫画全彩无遮挡| 啦啦啦韩国在线观看视频| 91麻豆精品激情在线观看国产| 国产一级毛片在线| 国产 一区精品| 在线免费观看不下载黄p国产| 三级国产精品欧美在线观看| 春色校园在线视频观看| 夜夜看夜夜爽夜夜摸| av卡一久久| 两性午夜刺激爽爽歪歪视频在线观看| 男插女下体视频免费在线播放| 免费无遮挡裸体视频| 嫩草影院新地址| 日韩成人伦理影院| 国产一区二区三区在线臀色熟女| 免费人成在线观看视频色| 日日撸夜夜添| 欧洲精品卡2卡3卡4卡5卡区| 男人舔女人下体高潮全视频| 欧美另类亚洲清纯唯美| 一区福利在线观看| 欧美极品一区二区三区四区| 男女下面进入的视频免费午夜| 成人鲁丝片一二三区免费| 国产三级中文精品| 乱系列少妇在线播放| 不卡一级毛片| 亚洲最大成人手机在线| 全区人妻精品视频| 高清毛片免费观看视频网站| 在线a可以看的网站| 两个人视频免费观看高清| 伦精品一区二区三区| a级毛片免费高清观看在线播放| 成人综合一区亚洲| 国产精品一区二区三区四区久久| 久久久久久久亚洲中文字幕| 亚洲熟妇中文字幕五十中出| 啦啦啦韩国在线观看视频| 亚洲自偷自拍三级| 国产色婷婷99| 黑人高潮一二区| 日韩欧美国产在线观看| 国产蜜桃级精品一区二区三区| 免费看日本二区| 村上凉子中文字幕在线| 成人鲁丝片一二三区免费| 人人妻人人澡欧美一区二区| 免费看av在线观看网站| 91av网一区二区| 成人二区视频| 欧美日韩在线观看h| 久久精品夜色国产| 久久久午夜欧美精品| 亚洲成人久久爱视频| 亚洲成人久久性| 好男人在线观看高清免费视频| 亚洲电影在线观看av| 美女内射精品一级片tv| 黄色日韩在线| 国模一区二区三区四区视频| 国产精品一区二区三区四区免费观看| 天天躁日日操中文字幕| 99视频精品全部免费 在线| videossex国产| 九草在线视频观看| 亚洲国产精品成人综合色| 亚洲最大成人中文| 91久久精品国产一区二区成人| 国内精品一区二区在线观看| 免费搜索国产男女视频| 亚洲av二区三区四区| 18禁在线无遮挡免费观看视频| 欧美不卡视频在线免费观看| av视频在线观看入口| 亚洲国产精品合色在线| 毛片一级片免费看久久久久| 国产精品一区二区在线观看99 | 最后的刺客免费高清国语| 亚洲国产日韩欧美精品在线观看| 日韩强制内射视频| 日韩成人伦理影院| 青青草视频在线视频观看| 久久久久久久久中文| 男人和女人高潮做爰伦理| 久久久久久久久久成人| 国产黄色小视频在线观看| 欧美高清成人免费视频www| 舔av片在线| 在线国产一区二区在线| 色综合站精品国产| 日韩成人伦理影院| 天美传媒精品一区二区| 黄色配什么色好看| 精品久久久久久久末码| 永久网站在线| 99久国产av精品国产电影| 我的老师免费观看完整版| 国产精品久久久久久精品电影小说 | 久久99热6这里只有精品| 国产极品天堂在线| 特大巨黑吊av在线直播| 99久久精品热视频| 亚洲av成人精品一区久久| 亚洲内射少妇av| 国产精品野战在线观看| 我要看日韩黄色一级片| 九草在线视频观看| 18禁裸乳无遮挡免费网站照片| 欧美日韩综合久久久久久| 精品免费久久久久久久清纯| 国产黄片美女视频| 久久九九热精品免费| 91久久精品电影网| 青春草国产在线视频 | 日韩 亚洲 欧美在线| 久久欧美精品欧美久久欧美| 男人狂女人下面高潮的视频| 亚洲欧美成人综合另类久久久 | 熟女电影av网| 欧美色视频一区免费| 亚洲成人av在线免费| 综合色丁香网| 看免费成人av毛片| 久久午夜福利片| 国产探花极品一区二区| 一级二级三级毛片免费看| 国产伦在线观看视频一区| 综合色av麻豆| 国产精品乱码一区二三区的特点| 好男人视频免费观看在线| 99视频精品全部免费 在线| 在现免费观看毛片| 国产亚洲5aaaaa淫片| 极品教师在线视频| av免费在线看不卡| 亚洲av中文字字幕乱码综合| 一个人免费在线观看电影| 伦理电影大哥的女人| 精品久久久久久久末码| 99久久久亚洲精品蜜臀av| 狂野欧美白嫩少妇大欣赏| 免费看a级黄色片| 久久久国产成人精品二区| 最新中文字幕久久久久| 精品久久久噜噜| 国产人妻一区二区三区在| 国产精品国产三级国产av玫瑰| 亚洲在线观看片| 色哟哟·www| 欧美日韩国产亚洲二区| 亚洲高清免费不卡视频| 悠悠久久av| a级毛色黄片| 国产不卡一卡二| 日韩欧美国产在线观看| 久久久久久久午夜电影| 少妇熟女aⅴ在线视频| 成人无遮挡网站| 亚洲最大成人中文| 久久国内精品自在自线图片| 2022亚洲国产成人精品| 九九爱精品视频在线观看| 黑人高潮一二区| 赤兔流量卡办理| 亚洲av第一区精品v没综合| 免费av不卡在线播放| 久久国内精品自在自线图片| 日本五十路高清| 免费黄网站久久成人精品| 丰满人妻一区二区三区视频av| 99久久精品一区二区三区| 欧美性猛交黑人性爽| 18+在线观看网站| 成人午夜高清在线视频| 亚洲欧美精品自产自拍| 国产亚洲欧美98| 久久精品国产亚洲av香蕉五月| 欧美一级a爱片免费观看看| 青春草亚洲视频在线观看| 伦理电影大哥的女人| 国产亚洲精品久久久com| 欧美+亚洲+日韩+国产| 特大巨黑吊av在线直播| 国产一区亚洲一区在线观看| 日韩在线高清观看一区二区三区| 嫩草影院入口| 欧美一区二区精品小视频在线| 欧美3d第一页| 亚洲av男天堂| 97超碰精品成人国产| 国产成人a∨麻豆精品| 两个人的视频大全免费| 中出人妻视频一区二区| 国产一区亚洲一区在线观看| 国产午夜精品论理片| 欧美成人一区二区免费高清观看| 男女啪啪激烈高潮av片| 校园春色视频在线观看| 一边亲一边摸免费视频| 国产免费男女视频| 亚洲最大成人手机在线| 亚洲成人精品中文字幕电影| av在线老鸭窝| av在线天堂中文字幕| 成人亚洲欧美一区二区av| 精品人妻熟女av久视频| 久久精品国产自在天天线| 黄色欧美视频在线观看| 亚洲av第一区精品v没综合| av.在线天堂| 一级黄片播放器| 搡女人真爽免费视频火全软件| 午夜精品一区二区三区免费看| 亚洲av一区综合| 高清午夜精品一区二区三区 | 亚洲电影在线观看av| 亚洲成a人片在线一区二区| 久久婷婷人人爽人人干人人爱| 成人一区二区视频在线观看| 成人午夜高清在线视频| 精品熟女少妇av免费看| 又爽又黄无遮挡网站| 亚洲av免费在线观看| 欧美日韩国产亚洲二区| 国产亚洲精品久久久com| 久久人人精品亚洲av| 国产综合懂色| 亚洲av一区综合| 天堂中文最新版在线下载 | 亚洲精品自拍成人| 色尼玛亚洲综合影院| 九九热线精品视视频播放| 亚洲经典国产精华液单| 51国产日韩欧美| 久久精品国产亚洲av香蕉五月| 亚洲av中文字字幕乱码综合| 亚洲婷婷狠狠爱综合网| 99国产极品粉嫩在线观看| 又爽又黄a免费视频| 噜噜噜噜噜久久久久久91| 成人亚洲欧美一区二区av| 久久久久性生活片| av免费在线看不卡| 伦精品一区二区三区| 99久国产av精品国产电影| 日本色播在线视频| 亚洲三级黄色毛片| 国产精品精品国产色婷婷| 九九在线视频观看精品| 麻豆av噜噜一区二区三区| 日韩三级伦理在线观看| 免费看光身美女| 亚洲国产精品成人久久小说 | 国产精品电影一区二区三区| 日日摸夜夜添夜夜爱| 国产爱豆传媒在线观看| 色尼玛亚洲综合影院| 久久久精品欧美日韩精品| 日本成人三级电影网站| 欧美丝袜亚洲另类| 在线观看一区二区三区| 赤兔流量卡办理| 亚洲精品久久国产高清桃花| 国产午夜精品久久久久久一区二区三区| 国产在线精品亚洲第一网站| 一夜夜www| 1000部很黄的大片| 欧美高清性xxxxhd video| 国产精品日韩av在线免费观看| 夫妻性生交免费视频一级片| 成年免费大片在线观看| 欧美精品国产亚洲| 免费无遮挡裸体视频| 99热全是精品| 97超视频在线观看视频| 日韩,欧美,国产一区二区三区 | 久久久欧美国产精品| 一本久久精品| av国产免费在线观看| 看片在线看免费视频| videossex国产| 村上凉子中文字幕在线| 国产探花在线观看一区二区| 亚洲婷婷狠狠爱综合网| 欧美日本亚洲视频在线播放| 精品久久久久久久久久免费视频| 国产高清有码在线观看视频| 国产成人精品久久久久久| 欧美极品一区二区三区四区| 亚洲精品国产成人久久av| 夜夜看夜夜爽夜夜摸| 女的被弄到高潮叫床怎么办| 色综合站精品国产| 欧美日韩一区二区视频在线观看视频在线 | 国产成人午夜福利电影在线观看| 久久久久九九精品影院| 五月伊人婷婷丁香| 国产午夜精品一二区理论片| 最近手机中文字幕大全| 五月伊人婷婷丁香| 中文字幕av在线有码专区| 久久国内精品自在自线图片| avwww免费| 中文资源天堂在线| 99久国产av精品国产电影| 成人国产麻豆网| 国产精品不卡视频一区二区| 国产成人影院久久av| 日韩中字成人| 97超碰精品成人国产| 1024手机看黄色片| 色综合亚洲欧美另类图片| 欧美激情国产日韩精品一区| 一进一出抽搐动态| 黑人高潮一二区| 国语自产精品视频在线第100页|