• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多智能體深度強化學(xué)習(xí)研究綜述

    2020-03-11 13:53:02陳希亮徐志雄
    計算機工程與應(yīng)用 2020年5期
    關(guān)鍵詞:函數(shù)智能環(huán)境

    孫 彧,曹 雷,陳希亮,徐志雄,賴 俊

    1.陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007

    2.中國人民解放軍31102部隊

    1 引言

    多智能體系統(tǒng)(Multi-Agent System,MAS)[1]是在同一個環(huán)境中由多個交互智能體組成的系統(tǒng),該系統(tǒng)常用于解決獨立智能體以及單層系統(tǒng)難以解決的問題,其中的智能可以由方法、函數(shù)、過程,算法或強化學(xué)習(xí)來實現(xiàn)[2]。多智能體系統(tǒng)因其較強的實用性和擴展性,在機器人合作、分布式控制[3]、資源管理、協(xié)同決策支持系統(tǒng)、自主化作戰(zhàn)系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域都得到了廣泛的應(yīng)用。

    強化學(xué)習(xí)(Reinforcement Learning,RL)[4]是機器學(xué)習(xí)的一個重要分支,其本質(zhì)是描述和解決智能體在與環(huán)境的交互過程中學(xué)習(xí)策略以最大化回報或?qū)崿F(xiàn)特定目標(biāo)的問題。與監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)并不告訴智能體如何產(chǎn)生正確的動作,它只對動作的好壞做出評價并根據(jù)反饋信號修正動作選擇和策略,所以強化學(xué)習(xí)的回報函數(shù)所需的信息量更少,也更容易設(shè)計,適合解決較為復(fù)雜的決策問題。近來,隨著深度學(xué)習(xí)(Deep Learning,DL)[5]技術(shù)的興起及其在諸多領(lǐng)域取得輝煌的成就,融合深度神經(jīng)網(wǎng)絡(luò)和RL 的深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[6]成為各方研究的熱點,并在計算機視覺、機器人控制、大型即時戰(zhàn)略游戲等領(lǐng)域取得了較大的突破。

    DRL 的巨大成功促使研究人員將目光轉(zhuǎn)向多智能體領(lǐng)域,他們大膽地嘗試將DRL方法融入到MAS中,意圖完成多智能體環(huán)境中的眾多復(fù)雜任務(wù),這就催生了多智能體深度強化學(xué)習(xí)(Multi-agent Deep Reinforcement Learning,MDRL)[7],經(jīng)過數(shù)年的發(fā)展創(chuàng)新,MDRL 誕生了眾多算法、規(guī)則、框架,并已廣泛應(yīng)用于各類現(xiàn)實領(lǐng)域。從單到多、從簡單到復(fù)雜、從低維到高維的發(fā)展脈絡(luò)表明,MDRL 正逐漸成為機器學(xué)習(xí)乃至人工智能領(lǐng)域最火熱的研究和應(yīng)用方向,具有極高的研究價值和意義。

    2 多智能體深度強化學(xué)習(xí)基本理論

    2.1 單智能體強化學(xué)習(xí)

    單智能體強化學(xué)習(xí)(Single Agent Reinforcement Learning,SARL)中智能體與環(huán)境的交互遵循馬爾可夫決策過程(Markov Decision Process,MDP)[8]。圖1 表示單智能體強化學(xué)習(xí)的基本框架。

    圖1 單智能體強化學(xué)習(xí)基本框架

    MDP 一般由多元組 S,A,R,f,γ 表示,其中S 和A 分別代表智能體的狀態(tài)和動作空間,智能體的狀態(tài)轉(zhuǎn)移函數(shù)可表示為:

    它決定了在給定動作a ∈A 的情況下,由狀態(tài)s ∈S轉(zhuǎn)移到下一個狀態(tài)s′∈S 的概率分布,回報函數(shù)為:

    其定義了智能體通過動作a 從狀態(tài)s 轉(zhuǎn)移到狀態(tài)s′所得到的環(huán)境瞬時回報。從開始時刻t 到T 時刻交互結(jié)束時,環(huán)境的總回報可表示為:

    其中γ ∈[0 ,1] 為折扣系數(shù),它用于平衡智能體的瞬時回報和長期回報對總回報的影響。智能體的學(xué)習(xí)策略可表示為狀態(tài)到動作的映射π:S →A,MDP 的求解目標(biāo)是找到期望回報值最大的最優(yōu)策略π*,一般用最優(yōu)狀態(tài)動作值函數(shù)(Q 函數(shù))形式化表征期望回報:

    其遵循最優(yōu)貝爾曼方程(Bellman Equation):

    幾乎所有強化學(xué)習(xí)的方法都采用迭代貝爾曼方程[9]的形式求解Q 函數(shù),隨著迭代次數(shù)不斷增加,Q 函數(shù)最終得以收斂,進(jìn)而得到最優(yōu)策略:

    Q 學(xué)習(xí)(Q-Learning)[10]是最經(jīng)典的RL算法,它使用表格存儲智能體的Q 值,其Q 表的更新方式如下所示:

    算法通過不斷迭代更新Q 函數(shù)的方式求得最優(yōu)解。

    與上述基于值函數(shù)(Value Based,VB)的RL方法不同,基于策略梯度(Policy Gradient,PG)[11]的方法用參數(shù)化的策略θ 代替Q 函數(shù),并利用梯度下降的方法逼近求解最優(yōu)策略,該類方法可以用來求解連續(xù)動作空間的問題,其代表性算法有REINFORCE[12]、PG[11]、DPG[13]等。

    2.2 深度強化學(xué)習(xí)

    傳統(tǒng)RL方法有較多局限性,如學(xué)習(xí)速率慢、泛化性差、需要手動對狀態(tài)特征進(jìn)行建模、無法應(yīng)對高維空間等。為了解決此類問題,研究人員利用深度神經(jīng)網(wǎng)絡(luò)對Q 函數(shù)和策略進(jìn)行近似,這就是深度強化學(xué)習(xí)方法,DRL不僅讓智能體能夠面對高維的狀態(tài)空間,而且解決了狀態(tài)特征難以建模的問題,下面簡要介紹DRL 及其典型算法。

    2.2.1 基于值函數(shù)的方法

    深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)結(jié)合了深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)RL算法Q-Learning的優(yōu)點,它使用神經(jīng)網(wǎng)絡(luò)對值函數(shù)進(jìn)行近似,與Q 學(xué)習(xí)等傳統(tǒng)RL算法不同,DQN放棄了以表格形式記錄智能體Q 值的方式,而采用經(jīng)驗庫(Experience Replay Buffer)[14]將環(huán)境探索得到的數(shù)據(jù)以記憶單元 s,a,r,s′ 的形式儲存起來,然后利用隨機小樣本采樣的方法更新和訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)。另外DQN還引入雙網(wǎng)絡(luò)結(jié)構(gòu)(Fixed Q-targets),即同時使用Q 網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)訓(xùn)練模型,其中Q 網(wǎng)絡(luò)參數(shù)θ 隨訓(xùn)練過程實時更新,而目標(biāo)網(wǎng)絡(luò)的參數(shù)θ-是每經(jīng)過一定次數(shù)迭代后Q 網(wǎng)絡(luò)參數(shù)的復(fù)制值,DQN 在每輪迭代i 中的目標(biāo)為最小化Q 網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)之間的損失函數(shù)。

    在經(jīng)驗庫機制和雙網(wǎng)絡(luò)結(jié)構(gòu)的共同作用下,DQN有效解決了數(shù)據(jù)高相關(guān)性的問題,提升了神經(jīng)網(wǎng)絡(luò)更新效率和算法收斂效果,在實際應(yīng)用中,DQN能夠在多種策略游戲中戰(zhàn)勝高水平人類玩家。研究人員圍繞DQN在多個方面也進(jìn)行了改進(jìn)和拓展,如文獻(xiàn)[15]采用雙函數(shù)近似解決了過估計問題;文獻(xiàn)[16]利用優(yōu)勢函數(shù)(Advantage Function)將Q 函數(shù)進(jìn)行分解和整合,提升了動作輸出的確定性;文獻(xiàn)[17]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短時記憶單元(Long Short Temporal Memory,LSTM)代替?zhèn)鹘y(tǒng)的神經(jīng)網(wǎng)絡(luò),強化了算法應(yīng)對不同環(huán)境的魯棒性;文獻(xiàn)[18]則優(yōu)化了DQN 的經(jīng)驗庫機制,提高了算法訓(xùn)練的效率和效果。

    2.2.2 基于策略梯度的方法

    與以DQN 為代表的VB 方法相比,PG 方法具有能夠勝任連續(xù)且高維的動作空間的優(yōu)點。其代表算法為深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[19]。DDPG基于演員評論家(Actor-Critic,AC)框架[20];在輸入方面,其通過在Actor網(wǎng)絡(luò)引入隨機噪聲的方式產(chǎn)生探索策略;在動作輸出方面采用神經(jīng)網(wǎng)絡(luò)來擬合策略函數(shù),并直接輸出動作以應(yīng)對連續(xù)動作空間;在參數(shù)更新方面,與DQN中直接參數(shù)復(fù)制的方法不同,該算法采用緩慢更新參數(shù)的方法提升穩(wěn)定性;DDPG還引入了批正則化(Batch Normalization)方法保證其對多種任務(wù)的泛化能力。除了DDPG 外,AC 框架與PG方法相融合衍生出多種DRL算法,如使用多CPU線程進(jìn)行分布式學(xué)習(xí)的異步優(yōu)勢演員評論家(Asynchronous Advantage Actor-Critic,A3C)算法[21];增強策略梯度穩(wěn)定性的信賴域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[22]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[23]等。

    DRL 的成功表明,RL 和神經(jīng)網(wǎng)絡(luò)的融合在單智能體領(lǐng)域已較為普遍,并產(chǎn)生了大量成熟的算法,這為MDRL的突破指明了方向并提供了開闊的思路。

    2.3 多智能體強化學(xué)習(xí)

    與單智能體RL 不同,多智能體強化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)遵循隨機博弈(Stochastic Game,SG)[24]過程。圖2描述了多智能體強化學(xué)習(xí)的基本框架。

    圖2 多智能體強化學(xué)習(xí)基本框架

    SG 可由多元組 S,A1,A2,…,An,R1,R2,…,Rn,f,γ 表示,其中n 為環(huán)境中智能體的數(shù)量,S 為環(huán)境的狀態(tài)空間,Ai( )

    i=1,2,…,n 為每個智能體的動作空間,A=A1×A2×…×An為所有智能體的聯(lián)合動作空間,聯(lián)合狀態(tài)轉(zhuǎn)移函數(shù)可表示為:

    它決定了在執(zhí)行聯(lián)合動作a ∈A 的情況下,由狀態(tài)s ∈S 轉(zhuǎn)移到下一個狀態(tài)s ∈S′的概率分布,每個智能體的回報函數(shù)可表示為:

    在多智能體環(huán)境中,狀態(tài)轉(zhuǎn)移是所有智能體共同作用的結(jié)果:

    每個智能體的個體策略為:

    它們共同構(gòu)成聯(lián)合策略π 。由于智能體的回報ri,k+1取決于聯(lián)合動作,所以總回報取決于聯(lián)合策略:

    每個智能體的Q 函數(shù)則取決于聯(lián)合動作Qπi:S×A →R,求解方式為:

    MARL 的算法根據(jù)其回報函數(shù)的不同可以分為完全合作型(Fully Cooperative)[25]、完全競爭型(Fully Competitive)[25]和混合型(Mixed)[25]三種任務(wù)類型,完全合作型算法中智能體的回報函數(shù)是相同的,即R1=R2=…=Rn,表示所有智能體都在為實現(xiàn)共同的目標(biāo)而努力,其代表算法有團隊Q 學(xué)習(xí)(Team Q-learning)[26]、分布式Q 學(xué)習(xí)(Distributed Q-learning)[27]等;完全競爭型算法中智能體的回報函數(shù)是相反的,環(huán)境通常存在兩個完全敵對的智能體,它們遵循SG原則,即R1=-R2,智能體的目標(biāo)是最大化自身的回報,同時盡可能最小化對方回報,其代表算法為Minimax-Q[28];混合型任務(wù)中智能體的回報函數(shù)并無確定性正負(fù)關(guān)系,該模型適合自利型(Self-interested)智能體,一般來說此類任務(wù)的求解大都與博弈論中均衡解的概念相關(guān),即當(dāng)環(huán)境中的一個狀態(tài)存在多個均衡時,智能體需要一致選擇同一個均衡。該類算法主要面向靜態(tài)任務(wù),比較典型的有納什Q學(xué)習(xí)(Nash Q-learning)[29]、相關(guān)Q 學(xué)習(xí)(Correlated Qlearning)[30]、朋友或敵人Q 學(xué)習(xí)(Friend or Foe Qlearning)[31]等。表1對多智能體強化學(xué)習(xí)的算法進(jìn)行了簡要匯總。

    表1 多智能體強化學(xué)習(xí)算法匯總

    總的來看,傳統(tǒng)MARL 方法有很多優(yōu)點,如合作型智能體間可以互相配合完成高復(fù)雜度的任務(wù);多個智能體可以通過并行計算提升算法的效率;競爭型智能體間也可以通過博弈互相學(xué)習(xí)對手的策略,這都是SARL所不具備的。當(dāng)然MARL也有較多缺陷,如RL固有的探索利用矛盾(Explore and Exploit)和維度災(zāi)難(Curse of Dimensionality);多智能體環(huán)境非平穩(wěn)性(Nonestationary)問題;多智能體信度分配(Multiagent Credit Assignment)[32]問題;最優(yōu)均衡解問題;學(xué)習(xí)目標(biāo)選擇問題等。

    3 多智能體深度強化學(xué)習(xí)及其經(jīng)典方法

    由于傳統(tǒng)MARL 方法存在諸多缺點和局限,其只適用于解決小型環(huán)境中的簡單確定性問題,研究如何將深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)MARL 相融合的MDRL 方法具有很大的現(xiàn)實意義和迫切性。本章將分類介紹主流的MDRL 方法并對每類方法的優(yōu)缺點進(jìn)行比較。按照智能體之間的通聯(lián)方式,大致將當(dāng)前的MDRL 方法分為:無關(guān)聯(lián)型、通信規(guī)則型、互相協(xié)作型和建模學(xué)習(xí)型

    4 大類。

    3.1 無關(guān)聯(lián)型

    此類方法并不從算法創(chuàng)新本身入手,而是將單智能體DRL 算法直接擴展到多智能體環(huán)境中,每個智能體獨立地與環(huán)境進(jìn)行交互并自發(fā)地形成行為策略,互相之間不存在通信關(guān)聯(lián),其最初多用于測試單智能體DRL方法在多智能體環(huán)境中的適應(yīng)性。

    Tampuu[33]、Leibo[34]、Peysakhovich[35]等人最早將DQN算法分別應(yīng)用到Atari乒乓球游戲等多種簡單博弈場景中,他們在算法中引入了自博弈(Self-play)[36]機制和兩套不同的回報函數(shù)以保證算法收斂,實驗表明,DQN算法在這些簡單多智能體場景中能夠保證智能體之間的合作和競爭行為;Bansal等人[37]將PPO算法應(yīng)用到競爭型多智能體模擬環(huán)境MuJoCo中,他們引入了探索回報(Exploration Rewards)[38]和對手采樣(Opponent Sampling)[39]兩種技術(shù)保證智能體形成自發(fā)性對抗策略,探索回報引導(dǎo)智能體在訓(xùn)練的前期學(xué)習(xí)到非對抗性的策略,以增加學(xué)習(xí)策略的維度;對手采樣則引導(dǎo)智能體同時對新舊兩種對手智能體進(jìn)行采樣,以增加學(xué)習(xí)策略的廣度;Raghu 等人[40]則嘗試使用DQN、A3C、PPO 等多種單智能體DRL 算法解決了雙人零和博弈問題,實驗結(jié)果表明算法可以根據(jù)博弈問題的難易程度形成不同的行為策略;Gupta等人[41]將DQN、TRPO、DDPG等算法與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,應(yīng)用到多智能體環(huán)境中,為了提升算法在多智能體環(huán)境中的可擴展性,他們引入了參數(shù)共享和課程學(xué)習(xí)機制,算法在多種場景中都取得了不錯的效果。由于無關(guān)聯(lián)型方法屬于早期對多智能體學(xué)習(xí)環(huán)境的勇敢嘗試,國內(nèi)研究團隊相對來說較為滯后,理論和實驗貢獻(xiàn)較為有限。表2總結(jié)分析了無關(guān)聯(lián)型方法。

    表2 無關(guān)聯(lián)型方法總結(jié)分析

    無關(guān)聯(lián)型方法較易實現(xiàn),算法無需在智能體之間構(gòu)建通信規(guī)則,每個智能體獨立與環(huán)境交互并完成訓(xùn)練過程,該類方法能夠有效地規(guī)避維度災(zāi)難帶來的影響,且在可擴展性方面有先天性的優(yōu)勢。但它的局限性也十分明顯,由于智能體之間互不通聯(lián),每個智能體將其他智能體看作環(huán)境的一部分,從個體的角度上看,環(huán)境是處在不斷變化中的,這種環(huán)境非平穩(wěn)性嚴(yán)重影響了學(xué)習(xí)策略的穩(wěn)定和收斂,另外該類方法的學(xué)習(xí)效率和速率都十分低下。

    3.2 通信規(guī)則型

    此類方法在智能體間建立顯式的通信機制(如通信方式、通信時間、通信對象等),并在學(xué)習(xí)過程中逐漸確定和完善該通信機制,訓(xùn)練結(jié)束后,每個智能體需要根據(jù)其他智能體所傳遞的信息進(jìn)行行為決策,此類方法多應(yīng)用于完全合作型任務(wù)和非完全觀測環(huán)境(詳見4.2節(jié))。

    強化互學(xué)習(xí)(Reinforced Inter-Agent Learning,RIAL)[42]和差分互學(xué)習(xí)(Differentiable Inter-Agent Learning,DIAL)[42]是比較有代表性的通信規(guī)則型算法,它們遵循集中訓(xùn)練分散執(zhí)行框架,都使用中心化的Q網(wǎng)絡(luò)在智能體之間進(jìn)行信息傳遞,該網(wǎng)絡(luò)的輸出不僅包含Q 值,還包括在智能體之間交互的信息,其中RIAL使用雙網(wǎng)絡(luò)結(jié)構(gòu)分別輸出動作和離散信息以降低動作空間的維度,而DIAL 則建立了專門的通信通道實現(xiàn)信息端到端的雙向傳遞,相比RIAL,DIAL 在通信效率上更具優(yōu)勢。

    RIAL和DIAL算法只能傳遞離散化的信息,這就限制了智能體之間通信的信息量和實時度。為了解決這一問題,Sukhbaatar 等人提出了通信網(wǎng)(CommNet)算法[43],該算法在智能體之間構(gòu)建了一個具備傳輸連續(xù)信息能力的通信通道,它確保環(huán)境中任何一個智能體都可以實時傳遞信息,該通信機制具有兩個顯著特點:(1)每個時間步都允許所有的智能體自由通信;(2)采用廣播的方式進(jìn)行信息傳遞,智能體可以根據(jù)需求選擇接受信息的范圍。這樣每個智能體都可以根據(jù)需要選擇和了解環(huán)境的全局信息。實驗表明,CommNet 在合作型非完全觀測(詳見4.2節(jié))環(huán)境中的表現(xiàn)優(yōu)于多種無通信算法和基線算法。

    國內(nèi)對于通信規(guī)則型的MDRL 研究也取得了不小的進(jìn)展,其中最著名的有阿里巴巴團隊提出的多智能體雙向協(xié)同網(wǎng)絡(luò)(Bidirectionally-Coordinated Nets,BiCNet)[44],該方法旨在完成即時策略類游戲星際爭霸2中的微觀管理任務(wù),即實現(xiàn)對低級別、短時間交戰(zhàn)環(huán)境中己方的單位控制。算法基于AC框架和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Network,Bi-RNN),前者使得每個智能體在獨立做出行動決策的同時又能與其他智能體共享信息,后者不僅可以保證智能體之間連續(xù)互相通信,還可以存儲本地信息。該方法的核心思路是將復(fù)雜的交戰(zhàn)過程簡化為雙人零和博弈問題,由以下元組表示:

    其中,S 為所有智能體共享的全局狀態(tài),M 、N 和A、B 分別為敵對雙方智能體的數(shù)量和動作空間,全局狀態(tài)轉(zhuǎn)移概率為:

    第i 個智能體收到的環(huán)境回報為:

    其中一方的全局回報函數(shù)為:

    對于敵我雙方智能體來說,學(xué)習(xí)目標(biāo)分別為最大化和最小化這一全局期望累計回報,二者遵循Minimax原則,最優(yōu)Q 值可表示為:

    算法假設(shè)敵方策略不變,SG過程可被簡化為MDP過程進(jìn)行求解:

    經(jīng)過充分訓(xùn)練,BiCNet 算法可以讓游戲中的單位成功實現(xiàn)如進(jìn)攻、撤退、掩護、集火攻擊、異構(gòu)單位配合等多種智能協(xié)作策略。

    近來,通信規(guī)則型MDRL方法的研究成果主要側(cè)重于改進(jìn)智能體之間的通信模型以提升通信效率,如北京大學(xué)多智能體團隊[45]提出了一個基于注意力機制(ATOC Architecture)的通信模型,讓智能體具備自主選擇通信對象的能力;Kim等人[46]將通信領(lǐng)域的介質(zhì)訪問控制(Medium Access Control)方法引入到MDRL 中,提出了規(guī)劃通信(Schedule Communication)模型,優(yōu)化了信息的傳輸模式,讓智能體具備全時段通信能力。表3總結(jié)了通信規(guī)則型方法。

    表3 通信規(guī)則型方法總結(jié)分析

    總的來說,通信規(guī)則型方法優(yōu)勢在于算法在智能體之間建立的顯式的信道可以使得智能體學(xué)習(xí)到更好的集體策略,但其缺點主要是由于信道的建立所需參數(shù)較多,算法的設(shè)計架構(gòu)一般較為復(fù)雜。

    3.3 互相協(xié)作型

    此類方法并不直接在多智能體間建立顯式的通信規(guī)則,而是使用傳統(tǒng)MARL中的一些理論使智能體學(xué)習(xí)到合作型策略。

    值函數(shù)分解網(wǎng)(Value Decomposition Networks,VDN)[47]及其改進(jìn)型QMIX[48]和QTRAN[49]等將環(huán)境的全局回報按照每個智能體對環(huán)境做出的貢獻(xiàn)進(jìn)行拆分,具體是根據(jù)每個智能體對環(huán)境的聯(lián)合回報的貢獻(xiàn)大小將全局Q 函數(shù)分解為與智能體一一對應(yīng)的本地Q 函數(shù),經(jīng)過分解后每個Q 函數(shù)只和智能體自身的歷史狀態(tài)和動作有關(guān),上述三種算法的區(qū)別在于Q 函數(shù)分解的方式不同,VDN 才采用簡單的線性方式進(jìn)行分解,而QMIX和QTRAN則采用非線性的矩陣分解方式,另外,QTRAN 在具有更加復(fù)雜的Q 函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)。該值函數(shù)分解思想有效地提升了多智能體環(huán)境中的學(xué)習(xí)效果。

    多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)[50]是一種基于AC框架的算法,且遵循集中訓(xùn)練分散執(zhí)行原則。算法中每個智能體都存在一個中心化的Critic接收其他智能體的信息(如動作和觀測等),即(o1,a1,o2,a2,…,oN,aN),同時每個智能體的Actor 網(wǎng)絡(luò)只根據(jù)自己的部分觀測執(zhí)行策略ai=μθi( )oi,每個智能體Critic 網(wǎng)絡(luò)的梯度遵循:

    算法通過不斷優(yōu)化損失函數(shù)得到最優(yōu)策略:

    該算法無需建立顯示的通信規(guī)則,同時適用合作型、競爭型、混合型等多種環(huán)境,能夠很好地解決多智能體環(huán)境非平穩(wěn)問題。

    反事實多智能體策略梯度(Counterfactual Multi-Agent Policy Gradients,COMA)[51]是另一種基于AC 框架的合作型算法。該算法采用完全集中的學(xué)習(xí)方式,主要解決多智能體信度分配問題,也就是如何在只能得到全局回報的合作型環(huán)境中給每個智能體分配回報值,該算法的解決方式是假設(shè)一個反事實基線(Counterfactual Baseline),即在其他智能體的動作保持不變的情況下去掉其中一個智能體的動作,然后計算當(dāng)前Q 值和反事實Q 值的差值得到優(yōu)勢函數(shù),并進(jìn)一步得出每個智能體的回報,COMA 不受環(huán)境的非平穩(wěn)性帶來的影響,但其可擴展性相對較差。

    Pham等人將參數(shù)共享(Parameter Sharing,PS)[52]框架與多種DRL算法結(jié)合應(yīng)用于多智能體環(huán)境。PS框架的核心思想是利用一個全局的神經(jīng)網(wǎng)絡(luò)收集所有智能體的各類參數(shù)進(jìn)行訓(xùn)練。但在執(zhí)行階段仍然保持各個智能體的獨立,相應(yīng)的算法有PS-DQN、PS-DDPG、PS-TRPO等。

    國內(nèi)的多智能體協(xié)作型算法研究也有不小的進(jìn)展,天津大學(xué)的郝建業(yè)等人提出了加權(quán)雙深度Q 網(wǎng)絡(luò)(Weighted Double Deep Q -Network,WDDQN)算法,該方法將雙Q 網(wǎng)絡(luò)結(jié)構(gòu)和寬大回報(Lenient Reward)理論加入到經(jīng)典算法DQN 中[53],前者主要解決深度強化學(xué)習(xí)算法固有的過估計問題,后者則側(cè)重于提升合作型多智能體環(huán)境隨機策略更新能力,此外作者還改變了DQN中的經(jīng)驗庫抽取機制以提升樣本學(xué)習(xí)質(zhì)量。實驗結(jié)果顯示該方法在平均回報和收斂速率上都超過了多種基線算法。表4總結(jié)了互相協(xié)作型方法。

    表4 互相協(xié)作型方法總結(jié)分析

    互相協(xié)作型方法雖然不需要復(fù)雜的通信建模過程,但由于在訓(xùn)練過程中融入了傳統(tǒng)多智能體算法的規(guī)則(如值函數(shù)分解、參數(shù)共享、納什均衡等),兼具易實現(xiàn)性和高效性,且此類方法應(yīng)對不同學(xué)習(xí)場景的通用性也很強,其缺點是適用環(huán)境較為單一(無法應(yīng)對完全對抗型環(huán)境)。

    3.4 建模學(xué)習(xí)型

    在此類方法中,智能體主要通過為其他智能體建模的方式分析并預(yù)測行為,深度循環(huán)對手網(wǎng)絡(luò)(Deep Recurrent Opponent Network,DRON)[17]是早期比較有代表性的建模學(xué)習(xí)型算法。它的核心思想是建立兩個獨立的神經(jīng)網(wǎng)絡(luò),一個用來評估Q 值,另一個用來學(xué)習(xí)對手智能體的策略,該算法還使用多個專家網(wǎng)絡(luò)分別表征對手智能體的所有策略以提升學(xué)習(xí)能力。與DRON 根據(jù)對手智能體特征進(jìn)行建模的方式不同,深度策略推理Q 網(wǎng)絡(luò)(Deep Policy Inference Q-Network,DPIQN)[54]則完全依靠其他智能體的原始觀測進(jìn)行建模,該算法通過一些附屬任務(wù)(Auxiliary Task)學(xué)習(xí)對方智能體的策略,附屬任務(wù)完成的情況直接影響算法的損失函數(shù),這樣就將學(xué)習(xí)智能體的Q 函數(shù)和對方智能體的策略特征聯(lián)系起來,并降低了環(huán)境的非平穩(wěn)性對智能體學(xué)習(xí)過程的影響,該算法還引入自適應(yīng)訓(xùn)練流程讓智能體在學(xué)習(xí)對手策略和最大化Q 值之間保持平衡,這表明DPIQN可同時適用于敵方和己方智能體。自預(yù)測建模(Self Other Modeling,SOM)[55]算法使用智能體自身的策略預(yù)測對方智能體的行為,它也有兩個網(wǎng)絡(luò),只不過另一個網(wǎng)絡(luò)不學(xué)習(xí)其他智能體的策略而是對它們的目標(biāo)進(jìn)行預(yù)測,SOM適用于多目標(biāo)場景。

    此外,博弈論和MARL的結(jié)合也是該類方法的重要組成部分,如神經(jīng)虛擬自學(xué)習(xí)(Neural Fictitious Self-Play,NFSP)[56],算法設(shè)置了兩個網(wǎng)絡(luò)模擬兩個智能體互相博弈的過程,智能體的目標(biāo)是找到近似納什均衡,該算法適用于不完美信息博弈對抗,如德州撲克。Minimax原則也是博弈論中的重要理論,清華大學(xué)多智能體團隊將其與MADDPG 算法相結(jié)合并提出了M3DDPG 算法[57],其中Minimax原則用于估計環(huán)境中所有智能體的行為都完全敵對情況下的最壞結(jié)局,而智能體策略按照所估計的最壞結(jié)局不斷更新,這就提升了智能體學(xué)習(xí)策略的魯棒性,保證了學(xué)習(xí)的有效性。表5對建模學(xué)習(xí)型方法進(jìn)行了總結(jié)分析。

    表5 建模學(xué)習(xí)型方法總結(jié)分析

    建模學(xué)習(xí)型方法旨在對手或隊友策略不可知的情況下以智能體建模的方式對行為進(jìn)行預(yù)測,這類算法一般魯棒性較強,可以應(yīng)對多種不同的場景,但計算和建模的復(fù)雜度較高,無法適應(yīng)大型復(fù)雜的多智能體系統(tǒng),所以實際應(yīng)用較少。表6 對多智能體強化學(xué)習(xí)方法的分類進(jìn)行了對比分析。

    表6 多智能體強化學(xué)習(xí)方法分類對比分析

    4 多智能體深度強化學(xué)習(xí)的關(guān)鍵問題

    盡管MDRL 方法在理論、框架、應(yīng)用等層面都有不小的進(jìn)展,但該領(lǐng)域的探索還處在起步階段,與單智能體的諸多方法相同,MDRL方法在實驗及應(yīng)用層面也面臨許多問題和挑戰(zhàn),本章對MDRL方法所面臨的關(guān)鍵問題和現(xiàn)行解決方案及發(fā)展方向進(jìn)行總結(jié)。

    4.1 環(huán)境的非平穩(wěn)性問題

    與單智能體環(huán)境不同,在多智能體環(huán)境中,每個智能體不僅要考慮自己動作及回報,還要綜合考慮其他智能體的行為,這種錯綜復(fù)雜的交互和聯(lián)系過程使得環(huán)境不斷地動態(tài)變化。在非平穩(wěn)的環(huán)境中,智能體間動作及策略的選擇是相互影響的,這使得回報函數(shù)的準(zhǔn)確性降低,一個良好的策略會隨著學(xué)習(xí)過程的推進(jìn)不斷變差。環(huán)境的非平穩(wěn)性大大增加算法的收斂難度,降低算法的穩(wěn)定性,并且打破智能體的探索和利用平衡。為解決環(huán)境非平穩(wěn)問題,研究人員從不同角度對現(xiàn)有方法進(jìn)行了改進(jìn),Castaneda[58]提出了兩種基于DQN的改進(jìn)方法,它們分別通過改變值函數(shù)和回報函數(shù)的方式增加智能體之間的關(guān)聯(lián)性;Diallo 等人[59]則將并行運算機制引入到DQN中,加速多智能體在非平穩(wěn)環(huán)境中的收斂;Foerster等人[42]則致力于通過改進(jìn)經(jīng)驗庫機制讓算法適用于不斷變化的非平穩(wěn)環(huán)境,為此他提出了兩種方法:(1)為經(jīng)驗庫中的數(shù)據(jù)設(shè)置重要性標(biāo)記,丟棄先前產(chǎn)生而不適應(yīng)當(dāng)前環(huán)境的數(shù)據(jù);(2)使用“指紋”為每個從經(jīng)驗庫中取出的樣本單元做時間標(biāo)定,以提升訓(xùn)練數(shù)據(jù)的質(zhì)量。目前針對環(huán)境非平穩(wěn)性的解決方案較多,也是未來MDRL領(lǐng)域?qū)W術(shù)研究的熱門方向。

    4.2 非完全觀測問題

    在大部分多智能體系統(tǒng)中,智能體在交互過程中無法了解環(huán)境的完整信息,它們只能根據(jù)所能觀測到的部分信息做出相對最優(yōu)決策,這就是部分可觀測馬爾可夫決策過程(Partially Observable Markov Decison Process,POMDP),POMDP 是MDP 在多智能體環(huán)境中的擴展,它可由多元組G= S,A,T,R,Q,O,γ,N 表示,其中S 和A 分別表示智能體的狀態(tài)和動作集合,T和R 則表示狀態(tài)轉(zhuǎn)移方程和回報函數(shù),Q 和O 則為每個智能體Q 值和部分觀測值,每個智能體并不知道環(huán)境的全局狀態(tài)s ∈S,只能將自己的部分觀測值當(dāng)作全局狀態(tài),即:

    并以此為根據(jù)做出決策:

    得到一個關(guān)于狀態(tài)動作的回報值:

    之后智能體轉(zhuǎn)移到了下一個狀態(tài):

    每個智能體的目標(biāo)都是最大化自己的總回報:

    4.3 多智能體環(huán)境訓(xùn)練模式問題

    早期的大部分MDRL 算法都采用集中式或分散式兩種訓(xùn)練模式,前者使用一個單獨的訓(xùn)練網(wǎng)絡(luò)總攬整個學(xué)習(xí)過程,算法很容易過擬合且計算負(fù)荷太大;后者采用多個訓(xùn)練網(wǎng)絡(luò),每個智能體之間完全獨立,算法由于不存在中心化的目標(biāo)函數(shù),往往難以收斂。所以兩種訓(xùn)練模式只支持少量智能體的小型系統(tǒng)。集中訓(xùn)練和分散執(zhí)行(Centralized Learning and Decentralized Execution,CLDE)[50]融合了以上兩種模式的特點,智能體一方面在互相通信的基礎(chǔ)上獲取全局信息進(jìn)行集中式訓(xùn)練,然后根據(jù)各自的部分觀測值獨立分散執(zhí)行策略,該模式最大的優(yōu)點是允許在訓(xùn)練時加入額外的信息(如環(huán)境的全局狀態(tài)、動作或者回報),在執(zhí)行階段這些信息又可被忽略,這有利于實時掌控和引導(dǎo)智能體的學(xué)習(xí)過程。近來采用CLDE 訓(xùn)練模式的MDRL 算法不斷增加。以上述三種基本模式為基礎(chǔ),研究人員不斷探索出新的多智能體訓(xùn)練模式,它們各有優(yōu)長,可應(yīng)用于不同的多智能體環(huán)境,限于篇幅原因本文就不做贅述。

    4.4 多智能體信度分配問題

    在合作型多智能體環(huán)境中,智能體的個體回報和全局回報都可以用來表征學(xué)習(xí)進(jìn)程,但個體回報一般難以獲得,所以大部分實驗都使用全局回報計算回報函數(shù)。如何將全局回報分配給每個智能體,使其能夠精準(zhǔn)地反映智能體對整體行為的貢獻(xiàn),這就是信度分配問題。早起的方法如回報等分在實驗中的效果很差。差分回報(Difference Rewards)[60]是一個比較有效的方法,其核心是將每個智能體對整個系統(tǒng)的貢獻(xiàn)值進(jìn)行量化,但這種方法的缺點是很難找到普適的量化標(biāo)準(zhǔn),另外該方法容易加劇智能體間信度分配的不平衡性。COMA[51]中優(yōu)勢函數(shù)(Advantage Function)思想也是基于智能體的貢獻(xiàn)大小進(jìn)行信度分配,算法通常使用神經(jīng)網(wǎng)絡(luò)擬合優(yōu)勢函數(shù),該方法無論是在分配效果還是效率上都好于一般方法??傊?,信度分配是MDRL算法必須面臨的重要問題,如何精確高效地進(jìn)行信度分配直接關(guān)系到多智能體系統(tǒng)的成敗,這也是近來多智能體領(lǐng)域研究的重點。

    4.5 過擬合問題

    過擬合最早出現(xiàn)在監(jiān)督學(xué)習(xí)算法中,指的是算法只能在特定數(shù)據(jù)集中取得很好的效果,而泛化能力很弱。多智能體環(huán)境中同樣存在過擬合問題,比如在學(xué)習(xí)過程中其中一個智能體的策略陷入局部最優(yōu),學(xué)習(xí)策略只適用于其他智能體的當(dāng)前策略和當(dāng)前環(huán)境。目前有3種比較成熟的解決方法:(1)策略集成(Policy Emsemble)[50]機制,即讓智能體綜合應(yīng)對多種策略以提升適應(yīng)性;(2)極小極大(Minimax)[57]機制,即讓智能體學(xué)習(xí)最壞情況下的策略以增強算法的魯棒性;(3)消息失活(Message Dropout)[61]機制,即在訓(xùn)練時隨機將神經(jīng)網(wǎng)絡(luò)中特定節(jié)點進(jìn)行失活處理以提升智能體策略的魯棒性和泛化能力。

    5 多智能體深度強化學(xué)習(xí)的測試平臺

    許多標(biāo)準(zhǔn)化的平臺如OpenAI Gym 已經(jīng)支持在模擬環(huán)境中測試經(jīng)典DRL 和MARL 算法,但由于MDRL起步較晚,目前來看還是一個較為新穎的領(lǐng)域,所以其配套測試平臺還有待進(jìn)一步發(fā)展完善。當(dāng)前已有一些研究機構(gòu)或個人開發(fā)了一部分開源的模擬器和測試平臺用于MDRL 算法的分析和測試,它們各有特點,且面向不同類型的環(huán)境,本章將進(jìn)行簡單介紹。

    Bu?oniu等人開發(fā)出一種基于matlab的多智能體物體運輸(Coordinated Multi-agent Object Transportation,CMOT)環(huán)境[25],其本質(zhì)上是一個2D 網(wǎng)格雙智能體環(huán)境,Palmer 等人在該環(huán)境原始版本的基礎(chǔ)上進(jìn)行了擴展,使其支持隨機回報和噪聲觀測等復(fù)雜條件,該平臺面向傳統(tǒng)MARL 合作型算法的測試工作(http://www.dcsc.tudelft.nl/);炸彈人游戲(Pommerman)是由Facebook AI實驗室和Google AI聯(lián)合贊助的多智能體環(huán)境測試平臺,它同樣也是一個二維網(wǎng)格環(huán)境,最多可以容納四個智能體,支持合作型、競爭型、混合型等多種多智能體算法的測試,并且還支持非完全觀測環(huán)境和智能體的通信建模,測試人員依托該平臺不僅可以將自己的改進(jìn)算法和基線算法進(jìn)行對比,還可以與其他測試人員的算法實時對抗。另外該平臺還支持python、Java等多語言編寫(https://www.pommerman.com/);MuJoCo 最早是由華盛頓大學(xué)運動控制實驗室開發(fā)的物理仿真引擎,可應(yīng)用于具有豐富接觸行為的復(fù)雜動態(tài)系統(tǒng),平臺支持多種可視化的多智能體環(huán)境,研究人員目前已將多智能體足球游戲(Multi-agent Soccer Game)應(yīng)用到該引擎中,讓環(huán)境模擬2對2比賽,該平臺的優(yōu)點是可支持三維動作空間;谷歌DeepMind 和Blizzard 公司聯(lián)合開發(fā)了一個基于即時策略類游戲星際爭霸2 的DRL 平臺SC2LE,該平臺提供基于Python的開源接口來與游戲引擎進(jìn)行通信,其中的多智能體測試主要針對小型場景的微觀管理,場景中的每個單位都由一個獨立的智能體控制,該智能體基于自己的部分觀測做出動作,該平臺已經(jīng)成功應(yīng)用多種MDRL 算法,如QMIX[48]、COMA[51]等;基于3D沙盒游戲《我的世界》的Malmo平臺可用于完成多場景合作型任務(wù),并支持多種開源項目,具備實時調(diào)試的功能;以卡牌類游戲Hanabi為背景的學(xué)習(xí)平臺支持多玩家多任務(wù)競爭,該游戲的主要特點是玩家不僅分析自己手中的牌,同時也知曉其他玩家的部分信息,所以非常適合針對POMDP問題算法的測試;競技場(Arena)是一個基于Unity 引擎的多智能體搜索平臺,該平臺的支持多種經(jīng)典多智能體場景(如社會難題、多智能體搬運等),并支持在智能體之間通信規(guī)則的搭建,目前該平臺已能夠?qū)崿F(xiàn)如IDQN[41]、ITRPO[41]、IPPO[41]等幾種簡單的MDRL算法。

    6 多智能體深度強化學(xué)習(xí)的實際應(yīng)用及前景展望

    6.1 多智能體深度強化學(xué)習(xí)的實際應(yīng)用

    MARL的實際應(yīng)用領(lǐng)域十分廣泛,涉及領(lǐng)域包括自動駕駛、能源分配、編隊控制、航跡規(guī)劃、路由規(guī)劃、社會難題等,下文對此進(jìn)行簡要的介紹。

    Prasad和Dusparic[62]將MDRL模型應(yīng)用到能源分配領(lǐng)域,模擬場景為一個由數(shù)幢樓房組成的社區(qū),并假定該社區(qū)中的每幢樓房每年消耗的能源不高于產(chǎn)生的能源,在該場景中,樓房由智能體表示,它們通過學(xué)習(xí)適當(dāng)?shù)亩嘀悄荏w策略優(yōu)化能源在建筑物間的分配方式,環(huán)境中的全局回報由社區(qū)中的能源總量來表示,即:

    其中c( hi)和g( hi)分別表示第i 幢樓房的能源消耗和能源產(chǎn)出,另外環(huán)境中設(shè)置一個控制智能體主導(dǎo)智能體數(shù)量的增減和能源的實時分配,實驗表明該模型在保持樓房能源平衡的表現(xiàn)好于隨機策略模型。但該模型的缺點為訓(xùn)練中不能實時觀察智能體的行為,另外該模型也不能適用于大型環(huán)境(樓房數(shù)量的上限為10),模型的架構(gòu)也有待完善(未能考慮能源分類等更為復(fù)雜的情況)。

    Leibo 等人[34]提出了解決貫序社會難題(Sequential Social Dilemmas,SSD)的模型,它用于解決POMDP 環(huán)境下多智能體環(huán)境中的合作問題。Hüttenrauch 等人[63]則嘗試控制大量的智能體完成復(fù)雜的任務(wù),該應(yīng)用也被稱為群體智能系統(tǒng)。系統(tǒng)使用的方法基于演員評論家框架,利用全局狀態(tài)信息學(xué)習(xí)每個智能體的Q 函數(shù),研究人員還截取環(huán)境的實時圖像用于收集分析智能群體的狀態(tài)信息。該群體智能系統(tǒng)可以完成如搜索救援、分布式組裝等多種復(fù)雜合作型任務(wù)。Calvo 和Dusparic[64]則在群體智能系統(tǒng)中加入了多種對抗型MDRL 算法使系統(tǒng)中的不同智能體獨立并發(fā)的訓(xùn)練,改進(jìn)后的系統(tǒng)能夠勝任如城市交通信號控制等多種類型的任務(wù)。

    通信規(guī)則型算法在實際問題中的應(yīng)用較為廣泛。Nguyen 等[65]在智能體之間構(gòu)建了一種特殊的通信通道以圖片形式傳輸人類知識,場景使用A3C算法,其優(yōu)點是支持異構(gòu)型智能體間的合作;Noureddine 等[66]基于合作型DRL算法構(gòu)建了一套松耦合的分布式多智能體環(huán)境,環(huán)境中的智能體可以像人類團隊一樣互幫互助,適用于解決資源和任務(wù)的分配問題;CommNet 算法因其強大的通信能力也多被用于高復(fù)雜度的大型任務(wù)分配問題并取得了不錯的效果,但它也有計算復(fù)雜度高、通信開銷大等缺點。

    互相合作型算法主要在編隊控制、交通規(guī)劃、數(shù)據(jù)分析[67]等方面有所應(yīng)用。其中Lin等人[68]將多種合作型算法應(yīng)用在大型編隊控制問題上,他們的方法聚焦于如何平衡分配交通資源以提升交通效率,減少擁堵,該方法使用參數(shù)共享機制保證多個車輛間的協(xié)同。Schmid等人[69]則將經(jīng)濟學(xué)中的交易規(guī)則引入到多智能體系統(tǒng)中,在該系統(tǒng)中,智能體的動作、狀態(tài)、回報等參數(shù)都被看成可以互相交易的資源。該方法有效地抑制了每個獨立智能體的貪婪行為,從而利于達(dá)到系統(tǒng)回報的最大化,該系統(tǒng)在社會福利分配等經(jīng)濟學(xué)問題中有可觀的應(yīng)用。

    6.2 多智能體深度強化學(xué)習(xí)的前景展望

    MDRL雖然在眾多領(lǐng)域都有實際應(yīng)用,但由于起步時間較晚,理論成熟度較低,其發(fā)展?jié)摿κ志薮?,前景相?dāng)可觀。

    現(xiàn)有的MDRL算法大部分采用無模型的結(jié)構(gòu),雖然簡化了算法的復(fù)雜度,并且適用于復(fù)雜問題求解,但該類方法需要海量的樣本數(shù)據(jù)和較長的訓(xùn)練時間為支撐,基于模型的方法則具有數(shù)據(jù)利用效率高、訓(xùn)練時間短、泛化性強等優(yōu)點,基于模型的強化學(xué)習(xí)算法在單智能體領(lǐng)域取得了較多進(jìn)展,其必然是MDRL 未來的重點研究方向[70];模仿學(xué)習(xí)(Imitation Learning)[71]、逆向強化學(xué)習(xí)(Inverse Reinforcement Learning)[72]、元學(xué)習(xí)(Meta Learning)[73]等新興概念在單智能體領(lǐng)域已經(jīng)有了不小的成果,解決了不少現(xiàn)實問題,其在多智能體領(lǐng)域的應(yīng)用前景將相當(dāng)可觀;在城市交通信號控制、電子游戲競技等實際應(yīng)用中,同構(gòu)型的智能體擁有如行為、目標(biāo)和領(lǐng)域知識等較多的共性特點,可以通過集中訓(xùn)練的方式提升學(xué)習(xí)的效率和速率,但當(dāng)環(huán)境是由大量異構(gòu)型智能體組成時,如何學(xué)習(xí)到有效的協(xié)同策略并得到最優(yōu)解成為了一大難題,這其中需要解決如異構(gòu)型智能體信度分配、過估計、可擴展性等多種實質(zhì)問題,總之大型異構(gòu)多智能體系統(tǒng)也是一個非常有前景的研究方向[74];人機交互這個詞正不斷地被大眾所接受,文獻(xiàn)[75-77]中人機智能交互是MDRL 未來的發(fā)展方向。因為在復(fù)雜環(huán)境中人類無法單獨處理海量數(shù)據(jù),而機器則難以解決非形式化的隱性問題,所以人類智慧與機器智慧的結(jié)合至關(guān)重要。近來,研究人員已經(jīng)在嘗試將人在回路(Human-On-The-Loop)[76]框架融合到MDRL算法中,即人類和智能體合作解決復(fù)雜問題,在傳統(tǒng)的“人在回路”設(shè)定中,智能體自動地完成其所分配的任務(wù),然后等待人類指揮員做出決策并繼續(xù)自己的任務(wù)。未來將實現(xiàn)從“人在回路”到“人控回路”的飛躍,即從機器完成任務(wù)和人做決策的傳統(tǒng)時序框架到機器與人智能化協(xié)作共同完成任務(wù)的新體系,人作為終極掌控者將會在多智能體領(lǐng)域中扮演愈發(fā)重要的角色。

    7 結(jié)語

    本文對按照由淺入深的次序?qū)Χ嘀悄荏w深度強化學(xué)習(xí)進(jìn)行了分析,介紹了包括MDRL 的相關(guān)概念、經(jīng)典算法、主要挑戰(zhàn)、實際應(yīng)用和發(fā)展方向等。本文首先在引言部分簡要介紹了MDRL的背景知識,隨后按照從單智能體到多智能體的發(fā)展順序簡述了傳統(tǒng)MARL 的基本框架,并按照回報函數(shù)的不同將MDRL 分為合作型、競爭型和混合型三類,接著對DRL 及其代表算法進(jìn)行了簡要的概括,由此引入MDRL 的概念,之后根據(jù)多智能體間的關(guān)聯(lián)方式的不同將MDRL算法分為無關(guān)聯(lián)型、通信規(guī)則型、互相協(xié)作型和建模學(xué)習(xí)型四大類,并分別對各類別的主要算法進(jìn)行介紹和對比分析,最后對MDRL 算法的測試平臺、主要挑戰(zhàn)、實際應(yīng)用和未來展望進(jìn)行簡要的闡述。通過本文可以得出結(jié)論:多智能體深度強化學(xué)習(xí)是個新興的、充滿創(chuàng)新點的、快速發(fā)展的領(lǐng)域,無論是學(xué)術(shù)研究還是工程運用方面都較多空間亟待拓展,相信隨著研究的不斷深入,將會誕生更多方法解決各類復(fù)雜的問題,實現(xiàn)人工智能更美好的未來。

    猜你喜歡
    函數(shù)智能環(huán)境
    二次函數(shù)
    長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    第3講 “函數(shù)”復(fù)習(xí)精講
    一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
    二次函數(shù)
    函數(shù)備考精講
    孕期遠(yuǎn)離容易致畸的環(huán)境
    環(huán)境
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    亚洲久久久国产精品| 午夜久久久在线观看| 亚洲国产精品一区三区| 老司机亚洲免费影院| 热re99久久精品国产66热6| av线在线观看网站| 亚洲国产日韩一区二区| 中文欧美无线码| 日韩三级伦理在线观看| 亚洲 欧美一区二区三区| 最后的刺客免费高清国语| 午夜av观看不卡| 久久久久久伊人网av| 亚洲国产精品999| 亚洲综合色网址| 免费在线观看黄色视频的| 男女啪啪激烈高潮av片| 精品人妻在线不人妻| 国国产精品蜜臀av免费| 日韩欧美一区视频在线观看| 男男h啪啪无遮挡| 久久久久久伊人网av| 国产黄色免费在线视频| 伦理电影大哥的女人| 国产无遮挡羞羞视频在线观看| 色视频在线一区二区三区| 色婷婷av一区二区三区视频| 国产一区二区在线观看日韩| 日韩伦理黄色片| 国产成人精品在线电影| 中文天堂在线官网| 国产成人91sexporn| 一级a做视频免费观看| 午夜福利视频精品| 欧美成人午夜精品| 乱码一卡2卡4卡精品| 午夜福利,免费看| 免费大片黄手机在线观看| 亚洲欧美精品自产自拍| 人人妻人人澡人人看| 自拍欧美九色日韩亚洲蝌蚪91| 在线观看国产h片| 午夜91福利影院| 99热全是精品| 午夜福利乱码中文字幕| 免费女性裸体啪啪无遮挡网站| 久久99蜜桃精品久久| 777米奇影视久久| 久久 成人 亚洲| 亚洲精品第二区| 国产亚洲精品第一综合不卡 | 少妇的逼好多水| 一二三四中文在线观看免费高清| 成人二区视频| 亚洲精品一二三| 日本免费在线观看一区| 日韩制服骚丝袜av| 一二三四中文在线观看免费高清| 成人二区视频| 欧美激情国产日韩精品一区| 丝袜人妻中文字幕| 亚洲精品国产色婷婷电影| 亚洲国产最新在线播放| 亚洲国产成人一精品久久久| 欧美激情国产日韩精品一区| 黄片无遮挡物在线观看| 97在线视频观看| 夜夜骑夜夜射夜夜干| 成人二区视频| 亚洲精品美女久久久久99蜜臀 | 麻豆精品久久久久久蜜桃| 午夜影院在线不卡| 久久久久久久久久人人人人人人| 久久久久精品久久久久真实原创| 天堂8中文在线网| 人妻少妇偷人精品九色| 一个人免费看片子| 老司机影院毛片| 欧美日韩视频精品一区| 欧美日韩视频高清一区二区三区二| 国产片特级美女逼逼视频| 97在线人人人人妻| 国产av码专区亚洲av| 国产一区二区在线观看日韩| 高清不卡的av网站| 晚上一个人看的免费电影| 久久亚洲国产成人精品v| 肉色欧美久久久久久久蜜桃| 18禁裸乳无遮挡动漫免费视频| 一区二区三区四区激情视频| 久久久久久久大尺度免费视频| 国产成人午夜福利电影在线观看| 日韩av不卡免费在线播放| 最近最新中文字幕免费大全7| 一区二区三区四区激情视频| 亚洲精品国产av蜜桃| a级片在线免费高清观看视频| 国产成人精品无人区| 黑人巨大精品欧美一区二区蜜桃 | 国产精品久久久久久av不卡| 久久人人97超碰香蕉20202| 亚洲久久久国产精品| 一级片免费观看大全| 少妇的丰满在线观看| 国产成人a∨麻豆精品| 下体分泌物呈黄色| 久久毛片免费看一区二区三区| 寂寞人妻少妇视频99o| 色婷婷av一区二区三区视频| 最近手机中文字幕大全| 日本91视频免费播放| 看十八女毛片水多多多| 国产 一区精品| 成人黄色视频免费在线看| 日本猛色少妇xxxxx猛交久久| 高清av免费在线| 欧美人与性动交α欧美软件 | 黑人猛操日本美女一级片| 欧美人与性动交α欧美软件 | 久久午夜综合久久蜜桃| 成人二区视频| 90打野战视频偷拍视频| 一本—道久久a久久精品蜜桃钙片| 成人无遮挡网站| av在线app专区| 免费高清在线观看日韩| 免费不卡的大黄色大毛片视频在线观看| 久久午夜福利片| 免费黄网站久久成人精品| 少妇高潮的动态图| 七月丁香在线播放| 国产精品嫩草影院av在线观看| tube8黄色片| 全区人妻精品视频| 精品久久国产蜜桃| 天堂俺去俺来也www色官网| 热99久久久久精品小说推荐| 两性夫妻黄色片 | 男女无遮挡免费网站观看| 亚洲欧美精品自产自拍| 免费av中文字幕在线| 亚洲国产色片| 欧美老熟妇乱子伦牲交| 最黄视频免费看| 国产成人av激情在线播放| 性色av一级| 欧美人与善性xxx| 亚洲色图 男人天堂 中文字幕 | 国产又色又爽无遮挡免| 欧美人与性动交α欧美精品济南到 | 大陆偷拍与自拍| 亚洲国产av新网站| 99久国产av精品国产电影| 欧美精品高潮呻吟av久久| av.在线天堂| 中文精品一卡2卡3卡4更新| videossex国产| 亚洲少妇的诱惑av| 永久免费av网站大全| 一边亲一边摸免费视频| 亚洲五月色婷婷综合| 国产伦理片在线播放av一区| 26uuu在线亚洲综合色| 国产1区2区3区精品| 日韩制服丝袜自拍偷拍| 国产免费福利视频在线观看| 伦理电影免费视频| 国产精品久久久久久精品古装| 国产在线视频一区二区| 精品一区二区三区四区五区乱码 | 国产探花极品一区二区| 精品一区二区免费观看| 免费日韩欧美在线观看| 国产精品人妻久久久久久| 汤姆久久久久久久影院中文字幕| 久久97久久精品| 国产精品久久久久久久久免| 中文字幕另类日韩欧美亚洲嫩草| 少妇的逼好多水| 少妇人妻精品综合一区二区| 欧美日本中文国产一区发布| 亚洲精品乱久久久久久| 久久人人爽人人片av| 亚洲欧美成人精品一区二区| 美女主播在线视频| 日本欧美国产在线视频| 亚洲欧美成人精品一区二区| 久久这里只有精品19| 美国免费a级毛片| 日本欧美视频一区| 如日韩欧美国产精品一区二区三区| 免费观看性生交大片5| 中文字幕免费在线视频6| 成人亚洲精品一区在线观看| 一级片'在线观看视频| 一二三四在线观看免费中文在 | 多毛熟女@视频| 丰满饥渴人妻一区二区三| 在线精品无人区一区二区三| 亚洲av成人精品一二三区| 人妻人人澡人人爽人人| 熟女av电影| 日本午夜av视频| 丝袜美足系列| 国产淫语在线视频| 一区在线观看完整版| 久久国产亚洲av麻豆专区| 极品少妇高潮喷水抽搐| 亚洲av中文av极速乱| 日本爱情动作片www.在线观看| 精品99又大又爽又粗少妇毛片| 亚洲成人av在线免费| 777米奇影视久久| 少妇熟女欧美另类| 亚洲人成77777在线视频| 黑人高潮一二区| 欧美xxxx性猛交bbbb| 免费在线观看完整版高清| 美女主播在线视频| 亚洲国产精品成人久久小说| 岛国毛片在线播放| 一边亲一边摸免费视频| 国产爽快片一区二区三区| 插逼视频在线观看| 中文字幕最新亚洲高清| 国产亚洲精品第一综合不卡 | 中文字幕制服av| 亚洲成人av在线免费| 一边亲一边摸免费视频| 丝袜在线中文字幕| 热99久久久久精品小说推荐| 亚洲av男天堂| 日韩一区二区三区影片| 一级毛片黄色毛片免费观看视频| 亚洲av电影在线观看一区二区三区| 狠狠精品人妻久久久久久综合| 免费观看av网站的网址| 天美传媒精品一区二区| 国产在线一区二区三区精| 交换朋友夫妻互换小说| av卡一久久| 国产日韩欧美在线精品| 最黄视频免费看| av不卡在线播放| 久久毛片免费看一区二区三区| 99香蕉大伊视频| 99久国产av精品国产电影| 亚洲,欧美精品.| www.色视频.com| 曰老女人黄片| 人人妻人人澡人人爽人人夜夜| 少妇的逼好多水| 啦啦啦啦在线视频资源| 成人毛片60女人毛片免费| 午夜免费鲁丝| 成年女人在线观看亚洲视频| 国产一区二区在线观看av| 日韩 亚洲 欧美在线| 精品酒店卫生间| 少妇的逼好多水| 久久久久久久大尺度免费视频| 永久网站在线| 久久韩国三级中文字幕| 国产精品国产av在线观看| 欧美bdsm另类| 97精品久久久久久久久久精品| 看十八女毛片水多多多| 丰满迷人的少妇在线观看| av线在线观看网站| 只有这里有精品99| 春色校园在线视频观看| 午夜福利,免费看| 日韩大片免费观看网站| 久久久久久久大尺度免费视频| 中文字幕人妻丝袜制服| 久久影院123| 伊人久久国产一区二区| 最新的欧美精品一区二区| 嫩草影院入口| 尾随美女入室| 午夜久久久在线观看| 婷婷成人精品国产| 伊人亚洲综合成人网| av在线播放精品| 亚洲国产看品久久| 久久这里只有精品19| 免费黄色在线免费观看| 日本-黄色视频高清免费观看| 青春草亚洲视频在线观看| 亚洲精品一区蜜桃| 两性夫妻黄色片 | 亚洲人成77777在线视频| 91久久精品国产一区二区三区| 内地一区二区视频在线| 欧美日韩成人在线一区二区| a级毛片黄视频| 成人免费观看视频高清| 制服人妻中文乱码| 精品一品国产午夜福利视频| 亚洲国产精品专区欧美| 在线观看www视频免费| 免费女性裸体啪啪无遮挡网站| 久久久久久久精品精品| 国产成人午夜福利电影在线观看| 日本vs欧美在线观看视频| 久久99热6这里只有精品| 熟女电影av网| 亚洲精品av麻豆狂野| 成人午夜精彩视频在线观看| 最近最新中文字幕免费大全7| 啦啦啦啦在线视频资源| 日韩av不卡免费在线播放| 午夜91福利影院| 国产毛片在线视频| 夫妻午夜视频| 精品人妻一区二区三区麻豆| 街头女战士在线观看网站| 啦啦啦中文免费视频观看日本| 欧美成人午夜免费资源| 人妻一区二区av| 欧美精品人与动牲交sv欧美| av又黄又爽大尺度在线免费看| 老司机亚洲免费影院| 久久精品国产鲁丝片午夜精品| 大陆偷拍与自拍| 日韩三级伦理在线观看| 春色校园在线视频观看| 久久精品熟女亚洲av麻豆精品| 这个男人来自地球电影免费观看 | 亚洲精品美女久久久久99蜜臀 | 黄网站色视频无遮挡免费观看| 插逼视频在线观看| 日本av手机在线免费观看| 91成人精品电影| 22中文网久久字幕| 精品第一国产精品| 99久久人妻综合| 亚洲精品久久久久久婷婷小说| 性色avwww在线观看| 不卡视频在线观看欧美| 伦理电影免费视频| 一区二区日韩欧美中文字幕 | 中文字幕制服av| 亚洲av国产av综合av卡| 在线 av 中文字幕| 黑丝袜美女国产一区| 观看美女的网站| 久久精品熟女亚洲av麻豆精品| 视频区图区小说| 午夜福利影视在线免费观看| 亚洲国产毛片av蜜桃av| 肉色欧美久久久久久久蜜桃| 激情五月婷婷亚洲| 日韩一区二区三区影片| 久久久国产精品麻豆| 久久久久人妻精品一区果冻| 人妻 亚洲 视频| 一本色道久久久久久精品综合| 亚洲国产欧美日韩在线播放| 免费高清在线观看视频在线观看| 曰老女人黄片| 国产福利在线免费观看视频| 99久久精品国产国产毛片| 久久精品人人爽人人爽视色| 高清不卡的av网站| 国产在线视频一区二区| 综合色丁香网| 色5月婷婷丁香| 多毛熟女@视频| 天天影视国产精品| 免费不卡的大黄色大毛片视频在线观看| 男人舔女人的私密视频| 波多野结衣一区麻豆| 久久人人爽人人片av| 亚洲一码二码三码区别大吗| 99久国产av精品国产电影| 国产男女超爽视频在线观看| 高清不卡的av网站| 在线天堂中文资源库| 欧美精品av麻豆av| 午夜免费男女啪啪视频观看| 欧美另类一区| 80岁老熟妇乱子伦牲交| 国产精品免费大片| 免费人成在线观看视频色| 亚洲综合色惰| 伊人久久国产一区二区| 菩萨蛮人人尽说江南好唐韦庄| 亚洲av综合色区一区| 亚洲精品久久午夜乱码| 国产av一区二区精品久久| 一区二区av电影网| 国产黄色视频一区二区在线观看| 全区人妻精品视频| 亚洲精品国产av成人精品| 少妇高潮的动态图| 国产免费视频播放在线视频| 在线天堂中文资源库| 在线观看美女被高潮喷水网站| 亚洲精品久久成人aⅴ小说| 黑人高潮一二区| av在线app专区| 国产一区二区在线观看av| 国产爽快片一区二区三区| 哪个播放器可以免费观看大片| a 毛片基地| 成年美女黄网站色视频大全免费| 好男人视频免费观看在线| 亚洲国产日韩一区二区| 亚洲,一卡二卡三卡| 高清视频免费观看一区二区| 欧美日韩视频高清一区二区三区二| kizo精华| 中文字幕最新亚洲高清| 久久亚洲国产成人精品v| 男女高潮啪啪啪动态图| 国产不卡av网站在线观看| 日韩av免费高清视频| 一级爰片在线观看| 日韩中文字幕视频在线看片| 夜夜爽夜夜爽视频| 国产国拍精品亚洲av在线观看| 乱码一卡2卡4卡精品| 少妇人妻久久综合中文| 精品亚洲成a人片在线观看| 免费播放大片免费观看视频在线观看| 欧美成人精品欧美一级黄| 制服诱惑二区| 晚上一个人看的免费电影| 亚洲天堂av无毛| 丰满饥渴人妻一区二区三| 超色免费av| 韩国av在线不卡| 日韩av在线免费看完整版不卡| 国产片特级美女逼逼视频| 国产精品久久久久久久电影| av天堂久久9| 在线观看美女被高潮喷水网站| 在线观看三级黄色| 又黄又粗又硬又大视频| 国产精品不卡视频一区二区| 99久久中文字幕三级久久日本| 黄网站色视频无遮挡免费观看| 精品熟女少妇av免费看| 国产成人av激情在线播放| 精品人妻一区二区三区麻豆| 汤姆久久久久久久影院中文字幕| 午夜老司机福利剧场| 高清视频免费观看一区二区| 中国三级夫妇交换| 国产精品一二三区在线看| 亚洲熟女精品中文字幕| 啦啦啦啦在线视频资源| 国产一区二区在线观看日韩| 国产在线一区二区三区精| 日日撸夜夜添| 国产又爽黄色视频| 精品久久国产蜜桃| 中国美白少妇内射xxxbb| 青春草亚洲视频在线观看| 亚洲,欧美,日韩| 看免费av毛片| 夫妻性生交免费视频一级片| 中文字幕精品免费在线观看视频 | 91精品伊人久久大香线蕉| 免费高清在线观看日韩| 大香蕉97超碰在线| 亚洲精品aⅴ在线观看| 狂野欧美激情性bbbbbb| av在线观看视频网站免费| 亚洲精品中文字幕在线视频| 亚洲欧洲国产日韩| 涩涩av久久男人的天堂| 亚洲综合色网址| 精品人妻在线不人妻| 久久午夜综合久久蜜桃| 在线天堂中文资源库| 美女内射精品一级片tv| 制服丝袜香蕉在线| 亚洲五月色婷婷综合| 欧美精品一区二区免费开放| 亚洲国产成人一精品久久久| 国产成人免费观看mmmm| 日韩精品免费视频一区二区三区 | 午夜影院在线不卡| 激情五月婷婷亚洲| 99国产精品免费福利视频| 91精品国产国语对白视频| 色网站视频免费| 老司机亚洲免费影院| 91午夜精品亚洲一区二区三区| 在线观看www视频免费| 日韩中字成人| 乱人伦中国视频| 色吧在线观看| 久久久精品免费免费高清| 黑人欧美特级aaaaaa片| 国产免费现黄频在线看| 高清欧美精品videossex| 国产永久视频网站| 国产乱来视频区| 男人操女人黄网站| 国产深夜福利视频在线观看| 黑人高潮一二区| 国产av一区二区精品久久| 天堂8中文在线网| 久久久久久久久久久免费av| 夜夜骑夜夜射夜夜干| 22中文网久久字幕| 亚洲精品456在线播放app| 搡女人真爽免费视频火全软件| 国产色爽女视频免费观看| 久久久国产一区二区| 少妇的逼水好多| 最近中文字幕高清免费大全6| 久久国产精品大桥未久av| 国产老妇伦熟女老妇高清| 日产精品乱码卡一卡2卡三| 久久久久久人人人人人| 一级毛片 在线播放| 秋霞伦理黄片| 天堂8中文在线网| 亚洲人成77777在线视频| 成年人午夜在线观看视频| 亚洲一区二区三区欧美精品| 久久久久久久大尺度免费视频| 国产成人免费观看mmmm| 考比视频在线观看| 亚洲精品av麻豆狂野| 成人免费观看视频高清| 亚洲 欧美一区二区三区| 亚洲欧美成人精品一区二区| 国产片内射在线| 亚洲国产看品久久| 久久久久视频综合| 少妇的逼水好多| 高清不卡的av网站| 国产成人精品久久久久久| 国产黄色视频一区二区在线观看| 五月伊人婷婷丁香| 一级爰片在线观看| 黑人欧美特级aaaaaa片| 久久久久久久久久人人人人人人| a 毛片基地| 日本色播在线视频| 国产精品麻豆人妻色哟哟久久| 国产亚洲最大av| 女性生殖器流出的白浆| 精品少妇内射三级| 日韩熟女老妇一区二区性免费视频| 久久97久久精品| 精品人妻熟女毛片av久久网站| 亚洲情色 制服丝袜| 宅男免费午夜| 两个人看的免费小视频| 蜜桃在线观看..| 搡老乐熟女国产| 少妇被粗大的猛进出69影院 | 妹子高潮喷水视频| 国产成人91sexporn| 一区二区日韩欧美中文字幕 | 免费在线观看完整版高清| 精品卡一卡二卡四卡免费| 天天躁夜夜躁狠狠久久av| 纯流量卡能插随身wifi吗| 各种免费的搞黄视频| 国产精品偷伦视频观看了| 精品亚洲乱码少妇综合久久| 色哟哟·www| 亚洲精品美女久久久久99蜜臀 | 国产精品国产三级专区第一集| 欧美成人午夜免费资源| 亚洲欧洲日产国产| 五月开心婷婷网| 精品一区二区三区视频在线| 日韩人妻精品一区2区三区| 飞空精品影院首页| 亚洲综合色网址| 久久久久精品人妻al黑| 春色校园在线视频观看| 在线观看免费日韩欧美大片| 91成人精品电影| 搡老乐熟女国产| 久久国产精品大桥未久av| 侵犯人妻中文字幕一二三四区| 亚洲美女视频黄频| 少妇被粗大的猛进出69影院 | 亚洲精品美女久久久久99蜜臀 | 两性夫妻黄色片 | 亚洲av成人精品一二三区| 久久这里有精品视频免费| 亚洲,一卡二卡三卡| 边亲边吃奶的免费视频| 天堂俺去俺来也www色官网| 国产成人免费观看mmmm| 中国美白少妇内射xxxbb| 一区二区三区乱码不卡18| 欧美日韩成人在线一区二区| 精品亚洲成a人片在线观看| 国国产精品蜜臀av免费| 18禁国产床啪视频网站| 人人妻人人添人人爽欧美一区卜| 在线天堂中文资源库| 18禁在线无遮挡免费观看视频| 久久国产精品大桥未久av| 精品久久久精品久久久| 免费观看av网站的网址| 亚洲精品日本国产第一区| 久久免费观看电影| 欧美成人午夜精品| 欧美日韩视频精品一区| 成年av动漫网址| 色吧在线观看| 美女中出高潮动态图| 国产精品三级大全|