• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    增強(qiáng)協(xié)作多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配機(jī)制

    2021-04-09 05:46:57姚興虎宋光鑫
    計(jì)算技術(shù)與自動化 2021年1期
    關(guān)鍵詞:深度學(xué)習(xí)

    姚興虎  宋光鑫

    摘 要:針對協(xié)作多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配機(jī)制很難捕捉智能體之間的復(fù)雜協(xié)作關(guān)系及無法有效地處理非馬爾可夫獎勵信號的問題,提出了一種增強(qiáng)的協(xié)作多智能體強(qiáng)化學(xué)習(xí)中的全局信用分配機(jī)制。首先,設(shè)計(jì)了一種新的基于獎勵高速路連接的全局信用分配結(jié)構(gòu),使得智能體在決策時(shí)能夠考慮其所分得的局部獎勵信號與團(tuán)隊(duì)的全局獎勵信號;其次,通過融合多步獎勵信號提出了一種能夠適應(yīng)非馬爾可夫獎勵的值函數(shù)估計(jì)方法。在星際爭霸微操作實(shí)驗(yàn)平臺上的多個復(fù)雜場景下的實(shí)驗(yàn)結(jié)果表明:所提方法不僅能夠取得先進(jìn)的性能,同時(shí)還能大大提高樣本的利用率。

    關(guān)鍵詞:深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);多智能體系統(tǒng)

    中圖分類號:TP181????? 文獻(xiàn)標(biāo)識碼:A

    Enhancing Global Credit Assignment Mechanism for Cooperative

    Multi-Agent Reinforcement Learning

    YAO Xing-hu1,SONG Guang-xin2

    (1.College of Computer Science and Technology, Nanjing University

    of Aeronautics and Astronautics, Nanjing, Jiangsu 211106, China;

    2.College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing, Jiangsu 211106, China)

    Abstract:In order to solve the problem that the global credit assignment mechanism in cooperative multi-agent reinforcement learning is difficult to capture the complex cooperative relationship among agents and cannot effectively deal with non-Markov reward signals, an enhanced global credit assignment mechanism in cooperative multi-agent reinforcement learning is proposed. Firstly, a new global credit assignment structure based on reward highway connection is designed, which enables each agent to consider the local reward signal and the team's global reward signal when making decisions. Secondly, by integrating multi-step rewards, a new value function estimation method which can adapt to non-Markov rewards is proposed. The experimental results of several complex scenarios on the StarCraft multi-agent challenges show that the proposed method can not only achieve state-of-the-art performance, but also greatly improve the sample efficiency.

    Key words:deep learning; reinforcement learning; multi-agent systems

    現(xiàn)實(shí)世界中的很多問題都可以建模為多智能體強(qiáng)化學(xué)習(xí)問題。比如:多玩家電子游戲[1],多無人車輛控制[2],以及網(wǎng)絡(luò)路由包的傳輸[3]。然而,完全合作的多智能體強(qiáng)化學(xué)習(xí)問題面臨著兩個主要的挑戰(zhàn):首先,智能體的聯(lián)合動作空間隨著智能體數(shù)量的增加,這使得直接利用單智能體算法進(jìn)行聯(lián)合建模會帶來維數(shù)災(zāi)難;其次,當(dāng)環(huán)境給出的獎勵信號是針對所有智能體的全局獎勵信號時(shí),如何將這一全局獎勵信號進(jìn)行合理分配也是一個需要解決的問題。

    對于上述問題,目前的主流方法是采用“中心訓(xùn)練-分散執(zhí)行”的框架[4][5]。這類方法的核心是如何建立中心化值函數(shù)與非中心化值函數(shù)之間結(jié)構(gòu)約束關(guān)系。值函數(shù)間約束關(guān)系的復(fù)雜程度直接影響了獎勵分配機(jī)制的好壞。簡單的約束關(guān)系不能夠捕捉智能體之間的復(fù)雜協(xié)作關(guān)系,而復(fù)雜的值函數(shù)結(jié)構(gòu)則會大大增加訓(xùn)練成本并降低樣本的利用效率。

    此外,環(huán)境給出的獎勵信號往往具有很強(qiáng)的非馬爾可夫性[6][7]。即當(dāng)前狀態(tài)下智能體采取動作后,環(huán)境會經(jīng)過若干個時(shí)間步長的延遲才會給出針對這一動作的獎勵信號,或獎勵信號會在后續(xù)若干個時(shí)間步長持續(xù)給出。而在多智能體環(huán)境中,由于多個智能體之間的復(fù)雜交互以及環(huán)境的動態(tài)特性,這一非馬爾可夫獎勵現(xiàn)象則更為明顯。

    在“中心訓(xùn)練-分散執(zhí)行”框架下,設(shè)計(jì)了一種新的全局信用分配結(jié)構(gòu)并提出了一種更適宜處理非馬爾可夫獎勵的值函數(shù)估計(jì)方式。主要貢獻(xiàn)如下:

    1) 本文在“中心訓(xùn)練-分散執(zhí)行”的框架下,設(shè)計(jì)了一種新的全局信用分配機(jī)制。利用Q值混合網(wǎng)絡(luò)捕捉智能體之間復(fù)雜的約束關(guān)系,并引入獎勵高速路連接,使得智能體在決策時(shí)能夠同時(shí)考慮全局獎勵信號與其所分得的局部獎勵;

    2)針對多智能體環(huán)境中的非馬爾可夫獎勵問題,提出了一種新的值函數(shù)估計(jì)方式。這一方式通過融合多步獎勵信號的方式得到了一種基于λ回報(bào)的時(shí)間差分目標(biāo);

    3)通過以上兩個結(jié)構(gòu)與基于深度Q學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法建立聯(lián)系,得到了一種新的協(xié)作多智能體強(qiáng)化學(xué)習(xí)算法。這一算法具有更為高效的全局獎勵分配機(jī)制并能很好的處理非馬爾可夫獎勵。在星際爭霸微操作平臺上的多個復(fù)雜場景下的實(shí)驗(yàn)結(jié)果表明,所提出的新算法不僅能夠取得先進(jìn)的性能,并且還能大大提高樣本的利用率。

    1 背景知識

    1.1 問題定義

    完全合作的多智能體強(qiáng)化學(xué)習(xí)問題可以被建模為部分可觀測馬爾可夫決策過程。具體來說,這一任務(wù)可以由七元組G=(S,A,P,r,Z,O,N,γ)來描述[8]。其中,s∈S表示環(huán)境真正的狀態(tài), A表示每個智能體的動作空間,P(s'|s,a):S×AN×S→[0,1]表示狀態(tài)轉(zhuǎn)移概率,rs,a:S×AN→R表示全局獎勵函數(shù),智能體的數(shù)量為N??紤]一個部分可觀測問題,在每個時(shí)刻,每個智能體i只能通過部分觀測函數(shù)Zs,i:S×N→O得到關(guān)于環(huán)境的部分信息oi∈O,γ∈[0,1]是獎勵折扣因子。在Dec-POMDP上的一個隨機(jī)策略可定義為映射πa|o:O×A→0,1。多智能體強(qiáng)化學(xué)習(xí)任務(wù)的最終目標(biāo)是為了最大化從環(huán)境中獲得的累積獎勵,即:

    Es∈S,a∈π∑SymboleB@t=0γtrs,a(1)

    其中,a,π分別表示智能體的聯(lián)合動作和聯(lián)合策略。

    1.2 “中心訓(xùn)練-分散執(zhí)行”算法

    近年來,“中心訓(xùn)練-分散執(zhí)行(central training with decentralized execution, CTDE)”框架由于概念簡單且優(yōu)化高效,成為求解Dec-POMDP的一類主流方法[4][5]。所謂“中心訓(xùn)練”指的是在訓(xùn)練階段通過維護(hù)一個中心化的值函數(shù)或者中心化的“評論家(critic)”來對所有智能體的行為進(jìn)行協(xié)調(diào);所謂“分散執(zhí)行”,指的是每個智能體在執(zhí)行階段,其策略僅依賴于其所觀測得到的部分信息。

    在CTDE算法中,中心化值函數(shù)Qπtot與非中心化值函數(shù)Qi之間的約束關(guān)系直接決定了算法的泛化能力和優(yōu)化代價(jià)。常見的約束關(guān)系為:每個智能體單獨(dú)按照各自的值函數(shù)進(jìn)行決策,得到的局部最優(yōu)動作的聯(lián)合即為全局的最優(yōu)動作,因此在執(zhí)行階段每個智能體可以按照自己的值函數(shù)進(jìn)行動作的選擇。

    在這一假設(shè)下的主流算法包括:值分解網(wǎng)絡(luò)[9](value decomposition network, VDN),單調(diào)值分解網(wǎng)絡(luò)[5](QMIX)和Q值變換網(wǎng)絡(luò)[10](QTRAN)。VDN算法假設(shè)所有智能體的聯(lián)合值函數(shù)Qπtot=∑Ni=1Qi;QMIX算法則假設(shè)對每個智能體i都有單調(diào)約束關(guān)系QtotQi≥0成立;QTRAN則通過對Q值進(jìn)行變換構(gòu)造更為復(fù)雜的約束關(guān)系。

    1.3 環(huán)境的非馬爾可夫獎勵問題

    在馬爾可夫決策過程中,環(huán)境所給出的獎勵信號滿足馬爾可夫性質(zhì),即獎勵信號rt僅依賴于最近的一個狀態(tài)以及智能體所采取的動作。然而,許多強(qiáng)化學(xué)習(xí)場景中的獎勵信號并不滿足這一性質(zhì),比如:在足球游戲中,進(jìn)球所獲得的獎勵信號是對之前一段時(shí)間的狀態(tài)和動作的延遲獎勵;多智能體對抗問題下,摧毀敵方設(shè)施后,接下來的一段時(shí)間環(huán)境會針對當(dāng)前動作給出持續(xù)的獎勵信號。

    因此,考慮設(shè)計(jì)更適合處理非馬爾可夫獎勵的多智能體算法有助于對全局獎勵信號進(jìn)行更為合理的分配并提高多智能體算法的性能。

    2 所提算法

    2.1 基于獎勵高速路連接的全局信用分配機(jī)制

    隨著深度網(wǎng)絡(luò)隱藏層數(shù)量的增多,網(wǎng)絡(luò)的訓(xùn)練難度會不斷變大。為了解決由于網(wǎng)絡(luò)層數(shù)的增多所導(dǎo)致的退化問題,深度殘差網(wǎng)絡(luò)[11]針對輸入數(shù)據(jù)x深度殘差學(xué)習(xí)不再顯式地去擬合所希望的潛在映射Hx,而利用非線性映射擬合另一個映射Fx=Hx-x。高速路網(wǎng)絡(luò)[12]則通過門結(jié)構(gòu)對數(shù)據(jù)時(shí)直接通過高速路傳輸還是經(jīng)過神經(jīng)網(wǎng)絡(luò)變換進(jìn)行控制。這兩個方法實(shí)現(xiàn)方式簡單并能大大降低深度網(wǎng)絡(luò)的訓(xùn)練難度。

    受深度殘差網(wǎng)絡(luò)[11]和高速路網(wǎng)絡(luò)[12]啟發(fā),通過在獎勵分配網(wǎng)絡(luò)中引入高速路結(jié)構(gòu)來在不增加算法優(yōu)化代價(jià)的同時(shí)進(jìn)行更為靈活的全局獎勵分配。具體來說,提出的獎勵高速路連接能夠使得每個智能體的值函數(shù)估計(jì)過程中能夠接觸到部分的全局獎勵信號,并與原有的全局信用分配機(jī)制相結(jié)合。這樣每個智能體在決策過程中能夠同時(shí)考慮其自身所分得得局部獎勵和整個團(tuán)隊(duì)的全局獎勵。

    2.2 融合多步獎勵的值函數(shù)估計(jì)方式

    時(shí)間差分(temporaldifference, TD)算法[13]是對動作值函數(shù)進(jìn)行估計(jì)的通用算法,使用TD算法對中心化值函數(shù)Qtotτ,a進(jìn)行估計(jì)的一般形式如下所示:

    Qtotτt,at←Qtotτt,at+δt,(2)

    其中δt被稱為時(shí)間差分誤差項(xiàng)(TD-error),當(dāng)采用單步TD算法對中心化的值函數(shù)進(jìn)行估計(jì)時(shí),其TD-error項(xiàng)如下所示:

    δπt=Eπrt+1+γQτt+1,·-Qτt,at.(3)

    這種基于單步TD算法的值函數(shù)估計(jì)方式被廣泛應(yīng)于在多智能體強(qiáng)化學(xué)習(xí)問題的中心化值函數(shù)估計(jì)上[5][9][10]。然而,當(dāng)環(huán)境給出的獎勵信號具有很強(qiáng)的非馬爾可夫性時(shí),這種估計(jì)方式會帶來很大的估計(jì)偏差。所提算法采用一種變種的TD(λ)[13]方法作為中心化值函數(shù)的估計(jì)方式。具體來說,采用如下的時(shí)間差分誤差項(xiàng)Gλt作為中心化值函數(shù)的估計(jì)方式:

    Gλt=1-λ∑SymboleB@n=1λn-1Gnt,(4)

    其中Gnt=rt+1+γrt+2+…+γnEπQtotτt+n,at+n。

    2.3 優(yōu)化目標(biāo)與網(wǎng)絡(luò)架構(gòu)

    基于上述分析,提出一種基于獎勵高速路連接與融合多步獎勵的協(xié)作多智能體強(qiáng)化學(xué)習(xí)算法。該算法以QMIX算法為基本框架,在獎勵分配網(wǎng)絡(luò)中引入獎勵高速路連接并在估計(jì)中心化值函數(shù)的過程中采用了融合多步回報(bào)的值函數(shù)估計(jì)方式。具體來說,所提算法可利用基于梯度的優(yōu)化算法端到端地最小化如下的損失函數(shù):

    Lθ=1-αGλt-Qtotτ,a,s;θ,φ2+α∑Ni=1Gλt-Qiτi,ai,θi2(5)

    其中Gλt的定義如(4)所示,而α則是控制Gλt流向混合網(wǎng)絡(luò)和獎勵高速路連接比例的超參數(shù),θ=θ1,θ2,…,θN為所有智能體非中心化值網(wǎng)絡(luò)的參數(shù)集合,φ是中心化結(jié)構(gòu)額外的參數(shù)。

    所提算法的結(jié)構(gòu)框架如圖1所示:每個智能體的非中心化的值函數(shù)網(wǎng)絡(luò)的輸入為當(dāng)前智能體的觀測值和上一個時(shí)刻的動作值,之后傳入全連接網(wǎng)絡(luò)進(jìn)行特征變換,變換后的信息傳入GRU模塊與歷史信息進(jìn)行融合,之后利用一層全連接網(wǎng)絡(luò)得到所有當(dāng)前智能體i的所有動作的Q值向量Qiτi,·,然后采用∈貪心算法進(jìn)行策略的選擇。獎勵分配網(wǎng)絡(luò)以每個智能體所采取動作的Q值Qiτi,ai為輸入,然后將經(jīng)過多層非線性變換和獎勵高速路連接得到的兩個數(shù)據(jù)流進(jìn)行融合得到全局的動作值Qtotτ,a。其中,獎勵分配網(wǎng)絡(luò)中對Q值進(jìn)行非線性變換的參數(shù)是由以全局狀態(tài)st為輸入的超網(wǎng)絡(luò)[15]所生成的。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 數(shù)據(jù)集和實(shí)現(xiàn)細(xì)節(jié)

    在星際爭霸微操作平臺[16]上進(jìn)行實(shí)驗(yàn),選擇該實(shí)驗(yàn)平臺主要基于以下兩個目的:(1) 所提供的星際爭霸環(huán)境中僅有針對所有智能體的全局獎勵信號,因此很適合研究全局獎勵分配問題;(2)星際爭霸中的獎勵信號具有很強(qiáng)的非馬爾可夫性。其中的智能體角色代表如圖2所示,圖中左方為3個潛行者(Stalker),右邊為5個狂熱者(Zealot)。為了充分探究各種算法的魯棒性與樣本有效性,選取了實(shí)驗(yàn)平臺所提供的一個非對稱場景(asymmetric)(a) 2s_vs_1sc(控制同種類的2個智能體), 和三個復(fù)雜的齊次對稱場景(heterogeneous & symmetric)(b) 3s5z(控制兩個種類的8個智能體), (c) 1c3s5z(控制三個種類的9個智能體), (d) 3s6z(控制兩個種類的9個智能體)進(jìn)行了實(shí)驗(yàn)。

    智能體的非中心化網(wǎng)絡(luò)部分包括一個維度為64維的全連接網(wǎng)絡(luò),全連接網(wǎng)絡(luò)的輸出被傳入一個GRU[17]模塊用來整合歷史信息,之后連接一個維度為64的全連接層,激活函數(shù)為ReLU[18],最后輸出所有動作的Q值。中心化結(jié)構(gòu)部分引入了獎勵高速路連接來降低網(wǎng)絡(luò)的學(xué)習(xí)難度,與QMIX的結(jié)構(gòu)相同,中心化的網(wǎng)絡(luò)結(jié)構(gòu)同樣利用超網(wǎng)絡(luò)來產(chǎn)生混合網(wǎng)絡(luò)的參數(shù)。表達(dá)式(4)中的參數(shù)λ=0.8,損失函數(shù)(5)中的超參數(shù)α=0.2。實(shí)驗(yàn)中的所有算法均采用同樣的超參數(shù),優(yōu)化器均為RMSprop,其中學(xué)習(xí)速率lr=0.0005。

    3.2 實(shí)驗(yàn)結(jié)果分析

    將所提出的算法與當(dāng)前在這一平臺上的五種先進(jìn)算法QTRAN[10],QMIX[5],VDN[9],COMA[4]和IQL[14]進(jìn)行對比。為保證公平性,所有算法在2s_vs_1sc和1c3s5z兩個場景中訓(xùn)練兩百萬個時(shí)間步長,在3s5z和3s6z上訓(xùn)練三百萬個時(shí)間步長。我們采用在訓(xùn)練過程中的測試勝率以及每局游戲中所獲得的累積獎勵值來進(jìn)行算法的性能評估。所提算法與對比算法的性能比較結(jié)果如圖3和圖4 所示。圖中實(shí)線和陰影區(qū)域表示獨(dú)立運(yùn)行10次算法所得的勝率均值和保留了95%置信區(qū)間的方差。

    圖3的實(shí)驗(yàn)結(jié)果表明,所提出的方法在多個復(fù)雜場景下能夠取得最優(yōu)的性能。具體來說,在針對智能體數(shù)量較少的2s_vs_1sc場景,所提算法能夠取得有競爭力的結(jié)果。但隨著智能體數(shù)量的不斷增加,場景越來越復(fù)雜,從而使得已有的算法性能急劇下降且具有很大的偏差,而所提算法在能夠取得優(yōu)異性能的同時(shí)還具有很低的偏差。此外,圖3實(shí)驗(yàn)結(jié)果同樣表明,更為復(fù)雜的獎勵分配結(jié)構(gòu)不一定能夠帶來算法性能上的提升。事實(shí)上,具有較為復(fù)雜獎勵分配結(jié)構(gòu)的COMA算法和QTRAN算法在復(fù)雜的3s5z,3s6z以及1c3s5z場景下并沒有優(yōu)勢,而所提算法所采用的獎勵高速路結(jié)構(gòu)并沒有帶來額外的優(yōu)化代價(jià),因此并不會增加算法的復(fù)雜度,從而能夠靈活擴(kuò)展到更為復(fù)雜的多智能體環(huán)境。

    圖4的實(shí)驗(yàn)結(jié)果表明,所提出的算法有助于智能體在決策過程中獲得更多的累積獎勵。并且在環(huán)境變得越來越復(fù)雜時(shí),其他先進(jìn)的算法所獲得的累積獎勵劇烈減少,而所提算法在面臨復(fù)雜環(huán)境時(shí)仍能獲得較多的累積獎勵值。這意味著采用融合多步獎勵的值函數(shù)估計(jì)方式和獎勵高速路結(jié)構(gòu)能夠使得智能體的策略更適合復(fù)雜環(huán)境下的非馬爾可夫獎勵。

    圖3和圖4中的陰影面積大小可以作為算法穩(wěn)定性優(yōu)劣的一種衡量方式??梢钥闯?,在2s_vs_1sc這一較為簡單的場景下,所有算法的性能方差并沒有顯著差異。而隨著智能體數(shù)量和種類的增多,基準(zhǔn)算法的性能波動明顯,尤其是在具有8個智能體的3s5z環(huán)境以及9個智能體的1c3s5z環(huán)境,QMIX算法的性能方差不斷增大。而所提出的方法則具有很好的穩(wěn)定性。

    4 結(jié) 論

    針對深度多智能體強(qiáng)化學(xué)習(xí)中的全局獎勵分配問題,首先設(shè)計(jì)了一種高效進(jìn)行獎勵分配的獎勵高速路連接結(jié)構(gòu);其次提出了一種融合多步獎勵的方式來處理多智能體環(huán)境中全局獎勵的非馬爾可夫性所帶來的問題。在多個復(fù)雜多智能體場景下的實(shí)驗(yàn)結(jié)果表明,所提算法能夠取得性能提升,并且還具有很好穩(wěn)定性。

    參考文獻(xiàn)

    [1]

    VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature, 2019, 575(7782): 350-354.

    [2] KIUMARSI B, VAMVOUDAKIS K G, MODARES H, et al. Optimal and autonomous control using reinforcement learning: A survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(6): 2042-2062.

    [3] YE Da-yong, ZHANG Min-jie, YANG Yun. A multi-agent framework for packet routing in wireless sensor networks [J].Sensors, 2015, 15(5): 10026-10047.

    [4] FOERSTER J N, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients [C].AAAI Conference on Artificial Intelligence, 2018:2974-2982

    [5] RASHID T, SAMVELYAN M, DE WITT C S, et al. Qmix: monotonic value function factorisation for deep multi-agent reinforcement learning [C]. International Conference on Machine Learning, 2018: 4292-4301.

    [6] THIBAUX S, GRETTON C, SLANEY J, et al. Decision-theoretic planning with non-Markovian rewards[J]. Journal of Artificial Intelligence Research, 2006, 25: 17-74.

    [7] GAON M, BRAFMAN R. Reinforcement? learning with non-Markovian rewards[C]. AAAI Conference on Artificial Intelligence, 2020, 34(04): 3980-3987.

    [8] OLIEHOEK F A, AMATO C. A concise introduction to decentralized POMDPs[M]. Springer International Publishing, 2016.

    [9] SUNEHAG G, LEVER A, GRUSLY S, et al. Value-decomposition networks for cooperative multi-agent learning based on team reward [C]. International Conference on AutonomousAgents and Multi Agent Systems, 2018: 2085-2087.

    [10]SONK Yung-hwan, KIM Dae-woo, KANG Wan-ju, et al. Qtran: learning to factorize with transformation for cooperative multi-agent reinforcement learning [C], International Conference on Machine Learning,2019: 5887-5896.

    [11]HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Deep residual learning for image recognition [C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016:770-778

    [12]SRIVASTAV A, RUPESH K, KLAUS G, et al. Training very deep networks [C]. Advances in Neural Information Processing Systems, 2015:2377-2385

    [13]SUTTON R S, BARTO A G. Reinforcement learning: An introduction[M]. MIT Press, 2018.

    [14]TAN Ming. Multi-agent reinforcement learning: independent vs. cooperative agents [C]. International Conference on Machine Learning, 1993:330–337.

    [15]HA D, DAI A, LE Q V. Hypernetworks[J]. arXiv preprint arXiv:1609.09106, 2016.

    [16]SAMVELYAN M, RASHID T, SCHROEDER C, et al. The StarCraft multi-agent challenge[C]. International Conference on Autonomous Agents and MultiAgent Systems. 2019: 2186-2188.

    [17]CHUNG Jun-young,GULCEHREC, CHO K, et al.Empirical evaluation of gated recurrent neural networks on sequence modeling[C].In Advances in Neural Information Processing Systems, 2014.

    [18]AGARAP A F. Deep learning using rectified linear units (relu)[J]. arXiv preprint arXiv:1803.08375, 2018.

    猜你喜歡
    深度學(xué)習(xí)
    從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
    面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
    基于自動智能分類器的圖書館亂架圖書檢測
    搭建深度學(xué)習(xí)的三級階梯
    有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
    利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
    考試周刊(2016年94期)2016-12-12 12:15:04
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    97在线视频观看| 国产真实伦视频高清在线观看| 狠狠精品人妻久久久久久综合| 一级二级三级毛片免费看| 美女大奶头黄色视频| 亚洲欧美中文字幕日韩二区| 亚洲av日韩在线播放| 99热这里只有是精品50| 亚洲精品日本国产第一区| 交换朋友夫妻互换小说| 欧美成人午夜免费资源| 我要看日韩黄色一级片| 99精国产麻豆久久婷婷| 蜜桃久久精品国产亚洲av| 久久韩国三级中文字幕| 九草在线视频观看| 香蕉精品网在线| 18禁在线播放成人免费| 3wmmmm亚洲av在线观看| 三级经典国产精品| 在线观看人妻少妇| 春色校园在线视频观看| 日日撸夜夜添| 肉色欧美久久久久久久蜜桃| 欧美一级a爱片免费观看看| 国产无遮挡羞羞视频在线观看| 久久久久国产精品人妻一区二区| 一二三四中文在线观看免费高清| 偷拍熟女少妇极品色| 久久久精品94久久精品| 亚洲伊人久久精品综合| 日本-黄色视频高清免费观看| 不卡视频在线观看欧美| 亚洲国产欧美日韩在线播放 | av专区在线播放| 美女视频免费永久观看网站| 在线 av 中文字幕| 夫妻午夜视频| 免费不卡的大黄色大毛片视频在线观看| 一级毛片黄色毛片免费观看视频| 国产淫语在线视频| 人妻系列 视频| 黄色怎么调成土黄色| 一区二区av电影网| 性高湖久久久久久久久免费观看| 国产精品久久久久久精品古装| 国产精品一区二区在线不卡| 男女国产视频网站| 99热国产这里只有精品6| 亚洲在久久综合| 亚洲不卡免费看| 亚洲国产色片| 国产亚洲最大av| 久久99蜜桃精品久久| 国产伦理片在线播放av一区| 久久精品国产a三级三级三级| 乱系列少妇在线播放| 91在线精品国自产拍蜜月| 国产男人的电影天堂91| 国产一区亚洲一区在线观看| 亚洲伊人久久精品综合| 精品久久久久久久久av| 色婷婷av一区二区三区视频| 人妻夜夜爽99麻豆av| 亚洲欧美成人精品一区二区| 如何舔出高潮| 嫩草影院入口| 欧美性感艳星| 少妇被粗大猛烈的视频| 老熟女久久久| 最后的刺客免费高清国语| 国国产精品蜜臀av免费| 26uuu在线亚洲综合色| 在线观看免费日韩欧美大片 | 国产视频首页在线观看| 国产 一区精品| 成人亚洲欧美一区二区av| 毛片一级片免费看久久久久| 桃花免费在线播放| 插逼视频在线观看| 国产伦精品一区二区三区四那| 韩国高清视频一区二区三区| 国产黄色视频一区二区在线观看| av福利片在线| av天堂中文字幕网| 99re6热这里在线精品视频| 久久这里有精品视频免费| 欧美xxxx性猛交bbbb| 自拍欧美九色日韩亚洲蝌蚪91 | 高清欧美精品videossex| 日韩强制内射视频| 极品人妻少妇av视频| 亚洲自偷自拍三级| 欧美xxⅹ黑人| 中国美白少妇内射xxxbb| 免费黄网站久久成人精品| 婷婷色综合www| 成人影院久久| 日韩不卡一区二区三区视频在线| 高清黄色对白视频在线免费看 | 国产亚洲91精品色在线| 国产黄色免费在线视频| 国产黄片美女视频| 两个人免费观看高清视频 | 久久久久久久久久久久大奶| 国产精品99久久久久久久久| 成年av动漫网址| 简卡轻食公司| 人人妻人人添人人爽欧美一区卜| 国产一区二区在线观看av| 国产有黄有色有爽视频| 在线观看免费视频网站a站| 久久久久久久大尺度免费视频| 欧美 亚洲 国产 日韩一| 9色porny在线观看| 成人国产av品久久久| 国产黄片美女视频| 久久精品熟女亚洲av麻豆精品| 免费看日本二区| 一本一本综合久久| 日韩成人av中文字幕在线观看| 99久久中文字幕三级久久日本| 日日啪夜夜撸| 中文字幕人妻丝袜制服| a级片在线免费高清观看视频| av黄色大香蕉| 婷婷色av中文字幕| 中文乱码字字幕精品一区二区三区| 欧美性感艳星| 18禁裸乳无遮挡动漫免费视频| 国产一区二区三区av在线| 成年美女黄网站色视频大全免费 | 午夜免费观看性视频| 特大巨黑吊av在线直播| 最近2019中文字幕mv第一页| 毛片一级片免费看久久久久| 国产高清国产精品国产三级| 国产成人免费观看mmmm| 欧美精品一区二区免费开放| 亚洲国产精品一区二区三区在线| 日本黄色日本黄色录像| 日韩欧美一区视频在线观看 | 亚洲天堂av无毛| 天天躁夜夜躁狠狠久久av| 精品国产露脸久久av麻豆| 日本黄色日本黄色录像| 另类亚洲欧美激情| 国产亚洲av片在线观看秒播厂| 亚洲av综合色区一区| 国产 精品1| 午夜91福利影院| 日日爽夜夜爽网站| 大片免费播放器 马上看| 午夜免费鲁丝| 黑人猛操日本美女一级片| av在线播放精品| 丰满乱子伦码专区| 少妇人妻一区二区三区视频| kizo精华| 精品一品国产午夜福利视频| 国产69精品久久久久777片| 欧美精品亚洲一区二区| 一本久久精品| 国产成人免费无遮挡视频| 久久ye,这里只有精品| 丰满人妻一区二区三区视频av| 日本色播在线视频| 亚洲精品亚洲一区二区| 高清黄色对白视频在线免费看 | 天美传媒精品一区二区| 秋霞在线观看毛片| 日韩强制内射视频| 国产男人的电影天堂91| 七月丁香在线播放| 亚洲av成人精品一二三区| 国产熟女午夜一区二区三区 | 国产成人精品久久久久久| 欧美日韩综合久久久久久| 成年人免费黄色播放视频 | 亚洲欧美一区二区三区黑人 | 国产探花极品一区二区| 人人妻人人看人人澡| 日韩电影二区| 国产在线一区二区三区精| 亚洲国产成人一精品久久久| 天堂8中文在线网| 亚洲av男天堂| 日本黄大片高清| 肉色欧美久久久久久久蜜桃| 成人亚洲欧美一区二区av| 成人亚洲精品一区在线观看| 十八禁网站网址无遮挡 | 精品久久国产蜜桃| 午夜激情久久久久久久| 国产一区亚洲一区在线观看| 十分钟在线观看高清视频www | 黄色怎么调成土黄色| 久久人人爽av亚洲精品天堂| 久久影院123| 国产亚洲午夜精品一区二区久久| 一本—道久久a久久精品蜜桃钙片| 亚洲综合色惰| 亚洲美女视频黄频| 欧美bdsm另类| 少妇人妻一区二区三区视频| 国产真实伦视频高清在线观看| 黄片无遮挡物在线观看| 亚洲精品,欧美精品| 国产精品偷伦视频观看了| 亚洲av国产av综合av卡| 久久热精品热| 日韩一本色道免费dvd| 中文天堂在线官网| 伊人亚洲综合成人网| 欧美精品人与动牲交sv欧美| 男女免费视频国产| 亚洲欧美精品自产自拍| 中文字幕人妻丝袜制服| 久久人妻熟女aⅴ| 男女免费视频国产| 中文天堂在线官网| 日韩一本色道免费dvd| 亚洲精品乱码久久久久久按摩| 日韩人妻高清精品专区| 亚洲精品乱码久久久久久按摩| 这个男人来自地球电影免费观看 | 亚洲欧美中文字幕日韩二区| 黄色视频在线播放观看不卡| 最近2019中文字幕mv第一页| 欧美xxxx性猛交bbbb| 日韩一区二区三区影片| 国产片特级美女逼逼视频| 国产成人aa在线观看| 亚洲人与动物交配视频| 最近的中文字幕免费完整| 久久人人爽人人片av| 欧美丝袜亚洲另类| 欧美 日韩 精品 国产| 内地一区二区视频在线| 国产爽快片一区二区三区| 国产爽快片一区二区三区| 高清在线视频一区二区三区| av在线app专区| 亚洲第一av免费看| 精品一品国产午夜福利视频| 人人妻人人看人人澡| 欧美人与善性xxx| 久久久久国产网址| av天堂中文字幕网| 免费观看av网站的网址| 成人毛片a级毛片在线播放| 久久热精品热| 国产精品福利在线免费观看| 精华霜和精华液先用哪个| 亚洲国产av新网站| 国产成人免费观看mmmm| 欧美精品国产亚洲| 黑人猛操日本美女一级片| 国产精品女同一区二区软件| 日日爽夜夜爽网站| 人妻人人澡人人爽人人| 久久久久精品性色| 免费在线观看成人毛片| 免费观看性生交大片5| 亚洲色图综合在线观看| 亚洲成人手机| 一本大道久久a久久精品| 欧美精品亚洲一区二区| 妹子高潮喷水视频| 亚洲精品乱码久久久v下载方式| 91成人精品电影| 日本欧美视频一区| 少妇被粗大的猛进出69影院 | 91午夜精品亚洲一区二区三区| 蜜臀久久99精品久久宅男| 欧美日韩精品成人综合77777| 亚洲怡红院男人天堂| 又粗又硬又长又爽又黄的视频| 精品午夜福利在线看| 国产精品国产三级国产av玫瑰| 高清av免费在线| 一级毛片久久久久久久久女| 日本爱情动作片www.在线观看| 99九九在线精品视频 | 黄色日韩在线| 大话2 男鬼变身卡| av福利片在线观看| 欧美区成人在线视频| 我的老师免费观看完整版| 国产精品偷伦视频观看了| 日韩制服骚丝袜av| 夫妻午夜视频| 啦啦啦视频在线资源免费观看| 中文字幕精品免费在线观看视频 | 国产av精品麻豆| 亚洲激情五月婷婷啪啪| 国产 一区精品| 18禁裸乳无遮挡动漫免费视频| 噜噜噜噜噜久久久久久91| 午夜福利视频精品| 国产亚洲精品久久久com| 国产片特级美女逼逼视频| 亚洲欧美一区二区三区国产| 18禁动态无遮挡网站| 中文字幕久久专区| 国产精品99久久久久久久久| 99视频精品全部免费 在线| 国产黄色免费在线视频| 九九久久精品国产亚洲av麻豆| 国产亚洲午夜精品一区二区久久| av在线播放精品| 国产老妇伦熟女老妇高清| 亚洲av综合色区一区| tube8黄色片| 内射极品少妇av片p| 免费观看在线日韩| 国产黄频视频在线观看| 色吧在线观看| 青青草视频在线视频观看| 国产亚洲精品久久久com| 妹子高潮喷水视频| 国产一区有黄有色的免费视频| 亚洲,欧美,日韩| 亚洲欧美精品自产自拍| 欧美日韩视频精品一区| 国产男人的电影天堂91| 国产综合精华液| 精品国产国语对白av| 日韩一区二区三区影片| 日本91视频免费播放| 精品少妇黑人巨大在线播放| 免费观看在线日韩| av免费观看日本| 免费久久久久久久精品成人欧美视频 | 日韩不卡一区二区三区视频在线| 黑人猛操日本美女一级片| 欧美日韩国产mv在线观看视频| 久久99热6这里只有精品| 中文在线观看免费www的网站| 麻豆成人av视频| 永久网站在线| 最黄视频免费看| 精品一区在线观看国产| 午夜老司机福利剧场| 男人狂女人下面高潮的视频| 青春草视频在线免费观看| 亚洲经典国产精华液单| freevideosex欧美| 国产欧美另类精品又又久久亚洲欧美| av国产精品久久久久影院| 亚洲人与动物交配视频| av黄色大香蕉| 亚洲欧美日韩东京热| 亚洲精品视频女| 亚洲自偷自拍三级| 午夜福利视频精品| 韩国高清视频一区二区三区| 久久国产精品男人的天堂亚洲 | 日本av手机在线免费观看| 免费观看的影片在线观看| 色视频www国产| 国产淫语在线视频| 国产男女超爽视频在线观看| 欧美3d第一页| 黄色欧美视频在线观看| 大香蕉久久网| 国产精品偷伦视频观看了| 亚洲自偷自拍三级| 大片免费播放器 马上看| 日本黄色片子视频| 99久久精品一区二区三区| 欧美日韩综合久久久久久| 欧美日韩视频精品一区| 有码 亚洲区| 中文字幕精品免费在线观看视频 | 日韩av在线免费看完整版不卡| 中国三级夫妇交换| 午夜福利视频精品| 性色av一级| 少妇被粗大的猛进出69影院 | 少妇人妻久久综合中文| 黄色怎么调成土黄色| 99热全是精品| av专区在线播放| 欧美xxⅹ黑人| 99热网站在线观看| 卡戴珊不雅视频在线播放| 婷婷色av中文字幕| 欧美老熟妇乱子伦牲交| 日韩欧美 国产精品| 日韩制服骚丝袜av| 国产av国产精品国产| 啦啦啦啦在线视频资源| 久久久欧美国产精品| 两个人的视频大全免费| 97超视频在线观看视频| 大片免费播放器 马上看| 亚洲av不卡在线观看| 99国产精品免费福利视频| 免费高清在线观看视频在线观看| 一级a做视频免费观看| 国产精品嫩草影院av在线观看| 中文字幕人妻熟人妻熟丝袜美| 日韩熟女老妇一区二区性免费视频| 久久国产乱子免费精品| 免费大片18禁| 韩国高清视频一区二区三区| 国产精品国产av在线观看| 国内少妇人妻偷人精品xxx网站| 国产男人的电影天堂91| 国产精品久久久久成人av| 91成人精品电影| 人体艺术视频欧美日本| 菩萨蛮人人尽说江南好唐韦庄| 毛片一级片免费看久久久久| 狠狠精品人妻久久久久久综合| 国产欧美亚洲国产| 美女主播在线视频| 天堂8中文在线网| 欧美丝袜亚洲另类| 国产伦在线观看视频一区| 婷婷色麻豆天堂久久| 91久久精品国产一区二区三区| 亚洲欧美中文字幕日韩二区| 国产淫语在线视频| 人成视频在线观看免费观看| 久久久久视频综合| 欧美国产精品va在线观看不卡| 久久国产精品男人的天堂亚洲| 中文字幕另类日韩欧美亚洲嫩草| 国产成人一区二区三区免费视频网站| 国产成人免费无遮挡视频| 亚洲精品国产区一区二| 亚洲精品一二三| 日韩人妻精品一区2区三区| 亚洲综合色网址| 午夜激情av网站| 久久精品国产亚洲av香蕉五月 | 欧美人与性动交α欧美软件| 欧美av亚洲av综合av国产av| 免费观看人在逋| 777米奇影视久久| av不卡在线播放| 日韩精品免费视频一区二区三区| 久久天堂一区二区三区四区| 精品久久久久久久毛片微露脸 | 少妇的丰满在线观看| 国产成人a∨麻豆精品| 人人妻,人人澡人人爽秒播| 国产在线免费精品| 亚洲人成电影免费在线| 黄色a级毛片大全视频| 国产精品久久久久久精品古装| 午夜免费鲁丝| 亚洲欧美精品综合一区二区三区| 亚洲视频免费观看视频| 欧美亚洲 丝袜 人妻 在线| 两个人看的免费小视频| 中文字幕精品免费在线观看视频| 啦啦啦免费观看视频1| cao死你这个sao货| 成人影院久久| 国产精品免费视频内射| 精品久久久久久久毛片微露脸 | a级毛片黄视频| h视频一区二区三区| 18禁黄网站禁片午夜丰满| 美国免费a级毛片| 欧美激情极品国产一区二区三区| 精品国产乱码久久久久久小说| 国产精品免费视频内射| 狠狠婷婷综合久久久久久88av| 国产免费视频播放在线视频| 一区二区日韩欧美中文字幕| 亚洲精品一区蜜桃| 精品亚洲成国产av| 国产精品自产拍在线观看55亚洲 | 一边摸一边抽搐一进一出视频| 国产亚洲精品第一综合不卡| 91成年电影在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 精品国产超薄肉色丝袜足j| 亚洲精品中文字幕一二三四区 | 首页视频小说图片口味搜索| 岛国在线观看网站| 国产精品久久久人人做人人爽| 亚洲熟女精品中文字幕| 欧美性长视频在线观看| 欧美激情极品国产一区二区三区| 国产精品免费大片| 动漫黄色视频在线观看| 久久精品人人爽人人爽视色| 可以免费在线观看a视频的电影网站| 国产精品久久久久久精品电影小说| 日韩欧美一区二区三区在线观看 | 各种免费的搞黄视频| 亚洲va日本ⅴa欧美va伊人久久 | 欧美日韩亚洲综合一区二区三区_| 成人国语在线视频| 少妇 在线观看| 女人久久www免费人成看片| 女人精品久久久久毛片| 亚洲精品一卡2卡三卡4卡5卡 | 最新的欧美精品一区二区| 日日摸夜夜添夜夜添小说| 少妇精品久久久久久久| 69av精品久久久久久 | 亚洲国产中文字幕在线视频| 婷婷色av中文字幕| 久久人妻福利社区极品人妻图片| 夫妻午夜视频| 亚洲专区中文字幕在线| cao死你这个sao货| av国产精品久久久久影院| 国产一区有黄有色的免费视频| 嫁个100分男人电影在线观看| 在线观看免费高清a一片| 久久狼人影院| 一区二区三区精品91| 精品久久久精品久久久| 国产精品国产av在线观看| 三级毛片av免费| 一边摸一边抽搐一进一出视频| 十八禁网站网址无遮挡| 中文字幕色久视频| 性色av一级| 黄频高清免费视频| 久久久久久久久免费视频了| 99国产极品粉嫩在线观看| 免费看十八禁软件| 亚洲色图综合在线观看| 久久狼人影院| 欧美日韩一级在线毛片| 在线 av 中文字幕| 在线天堂中文资源库| 国产男人的电影天堂91| 黄色 视频免费看| 最近最新中文字幕大全免费视频| 精品第一国产精品| 丁香六月天网| tocl精华| 免费在线观看视频国产中文字幕亚洲 | 久久国产精品男人的天堂亚洲| 中文欧美无线码| 王馨瑶露胸无遮挡在线观看| 日韩 欧美 亚洲 中文字幕| 香蕉国产在线看| av不卡在线播放| 十八禁网站网址无遮挡| 18禁裸乳无遮挡动漫免费视频| 不卡一级毛片| 国产精品久久久久久人妻精品电影 | 最近最新中文字幕大全免费视频| 高潮久久久久久久久久久不卡| 国产xxxxx性猛交| 日韩有码中文字幕| av不卡在线播放| 国产精品二区激情视频| 欧美一级毛片孕妇| 好男人电影高清在线观看| 汤姆久久久久久久影院中文字幕| 搡老熟女国产l中国老女人| 精品少妇黑人巨大在线播放| 国产男女内射视频| 精品亚洲乱码少妇综合久久| 国产色视频综合| av在线老鸭窝| 最新的欧美精品一区二区| 国产精品久久久久成人av| 大香蕉久久网| 国产激情久久老熟女| 男女午夜视频在线观看| 欧美亚洲 丝袜 人妻 在线| 大片免费播放器 马上看| 久久av网站| √禁漫天堂资源中文www| 亚洲成人免费av在线播放| 亚洲一卡2卡3卡4卡5卡精品中文| 国产精品久久久久久精品电影小说| 成人亚洲精品一区在线观看| 青青草视频在线视频观看| 一区二区日韩欧美中文字幕| 日本vs欧美在线观看视频| 国产高清视频在线播放一区 | 欧美性长视频在线观看| 色94色欧美一区二区| 午夜免费鲁丝| 久久久精品免费免费高清| 国产一区二区 视频在线| 成年动漫av网址| 免费不卡黄色视频| 老汉色∧v一级毛片| 亚洲国产欧美一区二区综合| 热re99久久国产66热| 十八禁网站免费在线| 国产人伦9x9x在线观看| 日韩电影二区| 久久久久视频综合| 午夜免费成人在线视频| 在线观看免费午夜福利视频| 亚洲欧美激情在线| 电影成人av| 五月天丁香电影| 肉色欧美久久久久久久蜜桃| 中文字幕高清在线视频| 欧美日本中文国产一区发布| 国产人伦9x9x在线观看| 久久久欧美国产精品| 伦理电影免费视频| 久久精品国产亚洲av香蕉五月 | 日本91视频免费播放| 视频区图区小说| 久久久久久人人人人人| 亚洲免费av在线视频| 日韩视频在线欧美|