• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于互信息的智能博弈對抗分層強化學(xué)習(xí)研究

    2022-09-16 07:15:56魏競毅陳希亮
    計算機技術(shù)與發(fā)展 2022年9期
    關(guān)鍵詞:互信息收益狀態(tài)

    魏競毅,賴 俊,陳希亮

    (陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

    0 引 言

    近年來隨著深度強化學(xué)習(xí)[1-2]開始不斷發(fā)力,在各項自主學(xué)習(xí)任務(wù)中,不斷取得進(jìn)展,但由于環(huán)境復(fù)雜度的提高,發(fā)現(xiàn)學(xué)習(xí)的參數(shù)會隨著狀態(tài)變量的增加而成指數(shù)增加,引發(fā)維度災(zāi)難,為減少學(xué)習(xí)訓(xùn)練的復(fù)雜度,分層深度強化學(xué)習(xí)應(yīng)運而生。當(dāng)前大多數(shù)強化學(xué)習(xí)完成任務(wù)是根據(jù)智能體動作獲取的獎勵來進(jìn)行優(yōu)化,實現(xiàn)最大化動作獎勵來實現(xiàn)優(yōu)化策略,例如經(jīng)典的DQN[3]、DDPG[4]、PPO[5]等。為了能學(xué)習(xí)到更多不同的策略,算法DIAYN[6]、DADS[7]通過引入互信息的理念,依據(jù)對智能體和環(huán)境狀態(tài)變化來對策略進(jìn)行分類,使得智能體能夠不僅僅依靠環(huán)境即時收益來學(xué)習(xí)策略,同時根據(jù)智能體和環(huán)境的狀態(tài)變化來進(jìn)行策略學(xué)習(xí),最終在導(dǎo)航和機械臂的實驗中取得良好效果。在戰(zhàn)場環(huán)境中,有些策略在當(dāng)時并不會產(chǎn)生即時的獎勵,但對于任務(wù)的完成會起到助推作用,同時在戰(zhàn)場環(huán)境中這種前期埋下伏筆的策略對整體戰(zhàn)場形勢會在后期產(chǎn)生很大的作用,當(dāng)智能體僅依靠即時獎勵時就會忽視這種策略。該文為訓(xùn)練智能體不受限于即時收益,可以學(xué)習(xí)具有長遠(yuǎn)收益有利于任務(wù)完成的策略,通過引入互信息[8](Mutual Information)的概念,依據(jù)環(huán)境和智能體的不同狀態(tài)來進(jìn)一步對策略進(jìn)行分類,使得智能體能夠發(fā)現(xiàn)更多的策略,不僅僅發(fā)現(xiàn)能獲得獎勵的策略,同時對于這些有利于任務(wù)完成的策略也進(jìn)行保留,使得任務(wù)的完成率得到提升,并對智能體動作采用了option分層[9]的思想,對動作進(jìn)行了劃分。為了加快智能體的訓(xùn)練效率,采用分布式的訓(xùn)練方式,與A3C[10](Asynchronous Advantage Actor-Critic)算法進(jìn)行結(jié)合,稱這一算法為MI-A3C。

    1 基于互信息的智能博弈對抗算法描述

    基于互信息的智能博弈算法是在A3C算法的基礎(chǔ)上,通過引入互信息的概念來進(jìn)一步增強智能體的探索能力,將環(huán)境和智能體的狀態(tài)與互信息理論相結(jié)合,來促使智能體學(xué)到的策略,可以使環(huán)境狀態(tài)有較大變化同時保證不同策略的環(huán)境狀態(tài)變化也不同,以此來增強策略的有效性和多樣性。最終學(xué)習(xí)到的算法不僅僅可以依靠環(huán)境的即時收益來進(jìn)行參數(shù)更新,同時策略的互信息也會影響算法的參數(shù)更新,下面針對算法的一些基礎(chǔ)理論和整體結(jié)構(gòu)進(jìn)行介紹。

    1.1 互信息的基本理論及應(yīng)用

    信息熵是一個隨機變量不確定性的度量值,對于一個離散型隨機變量X~p(x),公式表示為:

    (1)

    一個隨機變量的信息熵越大,也就意味著不確定性就越大,包含的信息量也就越大,必然事件的信息熵為0,隨機概率均等事件的信息熵為1。

    互信息(Mutual Information)[11]是衡量隨機變量之間相互依賴程度的度量,是信息論中的一個重要概念,表示為I(X;Y),公式表示為:

    I(X;Y)=H(X)-H(X|Y)

    (2)

    其中,H(X)表示隨機變量X的信息熵,H(X|Y)表示在條件Y的情況下,隨機變量X的信息熵,互信息I(X;Y)表示當(dāng)知道已經(jīng)發(fā)生Y時,隨機變量X的信息量減少多少,具體表示為圖1。

    圖1 互信息與信息熵的文氏圖

    將互信息這一概念應(yīng)用在強化學(xué)習(xí)中,通常將X表示為狀態(tài),Y表示為動作,當(dāng)使得互信息最大化為目標(biāo)函數(shù)時,也就表示當(dāng)采取這一動作后,環(huán)境的信息熵會增大,也就使得動作策略具有更多探索性,這也就增大了對環(huán)境的探索能力,使得環(huán)境狀態(tài)具備更多的可能性,會產(chǎn)生更多的策略。

    1.2 A3C算法

    A3C算法是對基于策略梯度(Policy Gradient)的算法AC的優(yōu)化,該算法采用的是異步的訓(xùn)練方式。如圖2所示,在A3C算法中有一個全局網(wǎng)絡(luò)(Global Network),這個網(wǎng)絡(luò)是一個公共的神經(jīng)網(wǎng)絡(luò)模型,包含公共Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),同時下面有n個線程,每個線程都會獨立地與環(huán)境進(jìn)行交互并得到經(jīng)驗,這些線程之間獨立互不干擾,收集完經(jīng)驗后,獨立完成訓(xùn)練并得到參數(shù)更新量,之后異步更新到全局網(wǎng)絡(luò)的模型參數(shù)中。下次訓(xùn)練時,各線程的模型參數(shù)與全局網(wǎng)絡(luò)進(jìn)行同步,再次進(jìn)行訓(xùn)練。

    圖2 A3C算法結(jié)構(gòu)框圖

    AC算法的優(yōu)勢函數(shù)定義為:

    A(s,a)=Q(s,a)-V(s)=r+γV(s')-V(s)

    (3)

    A3C算法為了使訓(xùn)練能夠在早期更快收斂,采取了n步回報估計法,優(yōu)勢函數(shù)變?yōu)椋?/p>

    A(s,a)=Rt+γRt+1+…+γn-1Rt+n-1+

    γnV(S')-V(S)

    (4)

    同時為了增加模型的探索性,A3C算法在模型的目標(biāo)函數(shù)中加入策略的熵,熵越大也意味著隨機策略擁有越多的信息,也使得模型可以擁有更強的多樣性。策略梯度的計算公式為:

    (5)

    2 基于互信息的智能博弈對抗算法流程

    采用互信息來實現(xiàn)智能體的策略發(fā)現(xiàn)主要有三點要求:(1)使智能體具有更強的探索性,可以對環(huán)境進(jìn)行更多的探索,使智能體與環(huán)境交互產(chǎn)生更多樣的狀態(tài)s;(2)通過狀態(tài)s來對策略進(jìn)行區(qū)分,當(dāng)一系列動作沒有對環(huán)境產(chǎn)生影響時,認(rèn)為這些動作是無用,而是將一系列對環(huán)境產(chǎn)生影響的動作劃分為策略;(3)有用的策略可以控制智能體到達(dá)不同的狀態(tài),所以策略是具有可分辨性的可劃分的。目前采用互信息的算法有DIAYN[6]、DADS[7],在導(dǎo)航和機械臂的實驗中取得了良好的效果。

    針對這三點要求,著重對目標(biāo)函數(shù)進(jìn)行了構(gòu)建,在已知狀態(tài)s的條件下,下一個狀態(tài)s'和當(dāng)前策略z的互信息,公式表達(dá)為:

    I(s';z|s)=H(z|s)-H(z|s',s)

    (6)

    I(s';z|s)=H(s'|s)-H(s'|s,z)

    (7)

    公式(6)中第一項表示在當(dāng)前狀態(tài)下選擇不同策略的熵,值越大說明策略越多樣,第二項表示當(dāng)前狀態(tài)s轉(zhuǎn)移到下一狀態(tài)s'的策略z的熵,這個值越大則說明很多策略都可以實現(xiàn)兩個狀態(tài)的轉(zhuǎn)變,策略區(qū)分度很小。當(dāng)兩個值都很大時則說明策略很多,但策略的相似度很大,兩個值都很小時則說明策略很少,策略區(qū)分度很大。所以前大后小是所需要的理想情況,能夠?qū)崿F(xiàn)既有較多的策略,同時狀態(tài)的轉(zhuǎn)換也不同。

    公式(7)與公式(6)采用不同的計算方式,第一項表示狀態(tài)轉(zhuǎn)移的多樣性,值越大則說明可轉(zhuǎn)移的狀態(tài)越多,第二項表示在當(dāng)前狀態(tài)s的情況下采取策略z所能到達(dá)下一狀態(tài)的可能性,值越小則說明策略z對轉(zhuǎn)移狀態(tài)s'的確定性就越高,即策略的區(qū)分度也就越大。在保證前大后小的情況下,依舊可以實現(xiàn)互信息的最大化,使得策略的多樣性和區(qū)分度有良好的保證。

    MI-A3C算法通過改進(jìn)A3C算法來增強算法的探索與發(fā)現(xiàn)能力[6],不僅通過原本的收益函數(shù)來進(jìn)行梯度的更新,同時通過加入互信息內(nèi)容重新構(gòu)造目標(biāo)函數(shù),聯(lián)合價值函數(shù)來一同對Actor神經(jīng)網(wǎng)絡(luò)參數(shù)實現(xiàn)更新,如公式(8)所示:

    dθ←dθ+▽θ′logπθ′(si,ai)(Q(s,i)-

    V(Si,w'))+c▽θ′I(s';z|s)

    (8)

    神經(jīng)網(wǎng)絡(luò)的輸入主要為當(dāng)前環(huán)境狀態(tài)sc以及智能體i狀態(tài)值si,隨后神經(jīng)網(wǎng)絡(luò)通過訓(xùn)練的參數(shù)來輸出對智能體采取的動作at,隨后智能體與環(huán)境再次進(jìn)行交互,同時在此基礎(chǔ)上采用option分層[12-14]的思想,將動作進(jìn)行抽象。將策略z集合定義為一個三元組(A,s,s'),A可以理解為抽象的動作序列是一段時間內(nèi)多個動作集合,s,s'是采取動作的先后的狀態(tài),根據(jù)動作在與環(huán)境的交互中,狀態(tài)變化的程度來轉(zhuǎn)換為策略,當(dāng)前后狀態(tài)變化的互信息較大時,就說明策略執(zhí)行后產(chǎn)生的影響也較大,在對互信息進(jìn)行優(yōu)化時也就是對采取的策略進(jìn)行不斷調(diào)整,再加上獎勵的變化,從而對整體網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化調(diào)整。

    算法:ML-A3C算法。

    初始化公共部分神經(jīng)網(wǎng)絡(luò)參數(shù)θ,ω,全局共享迭代輪數(shù)T,最大迭代次數(shù)Tmax,單線程內(nèi)最大迭代次數(shù)tmax,隨機策略

    1.更新時間序列t=1

    2.重置Actor和Critic的梯度更新量:dθ←0,dω←0

    3.將公共部分神經(jīng)網(wǎng)路參數(shù)同步到本線程:θ'=θ,ω'=ω

    4.tstart=t,初始化狀態(tài)st

    5.基于策略π(A|s,z)選取動作

    6.執(zhí)行新動作A,獲得獎勵rt和新狀態(tài)st+1

    7.計算t=t+1,T=T+1

    8.如果st是終止?fàn)顟B(tài),或t-tstart=tmax,則進(jìn)入步驟9,否則返回步驟5

    9.計算最后一個時間序列位置st的Q(s,t)

    10.fori∈(t-1,…,tstart)

    11.計算每一時刻的Q(s,i):Q(s,i)=ri+γQ(s,i+1)

    12.根據(jù)公式(7)計算每一個狀態(tài)的互信息

    13.累積Actor的梯度更新:

    14.dθ←dθ+▽θ′logπθ′(si,ai)(Q(s,i)-V(Si,w'))+c▽θ′I(s';z|s)

    15.累積Critic的梯度更新:

    17.End

    18.更新全局神經(jīng)網(wǎng)絡(luò)參數(shù):

    19.θ=θ+αdθ,ω=ω+βdω

    20.如果T>Tmax則算法結(jié)束,輸出公共部分的A3C神經(jīng)網(wǎng)絡(luò)參數(shù)θ,ω,否則進(jìn)入步驟3

    21.結(jié)束

    3 實驗設(shè)計及結(jié)果分析

    3.1 實驗參數(shù)設(shè)置

    實驗硬件設(shè)置為Intel SSD PEKKW 256G + NVIDIA Quadro RTX 5000 +32G內(nèi)存,軟件環(huán)境為windows10+TensorFlow2.0,超參數(shù)設(shè)置如表1所示。

    表1 超參數(shù)設(shè)置

    3.2 實驗仿真環(huán)境設(shè)計

    實驗仿真環(huán)境采用的是自主研發(fā)的深度強化學(xué)習(xí)仿真訓(xùn)練平臺DRL-STP,其程序是基于TensorFlow2.0,采用了統(tǒng)一的算法框架,支持Unity3D ml-agents和Gym,能夠完成單智能體和多智能體的訓(xùn)練與測試。

    采用的環(huán)境是基于Unity3D平臺安裝ml-agents插件構(gòu)建的,用于多智能體智能對抗戰(zhàn)場作戰(zhàn)環(huán)境[15],具備坦克、裝甲車、偵察車、火炮和武裝直升機等多個智能體作戰(zhàn)單元,作戰(zhàn)元素圖像如圖3所示,作戰(zhàn)單元屬性如表2所示。作戰(zhàn)環(huán)境地形包括平原、道路、橋梁、房屋、森林、灌木、丘陵、山脈等。戰(zhàn)場地圖是采用六邊形地圖(如圖4所示),采用六邊形地圖約束每個作戰(zhàn)單元每次可以移動的方向有6個,相對減少其移動動作的復(fù)雜度,地圖大小為64*64,其包含多個地形場景,作戰(zhàn)單元雙方可根據(jù)實際情況進(jìn)行靈活設(shè)置,每個智能體除了采取移動的動作外,依舊具備攻擊和原地待命的兩個動作。

    圖3 環(huán)境包含的作戰(zhàn)元素

    圖4 戰(zhàn)場環(huán)境地圖

    智能體對周圍環(huán)境的感知,其可以獲取周圍六個格子的通行狀態(tài)和消耗的時間,對于敵方單位可以獲取可視范圍內(nèi)能觀察到的敵人數(shù)量,敵方智能體的距離所處地形,武器類型、生命值和是否可以攻擊等狀態(tài),對于己方單位可以獲取所有友方的數(shù)量、位置、武器類型和生命值,這一系列內(nèi)容作為其神經(jīng)網(wǎng)絡(luò)的輸入,來進(jìn)行學(xué)習(xí),智能體的移動方向、攻擊狀態(tài)、攻擊目標(biāo)作為輸出值。

    在對戰(zhàn)雙方進(jìn)行交火時,也人工定義一些交戰(zhàn)規(guī)則。對戰(zhàn)雙方出現(xiàn)在射程之內(nèi)才可以采取攻擊動作,在智能體移動結(jié)束后發(fā)現(xiàn)敵人并在攻擊的有效范圍即可以開火,同時根據(jù)攻擊目標(biāo)所處位置,攻擊方擊中被攻擊者的概率會有所不同,空曠地域擊中概率為70%,在其他有遮蔽屬性的地形中會減少擊中概率,在表2和表3中射程與擊中概率都有描述。同時針對智能體的攻擊行為,也進(jìn)行特定情況設(shè)定,如果炮管與目標(biāo)夾角在60°以內(nèi),消耗2個T完成射擊,60°~120°之間,消耗3個T完成射擊,大于120°,需要消耗4個T完成射擊?;鹋陂g瞄射擊,需要10個T完成射擊,所有agent在攻擊期間不接受其他指令,這一系列規(guī)則是為了使環(huán)境能夠更貼合現(xiàn)實戰(zhàn)爭中的場景。

    表2 作戰(zhàn)單元屬性情況

    算法與環(huán)境通過運用ML-Agents工具包中的Python Low-Level API和通信交互(External Communicator)這兩個組件來實現(xiàn)與python訓(xùn)練算法的對接。Python Low-Level API主要包含用于交互和操縱學(xué)習(xí)環(huán)境的低級Python界面。與學(xué)習(xí)環(huán)境不同,Python API不是Unity的一部分,而是在外面通過通信器與Unity溝通,此API包含在專用Python包mlagents_envs中,用于在訓(xùn)練期間的通信和控制。通信交互模塊是將學(xué)習(xí)環(huán)境與Python Low-Level API連接起來,Python首先通過環(huán)境參數(shù)模塊獲取仿真環(huán)境初始值,并獲知了智能體的序號,將此序號發(fā)送給環(huán)境。Python在接下來的正式訓(xùn)練之前,環(huán)境首先依據(jù)剛才的序號發(fā)送環(huán)境狀態(tài)數(shù)據(jù)以及當(dāng)前各個智能體可用的動作列表,Python據(jù)此選擇一個動作進(jìn)入環(huán)境執(zhí)行,環(huán)境執(zhí)行并獲取新的狀態(tài)和獎勵返回Python,同時還有額外的敵我雙方剩余兵力等信息,隨后Python中的智能算法通過不斷的信息交互,不斷提升智能體策略規(guī)劃能力。

    主要將兩種作戰(zhàn)任務(wù)作為目標(biāo),第一是摧毀所有敵方作戰(zhàn)元素,在仿真環(huán)境中,擊中敵人+1分,消滅一個+5分,被摧毀-5分,全部殲滅敵人+15分,全部被殲滅則-15分;第二是占領(lǐng)奪控點,奪控點分為主要奪控點和次要奪控點,占領(lǐng)主要奪控點得30分,次要奪控點得20分,環(huán)境獎勵設(shè)置如表3所示。

    表3 環(huán)境獎勵設(shè)置

    同時為了使訓(xùn)練的每一個動作都是有效的,不會出現(xiàn)智能體為了避免懲罰而原地不動的情況,通過公式(8)設(shè)置獎勵會隨時間變化而逐漸減少,每一局進(jìn)行的時間越長獎勵會成比重的進(jìn)行相應(yīng)的扣除:

    (8)

    在實驗中智能體分為藍(lán)方和紅方,藍(lán)方智能體的戰(zhàn)術(shù)規(guī)則,主要通過人工定義。藍(lán)方規(guī)則的設(shè)定對于紅方的訓(xùn)練效果起著重要的作用。當(dāng)藍(lán)方規(guī)則智能體的規(guī)則較為完善時,具有的戰(zhàn)斗能力就越強,這樣可以通過訓(xùn)練使紅方智能體具有更優(yōu)秀的策略規(guī)劃能力,但是訓(xùn)練的難度也會變大,訓(xùn)練時間也會更長;另一種情況當(dāng)藍(lán)方規(guī)則智能體的規(guī)則較為簡單時,藍(lán)方具有的戰(zhàn)斗力會變?nèi)?,相對的紅方訓(xùn)練的難度會變小,訓(xùn)練時間會更短,但是訓(xùn)練出的戰(zhàn)術(shù)策略沒有什么特別的價值。所以針對這種情況,在對規(guī)則的構(gòu)建時,首先保證了藍(lán)方智能體具有較強的對抗強度,但在開始訓(xùn)練的一段時間里,減少藍(lán)方智能體的進(jìn)攻性,給紅方智能體探索學(xué)習(xí)的時間,在紅方智能體能夠開始獲得有效收益后,加強進(jìn)攻性以及對抗強度,增強紅方智能體所學(xué)習(xí)到策略的有效性。

    3.3 實驗結(jié)果與對比分析

    分別使用MI-A3C算法、A3C算法以及經(jīng)典DQN算法在相同場景下進(jìn)行對比實驗。實驗主要采用平均回報(Average Reward)來評價算法效能,平均回報越高則算法效能越好。

    圖5展示了不同算法的平均收益。為了更清楚地表現(xiàn)智能體收益曲線的增長,對數(shù)據(jù)圖像進(jìn)行平滑處理,展示了采用不同算法的智能體在對抗任務(wù)中收益曲線對比。根據(jù)圖像我們可以明顯看出,在200輪的訓(xùn)練后,MI-A3C算法的平均回報提升速度相比A3C算法有了顯著的提升,這也就表明紅方智能體策略逐漸學(xué)到了能夠有效獲取獎勵的策略,能夠逐漸有效摧毀敵方單位并開始前往占領(lǐng)奪控點,并可以發(fā)現(xiàn)其隨后開始了一個收益快速增長的階段,而A3C算法也在逐漸增長但增長速度相對較為緩慢,通過對實驗環(huán)境的觀察發(fā)現(xiàn),這一階段的增長是智能體學(xué)習(xí)到了迅速到達(dá)某一奪控點的策略,其能夠迅速獲得占領(lǐng)奪控點的收益,而A3C算法由于其探索效率的問題,相對學(xué)到這一策略的速度更慢。DQN算法收益曲線相對較低,通過觀察其訓(xùn)練場景發(fā)現(xiàn),其在最初階段能夠逐漸學(xué)習(xí)到前往奪控點,但無法學(xué)習(xí)到摧毀敵方元素的有效策略,甚至始終無法找到第二個奪控點,而敵方單位是規(guī)則操控對奪控點進(jìn)行占領(lǐng)以及攻擊,面對此情況采用DQN算法的智能體經(jīng)常損失慘重,始終沒有學(xué)習(xí)到有效應(yīng)對的方式,傳統(tǒng)的深度學(xué)習(xí)方法在此種對抗場景下效果較差。

    圖5 算法收益曲線對比

    從最終的收益可以看出MI-A3C算法相較DQN和A3C算法都有較大的優(yōu)勢,其最終收益能穩(wěn)定到65左右,能夠占領(lǐng)兩個奪控點,并殲滅所有敵方元素,自身損失1到2個單位,可以較好地完成所有任務(wù)。因此可以得出結(jié)論,ML-A3C算法在智能指揮控制上,能夠通過增加智能體的探索性,獲得更多的技能來提升智能對抗的效能。

    通過觀察到MI-A3C算法收益曲線發(fā)現(xiàn),智能體在某一時刻會產(chǎn)生收益下降的情況,通過分析實驗情況發(fā)現(xiàn),當(dāng)出現(xiàn)收益下降的時刻是智能體學(xué)到了一種策略,但此種策略在此刻并未立即獲得收益,例如集群行動,隨后的動作因為策略是新的,所以之后智能體的動作會與之前的不同,也就會出現(xiàn)無法更好完成任務(wù)的情況,于是出現(xiàn)收益下降。在經(jīng)過長時間的學(xué)習(xí)后,智能體學(xué)會如何更好地采取這一策略后,任務(wù)完成情況就會順利,收益也隨之上升,這樣也證明了學(xué)到的策略是有效的。

    4 結(jié)束語

    針對智能對抗環(huán)境下的智能決策問題,提出了一種基于互信息策略發(fā)現(xiàn)的A3C改進(jìn)算法ML-A3C。該算法通過互信息使得智能體能夠通過狀態(tài)的變化來發(fā)現(xiàn)更多具有長遠(yuǎn)收益的策略,同時采用option分層的方式,將策略z動作進(jìn)行劃分,并將其互信息與神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行互聯(lián)。最終通過實驗證明,對智能體穩(wěn)定后的數(shù)據(jù)進(jìn)行了統(tǒng)計(見表4),通過訓(xùn)練的智能體在對抗實驗中能夠?qū)崿F(xiàn)更有利的策略,來保存己方兵力,摧毀敵方單元。MI-A3C算法可以為復(fù)雜環(huán)境多兵種聯(lián)合對抗進(jìn)行仿真模擬,為智能指揮決策提供理論依據(jù),對現(xiàn)實戰(zhàn)場中的應(yīng)用具有一定的參考意義。

    表4 穩(wěn)定后不同算法的實驗數(shù)據(jù)

    但該算法也存在一定的局限性,算法的仿真試驗平臺所開發(fā)的地圖環(huán)境能夠較好地貼近現(xiàn)實地圖環(huán)境,但實驗的元素依舊較少,屬于小分隊形式的戰(zhàn)場對抗,MI-A3C算法在小規(guī)模的戰(zhàn)場中能夠取得良好的效果,但并未進(jìn)行大規(guī)模的戰(zhàn)場模擬試驗,所以對大規(guī)模的對戰(zhàn)能否取得良好的效果仍需進(jìn)一步進(jìn)行證明,同時算法增強了對環(huán)境探索的能力,當(dāng)環(huán)境復(fù)雜度較高時,學(xué)習(xí)到有效策略的時長會增加。

    猜你喜歡
    互信息收益狀態(tài)
    螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
    狀態(tài)聯(lián)想
    生命的另一種狀態(tài)
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    2015年理財“6宗最”誰能給你穩(wěn)穩(wěn)的收益
    金色年華(2016年1期)2016-02-28 01:38:19
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    東芝驚爆會計丑聞 憑空捏造1518億日元收益
    IT時代周刊(2015年8期)2015-11-11 05:50:38
    改進(jìn)的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    日本欧美国产在线视频| 欧美一区二区亚洲| 久久久久久久久久成人| 国产精品一区www在线观看| 午夜免费激情av| 一夜夜www| 久久这里有精品视频免费| 国产精品美女特级片免费视频播放器| 我要看日韩黄色一级片| 在线观看一区二区三区| 边亲边吃奶的免费视频| 国产高清不卡午夜福利| 国产精品麻豆人妻色哟哟久久 | 在线免费观看不下载黄p国产| 国产一区二区亚洲精品在线观看| 三级经典国产精品| www.av在线官网国产| 人人妻人人看人人澡| a级一级毛片免费在线观看| 91精品一卡2卡3卡4卡| 亚洲在久久综合| 久久精品国产亚洲网站| 淫秽高清视频在线观看| av免费在线看不卡| 麻豆久久精品国产亚洲av| 久久久a久久爽久久v久久| 国产av一区在线观看免费| 精品久久久久久成人av| 亚洲av电影不卡..在线观看| 免费看日本二区| 啦啦啦啦在线视频资源| 午夜激情福利司机影院| 99热6这里只有精品| 成人鲁丝片一二三区免费| 欧美极品一区二区三区四区| 人妻久久中文字幕网| 久久99热6这里只有精品| 国产亚洲av嫩草精品影院| 成人特级av手机在线观看| 综合色av麻豆| 成人国产麻豆网| 熟女电影av网| 少妇高潮的动态图| 波野结衣二区三区在线| 日韩国内少妇激情av| 国产成人a区在线观看| 国产精品永久免费网站| av在线老鸭窝| 男女那种视频在线观看| 观看免费一级毛片| 国产成人a区在线观看| 18+在线观看网站| 中国美白少妇内射xxxbb| 尾随美女入室| 欧美区成人在线视频| 欧美三级亚洲精品| 日韩一本色道免费dvd| 午夜福利在线在线| 亚洲欧美成人综合另类久久久 | 男人舔奶头视频| 国内少妇人妻偷人精品xxx网站| 男的添女的下面高潮视频| 欧美区成人在线视频| 一个人看视频在线观看www免费| 精品久久久噜噜| 特大巨黑吊av在线直播| 蜜桃亚洲精品一区二区三区| 亚洲欧美清纯卡通| 好男人视频免费观看在线| 男人狂女人下面高潮的视频| 少妇高潮的动态图| 亚州av有码| 免费观看的影片在线观看| 精品99又大又爽又粗少妇毛片| 亚洲欧美日韩高清在线视频| 联通29元200g的流量卡| 麻豆成人午夜福利视频| а√天堂www在线а√下载| 亚洲国产欧美在线一区| 村上凉子中文字幕在线| 自拍偷自拍亚洲精品老妇| 国产伦精品一区二区三区四那| 亚洲av不卡在线观看| 成人综合一区亚洲| 国产成人一区二区在线| 免费看光身美女| 国产精华一区二区三区| 国产精品蜜桃在线观看 | 高清毛片免费看| 亚洲精华国产精华液的使用体验 | 搡老妇女老女人老熟妇| 99热6这里只有精品| 又爽又黄a免费视频| 国产又黄又爽又无遮挡在线| 色综合站精品国产| 一个人看视频在线观看www免费| 赤兔流量卡办理| 蜜桃亚洲精品一区二区三区| 亚洲国产精品成人久久小说 | a级毛色黄片| 在线观看美女被高潮喷水网站| 婷婷色综合大香蕉| 国产真实伦视频高清在线观看| 3wmmmm亚洲av在线观看| 亚洲美女视频黄频| 国产高清视频在线观看网站| 免费看美女性在线毛片视频| 日韩亚洲欧美综合| 亚洲不卡免费看| 看免费成人av毛片| 22中文网久久字幕| 1000部很黄的大片| 亚洲欧美精品自产自拍| 亚洲欧美日韩东京热| 欧美人与善性xxx| 日日摸夜夜添夜夜添av毛片| 搞女人的毛片| 亚洲国产精品合色在线| 免费观看精品视频网站| 国产免费男女视频| 不卡一级毛片| 日韩大尺度精品在线看网址| 日韩,欧美,国产一区二区三区 | 亚洲人成网站高清观看| 免费无遮挡裸体视频| 12—13女人毛片做爰片一| 欧美日韩在线观看h| 我要看日韩黄色一级片| 成人二区视频| 麻豆成人av视频| 午夜福利高清视频| 美女黄网站色视频| 一个人观看的视频www高清免费观看| 午夜免费激情av| 免费观看人在逋| 欧美日韩在线观看h| 色哟哟哟哟哟哟| 国产乱人视频| 亚洲国产精品sss在线观看| 精品国产三级普通话版| 亚洲18禁久久av| 中文字幕熟女人妻在线| 日本免费a在线| 男女视频在线观看网站免费| 成人无遮挡网站| 在线观看美女被高潮喷水网站| 亚洲欧美清纯卡通| 日韩一区二区三区影片| 国内久久婷婷六月综合欲色啪| 少妇的逼水好多| 亚洲经典国产精华液单| 日本免费一区二区三区高清不卡| 午夜福利在线观看免费完整高清在 | 午夜亚洲福利在线播放| 岛国在线免费视频观看| 国产精品日韩av在线免费观看| 男的添女的下面高潮视频| 欧美区成人在线视频| 人人妻人人澡欧美一区二区| 国产精品av视频在线免费观看| 成人特级av手机在线观看| 色播亚洲综合网| 国产精品伦人一区二区| 黄色一级大片看看| 精品久久久久久久久亚洲| 欧美性感艳星| 久久久国产成人免费| 人妻久久中文字幕网| 校园春色视频在线观看| 精品人妻一区二区三区麻豆| 日本三级黄在线观看| 日韩视频在线欧美| 久久鲁丝午夜福利片| 插逼视频在线观看| av天堂在线播放| 色噜噜av男人的天堂激情| 一级毛片久久久久久久久女| 国产精品美女特级片免费视频播放器| 国产在视频线在精品| 欧美日本视频| av福利片在线观看| 国产免费男女视频| 日韩欧美 国产精品| 成人三级黄色视频| 国产午夜精品久久久久久一区二区三区| 久久99热这里只有精品18| 色哟哟·www| 国产视频首页在线观看| 一本一本综合久久| 高清毛片免费看| 天堂网av新在线| 啦啦啦韩国在线观看视频| 97超碰精品成人国产| 免费无遮挡裸体视频| 波多野结衣高清无吗| 26uuu在线亚洲综合色| 18禁黄网站禁片免费观看直播| 极品教师在线视频| 午夜激情欧美在线| 桃色一区二区三区在线观看| 亚洲成人久久爱视频| 亚洲天堂国产精品一区在线| 国产伦理片在线播放av一区 | 色噜噜av男人的天堂激情| 3wmmmm亚洲av在线观看| 中文精品一卡2卡3卡4更新| 美女xxoo啪啪120秒动态图| 国产片特级美女逼逼视频| 久久久久性生活片| 天堂av国产一区二区熟女人妻| 日韩,欧美,国产一区二区三区 | 国产亚洲精品久久久久久毛片| 2021天堂中文幕一二区在线观| 免费观看a级毛片全部| 久久婷婷人人爽人人干人人爱| 菩萨蛮人人尽说江南好唐韦庄 | 亚洲人成网站在线播放欧美日韩| 大型黄色视频在线免费观看| 国产精品综合久久久久久久免费| 国产精品一区二区性色av| 成人国产麻豆网| 亚洲国产精品成人综合色| 中文字幕精品亚洲无线码一区| 欧美成人精品欧美一级黄| 一本精品99久久精品77| 精品久久久久久久人妻蜜臀av| 一个人看视频在线观看www免费| 在线观看av片永久免费下载| 久久中文看片网| 美女内射精品一级片tv| 啦啦啦啦在线视频资源| 中文资源天堂在线| 99久久久亚洲精品蜜臀av| 中文精品一卡2卡3卡4更新| 69av精品久久久久久| 爱豆传媒免费全集在线观看| 禁无遮挡网站| 久久久a久久爽久久v久久| 国产精品久久久久久久电影| 免费不卡的大黄色大毛片视频在线观看 | 麻豆av噜噜一区二区三区| 午夜精品国产一区二区电影 | av在线观看视频网站免费| 91av网一区二区| 亚洲精品粉嫩美女一区| 日本免费a在线| 欧美成人精品欧美一级黄| 精品久久久久久久人妻蜜臀av| 国产精品1区2区在线观看.| 精品一区二区三区人妻视频| 在线天堂最新版资源| 久久久成人免费电影| 一个人免费在线观看电影| 国产中年淑女户外野战色| 国产亚洲av片在线观看秒播厂 | 欧美日韩乱码在线| 免费av观看视频| 免费电影在线观看免费观看| 色视频www国产| 欧美激情久久久久久爽电影| 五月伊人婷婷丁香| 久久久久久国产a免费观看| 亚洲国产精品成人综合色| 最近的中文字幕免费完整| 99久久人妻综合| 黄色一级大片看看| 午夜福利高清视频| 九色成人免费人妻av| 久久精品国产亚洲网站| 亚洲精品456在线播放app| 久久久久网色| 免费看av在线观看网站| 成人午夜精彩视频在线观看| 久久婷婷人人爽人人干人人爱| 久久精品久久久久久久性| 两个人的视频大全免费| 国产精品久久视频播放| 国产高清三级在线| 久久精品91蜜桃| 此物有八面人人有两片| 一级毛片电影观看 | 人体艺术视频欧美日本| 美女大奶头视频| 一级二级三级毛片免费看| 久久精品国产亚洲网站| 国语自产精品视频在线第100页| 欧美一区二区亚洲| 国产激情偷乱视频一区二区| 国产精品免费一区二区三区在线| 亚洲国产精品国产精品| 亚洲欧美日韩无卡精品| 亚洲国产色片| 91狼人影院| 国产一区二区三区av在线 | 乱系列少妇在线播放| 男女那种视频在线观看| 亚洲欧美精品自产自拍| 91久久精品国产一区二区三区| 在线观看午夜福利视频| 久久久国产成人精品二区| 青春草视频在线免费观看| 色综合色国产| 久久精品夜夜夜夜夜久久蜜豆| 亚洲婷婷狠狠爱综合网| 国产亚洲欧美98| 国产毛片a区久久久久| 亚州av有码| 成人鲁丝片一二三区免费| 赤兔流量卡办理| 午夜免费男女啪啪视频观看| 国产亚洲精品久久久久久毛片| 美女国产视频在线观看| 久久国内精品自在自线图片| 成人综合一区亚洲| 精品熟女少妇av免费看| 国产伦精品一区二区三区视频9| 91在线精品国自产拍蜜月| 人妻少妇偷人精品九色| 小蜜桃在线观看免费完整版高清| 国产一区亚洲一区在线观看| 午夜精品国产一区二区电影 | 啦啦啦啦在线视频资源| 精品国内亚洲2022精品成人| 最好的美女福利视频网| 91麻豆精品激情在线观看国产| 综合色丁香网| 亚洲成人久久爱视频| 久久久a久久爽久久v久久| .国产精品久久| 久久人人爽人人爽人人片va| 啦啦啦啦在线视频资源| 久久久久久久久久成人| 精品一区二区三区人妻视频| 国产蜜桃级精品一区二区三区| 两个人视频免费观看高清| 欧美成人精品欧美一级黄| 大香蕉久久网| 久久久久久久久大av| 国产精华一区二区三区| 亚洲国产精品国产精品| 中国美白少妇内射xxxbb| 亚洲一级一片aⅴ在线观看| 国产日本99.免费观看| 亚洲最大成人中文| 男女做爰动态图高潮gif福利片| 国产一区二区在线av高清观看| 国产老妇伦熟女老妇高清| 国产高清三级在线| 国产精品久久久久久久电影| 国产精品免费一区二区三区在线| 午夜久久久久精精品| 伦理电影大哥的女人| 亚洲欧美成人综合另类久久久 | 国产一区亚洲一区在线观看| 日本欧美国产在线视频| 国产在线男女| www日本黄色视频网| videossex国产| 青春草国产在线视频 | 国产熟女欧美一区二区| 亚洲熟妇中文字幕五十中出| 欧美色视频一区免费| 午夜精品国产一区二区电影 | 老师上课跳d突然被开到最大视频| 天天躁夜夜躁狠狠久久av| 91在线精品国自产拍蜜月| 深爱激情五月婷婷| 欧美激情在线99| 99热这里只有是精品在线观看| 免费一级毛片在线播放高清视频| 国产乱人视频| 欧美日韩乱码在线| 一个人看视频在线观看www免费| 欧美日韩乱码在线| 老熟妇乱子伦视频在线观看| 在线观看午夜福利视频| 天堂中文最新版在线下载 | 18禁在线无遮挡免费观看视频| 国产精品久久电影中文字幕| 国产精品久久久久久久电影| 日本与韩国留学比较| 美女内射精品一级片tv| 又爽又黄a免费视频| 中文亚洲av片在线观看爽| 床上黄色一级片| 欧美丝袜亚洲另类| av福利片在线观看| 男插女下体视频免费在线播放| 欧美三级亚洲精品| 能在线免费观看的黄片| 日韩av不卡免费在线播放| 午夜激情福利司机影院| 亚洲国产精品sss在线观看| 久久精品久久久久久久性| 日本-黄色视频高清免费观看| 国产视频首页在线观看| 麻豆成人午夜福利视频| 成人欧美大片| 身体一侧抽搐| 色吧在线观看| 午夜激情欧美在线| 久久久久久久久久成人| 久久这里只有精品中国| 成人性生交大片免费视频hd| 搞女人的毛片| 黑人高潮一二区| 真实男女啪啪啪动态图| 亚洲欧洲日产国产| 内地一区二区视频在线| 我的老师免费观看完整版| 国产精品av视频在线免费观看| 黄色视频,在线免费观看| 女的被弄到高潮叫床怎么办| 中文亚洲av片在线观看爽| 淫秽高清视频在线观看| 一卡2卡三卡四卡精品乱码亚洲| 不卡一级毛片| 久久精品影院6| 又爽又黄无遮挡网站| 国产精品.久久久| 久久久久久久午夜电影| 成人永久免费在线观看视频| 国产成人a∨麻豆精品| 国产精品乱码一区二三区的特点| 国产精品国产三级国产av玫瑰| 好男人在线观看高清免费视频| 久久久欧美国产精品| 亚洲精品日韩av片在线观看| 国产精品久久视频播放| 中国美白少妇内射xxxbb| 中文欧美无线码| 天天躁日日操中文字幕| 天堂网av新在线| av免费观看日本| 国产精华一区二区三区| 亚洲国产精品合色在线| 一个人观看的视频www高清免费观看| 日本成人三级电影网站| 插阴视频在线观看视频| 欧美最新免费一区二区三区| 欧美zozozo另类| 亚洲高清免费不卡视频| 欧美一级a爱片免费观看看| av在线观看视频网站免费| 美女cb高潮喷水在线观看| 免费看光身美女| 久久精品综合一区二区三区| 久久久久久久久久成人| 卡戴珊不雅视频在线播放| 波多野结衣巨乳人妻| 日韩三级伦理在线观看| 国产真实乱freesex| 亚洲国产日韩欧美精品在线观看| 国产片特级美女逼逼视频| 日韩av在线大香蕉| 免费人成在线观看视频色| 欧美精品一区二区大全| 性色avwww在线观看| 成人高潮视频无遮挡免费网站| 中文字幕熟女人妻在线| 赤兔流量卡办理| 一夜夜www| 一个人看的www免费观看视频| videossex国产| 国产精品一区二区在线观看99 | 麻豆乱淫一区二区| 日本黄大片高清| 最近手机中文字幕大全| 婷婷精品国产亚洲av| 听说在线观看完整版免费高清| 成人美女网站在线观看视频| 精品一区二区免费观看| 亚洲一区高清亚洲精品| 国产爱豆传媒在线观看| 久久久久九九精品影院| 特级一级黄色大片| 亚洲熟妇中文字幕五十中出| 亚洲国产精品久久男人天堂| 久久精品国产清高在天天线| 小蜜桃在线观看免费完整版高清| 丝袜美腿在线中文| 悠悠久久av| 干丝袜人妻中文字幕| 男女做爰动态图高潮gif福利片| 黄色欧美视频在线观看| 综合色丁香网| 日本黄色视频三级网站网址| 麻豆精品久久久久久蜜桃| 成人国产麻豆网| 免费观看精品视频网站| 天美传媒精品一区二区| av.在线天堂| 麻豆乱淫一区二区| www.色视频.com| a级一级毛片免费在线观看| 色综合站精品国产| 亚洲人成网站在线观看播放| 色哟哟·www| 亚洲丝袜综合中文字幕| 日韩三级伦理在线观看| 亚洲国产精品久久男人天堂| 波多野结衣高清无吗| 亚洲欧美清纯卡通| 小说图片视频综合网站| 观看美女的网站| a级一级毛片免费在线观看| 亚洲精品色激情综合| 色尼玛亚洲综合影院| 男女做爰动态图高潮gif福利片| 校园春色视频在线观看| 亚洲精品久久久久久婷婷小说 | 欧美性猛交黑人性爽| 天堂av国产一区二区熟女人妻| 国产精品三级大全| 麻豆一二三区av精品| 免费av毛片视频| 国产乱人偷精品视频| 2022亚洲国产成人精品| 日韩 亚洲 欧美在线| 亚洲第一区二区三区不卡| 日韩av在线大香蕉| 不卡视频在线观看欧美| 日本免费a在线| 亚洲色图av天堂| 午夜爱爱视频在线播放| 精品国产三级普通话版| 99精品在免费线老司机午夜| 丝袜美腿在线中文| 国产乱人视频| 国产久久久一区二区三区| 国产国拍精品亚洲av在线观看| 国产精品乱码一区二三区的特点| 久久久久网色| 欧美+亚洲+日韩+国产| 麻豆精品久久久久久蜜桃| 波多野结衣高清无吗| 国产精华一区二区三区| 国产亚洲精品久久久久久毛片| 美女内射精品一级片tv| 亚洲在久久综合| 亚洲精品粉嫩美女一区| 99热这里只有精品一区| 两个人的视频大全免费| 一区二区三区免费毛片| 在线播放无遮挡| 国产一区亚洲一区在线观看| 中文字幕免费在线视频6| 亚洲美女视频黄频| 国内久久婷婷六月综合欲色啪| 国产一区二区在线av高清观看| 免费无遮挡裸体视频| 午夜激情欧美在线| 国产精品一及| 搞女人的毛片| 国产真实乱freesex| 成人国产麻豆网| 午夜免费男女啪啪视频观看| 99riav亚洲国产免费| 99国产极品粉嫩在线观看| 国产又黄又爽又无遮挡在线| 综合色丁香网| 中文亚洲av片在线观看爽| 成人性生交大片免费视频hd| av天堂在线播放| 久久精品久久久久久久性| 91av网一区二区| 亚洲人成网站在线播| 国产不卡一卡二| 亚洲美女搞黄在线观看| 久久精品国产自在天天线| 麻豆精品久久久久久蜜桃| 婷婷色综合大香蕉| 午夜精品国产一区二区电影 | 伊人久久精品亚洲午夜| 少妇猛男粗大的猛烈进出视频 | 九九爱精品视频在线观看| 淫秽高清视频在线观看| 你懂的网址亚洲精品在线观看 | 白带黄色成豆腐渣| 亚洲va在线va天堂va国产| 成人毛片60女人毛片免费| 美女 人体艺术 gogo| 只有这里有精品99| 国产精品蜜桃在线观看 | 91久久精品国产一区二区三区| 天堂av国产一区二区熟女人妻| 中文精品一卡2卡3卡4更新| 国产精品野战在线观看| 综合色av麻豆| 麻豆成人av视频| 国产精品爽爽va在线观看网站| 国产探花极品一区二区| 一个人观看的视频www高清免费观看| 欧美区成人在线视频| 日韩 亚洲 欧美在线| 国产一区二区在线观看日韩| 国产伦精品一区二区三区四那| 欧美激情久久久久久爽电影| 亚洲精品影视一区二区三区av| 欧美日韩综合久久久久久| 精品一区二区三区视频在线| 亚洲精品久久久久久婷婷小说 | 欧美性猛交黑人性爽| 久久久久久久久久成人| av视频在线观看入口| 三级经典国产精品| 国产亚洲av嫩草精品影院| 日本免费一区二区三区高清不卡| 国产69精品久久久久777片| 国产高清激情床上av| 午夜精品一区二区三区免费看| 深夜精品福利| 日韩欧美在线乱码| 午夜亚洲福利在线播放| 欧美不卡视频在线免费观看|