• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    規(guī)則引導的智能體決策框架

    2022-10-24 01:20:12牟軒庭張宏軍廖湘琳章樂貴
    計算機技術與發(fā)展 2022年10期
    關鍵詞:規(guī)則動作智能

    牟軒庭,張宏軍,廖湘琳,章樂貴

    (陸軍工程大學 指揮控制工程學院,江蘇 南京 210000)

    0 引 言

    現(xiàn)代戰(zhàn)爭的節(jié)奏不斷加快,復雜性不斷上升,人腦因其生理上的限制,難以快速、持續(xù)地對多維態(tài)勢做出準確的分析判斷,在需要反復進行的作戰(zhàn)實驗中尤為明顯。而人工智能相繼在Atari[1]、圍棋[2]和星際爭霸[3]等復雜程度遞增的環(huán)境中取得了突破,表明人工智能有望解決具有實時性、不確定性的復雜戰(zhàn)場決策問題。越來越多的研究人員開始在作戰(zhàn)實驗中使用智能技術,特別是將以深度強化學習為代表的智能算法與特定的仿真環(huán)境相結合,利用其強大的學習探索能力從高維決策空間中發(fā)掘出可行的行動決策序列,應用于智能推演與指揮員輔助決策中。

    然而單純使用深度強化學習進行推演有其局限性,一是巨大的動作空間與狀態(tài)空間增加了神經網絡的訓練難度,智能體很容易陷入局部最優(yōu),二是推演中的復雜任務需要多步決策完成,只采用簡單算法和網絡結構的智能體可能無法進行有效的探索。許多研究者從引入專家經驗的角度出發(fā)嘗試改進算法的表現(xiàn),主要的思路包括學習高質量復盤數(shù)據(jù),構建基于專家經驗的獎勵機制[4-6];或者將作戰(zhàn)條令、作戰(zhàn)規(guī)則、指揮員經驗等非結構化數(shù)據(jù)進行建模,構建基于專家經驗的規(guī)則庫支撐智能體決策[7-8];或者將兩者的優(yōu)點相結合,設計基于知識和數(shù)據(jù)驅動的決策方法[9-10],在對應的領域均取得了較好的效果。

    從實際應用的效果來看,專家經驗輔助智能體決策的效果受它對決策空間的約束程度的影響,過度約束可能導致模型完全擬合為某種固定的決策模式,缺乏探索和發(fā)現(xiàn)新方案的能力,約束過少或者錯誤的約束又可能導致智能體重新面對巨大搜索空間的難題,增加求解難度。針對這個問題,該文提出了一種規(guī)則引導的強化學習智能體決策方法,在智能體策略產生過程中,利用專家經驗對環(huán)境中的無效動作進行動態(tài)過濾,并在星際爭霸II的小型任務場景中進行了實驗驗證。結果表明,與單純使用強化學習的方法相比,規(guī)則引導機制在困難的任務中能夠降低智能體的探索難度,幫助模型盡快收斂,在高質量樣本數(shù)據(jù)難以獲得或者計算資源不足等情況下,為強化學習算法在人不在回路的仿真、智能藍軍建設等軍事領域中的快速應用提供了一個可行的解決方案。

    1 智能體決策框架

    為將智能決策算法與專家經驗知識更好地融合,該文提出規(guī)則引導的智能體決策框架,分為數(shù)據(jù)資源層、數(shù)據(jù)處理層、決策支持層和決策輸出層4個部分,整體結構如圖1所示。

    圖1 規(guī)則引導的智能體決策框架

    數(shù)據(jù)資源層主要為智能體的決策提供基礎的數(shù)據(jù)和模型算法支撐。數(shù)據(jù)分為動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),動態(tài)數(shù)據(jù)存儲智能體與仿真環(huán)境交互后產生的反饋信息,主要包含戰(zhàn)場態(tài)勢信息、智能體的歷史動作以及當前得分狀況,是決策模型自我迭代更新的數(shù)據(jù)基礎;靜態(tài)數(shù)據(jù)包含作戰(zhàn)想定、作戰(zhàn)實驗規(guī)則及專家知識等,為下一步的數(shù)據(jù)處理以及規(guī)則引導機制的生成提供數(shù)據(jù)支撐。決策模型庫存儲著深度強化學習等決策算法的基本神經網絡模型和更新算法的實現(xiàn),方便模型具體實現(xiàn)時進一步的調整。

    數(shù)據(jù)處理層主要實現(xiàn)基礎數(shù)據(jù)的初步處理。數(shù)據(jù)預處理通過仿真環(huán)境的規(guī)則以及部分專家知識對態(tài)勢信息進行篩選,留下必要的決策信息,同時根據(jù)仿真環(huán)境的規(guī)則初步確定智能體的合法動作空間,之后將這些數(shù)據(jù)進行格式轉換、歸一化等處理,轉化為模型更易于利用的形式。規(guī)則處理一方面將仿真環(huán)境的規(guī)則通過解釋器進行轉化,用于數(shù)據(jù)預處理,另一方面將專家知識進行分類、抽象,并以特定的形式存儲于專家知識庫中,為模型應用層提供輔助數(shù)據(jù)。

    模型應用層主要實現(xiàn)決策模型的具體部署與應用。智能模型構建完成智能體網絡模型與強化學習等智能算法的具體結合,以及關鍵參數(shù)的設置。輔助模塊構建根據(jù)任務需求構建特殊的數(shù)據(jù)處理模塊以輔助決策的產生,如規(guī)則引導機制、注意力機制等。上述兩項活動由專家知識庫提供數(shù)據(jù)支撐,包括超參數(shù)設置、動作函數(shù)、專家規(guī)則和范例數(shù)據(jù)等。超參數(shù)主要包含智能算法在不同想定情況下的模型參數(shù)設置,可根據(jù)后期結果進行不斷調整;動作函數(shù)包含仿真環(huán)境中所有可調用的原子動作命令,及根據(jù)研究需要設計的多個動作的組合命令;專家規(guī)則與范例數(shù)據(jù)分別以顯式和隱式的方式表達了人類的先驗知識,智能體決策既可通過專家規(guī)則在線指導,又可通過范例數(shù)據(jù)離線學習。

    決策輸出層主要根據(jù)決策流程完成最終動作指令的輸出。由于不同的動作類型具有不同的參數(shù)空間,動作指令的輸出順序為:首先使用專家規(guī)則約束動作空間后進行采樣或選擇最大概率的選項得到動作類型值,然后根據(jù)選擇的動作類型選擇對應的參數(shù)空間,規(guī)則約束與注意力權重一同作用于參數(shù)空間后采樣得到動作參數(shù)值,將兩者進行封裝即可得到完整的動作指令。根據(jù)輔助模塊的不同,動作輸出方式可進行相應的調整。

    該框架將專家經驗和智能算法進行了有機結合,可靈活應用不同的網絡結構、決策算法和不同場景下的專家知識進行決策,具備將專家知識規(guī)則化應用的功能,便于軍事研究人員開展實際研究。

    2 規(guī)則引導的智能體決策方法

    在提出規(guī)則引導的智能體決策框架基礎上,本節(jié)從規(guī)則引導機制的思路、仿真環(huán)境建模、智能體決策流程以及網絡結構四個方面介紹決策框架的實現(xiàn)細節(jié)。

    2.1 規(guī)則引導機制

    深度強化學習智能體在訓練過程中需要面對數(shù)據(jù)質量低、數(shù)據(jù)利用率不高、稀疏獎勵、探索與利用等難題,導致模型難以收斂或訓練時間過長。從數(shù)據(jù)來源分析,上述問題產生的很大一個原因在于訓練初期智能體普遍采用隨機探索策略。由于缺乏目的性,隨機策略在復雜任務的探索中難以頻繁地發(fā)現(xiàn)解決問題的行動序列,導致生成的數(shù)據(jù)利用價值較低,極大地影響了訓練效果。針對這個問題可采用輔助強化學習思想[11],引入外部信息指導智能體的訓練過程,常見的指導方式如圖2所示。

    圖2 外部信息輔助強化學習途徑

    狀態(tài)和獎勵是智能體進行決策以及決策優(yōu)化最重要的依據(jù),根據(jù)需要對輸入的狀態(tài)進行擴充、簡化或者在獎勵中加入額外信號,有助于幫助智能體快速收斂;中間過程調整主要通過調整智能體訓練時的超參數(shù)來改變訓練效果,如智能體因陷入局部最優(yōu)而反復嘗試同一個動作時,可增加學習率或貪婪系數(shù)等超參數(shù),鼓勵其嘗試更多的動作;動作調整影響的是智能體產生動作的過程,如根據(jù)規(guī)則推理或模仿專家范例直接選擇動作等,幫助智能體直接積累正確的經驗;環(huán)境調整主要是對狀態(tài)空間、動作空間、智能體的初始狀態(tài)等訓練環(huán)境的相關設置進行調整,通過改變任務的難易度來影響智能體的訓練效果。

    對狀態(tài)空間的充分探索有利于發(fā)現(xiàn)稀疏獎勵,避免陷入局部最優(yōu)。但從人類的角度來看,許多問題中,動作對于完成任務的必要性會根據(jù)不同的狀態(tài)發(fā)生變化。一些狀態(tài)下的可執(zhí)行動作明顯與任務目標無關,它們時常使得智能體花費時間進行探索,甚至深陷其中。最直接的方法就是對這些無效的動作施以懲罰(對應圖2中的②),或者將多個低層次的動作組合為高層次動作(對應圖2中的③),最近的一項研究[12]總結了常用的三種動作空間簡化的方法,包括離散空間組合、連續(xù)空間離散化、和移除無效動作,并通過充分的實驗發(fā)現(xiàn)移除無效動作和連續(xù)空間離散化這兩項措施對改善智能體表現(xiàn)有明顯的效果。而另一項研究[13]表明,策略梯度算法在探索較大的動作空間時,對無效動作進行懲罰并不能改善智能體的訓練效果,但使用掩碼將無效動作進行遮蔽后再進行動作采樣,模型更容易收斂,并且在去除遮蔽后仍然保持了一定的性能。

    受以上研究啟發(fā),軍事領域的環(huán)境復雜,但基于仿真系統(tǒng)的作戰(zhàn)方案推演可以結合專家經驗將合法動作以規(guī)則的形式進行篩選,根據(jù)任務需求以及可能遇到的狀態(tài)對動作空間進行動態(tài)過濾而不是簡單地移除,在簡化環(huán)境的同時,能夠在一定程度上引導智能體進行更加高效的探索,提高算法本身生成有效樣本的概率,促進模型的快速收斂。雖然規(guī)則引導機制依賴專家經驗的形式化表示,但它容易在具有可調整環(huán)境和規(guī)則庫的仿真系統(tǒng)中實現(xiàn),并且與其他方法相比,規(guī)則引導機制直接作用于動作空間,能夠與大部分強化學習算法有效結合,具有較強的實用性。

    2.2 仿真環(huán)境建模

    作戰(zhàn)仿真系統(tǒng)是人類對于特定軍事活動建立的計算機模型,對系統(tǒng)中各個要素的描述必須遵循相關的作戰(zhàn)實驗規(guī)則,不同的規(guī)則決定了描述對象的不同特點。圍繞實體、行為、交互這三類系統(tǒng)基本要素將作戰(zhàn)實驗規(guī)則分為物理規(guī)則、行為規(guī)則和裁決規(guī)則[14]。物理規(guī)則是描述仿真實體物理結構、功能、組合方式等固有屬性的規(guī)則,行為規(guī)則是描述仿真實體執(zhí)行作戰(zhàn)行動時需滿足的主客觀條件的規(guī)則,裁決規(guī)則是描述仿真實體發(fā)生交互后產生效果的規(guī)則。強化學習智能體與仿真系統(tǒng)進行交互時,物理規(guī)則與裁決規(guī)則隱含于態(tài)勢信息中,為智能體決策所需的重要依據(jù),而行為規(guī)則直接影響動作空間大小,決定了動作搜索的難度。通過2.1節(jié)的描述可以知道,規(guī)則除了正確約束仿真系統(tǒng)的運行外,還可以用于提高智能體的訓練效率。為了更好地描述規(guī)則引導機制,需要先對仿真環(huán)境的關鍵要素進行建模。

    基于作戰(zhàn)仿真系統(tǒng)的推演屬于即時戰(zhàn)略博弈,具有實時性、不確定性、不完全信息等特點,可以將推演活動定義為元組G=(S,A,P,ρ,L,W)。其中,S、A、P分別指特定想定下的狀態(tài)空間、混合動作空間和實體所屬方;ρ:St×A1×A2→St+1為狀態(tài)轉移函數(shù),規(guī)定了在時間t時,對抗雙方(假設參加推演人數(shù)為兩人)分別執(zhí)行動作A1和A2后狀態(tài)St向St+1轉移的方式,包含了對動作執(zhí)行效果的裁決;L:S×A×P→{True,False}為合法動作判別函數(shù),在當前態(tài)勢下,根據(jù)仿真系統(tǒng)中定義的規(guī)則對指揮員執(zhí)行的動作的合法性進行判別;W:S→P∪{ongoing,draw}為態(tài)勢判別函數(shù),根據(jù)雙方態(tài)勢返回博弈的進展情況,根據(jù)是否結束可輸出的對抗狀態(tài)包括獲勝方、正在進行和平局。按照上述描述,元組G中的L對應行為規(guī)則,ρ和W對應裁決規(guī)則。

    與單純的離散動作空間或連續(xù)動作空間不同,推演決策問題涉及混合動作空間[15],這類動作空間的特點是:完成動作時,在指定離散的動作類型后還需要指定該動作相關的連續(xù)動作參數(shù),如完成實體機動需要選擇執(zhí)行動作的實體u,選擇對應的動作函數(shù)atype,并指定機動目標的坐標aarg=(x,y),上述選擇構成元組a=(u,atype,aarg),并最終封裝為系統(tǒng)可以調用的動作函數(shù)。智能體在自動推演過程中,不論最終的目標如何,在每個時刻做出的決策必定能夠分解為選擇實體,選擇動作類型和選擇動作參數(shù)這三個微觀動作,選擇實體視為特殊的動作,因此動作空間主要分為動作類型空間和動作參數(shù)空間,即A=(Atype,Aarg)。

    2.3 規(guī)則引導的智能體決策流程

    規(guī)則引導的智能體決策流程從整體來看分為5個模塊,包括態(tài)勢感知模塊、策略生成模塊、強化學習模塊、數(shù)據(jù)存儲模塊以及輔助模塊,輔助模塊包括注意力層和規(guī)則引導層。各模塊間的交互情況如圖3所示。

    圖3 規(guī)則引導的智能體決策流程

    數(shù)據(jù)存儲模塊包含經驗存儲模塊和規(guī)則存儲模塊,前者采集環(huán)境和智能體在每個時間步產生的當前狀態(tài)、動作、獎勵等交互信息,存儲為樣本數(shù)據(jù),在訓練環(huán)節(jié)輸入神經網絡進行訓練,后者存儲了專家經驗知識,在訓練開始前轉化為形式化的規(guī)則構建規(guī)則引導層以輔助智能體決策;態(tài)勢感知模塊接收環(huán)境輸入的實時態(tài)勢信息,包括反映地圖的特征層,以及各實體的狀態(tài)信息,數(shù)據(jù)輸入后經過篩選、轉換、歸一化等預處理,輸入神經網絡;策略生成模塊輸出原始策略,由規(guī)則引導層進行動作空間的過濾后返回新的策略,各動作參數(shù)經過采樣后被封裝為環(huán)境可識別的指令輸出;強化學習模塊是整個框架的核心,可根據(jù)需求實現(xiàn)相應的強化學習算法,提取經驗存儲模塊中的樣本數(shù)據(jù)進行訓練,并提供網絡的更新參數(shù),本流程中使用近端策略優(yōu)化算法[17]進行策略梯度更新;輔助模塊是設計者為優(yōu)化智能體訓練過程,提高智能體性能等目的而設計的數(shù)據(jù)處理模塊,在本流程設計中為注意力層和規(guī)則引導層,其中注意力層為態(tài)勢中不同的實體位置計算權重,具體實現(xiàn)參考文獻[16];規(guī)則引導層簡化環(huán)境的動作空間,引導智能體正確決策。

    智能體網絡結構如圖4所示。為處理復雜的星際爭霸環(huán)境狀態(tài)輸入,使用多層卷積網絡接收連續(xù)5幀的屏幕信息和小地圖信息,網絡之間使用殘差鏈接;使用編碼層接收單位狀態(tài)和歷史動作等非空間信息,生成一維向量。將兩者的輸出進行維度調整、拼接后輸入注意力層。注意力層直接輸出的向量保留了空間特征,經過上采樣層進行逆卷積后與輸出動作一起作為空間參數(shù)輸出層的特征輸入。另外一個輸出則采用平鋪層進行拉伸,與非空間信息編碼拼接后一同作為動作、輔助參數(shù)以及狀態(tài)價值的輸入。動作輸出層、輔助參數(shù)輸出層及價值輸出層都是全連接層,輸出對應參數(shù)概率分布和價值。

    圖4 智能體網絡結構

    規(guī)則引導層根據(jù)知識庫中專家經驗的描述生成規(guī)則集R。規(guī)則集R使用產生式規(guī)則描述,其中約束動作類型空間的規(guī)則表示如下:

    ri:IFC1∧C2∧…∧CnTHEN {a1,a2,…,am} is invalid

    (1)

    選定動作為aj后,約束對應參數(shù)空間的規(guī)則表示如下:

    (2)

    (3)

    (4)

    因此綜合上述描述,該文采用近端策略優(yōu)化算法進行訓練的流程如算法1。根據(jù)演員-評論家(Actor-Critic)方法構建了共享參數(shù)的智能體網絡,目的是減少訓練的開銷;設置參照網絡θold,采用梯度裁剪的方法限制策略梯度更新的幅度,提高算法訓練的穩(wěn)定性,具體實現(xiàn)可參考文獻[17]。

    算法1:規(guī)則引導的近端策略優(yōu)化算法。

    輸入:初始化網絡參數(shù)θ,經驗池容量,規(guī)則集R

    輸出:最優(yōu)網絡參數(shù)θ*,最優(yōu)策略π*

    1.載入規(guī)則集R,初始化規(guī)則引導層;

    2.對于訓練回合1,2,…,M:

    3. 初始化環(huán)境狀態(tài)s0,

    4. 對于回合中的第n步:

    5. 獲取當前環(huán)境狀態(tài)sn,輸入規(guī)則引導層,生成掩碼LR;

    8. 將交互數(shù)據(jù)(sn,an,rn,sn+1)存入經驗池;

    9. 執(zhí)行L步后,根據(jù)PPO算法更新網絡參數(shù)θ;

    10.更新參數(shù)θold=θ;

    11.單個訓練回合結束;

    12.M個訓練回合結束。

    3 實驗驗證

    該文基于python3.8和pytorch1.7.0工具包以及星際爭霸II機器學習接口pysc2[18]進行決策方法的應用與評估。

    3.1 實驗設置與任務描述

    實驗場景為星際爭霸II的戰(zhàn)勝蟑螂和訓練陸戰(zhàn)隊員。戰(zhàn)勝蟑螂的初始狀態(tài)為9名陸戰(zhàn)隊員和4只蟑螂,擊敗一只蟑螂可以得到10分,一名陸戰(zhàn)隊員死亡扣1分,當4只蟑螂全部被消滅后地圖會重置雙方的位置和數(shù)量,智能體要在有限的時間中控制陸戰(zhàn)隊員擊殺數(shù)量盡量多的蟑螂。蟑螂的生命力與攻擊力較高,陸戰(zhàn)隊員必須集中火力攻擊才能有效地取得較高的分數(shù)。訓練陸戰(zhàn)隊員的初始狀態(tài)為1個指揮中心和12個工人,通過訓練工人、采集水晶礦、建造補給站、建造兵營等步驟在有限的動作步長內盡可能多地訓練陸戰(zhàn)隊員,建造和訓練動作需要消耗水晶礦,工人和陸戰(zhàn)隊員需要占用補給,每訓練一個陸戰(zhàn)隊員可以得到1分的獎勵。此外,該任務還對智能體提出了規(guī)劃要求,完成任務的同時要統(tǒng)籌好資源和補給的平衡,各步驟關系如圖5所示。

    圖5 訓練陸戰(zhàn)隊員中關鍵動作的關系

    從總體上來看,雖然環(huán)境本身實時提供了合法動作列表,但依然存在許多無效動作,使得兩個任務面臨較大的動作空間和稀疏獎勵的挑戰(zhàn)。

    戰(zhàn)勝蟑螂任務相對簡單,只需要智能體控制陸戰(zhàn)隊員快速集火敵人即可,更多是考驗智能體感知地圖上敵人位置的能力,該文將規(guī)則設置為只允許選擇單位與攻擊這兩個動作。訓練陸戰(zhàn)隊員的環(huán)境稍顯復雜,實驗前對隨機策略與無規(guī)則引導的智能體行為進行分析,發(fā)現(xiàn)無規(guī)則引導下,環(huán)境的合法動作平均為10個,最多可達15個。智能體初期探索的時候就容易花費大量時間操作工人四處移動而不是采集礦物,中期容易反復執(zhí)行建造命令,或者操作陸戰(zhàn)隊員進行無意義移動和攻擊等,這些動作對完成任務沒有任何幫助。另外,任務設置中陸戰(zhàn)隊員被消滅后不會受到懲罰,還能節(jié)省補給數(shù)量,此條經驗可嵌入規(guī)則中幫助提高任務成績。因此制定以下規(guī)則對動作空間進行約束,主要規(guī)則簡單描述如下:

    (1)禁止小地圖動作。

    (2)禁止工人和陸戰(zhàn)隊員通過移動指令進行移動。

    (3)禁止建筑設置生產單位集結點。

    (4)陸戰(zhàn)隊員的攻擊目標限定為陸戰(zhàn)隊員。

    (5)限定建造補給站和兵營的地圖坐標范圍。

    (6)限制補給站個數(shù)。

    為與人類操作速度相近,智能體每1秒執(zhí)行一個動作。游戲環(huán)境的動作接口涉及到動作類型、輔助參數(shù)和空間參數(shù)三種,考慮到本任務中的輔助參數(shù)對任務影響不大,規(guī)則集中將特定動作對應的輔助參數(shù)設為定值。最終規(guī)則引導的智能體動作集被限制為:選擇單位、訓練工人、訓練陸戰(zhàn)隊員、建造補給站、建造兵營、采集水晶礦和陸戰(zhàn)隊員攻擊。

    實驗將有規(guī)則引導層的智能體(rule-guided-agent)、無規(guī)則引導層的智能體(attention-agent)以及無注意力層的智能體(no-attention-agent)進行對比,無注意力智能體的注意力層被替換為相同層數(shù)的卷積層。智能體輸入狀態(tài)包括屏幕特征層中的單位類型、已選單位信息等空間信息,以及當前礦物數(shù)量、當前補給上限、當前占用的補給上限、場上的建筑與單位數(shù)量等標量信息。

    3.2 實驗結果分析

    將每30回合的平均得分經過一定的平滑處理后進行分析。圖6為戰(zhàn)勝蟑螂任務中三類智能體收斂后的訓練得分情況。為了減少智能體在圖像認知方面的訓練時間,事先使用腳本產生的高質量動作狀態(tài)序列對智能體進行了預訓練??梢钥闯?,任務本身存在攻擊細節(jié)上的難度,因此得分波動幅度較大;規(guī)則引導的智能體收斂于一個平均得分最高的策略,能夠做到按順序集火消滅蟑螂,并且更加容易產生高得分的行動序列,相比之下,無規(guī)則引導的智能體和無注意力的智能體因為頻繁執(zhí)行攻擊以外的動作,導致陸戰(zhàn)隊員得分的效率降低,并經常被蟑螂消滅,表現(xiàn)不穩(wěn)定,收斂到了次優(yōu)的策略。

    圖6 戰(zhàn)勝蟑螂平均得分變化

    訓練陸戰(zhàn)隊員的平均成績對比如圖7所示。通過觀察智能體行為可以發(fā)現(xiàn),沒有規(guī)則引導層和注意力機制支撐的智能體存在巨大的探索困難,除了初始隨機探索獲得一些獎勵以外,模型最終收斂到了一個無意義的動作集中,導致無法有效地發(fā)現(xiàn)訓練陸戰(zhàn)隊員的動作序列。而擁有注意力層的智能體經過初期探索后成功發(fā)現(xiàn)目標動作序列,但仍然存在操作陸戰(zhàn)隊員四處游走的現(xiàn)象;而且訓練后期存在攻擊已經建造完成的補給站和兵營等行為,導致平均得分反而有所下降。規(guī)則引導的智能體因為專家經驗的指導,能夠快速找到目標動作序列,比只擁有注意力層的智能體更快逼近收斂,并且通過逐步調整資源與補給的平衡,得分在后期還能穩(wěn)步提升。

    圖7 訓練陸戰(zhàn)隊員平均成績對比

    為進一步評估智能體策略的穩(wěn)健性,在模型收斂后撤掉規(guī)則引導層,其他設置不變,繼續(xù)訓練,得到的訓練成績如圖8所示。由于失去了規(guī)則引導層的幫助,智能體的表現(xiàn)有所下降,但很快又恢復到原來的水平,這一結果證明規(guī)則引導機制能夠幫助智能體快速地收斂到行之有效的策略中,并且更好地發(fā)揮其原有的性能。

    圖8 去掉規(guī)則引導層后平均得分變化

    最后將本實驗的結果與DeepMind的基準AI[18]和同樣使用了注意力機制的關系強化學習模型[16]進行對比,見表1??梢钥吹剑岢龅膬煞N機制在簡單任務上接近基準AI,在規(guī)劃性強的復雜任務上甚至能超過基準AI,并且和關系強化學習模型的得分相近。關系強化學習模型使用了大規(guī)模分布式強化學習算法IMPALA[19],在此任務上進行了約一千萬局的訓練,對計算資源和時間的要求較高,因此擁有普通的網絡和小規(guī)模的訓練難以達到的性能。相比之下,規(guī)則引導機制對算力的要求不高,并且在數(shù)據(jù)樣本和計算資源有限的情況下,使用合理的網絡結構和相對簡單的算法同樣能夠達到不錯的效果。另外,作為對照,在隨機策略的智能體中應用規(guī)則引導機制,平均得分也能夠接近基準AI,進一步說明對動作空間的合理約束能夠排除干擾,增強智能體的探索能力。

    表1 最佳平均得分對比

    4 結束語

    該文提出了一種規(guī)則引導的智能體決策生成框架,利用專家經驗生成的掩碼對智能體的動作空間進行動態(tài)過濾,起到了簡化環(huán)境作用,在復雜環(huán)境中幫助智能體進行更多的有效探索,加快了模型的收斂,并且在去掉規(guī)則引導層后仍然能夠保持對于環(huán)境的適應性。結合課程學習的思想,規(guī)則引導機制還可以通過一步步減少規(guī)則約束來實現(xiàn)環(huán)境簡單到復雜的變化,具有進一步應用的價值。它也存在一定的局限性,比如機制的實現(xiàn)依賴人工設計,在沒有規(guī)則庫或無法調整環(huán)境的場景中應用相對困難,復雜的專家經驗轉化為形式化規(guī)則存在描述困難問題等。對于依靠仿真系統(tǒng)進行的智能化作戰(zhàn)推演來說,如何從實際想定出發(fā),針對不同的態(tài)勢制定引導規(guī)則是下一步研究的方向。

    猜你喜歡
    規(guī)則動作智能
    撐竿跳規(guī)則的制定
    數(shù)獨的規(guī)則和演變
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    動作描寫要具體
    讓規(guī)則不規(guī)則
    Coco薇(2017年11期)2018-01-03 20:59:57
    畫動作
    動作描寫不可少
    亚洲人成网站高清观看| 国产蜜桃级精品一区二区三区| 看免费成人av毛片| 亚洲国产精品合色在线| 亚洲不卡免费看| 日韩av在线大香蕉| 精品久久久久久,| 女同久久另类99精品国产91| 亚洲欧美日韩东京热| 蜜桃亚洲精品一区二区三区| 免费观看人在逋| 国产精品无大码| 在线天堂最新版资源| 91在线观看av| 人妻久久中文字幕网| 亚洲va在线va天堂va国产| 亚洲一级一片aⅴ在线观看| 亚洲熟妇中文字幕五十中出| 91久久精品电影网| 成人精品一区二区免费| 久久草成人影院| videossex国产| 禁无遮挡网站| 亚洲一级一片aⅴ在线观看| 成人国产一区最新在线观看| 午夜日韩欧美国产| 亚洲男人的天堂狠狠| 99久国产av精品| 久久午夜福利片| 长腿黑丝高跟| 日本与韩国留学比较| 国产午夜福利久久久久久| 免费看光身美女| 久久人妻av系列| 一级黄片播放器| 欧美激情在线99| 日本免费a在线| 精品午夜福利视频在线观看一区| 在线免费观看的www视频| 三级国产精品欧美在线观看| 亚洲成av人片在线播放无| 白带黄色成豆腐渣| 亚洲三级黄色毛片| 久久精品国产99精品国产亚洲性色| 欧美zozozo另类| 亚洲av免费在线观看| 一夜夜www| 国国产精品蜜臀av免费| 精品久久久久久久久亚洲 | 嫩草影视91久久| 亚洲精品一卡2卡三卡4卡5卡| 麻豆一二三区av精品| 久久精品国产99精品国产亚洲性色| 性色avwww在线观看| 亚洲狠狠婷婷综合久久图片| 狂野欧美激情性xxxx在线观看| 91麻豆精品激情在线观看国产| 精品人妻偷拍中文字幕| 亚洲va日本ⅴa欧美va伊人久久| 男女那种视频在线观看| 联通29元200g的流量卡| 成人亚洲精品av一区二区| 亚洲欧美日韩高清专用| 久久精品国产清高在天天线| 午夜福利在线在线| 久久久久久伊人网av| 身体一侧抽搐| 熟妇人妻久久中文字幕3abv| 久久国产精品人妻蜜桃| 日本黄色片子视频| 久久九九热精品免费| 俄罗斯特黄特色一大片| 日韩欧美精品免费久久| or卡值多少钱| 国产私拍福利视频在线观看| 午夜影院日韩av| 国产午夜福利久久久久久| 亚洲精品日韩av片在线观看| 我的老师免费观看完整版| 欧美不卡视频在线免费观看| 国产欧美日韩精品一区二区| 欧洲精品卡2卡3卡4卡5卡区| 国产精品一区二区免费欧美| 日本在线视频免费播放| bbb黄色大片| 在线观看午夜福利视频| 美女xxoo啪啪120秒动态图| 天堂动漫精品| 最近最新免费中文字幕在线| 啦啦啦啦在线视频资源| 成人av在线播放网站| 嫁个100分男人电影在线观看| 亚洲精华国产精华精| 日本a在线网址| 国产伦人伦偷精品视频| 亚洲五月天丁香| 最新在线观看一区二区三区| 日本三级黄在线观看| 99久久精品一区二区三区| 国内久久婷婷六月综合欲色啪| 午夜激情欧美在线| 日韩 亚洲 欧美在线| 麻豆成人午夜福利视频| 国产成人影院久久av| 桃红色精品国产亚洲av| 午夜老司机福利剧场| 一边摸一边抽搐一进一小说| 成人无遮挡网站| 99国产精品一区二区蜜桃av| 一夜夜www| 国产精品自产拍在线观看55亚洲| 淫秽高清视频在线观看| 亚洲无线在线观看| 亚洲精品国产成人久久av| 亚洲无线在线观看| 成人特级av手机在线观看| a级毛片免费高清观看在线播放| 欧美日韩中文字幕国产精品一区二区三区| 欧美精品国产亚洲| 男女边吃奶边做爰视频| 亚洲狠狠婷婷综合久久图片| 国产精品精品国产色婷婷| 免费看美女性在线毛片视频| 黄色视频,在线免费观看| 久久人人爽人人爽人人片va| 免费高清视频大片| 亚洲国产欧美人成| 成人特级av手机在线观看| 噜噜噜噜噜久久久久久91| 嫩草影院精品99| 精品一区二区免费观看| 搡女人真爽免费视频火全软件 | 大又大粗又爽又黄少妇毛片口| 免费人成在线观看视频色| 精品久久久噜噜| 午夜久久久久精精品| 天堂网av新在线| 美女被艹到高潮喷水动态| 在线观看舔阴道视频| 亚洲欧美日韩东京热| 一个人看的www免费观看视频| 国产精品亚洲一级av第二区| 色哟哟哟哟哟哟| 久久久午夜欧美精品| 91av网一区二区| 午夜福利欧美成人| 丰满的人妻完整版| 免费不卡的大黄色大毛片视频在线观看 | 亚州av有码| 亚洲美女视频黄频| 亚洲综合色惰| 99在线人妻在线中文字幕| 久久婷婷人人爽人人干人人爱| 久久这里只有精品中国| 久久久久久久久久黄片| 国产精品日韩av在线免费观看| 久久久精品欧美日韩精品| 在线观看美女被高潮喷水网站| 九九热线精品视视频播放| 国产精品自产拍在线观看55亚洲| 成人午夜高清在线视频| 成人无遮挡网站| 亚洲国产色片| 日本黄色片子视频| 欧美国产日韩亚洲一区| 久久久久久久亚洲中文字幕| 赤兔流量卡办理| 看免费成人av毛片| 免费观看在线日韩| 男人舔奶头视频| 黄色女人牲交| 男女边吃奶边做爰视频| 免费看美女性在线毛片视频| 亚洲精华国产精华精| 国产真实乱freesex| 美女高潮的动态| 免费看日本二区| 精品人妻一区二区三区麻豆 | 久9热在线精品视频| 在线看三级毛片| 久久精品国产鲁丝片午夜精品 | 国内揄拍国产精品人妻在线| 亚洲国产欧洲综合997久久,| 听说在线观看完整版免费高清| а√天堂www在线а√下载| 美女cb高潮喷水在线观看| 国产人妻一区二区三区在| 69人妻影院| 亚洲精品久久国产高清桃花| 淫秽高清视频在线观看| 欧美在线一区亚洲| 精品一区二区三区视频在线| 成人鲁丝片一二三区免费| 伊人久久精品亚洲午夜| 日本与韩国留学比较| 日本爱情动作片www.在线观看 | 国产探花在线观看一区二区| 夜夜看夜夜爽夜夜摸| 一进一出好大好爽视频| 欧美成人一区二区免费高清观看| 久久国产精品人妻蜜桃| 亚洲va日本ⅴa欧美va伊人久久| 深夜a级毛片| а√天堂www在线а√下载| 九九爱精品视频在线观看| 白带黄色成豆腐渣| 搡女人真爽免费视频火全软件 | 一进一出好大好爽视频| 中国美女看黄片| 亚洲图色成人| 超碰av人人做人人爽久久| a在线观看视频网站| 久久人妻av系列| 白带黄色成豆腐渣| 久久精品国产清高在天天线| 噜噜噜噜噜久久久久久91| 69av精品久久久久久| 禁无遮挡网站| 97超级碰碰碰精品色视频在线观看| 韩国av一区二区三区四区| 国产精品久久久久久亚洲av鲁大| 日韩中字成人| 免费不卡的大黄色大毛片视频在线观看 | 午夜视频国产福利| 乱码一卡2卡4卡精品| 久久久久久九九精品二区国产| 色综合站精品国产| 日本黄色片子视频| 看十八女毛片水多多多| 国产成年人精品一区二区| av女优亚洲男人天堂| 中国美白少妇内射xxxbb| 亚洲美女黄片视频| 亚洲av熟女| 久久精品国产鲁丝片午夜精品 | 日韩高清综合在线| 国产激情偷乱视频一区二区| 亚洲美女黄片视频| 中亚洲国语对白在线视频| 亚洲美女搞黄在线观看 | 国产精品乱码一区二三区的特点| 草草在线视频免费看| 高清毛片免费观看视频网站| 联通29元200g的流量卡| 人人妻,人人澡人人爽秒播| 校园人妻丝袜中文字幕| 尤物成人国产欧美一区二区三区| 三级男女做爰猛烈吃奶摸视频| 亚洲一级一片aⅴ在线观看| 国产亚洲精品久久久com| av专区在线播放| 亚洲欧美日韩东京热| 国产极品精品免费视频能看的| 久久国产乱子免费精品| 亚洲av成人av| 亚洲av熟女| 三级毛片av免费| 级片在线观看| 搡老熟女国产l中国老女人| av天堂在线播放| 狂野欧美激情性xxxx在线观看| 亚洲最大成人手机在线| 亚洲不卡免费看| 久久久久久九九精品二区国产| 午夜福利欧美成人| 欧美成人一区二区免费高清观看| 一卡2卡三卡四卡精品乱码亚洲| 国产精品98久久久久久宅男小说| 搡女人真爽免费视频火全软件 | 麻豆成人av在线观看| 亚洲成人中文字幕在线播放| 亚洲性夜色夜夜综合| 麻豆国产av国片精品| 啦啦啦啦在线视频资源| 乱码一卡2卡4卡精品| 男人舔奶头视频| 嫩草影院新地址| 久久午夜亚洲精品久久| 成人一区二区视频在线观看| 人妻夜夜爽99麻豆av| 亚洲18禁久久av| 免费观看的影片在线观看| 欧美国产日韩亚洲一区| 国语自产精品视频在线第100页| 国产精品,欧美在线| 俄罗斯特黄特色一大片| 国产亚洲av嫩草精品影院| 麻豆av噜噜一区二区三区| 九色国产91popny在线| 成人永久免费在线观看视频| 国产午夜福利久久久久久| 一级a爱片免费观看的视频| 国产高清视频在线观看网站| а√天堂www在线а√下载| 日韩亚洲欧美综合| 亚洲av不卡在线观看| 真人做人爱边吃奶动态| h日本视频在线播放| 亚洲精品在线观看二区| 精品乱码久久久久久99久播| 在线观看美女被高潮喷水网站| 1024手机看黄色片| 亚洲不卡免费看| 色5月婷婷丁香| 日本黄大片高清| 少妇被粗大猛烈的视频| 久久久久久大精品| 男人的好看免费观看在线视频| 久久精品国产99精品国产亚洲性色| 免费观看精品视频网站| 久久久久久九九精品二区国产| 亚洲精品日韩av片在线观看| 国产一区二区在线av高清观看| 男女视频在线观看网站免费| 少妇人妻精品综合一区二区 | 哪里可以看免费的av片| 麻豆国产av国片精品| 最近最新中文字幕大全电影3| 亚洲经典国产精华液单| 美女黄网站色视频| 亚洲成人久久爱视频| 国产精品国产高清国产av| 丰满的人妻完整版| 久99久视频精品免费| 淫妇啪啪啪对白视频| 国语自产精品视频在线第100页| 日本与韩国留学比较| 亚洲内射少妇av| 嫁个100分男人电影在线观看| 精品日产1卡2卡| 午夜免费男女啪啪视频观看 | 亚洲专区国产一区二区| 成人三级黄色视频| 中文字幕熟女人妻在线| 久久久色成人| 亚洲第一电影网av| 看免费成人av毛片| 亚洲美女黄片视频| 久久久久久大精品| 真人一进一出gif抽搐免费| 99久久成人亚洲精品观看| 国产精品乱码一区二三区的特点| 国产精品久久久久久亚洲av鲁大| 免费高清视频大片| 欧美成人性av电影在线观看| 亚洲最大成人手机在线| 尤物成人国产欧美一区二区三区| 又黄又爽又免费观看的视频| 99国产极品粉嫩在线观看| 麻豆国产97在线/欧美| 国内精品宾馆在线| av黄色大香蕉| h日本视频在线播放| eeuss影院久久| 国产黄色小视频在线观看| 99热6这里只有精品| 99久久精品一区二区三区| 国产精品一区二区性色av| 色吧在线观看| 日韩高清综合在线| 亚洲国产精品久久男人天堂| 日本熟妇午夜| 深夜a级毛片| 国产精品女同一区二区软件 | 国产午夜福利久久久久久| 免费电影在线观看免费观看| 少妇猛男粗大的猛烈进出视频 | 欧美另类亚洲清纯唯美| 熟妇人妻久久中文字幕3abv| 亚洲精品在线观看二区| 久久久久久久午夜电影| 在线免费十八禁| 国产精品电影一区二区三区| 三级国产精品欧美在线观看| 99热只有精品国产| 18禁裸乳无遮挡免费网站照片| 在线播放国产精品三级| 国语自产精品视频在线第100页| 久久精品夜夜夜夜夜久久蜜豆| 日本a在线网址| 蜜桃亚洲精品一区二区三区| 国产探花极品一区二区| 一级a爱片免费观看的视频| 一夜夜www| 精品日产1卡2卡| 国产精品一区二区三区四区免费观看 | 一本精品99久久精品77| 麻豆成人av在线观看| 亚洲综合色惰| 99riav亚洲国产免费| 亚洲天堂国产精品一区在线| 熟女电影av网| 欧美黑人欧美精品刺激| 1024手机看黄色片| 日日夜夜操网爽| ponron亚洲| a级毛片a级免费在线| 国产日本99.免费观看| 亚洲成av人片在线播放无| 亚洲精品一区av在线观看| 免费大片18禁| 又爽又黄无遮挡网站| 成人高潮视频无遮挡免费网站| 一a级毛片在线观看| 亚洲精华国产精华精| 国产综合懂色| 亚洲中文字幕一区二区三区有码在线看| 国产亚洲91精品色在线| 熟女人妻精品中文字幕| 人人妻人人看人人澡| 国产av在哪里看| 亚洲av第一区精品v没综合| 亚洲男人的天堂狠狠| 国产精品三级大全| 美女xxoo啪啪120秒动态图| 日日干狠狠操夜夜爽| 欧美高清性xxxxhd video| 精品不卡国产一区二区三区| 亚洲精品色激情综合| 亚洲国产色片| netflix在线观看网站| 自拍偷自拍亚洲精品老妇| 极品教师在线免费播放| 久久草成人影院| .国产精品久久| 国产精品一区二区三区四区久久| 久99久视频精品免费| 色5月婷婷丁香| 一区福利在线观看| 桃红色精品国产亚洲av| 欧美潮喷喷水| 国产午夜精品久久久久久一区二区三区 | 欧美一级a爱片免费观看看| 成人毛片a级毛片在线播放| 我要看日韩黄色一级片| 蜜桃亚洲精品一区二区三区| 国产精品1区2区在线观看.| 久久久久久久久久黄片| 18禁黄网站禁片午夜丰满| 成人永久免费在线观看视频| 久久精品夜夜夜夜夜久久蜜豆| 久久久久九九精品影院| 日韩一区二区视频免费看| 人人妻人人澡欧美一区二区| 久久久久久久精品吃奶| 又黄又爽又刺激的免费视频.| 国产爱豆传媒在线观看| 超碰av人人做人人爽久久| 色尼玛亚洲综合影院| 天堂动漫精品| 在现免费观看毛片| 看黄色毛片网站| 国产不卡一卡二| 久久午夜亚洲精品久久| 免费av观看视频| 日本 av在线| 日本一二三区视频观看| 小蜜桃在线观看免费完整版高清| 97人妻精品一区二区三区麻豆| 欧美成人a在线观看| 免费观看精品视频网站| 国产午夜精品久久久久久一区二区三区 | 看片在线看免费视频| 欧美日韩精品成人综合77777| 男人的好看免费观看在线视频| 小蜜桃在线观看免费完整版高清| www日本黄色视频网| 禁无遮挡网站| 亚洲无线观看免费| 国产精品一及| 久久久久精品国产欧美久久久| 国产主播在线观看一区二区| 成年免费大片在线观看| 亚洲成人免费电影在线观看| 99久久无色码亚洲精品果冻| 久久久久久久久久成人| 久久久久久国产a免费观看| 99久久成人亚洲精品观看| 亚洲真实伦在线观看| 99九九线精品视频在线观看视频| 亚洲午夜理论影院| 亚洲无线在线观看| 十八禁国产超污无遮挡网站| 在线观看一区二区三区| 99热这里只有精品一区| 2021天堂中文幕一二区在线观| 国产精品美女特级片免费视频播放器| 成人特级黄色片久久久久久久| 午夜免费激情av| 中文资源天堂在线| 香蕉av资源在线| 亚洲欧美激情综合另类| 九九在线视频观看精品| 俄罗斯特黄特色一大片| 亚洲人成网站高清观看| 久久精品久久久久久噜噜老黄 | 精品久久久久久久久久久久久| 国产一区二区三区视频了| 免费观看人在逋| 中文字幕久久专区| 一a级毛片在线观看| 国产美女午夜福利| 亚洲专区国产一区二区| 嫩草影院精品99| 九色国产91popny在线| 亚洲国产精品sss在线观看| 久久久色成人| 白带黄色成豆腐渣| 舔av片在线| 99热这里只有是精品50| 精华霜和精华液先用哪个| 久久久国产成人免费| 白带黄色成豆腐渣| 嫩草影院精品99| 欧美一级a爱片免费观看看| 久久精品国产自在天天线| 一进一出抽搐动态| 99视频精品全部免费 在线| 欧美性感艳星| 成人综合一区亚洲| 午夜福利欧美成人| 午夜激情福利司机影院| 三级男女做爰猛烈吃奶摸视频| 深爱激情五月婷婷| 啦啦啦韩国在线观看视频| 99久久精品热视频| 久久精品国产99精品国产亚洲性色| 国产女主播在线喷水免费视频网站 | 又爽又黄无遮挡网站| 国产高清视频在线播放一区| 亚洲精华国产精华精| 亚洲无线观看免费| 变态另类丝袜制服| 天堂影院成人在线观看| 亚洲国产精品sss在线观看| bbb黄色大片| 欧美日韩黄片免| 精品久久久久久久末码| 黄色日韩在线| 中国美女看黄片| 91狼人影院| 欧美一区二区亚洲| 99久久精品一区二区三区| 色吧在线观看| 国产av麻豆久久久久久久| 偷拍熟女少妇极品色| 免费av观看视频| 嫩草影院精品99| 欧美人与善性xxx| 91久久精品国产一区二区成人| 一个人看的www免费观看视频| 91在线精品国自产拍蜜月| 欧美人与善性xxx| 俄罗斯特黄特色一大片| netflix在线观看网站| av在线天堂中文字幕| 99久久精品一区二区三区| 亚洲内射少妇av| 国产成人a区在线观看| 日韩欧美一区二区三区在线观看| 如何舔出高潮| 亚洲欧美日韩无卡精品| 亚洲欧美激情综合另类| 国产爱豆传媒在线观看| 亚洲欧美日韩高清专用| 亚洲人成网站在线播放欧美日韩| 毛片一级片免费看久久久久 | 成人av一区二区三区在线看| 亚洲欧美清纯卡通| 麻豆成人av在线观看| 欧美黑人巨大hd| 亚洲最大成人中文| 日本免费a在线| 色5月婷婷丁香| 黄色视频,在线免费观看| 久久久久久久久中文| 男女边吃奶边做爰视频| 精品国内亚洲2022精品成人| 亚洲av美国av| 久久国产精品人妻蜜桃| 久久精品国产清高在天天线| 亚洲图色成人| 国产精品av视频在线免费观看| 欧美极品一区二区三区四区| 日本与韩国留学比较| 久久99热6这里只有精品| 午夜福利在线在线| 精品无人区乱码1区二区| 日本免费一区二区三区高清不卡| 国产淫片久久久久久久久| 永久网站在线| 欧美色视频一区免费| 精品一区二区三区人妻视频| 日本欧美国产在线视频| 不卡一级毛片| 精品欧美国产一区二区三| 不卡一级毛片| 欧美色视频一区免费| 中文字幕av在线有码专区| 国产精品,欧美在线| 观看免费一级毛片| 亚洲av美国av| 午夜精品一区二区三区免费看| 国产高清视频在线观看网站| 天堂网av新在线| 长腿黑丝高跟| 国产午夜精品论理片| 日本 欧美在线| 国产女主播在线喷水免费视频网站 | 国产高清视频在线播放一区| 人妻少妇偷人精品九色| 99国产极品粉嫩在线观看| 中出人妻视频一区二区| 久久精品国产自在天天线| 内地一区二区视频在线|