牟軒庭,張宏軍,廖湘琳,章樂貴
(陸軍工程大學 指揮控制工程學院,江蘇 南京 210000)
現(xiàn)代戰(zhàn)爭的節(jié)奏不斷加快,復雜性不斷上升,人腦因其生理上的限制,難以快速、持續(xù)地對多維態(tài)勢做出準確的分析判斷,在需要反復進行的作戰(zhàn)實驗中尤為明顯。而人工智能相繼在Atari[1]、圍棋[2]和星際爭霸[3]等復雜程度遞增的環(huán)境中取得了突破,表明人工智能有望解決具有實時性、不確定性的復雜戰(zhàn)場決策問題。越來越多的研究人員開始在作戰(zhàn)實驗中使用智能技術,特別是將以深度強化學習為代表的智能算法與特定的仿真環(huán)境相結合,利用其強大的學習探索能力從高維決策空間中發(fā)掘出可行的行動決策序列,應用于智能推演與指揮員輔助決策中。
然而單純使用深度強化學習進行推演有其局限性,一是巨大的動作空間與狀態(tài)空間增加了神經網絡的訓練難度,智能體很容易陷入局部最優(yōu),二是推演中的復雜任務需要多步決策完成,只采用簡單算法和網絡結構的智能體可能無法進行有效的探索。許多研究者從引入專家經驗的角度出發(fā)嘗試改進算法的表現(xiàn),主要的思路包括學習高質量復盤數(shù)據(jù),構建基于專家經驗的獎勵機制[4-6];或者將作戰(zhàn)條令、作戰(zhàn)規(guī)則、指揮員經驗等非結構化數(shù)據(jù)進行建模,構建基于專家經驗的規(guī)則庫支撐智能體決策[7-8];或者將兩者的優(yōu)點相結合,設計基于知識和數(shù)據(jù)驅動的決策方法[9-10],在對應的領域均取得了較好的效果。
從實際應用的效果來看,專家經驗輔助智能體決策的效果受它對決策空間的約束程度的影響,過度約束可能導致模型完全擬合為某種固定的決策模式,缺乏探索和發(fā)現(xiàn)新方案的能力,約束過少或者錯誤的約束又可能導致智能體重新面對巨大搜索空間的難題,增加求解難度。針對這個問題,該文提出了一種規(guī)則引導的強化學習智能體決策方法,在智能體策略產生過程中,利用專家經驗對環(huán)境中的無效動作進行動態(tài)過濾,并在星際爭霸II的小型任務場景中進行了實驗驗證。結果表明,與單純使用強化學習的方法相比,規(guī)則引導機制在困難的任務中能夠降低智能體的探索難度,幫助模型盡快收斂,在高質量樣本數(shù)據(jù)難以獲得或者計算資源不足等情況下,為強化學習算法在人不在回路的仿真、智能藍軍建設等軍事領域中的快速應用提供了一個可行的解決方案。
為將智能決策算法與專家經驗知識更好地融合,該文提出規(guī)則引導的智能體決策框架,分為數(shù)據(jù)資源層、數(shù)據(jù)處理層、決策支持層和決策輸出層4個部分,整體結構如圖1所示。
圖1 規(guī)則引導的智能體決策框架
數(shù)據(jù)資源層主要為智能體的決策提供基礎的數(shù)據(jù)和模型算法支撐。數(shù)據(jù)分為動態(tài)數(shù)據(jù)和靜態(tài)數(shù)據(jù),動態(tài)數(shù)據(jù)存儲智能體與仿真環(huán)境交互后產生的反饋信息,主要包含戰(zhàn)場態(tài)勢信息、智能體的歷史動作以及當前得分狀況,是決策模型自我迭代更新的數(shù)據(jù)基礎;靜態(tài)數(shù)據(jù)包含作戰(zhàn)想定、作戰(zhàn)實驗規(guī)則及專家知識等,為下一步的數(shù)據(jù)處理以及規(guī)則引導機制的生成提供數(shù)據(jù)支撐。決策模型庫存儲著深度強化學習等決策算法的基本神經網絡模型和更新算法的實現(xiàn),方便模型具體實現(xiàn)時進一步的調整。
數(shù)據(jù)處理層主要實現(xiàn)基礎數(shù)據(jù)的初步處理。數(shù)據(jù)預處理通過仿真環(huán)境的規(guī)則以及部分專家知識對態(tài)勢信息進行篩選,留下必要的決策信息,同時根據(jù)仿真環(huán)境的規(guī)則初步確定智能體的合法動作空間,之后將這些數(shù)據(jù)進行格式轉換、歸一化等處理,轉化為模型更易于利用的形式。規(guī)則處理一方面將仿真環(huán)境的規(guī)則通過解釋器進行轉化,用于數(shù)據(jù)預處理,另一方面將專家知識進行分類、抽象,并以特定的形式存儲于專家知識庫中,為模型應用層提供輔助數(shù)據(jù)。
模型應用層主要實現(xiàn)決策模型的具體部署與應用。智能模型構建完成智能體網絡模型與強化學習等智能算法的具體結合,以及關鍵參數(shù)的設置。輔助模塊構建根據(jù)任務需求構建特殊的數(shù)據(jù)處理模塊以輔助決策的產生,如規(guī)則引導機制、注意力機制等。上述兩項活動由專家知識庫提供數(shù)據(jù)支撐,包括超參數(shù)設置、動作函數(shù)、專家規(guī)則和范例數(shù)據(jù)等。超參數(shù)主要包含智能算法在不同想定情況下的模型參數(shù)設置,可根據(jù)后期結果進行不斷調整;動作函數(shù)包含仿真環(huán)境中所有可調用的原子動作命令,及根據(jù)研究需要設計的多個動作的組合命令;專家規(guī)則與范例數(shù)據(jù)分別以顯式和隱式的方式表達了人類的先驗知識,智能體決策既可通過專家規(guī)則在線指導,又可通過范例數(shù)據(jù)離線學習。
決策輸出層主要根據(jù)決策流程完成最終動作指令的輸出。由于不同的動作類型具有不同的參數(shù)空間,動作指令的輸出順序為:首先使用專家規(guī)則約束動作空間后進行采樣或選擇最大概率的選項得到動作類型值,然后根據(jù)選擇的動作類型選擇對應的參數(shù)空間,規(guī)則約束與注意力權重一同作用于參數(shù)空間后采樣得到動作參數(shù)值,將兩者進行封裝即可得到完整的動作指令。根據(jù)輔助模塊的不同,動作輸出方式可進行相應的調整。
該框架將專家經驗和智能算法進行了有機結合,可靈活應用不同的網絡結構、決策算法和不同場景下的專家知識進行決策,具備將專家知識規(guī)則化應用的功能,便于軍事研究人員開展實際研究。
在提出規(guī)則引導的智能體決策框架基礎上,本節(jié)從規(guī)則引導機制的思路、仿真環(huán)境建模、智能體決策流程以及網絡結構四個方面介紹決策框架的實現(xiàn)細節(jié)。
深度強化學習智能體在訓練過程中需要面對數(shù)據(jù)質量低、數(shù)據(jù)利用率不高、稀疏獎勵、探索與利用等難題,導致模型難以收斂或訓練時間過長。從數(shù)據(jù)來源分析,上述問題產生的很大一個原因在于訓練初期智能體普遍采用隨機探索策略。由于缺乏目的性,隨機策略在復雜任務的探索中難以頻繁地發(fā)現(xiàn)解決問題的行動序列,導致生成的數(shù)據(jù)利用價值較低,極大地影響了訓練效果。針對這個問題可采用輔助強化學習思想[11],引入外部信息指導智能體的訓練過程,常見的指導方式如圖2所示。
圖2 外部信息輔助強化學習途徑
狀態(tài)和獎勵是智能體進行決策以及決策優(yōu)化最重要的依據(jù),根據(jù)需要對輸入的狀態(tài)進行擴充、簡化或者在獎勵中加入額外信號,有助于幫助智能體快速收斂;中間過程調整主要通過調整智能體訓練時的超參數(shù)來改變訓練效果,如智能體因陷入局部最優(yōu)而反復嘗試同一個動作時,可增加學習率或貪婪系數(shù)等超參數(shù),鼓勵其嘗試更多的動作;動作調整影響的是智能體產生動作的過程,如根據(jù)規(guī)則推理或模仿專家范例直接選擇動作等,幫助智能體直接積累正確的經驗;環(huán)境調整主要是對狀態(tài)空間、動作空間、智能體的初始狀態(tài)等訓練環(huán)境的相關設置進行調整,通過改變任務的難易度來影響智能體的訓練效果。
對狀態(tài)空間的充分探索有利于發(fā)現(xiàn)稀疏獎勵,避免陷入局部最優(yōu)。但從人類的角度來看,許多問題中,動作對于完成任務的必要性會根據(jù)不同的狀態(tài)發(fā)生變化。一些狀態(tài)下的可執(zhí)行動作明顯與任務目標無關,它們時常使得智能體花費時間進行探索,甚至深陷其中。最直接的方法就是對這些無效的動作施以懲罰(對應圖2中的②),或者將多個低層次的動作組合為高層次動作(對應圖2中的③),最近的一項研究[12]總結了常用的三種動作空間簡化的方法,包括離散空間組合、連續(xù)空間離散化、和移除無效動作,并通過充分的實驗發(fā)現(xiàn)移除無效動作和連續(xù)空間離散化這兩項措施對改善智能體表現(xiàn)有明顯的效果。而另一項研究[13]表明,策略梯度算法在探索較大的動作空間時,對無效動作進行懲罰并不能改善智能體的訓練效果,但使用掩碼將無效動作進行遮蔽后再進行動作采樣,模型更容易收斂,并且在去除遮蔽后仍然保持了一定的性能。
受以上研究啟發(fā),軍事領域的環(huán)境復雜,但基于仿真系統(tǒng)的作戰(zhàn)方案推演可以結合專家經驗將合法動作以規(guī)則的形式進行篩選,根據(jù)任務需求以及可能遇到的狀態(tài)對動作空間進行動態(tài)過濾而不是簡單地移除,在簡化環(huán)境的同時,能夠在一定程度上引導智能體進行更加高效的探索,提高算法本身生成有效樣本的概率,促進模型的快速收斂。雖然規(guī)則引導機制依賴專家經驗的形式化表示,但它容易在具有可調整環(huán)境和規(guī)則庫的仿真系統(tǒng)中實現(xiàn),并且與其他方法相比,規(guī)則引導機制直接作用于動作空間,能夠與大部分強化學習算法有效結合,具有較強的實用性。
作戰(zhàn)仿真系統(tǒng)是人類對于特定軍事活動建立的計算機模型,對系統(tǒng)中各個要素的描述必須遵循相關的作戰(zhàn)實驗規(guī)則,不同的規(guī)則決定了描述對象的不同特點。圍繞實體、行為、交互這三類系統(tǒng)基本要素將作戰(zhàn)實驗規(guī)則分為物理規(guī)則、行為規(guī)則和裁決規(guī)則[14]。物理規(guī)則是描述仿真實體物理結構、功能、組合方式等固有屬性的規(guī)則,行為規(guī)則是描述仿真實體執(zhí)行作戰(zhàn)行動時需滿足的主客觀條件的規(guī)則,裁決規(guī)則是描述仿真實體發(fā)生交互后產生效果的規(guī)則。強化學習智能體與仿真系統(tǒng)進行交互時,物理規(guī)則與裁決規(guī)則隱含于態(tài)勢信息中,為智能體決策所需的重要依據(jù),而行為規(guī)則直接影響動作空間大小,決定了動作搜索的難度。通過2.1節(jié)的描述可以知道,規(guī)則除了正確約束仿真系統(tǒng)的運行外,還可以用于提高智能體的訓練效率。為了更好地描述規(guī)則引導機制,需要先對仿真環(huán)境的關鍵要素進行建模。
基于作戰(zhàn)仿真系統(tǒng)的推演屬于即時戰(zhàn)略博弈,具有實時性、不確定性、不完全信息等特點,可以將推演活動定義為元組G=(S,A,P,ρ,L,W)。其中,S、A、P分別指特定想定下的狀態(tài)空間、混合動作空間和實體所屬方;ρ:St×A1×A2→St+1為狀態(tài)轉移函數(shù),規(guī)定了在時間t時,對抗雙方(假設參加推演人數(shù)為兩人)分別執(zhí)行動作A1和A2后狀態(tài)St向St+1轉移的方式,包含了對動作執(zhí)行效果的裁決;L:S×A×P→{True,False}為合法動作判別函數(shù),在當前態(tài)勢下,根據(jù)仿真系統(tǒng)中定義的規(guī)則對指揮員執(zhí)行的動作的合法性進行判別;W:S→P∪{ongoing,draw}為態(tài)勢判別函數(shù),根據(jù)雙方態(tài)勢返回博弈的進展情況,根據(jù)是否結束可輸出的對抗狀態(tài)包括獲勝方、正在進行和平局。按照上述描述,元組G中的L對應行為規(guī)則,ρ和W對應裁決規(guī)則。
與單純的離散動作空間或連續(xù)動作空間不同,推演決策問題涉及混合動作空間[15],這類動作空間的特點是:完成動作時,在指定離散的動作類型后還需要指定該動作相關的連續(xù)動作參數(shù),如完成實體機動需要選擇執(zhí)行動作的實體u,選擇對應的動作函數(shù)atype,并指定機動目標的坐標aarg=(x,y),上述選擇構成元組a=(u,atype,aarg),并最終封裝為系統(tǒng)可以調用的動作函數(shù)。智能體在自動推演過程中,不論最終的目標如何,在每個時刻做出的決策必定能夠分解為選擇實體,選擇動作類型和選擇動作參數(shù)這三個微觀動作,選擇實體視為特殊的動作,因此動作空間主要分為動作類型空間和動作參數(shù)空間,即A=(Atype,Aarg)。
規(guī)則引導的智能體決策流程從整體來看分為5個模塊,包括態(tài)勢感知模塊、策略生成模塊、強化學習模塊、數(shù)據(jù)存儲模塊以及輔助模塊,輔助模塊包括注意力層和規(guī)則引導層。各模塊間的交互情況如圖3所示。
圖3 規(guī)則引導的智能體決策流程
數(shù)據(jù)存儲模塊包含經驗存儲模塊和規(guī)則存儲模塊,前者采集環(huán)境和智能體在每個時間步產生的當前狀態(tài)、動作、獎勵等交互信息,存儲為樣本數(shù)據(jù),在訓練環(huán)節(jié)輸入神經網絡進行訓練,后者存儲了專家經驗知識,在訓練開始前轉化為形式化的規(guī)則構建規(guī)則引導層以輔助智能體決策;態(tài)勢感知模塊接收環(huán)境輸入的實時態(tài)勢信息,包括反映地圖的特征層,以及各實體的狀態(tài)信息,數(shù)據(jù)輸入后經過篩選、轉換、歸一化等預處理,輸入神經網絡;策略生成模塊輸出原始策略,由規(guī)則引導層進行動作空間的過濾后返回新的策略,各動作參數(shù)經過采樣后被封裝為環(huán)境可識別的指令輸出;強化學習模塊是整個框架的核心,可根據(jù)需求實現(xiàn)相應的強化學習算法,提取經驗存儲模塊中的樣本數(shù)據(jù)進行訓練,并提供網絡的更新參數(shù),本流程中使用近端策略優(yōu)化算法[17]進行策略梯度更新;輔助模塊是設計者為優(yōu)化智能體訓練過程,提高智能體性能等目的而設計的數(shù)據(jù)處理模塊,在本流程設計中為注意力層和規(guī)則引導層,其中注意力層為態(tài)勢中不同的實體位置計算權重,具體實現(xiàn)參考文獻[16];規(guī)則引導層簡化環(huán)境的動作空間,引導智能體正確決策。
智能體網絡結構如圖4所示。為處理復雜的星際爭霸環(huán)境狀態(tài)輸入,使用多層卷積網絡接收連續(xù)5幀的屏幕信息和小地圖信息,網絡之間使用殘差鏈接;使用編碼層接收單位狀態(tài)和歷史動作等非空間信息,生成一維向量。將兩者的輸出進行維度調整、拼接后輸入注意力層。注意力層直接輸出的向量保留了空間特征,經過上采樣層進行逆卷積后與輸出動作一起作為空間參數(shù)輸出層的特征輸入。另外一個輸出則采用平鋪層進行拉伸,與非空間信息編碼拼接后一同作為動作、輔助參數(shù)以及狀態(tài)價值的輸入。動作輸出層、輔助參數(shù)輸出層及價值輸出層都是全連接層,輸出對應參數(shù)概率分布和價值。
圖4 智能體網絡結構
規(guī)則引導層根據(jù)知識庫中專家經驗的描述生成規(guī)則集R。規(guī)則集R使用產生式規(guī)則描述,其中約束動作類型空間的規(guī)則表示如下:
ri:IFC1∧C2∧…∧CnTHEN {a1,a2,…,am} is invalid
(1)
選定動作為aj后,約束對應參數(shù)空間的規(guī)則表示如下:
(2)
(3)
(4)
因此綜合上述描述,該文采用近端策略優(yōu)化算法進行訓練的流程如算法1。根據(jù)演員-評論家(Actor-Critic)方法構建了共享參數(shù)的智能體網絡,目的是減少訓練的開銷;設置參照網絡θold,采用梯度裁剪的方法限制策略梯度更新的幅度,提高算法訓練的穩(wěn)定性,具體實現(xiàn)可參考文獻[17]。
算法1:規(guī)則引導的近端策略優(yōu)化算法。
輸入:初始化網絡參數(shù)θ,經驗池容量,規(guī)則集R
輸出:最優(yōu)網絡參數(shù)θ*,最優(yōu)策略π*
1.載入規(guī)則集R,初始化規(guī)則引導層;
2.對于訓練回合1,2,…,M:
3. 初始化環(huán)境狀態(tài)s0,
4. 對于回合中的第n步:
5. 獲取當前環(huán)境狀態(tài)sn,輸入規(guī)則引導層,生成掩碼LR;
8. 將交互數(shù)據(jù)(sn,an,rn,sn+1)存入經驗池;
9. 執(zhí)行L步后,根據(jù)PPO算法更新網絡參數(shù)θ;
10.更新參數(shù)θold=θ;
11.單個訓練回合結束;
12.M個訓練回合結束。
該文基于python3.8和pytorch1.7.0工具包以及星際爭霸II機器學習接口pysc2[18]進行決策方法的應用與評估。
實驗場景為星際爭霸II的戰(zhàn)勝蟑螂和訓練陸戰(zhàn)隊員。戰(zhàn)勝蟑螂的初始狀態(tài)為9名陸戰(zhàn)隊員和4只蟑螂,擊敗一只蟑螂可以得到10分,一名陸戰(zhàn)隊員死亡扣1分,當4只蟑螂全部被消滅后地圖會重置雙方的位置和數(shù)量,智能體要在有限的時間中控制陸戰(zhàn)隊員擊殺數(shù)量盡量多的蟑螂。蟑螂的生命力與攻擊力較高,陸戰(zhàn)隊員必須集中火力攻擊才能有效地取得較高的分數(shù)。訓練陸戰(zhàn)隊員的初始狀態(tài)為1個指揮中心和12個工人,通過訓練工人、采集水晶礦、建造補給站、建造兵營等步驟在有限的動作步長內盡可能多地訓練陸戰(zhàn)隊員,建造和訓練動作需要消耗水晶礦,工人和陸戰(zhàn)隊員需要占用補給,每訓練一個陸戰(zhàn)隊員可以得到1分的獎勵。此外,該任務還對智能體提出了規(guī)劃要求,完成任務的同時要統(tǒng)籌好資源和補給的平衡,各步驟關系如圖5所示。
圖5 訓練陸戰(zhàn)隊員中關鍵動作的關系
從總體上來看,雖然環(huán)境本身實時提供了合法動作列表,但依然存在許多無效動作,使得兩個任務面臨較大的動作空間和稀疏獎勵的挑戰(zhàn)。
戰(zhàn)勝蟑螂任務相對簡單,只需要智能體控制陸戰(zhàn)隊員快速集火敵人即可,更多是考驗智能體感知地圖上敵人位置的能力,該文將規(guī)則設置為只允許選擇單位與攻擊這兩個動作。訓練陸戰(zhàn)隊員的環(huán)境稍顯復雜,實驗前對隨機策略與無規(guī)則引導的智能體行為進行分析,發(fā)現(xiàn)無規(guī)則引導下,環(huán)境的合法動作平均為10個,最多可達15個。智能體初期探索的時候就容易花費大量時間操作工人四處移動而不是采集礦物,中期容易反復執(zhí)行建造命令,或者操作陸戰(zhàn)隊員進行無意義移動和攻擊等,這些動作對完成任務沒有任何幫助。另外,任務設置中陸戰(zhàn)隊員被消滅后不會受到懲罰,還能節(jié)省補給數(shù)量,此條經驗可嵌入規(guī)則中幫助提高任務成績。因此制定以下規(guī)則對動作空間進行約束,主要規(guī)則簡單描述如下:
(1)禁止小地圖動作。
(2)禁止工人和陸戰(zhàn)隊員通過移動指令進行移動。
(3)禁止建筑設置生產單位集結點。
(4)陸戰(zhàn)隊員的攻擊目標限定為陸戰(zhàn)隊員。
(5)限定建造補給站和兵營的地圖坐標范圍。
(6)限制補給站個數(shù)。
為與人類操作速度相近,智能體每1秒執(zhí)行一個動作。游戲環(huán)境的動作接口涉及到動作類型、輔助參數(shù)和空間參數(shù)三種,考慮到本任務中的輔助參數(shù)對任務影響不大,規(guī)則集中將特定動作對應的輔助參數(shù)設為定值。最終規(guī)則引導的智能體動作集被限制為:選擇單位、訓練工人、訓練陸戰(zhàn)隊員、建造補給站、建造兵營、采集水晶礦和陸戰(zhàn)隊員攻擊。
實驗將有規(guī)則引導層的智能體(rule-guided-agent)、無規(guī)則引導層的智能體(attention-agent)以及無注意力層的智能體(no-attention-agent)進行對比,無注意力智能體的注意力層被替換為相同層數(shù)的卷積層。智能體輸入狀態(tài)包括屏幕特征層中的單位類型、已選單位信息等空間信息,以及當前礦物數(shù)量、當前補給上限、當前占用的補給上限、場上的建筑與單位數(shù)量等標量信息。
將每30回合的平均得分經過一定的平滑處理后進行分析。圖6為戰(zhàn)勝蟑螂任務中三類智能體收斂后的訓練得分情況。為了減少智能體在圖像認知方面的訓練時間,事先使用腳本產生的高質量動作狀態(tài)序列對智能體進行了預訓練??梢钥闯?,任務本身存在攻擊細節(jié)上的難度,因此得分波動幅度較大;規(guī)則引導的智能體收斂于一個平均得分最高的策略,能夠做到按順序集火消滅蟑螂,并且更加容易產生高得分的行動序列,相比之下,無規(guī)則引導的智能體和無注意力的智能體因為頻繁執(zhí)行攻擊以外的動作,導致陸戰(zhàn)隊員得分的效率降低,并經常被蟑螂消滅,表現(xiàn)不穩(wěn)定,收斂到了次優(yōu)的策略。
圖6 戰(zhàn)勝蟑螂平均得分變化
訓練陸戰(zhàn)隊員的平均成績對比如圖7所示。通過觀察智能體行為可以發(fā)現(xiàn),沒有規(guī)則引導層和注意力機制支撐的智能體存在巨大的探索困難,除了初始隨機探索獲得一些獎勵以外,模型最終收斂到了一個無意義的動作集中,導致無法有效地發(fā)現(xiàn)訓練陸戰(zhàn)隊員的動作序列。而擁有注意力層的智能體經過初期探索后成功發(fā)現(xiàn)目標動作序列,但仍然存在操作陸戰(zhàn)隊員四處游走的現(xiàn)象;而且訓練后期存在攻擊已經建造完成的補給站和兵營等行為,導致平均得分反而有所下降。規(guī)則引導的智能體因為專家經驗的指導,能夠快速找到目標動作序列,比只擁有注意力層的智能體更快逼近收斂,并且通過逐步調整資源與補給的平衡,得分在后期還能穩(wěn)步提升。
圖7 訓練陸戰(zhàn)隊員平均成績對比
為進一步評估智能體策略的穩(wěn)健性,在模型收斂后撤掉規(guī)則引導層,其他設置不變,繼續(xù)訓練,得到的訓練成績如圖8所示。由于失去了規(guī)則引導層的幫助,智能體的表現(xiàn)有所下降,但很快又恢復到原來的水平,這一結果證明規(guī)則引導機制能夠幫助智能體快速地收斂到行之有效的策略中,并且更好地發(fā)揮其原有的性能。
圖8 去掉規(guī)則引導層后平均得分變化
最后將本實驗的結果與DeepMind的基準AI[18]和同樣使用了注意力機制的關系強化學習模型[16]進行對比,見表1??梢钥吹剑岢龅膬煞N機制在簡單任務上接近基準AI,在規(guī)劃性強的復雜任務上甚至能超過基準AI,并且和關系強化學習模型的得分相近。關系強化學習模型使用了大規(guī)模分布式強化學習算法IMPALA[19],在此任務上進行了約一千萬局的訓練,對計算資源和時間的要求較高,因此擁有普通的網絡和小規(guī)模的訓練難以達到的性能。相比之下,規(guī)則引導機制對算力的要求不高,并且在數(shù)據(jù)樣本和計算資源有限的情況下,使用合理的網絡結構和相對簡單的算法同樣能夠達到不錯的效果。另外,作為對照,在隨機策略的智能體中應用規(guī)則引導機制,平均得分也能夠接近基準AI,進一步說明對動作空間的合理約束能夠排除干擾,增強智能體的探索能力。
表1 最佳平均得分對比
該文提出了一種規(guī)則引導的智能體決策生成框架,利用專家經驗生成的掩碼對智能體的動作空間進行動態(tài)過濾,起到了簡化環(huán)境作用,在復雜環(huán)境中幫助智能體進行更多的有效探索,加快了模型的收斂,并且在去掉規(guī)則引導層后仍然能夠保持對于環(huán)境的適應性。結合課程學習的思想,規(guī)則引導機制還可以通過一步步減少規(guī)則約束來實現(xiàn)環(huán)境簡單到復雜的變化,具有進一步應用的價值。它也存在一定的局限性,比如機制的實現(xiàn)依賴人工設計,在沒有規(guī)則庫或無法調整環(huán)境的場景中應用相對困難,復雜的專家經驗轉化為形式化規(guī)則存在描述困難問題等。對于依靠仿真系統(tǒng)進行的智能化作戰(zhàn)推演來說,如何從實際想定出發(fā),針對不同的態(tài)勢制定引導規(guī)則是下一步研究的方向。