宋泠澳,劉 濤,趙冬梅,董宏揚
(西南科技大學計算機科學與技術學院,四川 綿陽 621010)
隨著科學技術的發(fā)展和軍事理論的不斷創(chuàng)新,軍事輔助決策系統(tǒng)經(jīng)過多年建設,取得了長足進步,在數(shù)據(jù)采集、傳輸、存儲、處理等方面有了不少成果。然而,多場地、無人化、復雜化的現(xiàn)代軍事博弈場景,需要高精度、多角度、多層面的全局或者局部決策,單純依靠人力進行指揮調度與作戰(zhàn)決策正變得愈發(fā)困難[1],這導致在現(xiàn)代戰(zhàn)爭高烈度、快節(jié)奏的博弈環(huán)境下,在有限時間內進行決策分析十分困難。且現(xiàn)有的決策支持系統(tǒng)在情報處理、態(tài)勢認知、文書生成和方案評估等方面,距離實戰(zhàn)要求還有很大的距離,與現(xiàn)代智能化戰(zhàn)爭的發(fā)展趨勢不相適應,亟待人工智能技術的介入。
近幾年,強化學習(reinforcement learning,RL)被廣泛應用于交通、自動駕駛、自然語言處理等多個領域[2-9],其基本思想是通過將智能體(agent)從環(huán)境(environment)中獲得的累計獎賞值最大化,以學習完成目標的最優(yōu)策略,因此,RL 方法更加側重于學習解決問題的策略[10]。
本文主要就強化學習技術在軍事領域的應用進行分析與總結,包含軍事領域的5 種強化學習算法?;谝陨? 種算法,介紹了13 種強化學習在軍事方面應用。通過以上6 種強化學習算法與13 種強化學習在軍事方面的應用,分析強化學習在軍事領域的可能應用領域以及未來發(fā)展趨勢。本文分別列舉了強化學習在海、陸、空領域的應用,并分析強化學習對軍事智能決策系統(tǒng)搭建以及智能裝備發(fā)展的作用。
Q-learning 是一種無模型強化學習算法[11],它的目標是學習一種策略,告訴agent 在什么情況下要采取什么行動。Q-learning 不需要智能體直接與環(huán)境互動(off-policy),不需要環(huán)境模型;可以處理隨機轉換和獎勵的問題,無需進行調整;每次更新狀態(tài)時都可以使用在訓練期間內任意時間點收集的數(shù)據(jù),而不管獲取數(shù)據(jù)時智能體的選擇。下面3 個例子說明了Q-learning 的軍事應用可行性。
目標分配是空戰(zhàn)中一個重要而又困難的問題[12-13],大多數(shù)目標分配算法都被證明過于緩慢或不穩(wěn)定,無法收斂到全局最優(yōu)[14-15]。2004 年,HONG等利用Q-learning 建立制造環(huán)境動態(tài)變化模型,進行多目標調度決策[16];2005 年,WANG 等將Q-learning 算法應用于機器調度規(guī)則的選擇,檢驗了將Q-learning 算法應用于單機調度規(guī)則選擇問題的效果,證實了具有Q-learning 算法的機器代理能夠為不同的系統(tǒng)目標學習最佳規(guī)則[17]。2006 年,JUNE等在設計一種二維移動機器人時采用了Q-learning,該機器人在學習未知環(huán)境后能夠獨立移動,提出了一種基于Q-learning 的空戰(zhàn)目標分配算法[17]。
2016 年,國防科技大學驗證了Q-learning 是一種適用于空戰(zhàn)目標分配的強化學習算法,可以用來尋找最優(yōu)的行動選擇策略[18]:首先,對空戰(zhàn)智能體的屬性、結構和動作進行建模;其次,定義了狀態(tài)-動作對的判據(jù),給出了基于Q-learning 的目標分配算法,當學習到設計的動作-價值函數(shù)時,可以通過選擇每個狀態(tài)中值最高的動作來構造目標分配最優(yōu)策略,實例分析表明,該算法不需要大量的訓練集,避免了對先驗知識的依賴,而且具有很好的尋優(yōu)能力,能夠很好地擺脫局部最優(yōu)[19]。
2019 年,有學者從系統(tǒng)角度分析了動態(tài)目標防御技術中不同參數(shù)對系統(tǒng)的影響,建立了系統(tǒng)正常服務與重配置過程模型,在馬爾可夫決策過程的動態(tài)目標防御(moving target defense,MTD)策略優(yōu)化方法基礎上,引入Q-learning 算法生成了優(yōu)化策略集合,來保證在一定時間內生成最優(yōu)策略,解決了多層次多變化參數(shù)集合的動態(tài)防御技術的策略優(yōu)化問題[20]。其基本思想是對每個狀態(tài)s 和該狀態(tài)上可以采用的行動aI0=ω1I1+ω2I2+…+ω3I3直接估計其回報因子Q(s,a),s∈S,a∈A,并在選擇行動時按照式(1)進行:
該方法既不需要計算數(shù)學期望,也不需要估計轉移狀態(tài)的信息,可以計算出優(yōu)化后的動態(tài)目標防御重配置策略,并且能夠較好地平衡系統(tǒng)的可用性和安全性,指導動態(tài)目標防御技術實際部署問題[21]。
隨著科學技術的飛速發(fā)展和信息技術的廣泛應用,大量先進的傳感器應用于空戰(zhàn)信息系統(tǒng)中,空戰(zhàn)的復雜性和對信息處理的要求越來越高,導致數(shù)據(jù)融合技術在現(xiàn)代信息空戰(zhàn)中發(fā)揮著越來越重要的作用,研究空戰(zhàn)系統(tǒng)中的數(shù)據(jù)融合技術具有重要意義[13]。
2019 年,為提高現(xiàn)代空戰(zhàn)數(shù)據(jù)融合系統(tǒng)的精度,南京航空航天大學提出了一種基于Q-learning的改進方法,在不需要適應環(huán)境的情況下,處理隨機過渡和獎勵問題[22]:在空戰(zhàn)中,傳感器系統(tǒng)由多個不同的傳感器組成,為了獲得最優(yōu)信息,假設傳感器的個數(shù)為n,每個傳感器都有相應的權值ω1。輸出融合數(shù)據(jù)I0可以按式(2)計算:
該方法融合數(shù)據(jù)I1,I2,…,In對傳感器1,傳感器2,…,傳感器n 進行監(jiān)控,對于每一個輸出數(shù)據(jù),數(shù)據(jù)融合系統(tǒng)對ω1,ω2,…,ωn有最佳的權重選擇,并采用強化學習方法進行權值更新。該系統(tǒng)可以根據(jù)每個觀測值調整權重,通過觀測值與實際值之間的誤差來實現(xiàn)融合精度的增強。實例仿真結果表明,該方法可以解決不同傳感器的數(shù)據(jù)處理問題[23]。
上述研究工作展示了Q-learning 在軍事領域中的實際應用,表明Q-learning 可以在數(shù)據(jù)相對較少的情況下得到策略,因為其只需要在一個以state 為行、action 為列的Q-table 中找出最優(yōu)解。但在大多數(shù)情況下,由于State 過多導致Q-table 大于預期估計,使得該模型不能在規(guī)定時間內得出解或者無法得到解,這一點對于其在軍事應用方面是致命的。針對這種情況,通過引入深度學習代替Q-table 去處理Q 值,可以有效避免Q-table 的低效問題[24]。
Deepmind 團隊在2013 年提出了deep Q-network(DQN)算法[24],實現(xiàn)了卷積神經(jīng)網(wǎng)絡(CNN)與Q-learning 的結合,將強化學習的決策能力和深度學習的交互能力相結合,能在復雜軍事環(huán)境中通過智能體與環(huán)境交互得到的數(shù)據(jù),不斷更新網(wǎng)絡參數(shù),使得神經(jīng)網(wǎng)絡可以較好地逼近動作狀態(tài)值函數(shù),更好地作出適合相應狀態(tài)的動作,達到軍事決策的時間和精度要求。
無人戰(zhàn)斗機(unmanned combat air vehicles,UCAV)是一種多用途的新型空中武器,可以執(zhí)行空中偵察,地面目標攻擊以及空中作戰(zhàn)[25]。早在1933年,無人機就作為“靶機”出現(xiàn)。到了2001 年,美國“捕食者”無人機在阿富汗戰(zhàn)場上首次作為攻擊者執(zhí)行了精確打擊任務;2003 年,“捕食者”再次作為攻擊者實施了“斬首行動”,擊斃了“911”主犯阿布-阿里;其后的伊拉克戰(zhàn)爭中,美國共計投入了高達60 架無人機參與戰(zhàn)爭。
2019 年,YANG 等提出了一種基于強化學習的無人機近程空戰(zhàn)自主機動決策模型,主要包括空戰(zhàn)運動模型,一對一近程空戰(zhàn)評估模型和基于深度網(wǎng)絡(DQN)的需求決策模型[26]。該作者認為面對空戰(zhàn)環(huán)境等高維連續(xù)狀態(tài)動作空間,應該選擇DQN 算法作為強化學習的算法框架,利用深度神經(jīng)網(wǎng)絡來逼近價值函數(shù),使用分階段訓練方法對DQN 進行訓練,稱為“基本對抗”,這種基本對抗是基于人類從簡單認知逐漸過渡到復雜知識的學習過程,這種基于DQN 的決策模型能夠實現(xiàn)自學習和策略更新,直至目標被擊敗。
水下無人車(unmanned surface vehicles,USV)可作為一個單位部署執(zhí)行水下任務,路徑規(guī)劃是這些任務完成前提條件的核心。
2016 年,周新源等提出了基于深度DQN 的路徑規(guī)劃算法,用在USV 編隊路徑規(guī)劃中[27]。認為將DQN 訓練方法用于高維狀態(tài)和動作場景,不需要Q表格,不需要人類知識與設定規(guī)則,通過從以前的狀態(tài)轉換中隨機訓練,來克服相關數(shù)據(jù)和經(jīng)驗數(shù)據(jù)非平穩(wěn)分布的問題,還可以通過DQN 的目標網(wǎng)絡和Q 網(wǎng)絡實現(xiàn)訓練的穩(wěn)定性。該算法能夠計算編隊的合適路徑,并在必要時魯棒地保持編隊形狀或改變形狀,可在具有復雜障礙物的環(huán)境中輔助導航。
無人機與無人車輛領域對于DQN 的應用展示了強化學習在智能裝備方面有著重要作用。由于DQN 引入了深度學習,其在交互能力上有較大的優(yōu)勢,但在樣本標定上也如同深度學習一般較為費時。DQN 在訓練時,存在收斂速度慢的缺點,解決思路為更改目標函數(shù)來加快收斂速度[28]。
AC 算法框架被廣泛應用于強化學習算法的實際應用中,該框架集成了值函數(shù)(value function)估計算法和策略評估(policy evaluation)算法,是解決實際問題時最常考慮的框架。其帶有對抗性的網(wǎng)絡結構,對于軍事領域的決策與評估有著較高的適應性。
2018 年6 月,吳志強等提出了態(tài)勢預測,并與深度強化學習相結合,利用A3C(asynchronous advantage actor-critic)方法,在預測的基礎上,作出的戰(zhàn)術行動達到最優(yōu)效果[29]。
自動態(tài)勢分析屬于認知智能的范疇,基于深度強化學習技術的指揮員agent 可以具備自主認識戰(zhàn)場態(tài)勢,并根據(jù)態(tài)勢演變作出預測的能力。在智能決策系統(tǒng)中,指揮員agent 可引入actor-critic 模型用于自動態(tài)勢分析,如下頁圖1 所示。
圖1 Actor-Critic 自動態(tài)勢估計模型Fig.1 Actor-Critic automatic situation estimation model
態(tài)勢估計可分為態(tài)勢分析、態(tài)勢理解和態(tài)勢預測3 個階段。態(tài)勢預測是態(tài)勢估計問題的難點,利用actor-critic 模型進行強化學習,使得在預測的基礎上作出的戰(zhàn)術行動達到最優(yōu)效果。
2001 年,周銳等討論了強化學習在導彈制導領域的應用[30];2020 年將強化學習(RL)中的actor-critic(AC)算法引入導彈的目標態(tài)勢評估模型中,建立導彈-目標模擬作戰(zhàn)訓練模型,通過仿真和對比實驗表明,該模型能有效估計當前形勢下導彈攻擊的預期效果,得到飛機躲避導彈的最優(yōu)決策模型。AC 算法結合神經(jīng)網(wǎng)絡模型,可以預測飛機在受到導彈攻擊時的狀態(tài),并估計可能出現(xiàn)的最壞結果,從而實現(xiàn)導彈對目標攻擊效果的評估和預測[31]。
導彈的目標態(tài)勢評估模型中主要發(fā)展是利用強化學習(RL)算法設計空戰(zhàn)場景,為人工智能神經(jīng)網(wǎng)絡提供訓練數(shù)據(jù)和反饋獎勵。具體做法為:將態(tài)勢評估定義為對未來收益的估計,并建立導彈-目標作戰(zhàn)模型。采用行動者-批評(AC)算法,得到飛機躲避導彈的最優(yōu)決策模型。AC 算法得到的神經(jīng)網(wǎng)絡模型,可以預測飛機在受到導彈攻擊時的狀態(tài),并估計可能出現(xiàn)的最壞結果,從而實現(xiàn)導彈對目標攻擊效果的評估和預測。
2007 年NAKAMUR 等改進了AC 算法,并引入到兩足機器人的控制算法中[32]。將機器人最早應用于軍事行業(yè)始于二戰(zhàn)時期的美國,為了減少人員的傷亡,作戰(zhàn)任務執(zhí)行前都會先派出偵察無人機到前方打探敵情。文獻[32]提出了一種基于強化學習方法中的AC 算法框架的CPG-actor-critic 方法,并將此方法應用于TAGA 等所使用的兩足機器人模擬器[33]中。得到的計算機仿真結果表明,采用強化學習方法中的AC 算法可以成功地訓練CPG,使兩足機器人在矢狀面(the sagittal plane)穩(wěn)定行走,能適應環(huán)境的變化,并使控制器能夠產(chǎn)生穩(wěn)定的節(jié)奏進行運動。
該方法采用自然政策梯度法,其梯度的估計接近于最陡下降的梯度。對于戰(zhàn)爭機器人來講,其在戰(zhàn)場上的動作連續(xù)性是其作戰(zhàn)的根本保障,CPG-actor-critic 體系結構和自然梯度方法相結合,實現(xiàn)了一個高效的RL 系統(tǒng)。該算法具有大量的自由度,使兩足機器人能夠像人一樣面對復雜的戰(zhàn)場環(huán)境。
空空導彈(air-to-air missile)是殲擊機的主要武器之一,它屬于典型的精確制導武器。在2020 年,我國航空工業(yè)集團公司洛陽電光設備研究所提出了一種基于DDPG 算法的深度強化學習模型[34],其訓練仿真測試分析表明能夠有效地實現(xiàn)對來襲導彈的規(guī)避決策。該模型將DDPG 的策略網(wǎng)絡作為決策控制器,完成了對戰(zhàn)場態(tài)勢到?jīng)Q策輸出的映射,使策略網(wǎng)絡向累計回報更大的方向收斂,并將累計期望獎勵值最大的策略網(wǎng)絡作為規(guī)避導彈的最佳策略。
在空戰(zhàn)導彈規(guī)避問題上,基于DDPG 的深度強化學習算法,能夠得到比較好的訓練和仿真結果,在高度、速度保持中有很好的表現(xiàn)。該算法需要不間斷保持對于距離、高度、接近速度等關鍵參數(shù)的獲取,為其連續(xù)動作提供支持,以達到規(guī)避導彈的目的。
無人機在未來的空戰(zhàn)中將發(fā)揮巨大的作用,能夠壓制和摧毀敵人的防空,并打擊高價值目標。使用DDPG 算法,可以使無人機在復雜的空戰(zhàn)環(huán)境中擁有更好的適應性,進行自主優(yōu)化決策[35]。
空戰(zhàn)領域中的學習策略,一般會經(jīng)歷以下步驟:首先,將在攻擊區(qū)域收集大量的模擬數(shù)據(jù),并構建深度學習可使用的網(wǎng)絡;然后通過新環(huán)境中的真實值來修正網(wǎng)絡的模擬值;最后,通過強化學習的方法使無人機自主修正攻擊區(qū)域。因此,無人機需要在作戰(zhàn)中獨立地識別周邊環(huán)境,并使用正確的優(yōu)化方法來解決神經(jīng)網(wǎng)絡的適應性問題。深度學習是一種在無人機數(shù)據(jù)處理中廣泛應用的方法,而強化學習能夠賦予無人機自主決策的能力,兩者的結合將使無人機在空戰(zhàn)環(huán)境中表現(xiàn)更加優(yōu)秀[26]。
DDPG 相較于其他深度強化學習領域的方法,擁有經(jīng)驗池機制和雙網(wǎng)絡結構,使得學習過程更加穩(wěn)定,收斂速度更快。2020 年,LI 等提出了一種有效解決無人機自主決策問題的DDPG 算法[36]。DDPG 算法可以很好地滿足無人機在復雜空戰(zhàn)環(huán)境中的需求,且擁有傳統(tǒng)神經(jīng)網(wǎng)絡算法沒有的自主學習能力和連續(xù)動作域來解決連續(xù)問題,對于快速變化的空戰(zhàn)環(huán)境具有強大的適應性。
態(tài)勢評估是指揮決策的重要部分,在智能作戰(zhàn)指揮上有著重要作用。上述例子中展示了強化學習在態(tài)勢評估上的適用性,actor-critic 網(wǎng)絡可以通過評估網(wǎng)絡(critic 網(wǎng)絡)對預測網(wǎng)絡(actor 網(wǎng)絡)進行評判更新,這種具有對抗性的評估網(wǎng)絡,可以在指揮決策的對抗博弈中提供優(yōu)良決策。
多智能體技術(multi-agent technology)的應用研究起源于20 世紀80 年代,并在90 年代中期獲得了廣泛的認可[37],現(xiàn)今已經(jīng)成為了人工智能領域中的研究熱點,在感知、學習、規(guī)劃、推理以及決策等方面具有較好的優(yōu)勢[38]。
多智能體系統(tǒng)(multi-agent system,MAS)是在同一個環(huán)境里,由多個智能體組成的系統(tǒng)[39],常用于解決單一智能體或單層系統(tǒng)難以解決的問題,其中的智能可以由方法、函數(shù)、過程、算法或強化學習來實現(xiàn)[40]。在軍事領域中由于所面對場景的復雜性,作戰(zhàn)單位的部署往往是多元化的,與單智能體強化學習相比,多智能體強化學習能更好地協(xié)調不同作戰(zhàn)單位之間的協(xié)同性,提高不同作戰(zhàn)單位之間的聯(lián)系,更好地達到作戰(zhàn)目標。下面將以無人集群協(xié)同以及戰(zhàn)時備件供應保障動態(tài)協(xié)調為例子,分析多智能體強化學習在軍事領域的應用性。
無人作戰(zhàn)已經(jīng)是現(xiàn)代化戰(zhàn)爭的主流,采用多智能體強化學習算法的無人集群協(xié)同作戰(zhàn)已經(jīng)有良好的效果。無人集群系統(tǒng)的協(xié)同控制(guided deep reinforcement learning for swarm systems,GDRLSS)包含協(xié)調和合作兩個方面。協(xié)調的目的是為了避免無人集群在執(zhí)行任務的過程中內部之間發(fā)生沖突,即無人集群中的動作控制。合作的目的是讓無人集群互相協(xié)作,共同完成任務,即組織和決策機制問題[41]。
運用強化學習等技術能夠使無人集群平臺的自主控制有更好的適應性和靈活性,能夠增強無人集群的協(xié)調協(xié)作,提升無人集群系統(tǒng)的整體性能。在無人平臺系統(tǒng)中,單個無人平臺感知的環(huán)境信息是局部的,因而傳統(tǒng)單智能體強化學習算法的策略不具有普適性。為了解決該問題,多智能體強化學習在此基礎上增加了系統(tǒng)中智能體的數(shù)量,并通過引入分布式協(xié)同策略機制,使每個智能體具有自主性、目的性和協(xié)調性。
采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[42]算法框架進行學習。無人集群強化學習框架如圖2所示。
圖2 無人集群強化學習框架Fig.2 Reinforcement learning framework for unmanned swarm
當前軍事無人集群系統(tǒng)的作戰(zhàn)研究中,采用了多智能體強化學習方法實現(xiàn)無人集群系統(tǒng)的分布式協(xié)同控制[22]。隨著武器裝備體系智能化升級與現(xiàn)代戰(zhàn)爭節(jié)奏不斷加快,以及無人集群作戰(zhàn)平臺及其新技術的發(fā)展與應用,未來戰(zhàn)爭要求無人集群具備快速、自動和自主決策能力,因此,采用強化學習算法不斷優(yōu)化模型,提升無人集群協(xié)同作戰(zhàn)能力,已成為當前主要研究思路。
戰(zhàn)時備件供應保障系統(tǒng)(wartime spares support system,WSSS)是為滿足戰(zhàn)場環(huán)境條件下航空裝備對備件的需求,戰(zhàn)時備件供應保障的特征主要是自治性、分布性等。而多agent 系統(tǒng)符合這些特征,采用仿真技術對戰(zhàn)時備件供應保障進行模擬和研究,運用多agent 強化學習建模仿真技術,來模擬研究目前戰(zhàn)爭任務中各個階段供應保障過程中的協(xié)調效果,由仿真結果可以得出結論,強化學習策略明顯優(yōu)于平均隨機分配策略[43]。
與單智能體強化學習相比,多智能體強化學習在環(huán)境適用性上有著較強的適用性,與一般的應用場景不同,強化學習在軍事上的應用面臨著多場地、高緯度、復雜化的軍事博弈場景,要求高精度、多角度、全域性的作戰(zhàn)指揮決策,環(huán)境的復雜性使得單一智能體的泛化能力受到嚴重的挑戰(zhàn),面臨著精度不足、魯棒性不夠和難以設計的特點。多智能體強化學習遵從的是隨機博弈過程,它更關注合作型智能體之間互相配合,能夠完成高復雜度的任務;競爭型智能體之間也可以通過博弈,互相學習對手的策略,這在軍事博弈方面多智能體強化學習更是考慮到局部最優(yōu)與全局最優(yōu)之間的“協(xié)調”,在作出全局最優(yōu)決策的情況下,保障了局部策略的權益。
強化學習的獎勵函數(shù)是人為給定的,而且對學習結果有著重要的影響,但在很多復雜的環(huán)境之中,獎賞函數(shù)通常難以確定,所以就有了逆向強化學習[44]。逆向強化學習的目標就是找到一個合適的獎賞函數(shù),思想是專家在完成某個任務時,所作出的決策一般是最優(yōu)的、或者接近最優(yōu)的,所以可以通過專家的決策來學習找到合適的獎賞函數(shù)。本章以艦載機甲板調度問題舉例,說明逆強化學習在軍事方面的應用。
艦載機甲板調度是影響航空母艦戰(zhàn)斗力的重要因素,早在1966 年就已經(jīng)出現(xiàn)了計算機輔助調度系統(tǒng)-艦載機甲板操作控制系統(tǒng)(carrier aircraft deck operation control system,CADOCS)[45];1974 年GIARDINA 和JOHNSON 完善了CADOCS[46-47],但是沒能得到充分的應用;2002 年,TIMOTHY 提出了基于智能agent 調度系統(tǒng)的需求分析[48],得出數(shù)字化甲板調度系統(tǒng)是必然趨勢的結論;2009 年,JEFFREY 等設計了一種能夠提供危險預警和艦載機的路徑規(guī)劃的甲板持續(xù)監(jiān)控系統(tǒng)[49],同年美國海軍開發(fā)出了艦船綜合信息系統(tǒng)(integrated shipboard information system,ISIS)[50];2011 年,RYAN 等為美國海軍自動項目研究所設計開發(fā)了一個為甲板指控人員提供艦載機作業(yè)流程和輔助調度方案的航空母艦甲板行動規(guī)劃軟件(aircraft carrier deck course of action planner,DCAP)[51];2013 年,李耀宇等提出了基于逆向強化學習的艦載機甲板調度優(yōu)化方案生成方法[52]。
李耀宇等以“尼米茲”級航母作為研究對象,建立基于MDP 的艦載機狀態(tài)轉移模型,通過逆向強化學習,該文章為模擬指揮人員的調度演示學習并確定優(yōu)化后的回報函數(shù),再通過強化學習生成優(yōu)化過后的艦載機甲板調度方案[52]。
實驗證明該方法具有較好的擬合效果,所生成的優(yōu)化策略方案是可行并符合實際需求的。該方法有助于我國航母的甲板調度工作優(yōu)化,提高航母戰(zhàn)斗力。
綜上所述,強化學習在軍事應用的諸多應用中均可提供強有力的自主/輔助決策能力,在不涉及先驗模型或者數(shù)據(jù)的前提下,獲得比較準確的結果。但是,強化學習發(fā)展至今,依然存在一些問題,在其與軍事應用相結合前提下,鑒于軍事應用往往對于時間、效率、精度等要求與常規(guī)問題很大區(qū)別,強化學習的效率問題、獎勵問題,局部最優(yōu)與全局最優(yōu)等問題則凸顯出來,成為當前強化學習在軍事應用中進一步開展的挑戰(zhàn),下面一一說明。
提升樣本效率可以減少訓練時間,節(jié)約軍事資源,提高決策和反應速度。解決該問題有3 種思路:第1 種可以通過重復利用數(shù)據(jù)樣本來提高效率;第2 種思路是簡化狀態(tài)表示和行動表示,使其在運行過程中加速迭代以達到提升樣本效率;第3 種思路是利用先導經(jīng)驗示例數(shù)據(jù)來提升樣本效率[53]。
在訓練過程中,智能體采用隨機策略,而獎勵的獲取則需要一系列復雜的操作,由于智能體在軍事場景中初始化策略下很難獲得獎勵,使得強化學習算法迭代緩慢,甚至難以收斂,從而導致學習成本高昂,相關應用難以落地實施。改進獎勵函數(shù)[28]以及增加獎勵估計模塊,可以在一定程度上避免稀疏獎勵的問題。
例如作戰(zhàn)無人機群在開始訓練時,設定擊毀某個目標或者到達某個區(qū)域會獲取到一定的獎勵值,但在無人機起飛到得到獎勵值這一階段之間還有著若干動作和狀態(tài),在這些狀態(tài)下并不會獲取到獎勵值,這將導致作戰(zhàn)無人機訓練過程迭代次數(shù)增加,加大訓練成本。通過對獎勵函數(shù)的改進,使得無人機在無獎勵值階段減少迭代次數(shù)或者增加獎勵估計模塊,來引導無人機獲得獎勵可以減少訓練成本,加快相關應用的實施。
在軍事應用多變、復雜的環(huán)境中,設計一個合理的獎勵函數(shù)并不容易,尤其當涉及到的agent 動作較為復雜、場景范圍較大時,獎勵函數(shù)的合理定義依然存在很大困難。在軍事領域獎勵函數(shù)設計時,可以考慮使用多智能體強化學習由局部獎勵函數(shù)到整體獎勵函數(shù)這一過度途徑,以及逆強化學習人為給定獎勵函數(shù),來降低獎勵函數(shù)難以定義的問題[54]。
以稀疏獎勵中的作戰(zhàn)無人機群來講,改進的獎勵函數(shù)能夠減少稀疏獎勵的問題,但是設定無人機群獲得獎勵的函數(shù)定義是比較困難的,這時增加智能體如將無人機群中每一個無人機設定為智能體,單獨設定單個無人機的獎勵函數(shù),最終達到一個總的獎勵函數(shù)值,達到簡化獎勵函數(shù)的目的。
強化學習本質上是智能體與環(huán)境之間不斷探索和交互的過程,在智能體取得一定的獎勵之后,單純從獎勵層面看,其可能會陷入到局部最優(yōu)陷阱中,從而導致無法得到全局最優(yōu)結果。該問題可以通過增加好奇心驅動機制來解決[55],避免陷入局部最優(yōu),這就要求設計網(wǎng)絡時將好奇心機制加入網(wǎng)絡。
該問題會影響相關強化學習應用的落地實施,更好地解決以上4 點挑戰(zhàn), 將使得強化學習應用在軍事領域發(fā)揮更大的作用。
強化學習的大力發(fā)展得益于計算能力的大幅提升和相關算法的研究,其并不具備如人類一般在戰(zhàn)場上進行主管決策的能力,如上文的例子,強化學習需要結合場景與狀態(tài),為軍事指揮人員提供當前狀態(tài)下的決策支持?;趶娀瘜W習本身特點與優(yōu)勢,以及當前軍事應用的特點,強化學習應注重在以下幾個領域的發(fā)展:
基于模型方法能根據(jù)歷史經(jīng)驗生成環(huán)境模型,通過使用內部模型來推理未來。雖然需要先驗學習模型,但基于模型的方法具有更好的泛化能力,且能夠利用額外的無監(jiān)督學習信號,在面對多場地、多維度、復雜化的軍事博弈場景,能夠有效的提高數(shù)據(jù)效率。
強化學習在表達能力以及反饋機制上有所不足,與其他人工智能技術相結合可以彌補強化學習的不足。深度學習在特征提取上有著較大的優(yōu)勢,前面DQN 就是深度強化學習的代表[24]。在一些陌生或者小樣本軍事應用場景中,數(shù)據(jù)樣本并不足以完成強化學習的訓練,強化學習與遷移學習相結合,可以有效解決小樣本數(shù)據(jù)以及個性化問題。而多智能體強化學習中,智能體之間的協(xié)同學習將加速模型收斂、提高智能體之間的協(xié)作性。
強化學習的本質決定了其運行環(huán)境的質量好壞,它將直接決定結果的質量,然而在實際的軍事應用場景中,往往呈現(xiàn)不完全透明/單向透明、場景復雜、范圍廣、參與單位層次多,以及存在隨機問題等諸多制約因素,且相互之間存在一定的耦合影響。因此,對軍事應用場景的快速準確建模、不確定因素的量化考量,以及強化學習與構建場景的相互融合,將成為一個重要的支撐技術。
此外,強化學習被認為是通往通用人工智能的關鍵技術,強化學習不同于其他機器學習技術,它的核心是決策,這也是強化學習與軍事領域有著較高適應性的原因,但是解決在一定算力的情況下達到既定效果,也是強化學習未來發(fā)展的趨勢。
隨著現(xiàn)代軍事博弈過程和環(huán)境的越發(fā)復雜化,強化學習側重于學習解決問題的策略特性在軍事領域凸顯出了其特殊性。強化學習在諸多軍事應用領域中正在發(fā)揮著越來越重要的作用,目前已經(jīng)在無人裝備的自主決策領域得到了有效利用,同時在目標分配與防御、復雜數(shù)據(jù)融合、供應保障動態(tài)協(xié)同,以及航母的甲板調度問題等復雜軍事應用得到了應用,并顯示出良好的應用勢頭和優(yōu)勢。隨著相關技術和計算機技術的不斷發(fā)展,在博弈論思想基礎上,強化學習亦可在軍事戰(zhàn)略布局、作戰(zhàn)指揮決策等領域,為多層次和非線性、行為多樣性和信息不完備的復雜問題分析和決策提供有力的支撐。