吳宜珈 賴俊 陳希亮 曹雷 徐鵬
摘要:針對近端策略優(yōu)化算法在空戰(zhàn)智能決策過程中面臨的動作空間過大、難收斂等問題,提出基于option的近端策略分層優(yōu)化算法,構(gòu)建了基于強化學(xué)習(xí)的空戰(zhàn)智能決策模型框架,并在超視距空戰(zhàn)仿真模型中進行了對抗性實驗并可視化。實驗結(jié)果表明,近端策略分層優(yōu)化算法能夠驅(qū)動智能體在對抗過程中產(chǎn)生迂回攻擊等戰(zhàn)術(shù)行為,達到提升傳統(tǒng)算法性能和提高空戰(zhàn)博弈決策效率的目的。
關(guān)鍵詞: 超視距空戰(zhàn);智能決策;人工智能;強化學(xué)習(xí);近端策略優(yōu)化算法;分層強化學(xué)習(xí)
中圖分類號:TJ760; V271.4? 文獻標(biāo)識碼: A 文章編號: 1673-5048(2021)02-0055-07
0 引? 言
超視距空戰(zhàn)環(huán)境中,戰(zhàn)場態(tài)勢不斷變化,戰(zhàn)爭節(jié)奏不斷加快。傳統(tǒng)空戰(zhàn)中常用的影響圖法[1-3]、動態(tài)規(guī)劃法[4]、矩陣博弈法[5]、風(fēng)險決策法[6]、模糊推理法[7-11]等已不能滿足指揮員決策需要,空戰(zhàn)領(lǐng)域智能化發(fā)展需求與日俱增[12]。隨著人工智能技術(shù)的飛速發(fā)展,利用智能化方法輔助飛行員決策、奪取制空權(quán)在打贏信息化局部戰(zhàn)爭中的需求日趨迫切,空戰(zhàn)智能決策成為研究熱點[13-14]。
強化學(xué)習(xí)作為人工智能技術(shù)的重要組成部分,在指揮控制系統(tǒng)中的應(yīng)用優(yōu)勢愈發(fā)突顯。2007年,DARPA開發(fā)DEEP GREEN系統(tǒng),平行仿真戰(zhàn)場態(tài)勢,預(yù)測戰(zhàn)局走向[15]。2016年,美國空軍實驗室將遺傳模糊樹(Genetic Fuzzy Trees,GFTs)方法應(yīng)用于ALPHA AI系統(tǒng),使系統(tǒng)具備充當(dāng)僚機、搜集情報、控制無人機群[16]等能力。同年,應(yīng)用強化學(xué)習(xí)算法對計算機生成兵力(Computer Generated Forces,CGFs)行為建模,開發(fā)新的獎勵函數(shù),使之可將擊敗曾經(jīng)對手時學(xué)到的知識應(yīng)用于擊敗下一個對手,從而學(xué)習(xí)到新戰(zhàn)術(shù)[17]。2017年,美國空軍Maven系統(tǒng)成功利用強化學(xué)習(xí)算法在智能采集單元中自動識別目標(biāo)運動,通過自主智能體實驗改進軍事仿真軟件行為建模方式,為決策應(yīng)用提供輔助[18]。2018年,智能化交互式問題解答系統(tǒng)MEADE應(yīng)用于美國空軍飛行員日常訓(xùn)練,為訓(xùn)練提供針對性輔助決策。同年10月,美國空軍在軍事演習(xí)中應(yīng)用SLATE訓(xùn)練系統(tǒng)實現(xiàn)航空兵在本場和異地開展分布式訓(xùn)練。2019年,美軍啟動 “智能僚機”、“空戰(zhàn)演進”和“機器飛行員”項目,旨在為飛行員提供智能僚機群作戰(zhàn)輔助和行動方案推薦,通過非侵入式手段對現(xiàn)有作戰(zhàn)系統(tǒng)進行無人化改裝。同年,模擬人類知識的更新和存儲機制改造智能空戰(zhàn)學(xué)習(xí)系統(tǒng),設(shè)計了具有層次結(jié)構(gòu)的異步學(xué)習(xí)原理[19],將神經(jīng)網(wǎng)絡(luò)和人工勢場結(jié)合應(yīng)用于空戰(zhàn)協(xié)同博弈問題[20]。2020年,DARPA 發(fā)布“座艙內(nèi)機組自動化系統(tǒng)(ALIAS)”研究計劃,擬通過無人駕駛技術(shù)控制美國陸軍直升機,利用蒙特卡洛搜索樹算法進行推演式?jīng)Q策計算,通過智能虛擬陪練幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練[21]。
指揮控制系統(tǒng)的智能化水平?jīng)Q定未來戰(zhàn)爭的主動權(quán)[22],戰(zhàn)術(shù)決策是該系統(tǒng)的核心[23]。實踐證明,強化學(xué)習(xí)算法有效提升指揮控制系統(tǒng)智能性,為戰(zhàn)術(shù)決策系統(tǒng)在戰(zhàn)場信息搜集、處理、分析、決策等方面提供強大動力。目前,近端策略優(yōu)化算法是強化學(xué)習(xí)中性能最好的算法[24],但面對具體的超視距空戰(zhàn)決策問題仍面臨動作空間過大、不易收斂等問題。 現(xiàn)提出基于Option的近端策略分層優(yōu)化算法,通過在動作選擇過程中加入專家知識,智能提高決策博弈效率,輔助智能體學(xué)習(xí)空戰(zhàn)規(guī)則,豐富空戰(zhàn)過程戰(zhàn)術(shù)指向性。
1 相關(guān)工作
1.1 強化學(xué)習(xí)
強化學(xué)習(xí)(Reinforcement Learning,RL)用于解決序貫決策問題[25-26],以使整個任務(wù)序列在當(dāng)前狀態(tài)下達到最優(yōu)為目的進行動作選擇。智能體不斷與環(huán)境交互,通過“試錯”機制和“利用-探索”平衡策略從環(huán)境中獲得實時反饋,根據(jù)反饋選擇相應(yīng)動作,繼而不斷調(diào)整參數(shù),最終選擇出最優(yōu)策略[27]。強化學(xué)習(xí)[28]過程主要有狀態(tài)、動作、轉(zhuǎn)移概率及獎賞函數(shù)四個要素,可用馬爾可夫決策過程(Markov Decision Process,MDP)描述:智能體處在環(huán)境中,狀態(tài)為智能體對當(dāng)前環(huán)境的感知,智能體通過執(zhí)行動作影響環(huán)境。在某一狀態(tài)下,當(dāng)智能體采取某一動作后,環(huán)境受影響根據(jù)轉(zhuǎn)移概率轉(zhuǎn)移至下一狀態(tài),同時依據(jù)獎賞函數(shù)給予智能體獎勵,如圖1所示。
當(dāng)狀態(tài)維度和動作維度不斷提高,強化學(xué)習(xí)面臨難以遍歷所有情況、收斂慢、無法找到最優(yōu)策略的難題。有學(xué)者提出通過線性函數(shù)、核函數(shù)、神經(jīng)網(wǎng)絡(luò)等來近似表示值或策略的解決方法[29-30]。深度強化學(xué)習(xí)在強化學(xué)習(xí)中加入神經(jīng)網(wǎng)絡(luò),結(jié)合了強化學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)點[31],經(jīng)典近端策略優(yōu)化算法屬于深度強化學(xué)習(xí)算法。
1.2 經(jīng)典近端策略優(yōu)化算法
近端策略優(yōu)化算法(Proximal Policy Optimization Algorithms,PPO)[24] 是以信賴域策略優(yōu)化算法(Trust Region Policy Optimization,TRPO)[32] 為基礎(chǔ)的改進算法。
TRPO算法通過對步長的合理選擇使回報函數(shù)的值在策略更新后單調(diào)增或不減,解決了策略梯度算法對迭代步長異常敏感的問題。PPO算法在TRPO算法的基礎(chǔ)上結(jié)合Actor-Critic架構(gòu),針對TRPO算法在懲罰時超參數(shù)β難以確定的問題,提出了自適應(yīng)確定超參數(shù)的方法:
d=Et[KL[πθ,πθ′]]
式中:θ為原網(wǎng)絡(luò)參數(shù);θ′為目標(biāo)網(wǎng)絡(luò)參數(shù)。
PPO算法針對控制分布差距范圍優(yōu)化問題,采用裁剪函數(shù)
clippθ(at|st)pθ′(at|st),1-ε,1+ε
來避免完全施加硬約束。相對于TRPO算法,PPO算法降低了計算復(fù)雜性,彌補了TRPO算法計算效率低下的缺陷。
近年,出現(xiàn)較多關(guān)于近端策略優(yōu)化算法性能改進的探討。PPO算法的近端特性導(dǎo)致不能完全消除推動策略退出的動機[33-34],所以不能嚴(yán)格限制概率比率。文獻[35]提出基于信任域的回滾PPO 算法(TR-PPO-RB),應(yīng)用一個負面激勵來防止在訓(xùn)練期間將策略推出,該算法結(jié)合了TRPO算法和PPO算法的優(yōu)點,易于與一階優(yōu)化相結(jié)合。由于 PPO算法和 TRPO 算法分別采用的兩種約束類型之間的固有差異而不能強制執(zhí)行信任區(qū)域約束,文獻[36]提出基于kronecker因子逼近的深度強化學(xué)習(xí)的可伸縮信賴域方法(ACKTR),擴展PG框架,利用帶信賴域的kronecker因子近似曲率(K-FAC) 對Actor-Critic進行優(yōu)化。文獻[33]發(fā)現(xiàn) PPO算法受局部最優(yōu)問題的困擾,衍生出基于概率比率的裁剪方法問題,并通過自適應(yīng)地調(diào)整由信任區(qū)域標(biāo)準(zhǔn)指導(dǎo)的裁剪范圍來解決此問題。文獻[37]提出DPPO算法,使用多個線程在不同的環(huán)境中并行PPO算法。
1.3 分層強化學(xué)習(xí)
分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning,HRL)在強化學(xué)習(xí)的基礎(chǔ)上增加抽象機制,通過設(shè)立子任務(wù)把問題分解成具有層次結(jié)構(gòu)的子問題,是一種有效加強強化學(xué)習(xí)訓(xùn)練速率的層次結(jié)構(gòu)方法。分層強化學(xué)習(xí)可以通過馬爾可夫決策過程模型化,Option方法是典型的分層強化學(xué)習(xí)方法。
Option由Sutton提出,通過擴展MDP原子動作將學(xué)習(xí)過程進行分層[38-39]。原子動作是第一層Option,原子動作集即Action集。Option可由專家系統(tǒng)離線寫入,也可在線生成。上層Option被定義為新的動作加入初始動作集中,通過調(diào)用下層Option或原子動作實現(xiàn)分層控制。Option可分為基于馬爾可夫決策過程的Option(Markov-Option)和基于半馬爾可夫決策過程的Option(Semi- Markov-Option)。
馬爾可夫決策過程可用元組表達[40]:S為狀態(tài)集; A為動作集;P(s′|s,a)為狀態(tài)s下采取動作a之后,轉(zhuǎn)移到s′狀態(tài)的概率;R(s,a)為狀態(tài)s下采取動作a獲得的累積回報。γ是未來回報的折扣因子,是0到1之間的實數(shù)。半馬爾可夫決策過程將動作間隔時間設(shè)置為變量。Semi-Markov-Option可表示為三元組<,μ,β>。 μ:×0[0,1]為內(nèi)部策略。第一層Option<,μ,β>啟動后,根據(jù)μ選擇相應(yīng)動作或Option執(zhí)行。滿足終止條件β則完成選擇。被選中的Option可以根據(jù)自身策略選擇其他Option,如圖2所示。
2 基于Option的近端策略分層優(yōu)化算法
針對強化學(xué)習(xí)在處理超視距空戰(zhàn)博弈問題時面臨的動作空間大、難以收斂、獎勵稀疏等共性問題[41],提出了基于Option的近端策略分層優(yōu)化算法(Proximal Policy Hierarchical Optimization Algorithm,PPHO),優(yōu)化空戰(zhàn)決策過程中戰(zhàn)術(shù)性策略選擇過程,提高空戰(zhàn)決策效率。
PPHO算法選用Semi-Markov模型對標(biāo)準(zhǔn)的近端策略優(yōu)化算法進行改進。用擴充后的馬爾科夫決策過程表示強化學(xué)習(xí)過程,M為過程的Option空間,D為初始的狀態(tài)分布。PPHO算法動作選擇過程為:第一步根據(jù)狀態(tài)選擇合適的Option,第二步根據(jù)Option選擇合適的動作。PPHO算法利用Option有效增強動作選擇過程的專業(yè)指向性,提高動作選擇效率。
空戰(zhàn)原子動作集中每一動作均為基本Option,在此基礎(chǔ)上,根據(jù)問題實際情況設(shè)置復(fù)雜Option。復(fù)雜Option包含為完成特定目的根據(jù)專家系統(tǒng)知識做出的動作序列,算法結(jié)構(gòu)如圖3所示。
PPHO算法流程為
(1) 接受初始觀察狀態(tài)S1;
(2) θ′=θ+αΔθJ;
(3) For n=1,2,…,n do;
(4) 將s輸入 Actor的目標(biāo)網(wǎng)絡(luò),構(gòu)建正態(tài)分布,fθ(s)=A;
(5) 將action輸入environment得到獎勵r_和下一步狀態(tài)s_,存儲[s,a,r];
(6) 將s_輸入到critic網(wǎng)絡(luò)中,得到狀態(tài)的v_值,計算折扣獎勵;
(7) 將s_輸入Actor的目標(biāo)網(wǎng)絡(luò)中;
(8) End for;
(9) 將存儲的所有s組合輸入到critic網(wǎng)絡(luò)中,得到所有狀態(tài)的V_值,計算At;
(10) 求解損失函數(shù),反向傳播更新critic網(wǎng)絡(luò);
(11) 將(3)的結(jié)果輸入Option層;
(12) If Option=1,2,…,N then;
(13) Action=原子動作序列;
(14) 將結(jié)果輸入Actor的原網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò);
(15) 計算裁剪函數(shù)clippθ(at|st)pθ′(at|st),1-ε,1+ε,更新Actor的目標(biāo)網(wǎng)絡(luò);
(16) 循環(huán)算法第(12)~(15)步;
(17) 更新Actor的原網(wǎng)絡(luò);
(18) 結(jié)束。
PPHO算法謀求更加高效解決超視距空戰(zhàn)問題中針對性制定決策等問題,同時在策略選擇過程中結(jié)合傳統(tǒng)經(jīng)典戰(zhàn)術(shù)進一步豐富戰(zhàn)術(shù)智能。PPHO算法通過向PPO算法中引入分層思想加入領(lǐng)域知識,引導(dǎo)智能體脫離盲目搜索、提高學(xué)習(xí)效率,大大提高算法收斂速度。
3 基于強化學(xué)習(xí)的空戰(zhàn)智能決策模型構(gòu)建
3.1 空戰(zhàn)決策狀態(tài)空間
通過狀態(tài)空間對戰(zhàn)場態(tài)勢進行描述,基礎(chǔ)狀態(tài)集有:速度、海拔、重力、垂直速度、方向、推力、彈藥、燃油、質(zhì)量、空氣密度、壓強和溫度。
3.2 空戰(zhàn)決策動作空間
基礎(chǔ)的原子動作集有:向前直線飛行,向左飛行,向右飛行,提升飛機高度,降低飛機高度。實驗初步預(yù)設(shè)9個Option,通過IF-THEN規(guī)則關(guān)系描述飛機Option到動作的映射關(guān)系,如表1所示。后期的訓(xùn)練過程中,隨著戰(zhàn)術(shù)理論的發(fā)展,Option數(shù)量可機動增加,及時適應(yīng)新戰(zhàn)術(shù)博弈需要。
3.3 回報函數(shù)設(shè)計
(1) 當(dāng)Agent未感知到環(huán)境威脅時,reward+=1/dis(agent,target):引導(dǎo)Agent飛向目標(biāo)進行交戰(zhàn);
(2) 超出交戰(zhàn)空域,reward-=10:引導(dǎo)Agent在交戰(zhàn)空域內(nèi);
(3) 命中目標(biāo),reward+=2:引導(dǎo)Agent發(fā)射導(dǎo)彈;
(4) 被目標(biāo)擊中,reward-=10:引導(dǎo)Agent避免進入敵方不可逃逸區(qū);
(5) 被敵方鎖定后,逃脫導(dǎo)彈成功,reward+=1,引導(dǎo)Agent學(xué)習(xí)導(dǎo)彈規(guī)避動作。
3.4 決策模型構(gòu)建
構(gòu)建基于強化學(xué)習(xí)的空戰(zhàn)仿真指揮控制模型,如圖4所示。
智能決策系統(tǒng)代表強化學(xué)習(xí)過程中智能體的角色,利用傳感器、探測器等設(shè)備感知當(dāng)前戰(zhàn)場態(tài)勢信息。決策系統(tǒng)利用自身目前已掌握的經(jīng)驗和知識,對當(dāng)前戰(zhàn)場態(tài)勢進行判斷,同時結(jié)合強化學(xué)習(xí)所學(xué)得的策略,在動作空間中對飛行控制、航電系統(tǒng)、火力控制等方面進行相應(yīng)的選擇。戰(zhàn)場環(huán)境狀態(tài)收到動作的影響后,轉(zhuǎn)移到新的狀態(tài),同時給予智能決策系統(tǒng)一個即時效果反饋,決策系統(tǒng)根據(jù)效果反饋和當(dāng)前戰(zhàn)場態(tài)勢,調(diào)整自身強化學(xué)習(xí)策略并進行下一次動作選擇。結(jié)合近端策略分層優(yōu)化算法的空戰(zhàn)智能決策模型訓(xùn)練過程如圖5所示。
4 面向超視距空戰(zhàn)模型的近端策略分層優(yōu)化算法仿真實驗
4.1 實驗場景設(shè)置
現(xiàn)有的空戰(zhàn)仿真實驗因?qū)嶋H問題的復(fù)雜性和仿真效能的限制大多將問題抽象成簡單模型,簡化空戰(zhàn)決策過程,降低了系統(tǒng)對飛行員決策的參考意義。本實驗選用在Unity平臺安裝ML-Agents插件為背景進行超視距智能化空戰(zhàn)模擬仿真實驗,構(gòu)建空戰(zhàn)仿真環(huán)境,對超視距空戰(zhàn)博弈問題進行3D仿真。
ML-Agents是Unity支持的處理連續(xù)問題的開源插件,用于Agent在模擬環(huán)境中的訓(xùn)練。ML-Agents提供基于TensorFlow的算法實現(xiàn)方式,包含2D,3D 和 VR/AR的實驗環(huán)境。
ML-Agents包含三個高級組件:
(1)Learning Environment:包含 Unity 場景和所有角色,可分為三個組件:Agent,可以被附加到場景中的任何角色上,負責(zé)生成觀測結(jié)果、執(zhí)行接收動作,并適時分配正/負獎勵。Brain,封裝 Agent 的決策邏輯。Academy,指揮 Agent 的觀測和決策過程。
(2)Python API:包含訓(xùn)練的所有機器學(xué)習(xí)算法。
(3)External Communicator:將Learning Environment與 Python API 連接起來。
實驗運用PPHO 算法指導(dǎo)紅方飛機進行機動。PPHO算法包含于Python API 組件中,通過External Communicator與 Learning Environment中的紅方智能體相連,使紅方智能體在學(xué)習(xí)型Brain的指導(dǎo)下學(xué)習(xí)算法策略。Learning Environment中的Academy組件負責(zé)指揮智能體的觀測和決策過程。ML-Agents環(huán)境中PPHO算法應(yīng)用框架如圖6所示。
基于Unity平臺,實驗場景設(shè)置為100 km×100 km,設(shè)置紅藍雙方飛機探測性能50 km,射程10 km,同時對飛機速度、海拔、重力、垂直速度、方向、功效、推力、彈藥、燃油、重量、空氣密度、壓強、溫度等參數(shù)進行實時監(jiān)控調(diào)整。在仿真環(huán)境中既可以通過規(guī)則制定紅藍雙方的作戰(zhàn)行動序列,也可以通過快速博弈對抗產(chǎn)生大量數(shù)據(jù)訓(xùn)練決策模型的方式進行,實驗場景如圖7所示。
4.2 定義任務(wù)想定
紅藍雙方使用同等戰(zhàn)機型號。雙方在指定對抗空域內(nèi),自由空戰(zhàn)。藍方為規(guī)則驅(qū)動,當(dāng)未感知到威脅時,在預(yù)設(shè)交戰(zhàn)空域內(nèi)巡邏,一旦感知到威脅,殲滅紅方威脅,目標(biāo)丟失后,繼續(xù)巡邏搜索。紅方任務(wù)為取得預(yù)設(shè)空域制空權(quán),擊落敵機。
4.3 決策模型更新方法
智能體學(xué)習(xí)主要包括離線訓(xùn)練和在線使用兩部分。通過離線訓(xùn)練得到強化學(xué)習(xí)的決策網(wǎng)絡(luò),然后進行“自主對抗”,優(yōu)化決策網(wǎng)絡(luò)。使用“自主對抗”產(chǎn)生的數(shù)據(jù)訓(xùn)練態(tài)勢評估網(wǎng)絡(luò),訓(xùn)練好的態(tài)勢評估網(wǎng)絡(luò)能夠?qū)?zhàn)場態(tài)勢進行評估,對決策方案的作戰(zhàn)效能進行預(yù)測。
在離線訓(xùn)練階段,智能決策模型為紅方智能體提供動作選擇,藍方智能體基于規(guī)則驅(qū)動,紅藍雙方進行對抗。將戰(zhàn)場態(tài)勢信息等交戰(zhàn)數(shù)據(jù)轉(zhuǎn)換成狀態(tài)向量存儲于記憶單元中,從記憶單元中采樣數(shù)據(jù)對新舊策略價值網(wǎng)絡(luò)進行訓(xùn)練,經(jīng)過Option層輸出相應(yīng)行為序列,對紅方飛機速度、航向、航電系統(tǒng)、火力控制等參數(shù)設(shè)置進行更新,進一步提高對抗水平,產(chǎn)生更高質(zhì)量的交戰(zhàn)數(shù)據(jù)用于策略價值網(wǎng)絡(luò)的訓(xùn)練。學(xué)得的策略價值網(wǎng)絡(luò)即作為當(dāng)前作戰(zhàn)仿真環(huán)境下的博弈對抗行為模型,進行在線部署。
對戰(zhàn)回合數(shù)以200為限,基礎(chǔ)點數(shù)均為100。每回合開始,飛機位置隨機分配,交戰(zhàn)過程根據(jù)動作選擇損失相應(yīng)點數(shù),點數(shù)歸零,回合結(jié)束。下一回合開始,系統(tǒng)初始化。實驗主要根據(jù)點數(shù)比分判斷回合勝負,通過比較算法收斂速度和變化率進行算法優(yōu)劣對比。
4.4 仿真實驗結(jié)果分析
針對實驗效果和收斂速度兩方面對當(dāng)前訓(xùn)練階段算法效能進行評價。通過累計回報和損失函數(shù)的對比進行具體論述。累計回報是智能體在采取相應(yīng)動作之后,環(huán)境反饋的累計獎勵,實驗效果如圖8所示。
實驗數(shù)據(jù)統(tǒng)計時,取最近10次訓(xùn)練模型的測試?yán)塾嫽貓笾?,偏差小?.5%,認(rèn)為該算法已經(jīng)達到穩(wěn)定收斂。PPHO算法在1.1×105步長的訓(xùn)練后趨于穩(wěn)定,PPO算法在1.6×105步長的訓(xùn)練后趨于穩(wěn)定。PPHO算法累計回報值達到與PPO算法同樣高度,證明PPHO算法在效果上同樣達到了PPO算法的高水平。對訓(xùn)練數(shù)據(jù)進行統(tǒng)計分析:PPHO算法訓(xùn)練數(shù)據(jù)均值為1.50,方差為0.39。 PPO算法訓(xùn)練數(shù)據(jù)均值為1.12,方差為1.10。PPHO算法與PPO算法均值相近,方差相差較大,說明算法的改進起到了穩(wěn)定提升訓(xùn)練速度的作用。
損失函數(shù)計算訓(xùn)練樣本的誤差,評估算法對數(shù)據(jù)的建模程度。若實際結(jié)果與預(yù)測值相差較大 ,損失函數(shù)也會相應(yīng)變大。算法優(yōu)化后,損失函數(shù)不斷減小預(yù)測值的誤差。實驗效果如圖9所示,PPHO算法初始狀態(tài)損耗值小于經(jīng)典PPO算法損耗值的一半。訓(xùn)練過程中,PPHO算法正向損耗值均小于PPO算法,實驗效果優(yōu)于PPO算法。收斂速度上,PPHO算法先于PPO算法達到穩(wěn)定狀態(tài),最終結(jié)果趨近于0。
實驗結(jié)果顯示:在訓(xùn)練期間,PPHO算法較PPO算法展現(xiàn)出了更加優(yōu)越的性能。
利用訓(xùn)練好的模型驅(qū)動飛機2v2自由空戰(zhàn),同時取1.1×105步長訓(xùn)練后的模型作為測試對象??梢暬砻?,PPO算法在1.1×105步長訓(xùn)練后飛機仍采用直接攻擊的策略,如圖10所示。通過探索-利用與仿真環(huán)境交互產(chǎn)生動作,由于動作本身沒有明確的戰(zhàn)術(shù)意義,學(xué)習(xí)的代價是大量不符合戰(zhàn)術(shù)規(guī)則的動作導(dǎo)致任務(wù)失敗。但PPHO算法訓(xùn)練得到的模型驅(qū)動的飛機在面對敵方正面攻擊的情況時,能夠以顯式的戰(zhàn)術(shù)機動優(yōu)化模型,表現(xiàn)出迂回攻擊的戰(zhàn)術(shù)行為,如圖11所示。
5 結(jié)? 論
本文提出的PPHO算法通過專家指導(dǎo)增加戰(zhàn)術(shù)儲備,為超視距空戰(zhàn)仿真過程注入經(jīng)驗支持的戰(zhàn)術(shù)智能,達到加速學(xué)習(xí)過程的效果。實驗過程貼近實戰(zhàn),對增強戰(zhàn)斗機端到端的操作訓(xùn)練經(jīng)驗具有積極意義。實驗結(jié)果表明PPHO算法可有效提升輔助決策效率。
下一步工作重點為:提升算法自學(xué)習(xí)能力,解決Option的內(nèi)容需要離線更新的問題??梢圆扇〉姆椒òǎ海?)結(jié)合規(guī)則驅(qū)動;借助少量規(guī)則提升強化學(xué)習(xí)的探索與利用效率,加速收斂。(2)結(jié)合元深度強化學(xué)習(xí); 對不同任務(wù)下歷史數(shù)據(jù)和訓(xùn)練參數(shù)優(yōu)化模式的充分利用,從一系列不同任務(wù)下歷史數(shù)據(jù)中尋找共性規(guī)律,提煉出一般性的知識,提升決策模型的泛化能力。(3)結(jié)合深度逆向強化學(xué)習(xí); 借助少量高質(zhì)量對抗樣本數(shù)據(jù)重構(gòu)回報函數(shù),加速強化學(xué)習(xí)。
參考文獻:
[1] Ji H M,Yu M J,Yang J Y. Research on the Air Combat Countermeasure Generation of Fighter Mid-Range Turn[C]∥ 2018 2nd International Conference on Artificial Intelligence Applications and Technologies (AIAAT2018),2018.
[2] 孫永芹,孫濤,范洪達,等. 現(xiàn)代空戰(zhàn)機動決策研究[J]. 海軍航空工程學(xué)院學(xué)報,2009,24(5):573-577.
Sun Yongqin,Sun Tao,F(xiàn)an Hongda,et al. Research on Maneuvering Decision for Modern Air Combat[J]. Journal of Naval Aeronautical and Astronautical University,2009,24(5):573-577. (in Chinese)
[3] Pan Q,Zhou D Y,Huang J C,et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥? IEEE International Conference on Information and Automation(ICIA),2017:726-731.
[4] 馬耀飛,馬小樂. 一種空戰(zhàn)智能決策方法研究[C]∥中國制導(dǎo)、導(dǎo)航與控制學(xué)術(shù)會議論文集,2014: 2249-2454.
Ma Yaofei,Ma Xiaole.The Methods of Air Combat Intelligent Decision[C]∥Proceedings of IEEE Chinese Guidance,Navigation and Control Conference,2014: 2249-2454. (in Chinese)
[5] 惠一楠,朱華勇,沈林成. 無人機攻防對抗不完全信息動態(tài)博弈方法研究[J]. 兵工自動化,2009,28(1):7-10.
Hui Yinan,Zhu Huayong,Shen Lincheng. Study on Dynamic Game Method with Incomplete Information in UAV Attack-Defends Campaign[J].Ordnance Industry Automation,2009,28(1):7-10. (in Chinese)
[6] 周思羽,吳文海,張楠.自主空戰(zhàn)機動決策方法綜述[J]. 航空計算技術(shù),2012,24(1):27-31.
Zhou Siyu,Wu Wenhai,Zhang Nan. Overview of Autonomous Air Combat Maneuver Decision[J]. Aeronautical Computing Technique,2012,24(1):27-31.(in Chinese)
[7] 張立鵬,魏瑞軒,李霞. 無人作戰(zhàn)飛機空戰(zhàn)自主戰(zhàn)術(shù)決策方法研究[J]. 電光與控制,2012,19(2):92-96.
Zhang Lipeng,Wei Ruixuan,Li Xia. Autonomous Tactical Decision-Making of UCAVs in Air Combat[J]. Electronics Optics & Control,2012,19(2):92-96.(in Chinese)
[8] 張磊. 無人作戰(zhàn)飛機自主決策技術(shù)研究[J]. 航空科學(xué)技術(shù),2014,25(5):49-53.
Zhang Lei. Research on Autonomous Decision Making Technology of UCAV[J]. Aeronautical Science & Technology,2014,25(5):49-53.(in Chinese)
[9] 唐傳林,黃長強,丁達理,等. 一種UCAV自主空戰(zhàn)智能戰(zhàn)術(shù)決策方法[J].指揮控制與仿真,2015,37(5):5-11.
Tang Chuanlin,Huang Changqiang,Ding Dali,et al. A Method of Intelligent Tactical Decision Making for UCAV Autonomous Air Combat[J]. Command Control & Simulation,2015,37(5):5-11.(in Chinese)
[10] Ma S D,Zhang H Z,Yang G Q. Target Threat Level Assessment Based on Cloud Model under Fuzzy and Uncertain Conditions in Air Combat Simulation[J]. Aerospace Science and Technology,2017,67:49-53.
[11] Ernest N,Cohen K,Kivelevitch E,et al. Genetic Fuzzy Trees and Their Application towards Autonomous Training and Control of a Squadron of Unmanned Combat Aerial Vehicles[J]. Unmanned Systems,2015,3(3):185-204.
[12] 鮮勇,李揚. 人工智能技術(shù)對未來空戰(zhàn)武器的變革與展望[J]. 航空兵器,2019,26(5): 26-31.
Xian Yong,Li Yang. Revolution and Assumptions of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry,2019,26(5): 26-31.(in Chinese)
[13] Ernest N,Garroll D,Schumacher C,et al. Genetic Fuzzy Based Artificial Intelligence for Unmanned Combat Aerial Vehicle Control in Simulated Air Combat Missions[J]. Journal of Defense Management,2016,6(1):1-7.
[14] Yin Y F,Gong G H,Han L. An Approach to Pilot Air-Combat Behavior Assessment[J].Procedia Engineering,2011,15:4036-4040.
[15] 胡曉峰,榮明. 作戰(zhàn)決策輔助向何處去——“深綠”計劃的啟示與思考[J]. 指揮與控制學(xué)報,2016,2(1):22-25.
Hu Xiaofeng,Rong Ming. Where Do Operation Decision Support Systems Go: Inspiration and Thought on Deep Green Plan[J]. Journal of Command and Control,2016,2(1):22-25.(in Chinese)
[16] 周光霞,周方.美軍人工智能空戰(zhàn)系統(tǒng)阿爾法初探[C]∥第六屆中國指揮控制大會論文集,2018.
Zhou Guangxia,Zhou Fang. Analysis of Alpha AI for Air-to-Air Combat of US[C]∥Proceedings of 6th Command and Control Conference,2018.(in Chinese)
[17] Toubman A,Roessingh J J,van Oijen J,et al. Modeling Behavior of Computer Generated Forces with Machine Learning Techniques,the NATO Task Group Approach[C]∥ IEEE International Conference on? Systems,Man,and Cybernetics(SMC), 2016.
[18] Roessingh J J,Toubman A,van Oijen J,et al. Machine Learning Techniques for Autonomous Agents in Military Simulations-Multum in Parvo[C]∥IEEE International Conference on Systems,Man,and Cybernetics (SMC), 2017.
[19] Zhou K,Wei R X,Xu Z F,et al. An Air Combat Decision Learning System Based on a Brain-Like Cognitive Mechanism[J]. Cognitive Computation,2019,12(4):128-139.
[20] 張菁,何友,彭應(yīng)寧,等. 基于神經(jīng)網(wǎng)絡(luò)和人工勢場的協(xié)同博弈路徑規(guī)劃[J]. 航空學(xué)報,2019,40(3): 322493.
Zhang Jing,He You,Peng Yingning,et al. Neural Network and Artificial Potential Field Based Cooperative and Adversarial Path Planning[J]. Acta Aeronautica et Astronautica Sinica,2019,40(3): 322493.(in Chinese)
[21] 陳斌,王江,王陽. 戰(zhàn)斗機嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練[J]. 航空學(xué)報,2020,41(6): 523467.
Chen Bin,Wang Jiang,Wang Yang. Intelligent Virtual Training Partner in Embedded Training System of Fighter[J]. Acta Aeronautica et Astronautica Sinica,2020,41(6): 523467. (in Chinese)
[22] 程運江,張程,趙日,等. 人工智能的發(fā)展及其在未來戰(zhàn)爭中的影響與應(yīng)用思考[J]. 航空兵器,2019,26(1): 58-62.
Cheng Yunjiang,Zhang Cheng,Zhao Ri,et al. Development of Artificial Intelligence and Thoughts on Its Influence and Application in the Future War[J]. Aero Weaponry,2019,26(1): 58-62.(in Chinese)
[23] 黃長強. 未來空戰(zhàn)過程智能化關(guān)鍵技術(shù)研究[J]. 航空兵器,2019,26(1): 11-19.
Huang Changqiang. Research on Key Technology of Future Air Combat Process Intelligentization[J]. Aero Weaponry,2019,26(1): 11-19. (in Chinese)
[24] Schulman J,Wolski F,Dhariwal P,et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2020-05-10].https://arxiv.org/pdf/1707.06347.pdf
[25] 杜正軍,陳超,姜鑫. 基于影響網(wǎng)絡(luò)與序貫博弈的作戰(zhàn)行動序列模型與求解[J]. 系統(tǒng)工程理論與實踐,2013,33(1):215-222.
Du Zhengjun,Chen Chao,Jiang Xin. Modeling and Solution of Course of Action Based on Influence Net and Sequential Game[J]. System Engineering Theory and Practice,2013,33(1): 215-222. (in Chinese)
[26] 張迎新,陳超,劉忠,等. 資源不確定軍事任務(wù)計劃預(yù)測調(diào)度模型與算法[J]. 國防科技大學(xué)學(xué)報,2013,35(3): 30-35.
Zhang Yingxin,Chen Chao,Liu Zhong,et al. Method for Modeling and Solving Military Mission Planning with Uncertain Resource Availability[J]. Journal of National University of Defense Technology,2013,35(3): 30-35. (in Chinese)
[27] 陳希亮,張永亮. 基于深度強化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究[J]. 軍事運籌與系統(tǒng)工程,2017,31(3):21-27.
Chen Xiliang,Zhang Yongliang. Research on the Tactical Decision-Making Problem of Army Units Based on Deep Reinforcement Learning[J].Military Operations Research and Systems Engineering,2017,31(3):21-27.(in Chinese)
[28] Richard S S,Andrew G B. Reinforcement Learning: An Introduction[M].London: MIT Press,1998.
[29] Whiteson S,Stone P. Evolutionary Function Approximation for Reinforcement Learning[J]. Journal of Machine Learning Research,2006(7):877-917.
[30] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programing[C]∥ Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.
[31] 周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2015: 390-392.
Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press,2015:390-392. (in Chinese)
[32] Schulman J,Levine S,Moritz P,et al. Trust Region Policy Optimization[EB/OL].(2015-02-19)[2020-05-10].https://arxiv.org/abs/1502.05477v2.
[33] Wang Y H,He H,Tan X Y,et al.Trust Region-Guided Proximal Policy Optimization[EB/OL].(2019-11-08)[2020-05-10].https://arxiv.org/pdf/1901.10314.pdf.
[34] Ilyas A,Engstrom L,Santurkar S,et al. Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? [EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v3.
[35] Wang Y H,He H,Wen C,et al. A Closer Look at Deep Policy Gradients[EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v4.
[36] Wu Y H,Mansimov E,Liao S,et al. Scalable Trust Region Method for Deep Reinforcement Learning Using Kronecker-Factored Approximation[EB/OL].(2017-08-17)[2020-05-10].https://arxiv.org/abs/1708.05144v2.
[37] Heess N,TB D,Sriram S,et al.Emergence of Locomotion Behaviors in Rich Environments[EB/OL].(2017-07-10)[2020-05-10].https://arxiv.org/pdf/1707.02286.pdf.
[38] Sutton R S,Precup D,Singh S. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning[J]. Artificial Intelligence,1999,112(1/2):181-211.
[39] Mannor S,Menache I,Hoze A,et al. Dynamic Abstraction in Reinforcement Learning via Clustering[C]∥ Proceedings of the 21st International Conference on Machine Learning,2004: 560-567.
[40] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programming[C]∥Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.
[41] Barto A G,Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning[J].Discrete Event Dynamic Systems,2003,13 (4): 341-379.
Research on the Application of Reinforcement Learning Algorithm in
Decision Support of Beyond-Visual-Range Air Combat
Wu Yijia1,2,Lai Jun1*,Chen Xiliang1,Cao Lei1,Xu Peng1,3
(1. Army Engineering University of PLA,Nanjing 210000,China;2. Unit 32526 of PLA,Wuxi 214000,China;
3.Unit 31102 of PLA,Nanjing 210000,China)
Abstract:
In order to solve? problems of the action selection space and the difficulty of convergence of traditional proximal policy optimization algorithm in air combat simulation,proximal policy hierarchical optimization algorithm is proposed. The framework of intelligent decision model of air combat based on reinforcement learning is constructed,and the antagonistic experiment is carried out and visualized. The experimental result shows that proximal policy hierarchical optimization algorithm could drive the agent to produce indirect attack and other tactical behaviors in the process of confrontation. The purpose of improving the performance of the traditional algorithm and decision-making efficiency of air combat is achieved.
Key words: beyond-visual-range air combat; intelligent decision; artificial intelligence; reinforcement learning; proximal policy optimization algorithm; hierarchical reinforcement learning
收稿日期:2020-05-11
基金項目:國家自然科學(xué)基金項目(61806221);裝備發(fā)展部預(yù)研基金項目(61421010318);十三五全軍共用信息系統(tǒng)裝備預(yù)研項目(31505550302)
作者簡介:吳宜珈(1993-),女,江蘇連云港人,助理工程師,研究方向為智能化指揮控制。
通訊作者:賴?。?979-),男,江蘇南京人,副教授,研究方向為指揮信息系統(tǒng)、虛擬現(xiàn)實、模擬仿真和人工智能。