曾 熠, 劉麗華, 李 璇, 杜溢墨, 陳麗娜
1(解放軍31008部隊, 北京 100091)
2(國防科技大學(xué) 系統(tǒng)工程學(xué)院, 長沙 410073)
航跡協(xié)同規(guī)劃[1]是實現(xiàn)多無人機自主行為導(dǎo)航與控制的關(guān)鍵技術(shù), 也是對環(huán)境感知決策的具體體現(xiàn)形式, 其目的是規(guī)劃出最優(yōu)的航跡策略, 以解決目標搜索、飛行避碰、編隊控制等問題. 現(xiàn)有關(guān)于航跡協(xié)同規(guī)劃方法主要有啟發(fā)式方法[2]、Voronoi方法[3]、遺傳算法[4]、粒子群算法[5]等, 由于外界復(fù)雜環(huán)境影響, 行為變化的不確定性對航跡規(guī)劃提出了更高的任務(wù)需求[6,7].
從無人機群體行為決策[8,9]與狀態(tài)變化的內(nèi)在驅(qū)動機制看, 復(fù)雜的群體行為通過簡單的局部交互知, 需要遵循一定的標準知識才能保證整個系統(tǒng)可控性. 決策知識[10]是實現(xiàn)自然語言與環(huán)境信息交互的一種接口, 它采用標準化的規(guī)則格式實現(xiàn)機器指令與外界信息的交互理解, 是目前智能機器領(lǐng)域的研究熱點[11]. 文獻[12]采用知識本體的思維構(gòu)建了任務(wù)規(guī)劃的概念層次, 給出了決策知識學(xué)習(xí)在無人機航跡協(xié)同規(guī)劃上的邏輯推理應(yīng)用. 但該方法只描述了外部環(huán)境的概念形式, 缺少對無人機動作和狀態(tài)內(nèi)部驅(qū)動的知識表示. 文獻[13]運用層級式表達方式對無人機環(huán)境信息進行概念抽取, 在航跡序列點位置上部署決策點, 并賦予基于決策樹的知識學(xué)習(xí)方法. 但該方法計算航跡代價較高,容易陷入局部最優(yōu)狀態(tài), 較難保證全局航跡規(guī)劃最優(yōu).文獻[14]使用神經(jīng)網(wǎng)絡(luò)指導(dǎo)無人機建立了一個決策知識框架, 用于推理目標搜索中的環(huán)境知識和狀態(tài), 從而獲得最優(yōu)策略. 但該方法未考慮事件觸發(fā)與系統(tǒng)內(nèi)在關(guān)系, 較難保證任務(wù)背景中的知識學(xué)習(xí)能力[15,16].
綜上所述, 從信息處理的角度探討性地提出了一種基于決策知識學(xué)習(xí)的多無人機航跡協(xié)同規(guī)劃方法.該方法基于馬爾可夫決策過程, 重點構(gòu)建決策知識庫,形成基于事件觸發(fā)-知識驅(qū)動的群體決策機制, 通過引入意義接受性學(xué)習(xí)理論增強決策知識學(xué)習(xí)的相關(guān)性,以獲取多無人機航跡規(guī)劃的最優(yōu)策略.
多無人機協(xié)同航跡規(guī)劃問題是將每臺無人機同時從不同的起點到相同目的地或偵察點, 生成可行的飛行軌跡, 這些軌跡由一組協(xié)同全局最小代價的優(yōu)化準則和約束條件定義, 包括最小化無人機被摧毀的風(fēng)險,以及無人機內(nèi)外部環(huán)境限制和威脅動態(tài). 如圖1所示,多無人機航跡協(xié)同規(guī)劃任務(wù)描述中, 任務(wù)空間中有3臺無人機和6個威脅區(qū)域以及部分地形障礙, 需要通過系統(tǒng)狀態(tài)不斷調(diào)整優(yōu)化動作, 對每臺無人機形成一個動作序列, 每個動作又形式化表示為協(xié)同決策和任務(wù)優(yōu)化問題.
圖1 多無人機航跡協(xié)同規(guī)劃任務(wù)描述
針對無人機航跡協(xié)同規(guī)劃的連續(xù)動作空間特征,將知識決策框架分為數(shù)據(jù)支持層、模型生成層和策略控制層. 如圖2所示, 它是整個系統(tǒng)的基本框架.
圖2 基于決策知識學(xué)習(xí)的多無人機航跡協(xié)同規(guī)劃系統(tǒng)框架
(1)數(shù)據(jù)支持層: 主要將空間數(shù)據(jù)庫的信息和無人機傳感器獲取的環(huán)境信息、威脅信息、歷史經(jīng)驗等進行知識的實例化表示, 對情景任務(wù)進行有效分析, 形成具有圖結(jié)構(gòu)的決策知識庫, 同時賦予了相關(guān)事件屬性、動作模板和關(guān)系條件, 其功能包括事件觸發(fā)、行為動作和狀態(tài)轉(zhuǎn)移等.
(2)模型生成層: 主要利用馬爾科夫決策過程對無人機群體的狀態(tài)和動作進行建模, 得出最優(yōu)狀態(tài)-動作值, 產(chǎn)生最優(yōu)策略; 通過群體決策機制對無人機當前狀態(tài)、情景和動作進行分析, 形成決策知識與無人機系統(tǒng)的信息交互, 為航跡規(guī)劃的策略控制提供數(shù)據(jù)支撐.
(3)策略控制層: 主要采用深度確定性策略梯度(deep deterministic policy gradient, DDPG)對當前無人機群體的動作和狀態(tài)進行訓(xùn)練, 通過引入意義接受性學(xué)習(xí)理論, 提出基于知識決策學(xué)習(xí)的深度確定性策略梯度算法, 不斷調(diào)整選擇最優(yōu)策略, 將新的群體協(xié)同決策經(jīng)驗知識映射存儲于至知識庫, 以提高航跡規(guī)劃的準確性.
馬爾科夫決策[17]過程對序貫決策問題進行了數(shù)學(xué)定義, 為多無人機決策和任務(wù)優(yōu)化提供了一種端到端的學(xué)習(xí)框架. 根據(jù)馬爾科夫決策過程, 將無人機航跡規(guī)劃表示為一個五元組模型 (S,A,P,R,γ) . 其中,S為無人機在當前航跡序列下可以到達的所有狀態(tài)的集合,A表示無人機可以在環(huán)境中選擇的所有動作的集合,P和R表示從狀態(tài)s到狀態(tài)s′執(zhí)行動作a的概率和獎勵(a∈A且s,s′∈S), γ ∈[0,1]為決定當前或未來獎勵重要性的折扣因素.
在每個時間步長t, 無人機的狀態(tài)為st,at為無人機在該狀態(tài)下執(zhí)行的動作, 無人機從環(huán)境交互中獲得獎勵rt, 并在下一時間步到達狀態(tài)st+1. 同時, 無人機在每個時間步長選擇的動作由策略集π 決定, 一個包含在策略 π 的元素π (a|s) 表示無人機在某個狀態(tài)s所采取行動a的概率. 在所有策略中, 有一個最優(yōu)策略π*, 當無人機遵循該策略時, 可以獲得最大獎勵Rt, 從步長t的開始時間到結(jié)束時間, 累積獎勵表示為:
狀態(tài)-動作值函數(shù)Qπ(s,a)計算為Qπ(s,a)=E[Rt|st=s,at=a,π]表示無人機在當前狀態(tài)下執(zhí)行動作的過程. 當執(zhí)行最佳策略π*時 , 則為最優(yōu)狀態(tài)-動作值函數(shù)滿足貝爾曼最優(yōu)性方程[17].
狀態(tài)-動作值函數(shù)將通過不斷迭代等式最終收斂Q*(s,a) 產(chǎn) 生最優(yōu)策略
根據(jù)任務(wù)區(qū)域內(nèi)所有實體在空間上的布局, 將區(qū)域內(nèi)的每個實體進行知識表示, 初始化為一個圖形化的決策知識庫SD_Net. 存儲在SD_Net中的每個知識結(jié)構(gòu)對應(yīng)無人機的不同危險程度和航跡序列位置, 其作用是將當前無人機采樣的環(huán)境信息和系統(tǒng)狀態(tài)與知識庫的知識進行信息交互, 供無人機系統(tǒng)學(xué)習(xí)訓(xùn)練.SD_Net的結(jié)構(gòu)為, 其中為概念層次的層次結(jié)構(gòu)分為系統(tǒng)狀態(tài)(由馬爾可夫決策過程生成的狀態(tài)網(wǎng)絡(luò)層次)、觸發(fā)事件(由歷史不確定事件所構(gòu)成的網(wǎng)絡(luò)層次)和環(huán)境知識(由歷史態(tài)勢環(huán)境的背景知識構(gòu)成的網(wǎng)絡(luò)層次);E為鏈接各概念層次的關(guān)系;I為具體的實例, 存儲了所有不同任務(wù)背景下的案例知識;At為馬爾可夫決策過程形成的行為動作和獎勵. SD_Net模型如圖3所示,以Protégé平臺[11]進行構(gòu)建, 封裝為基于SPARQL語言的OWL模型[12], 存有500余個概念層次實體和6 000余個案例知識, 用SWRL調(diào)試分析無人機群體決策的情景分析, 形成決策知識.
圖3 無人機決策知識庫模型
知識庫SD_Net作為無人機航跡規(guī)劃的初始規(guī)決策知識, 是當前系統(tǒng)知識認知結(jié)構(gòu)中已有的概念層次,但在動態(tài)任務(wù)的決策過程中由于外部威脅區(qū)域的不確定性, 需要利用當前狀態(tài)和動作不斷進行調(diào)整優(yōu)化, 學(xué)習(xí)到最優(yōu)策略達到航跡規(guī)劃效果.
無人機群體作為一個行為可控的復(fù)雜系統(tǒng), 在馬爾科夫模型的狀態(tài)和動作基礎(chǔ)上, 關(guān)鍵在于任務(wù)平臺能夠針對特定的觸發(fā)事件, 以決策知識為驅(qū)動, 需要自主進行行為決策與狀態(tài)變化, 因此提出基于事件觸發(fā)-知識驅(qū)動決策機制. 其中, 事件觸發(fā)為無人機外部觸發(fā)條件, 通過事件檢測器對底層數(shù)據(jù)進行事件提取, 與所建立的知識庫進行匹配, 構(gòu)建事件與動作行為的映射關(guān)系. 作為背景知識的一部分, 事件觸發(fā)與任務(wù)區(qū)域的不確定環(huán)境進行交互, 在一定程度上提高了決策過程的可解釋性[18], 同時節(jié)約了存儲和計算資源; 知識驅(qū)動是內(nèi)部驅(qū)動機制, 根據(jù)協(xié)同航跡規(guī)劃需遵循的規(guī)則, 群體行為通過局部交互知識產(chǎn)生, 逐漸擴散到全局知識,以發(fā)現(xiàn)、執(zhí)行和調(diào)整3種動作規(guī)則, 支撐自主行為決策和狀態(tài)變化的概念化、形式化的知識表示, 從而明確任務(wù)空間相關(guān)要素與系統(tǒng)狀態(tài)轉(zhuǎn)移的關(guān)聯(lián)關(guān)系. 如圖4所示, 多臺無人機進入指定任務(wù)區(qū)域執(zhí)行任務(wù), 在情景T的觸發(fā)下產(chǎn)生狀態(tài), 根據(jù)SD_Net知識庫中的概念層次, 分別使用案例規(guī)則知識, 形成不同狀態(tài)下的行為選擇, 從而規(guī)劃出一個連續(xù)動作空間.
圖4 多無人機決策知識情景分析
在群體決策的知識分析后, 多臺無人機航跡協(xié)同規(guī)劃形成了一個連續(xù)動作空間, 需要尋找優(yōu)化速度較快且適用于大規(guī)模數(shù)據(jù)的函數(shù)逼近器[17], 使群體決策達到最優(yōu)策略. 將深度DDPG算法[19]應(yīng)用于連續(xù)動作空間, 主要由態(tài)勢環(huán)境、經(jīng)驗池、行動者網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)4個部分組成. 其中, 態(tài)勢環(huán)境和經(jīng)驗池的功能分別用于生成和存儲知識, 在不斷與環(huán)境交互的過程中, 無人機系統(tǒng)獲取環(huán)境知識并將其存儲于經(jīng)驗池中以備學(xué)習(xí), 并實時映射于知識庫SD_Net; 行動者網(wǎng)絡(luò)用于確定無人機系統(tǒng)選擇行動的概率, 當無人機與環(huán)境交互時, 它會根據(jù)行動者網(wǎng)絡(luò)選擇行動; 評論家網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)評估無人機系統(tǒng)選擇的操作, 行動者網(wǎng)絡(luò)基于評估修改選擇行動的概率. 為使行動者網(wǎng)絡(luò)更具穩(wěn)定性, 在行動者網(wǎng)絡(luò)的輸出中加入了探測噪聲Nt,即樣本大小, 使每個動作為at=μ(st|θμ)+Nt, 其中θμ表示在行為者網(wǎng)絡(luò)中顯示評論家網(wǎng)絡(luò)的參數(shù), 行為者網(wǎng)絡(luò)通過策略梯度近似計算評論家網(wǎng)絡(luò)參數(shù):
其中, θQ表示行動者網(wǎng)絡(luò)中評估參數(shù), 通過最小化損失函數(shù)更新評估參數(shù):
其中, θQ為評論家網(wǎng)絡(luò)中的目標網(wǎng)絡(luò),N為學(xué)習(xí)經(jīng)驗數(shù)量.評論家網(wǎng)絡(luò)的參數(shù)更新方法采用軟更新的方法來提高訓(xùn)練的穩(wěn)定性θ′←τθ+(1-τ)θ′, τ ∈[0,1]用于確定更新程度.
為提高訓(xùn)練效率, 將意義接受性學(xué)習(xí)理論(meaningful receptive learning, MRL)[20]引入?yún)f(xié)同任務(wù)規(guī)劃的學(xué)習(xí)訓(xùn)練中, 其原理是將無人機所需學(xué)習(xí)的態(tài)勢環(huán)境內(nèi)容與SD_Net中的背景知識和概念層次進行關(guān)聯(lián).
首先, 設(shè)計一個知識相關(guān)性函數(shù)fr(s)評估當前狀態(tài)與知識庫SD_Net中知識的相關(guān)性.
其中,Dmaximum為無人機與環(huán)境中目標之間的理論最大距離, ρ1、 ρ2和 ρ3為常數(shù). 首先, 在每個時間步長, 計算群體決策知識的相關(guān)性, 將其存儲于知識庫SD_Net中, 篩選出與當前學(xué)習(xí)狀態(tài)最相關(guān)的知識用于任務(wù)規(guī)劃. 然后,按照DDPG算法的時序差分差錯(temporal difference error, TD-error)[21], 來評估評論家網(wǎng)絡(luò)的目標網(wǎng)與行動者的行動網(wǎng)之間的差異, 選擇與當前狀態(tài)最相似的知識. 最后, 采用先學(xué)習(xí)后選擇動作方式輸出最優(yōu)策略.如圖5所示, 以二維離散場景為例, 無人機在當前時間步長有左轉(zhuǎn)一定角度a1、前進a2、右轉(zhuǎn)一定角度a3等3個離散動作可供選擇. 假設(shè)在當前狀態(tài)s下, 神經(jīng)網(wǎng)絡(luò)將輸出動作a1, 這將導(dǎo)致任務(wù)失敗. 在每個學(xué)習(xí)時間步驟, DDPG算法會根據(jù)當前狀態(tài)選擇一個動作a2并執(zhí)行, 在調(diào)整學(xué)習(xí)和動作選擇的順序后, 本文所提算法根據(jù)當前狀態(tài)s選擇最適合學(xué)習(xí)的經(jīng)驗, 在學(xué)習(xí)過程結(jié)束后, 神經(jīng)網(wǎng)絡(luò)的參數(shù)會發(fā)生一定程度的變化,由于學(xué)習(xí)到的知識是與狀態(tài)s相似的經(jīng)驗, 參數(shù)更新后的神經(jīng)網(wǎng)絡(luò)輸出a3, 使無人機能夠安全避開威脅區(qū)域.
圖5 知識相關(guān)性學(xué)習(xí)
在每個時間步長t中, 計算每個狀態(tài)st的經(jīng)驗相關(guān)性函數(shù)fr(st), 將其存儲于知識庫SD_Net中, 提出基于決策知識學(xué)習(xí)的深度確定性策略梯度算法(knowledge learning decision-PPDG, KLD-PPDG). 其過程是知識庫SD_Net中的知識結(jié)構(gòu)從 (st,at,rt,st+1,E,I,)變化為(st,at,rt,st+1,E,I,fr(st)), 在每個時間步長t中, 根據(jù)知識庫中每個知識選擇當前狀態(tài)Nt個知識(si,ai,ri,si+1,E,I,fr(si))i=1,2,···,Ntd進行排序; 然后, 根據(jù)每個采樣經(jīng)驗的當前狀態(tài)fr(st)和fr(si), 形成一個最小值閾△fr=|fr(st)-fr(si)|, 根據(jù)TD-error的δi更新這些知識選擇概率; 最后, 這些知識用于更新網(wǎng)絡(luò)的參數(shù). 具體算法如算法1所示.
算法1. KLD-PPDG 1.初始化知識庫容量D, 無人機數(shù)量N, 樣本大小Nt, 重播周期K, 訓(xùn)練集M, 以及范例α和β;Q(s,a|θQ) μ(s|θμ)θQ θμ 2.隨機初始化評論家網(wǎng)絡(luò) 和行動者網(wǎng)絡(luò) , 它們的權(quán)重分別為 和 ;Q′ μ′ θQ′←θQ θμ′←θμ 3.初始化目標網(wǎng)絡(luò)和 , 權(quán)重分別為 和 ;
4.初始化經(jīng)驗池R;5.for 集合=1, M do 6. 初始化一個隨機進程N進行動作探索;7. 接收初始觀察狀態(tài)s1并設(shè)置p1 =1;8. for t=1, T do fr(st)9. 計算經(jīng)驗相關(guān)值 ;10. if t=0 mod K then i~P(i)=pαi/∑jpαj Nt(si,ai,ri,si+1,E,I,fr(si))i=1,2,···,Ntd 11. 根據(jù)樣本概率 , 取樣 個經(jīng)驗;fr(st) fr(si)Δfr=|fr(st)-fr(si)|12. 根據(jù)每個采樣經(jīng)驗的當前狀態(tài)和 , 形成一個最小值閾 ;ωi=(D·P(i))-β/maxjωj 13. 計算重要性采樣權(quán)重 , 根據(jù)式(4)設(shè)置yi=r(si,ai)+γQ′(si+1,μ′(si+1|θμ′)|θQ′)δi=yi-(si,ai|θQ)14. 計算TD-error值 ;pi←|δi|15. 更新知識優(yōu)先值 , 通過式(1)計算獎勵值R, 通過式(2)最小化損失函數(shù)更新評價網(wǎng)絡(luò)的參數(shù), 通過策略梯度近似評估行動者網(wǎng)絡(luò)參數(shù)式(3);16. 更新目標網(wǎng)絡(luò)θQ′←τθQ+(1-τ)θQ′θμ′←τθμ+(1-τ)θμ′17. endif at=μ(st|θμ)|si+Nt π*=argmax a∈A Q*(s,a)18. 基于當前策略和探測噪聲選擇動作 ; 產(chǎn)生最優(yōu)策略 ;at rt st 18. 執(zhí)行動作 并觀察獎勵值 和下一個狀態(tài) ;(st,at,rt,st+1,fr(st))19. 存儲 至SD_Net中;20. endfor 21.endfor
KLD-PPDG算法利用MRL理論計算連續(xù)知識相關(guān)性選擇適合不同時間的學(xué)習(xí)知識, 還調(diào)整算法中學(xué)習(xí)和動作選擇的順序, 增強歷史相關(guān)經(jīng)驗知識對當前狀態(tài)下規(guī)劃決策的影響, 提高算法的收斂速度.
結(jié)合軍民融合研究項目, 本文主要通過Netlogo平臺驗證所提出方法的有效性.
航跡規(guī)劃分析的實驗如圖6所示, 采用3臺無人機在某作戰(zhàn)區(qū)域執(zhí)行偵察任務(wù), 在Netlogo中實時導(dǎo)入知識庫SD_Net的概念層次, 針對該區(qū)域的探測雷達和突發(fā)威脅, 描述為馬爾可夫決策過程的行為狀態(tài). 由圖6(a)可知, 生成多條航跡序列點作為歷史航跡經(jīng)驗知識. 由圖6(b)可知, 運行PPDG算法后, 形成的航跡規(guī)劃效果. 由圖6(c)可知, 運行KLD-PPDG算法后, 3臺無人機從各初始位置觸發(fā), 將無人機所需學(xué)習(xí)的態(tài)勢環(huán)境內(nèi)容與SD_Net中的背景知識和概念層次進行關(guān)聯(lián), 然后以先學(xué)習(xí)后動作方式, 執(zhí)行每個航跡序列點上的狀態(tài)轉(zhuǎn)移和TD-error計算, 重復(fù)以上過程, 使知識得到充分利用, 最終形成一個最優(yōu)的軌跡規(guī)劃策略.
圖6 航跡規(guī)劃結(jié)果
(1)航跡綜合協(xié)同評價[22]
航跡綜合協(xié)同評價指標是測量多無人機協(xié)同規(guī)劃的重要評價指標, 對于任務(wù)區(qū)域和威脅區(qū)域的不斷, 使無人機航跡序列點在KDL-PPDG學(xué)習(xí)過程中不斷更新迭代, 引入航跡綜合協(xié)同評價指標[4]說明本文所提KDL-PPDG方法在航跡協(xié)同規(guī)劃中群體決策的性能.如圖7所示, 3臺無人機任務(wù)航跡協(xié)同綜合評價變化曲線, 在實時復(fù)雜的探測雷達和突發(fā)威脅環(huán)境態(tài)勢下, 其航跡綜合協(xié)同評價指標(圖7(a))和單個無人機的協(xié)同評價指標(圖7(b)), 在迭代至50次時其航跡代價值差距逐步變小且趨于收斂穩(wěn)定, 這說明對于真實環(huán)境信息的感知, 每臺無人機在經(jīng)過多次知識學(xué)習(xí)后, 目標航跡序列點上的狀態(tài)和動作選擇趨于最優(yōu). 主要是由于本文方法在初始階段構(gòu)建了一個決策知識庫SD_Net,體現(xiàn)了決策知識對航跡規(guī)劃的優(yōu)勢, 使用TD-error對知識相關(guān)性進行評估, 以更新目標網(wǎng)絡(luò)策略的方式, 不斷更新知識庫中的知識, 得到最優(yōu)航跡規(guī)劃的策略.
圖7 任務(wù)航跡代價變化曲線
(2)平均獎勵比較[19]
為進一步說明KLD-PPDG算法在航跡規(guī)劃的有效性, 與現(xiàn)有遺傳算法(GA)、粒子群算法(PSO)、PPDG算法進行性能比較. 性能比較平臺利用Matlab對數(shù)據(jù)進行編程, 形成各方法的導(dǎo)入壓縮包, 從深度強化學(xué)習(xí)的獎勵值這個指標衡量不同方法下的航跡規(guī)劃效果.深度強化學(xué)習(xí)的獎勵值描述了在無人機群體決策過程中對威脅區(qū)域的避障效果, 表示為多臺無人機在每個計算迭代次數(shù)內(nèi)遵循最優(yōu)策略所獲得的平均獎勵. 由圖8可知, 本文所提KLD-PPDG算法在500以內(nèi)的迭代次數(shù)時, 其平均獎勵值時會出現(xiàn)微小的振幅, 這有利于算法跳出局部最優(yōu)解區(qū)域, 在第500次迭代后平均獎勵值迅速提高, 并于3 500次迭代后逐步收斂穩(wěn)定,獎勵值固定在16附近, 這種情況主要受益于PPDG中行動者網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的相互作用, 使目標網(wǎng)絡(luò)逐步靠近最優(yōu)策略, 同時引入MRL知識相關(guān)性計算, 使無人機遇到威脅區(qū)域后采用先學(xué)習(xí)后動作的方式成功規(guī)劃出新的航跡知識, 這種規(guī)劃調(diào)整方式使無人機在當前狀態(tài)下基于知識庫歷史經(jīng)驗做出更好的決策, 加強當前狀態(tài)與知識庫的聯(lián)系, 提高算法的收斂速度. 而PSO算法在雖然在獎勵最優(yōu)值方面靠近KLD-PPDG算法, 擺脫了局部最優(yōu)困擾, 但隨著迭代次數(shù)的增加,其值不穩(wěn)定; GA算法則由于采用啟發(fā)式的方式進行航跡序列點計算, 計算空間較大, 導(dǎo)致平均獎勵值的振幅較大且在短時間內(nèi)無法穩(wěn)定.
圖8 平均獎勵比較
本文在分析馬爾科夫決策過程的行為狀態(tài)變化的基礎(chǔ)上, 提出了基于決策知識學(xué)習(xí)的深度確定性策略梯度算法, 與其他基于深度學(xué)習(xí)的多無人機航跡協(xié)同任務(wù)規(guī)劃研究不同的是, 本文將決策知識庫作為深度學(xué)習(xí)經(jīng)驗池的知識儲備, 態(tài)勢環(huán)境和經(jīng)驗池的功能分別用于生成和存儲知識, 并將意義接受性學(xué)習(xí)理論引入?yún)f(xié)同任務(wù)規(guī)劃的學(xué)習(xí)訓(xùn)練中, 以增強決策知識的相關(guān)性學(xué)習(xí)能力. 但無人機群體航跡協(xié)同規(guī)劃是一個復(fù)雜的大規(guī)模優(yōu)化問題, 當無人機數(shù)量較大時會出現(xiàn)連續(xù)空間不穩(wěn)定現(xiàn)象, 下一步將充分考慮空間和時序的約束, 進一步優(yōu)化領(lǐng)域情景知識, 從多維空間數(shù)據(jù)展開研究.