• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策知識學(xué)習(xí)的多無人機航跡協(xié)同規(guī)劃①

    2022-08-25 02:51:32劉麗華杜溢墨陳麗娜
    計算機系統(tǒng)應(yīng)用 2022年8期
    關(guān)鍵詞:航跡知識庫決策

    曾 熠, 劉麗華, 李 璇, 杜溢墨, 陳麗娜

    1(解放軍31008部隊, 北京 100091)

    2(國防科技大學(xué) 系統(tǒng)工程學(xué)院, 長沙 410073)

    航跡協(xié)同規(guī)劃[1]是實現(xiàn)多無人機自主行為導(dǎo)航與控制的關(guān)鍵技術(shù), 也是對環(huán)境感知決策的具體體現(xiàn)形式, 其目的是規(guī)劃出最優(yōu)的航跡策略, 以解決目標搜索、飛行避碰、編隊控制等問題. 現(xiàn)有關(guān)于航跡協(xié)同規(guī)劃方法主要有啟發(fā)式方法[2]、Voronoi方法[3]、遺傳算法[4]、粒子群算法[5]等, 由于外界復(fù)雜環(huán)境影響, 行為變化的不確定性對航跡規(guī)劃提出了更高的任務(wù)需求[6,7].

    從無人機群體行為決策[8,9]與狀態(tài)變化的內(nèi)在驅(qū)動機制看, 復(fù)雜的群體行為通過簡單的局部交互知, 需要遵循一定的標準知識才能保證整個系統(tǒng)可控性. 決策知識[10]是實現(xiàn)自然語言與環(huán)境信息交互的一種接口, 它采用標準化的規(guī)則格式實現(xiàn)機器指令與外界信息的交互理解, 是目前智能機器領(lǐng)域的研究熱點[11]. 文獻[12]采用知識本體的思維構(gòu)建了任務(wù)規(guī)劃的概念層次, 給出了決策知識學(xué)習(xí)在無人機航跡協(xié)同規(guī)劃上的邏輯推理應(yīng)用. 但該方法只描述了外部環(huán)境的概念形式, 缺少對無人機動作和狀態(tài)內(nèi)部驅(qū)動的知識表示. 文獻[13]運用層級式表達方式對無人機環(huán)境信息進行概念抽取, 在航跡序列點位置上部署決策點, 并賦予基于決策樹的知識學(xué)習(xí)方法. 但該方法計算航跡代價較高,容易陷入局部最優(yōu)狀態(tài), 較難保證全局航跡規(guī)劃最優(yōu).文獻[14]使用神經(jīng)網(wǎng)絡(luò)指導(dǎo)無人機建立了一個決策知識框架, 用于推理目標搜索中的環(huán)境知識和狀態(tài), 從而獲得最優(yōu)策略. 但該方法未考慮事件觸發(fā)與系統(tǒng)內(nèi)在關(guān)系, 較難保證任務(wù)背景中的知識學(xué)習(xí)能力[15,16].

    綜上所述, 從信息處理的角度探討性地提出了一種基于決策知識學(xué)習(xí)的多無人機航跡協(xié)同規(guī)劃方法.該方法基于馬爾可夫決策過程, 重點構(gòu)建決策知識庫,形成基于事件觸發(fā)-知識驅(qū)動的群體決策機制, 通過引入意義接受性學(xué)習(xí)理論增強決策知識學(xué)習(xí)的相關(guān)性,以獲取多無人機航跡規(guī)劃的最優(yōu)策略.

    1 系統(tǒng)設(shè)計

    1.1 任務(wù)描述

    多無人機協(xié)同航跡規(guī)劃問題是將每臺無人機同時從不同的起點到相同目的地或偵察點, 生成可行的飛行軌跡, 這些軌跡由一組協(xié)同全局最小代價的優(yōu)化準則和約束條件定義, 包括最小化無人機被摧毀的風(fēng)險,以及無人機內(nèi)外部環(huán)境限制和威脅動態(tài). 如圖1所示,多無人機航跡協(xié)同規(guī)劃任務(wù)描述中, 任務(wù)空間中有3臺無人機和6個威脅區(qū)域以及部分地形障礙, 需要通過系統(tǒng)狀態(tài)不斷調(diào)整優(yōu)化動作, 對每臺無人機形成一個動作序列, 每個動作又形式化表示為協(xié)同決策和任務(wù)優(yōu)化問題.

    圖1 多無人機航跡協(xié)同規(guī)劃任務(wù)描述

    1.2 系統(tǒng)框架

    針對無人機航跡協(xié)同規(guī)劃的連續(xù)動作空間特征,將知識決策框架分為數(shù)據(jù)支持層、模型生成層和策略控制層. 如圖2所示, 它是整個系統(tǒng)的基本框架.

    圖2 基于決策知識學(xué)習(xí)的多無人機航跡協(xié)同規(guī)劃系統(tǒng)框架

    (1)數(shù)據(jù)支持層: 主要將空間數(shù)據(jù)庫的信息和無人機傳感器獲取的環(huán)境信息、威脅信息、歷史經(jīng)驗等進行知識的實例化表示, 對情景任務(wù)進行有效分析, 形成具有圖結(jié)構(gòu)的決策知識庫, 同時賦予了相關(guān)事件屬性、動作模板和關(guān)系條件, 其功能包括事件觸發(fā)、行為動作和狀態(tài)轉(zhuǎn)移等.

    (2)模型生成層: 主要利用馬爾科夫決策過程對無人機群體的狀態(tài)和動作進行建模, 得出最優(yōu)狀態(tài)-動作值, 產(chǎn)生最優(yōu)策略; 通過群體決策機制對無人機當前狀態(tài)、情景和動作進行分析, 形成決策知識與無人機系統(tǒng)的信息交互, 為航跡規(guī)劃的策略控制提供數(shù)據(jù)支撐.

    (3)策略控制層: 主要采用深度確定性策略梯度(deep deterministic policy gradient, DDPG)對當前無人機群體的動作和狀態(tài)進行訓(xùn)練, 通過引入意義接受性學(xué)習(xí)理論, 提出基于知識決策學(xué)習(xí)的深度確定性策略梯度算法, 不斷調(diào)整選擇最優(yōu)策略, 將新的群體協(xié)同決策經(jīng)驗知識映射存儲于至知識庫, 以提高航跡規(guī)劃的準確性.

    2 決策過程

    2.1 基于馬爾科夫的決策過程

    馬爾科夫決策[17]過程對序貫決策問題進行了數(shù)學(xué)定義, 為多無人機決策和任務(wù)優(yōu)化提供了一種端到端的學(xué)習(xí)框架. 根據(jù)馬爾科夫決策過程, 將無人機航跡規(guī)劃表示為一個五元組模型 (S,A,P,R,γ) . 其中,S為無人機在當前航跡序列下可以到達的所有狀態(tài)的集合,A表示無人機可以在環(huán)境中選擇的所有動作的集合,P和R表示從狀態(tài)s到狀態(tài)s′執(zhí)行動作a的概率和獎勵(a∈A且s,s′∈S), γ ∈[0,1]為決定當前或未來獎勵重要性的折扣因素.

    在每個時間步長t, 無人機的狀態(tài)為st,at為無人機在該狀態(tài)下執(zhí)行的動作, 無人機從環(huán)境交互中獲得獎勵rt, 并在下一時間步到達狀態(tài)st+1. 同時, 無人機在每個時間步長選擇的動作由策略集π 決定, 一個包含在策略 π 的元素π (a|s) 表示無人機在某個狀態(tài)s所采取行動a的概率. 在所有策略中, 有一個最優(yōu)策略π*, 當無人機遵循該策略時, 可以獲得最大獎勵Rt, 從步長t的開始時間到結(jié)束時間, 累積獎勵表示為:

    狀態(tài)-動作值函數(shù)Qπ(s,a)計算為Qπ(s,a)=E[Rt|st=s,at=a,π]表示無人機在當前狀態(tài)下執(zhí)行動作的過程. 當執(zhí)行最佳策略π*時 , 則為最優(yōu)狀態(tài)-動作值函數(shù)滿足貝爾曼最優(yōu)性方程[17].

    狀態(tài)-動作值函數(shù)將通過不斷迭代等式最終收斂Q*(s,a) 產(chǎn) 生最優(yōu)策略

    2.2 決策知識庫

    根據(jù)任務(wù)區(qū)域內(nèi)所有實體在空間上的布局, 將區(qū)域內(nèi)的每個實體進行知識表示, 初始化為一個圖形化的決策知識庫SD_Net. 存儲在SD_Net中的每個知識結(jié)構(gòu)對應(yīng)無人機的不同危險程度和航跡序列位置, 其作用是將當前無人機采樣的環(huán)境信息和系統(tǒng)狀態(tài)與知識庫的知識進行信息交互, 供無人機系統(tǒng)學(xué)習(xí)訓(xùn)練.SD_Net的結(jié)構(gòu)為, 其中為概念層次的層次結(jié)構(gòu)分為系統(tǒng)狀態(tài)(由馬爾可夫決策過程生成的狀態(tài)網(wǎng)絡(luò)層次)、觸發(fā)事件(由歷史不確定事件所構(gòu)成的網(wǎng)絡(luò)層次)和環(huán)境知識(由歷史態(tài)勢環(huán)境的背景知識構(gòu)成的網(wǎng)絡(luò)層次);E為鏈接各概念層次的關(guān)系;I為具體的實例, 存儲了所有不同任務(wù)背景下的案例知識;At為馬爾可夫決策過程形成的行為動作和獎勵. SD_Net模型如圖3所示,以Protégé平臺[11]進行構(gòu)建, 封裝為基于SPARQL語言的OWL模型[12], 存有500余個概念層次實體和6 000余個案例知識, 用SWRL調(diào)試分析無人機群體決策的情景分析, 形成決策知識.

    圖3 無人機決策知識庫模型

    知識庫SD_Net作為無人機航跡規(guī)劃的初始規(guī)決策知識, 是當前系統(tǒng)知識認知結(jié)構(gòu)中已有的概念層次,但在動態(tài)任務(wù)的決策過程中由于外部威脅區(qū)域的不確定性, 需要利用當前狀態(tài)和動作不斷進行調(diào)整優(yōu)化, 學(xué)習(xí)到最優(yōu)策略達到航跡規(guī)劃效果.

    2.3 群體決策機制

    無人機群體作為一個行為可控的復(fù)雜系統(tǒng), 在馬爾科夫模型的狀態(tài)和動作基礎(chǔ)上, 關(guān)鍵在于任務(wù)平臺能夠針對特定的觸發(fā)事件, 以決策知識為驅(qū)動, 需要自主進行行為決策與狀態(tài)變化, 因此提出基于事件觸發(fā)-知識驅(qū)動決策機制. 其中, 事件觸發(fā)為無人機外部觸發(fā)條件, 通過事件檢測器對底層數(shù)據(jù)進行事件提取, 與所建立的知識庫進行匹配, 構(gòu)建事件與動作行為的映射關(guān)系. 作為背景知識的一部分, 事件觸發(fā)與任務(wù)區(qū)域的不確定環(huán)境進行交互, 在一定程度上提高了決策過程的可解釋性[18], 同時節(jié)約了存儲和計算資源; 知識驅(qū)動是內(nèi)部驅(qū)動機制, 根據(jù)協(xié)同航跡規(guī)劃需遵循的規(guī)則, 群體行為通過局部交互知識產(chǎn)生, 逐漸擴散到全局知識,以發(fā)現(xiàn)、執(zhí)行和調(diào)整3種動作規(guī)則, 支撐自主行為決策和狀態(tài)變化的概念化、形式化的知識表示, 從而明確任務(wù)空間相關(guān)要素與系統(tǒng)狀態(tài)轉(zhuǎn)移的關(guān)聯(lián)關(guān)系. 如圖4所示, 多臺無人機進入指定任務(wù)區(qū)域執(zhí)行任務(wù), 在情景T的觸發(fā)下產(chǎn)生狀態(tài), 根據(jù)SD_Net知識庫中的概念層次, 分別使用案例規(guī)則知識, 形成不同狀態(tài)下的行為選擇, 從而規(guī)劃出一個連續(xù)動作空間.

    圖4 多無人機決策知識情景分析

    3 航跡規(guī)劃方法

    3.1 深度學(xué)習(xí)框架

    在群體決策的知識分析后, 多臺無人機航跡協(xié)同規(guī)劃形成了一個連續(xù)動作空間, 需要尋找優(yōu)化速度較快且適用于大規(guī)模數(shù)據(jù)的函數(shù)逼近器[17], 使群體決策達到最優(yōu)策略. 將深度DDPG算法[19]應(yīng)用于連續(xù)動作空間, 主要由態(tài)勢環(huán)境、經(jīng)驗池、行動者網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)4個部分組成. 其中, 態(tài)勢環(huán)境和經(jīng)驗池的功能分別用于生成和存儲知識, 在不斷與環(huán)境交互的過程中, 無人機系統(tǒng)獲取環(huán)境知識并將其存儲于經(jīng)驗池中以備學(xué)習(xí), 并實時映射于知識庫SD_Net; 行動者網(wǎng)絡(luò)用于確定無人機系統(tǒng)選擇行動的概率, 當無人機與環(huán)境交互時, 它會根據(jù)行動者網(wǎng)絡(luò)選擇行動; 評論家網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)評估無人機系統(tǒng)選擇的操作, 行動者網(wǎng)絡(luò)基于評估修改選擇行動的概率. 為使行動者網(wǎng)絡(luò)更具穩(wěn)定性, 在行動者網(wǎng)絡(luò)的輸出中加入了探測噪聲Nt,即樣本大小, 使每個動作為at=μ(st|θμ)+Nt, 其中θμ表示在行為者網(wǎng)絡(luò)中顯示評論家網(wǎng)絡(luò)的參數(shù), 行為者網(wǎng)絡(luò)通過策略梯度近似計算評論家網(wǎng)絡(luò)參數(shù):

    其中, θQ表示行動者網(wǎng)絡(luò)中評估參數(shù), 通過最小化損失函數(shù)更新評估參數(shù):

    其中, θQ為評論家網(wǎng)絡(luò)中的目標網(wǎng)絡(luò),N為學(xué)習(xí)經(jīng)驗數(shù)量.評論家網(wǎng)絡(luò)的參數(shù)更新方法采用軟更新的方法來提高訓(xùn)練的穩(wěn)定性θ′←τθ+(1-τ)θ′, τ ∈[0,1]用于確定更新程度.

    3.2 知識相關(guān)性學(xué)習(xí)

    為提高訓(xùn)練效率, 將意義接受性學(xué)習(xí)理論(meaningful receptive learning, MRL)[20]引入?yún)f(xié)同任務(wù)規(guī)劃的學(xué)習(xí)訓(xùn)練中, 其原理是將無人機所需學(xué)習(xí)的態(tài)勢環(huán)境內(nèi)容與SD_Net中的背景知識和概念層次進行關(guān)聯(lián).

    首先, 設(shè)計一個知識相關(guān)性函數(shù)fr(s)評估當前狀態(tài)與知識庫SD_Net中知識的相關(guān)性.

    其中,Dmaximum為無人機與環(huán)境中目標之間的理論最大距離, ρ1、 ρ2和 ρ3為常數(shù). 首先, 在每個時間步長, 計算群體決策知識的相關(guān)性, 將其存儲于知識庫SD_Net中, 篩選出與當前學(xué)習(xí)狀態(tài)最相關(guān)的知識用于任務(wù)規(guī)劃. 然后,按照DDPG算法的時序差分差錯(temporal difference error, TD-error)[21], 來評估評論家網(wǎng)絡(luò)的目標網(wǎng)與行動者的行動網(wǎng)之間的差異, 選擇與當前狀態(tài)最相似的知識. 最后, 采用先學(xué)習(xí)后選擇動作方式輸出最優(yōu)策略.如圖5所示, 以二維離散場景為例, 無人機在當前時間步長有左轉(zhuǎn)一定角度a1、前進a2、右轉(zhuǎn)一定角度a3等3個離散動作可供選擇. 假設(shè)在當前狀態(tài)s下, 神經(jīng)網(wǎng)絡(luò)將輸出動作a1, 這將導(dǎo)致任務(wù)失敗. 在每個學(xué)習(xí)時間步驟, DDPG算法會根據(jù)當前狀態(tài)選擇一個動作a2并執(zhí)行, 在調(diào)整學(xué)習(xí)和動作選擇的順序后, 本文所提算法根據(jù)當前狀態(tài)s選擇最適合學(xué)習(xí)的經(jīng)驗, 在學(xué)習(xí)過程結(jié)束后, 神經(jīng)網(wǎng)絡(luò)的參數(shù)會發(fā)生一定程度的變化,由于學(xué)習(xí)到的知識是與狀態(tài)s相似的經(jīng)驗, 參數(shù)更新后的神經(jīng)網(wǎng)絡(luò)輸出a3, 使無人機能夠安全避開威脅區(qū)域.

    圖5 知識相關(guān)性學(xué)習(xí)

    3.3 算法實現(xiàn)

    在每個時間步長t中, 計算每個狀態(tài)st的經(jīng)驗相關(guān)性函數(shù)fr(st), 將其存儲于知識庫SD_Net中, 提出基于決策知識學(xué)習(xí)的深度確定性策略梯度算法(knowledge learning decision-PPDG, KLD-PPDG). 其過程是知識庫SD_Net中的知識結(jié)構(gòu)從 (st,at,rt,st+1,E,I,)變化為(st,at,rt,st+1,E,I,fr(st)), 在每個時間步長t中, 根據(jù)知識庫中每個知識選擇當前狀態(tài)Nt個知識(si,ai,ri,si+1,E,I,fr(si))i=1,2,···,Ntd進行排序; 然后, 根據(jù)每個采樣經(jīng)驗的當前狀態(tài)fr(st)和fr(si), 形成一個最小值閾△fr=|fr(st)-fr(si)|, 根據(jù)TD-error的δi更新這些知識選擇概率; 最后, 這些知識用于更新網(wǎng)絡(luò)的參數(shù). 具體算法如算法1所示.

    算法1. KLD-PPDG 1.初始化知識庫容量D, 無人機數(shù)量N, 樣本大小Nt, 重播周期K, 訓(xùn)練集M, 以及范例α和β;Q(s,a|θQ) μ(s|θμ)θQ θμ 2.隨機初始化評論家網(wǎng)絡(luò) 和行動者網(wǎng)絡(luò) , 它們的權(quán)重分別為 和 ;Q′ μ′ θQ′←θQ θμ′←θμ 3.初始化目標網(wǎng)絡(luò)和 , 權(quán)重分別為 和 ;

    4.初始化經(jīng)驗池R;5.for 集合=1, M do 6. 初始化一個隨機進程N進行動作探索;7. 接收初始觀察狀態(tài)s1并設(shè)置p1 =1;8. for t=1, T do fr(st)9. 計算經(jīng)驗相關(guān)值 ;10. if t=0 mod K then i~P(i)=pαi/∑jpαj Nt(si,ai,ri,si+1,E,I,fr(si))i=1,2,···,Ntd 11. 根據(jù)樣本概率 , 取樣 個經(jīng)驗;fr(st) fr(si)Δfr=|fr(st)-fr(si)|12. 根據(jù)每個采樣經(jīng)驗的當前狀態(tài)和 , 形成一個最小值閾 ;ωi=(D·P(i))-β/maxjωj 13. 計算重要性采樣權(quán)重 , 根據(jù)式(4)設(shè)置yi=r(si,ai)+γQ′(si+1,μ′(si+1|θμ′)|θQ′)δi=yi-(si,ai|θQ)14. 計算TD-error值 ;pi←|δi|15. 更新知識優(yōu)先值 , 通過式(1)計算獎勵值R, 通過式(2)最小化損失函數(shù)更新評價網(wǎng)絡(luò)的參數(shù), 通過策略梯度近似評估行動者網(wǎng)絡(luò)參數(shù)式(3);16. 更新目標網(wǎng)絡(luò)θQ′←τθQ+(1-τ)θQ′θμ′←τθμ+(1-τ)θμ′17. endif at=μ(st|θμ)|si+Nt π*=argmax a∈A Q*(s,a)18. 基于當前策略和探測噪聲選擇動作 ; 產(chǎn)生最優(yōu)策略 ;at rt st 18. 執(zhí)行動作 并觀察獎勵值 和下一個狀態(tài) ;(st,at,rt,st+1,fr(st))19. 存儲 至SD_Net中;20. endfor 21.endfor

    KLD-PPDG算法利用MRL理論計算連續(xù)知識相關(guān)性選擇適合不同時間的學(xué)習(xí)知識, 還調(diào)整算法中學(xué)習(xí)和動作選擇的順序, 增強歷史相關(guān)經(jīng)驗知識對當前狀態(tài)下規(guī)劃決策的影響, 提高算法的收斂速度.

    4 實驗分析

    結(jié)合軍民融合研究項目, 本文主要通過Netlogo平臺驗證所提出方法的有效性.

    4.1 航跡規(guī)劃分析

    航跡規(guī)劃分析的實驗如圖6所示, 采用3臺無人機在某作戰(zhàn)區(qū)域執(zhí)行偵察任務(wù), 在Netlogo中實時導(dǎo)入知識庫SD_Net的概念層次, 針對該區(qū)域的探測雷達和突發(fā)威脅, 描述為馬爾可夫決策過程的行為狀態(tài). 由圖6(a)可知, 生成多條航跡序列點作為歷史航跡經(jīng)驗知識. 由圖6(b)可知, 運行PPDG算法后, 形成的航跡規(guī)劃效果. 由圖6(c)可知, 運行KLD-PPDG算法后, 3臺無人機從各初始位置觸發(fā), 將無人機所需學(xué)習(xí)的態(tài)勢環(huán)境內(nèi)容與SD_Net中的背景知識和概念層次進行關(guān)聯(lián), 然后以先學(xué)習(xí)后動作方式, 執(zhí)行每個航跡序列點上的狀態(tài)轉(zhuǎn)移和TD-error計算, 重復(fù)以上過程, 使知識得到充分利用, 最終形成一個最優(yōu)的軌跡規(guī)劃策略.

    圖6 航跡規(guī)劃結(jié)果

    4.2 性能分析

    (1)航跡綜合協(xié)同評價[22]

    航跡綜合協(xié)同評價指標是測量多無人機協(xié)同規(guī)劃的重要評價指標, 對于任務(wù)區(qū)域和威脅區(qū)域的不斷, 使無人機航跡序列點在KDL-PPDG學(xué)習(xí)過程中不斷更新迭代, 引入航跡綜合協(xié)同評價指標[4]說明本文所提KDL-PPDG方法在航跡協(xié)同規(guī)劃中群體決策的性能.如圖7所示, 3臺無人機任務(wù)航跡協(xié)同綜合評價變化曲線, 在實時復(fù)雜的探測雷達和突發(fā)威脅環(huán)境態(tài)勢下, 其航跡綜合協(xié)同評價指標(圖7(a))和單個無人機的協(xié)同評價指標(圖7(b)), 在迭代至50次時其航跡代價值差距逐步變小且趨于收斂穩(wěn)定, 這說明對于真實環(huán)境信息的感知, 每臺無人機在經(jīng)過多次知識學(xué)習(xí)后, 目標航跡序列點上的狀態(tài)和動作選擇趨于最優(yōu). 主要是由于本文方法在初始階段構(gòu)建了一個決策知識庫SD_Net,體現(xiàn)了決策知識對航跡規(guī)劃的優(yōu)勢, 使用TD-error對知識相關(guān)性進行評估, 以更新目標網(wǎng)絡(luò)策略的方式, 不斷更新知識庫中的知識, 得到最優(yōu)航跡規(guī)劃的策略.

    圖7 任務(wù)航跡代價變化曲線

    (2)平均獎勵比較[19]

    為進一步說明KLD-PPDG算法在航跡規(guī)劃的有效性, 與現(xiàn)有遺傳算法(GA)、粒子群算法(PSO)、PPDG算法進行性能比較. 性能比較平臺利用Matlab對數(shù)據(jù)進行編程, 形成各方法的導(dǎo)入壓縮包, 從深度強化學(xué)習(xí)的獎勵值這個指標衡量不同方法下的航跡規(guī)劃效果.深度強化學(xué)習(xí)的獎勵值描述了在無人機群體決策過程中對威脅區(qū)域的避障效果, 表示為多臺無人機在每個計算迭代次數(shù)內(nèi)遵循最優(yōu)策略所獲得的平均獎勵. 由圖8可知, 本文所提KLD-PPDG算法在500以內(nèi)的迭代次數(shù)時, 其平均獎勵值時會出現(xiàn)微小的振幅, 這有利于算法跳出局部最優(yōu)解區(qū)域, 在第500次迭代后平均獎勵值迅速提高, 并于3 500次迭代后逐步收斂穩(wěn)定,獎勵值固定在16附近, 這種情況主要受益于PPDG中行動者網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)的相互作用, 使目標網(wǎng)絡(luò)逐步靠近最優(yōu)策略, 同時引入MRL知識相關(guān)性計算, 使無人機遇到威脅區(qū)域后采用先學(xué)習(xí)后動作的方式成功規(guī)劃出新的航跡知識, 這種規(guī)劃調(diào)整方式使無人機在當前狀態(tài)下基于知識庫歷史經(jīng)驗做出更好的決策, 加強當前狀態(tài)與知識庫的聯(lián)系, 提高算法的收斂速度. 而PSO算法在雖然在獎勵最優(yōu)值方面靠近KLD-PPDG算法, 擺脫了局部最優(yōu)困擾, 但隨著迭代次數(shù)的增加,其值不穩(wěn)定; GA算法則由于采用啟發(fā)式的方式進行航跡序列點計算, 計算空間較大, 導(dǎo)致平均獎勵值的振幅較大且在短時間內(nèi)無法穩(wěn)定.

    圖8 平均獎勵比較

    5 結(jié)論與展望

    本文在分析馬爾科夫決策過程的行為狀態(tài)變化的基礎(chǔ)上, 提出了基于決策知識學(xué)習(xí)的深度確定性策略梯度算法, 與其他基于深度學(xué)習(xí)的多無人機航跡協(xié)同任務(wù)規(guī)劃研究不同的是, 本文將決策知識庫作為深度學(xué)習(xí)經(jīng)驗池的知識儲備, 態(tài)勢環(huán)境和經(jīng)驗池的功能分別用于生成和存儲知識, 并將意義接受性學(xué)習(xí)理論引入?yún)f(xié)同任務(wù)規(guī)劃的學(xué)習(xí)訓(xùn)練中, 以增強決策知識的相關(guān)性學(xué)習(xí)能力. 但無人機群體航跡協(xié)同規(guī)劃是一個復(fù)雜的大規(guī)模優(yōu)化問題, 當無人機數(shù)量較大時會出現(xiàn)連續(xù)空間不穩(wěn)定現(xiàn)象, 下一步將充分考慮空間和時序的約束, 進一步優(yōu)化領(lǐng)域情景知識, 從多維空間數(shù)據(jù)展開研究.

    猜你喜歡
    航跡知識庫決策
    為可持續(xù)決策提供依據(jù)
    夢的航跡
    青年歌聲(2019年12期)2019-12-17 06:32:32
    基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
    決策為什么失誤了
    自適應(yīng)引導(dǎo)長度的無人機航跡跟蹤方法
    視覺導(dǎo)航下基于H2/H∞的航跡跟蹤
    高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
    基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
    圖書館研究(2015年5期)2015-12-07 04:05:48
    基于航跡差和航向差的航跡自動控制算法
    位置與方向測試題
    大码成人一级视频| av又黄又爽大尺度在线免费看| 人人妻人人澡人人爽人人夜夜| 婷婷色av中文字幕| 国模一区二区三区四区视频| 久久久成人免费电影| 美女被艹到高潮喷水动态| 欧美 日韩 精品 国产| 极品教师在线视频| 亚洲图色成人| 免费黄色在线免费观看| 自拍欧美九色日韩亚洲蝌蚪91 | 99精国产麻豆久久婷婷| 国产伦精品一区二区三区四那| 国产精品99久久久久久久久| 色综合色国产| 天天一区二区日本电影三级| 老司机影院成人| 少妇裸体淫交视频免费看高清| 成人黄色视频免费在线看| 色5月婷婷丁香| 国产午夜精品一二区理论片| 日韩欧美一区视频在线观看 | 狠狠精品人妻久久久久久综合| 尾随美女入室| 欧美日韩视频精品一区| 欧美bdsm另类| 菩萨蛮人人尽说江南好唐韦庄| 成人国产麻豆网| 久久精品国产亚洲av涩爱| 建设人人有责人人尽责人人享有的 | 午夜激情福利司机影院| 欧美变态另类bdsm刘玥| 久久精品人妻少妇| 欧美性猛交╳xxx乱大交人| 国产精品99久久99久久久不卡 | 国国产精品蜜臀av免费| 亚洲欧美精品自产自拍| 岛国毛片在线播放| 国产伦理片在线播放av一区| 日韩一区二区视频免费看| 欧美老熟妇乱子伦牲交| 熟女人妻精品中文字幕| a级一级毛片免费在线观看| 99热全是精品| 中文字幕亚洲精品专区| 日日啪夜夜爽| 狂野欧美白嫩少妇大欣赏| 免费黄色在线免费观看| 少妇人妻精品综合一区二区| 亚洲国产色片| 国产精品爽爽va在线观看网站| 亚洲自拍偷在线| 熟女电影av网| 亚洲精品日韩av片在线观看| 久久久久久久午夜电影| av在线天堂中文字幕| 国产精品三级大全| 国产精品一及| 少妇的逼好多水| 又大又黄又爽视频免费| 国产精品偷伦视频观看了| 精品人妻视频免费看| 亚洲av日韩在线播放| 亚洲成人av在线免费| 大又大粗又爽又黄少妇毛片口| 在线观看人妻少妇| 婷婷色av中文字幕| 赤兔流量卡办理| 日韩一本色道免费dvd| 色哟哟·www| 视频中文字幕在线观看| 最近中文字幕高清免费大全6| 各种免费的搞黄视频| 婷婷色综合大香蕉| 日日啪夜夜撸| 精品人妻偷拍中文字幕| 一个人看的www免费观看视频| 神马国产精品三级电影在线观看| 大片电影免费在线观看免费| 狂野欧美激情性xxxx在线观看| 国产高清国产精品国产三级 | 免费观看a级毛片全部| 少妇丰满av| 国产伦精品一区二区三区视频9| 久久久亚洲精品成人影院| 男女啪啪激烈高潮av片| 国产免费福利视频在线观看| 成年女人看的毛片在线观看| 大话2 男鬼变身卡| www.av在线官网国产| 成人毛片60女人毛片免费| 只有这里有精品99| 日韩av不卡免费在线播放| 国产成人精品福利久久| 国产一区二区三区综合在线观看 | 久久精品综合一区二区三区| 最近的中文字幕免费完整| 可以在线观看毛片的网站| 久久久久久久久久成人| 小蜜桃在线观看免费完整版高清| 免费看不卡的av| 色5月婷婷丁香| 国产精品99久久久久久久久| 麻豆久久精品国产亚洲av| 99久久中文字幕三级久久日本| 五月玫瑰六月丁香| 日韩三级伦理在线观看| 免费av毛片视频| 啦啦啦在线观看免费高清www| 夫妻午夜视频| 一区二区av电影网| 97人妻精品一区二区三区麻豆| 少妇人妻久久综合中文| 亚洲精品日本国产第一区| 精品久久久久久久人妻蜜臀av| 国内少妇人妻偷人精品xxx网站| 国国产精品蜜臀av免费| 超碰97精品在线观看| 国产毛片a区久久久久| 少妇人妻久久综合中文| 国产av国产精品国产| 下体分泌物呈黄色| 天天躁日日操中文字幕| 性色avwww在线观看| 最近的中文字幕免费完整| 国产精品99久久99久久久不卡 | 99久国产av精品国产电影| 啦啦啦啦在线视频资源| 晚上一个人看的免费电影| 最近的中文字幕免费完整| 国产 精品1| 成年免费大片在线观看| 丝袜脚勾引网站| 高清欧美精品videossex| 久久久久网色| 91狼人影院| 国内揄拍国产精品人妻在线| 简卡轻食公司| 成人亚洲精品av一区二区| 国产一区二区三区综合在线观看 | 亚洲av男天堂| 国产av不卡久久| 日韩三级伦理在线观看| 亚洲欧洲国产日韩| 亚洲精品色激情综合| 久久久精品94久久精品| 欧美一区二区亚洲| 丰满少妇做爰视频| 美女cb高潮喷水在线观看| 一级毛片我不卡| 热99国产精品久久久久久7| 精品99又大又爽又粗少妇毛片| 免费av不卡在线播放| 国产午夜精品久久久久久一区二区三区| 一本色道久久久久久精品综合| 一级片'在线观看视频| 国国产精品蜜臀av免费| 美女cb高潮喷水在线观看| 一级黄片播放器| 在线观看人妻少妇| 亚洲精品亚洲一区二区| 啦啦啦中文免费视频观看日本| 国产在线一区二区三区精| 在线看a的网站| 久久99热这里只有精品18| 嫩草影院精品99| 卡戴珊不雅视频在线播放| 亚洲国产最新在线播放| 人妻系列 视频| 香蕉精品网在线| 久久精品久久久久久久性| 精品99又大又爽又粗少妇毛片| 新久久久久国产一级毛片| 国产探花极品一区二区| 精品国产一区二区三区久久久樱花 | 久久久a久久爽久久v久久| 国产亚洲一区二区精品| 内地一区二区视频在线| 免费看不卡的av| 色网站视频免费| freevideosex欧美| 免费av毛片视频| 综合色丁香网| 91精品伊人久久大香线蕉| 亚洲欧美一区二区三区国产| 国产黄片视频在线免费观看| 男的添女的下面高潮视频| 欧美精品人与动牲交sv欧美| 少妇人妻 视频| 一级二级三级毛片免费看| 亚洲四区av| 欧美高清性xxxxhd video| 亚洲丝袜综合中文字幕| 亚洲国产日韩一区二区| 国产精品偷伦视频观看了| 中文天堂在线官网| 中国三级夫妇交换| 男男h啪啪无遮挡| 国产精品99久久99久久久不卡 | 不卡视频在线观看欧美| 免费人成在线观看视频色| 亚洲欧美成人精品一区二区| 最近中文字幕2019免费版| 国产精品成人在线| 免费av毛片视频| 免费观看性生交大片5| 国产精品99久久99久久久不卡 | 爱豆传媒免费全集在线观看| 免费av不卡在线播放| 91久久精品电影网| 草草在线视频免费看| 日韩成人av中文字幕在线观看| 最近的中文字幕免费完整| 亚洲丝袜综合中文字幕| 久久久久久久久久久免费av| 国产精品成人在线| 18禁裸乳无遮挡动漫免费视频 | 免费看日本二区| 老女人水多毛片| 国产成人freesex在线| 内射极品少妇av片p| 久久亚洲国产成人精品v| 亚洲精品久久久久久婷婷小说| 综合色av麻豆| 三级国产精品片| 高清视频免费观看一区二区| 国产精品成人在线| 天美传媒精品一区二区| 香蕉精品网在线| 99久久九九国产精品国产免费| 久久久久精品久久久久真实原创| 国产免费视频播放在线视频| 中文字幕免费在线视频6| 亚洲色图av天堂| 亚洲伊人久久精品综合| 一区二区三区免费毛片| 国产91av在线免费观看| 99久久九九国产精品国产免费| 九九久久精品国产亚洲av麻豆| 涩涩av久久男人的天堂| 国产亚洲av嫩草精品影院| 熟女人妻精品中文字幕| 亚洲av成人精品一区久久| 老司机影院毛片| 搡女人真爽免费视频火全软件| 日韩成人av中文字幕在线观看| 亚洲国产精品成人久久小说| 亚洲在线观看片| 97在线人人人人妻| 97在线人人人人妻| 伦理电影大哥的女人| 国产亚洲5aaaaa淫片| 亚洲内射少妇av| 日韩亚洲欧美综合| 最近2019中文字幕mv第一页| 久久久久精品性色| 青春草视频在线免费观看| 国产免费一级a男人的天堂| 中文精品一卡2卡3卡4更新| 国产精品熟女久久久久浪| 男女那种视频在线观看| 日本黄大片高清| 大码成人一级视频| 日本欧美国产在线视频| 国产探花在线观看一区二区| 五月开心婷婷网| 国产成人午夜福利电影在线观看| 精品熟女少妇av免费看| 又粗又硬又长又爽又黄的视频| 禁无遮挡网站| 国产大屁股一区二区在线视频| 亚洲av二区三区四区| 国产精品秋霞免费鲁丝片| av国产精品久久久久影院| 各种免费的搞黄视频| 亚洲婷婷狠狠爱综合网| 精品人妻一区二区三区麻豆| 国产精品.久久久| 亚洲天堂av无毛| 超碰av人人做人人爽久久| 少妇熟女欧美另类| 99re6热这里在线精品视频| 成年av动漫网址| 夫妻性生交免费视频一级片| 亚洲自偷自拍三级| 久久精品夜色国产| 天天一区二区日本电影三级| 亚洲综合色惰| 成年人午夜在线观看视频| 日韩在线高清观看一区二区三区| 精华霜和精华液先用哪个| 亚洲国产最新在线播放| 久久精品熟女亚洲av麻豆精品| 亚洲真实伦在线观看| 丝袜美腿在线中文| 亚洲人成网站高清观看| 神马国产精品三级电影在线观看| 久久精品久久精品一区二区三区| 老师上课跳d突然被开到最大视频| 国产高潮美女av| 欧美一区二区亚洲| av线在线观看网站| 欧美精品一区二区大全| 国产精品爽爽va在线观看网站| 国产视频内射| 精品一区二区三卡| 国产永久视频网站| 女人十人毛片免费观看3o分钟| 国产色爽女视频免费观看| 国产黄色免费在线视频| 亚洲国产精品成人综合色| 国产免费又黄又爽又色| av播播在线观看一区| 欧美日韩国产mv在线观看视频 | 97在线人人人人妻| 日韩人妻高清精品专区| 69人妻影院| 在线观看人妻少妇| 国产亚洲5aaaaa淫片| 精品久久久久久久末码| 久久这里有精品视频免费| 美女主播在线视频| 2021少妇久久久久久久久久久| 欧美老熟妇乱子伦牲交| 免费av毛片视频| 久久久久性生活片| 国产伦理片在线播放av一区| 青春草视频在线免费观看| 成年女人看的毛片在线观看| 国产男人的电影天堂91| 水蜜桃什么品种好| 亚洲国产精品999| 日韩欧美精品v在线| 国产国拍精品亚洲av在线观看| 亚洲国产精品成人久久小说| 久久久欧美国产精品| 婷婷色麻豆天堂久久| 久久99热这里只频精品6学生| 婷婷色av中文字幕| 亚洲国产日韩一区二区| www.色视频.com| 一级毛片我不卡| 欧美97在线视频| 2022亚洲国产成人精品| 综合色av麻豆| 熟女人妻精品中文字幕| 亚洲精华国产精华液的使用体验| 街头女战士在线观看网站| 黄色怎么调成土黄色| 九九爱精品视频在线观看| 国产黄片美女视频| 大香蕉久久网| 精品一区二区免费观看| 噜噜噜噜噜久久久久久91| 99热这里只有精品一区| 乱系列少妇在线播放| 国产午夜精品一二区理论片| 国产黄色免费在线视频| 成人漫画全彩无遮挡| 国产乱来视频区| 岛国毛片在线播放| 亚洲欧洲国产日韩| av国产久精品久网站免费入址| 午夜免费观看性视频| 高清在线视频一区二区三区| av福利片在线观看| 九色成人免费人妻av| 日韩一区二区视频免费看| 老女人水多毛片| 制服丝袜香蕉在线| 搡老乐熟女国产| 女的被弄到高潮叫床怎么办| 伊人久久精品亚洲午夜| 国内揄拍国产精品人妻在线| 五月天丁香电影| 久久精品国产亚洲av涩爱| 国产成人免费观看mmmm| 在线免费观看不下载黄p国产| 不卡视频在线观看欧美| 一级毛片 在线播放| 最近的中文字幕免费完整| 尤物成人国产欧美一区二区三区| 午夜精品一区二区三区免费看| 男的添女的下面高潮视频| 观看美女的网站| 熟妇人妻不卡中文字幕| 国内精品美女久久久久久| 嫩草影院精品99| 免费黄频网站在线观看国产| 亚洲精品乱码久久久久久按摩| 久久人人爽av亚洲精品天堂 | 一级毛片我不卡| 天堂网av新在线| 91aial.com中文字幕在线观看| 午夜亚洲福利在线播放| 一级爰片在线观看| 精品熟女少妇av免费看| 舔av片在线| 久热久热在线精品观看| 一级毛片黄色毛片免费观看视频| 久久久精品欧美日韩精品| 亚洲av不卡在线观看| 成人亚洲精品一区在线观看 | 欧美日韩一区二区视频在线观看视频在线 | 亚洲天堂av无毛| 一区二区三区乱码不卡18| 日日摸夜夜添夜夜添av毛片| 久久久久久久久大av| 建设人人有责人人尽责人人享有的 | 亚洲精品久久久久久婷婷小说| 我要看日韩黄色一级片| 久久精品国产鲁丝片午夜精品| 2021天堂中文幕一二区在线观| 亚洲综合精品二区| 精品酒店卫生间| 久久综合国产亚洲精品| 97在线人人人人妻| 久久久亚洲精品成人影院| 日本爱情动作片www.在线观看| av黄色大香蕉| 亚洲一区二区三区欧美精品 | 99热这里只有是精品50| 婷婷色麻豆天堂久久| 插阴视频在线观看视频| 人人妻人人爽人人添夜夜欢视频 | 欧美最新免费一区二区三区| 亚洲天堂av无毛| 最近手机中文字幕大全| 国产综合懂色| 汤姆久久久久久久影院中文字幕| 精品久久久精品久久久| 欧美激情国产日韩精品一区| av又黄又爽大尺度在线免费看| 超碰97精品在线观看| 国产女主播在线喷水免费视频网站| 亚洲av电影在线观看一区二区三区 | 国产欧美日韩精品一区二区| 国产精品国产三级专区第一集| 亚洲精品影视一区二区三区av| 欧美一级a爱片免费观看看| 国产 一区精品| 午夜爱爱视频在线播放| 亚洲国产精品999| 看免费成人av毛片| 大片电影免费在线观看免费| 国产视频内射| 欧美日韩一区二区视频在线观看视频在线 | 午夜福利在线在线| 春色校园在线视频观看| 十八禁网站网址无遮挡 | 亚洲久久久久久中文字幕| 国产爱豆传媒在线观看| 国产成人freesex在线| 日本一二三区视频观看| 国产毛片在线视频| 亚洲av.av天堂| 久久久久久久大尺度免费视频| 交换朋友夫妻互换小说| 性色avwww在线观看| 久久久久久久久久成人| 亚洲国产精品专区欧美| 韩国av在线不卡| 夜夜看夜夜爽夜夜摸| 中文精品一卡2卡3卡4更新| 中文字幕免费在线视频6| av网站免费在线观看视频| 丝袜美腿在线中文| 97超碰精品成人国产| 五月玫瑰六月丁香| 久久久久久久久久久丰满| 午夜日本视频在线| 高清欧美精品videossex| 国产精品一区二区在线观看99| av福利片在线观看| 男女国产视频网站| 在线亚洲精品国产二区图片欧美 | 日本黄大片高清| 男女国产视频网站| 亚洲天堂国产精品一区在线| 街头女战士在线观看网站| 日韩亚洲欧美综合| 少妇高潮的动态图| 久久精品综合一区二区三区| 免费观看性生交大片5| 精品久久久久久久人妻蜜臀av| 一本色道久久久久久精品综合| 欧美日韩亚洲高清精品| 麻豆久久精品国产亚洲av| 亚洲婷婷狠狠爱综合网| 中文在线观看免费www的网站| 少妇的逼水好多| 99热网站在线观看| 成人二区视频| 我的老师免费观看完整版| 69av精品久久久久久| 小蜜桃在线观看免费完整版高清| 日韩三级伦理在线观看| 美女视频免费永久观看网站| 亚洲av日韩在线播放| 春色校园在线视频观看| 亚洲丝袜综合中文字幕| 国产精品.久久久| 国产av国产精品国产| 免费看光身美女| 天美传媒精品一区二区| 高清视频免费观看一区二区| 青青草视频在线视频观看| 内射极品少妇av片p| 久久99热这里只频精品6学生| 搞女人的毛片| 最近中文字幕高清免费大全6| 亚洲国产日韩一区二区| 69人妻影院| 精品酒店卫生间| av卡一久久| 色网站视频免费| 久久久久九九精品影院| av.在线天堂| 亚洲精品日本国产第一区| 国产免费一级a男人的天堂| 亚洲国产精品成人久久小说| 成人毛片a级毛片在线播放| 亚洲国产色片| 久久久亚洲精品成人影院| 久久精品国产亚洲网站| 日本与韩国留学比较| 国产精品久久久久久精品古装| 日本色播在线视频| 如何舔出高潮| 精品国产三级普通话版| av卡一久久| 尤物成人国产欧美一区二区三区| 欧美日韩精品成人综合77777| 成年免费大片在线观看| 男女边摸边吃奶| 亚洲国产最新在线播放| 夫妻性生交免费视频一级片| 国精品久久久久久国模美| 久久久久国产网址| 国产高清有码在线观看视频| 欧美日本视频| 色哟哟·www| 久久久久久久亚洲中文字幕| 男女下面进入的视频免费午夜| 别揉我奶头 嗯啊视频| 国产精品av视频在线免费观看| 久久99热6这里只有精品| 国产黄频视频在线观看| 国产人妻一区二区三区在| 永久网站在线| 春色校园在线视频观看| 精品国产露脸久久av麻豆| 国产精品久久久久久av不卡| 白带黄色成豆腐渣| 国产精品久久久久久av不卡| 国产久久久一区二区三区| 在线天堂最新版资源| 亚洲国产最新在线播放| 美女脱内裤让男人舔精品视频| 午夜福利视频1000在线观看| 99精国产麻豆久久婷婷| 欧美xxxx黑人xx丫x性爽| 网址你懂的国产日韩在线| 国产高清国产精品国产三级 | 麻豆乱淫一区二区| 神马国产精品三级电影在线观看| 国产美女午夜福利| 久久精品人妻少妇| 秋霞在线观看毛片| 一区二区三区精品91| 免费看日本二区| 成年女人在线观看亚洲视频 | 黄色视频在线播放观看不卡| 国产精品久久久久久久电影| 日本欧美国产在线视频| 日本黄大片高清| 日韩亚洲欧美综合| 亚洲av中文av极速乱| 成年免费大片在线观看| 国产一区二区三区av在线| 亚洲精品中文字幕在线视频 | 91在线精品国自产拍蜜月| 久久鲁丝午夜福利片| 国产黄片视频在线免费观看| 久久久久久久久久成人| 国产黄片视频在线免费观看| 国产精品一区二区三区四区免费观看| 欧美国产精品一级二级三级 | 听说在线观看完整版免费高清| 免费av观看视频| 久久精品久久精品一区二区三区| 欧美高清成人免费视频www| 91久久精品国产一区二区三区| 最近最新中文字幕大全电影3| 国产成人精品婷婷| 日韩欧美一区视频在线观看 | 久久精品久久精品一区二区三区| 免费看不卡的av| 在线观看国产h片| 看黄色毛片网站| 国产高清国产精品国产三级 | 身体一侧抽搐| 亚洲av免费高清在线观看| 欧美日韩一区二区视频在线观看视频在线 | 欧美精品一区二区大全| 国语对白做爰xxxⅹ性视频网站| 99视频精品全部免费 在线| av国产久精品久网站免费入址| 大香蕉久久网| 一二三四中文在线观看免费高清| 久久精品国产亚洲av涩爱| 在线观看国产h片| 亚洲精华国产精华液的使用体验| 激情五月婷婷亚洲|