• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于深度強(qiáng)化學(xué)習(xí)的協(xié)同通信干擾決策算法

    2022-07-02 06:22:02宋佰霖齊子森
    電子學(xué)報 2022年6期
    關(guān)鍵詞:決策協(xié)同動作

    宋佰霖,許 華,齊子森,饒 寧,彭 翔

    (空軍工程大學(xué)信息與導(dǎo)航學(xué)院,陜西西安 710077)

    1 引言

    在通信對抗領(lǐng)域,體系對抗、協(xié)同干擾已成為主要作戰(zhàn)運用方式,如何調(diào)配干擾資源、在最大程度上提高資源利用率是當(dāng)前亟須解決的重要難題,給指揮決策帶來巨大挑戰(zhàn). 一些基于博弈論[1]、隨機(jī)理論[2]等方法的認(rèn)知無線電干擾[3]決策研究取得了一定進(jìn)展,這些研究通過設(shè)置干擾雙方對抗場景,推導(dǎo)博弈收益函數(shù),計算干擾樣式、功率等干擾參數(shù)來得到最優(yōu)干擾策略. 此類方法雖能輸出較好結(jié)果,但適用場景較為簡單,無法滿足當(dāng)前多維協(xié)同的戰(zhàn)場環(huán)境,與實際作戰(zhàn)使用仍有較大差距.

    近年來,基于人工智能技術(shù)的認(rèn)知電子戰(zhàn)相關(guān)研究取得了較大突破,智能干擾決策是其中關(guān)鍵一環(huán),一般采用基于深度強(qiáng)化學(xué)習(xí)技術(shù)實現(xiàn)智能決策. 深度強(qiáng)化學(xué)習(xí)是一種通過智能體與環(huán)境交互、神經(jīng)網(wǎng)絡(luò)擬合輸出動作方案、環(huán)境反饋引導(dǎo)網(wǎng)絡(luò)訓(xùn)練更新、使評價收益值最大的一種機(jī)器學(xué)習(xí)方法,能夠在無先驗信息或先驗信息較少的情況下通過交互學(xué)習(xí)給出較優(yōu)的決策結(jié)果,廣泛應(yīng)用于戰(zhàn)場資源優(yōu)化[4]、指揮協(xié)同控制[5]等軍事智能領(lǐng)域. 在通信干擾決策方面,文獻(xiàn)[6]建立多臂賭博機(jī)模型,建立誤碼率曲線字典,通過字典采樣并經(jīng)過算法計算,干擾機(jī)可以構(gòu)造出與實際曲線相似的誤碼率曲線,在3 次交互作用下學(xué)習(xí)最優(yōu)干擾策略;文獻(xiàn)[7]同樣應(yīng)用多臂賭博機(jī)模型,通過決策干擾信號樣式、數(shù)據(jù)包發(fā)送指令以及功率等級等物理層參數(shù),得到最高效功率分配的干擾方案;文獻(xiàn)[8]為解決強(qiáng)化學(xué)習(xí)算法在干擾決策中收斂速度慢的問題,通過等效參數(shù)建模,降維干擾參數(shù)選擇搜索空間,加入以往的干擾經(jīng)驗信息,在縮短系統(tǒng)學(xué)習(xí)時間的同時輸出最佳干擾策略;文獻(xiàn)[9]基于整體對抗思想提出基于自舉專家軌跡分層強(qiáng)化學(xué)習(xí)的干擾資源分配決策算法(Bootstrapped expert trajectory memory replay-Hierarchical reinforce?ment learning-Jamming resources distribution decision-Making algorithm,BHJM),能夠在干擾資源不足的條件下優(yōu)先干擾威脅等級較高的跳頻通信目標(biāo),并輸出資源利用率最高的干擾方案. 然而以上研究都是針對某種信號體制或單個干擾站給出優(yōu)化后的干擾方案,無法解決協(xié)同干擾決策及資源分配問題.

    本文為解決協(xié)同電子戰(zhàn)的干擾決策問題,首先構(gòu)建“整體優(yōu)化、逐站決策”的協(xié)同決策模型,為算法提供決策環(huán)境;而后基于深度強(qiáng)化學(xué)習(xí),在Actor-Critic 算法架構(gòu)下提出一種融合優(yōu)勢函數(shù)的協(xié)同干擾決策算法(Advantage Function based Collaborative Jamming Decision-making algorithm,AFCJD),優(yōu)化干擾資源分配方案;此外,在獎勵函數(shù)中引入專家激勵機(jī)制[5],提高算法的探索能力,使算法能夠更快收斂并輸出更優(yōu)的干擾方案;最后,仿真實驗結(jié)果表明,本文算法給出的干擾方案能夠?qū)崿F(xiàn)對干擾資源的最優(yōu)利用,并大幅提高決策效率.

    2 系統(tǒng)模型

    圖1 所示為一個典型地空通信對抗場景,敵方由一架預(yù)警機(jī)指揮多架殲擊機(jī)執(zhí)行突防任務(wù),干擾方在多個陣地上分布式設(shè)置干擾站,意在通過協(xié)同配合破擊敵方通信體系. 跳頻通信作為抗干擾能力較強(qiáng)的通信手段,是干擾方實現(xiàn)較好干擾效果需要突破的重點和難點問題. 跳頻通信通常采用頻分方式進(jìn)行組網(wǎng),通過在不同網(wǎng)間規(guī)劃多個跳頻頻率集以起到抗干擾通信的戰(zhàn)術(shù)目的. 干擾方通常采用攔阻干擾、梳狀譜干擾、靈巧干擾等手段壓制跳頻信號,其中梳狀譜干擾使用最為廣泛,通過將能量集中在多個干擾譜內(nèi),實現(xiàn)對跳頻頻點的精準(zhǔn)壓制,同時達(dá)到對己方通信影響最小的目的. 假定在準(zhǔn)確偵察到敵通信信道頻率規(guī)劃和使用信息的情況下籌劃干擾方案,偵察分析已對偵收到的跳頻信號進(jìn)行分選,區(qū)分不同信道信號,提高干擾的精準(zhǔn)程度.

    圖1 典型干擾場景

    判斷跳頻信號是否被成功干擾,一般從空域、頻域、能量域3 個角度入手,假定當(dāng)干擾頻率覆蓋跳頻頻率集1/3 以上頻點,且干擾波束內(nèi)存在目標(biāo)、干擾功率滿足干信比壓制條件時,可認(rèn)為干擾有效. 忽略收發(fā)天線不同帶來的極化損失,干信比計算方法可用式(1)表示[9].

    其中,PJ為干擾機(jī)的發(fā)射功率;PS為信號發(fā)射機(jī)的發(fā)射功率;HJ為干擾機(jī)發(fā)射天線與接收天線增益之積;HS為信號發(fā)射機(jī)發(fā)射天線增益與接收天線增益之積;LJ和LS分別為干擾信號和通信信號傳輸?shù)目臻g損耗,用式(2)表示,R(km)為信號傳播距離.

    將式(2)代入式(1)中,可得到干信比的一般計算表示方法,如式(3)所示.

    當(dāng)使用梳狀譜干擾時,能量集中在各個干擾譜帶內(nèi),不考慮帶外能量損失,干信比的計算方法如式(4)所示,當(dāng)干信比大于目標(biāo)壓制系數(shù)時,可認(rèn)為干擾有效.

    在體系電子戰(zhàn)中,干擾資源的不同調(diào)配會對整個體系的干擾效果產(chǎn)生不同影響. 例如部署在不同位置的干擾站針對同一目標(biāo)的干擾可獲得不同干擾效果,或當(dāng)某一干擾站能同時干擾多個目標(biāo)時,干擾不同目標(biāo)也會對其余資源的任務(wù)分配產(chǎn)生影響,所以協(xié)同干擾的難點就在于如何將多個站的干擾資源合理調(diào)配,使其發(fā)揮最大干擾效能. 當(dāng)干擾站對準(zhǔn)多個目標(biāo)時,實際中通常按照目標(biāo)的威脅等級來分配干擾任務(wù),為簡化場景,以站與目標(biāo)間距離遠(yuǎn)近來評判目標(biāo)的威脅等級,距離越近威脅越大,距離越遠(yuǎn)威脅越小,即在對準(zhǔn)多個目標(biāo)的情況下,干擾站優(yōu)先干擾距離最近的目標(biāo). 本文從干擾站的部署位置及干擾目標(biāo)入手,預(yù)先設(shè)置可選陣地,通過改變各干擾站的干擾方向角實現(xiàn)對目標(biāo)的選擇,每個干擾站的部署位置及干擾方向角可稱為其干擾方案,利用算法的訓(xùn)練優(yōu)化輸出資源利用率最高的干擾方案.

    3 融合優(yōu)勢函數(shù)的協(xié)同干擾決策算法

    3.1 算法模型構(gòu)建

    深度強(qiáng)化學(xué)習(xí)通常研究智能體與環(huán)境交互輸出動作,得到環(huán)境反饋的獎勵值,進(jìn)而不斷優(yōu)化動作策略的過程,該過程是序貫決策的且具有馬爾可夫性,一般將其稱為馬爾可夫決策過程(Markov Decision Process,MDP). 基于深度強(qiáng)化學(xué)習(xí)方法研究干擾決策問題,首先需要將干擾決策建模為MDP 模型. 干擾決策實質(zhì)上是針對當(dāng)前目標(biāo)信息給出最優(yōu)干擾方案,需把這一靜態(tài)優(yōu)化場景轉(zhuǎn)化為MDP 具有“交互-執(zhí)行-反饋-環(huán)境變化”特點的動態(tài)決策過程. 協(xié)同決策通常包括逐站決策和多站同時決策兩種模型,一方面逐站決策模型適用于強(qiáng)化學(xué)習(xí)交互、反饋的動態(tài)過程,每一個干擾站決策后,環(huán)境反饋的獎勵值直接反映出該站決策的效果;另一方面當(dāng)干擾站數(shù)量較多、決策維度較大時,多站同時決策模型會難以收斂,而逐站決策模型可通過基于全局最優(yōu)的獎勵函數(shù)設(shè)計實現(xiàn)整體優(yōu)化,受決策維度影響小,決策效率更高,因此在本文要解決的問題中,逐站決策模型更加適用. 模型工作流程如圖2所示.

    圖2 模型工作流程

    本文構(gòu)建“整體優(yōu)化、逐站決策”的協(xié)同決策模型,將每個干擾站都作為獨立的智能體,通過同一決策網(wǎng)絡(luò)分步、順次決策干擾動作,該動作包括干擾站的部署位置及干擾方向角;當(dāng)某個智能體決策完畢后,執(zhí)行其干擾動作,并將因執(zhí)行干擾動作而改變的目標(biāo)信息輸入下一個智能體;采用集中式訓(xùn)練的方法從整體優(yōu)化干擾方案,當(dāng)所有智能體決策完畢后,訓(xùn)練更新決策網(wǎng)絡(luò)的權(quán)值參數(shù),直至收斂. 定義模型所需基本元素如下.

    (1)狀態(tài)空間:假設(shè)某個目標(biāo)跳頻信號未被干擾的頻點數(shù)量為h,定義狀態(tài)空間S=[h1,h2,…,hn],即表示所有目標(biāo)跳頻信號未被干擾的頻點數(shù).

    (2)動作空間:定義決策網(wǎng)絡(luò)輸出動作為A,表示干擾站的布設(shè)陣地及干擾方向角對應(yīng)的干擾動作編碼,如表1 所示. 為降低算法的決策維度,在0°~180°范圍內(nèi)每15°可選擇一個角度作為干擾方向角,可選角度共有11個.

    表1 干擾動作編碼表

    部署陣地D和干擾方向角L可用式(6)和式(7)表示.

    (3)獎勵函數(shù):基于全局最優(yōu)思想設(shè)置獎勵函數(shù),用于表示整體干擾方案的優(yōu)劣程度. 當(dāng)所有跳頻信號全部被干擾時,獎勵值r為80;當(dāng)干擾波束內(nèi)無任何目標(biāo)時,r為-15,否則r為0.

    在強(qiáng)化學(xué)習(xí)問題中,一般只根據(jù)是否完成回合任務(wù)或回合輸贏來判定獎勵值,但這樣會產(chǎn)生稀疏獎勵問題[10],導(dǎo)致決策算法難以收斂. 本文對獎勵函數(shù)進(jìn)行改進(jìn),把專家激勵嵌入獎勵函數(shù)[5]中,在基礎(chǔ)獎勵值rbase(式(8))上加入一個額外的專家激勵值rexp(式(9)),使得rexp能夠不斷引導(dǎo)智能體朝著r累積值最大的方向更新策略;將rbase與rexp數(shù)值相加,即為嵌入專家激勵后的r值.rexp為后續(xù)決策形成專家式引導(dǎo),并對當(dāng)前決策形成內(nèi)部激勵,Ncha表示已被干擾的目標(biāo)數(shù)量,Njam表示當(dāng)前干擾站成功干擾的目標(biāo)數(shù)量,Ncha值不同,得到的rexp值也不同,Ncha越大,表明其越接近干擾全部目標(biāo),rexp值越大,獲得的r(式(10))值也越大. 由于獲得更大r值是智能體的學(xué)習(xí)目標(biāo),所以當(dāng)越接近干擾全部目標(biāo)時,rexp值的激勵作用越強(qiáng),從而形成對智能體決策的專家引導(dǎo).

    每次決策網(wǎng)絡(luò)輸出干擾動作后,根據(jù)環(huán)境給出的反饋獎勵值訓(xùn)練更新網(wǎng)絡(luò)的權(quán)值參數(shù),待當(dāng)前方案可將全部目標(biāo)干擾時或干擾資源用盡后該回合結(jié)束.

    3.2 融合優(yōu)勢函數(shù)的協(xié)同干擾決策算法

    本文提出融合優(yōu)勢函數(shù)的協(xié)同干擾決策算法(AFCJD),該算法采用Actor-Critic 架構(gòu),包括策略執(zhí)行網(wǎng)絡(luò)即Actor 模塊、價值評估網(wǎng)絡(luò)即Critic 模塊、獎勵評估模塊、優(yōu)勢函數(shù)計算模塊和訓(xùn)練優(yōu)化模塊,具體計算流程如圖3所示.

    圖3 AFCJD算法流程圖

    策略執(zhí)行網(wǎng)絡(luò)感知環(huán)境狀態(tài),獲取各目標(biāo)頻點數(shù)信息St,通過網(wǎng)絡(luò)的擬合運算輸出干擾站的干擾動作At,不同的網(wǎng)絡(luò)參數(shù)表示不同策略. 價值評估網(wǎng)絡(luò)估計當(dāng)前策略的優(yōu)劣程度,輸出狀態(tài)St下干擾動作At的價值V(St)和V(St+1),代表策略執(zhí)行網(wǎng)絡(luò)的更新目標(biāo).

    獎勵評估模塊內(nèi)嵌獎勵函數(shù),針對執(zhí)行干擾動作引發(fā)的狀態(tài)改變給出評價,即計算輸出獎勵值r. 算法中引入優(yōu)勢函數(shù)A(St,At)[11],用于表示狀態(tài)St下執(zhí)行某一動作對應(yīng)的價值V(St)相對于價值平均值的大小. 通過將價值歸一化到平均值上,將輸入策略執(zhí)行網(wǎng)絡(luò)的數(shù)據(jù)控制在一定范圍內(nèi),有助于減小方差,提高學(xué)習(xí)效率. 計算式如下:

    訓(xùn)練優(yōu)化模塊對策略執(zhí)行網(wǎng)絡(luò)和價值評估網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練優(yōu)化,定義損失函數(shù)如下:

    式(12)中L(θV)表示價值評估網(wǎng)絡(luò)的損失函數(shù),通過訓(xùn)練不斷提高網(wǎng)絡(luò)對價值評估的精準(zhǔn)程度,給策略執(zhí)行網(wǎng)絡(luò)更精確的訓(xùn)練目標(biāo);式(13)中R(θ)表示策略執(zhí)行網(wǎng)絡(luò)的損失函數(shù),根據(jù)價值評估網(wǎng)絡(luò)輸出的A(St,At;θV)優(yōu)化網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)決策出更優(yōu)的干擾動作.

    AFCJD 算法如算法1所示,算法中策略執(zhí)行網(wǎng)絡(luò)和價值評估網(wǎng)絡(luò)中的隱藏層均使用全連接神經(jīng)網(wǎng)絡(luò),策略執(zhí)行網(wǎng)絡(luò)的輸出層使用Softmax函數(shù)以及價值評估網(wǎng)絡(luò)輸出層無激活函數(shù)外,其余激活函數(shù)均為ReLU函數(shù).

    4 實驗與仿真

    為評估本文所提AFCJD 算法的性能,將其與DQL(Double Q-Learning)算法[12]、DDNN(Deep Deconvolu?tional Neural Network)算法[13]進(jìn)行對比. DQL 算法、DDNN算法在文獻(xiàn)[12]用于抗干擾通信場景中,可將其類比轉(zhuǎn)化為協(xié)同干擾決策算法應(yīng)用在本文模型中. 同時,通過對比AFCJD 算法與無專家激勵獎勵機(jī)制算法的決策效果,來評估專家激勵獎勵機(jī)制對于算法決策性能提升的優(yōu)勢作用.

    4.1 場景及參數(shù)設(shè)置

    算法1 AFCJD算法(1)初始化策略執(zhí)行網(wǎng)絡(luò)和價值評估網(wǎng)絡(luò),權(quán)值參數(shù)分別為θ和θV;(2)設(shè)J為干擾站數(shù)量,W為仿真總回合數(shù);for k=1,2,3,…,W do:for k=1,2,3,…,J do:(3)獲取環(huán)境狀態(tài)St,即各個目標(biāo)信號的跳頻點數(shù);(4)策略執(zhí)行網(wǎng)絡(luò)給出干擾動作At,計算其陣地位置及干擾方向角;(5)執(zhí)行干擾動作,按式(4)計算干擾效果;(6)計算獎勵值r;(7)獲取環(huán)境狀態(tài)St+1;(8)價值評估網(wǎng)絡(luò)估計St的價值V(St)及St+1的價值V(St+1);(9)按式(14)更新價值評估網(wǎng)絡(luò)參數(shù);(10)按式(15)更新策略執(zhí)行網(wǎng)絡(luò)參數(shù);if 目標(biāo)全部被干擾或干擾資源用盡:(11)Break;(12)當(dāng)算法訓(xùn)練至最優(yōu)后,循環(huán)結(jié)束

    根據(jù)通信偵察及各類情報,獲取當(dāng)前空域內(nèi)20 個待干擾目標(biāo),用坐標(biāo)形式粗略表示其空域位置;共使用6個跳頻波道,跳頻點數(shù)分別為30,65,130,65,30,130,具體參數(shù)情況如表2 所示. 根據(jù)長期情報或偵察情報,干擾方已知每個通信目標(biāo)的信號發(fā)射功率為200 W.

    表2 偵察目標(biāo)信息

    現(xiàn)預(yù)設(shè)6 個陣地,其坐標(biāo)為[100,336]、[40,182]、[65,219]、[30,565]、[70,425]、[100,456],共有30個干擾站可供使用,每個干擾站的最大干擾功率為50 kW,最多干擾20 個跳頻頻點,干擾站及待干擾目標(biāo)的位置分布如圖4所示.

    圖4 干擾站及目標(biāo)位置示意圖

    AFCJD 算法的參數(shù)設(shè)置如表3所示,為使算法更好收斂,將學(xué)習(xí)率設(shè)置成梯次變化的形式,表中JS為每300 回合的干擾成功率. 當(dāng)JS大于0.8 時,降低神經(jīng)網(wǎng)絡(luò)的訓(xùn)練頻率,每10 步訓(xùn)練1 次Actor 網(wǎng)絡(luò),每50 步訓(xùn)練1次Critic網(wǎng)絡(luò),降低算法收斂到局部最優(yōu)的概率.

    表3 算法參數(shù)設(shè)置

    4.2 干擾資源利用對比分析

    若某一回合決策出的干擾方案可將全部目標(biāo)信號干擾,則認(rèn)為該方案干擾有效. 用每300 回合的平均方案有效率來表示干擾成功率,當(dāng)干擾成功率達(dá)到100%時認(rèn)為算法收斂至最優(yōu),訓(xùn)練結(jié)束. 首先對比3 種算法的干擾成功率,為提高算法的探索利用效率,可將DQL算法和DDNN算法的可用干擾站數(shù)量提升至35個.

    從圖5 中可以看出,本文提出的AFCJD 算法收斂最快,在14 000 回合左右平均成功率可達(dá)100%,而DDNN 算法和DQL 算法只能在30 000 回合左右收斂至接近100%的干擾成功率. 從干擾成功率的對比可以得出,本文提出的AFCJD 算法收斂最快,能夠在最少的仿真回合內(nèi)給出可用的干擾方案.

    圖5 干擾成功率對比

    取3 種算法每300 回合的平均獎勵值進(jìn)行對比,如圖6 所示,可以看出本文提出的AFCJD 算法從開始訓(xùn)練起獎勵值即較大,在不斷訓(xùn)練過程中逐漸增大至算法收斂停止訓(xùn)練,訓(xùn)練趨勢與干擾成功率的趨勢相似.而其他2 種算法訓(xùn)練初期的平均獎勵值較低,前1 000個回合的均小于0,說明在訓(xùn)練初期算法的性能較差,無法輸出有效方案;與干擾成功率的訓(xùn)練趨勢相似,隨著訓(xùn)練深入,2 種算法的平均獎勵值不斷增大,決策能力逐漸增強(qiáng),直至算法收斂. 從平均獎勵值的對比可以看出,本文AFCJD 算法的決策能力提升較快,決策效率較高,較DDNN算法和DQL算法提高50%左右.

    圖6 平均獎勵值對比

    此處加入基于規(guī)則的決策算法進(jìn)行對比,該算法不依靠任何智能計算方法,按照干擾動作編號順次給干擾站分配干擾動作. 若該動作經(jīng)過計算滿足式(4)的條件,則動作有效并執(zhí)行;否則順次選擇下一動作,直至出現(xiàn)有效動作. 當(dāng)全部目標(biāo)可被干擾時,各站干擾動作的組合即為干擾方案.

    計算每300 回合內(nèi)所有有效干擾方案所需干擾站數(shù)量的平均值,對比不同算法給出方案所需干擾站的數(shù)量如圖7 所示. 從圖7 中可以看出,基于規(guī)則的決策算法給出的干擾方案大約需要28個干擾站能夠?qū)⑺?0 個目標(biāo)全部壓制;而DDNN 算法和DQL 算法收斂后需要大約26 個干擾站可將20 個目標(biāo)全部壓制,本文提出的AFCJD 算法收斂后只需要大約25 個干擾站即可壓制全部目標(biāo). 可以看出,使用智能算法后可以得到節(jié)約干擾資源的干擾方案,且本文AFCJD 算法決策速度更快,決策效率遠(yuǎn)高于另外2種算法.

    圖7 干擾站數(shù)量對比

    隨著訓(xùn)練進(jìn)行,干擾方案也會不斷優(yōu)化,但干擾站數(shù)量的平均值無法體現(xiàn)最優(yōu)干擾方案的資源利用情況,圖8 反映了4 種算法決策出的最優(yōu)方案所需干擾站數(shù)量的對比情況. 其中,AFCJD 算法最少只需要24 個干擾站即可壓制全部目標(biāo),相比于DDNN 算法和DQL算法能夠提高8%的資源利用率. 相比于基于規(guī)則的決策算法,AFCJD 算法能夠提高15%的資源利用率,由于基于規(guī)則的算法無智能計算環(huán)節(jié),所以AFCJD 算法的優(yōu)勢更為明顯,這也說明基于智能算法的協(xié)同干擾決策方法能夠達(dá)到一般算法所達(dá)不到的決策效果.

    圖8 最優(yōu)干擾方案對比

    綜上所述,本文提出的AFCJD 算法相比于DDNN算法和DQL 算法更快收斂到最優(yōu)干擾方案,決策效率提高50%以上;且最優(yōu)方案的資源利用率更高,能夠節(jié)約8%的干擾資源,所以AFCJD 算法對于協(xié)同干擾決策的效果更好.

    此外,本文提出的AFCJD 算法是一種on-policy 算法,能夠直接利用決策網(wǎng)絡(luò)的輸出動作及環(huán)境的反饋獎勵訓(xùn)練網(wǎng)絡(luò);DDNN 算法和DQL 算法屬于DQN 一類的off-policy 算法,需要將每一次決策的狀態(tài)、動作等參數(shù)作為樣本存入經(jīng)驗池,再從經(jīng)驗池采樣訓(xùn)練決策網(wǎng)絡(luò),off-policy一類算法的采樣效率直接決定了算法的有效性及訓(xùn)練效率. 通過上述對比還可以推斷出,AFCJD這種on-policy 算法在干擾決策背景下相比off-policy 一類算法具有更高的決策效率.

    4.3 嵌入式專家激勵獎勵機(jī)制對決策結(jié)果的影響分析

    嵌入式專家激勵獎勵機(jī)制本質(zhì)上也是一種獎勵工程,文獻(xiàn)[10]已經(jīng)證明過這種內(nèi)部激勵能夠突破算法本身的訓(xùn)練邊界,給智能體更多探索環(huán)境信息的空間,提高算法的決策效率. 本文通過對比AFCJD 算法與無專家激勵獎勵機(jī)制算法的決策效果,來說明專家激勵獎勵機(jī)制對于增強(qiáng)算法決策性能的優(yōu)勢作用. 無專家激勵獎勵機(jī)制算法的獎勵函數(shù)與式(8)相同,當(dāng)所有跳頻信號全部被干擾時,獎勵值r為80;當(dāng)干擾波束內(nèi)無任何目標(biāo)時,r為-15,否則r為0.

    如圖9、圖10所示,在前6 000個回合兩種算法的訓(xùn)練趨勢相同,無論是平均干擾成功率還是平均干擾站數(shù)量均在不斷收斂且效果相當(dāng),6 000 回合以后AFCJD算法繼續(xù)收斂直至平均干擾成功率達(dá)到100%. 無專家激勵獎勵機(jī)制的算法在6 000 回合以后收斂速度下降,在18 000 回合成功率達(dá)到90%并在較大范圍內(nèi)振動,無繼續(xù)收斂趨勢. 圖11 所示為無專家激勵獎勵機(jī)制算法的獎勵值變化情況,可以更清晰地看出算法的訓(xùn)練趨勢,在18 000 回合后算法由于探索能力相對較弱無法再決策出獎勵值更高的結(jié)果,并且出現(xiàn)了一小段過擬合現(xiàn)象.

    圖9 干擾成功率對比

    圖10 干擾站數(shù)量對比

    圖11 獎勵值

    綜上所述,相比無專家激勵獎勵機(jī)制的算法,AFCJD 算法具有更強(qiáng)的探索能力,能夠輸出更優(yōu)的決策結(jié)果,訓(xùn)練收斂較快且更穩(wěn)定. 同時可以得出,嵌入式專家激勵獎勵機(jī)制能夠提高算法的探索能力,提高算法的決策能力并提高算法的決策效率.

    5 小結(jié)

    本文針對協(xié)同電子戰(zhàn)中的跳頻通信干擾協(xié)同決策難題,通過構(gòu)建“整體優(yōu)化、逐站決策”的協(xié)同決策模型,基于深度強(qiáng)化學(xué)習(xí)提出一種融合優(yōu)勢函數(shù)的協(xié)同干擾決策算法(AFCJD),并在獎勵函數(shù)中引入專家激勵機(jī)制,進(jìn)一步提高算法性能,使算法能夠給出針對現(xiàn)有目標(biāo)資源利用率最高的干擾方案,并大幅提高決策效率. 仿真結(jié)果表明,AFCJD 算法能夠決策出干擾資源利用率最大的干擾方案,相比于現(xiàn)有智能決策算法,給出的干擾方案能夠節(jié)約8%干擾資源,決策效率提高50%以上;在引入專家激勵獎勵機(jī)制后,AFCJD 算法具有更強(qiáng)的探索能力,訓(xùn)練收斂較快且更穩(wěn)定.

    猜你喜歡
    決策協(xié)同動作
    為可持續(xù)決策提供依據(jù)
    蜀道難:車與路的協(xié)同進(jìn)化
    決策為什么失誤了
    “四化”協(xié)同才有出路
    汽車觀察(2019年2期)2019-03-15 06:00:50
    動作描寫要具體
    畫動作
    動作描寫不可少
    三醫(yī)聯(lián)動 協(xié)同創(chuàng)新
    非同一般的吃飯動作
    協(xié)同進(jìn)化
    露出奶头的视频| 欧美黑人巨大hd| 亚洲av熟女| 国产日本99.免费观看| 中文字幕久久专区| 在线a可以看的网站| 国产真实伦视频高清在线观看 | 免费av不卡在线播放| 日韩欧美精品v在线| 哪里可以看免费的av片| 一级作爱视频免费观看| 脱女人内裤的视频| 色哟哟哟哟哟哟| 久久精品国产亚洲av香蕉五月| 精品免费久久久久久久清纯| 老司机午夜福利在线观看视频| 亚洲国产欧美网| 日本黄大片高清| 欧美午夜高清在线| 性色avwww在线观看| 99热这里只有精品一区| 成年版毛片免费区| www日本黄色视频网| 免费大片18禁| 午夜福利成人在线免费观看| 亚洲国产精品合色在线| 久久99热这里只有精品18| 一夜夜www| 国产视频内射| 国产精品99久久久久久久久| 亚洲成人中文字幕在线播放| 亚洲黑人精品在线| 人妻久久中文字幕网| 特级一级黄色大片| 午夜福利欧美成人| 岛国在线免费视频观看| 日本三级黄在线观看| 又黄又爽又免费观看的视频| 搡女人真爽免费视频火全软件 | 麻豆一二三区av精品| 精品一区二区三区人妻视频| 亚洲精品粉嫩美女一区| av片东京热男人的天堂| 国产精品国产高清国产av| 无遮挡黄片免费观看| 天天添夜夜摸| 日本黄色片子视频| 色老头精品视频在线观看| 丁香欧美五月| 亚洲黑人精品在线| 两个人看的免费小视频| 久久久久久人人人人人| 乱人视频在线观看| 久久久国产成人精品二区| 久久久久免费精品人妻一区二区| 久久人人精品亚洲av| 久久久精品欧美日韩精品| 国产精品美女特级片免费视频播放器| 在线播放无遮挡| 97碰自拍视频| 亚洲七黄色美女视频| 国产成人欧美在线观看| 少妇熟女aⅴ在线视频| 成人三级黄色视频| 69人妻影院| www国产在线视频色| 日本熟妇午夜| 免费av毛片视频| 18禁裸乳无遮挡免费网站照片| 99久久成人亚洲精品观看| 亚洲av二区三区四区| 热99在线观看视频| 免费观看的影片在线观看| 久久国产精品人妻蜜桃| av在线蜜桃| 久久精品影院6| 精品熟女少妇八av免费久了| 9191精品国产免费久久| 最新中文字幕久久久久| 99久久无色码亚洲精品果冻| 精品久久久久久久久久免费视频| 嫩草影视91久久| 淫秽高清视频在线观看| 夜夜夜夜夜久久久久| 国产伦在线观看视频一区| 村上凉子中文字幕在线| 久久精品91无色码中文字幕| 亚洲欧美日韩高清在线视频| 国产三级在线视频| 免费搜索国产男女视频| 夜夜躁狠狠躁天天躁| h日本视频在线播放| 亚洲 国产 在线| 嫩草影视91久久| 又粗又爽又猛毛片免费看| 午夜福利欧美成人| 久久婷婷人人爽人人干人人爱| 亚洲精品粉嫩美女一区| 国内毛片毛片毛片毛片毛片| 老鸭窝网址在线观看| 一级作爱视频免费观看| 亚洲av电影不卡..在线观看| 精品一区二区三区av网在线观看| 色综合婷婷激情| 国产乱人伦免费视频| 久久久久久人人人人人| 国产男靠女视频免费网站| 草草在线视频免费看| 一个人免费在线观看电影| 夜夜夜夜夜久久久久| 国产精品野战在线观看| 日韩欧美国产一区二区入口| 亚洲性夜色夜夜综合| 欧美3d第一页| 欧美日韩福利视频一区二区| 久久久精品大字幕| 好男人电影高清在线观看| 嫩草影院精品99| 少妇的丰满在线观看| 国产成+人综合+亚洲专区| 91av网一区二区| 中亚洲国语对白在线视频| xxx96com| 国内少妇人妻偷人精品xxx网站| 九九热线精品视视频播放| 老司机午夜十八禁免费视频| 熟妇人妻久久中文字幕3abv| 色噜噜av男人的天堂激情| 欧美成人一区二区免费高清观看| 欧美中文综合在线视频| 国产一级毛片七仙女欲春2| 成人特级av手机在线观看| 成年免费大片在线观看| 国产精品亚洲一级av第二区| 床上黄色一级片| 97超级碰碰碰精品色视频在线观看| 亚洲欧美日韩东京热| 搡女人真爽免费视频火全软件 | 欧美精品啪啪一区二区三区| 婷婷六月久久综合丁香| 欧美日韩一级在线毛片| 在线十欧美十亚洲十日本专区| 亚洲美女视频黄频| 国产美女午夜福利| 国产精品99久久99久久久不卡| 国产高清视频在线观看网站| 中出人妻视频一区二区| 欧美日韩黄片免| 听说在线观看完整版免费高清| av片东京热男人的天堂| 亚洲精品在线美女| 观看美女的网站| 亚洲精品乱码久久久v下载方式 | 精品99又大又爽又粗少妇毛片 | 亚洲专区国产一区二区| 天堂√8在线中文| 在线看三级毛片| 欧美日韩瑟瑟在线播放| 床上黄色一级片| 少妇的丰满在线观看| 亚洲专区国产一区二区| 国产精品精品国产色婷婷| 校园春色视频在线观看| 日本免费一区二区三区高清不卡| 中亚洲国语对白在线视频| 99精品在免费线老司机午夜| 亚洲美女黄片视频| 国产精品 国内视频| 夜夜躁狠狠躁天天躁| 亚洲精品一区av在线观看| 日韩av在线大香蕉| 久久久精品大字幕| 男女下面进入的视频免费午夜| 久久午夜亚洲精品久久| 欧美日韩国产亚洲二区| 亚洲av美国av| 国产成人欧美在线观看| 动漫黄色视频在线观看| 日本a在线网址| 亚洲av成人精品一区久久| 99国产极品粉嫩在线观看| 亚洲国产精品成人综合色| 怎么达到女性高潮| 亚洲美女黄片视频| 一级作爱视频免费观看| 在线a可以看的网站| 亚洲无线在线观看| 精品人妻一区二区三区麻豆 | 欧美色视频一区免费| 又黄又粗又硬又大视频| 国产精品一及| 女人被狂操c到高潮| 一区二区三区激情视频| 精品免费久久久久久久清纯| 麻豆一二三区av精品| 一a级毛片在线观看| 日韩亚洲欧美综合| 搞女人的毛片| 亚洲精品国产精品久久久不卡| 色av中文字幕| 国产精品久久久久久亚洲av鲁大| 桃红色精品国产亚洲av| 婷婷亚洲欧美| 最近视频中文字幕2019在线8| 亚洲第一电影网av| 色在线成人网| 欧美日韩一级在线毛片| 熟女电影av网| av视频在线观看入口| 成人一区二区视频在线观看| 午夜免费观看网址| 狂野欧美激情性xxxx| 身体一侧抽搐| 一夜夜www| 夜夜躁狠狠躁天天躁| 丁香欧美五月| 亚洲欧美激情综合另类| 身体一侧抽搐| 嫩草影院入口| 99国产精品一区二区三区| 波多野结衣高清作品| 狂野欧美激情性xxxx| 精品一区二区三区人妻视频| 欧美xxxx黑人xx丫x性爽| netflix在线观看网站| 久久精品国产清高在天天线| 国产日本99.免费观看| 久久香蕉精品热| 极品教师在线免费播放| 亚洲在线观看片| 久久精品国产自在天天线| 欧美日韩一级在线毛片| 欧美+日韩+精品| 男人舔女人下体高潮全视频| 亚洲av一区综合| 夜夜夜夜夜久久久久| 国产激情欧美一区二区| 久久久久久九九精品二区国产| 变态另类丝袜制服| 99热这里只有精品一区| 精品久久久久久,| 精品一区二区三区视频在线 | 欧美色视频一区免费| 99久久九九国产精品国产免费| 国产一区二区亚洲精品在线观看| 久久伊人香网站| 亚洲真实伦在线观看| 午夜免费激情av| 欧美乱色亚洲激情| 亚洲熟妇中文字幕五十中出| 99久久成人亚洲精品观看| 男女午夜视频在线观看| 亚洲人成电影免费在线| 亚洲国产高清在线一区二区三| 免费大片18禁| 免费av观看视频| 美女高潮喷水抽搐中文字幕| 国产高清videossex| 日韩成人在线观看一区二区三区| 国内精品久久久久久久电影| 1000部很黄的大片| 国产亚洲av嫩草精品影院| 天天一区二区日本电影三级| 欧美一区二区国产精品久久精品| 久久久久久久亚洲中文字幕 | 最近最新免费中文字幕在线| 久久精品国产综合久久久| 国产精品免费一区二区三区在线| 法律面前人人平等表现在哪些方面| 97碰自拍视频| 久99久视频精品免费| 九九在线视频观看精品| 欧美黑人巨大hd| 亚洲一区二区三区不卡视频| 久久久国产精品麻豆| 国产aⅴ精品一区二区三区波| 美女大奶头视频| 女警被强在线播放| 三级国产精品欧美在线观看| 18禁裸乳无遮挡免费网站照片| 亚洲最大成人中文| 制服丝袜大香蕉在线| 亚洲av中文字字幕乱码综合| 久久久久久久久久黄片| 精品人妻一区二区三区麻豆 | 亚洲狠狠婷婷综合久久图片| 尤物成人国产欧美一区二区三区| 每晚都被弄得嗷嗷叫到高潮| a在线观看视频网站| 国产免费男女视频| 黄色视频,在线免费观看| 夜夜躁狠狠躁天天躁| 国产免费av片在线观看野外av| 首页视频小说图片口味搜索| 精品人妻1区二区| 在线观看免费午夜福利视频| 亚洲成人免费电影在线观看| 一区二区三区免费毛片| 三级男女做爰猛烈吃奶摸视频| 91在线精品国自产拍蜜月 | 欧美zozozo另类| 9191精品国产免费久久| 中文字幕熟女人妻在线| 少妇的逼水好多| 99精品欧美一区二区三区四区| 亚洲国产中文字幕在线视频| 亚洲片人在线观看| 一卡2卡三卡四卡精品乱码亚洲| 亚洲精品一区av在线观看| 亚洲成人久久爱视频| 亚洲中文字幕日韩| 一本久久中文字幕| 又紧又爽又黄一区二区| 亚洲精华国产精华精| 少妇熟女aⅴ在线视频| 18禁在线播放成人免费| 在线观看舔阴道视频| 国产一区二区在线av高清观看| 国产在线精品亚洲第一网站| 久久中文看片网| 国产单亲对白刺激| 丁香欧美五月| 老司机福利观看| 在线视频色国产色| 久久久国产成人精品二区| 人人妻,人人澡人人爽秒播| 国产欧美日韩一区二区精品| 日韩中文字幕欧美一区二区| 毛片女人毛片| 国产99白浆流出| 黄片大片在线免费观看| 亚洲精品在线美女| 久久午夜亚洲精品久久| 99久久久亚洲精品蜜臀av| 亚洲五月婷婷丁香| 亚洲国产高清在线一区二区三| 中国美女看黄片| 国产精品1区2区在线观看.| 亚洲av第一区精品v没综合| 国产成+人综合+亚洲专区| 国产精品自产拍在线观看55亚洲| 中文资源天堂在线| 欧美性感艳星| 欧美+日韩+精品| 18禁在线播放成人免费| 日韩国内少妇激情av| 少妇裸体淫交视频免费看高清| 亚洲中文日韩欧美视频| 欧美性感艳星| 亚洲va日本ⅴa欧美va伊人久久| 国产精品精品国产色婷婷| 国产亚洲精品综合一区在线观看| 欧美性感艳星| 天天一区二区日本电影三级| 免费搜索国产男女视频| 在线观看66精品国产| 母亲3免费完整高清在线观看| 国产精品一区二区三区四区免费观看 | 桃红色精品国产亚洲av| 欧美日韩黄片免| 久久午夜亚洲精品久久| 国产爱豆传媒在线观看| 无人区码免费观看不卡| 久久久久亚洲av毛片大全| 亚洲成人久久爱视频| 久久久久久九九精品二区国产| 欧美日韩一级在线毛片| 亚洲精品在线观看二区| 久久精品国产99精品国产亚洲性色| av中文乱码字幕在线| 国产中年淑女户外野战色| 亚洲专区中文字幕在线| 99久久精品国产亚洲精品| 国产精品影院久久| 成年免费大片在线观看| 啦啦啦免费观看视频1| 成年女人毛片免费观看观看9| 午夜影院日韩av| 日本黄色片子视频| 国产一区二区在线观看日韩 | 亚洲美女黄片视频| 色av中文字幕| 久久久久久久久大av| 国产综合懂色| 九色成人免费人妻av| 99久久精品一区二区三区| 成人特级av手机在线观看| 亚洲国产欧美网| 最近视频中文字幕2019在线8| 亚洲无线观看免费| 日本a在线网址| 欧美激情久久久久久爽电影| 亚洲精品影视一区二区三区av| 一级黄色大片毛片| 国产精品嫩草影院av在线观看 | 日日摸夜夜添夜夜添小说| 19禁男女啪啪无遮挡网站| 麻豆一二三区av精品| 一个人免费在线观看的高清视频| 国产免费男女视频| 亚洲五月天丁香| 在线观看免费视频日本深夜| 欧美乱妇无乱码| 三级国产精品欧美在线观看| 午夜激情福利司机影院| 丁香欧美五月| av黄色大香蕉| www.999成人在线观看| 国产探花在线观看一区二区| 嫩草影院精品99| 特级一级黄色大片| 亚洲精华国产精华精| 午夜两性在线视频| 在线观看免费午夜福利视频| 亚洲美女黄片视频| 国产成人啪精品午夜网站| 久久久久久久久大av| 亚洲在线观看片| 成年女人永久免费观看视频| 国产亚洲精品av在线| 观看美女的网站| 亚洲色图av天堂| 一边摸一边抽搐一进一小说| 99久久久亚洲精品蜜臀av| 99热6这里只有精品| 女人高潮潮喷娇喘18禁视频| 熟女少妇亚洲综合色aaa.| 婷婷六月久久综合丁香| 国内精品久久久久精免费| 久久久久久国产a免费观看| 中文资源天堂在线| 99久久无色码亚洲精品果冻| 不卡一级毛片| 非洲黑人性xxxx精品又粗又长| 亚洲美女黄片视频| 国内久久婷婷六月综合欲色啪| 欧美黄色片欧美黄色片| 久久久久久久久中文| 欧美日韩乱码在线| 小说图片视频综合网站| 久99久视频精品免费| 欧美日本亚洲视频在线播放| 日韩欧美在线二视频| 黄片小视频在线播放| 国产探花在线观看一区二区| 免费看美女性在线毛片视频| 手机成人av网站| www.www免费av| 夜夜看夜夜爽夜夜摸| 99在线视频只有这里精品首页| 国产精品久久久久久亚洲av鲁大| 欧美日韩亚洲国产一区二区在线观看| 97超视频在线观看视频| 18+在线观看网站| 日日干狠狠操夜夜爽| 久久久久久久午夜电影| 又黄又粗又硬又大视频| 精品久久久久久久末码| 1000部很黄的大片| 女人被狂操c到高潮| 国产伦精品一区二区三区视频9 | avwww免费| av黄色大香蕉| 国产三级黄色录像| 久久精品国产综合久久久| 国产精品久久久久久久久免 | 中文字幕人妻丝袜一区二区| 在线播放无遮挡| 91久久精品国产一区二区成人 | 亚洲av一区综合| 日韩精品中文字幕看吧| 一本一本综合久久| 2021天堂中文幕一二区在线观| 亚洲国产中文字幕在线视频| 哪里可以看免费的av片| 两性午夜刺激爽爽歪歪视频在线观看| 女人十人毛片免费观看3o分钟| 成人高潮视频无遮挡免费网站| 18美女黄网站色大片免费观看| 亚洲一区二区三区色噜噜| 日本一二三区视频观看| 日本黄色视频三级网站网址| 三级毛片av免费| 欧美bdsm另类| 国产成人a区在线观看| 中文字幕熟女人妻在线| 波野结衣二区三区在线 | 九九在线视频观看精品| 在线免费观看不下载黄p国产 | 亚洲美女黄片视频| 日韩欧美国产在线观看| 久久精品综合一区二区三区| 在线十欧美十亚洲十日本专区| 日本一二三区视频观看| 男女午夜视频在线观看| 中文字幕人妻熟人妻熟丝袜美 | 久久久久国产精品人妻aⅴ院| 男人的好看免费观看在线视频| 亚洲 国产 在线| 亚洲avbb在线观看| 十八禁网站免费在线| 91九色精品人成在线观看| 色精品久久人妻99蜜桃| 男人舔奶头视频| 婷婷丁香在线五月| 国产欧美日韩精品亚洲av| 国产精品99久久久久久久久| 午夜福利视频1000在线观看| 村上凉子中文字幕在线| 国产高清三级在线| 免费看美女性在线毛片视频| 亚洲国产高清在线一区二区三| 国产日本99.免费观看| 国产精品久久久人人做人人爽| 真人做人爱边吃奶动态| 嫩草影院入口| 波多野结衣高清无吗| 亚洲avbb在线观看| 国产一区二区激情短视频| 国产精品国产高清国产av| 麻豆成人午夜福利视频| 男人舔女人下体高潮全视频| 日日夜夜操网爽| 性色av乱码一区二区三区2| 国产亚洲精品久久久久久毛片| 黄色片一级片一级黄色片| 久久亚洲精品不卡| 一区二区三区国产精品乱码| 午夜福利在线观看吧| 91字幕亚洲| 欧美国产日韩亚洲一区| 国产一区二区三区在线臀色熟女| 女同久久另类99精品国产91| x7x7x7水蜜桃| 免费av毛片视频| 在线播放无遮挡| 国产成人影院久久av| 国产精品久久久久久亚洲av鲁大| 国产在视频线在精品| 90打野战视频偷拍视频| 国语自产精品视频在线第100页| av女优亚洲男人天堂| 男人舔女人下体高潮全视频| 真人做人爱边吃奶动态| 国产精品久久视频播放| 女人高潮潮喷娇喘18禁视频| 国产高清三级在线| 精品免费久久久久久久清纯| 国产高潮美女av| 99热这里只有精品一区| 久久久久久大精品| 国产精品1区2区在线观看.| x7x7x7水蜜桃| 日韩欧美三级三区| 亚洲va日本ⅴa欧美va伊人久久| 亚洲欧美日韩高清专用| 久久精品国产自在天天线| 国产精品野战在线观看| 一区二区三区免费毛片| 2021天堂中文幕一二区在线观| xxx96com| 欧美成人性av电影在线观看| 日本免费一区二区三区高清不卡| 亚洲第一电影网av| 99国产综合亚洲精品| 亚洲精品在线美女| 午夜福利成人在线免费观看| 色综合站精品国产| 久久国产精品影院| 亚洲欧美激情综合另类| 欧美黄色片欧美黄色片| 国内精品一区二区在线观看| 51国产日韩欧美| 色综合亚洲欧美另类图片| 18+在线观看网站| 国产精华一区二区三区| eeuss影院久久| av专区在线播放| 在线观看午夜福利视频| 日韩成人在线观看一区二区三区| 免费在线观看日本一区| 免费人成视频x8x8入口观看| 伊人久久大香线蕉亚洲五| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 搡老妇女老女人老熟妇| 两个人的视频大全免费| 成人18禁在线播放| 超碰av人人做人人爽久久 | 性色avwww在线观看| 日韩欧美精品v在线| 99精品在免费线老司机午夜| 久久精品91无色码中文字幕| 色在线成人网| 成人欧美大片| 国产精品久久视频播放| 无遮挡黄片免费观看| av专区在线播放| 18禁裸乳无遮挡免费网站照片| 丁香欧美五月| 中文字幕高清在线视频| 十八禁人妻一区二区| 国产真人三级小视频在线观看| av专区在线播放| 高清毛片免费观看视频网站| 3wmmmm亚洲av在线观看| 午夜视频国产福利| 久久性视频一级片| 久久精品国产自在天天线| 欧美高清成人免费视频www| 欧美乱妇无乱码| 久久亚洲精品不卡| 国产精品亚洲美女久久久| 日韩有码中文字幕| 亚洲激情在线av| 亚洲va日本ⅴa欧美va伊人久久|