• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于先驗知識的多功能雷達(dá)智能干擾決策方法

      2022-11-19 06:53:30朱霸坤朱衛(wèi)綱高天昊
      關(guān)鍵詞:步數(shù)先驗收益

      朱霸坤, 朱衛(wèi)綱, 李 偉, 楊 瑩, 高天昊

      (1. 航天工程大學(xué)電子光學(xué)工程系, 北京 101416; 2. 電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點實驗室, 河南 洛陽 471032; 3. 航天工程大學(xué)研究生院, 北京 101416)

      0 引 言

      多功能雷達(dá)是指基于相控陣體制,通過靈活的波形變換和快速的波束掃描來實現(xiàn)多種功能的雷達(dá)系統(tǒng)[1]。多功能雷達(dá)作為一種重要的用頻設(shè)備,被廣泛裝載于軍艦、航母、戰(zhàn)機等重要軍事武器,在情報偵察、目標(biāo)跟蹤、導(dǎo)彈防御等任務(wù)中發(fā)揮著重要的作用。有效地干擾敵方的用頻設(shè)備、削弱其作戰(zhàn)效能是電磁對抗中不懈追求的目標(biāo),干擾策略優(yōu)化是實現(xiàn)這一目標(biāo)的關(guān)鍵環(huán)節(jié)。干擾策略優(yōu)化分為干擾決策和干擾波形優(yōu)化兩個部分,干擾決策主要解決干擾樣式的選取問題,而干擾波形優(yōu)化則是在干擾樣式選取的基礎(chǔ)上進(jìn)一步選擇干擾波形參數(shù)[2]。本文主要研究多功能雷達(dá)干擾決策的相關(guān)問題,具有重要的理論和軍事意義。

      多功能雷達(dá)信號復(fù)雜多變,這給多功能雷達(dá)的干擾決策帶來了困難。針對多功能雷達(dá)的干擾決策問題,學(xué)者們給出了多種解決方案。文獻(xiàn)[3]中,單步雷達(dá)和干擾機被作為博弈對抗的雙方,雷達(dá)的策略為雷達(dá)波形,干擾機的策略為干擾功率譜密度,采用互信息準(zhǔn)則建立效用函數(shù),研究了博弈中納什均衡的存在條件,并在不滿足存在條件的情況下,得出斯塔克爾伯格均衡策略是可以接受的安全策略的結(jié)論。文獻(xiàn)[4-5]中,構(gòu)建了一個多輸入多輸出(multiple input multiple output, MIMO)雷達(dá)和智能干擾機之間的博弈論模型,同樣采用互信息作為效用函數(shù),研究博弈過程中多種情況下的最優(yōu)策略。文獻(xiàn)[6]對博弈論在認(rèn)知雷達(dá)對抗中的應(yīng)用進(jìn)行了綜述,總結(jié)了博弈論在干擾決策、編碼優(yōu)化、波形優(yōu)化等方面的應(yīng)用前景。雷達(dá)與干擾機之間的對抗關(guān)系很容易讓人聯(lián)想到博弈論模型,但是博弈論中策略的求解直接依賴于效用函數(shù),而效用函數(shù)與干擾效果評估直接相關(guān),當(dāng)前的干擾效果評估大都基于雷達(dá)方[7-8],評價指標(biāo)多為互信息、峰均功率比[9]等,在實際的雷達(dá)對抗中獲取此類信息是困難的,所以基于博弈論的干擾決策研究更多的是理論指導(dǎo)意義。除了博弈論之外,支持向量機(support vector machine, SVM)也被用于干擾決策,在文獻(xiàn)[10]中多功能雷達(dá)干擾決策問題被構(gòu)建為一個分類問題,通過SVM直接學(xué)習(xí)雷達(dá)波形參數(shù)到干擾樣式的映射,這樣的干擾決策方法依賴于大量的雷達(dá)信號樣本和干擾樣式標(biāo)簽,訓(xùn)練樣本的可得性有待商榷。此外,文獻(xiàn)[11]中將雷達(dá)對抗的過程描述為一個隨時間變化的動態(tài)貝葉斯網(wǎng)絡(luò),通過從大量的統(tǒng)計樣本中學(xué)習(xí)網(wǎng)絡(luò)模型的參數(shù)來預(yù)測雷達(dá)狀態(tài),進(jìn)而根據(jù)轉(zhuǎn)移概率來完成決策,但動態(tài)貝葉斯網(wǎng)絡(luò)的模型是在已知雷達(dá)狀態(tài)種類的情況下構(gòu)建的,而且模型參數(shù)的學(xué)習(xí)需要大量的統(tǒng)計樣本。

      上文提到的3種多功能雷達(dá)干擾決策方法,基于博弈論的方法、基于SVM的方法和基于動態(tài)貝葉斯網(wǎng)絡(luò)的實現(xiàn)都依賴于一些在實際對抗過程中難以獲得的數(shù)據(jù),如干擾效果評估、雷達(dá)信號樣本和干擾樣式對、雷達(dá)狀態(tài)轉(zhuǎn)移的歷史數(shù)據(jù),因此有必要去探索一種新的不過分依賴數(shù)據(jù)的干擾決策方法。鑒于此,一些學(xué)者提出將強化學(xué)習(xí)用于多功能雷達(dá)干擾決策。強化學(xué)習(xí)作為一種不依賴模型的規(guī)劃和決策手段,目前在游戲[12]、機械控制[13]、任務(wù)規(guī)劃[14-15]、資源管理[16-17]、金融投資[18]等領(lǐng)域取得了不俗的表現(xiàn)。強化學(xué)習(xí)不依賴于先驗的數(shù)據(jù),強調(diào)智能體在與多功能雷達(dá)的對抗中通過學(xué)習(xí)優(yōu)化干擾策略。不僅如此,強化學(xué)習(xí)使用收益作為反饋,成功地避免了干擾評估的難題。文獻(xiàn)[19-21]中,將多功能雷達(dá)與干擾機之間的對抗過程構(gòu)建為馬爾可夫決策過程(Markov decision process, MDP)模型,采用Q-Learning算法進(jìn)行求解,在不依賴于先驗數(shù)據(jù)的情況下得到了最佳的干擾策略。文獻(xiàn)[22]中,則是采用深度Q網(wǎng)絡(luò)(deep Q network, DQN)來求解多功雷達(dá)干擾的MDP問題,討論了干擾過程中的時效性問題?;趶娀瘜W(xué)習(xí)的多功能雷達(dá)干擾決策方法目前還處于發(fā)展階段,還存在一些需要完善的問題,而算法收斂速度慢的問題就是其中之一。收斂速度慢意味著學(xué)習(xí)能力差,學(xué)習(xí)能力差的智能體將難以適應(yīng)瞬息萬變的戰(zhàn)場環(huán)境。

      收斂速度慢并不是多功能雷達(dá)干擾決策中獨有的問題,是一個在強化學(xué)習(xí)應(yīng)用中普遍存在的問題,需要結(jié)合問題中的具體情況采取解決措施。文獻(xiàn)[23]在使用強化學(xué)習(xí)解決焊接機械臂的控制問題中引入了運動學(xué)模塊提供先驗知識,提高了算法的收斂性能。文獻(xiàn)[24]在仿真機器人的控制中,利用一個識別模型進(jìn)行在線訓(xùn)練為智能體提供先驗知識,彌補了物理訓(xùn)練樣本少、效率低的問題。文獻(xiàn)[25]研究了隨機多臂老虎機問題中,針對一個智能體已知近似最平均報酬先驗知識情況,設(shè)計了求解最優(yōu)策略的算法,提高了問題的求解速度。文獻(xiàn)[26]在多機器人編隊隊形保持與協(xié)同避碰問題中,提出了一種基于模型知識和數(shù)據(jù)訓(xùn)練融合的算法,通過較少的訓(xùn)練數(shù)據(jù)就能使智能體達(dá)到極高的工作性能。結(jié)合先驗知識來提升強化學(xué)習(xí)算法的收斂速度是一種十分重要的手段,受到這種想法的啟發(fā),可以利用先驗知識來提升基于強化學(xué)習(xí)的干擾決策算法。

      在本文中,首先將多功能雷達(dá)干擾決策問題定式化為MDP問題,結(jié)合問題的實際定義了先驗知識,然后利用基于勢能函數(shù)的收益塑造理論將先驗知識加入到收益函數(shù)中,針對智能體存在膽怯行為的現(xiàn)象,在收益函數(shù)中加入一個修正函數(shù)項,有效改善了膽怯行為,最終得到了基于先驗知識的多功能雷達(dá)智能干擾決策算法。仿真實驗表明,本文所提算法能極大地提升了算法的收斂速度,對于實現(xiàn)對多功能雷達(dá)快速實時的智能干擾具有重要的意義。

      本文的其他部分組織如下:第1節(jié)介紹了強化學(xué)習(xí)原理和Q-Learning算法。第2節(jié)將多功能功能雷達(dá)干擾決策問題定式化為一個MDP問題。第3節(jié)闡述了基于勢能函數(shù)的收益塑造理論并構(gòu)建基于先驗知識的智能干擾決策算法。第4節(jié)設(shè)計仿真實驗,分析了所提算法的參數(shù)敏感性和算法通用性。第5節(jié)對本文工作進(jìn)行了梳理總結(jié)。

      1 強化學(xué)習(xí)理論

      1.1 強化學(xué)習(xí)

      強化學(xué)習(xí)是目前機器學(xué)習(xí)的熱門領(lǐng)域之一,其特點是允許智能體在環(huán)境中通過試錯的方式學(xué)習(xí)如何動作。在學(xué)習(xí)的過程中,數(shù)值化的收益信號是唯一的反饋,智能體的目標(biāo)是學(xué)習(xí)如何動作才能獲得最大的收益。智能體的設(shè)計者并不會指示智能體每一步的最佳動作,所以智能體需要通過反復(fù)試錯去尋找最佳動作。在大多數(shù)情況下,智能體的動作并不會產(chǎn)生及時的效果,需要等到未來的收益,才能了解動作對環(huán)境造成的影響。這就是強化學(xué)習(xí)的兩大特性:反復(fù)試錯和延遲收益[27]。

      任何強化學(xué)習(xí)問題都有兩個主要組成部分:智能體和環(huán)境。智能體是采取行動的實體,有著明確的目標(biāo),能夠獲取環(huán)境的狀態(tài)并做出決策;環(huán)境是智能體運行的地方,與要解決的問題息息相關(guān)。除了智能體和環(huán)境之外,一個強化學(xué)習(xí)系統(tǒng)還具有4個關(guān)鍵組成部分:收益、策略、動作價值函數(shù)和環(huán)境模型。

      收益由強化學(xué)習(xí)任務(wù)的目標(biāo)定義。智能體的每次動作,環(huán)境都會返回收益,智能體通過收益更新策略以尋求在與環(huán)境的交互中獲得最大的總收益。收益對策略的更新至關(guān)重要,如果當(dāng)前的動作獲得低收益,智能體會抑制該動作;如果當(dāng)前動作獲得高收益,智能體則會增加選擇該動作的幾率。

      收益是來自環(huán)境的即時反饋,而價值函數(shù)則讓智能體有更長遠(yuǎn)的目光,與智能體的行動策略直接相關(guān)。策略是一個從環(huán)境狀態(tài)到動作的映射,直接決定了智能體如何行動。狀態(tài)的價值是可以從該狀態(tài)獲得的總收益,指示一個狀態(tài)未來收益的期望。沒有收益就沒有價值函數(shù),因為價值的目的就是如何獲得最大的期望收益。強化學(xué)習(xí)的問題是一個序列決策的過程,從長遠(yuǎn)的角度來看,智能體應(yīng)該選擇具有最高價值的動作而不是具有最高收益的動作,因為收益只是暫時的。價值函數(shù)的存在是智能體具有“智能”的重要原因。

      環(huán)境模型是對環(huán)境特性的描述,根據(jù)環(huán)境特性,可以在當(dāng)前的狀態(tài)和動作下預(yù)測下一步的狀態(tài)。如果環(huán)境模型已知,能使智能體學(xué)習(xí)更加快速和穩(wěn)健。而現(xiàn)實中的絕大多數(shù)問題,環(huán)境模型都是未知的,這就需要智能體進(jìn)行反復(fù)的試錯。

      常用一個如圖1所示的MDP模型來描述強化學(xué)習(xí)過程,一個MDP模型包括5個組成部分,{S,A,P,γ,R}。其中,S是狀態(tài)的集合,A是智能體動作的集合,P是環(huán)境轉(zhuǎn)移概率的集合,R是收益的集合。此外,γ是折扣率,表示未來收益的現(xiàn)值,γ越大,表示未來的收益在當(dāng)前的決策中所占的比重越大。下標(biāo)t用于區(qū)分當(dāng)前和未來的MDP元組。智能體對環(huán)境施加一個動作,環(huán)境狀態(tài)轉(zhuǎn)移至下一步的環(huán)境狀態(tài),并將收益返回智能體。

      圖1 強化學(xué)習(xí)的MDP模型

      1.2 Q-Learning

      Q-Learning是一種異步策略的強化學(xué)習(xí)算法[28],是本文進(jìn)行算法研究的基礎(chǔ),其動作策略與學(xué)習(xí)策略不是同一個策略。在Q-Learning中,智能體的策略與狀態(tài)動作價值函數(shù)密切相關(guān),狀態(tài)動作價值函數(shù),即Q值函數(shù),定義為在特定狀態(tài)下進(jìn)行某一動作所獲得的收益期望。s和a分別表示狀態(tài)和動作,π表示策略。

      Q-Learning的動作策略,一般采用ε策略,這是一種貪婪策略和隨機策略的混合策略。以1-ε的概率選擇使得當(dāng)前的Q值達(dá)到最大的動作,以ε的概率隨機選擇動作,ε被稱為探索因子,用以平衡Q-Learning算法中的學(xué)習(xí)與探索。

      Q-Learning的學(xué)習(xí)策略是在每一步的行動后對Q值進(jìn)行更新,Q值采用下式進(jìn)行更新迭代:

      Q(s,a)←Q(s,a)+α[r(s,a)+γmaxQ(s′,a′)-Q(s,a)]

      (1)

      式中:s′,a′表示下一時刻的狀態(tài)和動作;r是收益函數(shù),是關(guān)于狀態(tài)s和動作a的函數(shù)。

      最佳策略π*滿足貝爾曼最優(yōu)方程:

      Qπ*(s,a)=

      ∑p(s′,r|s,a)[r(s,a)+γ·maxa′Qπ*(s′,a′)]

      (2)

      理論上[27],通過不斷地更新迭代,智能體的策略最終會收斂于最優(yōu)策略π*。

      2 問題的界定

      為了更好地解決多功能雷達(dá)的干擾決策問題,將干擾決策的過程表述為一個MDP。多功能雷達(dá)擁有有限個雷達(dá)狀態(tài),可表示為一個有限狀態(tài)集S(s∈S);干擾決策智能體或者干擾決策系統(tǒng)所能產(chǎn)生的干擾樣式也是一個有限狀態(tài)集,表示為J(j∈J);R是收益的集合,由環(huán)境狀態(tài)的轉(zhuǎn)移所決定,收益函數(shù)用r(s,s′)表示;環(huán)境模型用環(huán)境轉(zhuǎn)移概率P表示,具體可表示為p(St+1|St)。干擾決策系統(tǒng)對多功能雷達(dá)實施干擾,雷達(dá)狀態(tài)發(fā)生轉(zhuǎn)移,干擾決策智能體從中獲得收益,智能體會不斷嘗試直至實現(xiàn)干擾的目標(biāo)。

      當(dāng)然,在實際的雷達(dá)對抗中環(huán)境模型是未知的,但這并不影響智能體最終找到最優(yōu)的干擾策略,這也正是強化學(xué)習(xí)的魅力所在。下面,將對多功能雷達(dá)干擾決策問題中的狀態(tài)集、動作集、環(huán)境轉(zhuǎn)移概率和收益函數(shù)進(jìn)行更詳細(xì)的定義和說明。

      2.1 狀態(tài)集

      雷達(dá)狀態(tài)是以干擾方所接收的信號參數(shù)為基本依據(jù)而界定的目標(biāo)雷達(dá)所處的情況。雷達(dá)狀態(tài)的定義對于強化學(xué)習(xí)問題至關(guān)重要,與時間相關(guān),在一段時間內(nèi)具有一定的穩(wěn)定性,與每一個雷達(dá)狀態(tài)相對應(yīng),在每一次干擾決策的閉環(huán)中,智能體都會進(jìn)行一次決策,完成一次動作,而且智能體的收益也是通過雷達(dá)狀態(tài)的改變獲得。這就要求雷達(dá)狀態(tài)在時間維度離散,易于識別區(qū)分,與干擾樣式間存在映射關(guān)系,并且能夠為決策提供豐富的信息。在電子偵察的相關(guān)研究中,常將多功能雷達(dá)的信號模型建模為一個層級模型[29-30],對偵察到的雷達(dá)信號序列進(jìn)行波形單元提取轉(zhuǎn)換為雷達(dá)字序列,采用生成結(jié)構(gòu)語法中的理論對雷達(dá)字序列進(jìn)行進(jìn)一步的處理,由雷達(dá)字構(gòu)成雷達(dá)短語,進(jìn)一步構(gòu)成雷達(dá)句子。

      其中,雷達(dá)短語是層級模型的中間層,相比于雷達(dá)句子,雷達(dá)短語具有更加豐富的信號信息,可為干擾決策提供信息支撐;相比于雷達(dá)字,雷達(dá)短語與多功能雷達(dá)工作方式的控制參數(shù)直接相關(guān)[31],其與干擾樣式之間可以建立一定的映射關(guān)系,因此可以將電子偵察中獲取的雷達(dá)短語作為雷達(dá)狀態(tài),本文MDP模型中的狀態(tài)集即多功能雷達(dá)的雷達(dá)短語集。文獻(xiàn)[32-33]中利用遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)識別進(jìn)行雷達(dá)狀態(tài)的識別,識別結(jié)果及時準(zhǔn)確,很好地支持了本文的想法。

      2.2 動作集

      動作集包含干擾決策系統(tǒng)可以產(chǎn)生的所有干擾樣式,這由干擾波形發(fā)生設(shè)備的硬件條件所決定。常見的多功能雷達(dá)干擾樣式包括噪聲調(diào)幅干擾、脈沖卷積干擾、波門拖引干擾和靈巧噪聲干擾等。干擾決策的核心工作就是在每一個雷達(dá)狀態(tài)時選擇合適的干擾樣式,最終完成既定的干擾目標(biāo)。

      2.3 環(huán)境轉(zhuǎn)移概率

      環(huán)境的轉(zhuǎn)移概率定義了雷達(dá)狀態(tài)和樣式間的相互作用關(guān)系,由多功能雷達(dá)的信號產(chǎn)生機制所決定。在多功能雷達(dá)信號的產(chǎn)生過程中,存在著嚴(yán)密的雷達(dá)任務(wù)調(diào)度機制和環(huán)境目標(biāo)自適應(yīng)機制[34-37],這使得多功能雷達(dá)狀態(tài)間存在馬爾可夫性,這種馬爾可夫性可以表示為p(St+1|St,Jt),這是一種簡化的表示方式,揭示了多功能雷達(dá)狀態(tài)發(fā)生轉(zhuǎn)移的規(guī)律,是將強化學(xué)習(xí)應(yīng)用于多功能雷達(dá)干擾決策的基礎(chǔ)。

      2.4 收益函數(shù)

      收益函數(shù)r定義了從一種雷達(dá)狀態(tài)轉(zhuǎn)移到另一種雷達(dá)狀態(tài)時,智能體獲得的收益的數(shù)值。為了定義收益函數(shù),需要考慮智能體的實際工作所要完成的現(xiàn)實目標(biāo)。對于多功能雷達(dá)干擾決策問題而言,干擾決策的目標(biāo)就是使雷達(dá)狀態(tài)盡快從當(dāng)前的雷達(dá)狀態(tài)轉(zhuǎn)移到低威脅等級雷達(dá)狀態(tài)或者由于戰(zhàn)術(shù)目的需要希望多功能雷達(dá)所處的雷達(dá)狀態(tài)。這樣的現(xiàn)實目標(biāo)存在著兩方面的要求:一是需要雷達(dá)狀態(tài)最終轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài);二是決策者希望狀態(tài)的轉(zhuǎn)移過程所花費的時間是最短的。根據(jù)上述的兩個要求,該問題的收益函數(shù)可以設(shè)置為

      (3)

      若雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài)Saim,獲得收益為100;若雷達(dá)狀態(tài)未轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài),則獲得收益為-1,這就保證了以最少的步數(shù)轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài)時,智能體所獲的總收益是最大的。步數(shù)與耗費時間呈正相關(guān),最小的步數(shù)意味著最短的時間,因此智能體此時的干擾策略也是最優(yōu)的。

      3 算法構(gòu)建

      在當(dāng)前對多功能雷達(dá)的干擾決策算法研究中,主要有Q-Learning和DQN,與融合了神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)的DQN相比,Q-Learning采用表格記錄Q值,用查表的方式進(jìn)行決策。當(dāng)狀態(tài)動作空間過大時,存在占用存貯空間大、查表搜索時間長的問題[22],但在多功能雷達(dá)的干擾決策問題中,雷達(dá)狀態(tài)的數(shù)量和干擾樣式的數(shù)量都是有限的,狀態(tài)動作空間不會太大,因此不存在相應(yīng)的問題。此外,Q-Learning相比于DQN有兩方面的優(yōu)勢,第一方面,Q-Learning相對于DQN由于不使用神經(jīng)網(wǎng)絡(luò),調(diào)參和訓(xùn)練將更為簡單和容易;第二方面,Q-Learning的擴展性更好,當(dāng)多功能雷達(dá)的數(shù)量增加或者出現(xiàn)新的未知雷達(dá)狀態(tài)時,Q-Learning只需要增加表格的列數(shù)即可,而DQN則需要增加神經(jīng)網(wǎng)絡(luò)輸入輸出的節(jié)點,甚至要重新設(shè)計神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),這無論是對于工程師還是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都是不利的。因此,Q-Learning是一種適合于多功能雷達(dá)干擾決策的算法,本節(jié)將在Q-Learning算法的基礎(chǔ)上結(jié)合基于勢能函數(shù)的收益塑造理論利用先驗知識改進(jìn)算法,提升算法的收斂速度。

      3.1 基于勢能函數(shù)的收益塑造理論

      強化學(xué)習(xí)往往很耗時,因為強化學(xué)習(xí)算法必須使用延遲反饋或收益來確定其行為的長期后果。收益塑造是一種將領(lǐng)域知識結(jié)合到強化學(xué)習(xí)中的方法,以便更快地將算法引導(dǎo)至更有前景的解決方案。

      收益函數(shù)反應(yīng)了強化學(xué)習(xí)任務(wù)的目標(biāo),與狀態(tài)的劃分聯(lián)系緊密,因此收益函數(shù)的設(shè)置要結(jié)合實際問題的需求與形式,具體問題具體分析。這也導(dǎo)致了收益函數(shù)的設(shè)置領(lǐng)域并沒有成熟、系統(tǒng)的方法理論,收益函數(shù)的設(shè)置更多的是依靠工程師的經(jīng)驗和技巧的總結(jié)。而基于勢能的收益函數(shù)的塑造理論討論了如何在原有的收益函數(shù)上加上一個具有塑造功能的函數(shù)項,使得在此基礎(chǔ)上智能體學(xué)到的最優(yōu)策略不發(fā)生改變[38]。該理論對于收益函數(shù)設(shè)置具有重要的指導(dǎo)意義,該理論的主要內(nèi)容如下。

      一個馬爾可夫決策過程,可用一個元組來描述,M={S,A,P,γ,R},相關(guān)概念已經(jīng)在第1節(jié)和第2節(jié)中進(jìn)行了說明,故在此不做過多的交待。

      對于任意的S,A,γ和任意的收益塑造函數(shù)F:S×S→R,若F滿足:

      F(s,s′)=Φ(s′)-Φ(s)

      (4)

      式中:Φ:S→R為一實值函數(shù),則M={S,A,P,γ,R}與M′={S,A,P,γ,R′}具有相同的最優(yōu)策略;Φ被稱為S的勢能函數(shù);F即為基于勢能的收益塑造函數(shù)。該定理被稱為基于勢能函數(shù)的收益塑造理論,由Andrew[38]首先提出并證明。

      根據(jù)該定理,工程師就可以通過調(diào)整收益函數(shù),將一個MDP轉(zhuǎn)換為另一個MDP,在保證最優(yōu)策略的情況下,加快強化學(xué)習(xí)算法的收斂。如果事先知道一些關(guān)于干擾決策的先驗知識,可以將先驗知識以收益塑造函數(shù)F的形式加入到強化學(xué)習(xí)算法之中,以此提升算法學(xué)習(xí)效率。

      3.2 基于先驗知識的智能干擾決策算法

      在一些具體的多功能雷達(dá)干擾決策場景中,對于干擾決策問題并不是完全空白的,而是會有一些先驗的知識。假設(shè)在某一次干擾任務(wù)中,干擾任務(wù)的目標(biāo)是使雷達(dá)狀態(tài)從當(dāng)前雷達(dá)狀態(tài)S0轉(zhuǎn)換到目標(biāo)雷達(dá)狀態(tài)Saim。在實行干擾任務(wù)之前,通過專家經(jīng)驗或者對歷史數(shù)據(jù)的信息挖掘[39],已知在最優(yōu)的干擾策略下,從當(dāng)前雷達(dá)狀態(tài)S0轉(zhuǎn)移到雷達(dá)狀態(tài)Saim,需要經(jīng)歷的一些雷達(dá)狀態(tài),用集合Se表示,稱之為先驗雷達(dá)狀態(tài)。Se在最理想的情況下可能會包括最優(yōu)策略下的所有雷達(dá)狀態(tài),當(dāng)然在更多的時候,Se可以提供的信息是有限的,決策者也不知道先驗雷達(dá)狀態(tài)在最優(yōu)策略狀態(tài)序列中的順序,僅僅是知道在最優(yōu)的雷達(dá)狀態(tài)序列中有這樣一些雷達(dá)狀態(tài)。先驗雷達(dá)狀態(tài)Se是不完整、不充分的,也正因如此,先驗雷達(dá)狀態(tài)形式的先驗知識會更加容易獲得。先驗雷達(dá)狀態(tài)對于人來說是容易理解的,而對于智能體而言,理解和運用這樣的先驗知識是存在一定困難的。收益塑造函數(shù)正是化解這一困難的有力武器。

      強化學(xué)習(xí)的價值函數(shù)機制決定了當(dāng)策略收斂至最優(yōu)策略時,最優(yōu)策略下的雷達(dá)狀態(tài)價值必然會高于其他雷達(dá)狀態(tài)的價值,所以一個直觀的想法是為最優(yōu)雷達(dá)狀態(tài)的價值提供一個比較高的初始值。但在Q-Learning中,動作的選取依賴于動作價值函數(shù),由于不清楚環(huán)境模型,無法得知最優(yōu)雷達(dá)狀態(tài)依賴的最優(yōu)動作,因此無法為動作價值函數(shù)提供有益的初始值。而收益只與雷達(dá)狀態(tài)有關(guān),可以通過對收益函數(shù)的塑形來實現(xiàn)對先驗雷達(dá)狀態(tài)的狀態(tài)動作價值函數(shù)的提升。

      運用基于勢能函數(shù)的收益塑造理論來改造收益函數(shù),對于先驗雷達(dá)狀態(tài)Se,先增加先驗雷達(dá)狀態(tài)的勢能,令勢能函數(shù)為

      (5)

      則收益塑造函數(shù)可以寫為

      (6)

      更進(jìn)一步,可以寫出進(jìn)行收益塑造后的收益函數(shù):

      (7)

      式中:ωp為收益強化系數(shù),用于控制增加收益的數(shù)值大小。

      基于勢能函數(shù)的收益塑造理論保證了在修改收益函數(shù)后,MDP問題的最優(yōu)策略不會發(fā)生改變,但同時帶來了另一個問題。這種方法的最終結(jié)果,相當(dāng)于雷達(dá)狀態(tài)轉(zhuǎn)移到先驗雷達(dá)狀態(tài)時,增加收益ωp,雷達(dá)狀態(tài)從先驗雷達(dá)狀態(tài)轉(zhuǎn)移到其他雷達(dá)狀態(tài),減少收益ωp/γ,這會使智能體易于出現(xiàn)膽怯的行為,即由于害怕離開先驗雷達(dá)狀態(tài)時帶來的損失,選擇停留在先驗雷達(dá)狀態(tài),不敢積極地去探索。為了抑制智能體的膽怯行為,給收益函數(shù)添加一個修正函數(shù)T(s,s′),其表達(dá)式為

      T(s,s′)=(C(s′)-1)·ωs·(-1)

      (8)

      式中:C(s′)表示狀態(tài)s′連續(xù)出現(xiàn)的次數(shù);ωs為收益抑制系數(shù),用于控制抑制認(rèn)知干擾決策智能體收益獲取的程度。T(s,s′)相當(dāng)于一個臨時抑制項,幾乎不會影響MDP問題的最優(yōu)策略。

      通過上述的分析,決定采用基于勢能的收益函數(shù)塑造方法添加先驗知識,并且在收益函數(shù)中加入抑制膽怯行為的修正函數(shù)。在Q-Learning算法的基礎(chǔ)上進(jìn)行改進(jìn),結(jié)合多功能雷達(dá)干擾決策問題場景,可以得到基于先驗知識的多功能雷達(dá)智能干擾決策算法如算法1所示。

      算法 1 基于先驗知識的多功能雷達(dá)智能干擾決策算法

      4 實驗仿真和結(jié)果分析

      4.1 仿真環(huán)境和參數(shù)設(shè)置

      進(jìn)行仿真實驗,以驗證所提算法的性能。假設(shè)現(xiàn)有一多功能雷達(dá),共有50種雷達(dá)狀態(tài){s1,s2,…,s50},雷達(dá)狀態(tài)間的轉(zhuǎn)移情況如圖2所示。

      圖2 雷達(dá)狀態(tài)轉(zhuǎn)移情況示意圖

      干擾機的干擾任務(wù)是使多功能雷達(dá)的雷達(dá)狀態(tài)從當(dāng)前的雷達(dá)狀態(tài)s1轉(zhuǎn)移到雷達(dá)狀態(tài)s25。最優(yōu)干擾策略下的雷達(dá)狀態(tài)轉(zhuǎn)移情況為S1→S3→S5→S7→S9→S22→S23→S25,從初始狀態(tài)轉(zhuǎn)移到目標(biāo)狀態(tài)至少需要7步,已經(jīng)在圖2中標(biāo)為

      紅色。另有一智能干擾機,可以產(chǎn)生9種干擾樣式,干擾樣式與雷達(dá)狀態(tài)的相互關(guān)系為一維度為9×50×50的轉(zhuǎn)換矩陣,為使仿真結(jié)果不失一般性,矩陣中的轉(zhuǎn)移概率隨機產(chǎn)生。轉(zhuǎn)移矩陣可表示如下:

      (9)

      智能干擾機采用本文所提的基于先驗知識的干擾決策算法,算法的基本參數(shù)設(shè)置如表1。

      表1 算法的基本參數(shù)設(shè)置

      本次仿真中采用控制變量的方法共設(shè)置3組實驗,設(shè)置實驗1主要為了分析參數(shù)ωp和ωs的敏感性;設(shè)置實驗2和實驗3是為分析算法的通用性。其中,實驗2研究了先驗知識數(shù)量對算法性能的影響,實驗3研究了錯誤先驗知識對算法性能的影響。

      關(guān)于強化學(xué)習(xí)算法的研究中,常用Q值是否收斂來判斷算法的收斂性,這是一種比較嚴(yán)謹(jǐn)?shù)?、直觀的數(shù)值指標(biāo)方法。而在本文的實際問題,智能體不必等到Q值完全收斂就可以做出最佳的決策,所以可以用步數(shù)的收斂情況來判斷算法是否收斂??紤]到智能體在進(jìn)行決策時會以一定的概率進(jìn)行探索,會使步數(shù)存在一定的波動,如果步數(shù)連續(xù)3個回合保持不變,并且對于同一步數(shù)這樣的情況出現(xiàn)6次,認(rèn)為算法收斂。若該步數(shù)為7,則認(rèn)為算法達(dá)到了最優(yōu)收斂。進(jìn)一步可以定義在多次重復(fù)實驗中,干擾策略收斂到最優(yōu)策略的比例為最優(yōu)收斂率;智能體從開始進(jìn)行訓(xùn)練到最后收斂所需要的步數(shù)稱為收斂總步數(shù)。這些指標(biāo)反應(yīng)了智能體學(xué)習(xí)的速度與質(zhì)量,與干擾的實時性和有效性密切相關(guān)。

      4.2 參數(shù)敏感性分析

      保持多功能雷達(dá)信號模型和算法基本參數(shù)不變,先驗知識為Se={s2,s7,s22},智能體每次訓(xùn)練的最大回合數(shù)為400,每次改變ωs或ωp的值進(jìn)行100次蒙特卡羅實驗。

      從實驗的結(jié)果來看,雖然每次實驗ωs或ωp的值不完全相同,但在400個回合內(nèi)算法的收斂率都是100%,意味著算法始終會收斂。由于不同的ωs或ωp結(jié)果都是相同的,所以在此處就不以表格和數(shù)據(jù)的形式展現(xiàn)了。不同的ωp和ωs參數(shù)下的最優(yōu)收斂率如表2所示。

      表2 不同ωs和ωp下的最優(yōu)收斂率

      從表2的統(tǒng)計結(jié)果來看,不同參數(shù)下最優(yōu)收斂率幾乎相差無幾,都是接近1或者等于1。而在理論上,基于勢能函數(shù)設(shè)計的收益塑造函數(shù)是不會改變最優(yōu)策略的,最優(yōu)收斂率應(yīng)該都為1。

      為進(jìn)一步研究實驗結(jié)果中出現(xiàn)最優(yōu)收斂率不為1的原因,將每次實驗中算法收斂以后,步數(shù)取值的均值定義為平均收斂步數(shù),記為mean-step,平均收斂步數(shù)可以更準(zhǔn)確地反映算法的收斂情況。

      在上述的參敏感性實驗中,一共進(jìn)行了5 600次實驗(8×7×100=5 600,8和7分別為ωs和ωp的取值個數(shù),100為進(jìn)行蒙特卡羅實驗的次數(shù)),其中出現(xiàn)異常的實驗次數(shù)為44次,達(dá)到最優(yōu)收斂的實驗次數(shù)為5 556次。將這5 556次實驗的平均收斂步數(shù)作為一個樣本集,計算可得該樣本集的均值為7.58,標(biāo)準(zhǔn)差為0.13,記為μ=7.58,σ=0.13。44次異常情況的平均收斂步數(shù)情況如表3所示,(ωs,ωp)為出現(xiàn)異常情況時的參數(shù)取值。

      表3 異常情況的平均收斂步數(shù)情況

      圖3為不同ωs或ωp情況下的回合數(shù)與步數(shù)圖,在每一張子圖中,保持ωs的值不變,ωp取不同的值,“無先驗知識”即為改進(jìn)前的Q-Learning算法。在此基礎(chǔ)上,逐漸增大ωs的值一共得到8張子圖。

      圖3 不同ωs和ωp下的回合數(shù)-步數(shù)圖

      在圖3(a)中,ωs此時為0,相當(dāng)于沒有對智能體的膽怯行為進(jìn)行抑制。采用本文所提算法,當(dāng)ωp比較小時,如ωp分別取1、2、4,算法的收斂性能明顯好于Q-Learning算法,當(dāng)ωp比較大時,智能體會出現(xiàn)明顯的膽怯行為。逐漸增加ωp的值,膽怯的行為能得到明顯的改善。在圖3(h)中,當(dāng)ωs取值為64時,不同ωp的曲線基本重合,具有相似的收斂性能。在工程實踐中,ωp可以取一個比較小的值,這樣可以既無明顯的膽怯行為,也能達(dá)到較好的收斂性能,但是小的尺度不容易把握。根據(jù)實驗的結(jié)果,ωp可以取一個較為靈活的值,在此基礎(chǔ)上ωs取一個較大的值,這樣也能達(dá)到相似的甚至更好的性能,同時參數(shù)的設(shè)置方法也將更為靈活和可靠。

      4.3 算法通用性分析

      為了研究先驗知識數(shù)量對算法性的影響,保持多功能雷達(dá)信號模型和算法基本參數(shù)不變,ωp取值為16,ωs取值為64,智能體訓(xùn)練的最大回合數(shù)為600。隨機抽取1到6個先驗雷達(dá)狀態(tài)作為先驗知識,每種先驗雷達(dá)狀態(tài)數(shù)量下進(jìn)行100次實驗,實驗的統(tǒng)計結(jié)果如表4所示。

      表4 不同先驗雷達(dá)狀態(tài)數(shù)下的算法收斂性能參數(shù)

      在不同的先驗雷達(dá)狀態(tài)數(shù)量下,算法的收斂率始終為1,最優(yōu)收斂率也都為1或者接近1,這樣的結(jié)果與實驗1中得到的結(jié)果是一致的。而隨著先驗雷達(dá)狀態(tài)數(shù)的增多,平均收斂總步數(shù)是在不斷減少的。將基于Q-Learning算法的實驗結(jié)果作為一個基準(zhǔn),用基于Q-Learning算法的平均收斂總步數(shù)減去基于先驗知識算法的平均收斂總步數(shù),稱為縮減步數(shù),用縮減步數(shù)衡量基于先驗知識算法收斂性能提升的程度。折線圖如圖4所示,隨著先驗雷達(dá)狀態(tài)數(shù)的增加,縮減步數(shù)逐漸增加并且增加的趨勢逐漸放緩。這表明,先驗雷達(dá)狀態(tài)數(shù)量越多,本文所提方法對算法的收斂性能的提升越大,但通過繼續(xù)增加先驗雷達(dá)狀態(tài)來提升算法性能的效果就越不明顯。

      圖4 縮減步數(shù)隨先驗雷達(dá)狀態(tài)數(shù)變化圖

      為了研究先驗知識數(shù)量對算法性的影響,保持多功能雷達(dá)信號模型和算法基本參數(shù)不變,ωp取值為16,ωs取值為64,智能體訓(xùn)練的最大回合數(shù)為1 000。初始的先驗知識為{s3,s7,s22},在此基礎(chǔ)上,采用隨機選擇其他雷達(dá)狀態(tài)并隨機替換初始先驗知識中雷達(dá)狀態(tài)的方式,產(chǎn)生先驗知識錯誤率為0%,33%,66%,100%的先驗知識。每種先驗知識錯誤率下,產(chǎn)生100次錯誤先驗知識進(jìn)行實驗。

      實驗的統(tǒng)計結(jié)果如表5所示,算法的收斂率還是都為1,這表明錯誤的先驗知識并不會影響算法的收斂。但隨著先驗知識錯誤率的增加,最優(yōu)收斂率卻出現(xiàn)了明顯的下降,當(dāng)先驗知識100%錯誤時,最優(yōu)收斂率只有0.59,而且平均收斂總步數(shù)也在上升。這樣的結(jié)果表明,錯誤的先驗知識會導(dǎo)致智能體需要花費更多步數(shù)的訓(xùn)練才能找到最優(yōu)的策略,畢竟此時的智能體不僅需要去尋找最優(yōu)策略,同時也需克服錯誤知識帶來的影響。在本次實驗中,最大訓(xùn)練回合數(shù)只有1 000個回合,很多的結(jié)果雖然已經(jīng)達(dá)到了本文所提的收斂標(biāo)準(zhǔn),但實際上并沒有真正的收斂。因為在理論上,只要訓(xùn)練的回合數(shù)足夠多,智能體就一定能找到最優(yōu)的策略。

      表5 不同先驗知識錯誤率下的算法收斂性能參數(shù)

      圖7顯示了不同先驗知識錯誤率下的縮減步數(shù),從圖中可以明顯的看出錯誤的先驗知識會嚴(yán)重影響算法的性能,當(dāng)先驗知識錯誤率為0%時,縮減步數(shù)為6 998步,而當(dāng)先驗知識錯誤率為33%時,縮減步數(shù)就只有3 085步了,當(dāng)先驗知識錯誤率為100%時,縮減步數(shù)為-200,僅比原始的Q-Learning算法的表現(xiàn)略差一點。因此,為了實現(xiàn)最大的算法性能提升,在采用基于先驗知識的多功能雷達(dá)智能干擾決策算法時,應(yīng)盡量保證先驗知識的正確性。

      相比于基于Q-Learning的智能干擾決策算法,本文所提的基于先驗知識的多功能雷達(dá)智能干擾決策算法充分地利用了有限的先驗知識,在大多數(shù)的情形下都能達(dá)到更好的收斂性能,能夠大幅縮短干擾決策智能體的訓(xùn)練時間。

      5 結(jié)束語

      將強化學(xué)習(xí)方法應(yīng)用于多功能雷達(dá)的干擾決策有望實現(xiàn)對多功能雷達(dá)干擾策略的實時調(diào)整,實現(xiàn)更為精準(zhǔn)有效的干擾。然而,強化學(xué)習(xí)算法普遍存在著訓(xùn)練周期長、收斂困難的問題。針對此,考慮到在實際的雷達(dá)對抗過程中先驗知識存在的客觀性,使用基于勢能函數(shù)的收益塑造原理將先驗知識以收益的形式加入到強化學(xué)習(xí)問題,并提出抑制智能體膽怯行為的方法,最終形成了基于先驗知識的多功能雷達(dá)干擾決策算法。通過實驗仿真,討論了算法中兩個參數(shù)ωp和ωs對算法性能的影響,總結(jié)了在實際工程應(yīng)用中參數(shù)設(shè)置的一般方法。此外,還研究了所提算法在不同的先驗雷達(dá)狀態(tài)數(shù)量下和在先驗知識錯誤情況下的收斂性能,先驗雷達(dá)狀態(tài)數(shù)量越大,算法收斂性能相對于傳統(tǒng)Q-Learning算法的提升就越大,并且先驗雷達(dá)狀態(tài)數(shù)量越少,增加先驗雷達(dá)狀態(tài)對算法性能的提升越大;錯誤的先驗知識會造成算法的收斂性能下降,智能體尋找到最優(yōu)策略將會更加的困難,所以使用本文所提的方法應(yīng)該盡量保證先驗知識的正確性。總之,在絕大多數(shù)的情況下,本文所提算法收斂性能都是優(yōu)于Q-Learning算法的,具有較好的通用性,而本文所提的利用先驗知識的方法,不僅可以應(yīng)用于多功能雷達(dá)干擾決策領(lǐng)域,也可通過簡單的遷移在強化學(xué)習(xí)的其他領(lǐng)域使用,具有廣泛的應(yīng)用前景。

      當(dāng)然本文所研究的工作是有限的,只是研究了在多功能雷達(dá)干擾中的干擾樣式選擇問題,距離真正的形成實時化、智能化的干擾能力還有很長的路要走。此外,本文對于加入抑制膽怯行為的函數(shù)項是否會改變強化學(xué)習(xí)的最優(yōu)策略并未給出嚴(yán)格的數(shù)學(xué)證明,所提的判斷收斂的方法足夠簡單,但不夠嚴(yán)謹(jǐn),這都是在未來值得研究的問題。

      猜你喜歡
      步數(shù)先驗收益
      速度和步數(shù),哪個更重要
      楚國的探索之旅
      奇妙博物館(2021年4期)2021-05-04 08:59:48
      螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
      基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
      微信運動步數(shù)識人指南
      小演奏家(2018年9期)2018-12-06 08:42:02
      基于自適應(yīng)塊組割先驗的噪聲圖像超分辨率重建
      2015年理財“6宗最”誰能給你穩(wěn)穩(wěn)的收益
      金色年華(2016年1期)2016-02-28 01:38:19
      基于平滑先驗法的被動聲信號趨勢項消除
      東芝驚爆會計丑聞 憑空捏造1518億日元收益
      IT時代周刊(2015年8期)2015-11-11 05:50:38
      先驗的廢話與功能的進(jìn)路
      潼关县| 托里县| 安岳县| 迁西县| 鹤岗市| 北宁市| 余干县| 巫溪县| 枣强县| 洱源县| 临城县| 大竹县| 高雄市| 彭阳县| 河西区| 寿阳县| 呼和浩特市| 唐河县| 侯马市| 农安县| 射阳县| 调兵山市| 曲周县| 织金县| 宁德市| 长治县| 城固县| 广州市| 雷州市| 乐平市| 右玉县| 陆良县| 宁安市| 马龙县| 女性| 南丹县| 河间市| 松滋市| 阿拉善右旗| 富源县| 黎平县|