• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于馬爾可夫的多功能雷達(dá)認(rèn)知干擾決策建模研究

    2022-08-17 09:44:38朱霸坤朱衛(wèi)綱高天昊
    關(guān)鍵詞:短語(yǔ)雷達(dá)決策

    朱霸坤, 朱衛(wèi)綱, 李 偉, 楊 瑩, 高天昊

    (1. 航天工程大學(xué)電子光學(xué)工程系, 北京 101416; 2. 電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,河南 洛陽(yáng) 471032; 3. 航天工程大學(xué)研究生院, 北京 101416)

    0 引 言

    電磁空間是繼陸、海、空、天、網(wǎng)后又一個(gè)獨(dú)立的作戰(zhàn)空間和作戰(zhàn)域。電子戰(zhàn)作為贏得電磁頻譜戰(zhàn)的核心手段,也追隨著電磁頻譜裝備發(fā)展的趨勢(shì),朝著智能化、多功能化、網(wǎng)絡(luò)化的趨勢(shì)發(fā)展。多功能雷達(dá)依托于數(shù)字相控陣體制,具有快速的天線波束掃描能力和靈活的多波束形成能力,能夠?qū)崿F(xiàn)檢測(cè)、跟蹤、制導(dǎo)等多種功能,是各國(guó)電磁頻譜裝備體系中的核心關(guān)鍵裝備之一,對(duì)于戰(zhàn)爭(zhēng)的勝負(fù)至關(guān)重要。因此,針對(duì)多功能雷達(dá)的干擾,一直是各國(guó)研究的熱點(diǎn)之一。雷達(dá)干擾策略優(yōu)化是認(rèn)知電子戰(zhàn)過(guò)程中實(shí)現(xiàn)認(rèn)知干擾的關(guān)鍵環(huán)節(jié),包括雷達(dá)干擾決策和雷達(dá)干擾波形優(yōu)化兩個(gè)部分,而本文的主要研究?jī)?nèi)容為雷達(dá)干擾決策。雷達(dá)干擾決策是指在雷達(dá)對(duì)抗的過(guò)程中,干擾方以完成既定的戰(zhàn)術(shù)目標(biāo)為目的,選擇干擾樣式的過(guò)程。傳統(tǒng)的雷達(dá)干擾決策方法包括基于模板匹配的干擾決策方法、基于博弈論的干擾決策方法和基于推理的干擾決策方法。這三類(lèi)方法各有特點(diǎn),但無(wú)一例外都需要大量的先驗(yàn)數(shù)據(jù)作為決策的支撐。而多功能雷達(dá)波形靈活多變,自適應(yīng)能力強(qiáng),依靠對(duì)大量先驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析進(jìn)而得到干擾策略的方法面臨著先驗(yàn)數(shù)據(jù)獲取困難問(wèn)題,進(jìn)而會(huì)導(dǎo)致干擾決策時(shí)效性和有效性的降低。

    強(qiáng)化學(xué)習(xí)是當(dāng)前機(jī)器學(xué)習(xí)研究中的熱門(mén)算法,已經(jīng)在游戲、機(jī)器人控制、無(wú)人駕駛、金融交易和建筑規(guī)劃等領(lǐng)域取得了廣泛的應(yīng)用,在干擾決策領(lǐng)域也得到了越來(lái)越多學(xué)者的青睞?;趶?qiáng)化學(xué)習(xí)的干擾決策方法具備一定的認(rèn)知能力,能夠在缺乏先驗(yàn)數(shù)據(jù)的情況下通過(guò)“試錯(cuò)”的方式學(xué)習(xí)得到最佳的干擾策略。文獻(xiàn)[14-17]和文獻(xiàn)[18]分別采用了基于Q-Learning和基于深度Q神經(jīng)網(wǎng)絡(luò)(deep Q network, DQN)的方法進(jìn)行雷達(dá)干擾決策,研究和驗(yàn)證了將強(qiáng)化學(xué)習(xí)算法應(yīng)用于干擾決策的可行性,但相關(guān)文獻(xiàn)在干擾決策過(guò)程的建模中還存在一些分歧,如多功能雷達(dá)信號(hào)的建模、雷達(dá)狀態(tài)的界定等問(wèn)題。

    本文主要是通過(guò)對(duì)多功能雷達(dá)信號(hào)和雷達(dá)對(duì)抗過(guò)程的研究,完善雷達(dá)認(rèn)知干擾決策模型的相關(guān)細(xì)節(jié),并在此模型的基礎(chǔ)上進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證模型和算法的相關(guān)性能。本文以理論基礎(chǔ)、系統(tǒng)設(shè)計(jì)、模型算法研究的遞進(jìn)次序,分別研究了多功能雷達(dá)信號(hào)模型、認(rèn)知干擾決策系統(tǒng)和認(rèn)知干擾決策的馬爾可夫決策過(guò)程(Markov decision process, MDP)模型3個(gè)方面的內(nèi)容。

    1 多功能雷達(dá)信號(hào)模型研究

    1.1 多層級(jí)的多功能雷達(dá)信號(hào)模型

    多功能雷達(dá)是指能序貫執(zhí)行大量雷達(dá)任務(wù),具有多種雷達(dá)功能的雷達(dá)系統(tǒng),一般通過(guò)相控陣天線來(lái)實(shí)現(xiàn)。相比于傳統(tǒng)雷達(dá),多功能雷達(dá)具備瞬時(shí)改變雷達(dá)信號(hào)參數(shù)的能力,因此多功能雷達(dá)在時(shí)間和空間域上都具有很強(qiáng)的靈活性,并且能夠根據(jù)目標(biāo)和環(huán)境特性自適應(yīng)地調(diào)整性能指標(biāo)。多功能雷達(dá)的靈活性和自適應(yīng)性使其具有十分復(fù)雜的信號(hào)形式,傳統(tǒng)的基于統(tǒng)計(jì)的電子偵察模型難以對(duì)其進(jìn)行準(zhǔn)確描述。

    對(duì)此,Visenevski等人提出了多層級(jí)的多功能雷達(dá)信號(hào)模型。如圖1所示,該模型分為3層,分別為雷達(dá)字層、雷達(dá)短語(yǔ)層和雷達(dá)句子層。其中,雷達(dá)字為有限數(shù)目雷達(dá)脈沖的固定排列,是最基本的信號(hào)單元;有限個(gè)雷達(dá)字又構(gòu)成了雷達(dá)短語(yǔ),雷達(dá)短語(yǔ)的排列固定,由特定的文法規(guī)則產(chǎn)生,影響著多功能雷達(dá)在不同環(huán)境下的工作性能。雷達(dá)短語(yǔ)最終構(gòu)成了雷達(dá)句子。雷達(dá)句子是雷達(dá)信號(hào)序列高度符號(hào)化的形式。多層級(jí)的多功能雷達(dá)信號(hào)模型采用符號(hào)化的語(yǔ)言對(duì)雷達(dá)信號(hào)進(jìn)行表征,通過(guò)簡(jiǎn)潔的符號(hào)序列保留了雷達(dá)信號(hào)中的絕大部分關(guān)鍵特征信息,為多功能雷達(dá)信號(hào)的相關(guān)研究工作打下了良好的基礎(chǔ)。本節(jié)主要基于多層級(jí)的多功能雷達(dá)信號(hào)模型研究多功能雷達(dá)信號(hào)。

    圖1 多層級(jí)的多功能雷達(dá)信號(hào)模型Fig.1 Multi-level multi-functional radar signal model

    1.2 雷達(dá)狀態(tài)

    在多功能雷達(dá)中,一種雷達(dá)功能的實(shí)現(xiàn)需要序貫地執(zhí)行一系列的雷達(dá)任務(wù),多種雷達(dá)功能常以時(shí)分復(fù)用的形式并行執(zhí)行。如圖2所示,多功能雷達(dá)的任務(wù)調(diào)度模塊會(huì)根據(jù)雷達(dá)功能和雷達(dá)任務(wù)的優(yōu)先級(jí)排序生成任務(wù)序列。在生成任務(wù)序列后,多功能雷達(dá)會(huì)依據(jù)目標(biāo)和環(huán)境特性為雷達(dá)任務(wù)選擇雷達(dá)短語(yǔ)。而雷達(dá)短語(yǔ)序列會(huì)轉(zhuǎn)換為雷達(dá)字序列,最后映射為雷達(dá)脈沖信號(hào)。

    圖2 多功能雷達(dá)工作原理簡(jiǎn)圖Fig.2 Diagram of working principle of multi-functional radar

    多功能雷達(dá)的信號(hào)靈活多變,因此要對(duì)多功能雷達(dá)實(shí)施有效的干擾,需要實(shí)時(shí)地獲取雷達(dá)的工作狀態(tài)信息,以支撐干擾策略的快速調(diào)整??梢哉f(shuō),雷達(dá)狀態(tài)識(shí)別是多功能雷達(dá)對(duì)抗的基礎(chǔ),將雷達(dá)對(duì)抗中雷達(dá)的行為過(guò)程分解為離散的雷達(dá)狀態(tài)是進(jìn)行干擾決策的前提條件。在文獻(xiàn)[25]中,雷達(dá)狀態(tài)被定義為:以干擾方所接收的信號(hào)參數(shù)為基本依據(jù)而界定的目標(biāo)雷達(dá)所處的情況。而關(guān)于雷達(dá)狀態(tài)的表征方法,目前還存在著分歧。文獻(xiàn)[14]將雷達(dá)工作模式作為雷達(dá)狀態(tài),但多功能雷達(dá)在同一工作模式下會(huì)根據(jù)環(huán)境和目標(biāo)特性選取不同的雷達(dá)短語(yǔ),僅憑工作模式還不足以為干擾決策提供充足的信息。文獻(xiàn)[15]在已有的脈沖描述字和輻射源描述字的基礎(chǔ)上選取特征表征雷達(dá)狀態(tài),但如何選取特征,選取哪些特征又成為新的問(wèn)題。文獻(xiàn)[18]將雷達(dá)任務(wù)作為雷達(dá)狀態(tài),雷達(dá)任務(wù)雖與雷達(dá)短語(yǔ)有關(guān)但和雷達(dá)短語(yǔ)并不是一一對(duì)應(yīng)的關(guān)系,因此并不能用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)符號(hào)來(lái)表示或者描述雷達(dá)任務(wù)。針對(duì)在當(dāng)前雷達(dá)狀態(tài)表征中存在的問(wèn)題,本文提出一種聯(lián)合雷達(dá)短語(yǔ)信息和雷達(dá)功能信息的雷達(dá)狀態(tài)表征方法。

    一款多功能雷達(dá),其雷達(dá)短語(yǔ)與雷達(dá)字之間映射關(guān)系是相對(duì)固定的,而且雷達(dá)字是雷達(dá)工程師經(jīng)過(guò)大量實(shí)驗(yàn)根據(jù)經(jīng)驗(yàn)設(shè)計(jì)出來(lái)的,也是相對(duì)固定的,所以導(dǎo)致多功能雷達(dá)的靈活性和自適應(yīng)性主要是雷達(dá)任務(wù)的調(diào)度機(jī)制和雷達(dá)短語(yǔ)的選取機(jī)制。在這兩個(gè)機(jī)制的作用下,多功能雷達(dá)生成了雷達(dá)短語(yǔ)序列,所以雷達(dá)短語(yǔ)序列集中反應(yīng)了多功能雷達(dá)的靈活性和自適應(yīng)性??梢钥紤]將雷達(dá)短語(yǔ)作為雷達(dá)狀態(tài),但同一雷達(dá)短語(yǔ)可能會(huì)被不同的雷達(dá)功能復(fù)用,這樣僅用雷達(dá)短語(yǔ)符號(hào)就無(wú)法區(qū)分不同雷達(dá)功能,進(jìn)而導(dǎo)致雷達(dá)短語(yǔ)序列中喪失多功能雷達(dá)信號(hào)中有關(guān)任務(wù)調(diào)度的信息。因此,可以考慮在雷達(dá)短語(yǔ)符號(hào)中加入雷達(dá)功能的信息進(jìn)行區(qū)分,使用雷達(dá)短語(yǔ)信息和雷達(dá)功能信息聯(lián)合表征雷達(dá)狀態(tài)。所以,雷達(dá)狀態(tài)可以用或者的語(yǔ)法結(jié)構(gòu)來(lái)表示,其中是多層級(jí)的多功能雷達(dá)信號(hào)模型中的雷達(dá)功能,是雷達(dá)短語(yǔ),是構(gòu)成雷達(dá)短語(yǔ)的雷達(dá)字,為了使表述更為簡(jiǎn)潔,將雷達(dá)狀態(tài)記為,,,…,其中,,表示不同的雷達(dá)狀態(tài),==;,,,,,,∈1,2,…。本文所提出的雷達(dá)狀態(tài)聯(lián)合表征的方法具有如下特點(diǎn)。

    (1) 聯(lián)合表征的雷達(dá)狀態(tài)本身就包含了雷達(dá)功能和雷達(dá)短語(yǔ)信息,并且在雷達(dá)狀態(tài)的變換中還隱藏著多功能雷達(dá)的任務(wù)調(diào)度和雷達(dá)短語(yǔ)選取的相關(guān)信息,能夠?yàn)槔走_(dá)的干擾決策提供較為充足的信息。

    (2) 本文所提的雷達(dá)狀態(tài)表征方法采用雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征,而目前對(duì)于多功能雷達(dá)的工作模式識(shí)別和雷達(dá)字提取都有相關(guān)的研究,可以作為該方案可行性的支撐。

    (3) 雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征的方法簡(jiǎn)單易操作,以簡(jiǎn)單的符號(hào)保留了最大量的雷達(dá)信號(hào)信息,且不需要進(jìn)行特征選擇、特征提取等操作。

    以水星功能雷達(dá)為例說(shuō)明雷達(dá)狀態(tài)的表征,水星多功能雷達(dá)可以實(shí)現(xiàn)5種雷達(dá)功能,分別為搜索、捕獲、非自適應(yīng)跟蹤、距離分辨、跟蹤保持,具有9種雷達(dá)字(,,…,)。9種雷達(dá)字一共構(gòu)成了43個(gè)雷達(dá)短語(yǔ),都是4字短語(yǔ),其中非自適應(yīng)跟蹤和跟蹤保持復(fù)用5個(gè)雷達(dá)短語(yǔ),捕獲、非自適應(yīng)跟蹤、跟蹤保持復(fù)用1個(gè)雷達(dá)短語(yǔ)。所以,水星多功能雷達(dá)共有50種雷達(dá)狀態(tài)。

    1.3 雷達(dá)狀態(tài)序列的馬爾可夫性

    按照第1.2節(jié)中提出的雷達(dá)狀態(tài)的表征方法,就可以將偵察感知環(huán)節(jié)得到的多功能雷達(dá)信號(hào)序列表示為雷達(dá)狀態(tài)序列,其形式如圖3所示。從雷達(dá)信號(hào)產(chǎn)生的角度出發(fā),多功能雷達(dá)的任務(wù)調(diào)度機(jī)制和雷達(dá)短語(yǔ)選擇機(jī)制直接影響了雷達(dá)狀態(tài)序列,因此可以通過(guò)分析多功能雷達(dá)的任務(wù)調(diào)度和雷達(dá)短語(yǔ)選擇機(jī)制研究雷達(dá)狀態(tài)序列的性質(zhì)。

    圖3 雷達(dá)狀態(tài)序列Fig.3 Radar state sequence

    任務(wù)調(diào)度:任務(wù)調(diào)度是指在給定雷達(dá)任務(wù)請(qǐng)求集合的條件下,根據(jù)某種準(zhǔn)則來(lái)安排任務(wù)的執(zhí)行序列,以期望在滿足系統(tǒng)約束的同時(shí),達(dá)到某種意義上的最優(yōu)調(diào)度結(jié)果。安排任務(wù)執(zhí)行序列的準(zhǔn)則被稱為調(diào)度策略,如圖4所示。多功能雷達(dá)的任務(wù)調(diào)度策略可以分為固定模板調(diào)度策略、多模板調(diào)度策略、自適應(yīng)調(diào)度策略和部分模板調(diào)度策略。

    圖4 4種調(diào)度策略的示意圖Fig.4 Schematic diagram of four scheduling strategies

    固定模板策略每次調(diào)度間隔按照相同的調(diào)度策略進(jìn)行調(diào)度安排,每個(gè)時(shí)間槽執(zhí)行確定的雷達(dá)任務(wù),若沒(méi)有相應(yīng)的雷達(dá)任務(wù)要執(zhí)行,則相應(yīng)的時(shí)間槽空出。多模板調(diào)度策略可以根據(jù)不同的場(chǎng)景選擇使用不同的模板。自適應(yīng)模板調(diào)度策略能綜合考慮資源、時(shí)間、戰(zhàn)場(chǎng)態(tài)勢(shì)等多種因素通過(guò)某種優(yōu)化算法選擇最佳的調(diào)度策略。部分模板調(diào)度策略則是固定模板調(diào)度策略和自適應(yīng)調(diào)度策略的結(jié)合。固定模板調(diào)度策略和多模板調(diào)度策略基于預(yù)設(shè)的調(diào)度模板,調(diào)度產(chǎn)生的雷達(dá)任務(wù)序列具有明顯的規(guī)律性,因而其產(chǎn)生的雷達(dá)任務(wù)序列具有馬爾可夫性。對(duì)于自適應(yīng)調(diào)度,雷達(dá)任務(wù)序列的產(chǎn)生受到任務(wù)規(guī)劃算法和各類(lèi)其他因素的影響,因此雷達(dá)任務(wù)序列受到任務(wù)規(guī)劃算法的影響,必然會(huì)包含某種規(guī)律,這種規(guī)律也會(huì)使雷達(dá)任務(wù)序列具有馬爾可夫性,部分模板調(diào)度策略同理。所以,可以用(+1|)表示雷達(dá)任務(wù)間的轉(zhuǎn)移概率。

    多功能雷達(dá)在生成雷達(dá)任務(wù)序列后,會(huì)根據(jù)目標(biāo)和環(huán)境特性選擇雷達(dá)短語(yǔ),因此可用(|,)來(lái)表示雷達(dá)短語(yǔ)選擇的策略,其中代表目標(biāo)和環(huán)境特性,是指在環(huán)境下,選擇雷達(dá)短語(yǔ)執(zhí)行雷達(dá)任務(wù)的概率。

    可以將雷達(dá)狀態(tài)間的轉(zhuǎn)移概率表示為

    (+1|)=(+1|)(|)

    (1)

    雷達(dá)任務(wù)反應(yīng)了雷達(dá)功能,雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征了雷達(dá)狀態(tài),因此(|)=1,進(jìn)一步推導(dǎo)可得

    (+1|)=(+1|)=(+1|)(+1|+1,+1)

    (2)

    (+1|)(+1|+1,+1)體現(xiàn)了多功能雷達(dá)任務(wù)調(diào)度和選擇雷達(dá)短語(yǔ)的工作過(guò)程。

    (+1|)反應(yīng)了雷達(dá)狀態(tài)序列的馬爾可夫性,該馬爾可夫性受到多功能雷達(dá)的雷達(dá)任務(wù)調(diào)度策略、雷達(dá)短語(yǔ)選擇策略和目標(biāo)環(huán)境特性的影響。雷達(dá)狀態(tài)數(shù)量是有限的,可以用一個(gè)馬爾可夫狀態(tài)轉(zhuǎn)移模型來(lái)描述雷達(dá)狀態(tài)間的關(guān)系,圖5為雷達(dá)狀態(tài)數(shù)量為7時(shí)的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖,通過(guò)狀態(tài)轉(zhuǎn)移概率描述7種雷達(dá)狀態(tài)間的轉(zhuǎn)換關(guān)系,(|)表示雷達(dá)狀態(tài)轉(zhuǎn)移到雷達(dá)狀態(tài)的概率。

    圖5 雷達(dá)狀態(tài)的馬爾可夫狀態(tài)轉(zhuǎn)移模型示意圖Fig.5 Schematic diagram of Markov state transition model of radar state

    2 認(rèn)知干擾決策系統(tǒng)

    針對(duì)多功能雷達(dá)信號(hào)靈活多變,并且能夠根據(jù)目標(biāo)環(huán)境特性調(diào)整信號(hào)波形的特點(diǎn),需要設(shè)計(jì)一種具備認(rèn)知能力的干擾決策系統(tǒng),能夠在沒(méi)有先驗(yàn)信息的情況下,實(shí)時(shí)學(xué)習(xí)雷達(dá)的狀態(tài)轉(zhuǎn)移特性并選擇合適的干擾樣式實(shí)施干擾。圖6為本文設(shè)計(jì)的認(rèn)知干擾決策系統(tǒng),主要包括偵察感知模塊、認(rèn)知干擾決策模塊和干擾實(shí)施模塊3個(gè)模塊。偵察感知模塊包括信號(hào)接收設(shè)備、信號(hào)處理、信號(hào)特征提取及識(shí)別的軟硬件設(shè)備,主要對(duì)目標(biāo)信號(hào)進(jìn)行搜索、檢測(cè)、截獲;測(cè)量基本參數(shù);形成對(duì)認(rèn)知干擾決策有用的信息。認(rèn)知干擾決策模塊可細(xì)分為策略學(xué)習(xí)模塊和干擾決策模塊,是認(rèn)知干擾決策系統(tǒng)的大腦,主要硬件為一臺(tái)計(jì)算機(jī),內(nèi)嵌策略學(xué)習(xí)和干擾決策的相關(guān)算法。干擾實(shí)施模塊包括干擾波形發(fā)生器和干擾波形庫(kù)等軟硬件設(shè)備,主要功能是執(zhí)行認(rèn)知干擾決策模塊的指令,最終對(duì)威脅目標(biāo)實(shí)施干擾。

    圖6 認(rèn)知干擾決策系統(tǒng)Fig.6 Cognitive interference decision system

    圖7以時(shí)隙結(jié)構(gòu)圖的形勢(shì)展示了雷達(dá)對(duì)抗過(guò)程中認(rèn)知干擾決策系統(tǒng)各模塊的工作情況,不同顏色的時(shí)間塊代表不同的工作階段。

    圖7 認(rèn)知干擾決策系統(tǒng)的工作時(shí)隙圖Fig.7 Working time slot diagram of a cognitive interference decision system

    圖7中,時(shí)隙結(jié)構(gòu)圖的起始時(shí)間為,時(shí)刻干擾實(shí)施模塊開(kāi)始發(fā)射干擾信號(hào)對(duì)多功能雷達(dá)進(jìn)行干擾。干擾信號(hào)并不會(huì)立刻到達(dá)多功能雷達(dá),而是存在一個(gè)電磁波傳播的延遲。多功能雷達(dá)接收到干擾信號(hào)后,會(huì)進(jìn)行相關(guān)的信號(hào)處理、雷達(dá)信號(hào)參數(shù)的選擇和波形優(yōu)化,稱為雷達(dá)的反應(yīng)時(shí)間,用表示。同樣,對(duì)于干擾決策系統(tǒng)也存在一個(gè)反應(yīng)時(shí)間,用表示,等于兩部分時(shí)間之和,分別是策略學(xué)習(xí)的時(shí)間和干擾決策的時(shí)間。認(rèn)知干擾決策系統(tǒng)中,偵察感知、策略學(xué)習(xí)、干擾決策和干擾實(shí)施的順序循環(huán)構(gòu)成了認(rèn)知干擾決策的閉環(huán),完成一個(gè)認(rèn)知閉環(huán)所需的時(shí)間稱為一個(gè)時(shí)間步,用steptime表示,其計(jì)算方法如下:

    steptime=2++=2+++

    (3)

    每一次認(rèn)知閉環(huán)的完成,都意味著多功能雷達(dá)與認(rèn)知干擾決策系統(tǒng)進(jìn)行了一次交互,而交互過(guò)后,多功能雷達(dá)遵循著自身固有的馬爾可夫性調(diào)整雷達(dá)狀態(tài),認(rèn)知干擾決策系統(tǒng)則會(huì)進(jìn)行策略學(xué)習(xí),通過(guò)策略學(xué)習(xí)不斷提升干擾策略,這一過(guò)程即為干擾決策系統(tǒng)的“認(rèn)知”過(guò)程。

    3 認(rèn)知干擾決策的MDP模型

    本節(jié)在前文研究的基礎(chǔ)上,將認(rèn)知干擾決策過(guò)程構(gòu)建為一個(gè)帶收益的MDP模型,并且在該模型的基礎(chǔ)上研究了求解干擾策略的認(rèn)知干擾決策算法。認(rèn)知干擾決策算法是認(rèn)知干擾決策系統(tǒng)中認(rèn)知干擾決策模塊的內(nèi)嵌算法,主要實(shí)現(xiàn)了策略學(xué)習(xí)和干擾決策功能。在本節(jié)中將以強(qiáng)化學(xué)習(xí)中的Q-Learning算法為基礎(chǔ)構(gòu)建認(rèn)知干擾決策算法。

    3.1 決策模型的構(gòu)建

    電子戰(zhàn)中的干擾效果評(píng)估,即評(píng)估電子對(duì)抗設(shè)備在規(guī)定的復(fù)雜電磁環(huán)境中,執(zhí)行干擾任務(wù)的能力,能否達(dá)到預(yù)期的干擾效果以及能達(dá)到的程度。文獻(xiàn)[1]將基于干擾效果的在線評(píng)估技術(shù)作為認(rèn)知電子戰(zhàn)的關(guān)鍵技術(shù)之一,而在基于強(qiáng)化學(xué)習(xí)的認(rèn)知干擾決策中,強(qiáng)化學(xué)習(xí)是通過(guò)收益的反饋引導(dǎo)智能體去學(xué)習(xí)和調(diào)整干擾策略,在整個(gè)過(guò)程中沒(méi)有明顯的干擾效果評(píng)估環(huán)節(jié)。干擾效果評(píng)估通常是對(duì)一次獨(dú)立的干擾行動(dòng)的干擾效果好壞進(jìn)行評(píng)估,利用干擾效果評(píng)估的結(jié)果可以修正單次干擾行動(dòng)的決策策略,以使得單次干擾行動(dòng)的干擾效果達(dá)到最好。強(qiáng)化學(xué)習(xí)中收益設(shè)置的目的,并不是使得單次的干擾效果達(dá)到最好,而是通過(guò)序列決策去達(dá)到某個(gè)戰(zhàn)術(shù)目的,這個(gè)戰(zhàn)術(shù)目的可以理解為使多功能雷達(dá)的雷達(dá)狀態(tài)轉(zhuǎn)移到某個(gè)或者某些狀態(tài)(例如:在戰(zhàn)機(jī)突防自衛(wèi)干擾的場(chǎng)景中,干擾的戰(zhàn)術(shù)目標(biāo)可以設(shè)置為讓多功能雷達(dá)處于非制導(dǎo)的雷達(dá)狀態(tài),可以是搜索或者跟蹤的雷達(dá)狀態(tài),這樣戰(zhàn)機(jī)就會(huì)一直處于一個(gè)不被制導(dǎo)波束照射的相對(duì)安全的狀態(tài),就可以成功突防)。因此,將認(rèn)知干擾決策問(wèn)題的戰(zhàn)術(shù)目的定義為:以最少的時(shí)間步使多功能雷達(dá)的雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài),目標(biāo)雷達(dá)狀態(tài)可以是一個(gè),也可以是多個(gè)。這樣的戰(zhàn)術(shù)目的存在著兩方面的要求:① 直接要求,雷達(dá)狀態(tài)最終要轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài);② 由實(shí)際戰(zhàn)場(chǎng)的實(shí)時(shí)性要求所帶來(lái)的隱含要求,即要以最少的時(shí)間轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài)。在強(qiáng)化學(xué)習(xí)中,每一個(gè)回合的結(jié)束都意味著雷達(dá)狀態(tài)轉(zhuǎn)移到了目標(biāo)雷達(dá)狀態(tài),同時(shí)也意味著已經(jīng)完成了第一個(gè)方面的要求。所以在后續(xù)的研究中,主要以完成單個(gè)回合所需的時(shí)間步數(shù)來(lái)衡量算法的性能,最少的時(shí)間步數(shù)意味著最少的時(shí)間和最短的決策路徑,此時(shí)的策略也就是最佳的干擾策略。

    強(qiáng)化學(xué)習(xí)的決策過(guò)程是一個(gè)序列決策的過(guò)程,不再拘泥于單次的干擾行動(dòng),能充分圍繞目標(biāo)的實(shí)現(xiàn)靈活地進(jìn)行干擾決策,提升決策優(yōu)勢(shì),這與美軍提出的決策中心戰(zhàn)和馬賽克戰(zhàn)的理念將更加契合。序列決策是一種考慮更為長(zhǎng)遠(yuǎn),也更加智能的決策方式,判斷決策好壞的唯一標(biāo)準(zhǔn)是最終的戰(zhàn)術(shù)目的是否達(dá)到,而不是決策過(guò)程中某一步所選干擾樣式所產(chǎn)生的干擾效果。在基于強(qiáng)化學(xué)習(xí)的干擾決策中,收益的設(shè)置主要是依據(jù)專家的經(jīng)驗(yàn)和強(qiáng)化學(xué)習(xí)的相關(guān)理論,并且需要與認(rèn)知干擾決策的戰(zhàn)術(shù)目的相一致,即能夠完成戰(zhàn)術(shù)目的干擾策略可以獲得最大的收益。收益只需在對(duì)抗開(kāi)始之前進(jìn)行設(shè)置即可,在電子對(duì)抗中構(gòu)建收益函數(shù)的難度遠(yuǎn)低于在線的干擾效果評(píng)估。采用收益反饋的方式去引導(dǎo)干擾決策系統(tǒng)學(xué)習(xí)最佳的干擾策略,就可以在雷達(dá)狀態(tài)轉(zhuǎn)移馬爾可夫模型的基礎(chǔ)上將認(rèn)知干擾決策過(guò)程建模為一個(gè)帶收益的MDP模型。在本文中,由于沒(méi)有先驗(yàn)的專家經(jīng)驗(yàn),簡(jiǎn)單地將雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài)的收益設(shè)置為100,其他情況下的收益設(shè)置為-1。這樣的收益設(shè)置,能保證強(qiáng)化學(xué)習(xí)的最佳策略滿足認(rèn)知干擾決策戰(zhàn)術(shù)目的兩方面的要求。

    認(rèn)知干擾決策的MDP模型如圖8所示,可用 {,,,}表示。,,,為MDP模型的四元組,其中是雷達(dá)狀態(tài)空間,是干擾樣式空間,是狀態(tài)轉(zhuǎn)移概率,是收益函數(shù)。對(duì)四元組詳細(xì)的定義如下:

    雷達(dá)狀態(tài)空間,:{=[,,…,]},雷達(dá)狀態(tài)空間中共有個(gè)雷達(dá)狀態(tài),=表示第個(gè)時(shí)間步的雷達(dá)狀態(tài)為,目標(biāo)雷達(dá)狀態(tài)記為,雷達(dá)狀態(tài)轉(zhuǎn)移至目標(biāo)雷達(dá)狀態(tài)代表一個(gè)干擾任務(wù)回合的結(jié)束。

    干擾樣式空間,:{=[,,…,]},干擾樣式空間共有種干擾樣式,=表示第個(gè)時(shí)間步的干擾樣式為。

    狀態(tài)轉(zhuǎn)移概率,在上文中用轉(zhuǎn)移概率(+1|)來(lái)描述雷達(dá)狀態(tài)間的馬爾可夫性,對(duì)于干擾方而言,采用何種干擾樣式進(jìn)行干擾是已知的,所以可以將狀態(tài)轉(zhuǎn)移概率寫(xiě)為={(+1|,)},(+1|,)表示在雷達(dá)狀態(tài)采取干擾樣式,雷達(dá)狀態(tài)轉(zhuǎn)移到+1的概率。

    收益函數(shù),:={(+1|)},(+1|)表示雷達(dá)狀態(tài)從轉(zhuǎn)移至+1干擾決策智能體獲得的收益,記為。收益函數(shù)為

    (4)

    圖8 認(rèn)知干擾決策的MDP模型Fig.8 MDP model of cognitive interference decision-making

    在認(rèn)知干擾決策的MDP模型中,干擾決策的目標(biāo)是尋找一個(gè)最佳干擾策略最大化累計(jì)收益,累計(jì)收益表示為=+1++2++3+…。其中,∈[0,1]為折扣率,表示未來(lái)的收益在當(dāng)前時(shí)刻的折現(xiàn)。干擾策略,即干擾決策系統(tǒng)選擇干擾樣式的方法,是雷達(dá)狀態(tài)到干擾樣式的映射:→。

    至此,雷達(dá)對(duì)抗中的認(rèn)知干擾決策問(wèn)題就被轉(zhuǎn)換為一個(gè)帶收益的MDP問(wèn)題,可以采用強(qiáng)化學(xué)習(xí)的方法來(lái)解決此類(lèi)問(wèn)題。

    3.2 基于Q-Learning的認(rèn)知干擾決策算法

    為了實(shí)現(xiàn)智能的序列決策,干擾機(jī)需要在對(duì)抗的過(guò)程中學(xué)習(xí)干擾策略,干擾策略是干擾機(jī)考慮長(zhǎng)遠(yuǎn)和智能的體現(xiàn),每一步中干擾樣式的選取都由干擾策略所決定。學(xué)習(xí)干擾策略的算法即認(rèn)知干擾決策算法。

    將雷達(dá)對(duì)抗中干擾機(jī)與多功能雷達(dá)的交互以圖9的形式展現(xiàn)。干擾機(jī)在當(dāng)前的時(shí)間步偵察到多功能雷達(dá)的雷達(dá)狀態(tài)為,干擾機(jī)根據(jù)雷達(dá)狀態(tài)的變換獲得收益,并在更新干擾策略后,采用干擾樣式對(duì)多功能雷達(dá)實(shí)施干擾,多功能雷達(dá)在受到干擾后,雷達(dá)狀態(tài)轉(zhuǎn)變?yōu)?span id="j5i0abt0b" class="subscript">+1,干擾機(jī)偵察到雷達(dá)狀態(tài)的變化并獲得收益+1,然后干擾機(jī)更新策略,并做出決策,如此反復(fù)迭代。干擾機(jī)就可以不斷地優(yōu)化干擾策略,使雷達(dá)狀態(tài)以最少的時(shí)間步轉(zhuǎn)換至目標(biāo)雷達(dá)狀態(tài)。這一交互的過(guò)程也就是強(qiáng)化學(xué)習(xí)的過(guò)程,考慮到雷達(dá)干擾決策問(wèn)題中干擾樣式-雷達(dá)狀態(tài)空間并不大,采用Q-Learning算法進(jìn)行認(rèn)知干擾決策。

    圖9 雷達(dá)對(duì)抗中的交互過(guò)程Fig.9 Interaction process in radar countermeasures

    在Q-Learning算法中,在狀態(tài)下依據(jù)策略選擇動(dòng)作所得到的累計(jì)收益期望被稱為狀態(tài)-動(dòng)作價(jià)值,記為(,)。(,)是選擇動(dòng)作的依據(jù),一般采用-greedy方法選擇動(dòng)作:

    (5)

    以1-的概率選擇使得當(dāng)前(,)達(dá)到最大的動(dòng)作,以的概率隨機(jī)選擇動(dòng)作,被稱為探索因子,用以平衡Q-Learning算法中的學(xué)習(xí)與探索。

    最佳策略滿足貝爾曼最優(yōu)方程:

    (,)=

    ∑(′,|,)[(,)+·max+(′,′)]

    (6)

    式中:′,′表示下一時(shí)刻的狀態(tài)和動(dòng)作;(′,|,)表示動(dòng)態(tài)環(huán)境特性;(,)表示關(guān)于狀態(tài)和動(dòng)作的函數(shù)。在Q-Learning中采用差分的方式對(duì)值進(jìn)行更新,不斷迭代直至(,)的值收斂就可以得到最佳策略;其表達(dá)式如下:

    (,)←(,)+[(,)+max(′,′)-(,)]

    (7)

    在雷達(dá)干擾決策問(wèn)題中,狀態(tài)即雷達(dá)狀態(tài),動(dòng)作即干擾機(jī)所采用的干擾樣式。在以上工作的基礎(chǔ)上,提出基于Q-Learning的認(rèn)知干擾決策算法如圖10所示。

    圖10 基于Q-Learning的認(rèn)知干擾決策算法Fig.10 Cognitive interference decision-making algorithm based on Q-Learning

    在實(shí)際的對(duì)抗過(guò)程中,可能需要經(jīng)歷多個(gè)任務(wù)回合才能讓認(rèn)知干擾決策系統(tǒng)學(xué)習(xí)到最佳的干擾策略。算法中展示的是在一個(gè)干擾任務(wù)回合中基于Q-Learning的干擾決策算法的實(shí)現(xiàn)過(guò)程,在干擾任務(wù)開(kāi)始之初,初始化的值表為0,干擾智能體對(duì)于干擾決策問(wèn)題毫無(wú)經(jīng)驗(yàn)。隨著時(shí)間步和任務(wù)回合數(shù)的增加,干擾智能體不斷學(xué)習(xí)到關(guān)于干擾決策的知識(shí),這種知識(shí)以值的形式存儲(chǔ)在表中,表在不斷地更新提升,干擾智能體就能在雷達(dá)干擾任務(wù)中做出越來(lái)越好的干擾決策,使雷達(dá)狀態(tài)以更少的時(shí)間步轉(zhuǎn)移到目標(biāo)雷達(dá)狀態(tài)。

    4 實(shí)驗(yàn)仿真和結(jié)果分析

    在實(shí)際的雷達(dá)對(duì)抗中,要實(shí)現(xiàn)對(duì)多功能雷達(dá)的認(rèn)知干擾,需要偵察感知、認(rèn)知干擾決策和干擾實(shí)施3個(gè)模塊相互配合,而本文研究的重點(diǎn)是認(rèn)知干擾決策模塊,所以實(shí)驗(yàn)仿真主要是為了驗(yàn)證基于Q-Learning的認(rèn)知干擾決策算法的性能。

    本節(jié)仿真了一個(gè)包含50個(gè)雷達(dá)狀態(tài)的多功能雷達(dá)模型,并假定認(rèn)知干擾決策系統(tǒng)可以選擇9種干擾樣式,雷達(dá)狀態(tài)與干擾樣式間的相互作用關(guān)系由隨機(jī)生成的狀態(tài)轉(zhuǎn)移矩陣決定,以驗(yàn)證基于Q-Learning的干擾決策算法的認(rèn)知特性,并測(cè)試其在不穩(wěn)定環(huán)境下的性能。

    4.1 仿真參數(shù)設(shè)置

    在本次實(shí)驗(yàn)中,仿真參數(shù)的設(shè)置分為多功能雷達(dá)狀態(tài)轉(zhuǎn)移模型的參數(shù)設(shè)置和干擾決策算法的參數(shù)設(shè)置。多功能雷達(dá)間的狀態(tài)按照概率={(+1|,)} 發(fā)生轉(zhuǎn)移,因此可以用一個(gè)××的三維矩陣描述在干擾樣式已知的情況下雷達(dá)狀態(tài)間的轉(zhuǎn)移關(guān)系,其中是干擾樣式的數(shù)量,是雷達(dá)狀態(tài)的數(shù)量,轉(zhuǎn)移矩陣的形式如圖11所示,由個(gè)×的矩陣構(gòu)成,分別是不同干擾樣式作用下的狀態(tài)轉(zhuǎn)移矩陣。

    圖11 多功能雷達(dá)的狀態(tài)轉(zhuǎn)移矩陣Fig.11 State transition matrix of multi-functional radar

    雷達(dá)狀態(tài)間的轉(zhuǎn)換情況可以用一張連通網(wǎng)絡(luò)來(lái)表示,采用python語(yǔ)言中的networks模塊生成隨機(jī)網(wǎng)絡(luò),如圖12(a)所示,網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)為一個(gè)雷達(dá)狀態(tài),節(jié)點(diǎn)間用線相連表示雷達(dá)狀態(tài)間能夠轉(zhuǎn)換,單向箭頭表示能夠單向轉(zhuǎn)換,雙向箭頭表示能夠雙向轉(zhuǎn)換。狀態(tài)間的轉(zhuǎn)移概率用均值為、方差為的高斯分布隨機(jī)生成,并且滿足∈[0,1],同一雷達(dá)狀態(tài)轉(zhuǎn)移到其他雷達(dá)狀態(tài)的概率之和為1。將初始雷達(dá)狀態(tài)設(shè)為1,目標(biāo)雷達(dá)狀態(tài)數(shù)量為1個(gè),設(shè)為,即=,=,收益函數(shù)可以表示為

    (8)

    圖12 仿真實(shí)驗(yàn)的雷達(dá)狀態(tài)轉(zhuǎn)換情況Fig.12 Radar state transition of simulation experiment

    此外,基于Q-Learning的認(rèn)知干擾算法的需要設(shè)置3個(gè)參數(shù),參數(shù)設(shè)置如表 1所示。

    表1 干擾決策算法參數(shù)設(shè)置

    4.2 干擾決策算法的認(rèn)知特性驗(yàn)證

    將用于生成狀態(tài)轉(zhuǎn)移矩陣的高斯分布均值設(shè)置為1,方差設(shè)置為0,則在該條件下生成的狀態(tài)轉(zhuǎn)移矩陣是穩(wěn)定環(huán)境下的狀態(tài)矩陣,即對(duì)多功能雷達(dá)施加某一干擾樣式后,雷達(dá)狀態(tài)的轉(zhuǎn)移是確定的,干擾決策的環(huán)境是平穩(wěn)的。而作為干擾方,無(wú)論環(huán)境是否平穩(wěn),環(huán)境參數(shù)都是未知的。在仿真生成的穩(wěn)定環(huán)境中,保持決策算法的參數(shù)不變,進(jìn)行20次蒙特卡羅實(shí)驗(yàn),結(jié)果如圖13所示。

    圖13 認(rèn)知干擾決策算法的性能表現(xiàn)Fig.13 Performance of cognitive interference decision- making algorithms

    圖13的橫坐標(biāo)為認(rèn)知干擾決策系統(tǒng)與多功能雷達(dá)交互的回合數(shù),縱坐標(biāo)為在每一個(gè)回合中到達(dá)目標(biāo)狀態(tài)所需步數(shù)。在整個(gè)干擾任務(wù)開(kāi)始之初,雷達(dá)狀態(tài)到達(dá)目標(biāo)雷達(dá)狀態(tài)所需的步數(shù)需要200步以上,經(jīng)過(guò)不斷的交互學(xué)習(xí),所需步數(shù)最終收斂到5步左右。這充分體現(xiàn)了基于Q-Learning的干擾決策算法的認(rèn)知特性,能夠在缺乏先驗(yàn)知識(shí)的未知環(huán)境中,通過(guò)與環(huán)境的交互學(xué)習(xí),不斷提升干擾策略。由于存在0.1的探索率,所以曲線最終不會(huì)完全收斂到5步(見(jiàn)圖12(b),5步是最佳干擾策略所需的步數(shù)),也不會(huì)絕對(duì)的光滑。

    用干擾路徑來(lái)描述干擾決策的結(jié)果,在算法收斂后,所得干擾路徑為→→→→,共5步。圖12(b)中,紅色的箭頭是模型已知情況下用dijkstra算法所求最短路徑,用雷達(dá)狀態(tài)轉(zhuǎn)移路徑可表示為→→→→→,一共進(jìn)行5次狀態(tài)轉(zhuǎn)移,與采用干擾路徑進(jìn)行干擾所得結(jié)果相一致,這表明認(rèn)知干擾決策算法學(xué)習(xí)到了最佳的干擾策略。

    4.3 不穩(wěn)定環(huán)境下的算法性能分析

    考慮到在實(shí)際的雷達(dá)對(duì)抗過(guò)程中,對(duì)多功能雷達(dá)施加干擾后,雷達(dá)狀態(tài)的轉(zhuǎn)移不一定遵循著必然的規(guī)律,雷達(dá)狀態(tài)可能會(huì)發(fā)生轉(zhuǎn)移,也有可能不轉(zhuǎn)移,即環(huán)境的不穩(wěn)定性。在本文的仿真實(shí)驗(yàn)中,通過(guò)生成雷達(dá)狀態(tài)轉(zhuǎn)移矩陣的高斯分布控制環(huán)境的不穩(wěn)定性,均值越接近1,方差越小,環(huán)境越穩(wěn)定,均值越接近0,方差越大,環(huán)境越不穩(wěn)定。本節(jié)實(shí)驗(yàn)中主要討論非平穩(wěn)環(huán)境對(duì)算法性能的影響,所以將方差固定為(130),通過(guò)改變均值來(lái)控制環(huán)境的不穩(wěn)定性。將均值分別設(shè)置為01,03,05,07,09,1,在雷達(dá)狀態(tài)連通網(wǎng)絡(luò)相同的情況下,采用相同的干擾決策算法進(jìn)行仿真實(shí)驗(yàn),每一次改變值,進(jìn)行20次蒙特卡羅實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖14所示。

    圖14 不同穩(wěn)定性環(huán)境下認(rèn)知干擾決策算法性能對(duì)比Fig.14 Performance comparison of cognitive interference decision- making algorithm in different stable environment

    隨著值的不斷減小,曲線的起伏越來(lái)越劇烈,收斂所需的回合數(shù)不斷增加,每次回合所需的步數(shù)也越來(lái)越多,這意味著在戰(zhàn)場(chǎng)上,認(rèn)知干擾決策系統(tǒng)需要花費(fèi)更多的時(shí)間與多功能雷達(dá)交互更多的次數(shù)才能獲得最佳的干擾策略,即環(huán)境的穩(wěn)定越差,干擾決策算法學(xué)習(xí)的難度越大。但是從圖14中也可以看出,值小于等于0.3時(shí),干擾決策算法都能在400個(gè)回合收斂或者近似收斂,即使是值等于0.1時(shí),不能在400個(gè)回合內(nèi)收斂,其趨勢(shì)仍是向著收斂的方向發(fā)展,這表明基于Q-Learning算法在穩(wěn)定性極差的環(huán)境中,也具有良好的適應(yīng)性。

    在圖14的局部放大圖中,在不同穩(wěn)定性的環(huán)境下,干擾決策算法最終收斂的所需步數(shù)是不同的。其統(tǒng)計(jì)如表 2所示,環(huán)境穩(wěn)定性越差,最終收斂的步數(shù)越大,這是因?yàn)榄h(huán)境越不穩(wěn)定,決策產(chǎn)生最佳干擾路徑的概率就會(huì)越小。

    表2 不同μ值下干擾決策算法收斂時(shí)的步數(shù)

    總之,在非穩(wěn)定的環(huán)境中,盡管學(xué)習(xí)的難度會(huì)增大,但基于Q-Learning的認(rèn)知干擾決策算法還是能將到達(dá)目標(biāo)狀態(tài)的所需步數(shù)下降到一個(gè)可觀的范圍,這表明本文所提的認(rèn)知干擾決策算法具有較強(qiáng)的適應(yīng)性。

    5 結(jié)束語(yǔ)

    本文研究的核心問(wèn)題是認(rèn)知干擾決策問(wèn)題,所有內(nèi)容圍繞著認(rèn)知干擾決策問(wèn)題展開(kāi)。首先,作為干擾決策的前端,偵察感知應(yīng)該為干擾決策提供什么樣的信息?對(duì)此,本文提出了雷達(dá)功能和雷達(dá)短語(yǔ)聯(lián)合表征雷達(dá)狀態(tài)的方法,在理論上能為干擾決策提供充足的信息且簡(jiǎn)單易行。其次,認(rèn)知的閉環(huán)是怎么樣的,認(rèn)知干擾決策的系統(tǒng)應(yīng)如何設(shè)計(jì)?本文設(shè)計(jì)的認(rèn)知干擾決策系統(tǒng)不同于傳統(tǒng)的OODA閉環(huán)系統(tǒng),在整個(gè)系統(tǒng)中沒(méi)有了干擾評(píng)估環(huán)節(jié),認(rèn)知干擾決策將不再拘泥于單次的干擾效能最大化,而是進(jìn)行更長(zhǎng)遠(yuǎn)的序列決策,以收益函數(shù)為牽引尋求電磁戰(zhàn)場(chǎng)上的決策優(yōu)勢(shì)。最后,本文以強(qiáng)化學(xué)習(xí)中Q-Learning算法為基礎(chǔ),設(shè)計(jì)了基于Q-Learning認(rèn)知干擾決策算法,能在缺少先驗(yàn)信息的情況下,自主學(xué)習(xí)達(dá)到最佳干擾策略,并且在不穩(wěn)定的環(huán)境下也具有較好的決策性能。

    當(dāng)然,現(xiàn)實(shí)的世界是復(fù)雜的,本文的建模過(guò)程難免損失真實(shí)世界的一些細(xì)節(jié),將這些細(xì)節(jié)補(bǔ)充完整,設(shè)計(jì)更貼近真實(shí)世界的模型是下一步工作的方向之一。在強(qiáng)化學(xué)習(xí)中,提升算法收斂速度一直是一個(gè)經(jīng)久不衰的問(wèn)題,因此如何結(jié)合雷達(dá)對(duì)抗領(lǐng)域的特點(diǎn),因地制宜,更好地解決這個(gè)問(wèn)題,關(guān)系到相關(guān)理論研究能否應(yīng)用于工程實(shí)踐,值得進(jìn)一步研究。認(rèn)知干擾決策的問(wèn)題是一個(gè)龐大復(fù)雜的問(wèn)題,對(duì)其研究應(yīng)該遵循科學(xué)的規(guī)律,循序漸進(jìn)。本文將問(wèn)題封閉在一個(gè)足夠小的空間,即多功能雷達(dá)作為威脅對(duì)象,主要進(jìn)行干擾樣式的選擇,只有將一個(gè)個(gè)這樣的小空間不斷地?cái)U(kuò)張并拼湊在一起,才能最終實(shí)現(xiàn)真正的認(rèn)知干擾決策。而選取干擾樣式后更進(jìn)一步的干擾波形優(yōu)化與最終干擾能力的生成密切相關(guān),可以作為今后深入研究的一個(gè)方向。

    猜你喜歡
    短語(yǔ)雷達(dá)決策
    有雷達(dá)
    大自然探索(2023年7期)2023-08-15 00:48:21
    為可持續(xù)決策提供依據(jù)
    決策為什么失誤了
    雷達(dá)
    基于空時(shí)二維隨機(jī)輻射場(chǎng)的彈載雷達(dá)前視成像
    現(xiàn)代“千里眼”——雷達(dá)
    關(guān)于抗美援朝出兵決策的幾點(diǎn)認(rèn)識(shí)
    軍事歷史(1997年5期)1997-08-21 02:36:06
    湘贛邊秋收起義的決策經(jīng)過(guò)
    軍事歷史(1991年5期)1991-08-16 02:17:34
    404 Not Found

    404 Not Found


    nginx
    久久久久久久久大av| 高清视频免费观看一区二区| 亚洲av免费高清在线观看| 国精品久久久久久国模美| 中国国产av一级| 亚洲国产精品专区欧美| 在线观看免费日韩欧美大片 | 国产乱人偷精品视频| 最近2019中文字幕mv第一页| 在现免费观看毛片| 久久韩国三级中文字幕| 啦啦啦视频在线资源免费观看| 国产精品欧美亚洲77777| 我的女老师完整版在线观看| 婷婷色综合大香蕉| 成人黄色视频免费在线看| 国产永久视频网站| 日本-黄色视频高清免费观看| 亚洲,欧美,日韩| 成年女人在线观看亚洲视频| 中文字幕人妻熟人妻熟丝袜美| 成人二区视频| 乱系列少妇在线播放| 久久久久网色| 午夜免费鲁丝| 在线观看国产h片| 国产精品欧美亚洲77777| 国产在线一区二区三区精| 伊人久久国产一区二区| 亚洲精品一区蜜桃| 中文字幕制服av| 久久久久久久国产电影| 国产一级毛片在线| 一级av片app| 欧美日韩av久久| 成人无遮挡网站| 国产精品一区二区在线不卡| 日日啪夜夜撸| 国产亚洲5aaaaa淫片| 纵有疾风起免费观看全集完整版| 午夜福利在线观看免费完整高清在| 女性生殖器流出的白浆| 久久av网站| 中国美白少妇内射xxxbb| 青春草视频在线免费观看| 国产色爽女视频免费观看| 黑人巨大精品欧美一区二区蜜桃 | 色5月婷婷丁香| 久久av网站| 97超碰精品成人国产| 97超碰精品成人国产| 午夜视频国产福利| 另类亚洲欧美激情| 秋霞伦理黄片| 日韩成人伦理影院| 日韩成人伦理影院| 不卡视频在线观看欧美| 色5月婷婷丁香| 国产精品三级大全| 精品熟女少妇av免费看| 最近中文字幕2019免费版| 免费av不卡在线播放| 麻豆成人av视频| 伦精品一区二区三区| 在线播放无遮挡| 欧美激情国产日韩精品一区| 亚洲精华国产精华液的使用体验| h视频一区二区三区| 日韩一区二区视频免费看| 免费黄频网站在线观看国产| 又爽又黄a免费视频| av在线老鸭窝| 免费少妇av软件| 亚洲人成网站在线观看播放| videos熟女内射| 夜夜爽夜夜爽视频| 少妇被粗大的猛进出69影院 | 熟女电影av网| 黑丝袜美女国产一区| 国产av精品麻豆| 永久免费av网站大全| 国产免费福利视频在线观看| 成人午夜精彩视频在线观看| 欧美一级a爱片免费观看看| 国产精品麻豆人妻色哟哟久久| 国产精品嫩草影院av在线观看| 亚洲欧美日韩卡通动漫| 日韩制服骚丝袜av| 26uuu在线亚洲综合色| 3wmmmm亚洲av在线观看| 欧美精品一区二区免费开放| 日本色播在线视频| 一区在线观看完整版| 欧美日韩精品成人综合77777| 亚洲天堂av无毛| 亚洲精品日韩av片在线观看| 精品久久久久久电影网| 桃花免费在线播放| 亚洲伊人久久精品综合| 亚洲av成人精品一二三区| 最黄视频免费看| 亚洲美女视频黄频| 色吧在线观看| 十分钟在线观看高清视频www | 久久99热这里只频精品6学生| 视频中文字幕在线观看| 久久99热这里只频精品6学生| 免费观看无遮挡的男女| 国产免费视频播放在线视频| 亚洲欧美日韩卡通动漫| 成人无遮挡网站| 丝袜脚勾引网站| 在现免费观看毛片| 熟女人妻精品中文字幕| 国产美女午夜福利| av专区在线播放| 免费少妇av软件| 赤兔流量卡办理| 久久毛片免费看一区二区三区| 久久精品国产亚洲av涩爱| 黄色一级大片看看| 国产精品.久久久| 国产有黄有色有爽视频| 中文字幕人妻丝袜制服| 91久久精品电影网| 日韩av不卡免费在线播放| 欧美精品一区二区免费开放| 亚洲天堂av无毛| 亚洲av.av天堂| 草草在线视频免费看| 狂野欧美激情性xxxx在线观看| 国产片特级美女逼逼视频| 99久久人妻综合| 亚洲久久久国产精品| 三级国产精品欧美在线观看| 一区在线观看完整版| 国国产精品蜜臀av免费| 啦啦啦视频在线资源免费观看| 美女内射精品一级片tv| 欧美 亚洲 国产 日韩一| 午夜激情福利司机影院| 日韩一区二区三区影片| 亚洲图色成人| 国产成人精品一,二区| 精品久久久噜噜| 国产成人一区二区在线| 女性生殖器流出的白浆| 你懂的网址亚洲精品在线观看| 男女啪啪激烈高潮av片| av免费观看日本| 日本wwww免费看| 日韩av免费高清视频| 视频中文字幕在线观看| 午夜91福利影院| 国产精品嫩草影院av在线观看| 性色av一级| av线在线观看网站| 在线观看一区二区三区激情| 国产在线男女| 欧美人与善性xxx| 全区人妻精品视频| 精品人妻偷拍中文字幕| 日本av免费视频播放| 一区二区av电影网| 一边亲一边摸免费视频| 青春草亚洲视频在线观看| 大片免费播放器 马上看| 亚洲欧美一区二区三区国产| 午夜老司机福利剧场| 99久久精品国产国产毛片| 青春草国产在线视频| 亚洲不卡免费看| 精品视频人人做人人爽| 国产伦在线观看视频一区| .国产精品久久| 亚洲精品亚洲一区二区| 亚洲av男天堂| 久久ye,这里只有精品| 国产av国产精品国产| 亚洲国产色片| 国产精品久久久久久精品古装| 丝袜喷水一区| 国产成人一区二区在线| 你懂的网址亚洲精品在线观看| 免费高清在线观看视频在线观看| 精品一区二区免费观看| 一边亲一边摸免费视频| 嫩草影院入口| 国产亚洲一区二区精品| 亚洲av在线观看美女高潮| 久久毛片免费看一区二区三区| 成人亚洲精品一区在线观看| 久久99一区二区三区| 成人国产麻豆网| 狂野欧美激情性xxxx在线观看| 男男h啪啪无遮挡| 亚洲精品第二区| 十八禁高潮呻吟视频 | 亚洲av成人精品一二三区| 成人影院久久| 热re99久久国产66热| 一级黄片播放器| 国产色爽女视频免费观看| 黄色配什么色好看| 国产免费一级a男人的天堂| 日韩伦理黄色片| 成人影院久久| 欧美 亚洲 国产 日韩一| 国产亚洲一区二区精品| 国产精品麻豆人妻色哟哟久久| 高清视频免费观看一区二区| 天天操日日干夜夜撸| 亚洲av成人精品一二三区| 国产精品三级大全| 欧美日韩国产mv在线观看视频| 狂野欧美白嫩少妇大欣赏| 亚洲图色成人| 久久毛片免费看一区二区三区| 一级毛片黄色毛片免费观看视频| 欧美日韩视频精品一区| 成人国产av品久久久| 2018国产大陆天天弄谢| 久久久久久久久久人人人人人人| 精品国产一区二区三区久久久樱花| 亚洲精品亚洲一区二区| 精品久久久久久电影网| 国产黄片视频在线免费观看| 欧美xxxx性猛交bbbb| videos熟女内射| 高清视频免费观看一区二区| 成人毛片60女人毛片免费| 成人国产麻豆网| 亚洲精品国产成人久久av| 嫩草影院入口| 在线观看www视频免费| 亚洲av成人精品一区久久| 久久久国产精品麻豆| 欧美日韩视频精品一区| 美女xxoo啪啪120秒动态图| 老司机影院成人| 乱人伦中国视频| 久久久久久久久久成人| 亚洲精品久久久久久婷婷小说| 亚洲av福利一区| 热re99久久国产66热| 另类精品久久| 色5月婷婷丁香| 亚洲精品aⅴ在线观看| 少妇被粗大猛烈的视频| 在线观看美女被高潮喷水网站| 狂野欧美激情性bbbbbb| 黄色欧美视频在线观看| 九草在线视频观看| 国产亚洲5aaaaa淫片| 丰满乱子伦码专区| 成人无遮挡网站| 欧美成人精品欧美一级黄| 国产av一区二区精品久久| 美女大奶头黄色视频| 国产欧美另类精品又又久久亚洲欧美| 国产免费一区二区三区四区乱码| 另类精品久久| 日韩欧美一区视频在线观看 | 国国产精品蜜臀av免费| 国产综合精华液| 日本黄色片子视频| 久久这里有精品视频免费| 寂寞人妻少妇视频99o| 少妇人妻久久综合中文| 少妇裸体淫交视频免费看高清| 国产美女午夜福利| 国产免费又黄又爽又色| 色94色欧美一区二区| 最黄视频免费看| 免费大片18禁| a 毛片基地| 精品一区二区三卡| 亚洲欧美一区二区三区黑人 | 亚洲欧洲日产国产| 99久国产av精品国产电影| 亚洲精品乱码久久久v下载方式| 久久精品国产亚洲av涩爱| 国产精品偷伦视频观看了| 国产高清国产精品国产三级| 亚洲人与动物交配视频| 黄色欧美视频在线观看| 大陆偷拍与自拍| 又大又黄又爽视频免费| 久久99热这里只频精品6学生| 三级国产精品片| 99久久精品一区二区三区| 国产成人精品无人区| 777米奇影视久久| av不卡在线播放| 91成人精品电影| 女性生殖器流出的白浆| 又大又黄又爽视频免费| 亚洲高清免费不卡视频| 内地一区二区视频在线| 女人久久www免费人成看片| 国产欧美日韩综合在线一区二区 | 亚洲精品中文字幕在线视频 | 亚洲精品自拍成人| 91久久精品国产一区二区三区| 下体分泌物呈黄色| 大又大粗又爽又黄少妇毛片口| 亚洲国产精品一区二区三区在线| 少妇人妻久久综合中文| 六月丁香七月| 免费黄网站久久成人精品| 亚洲成色77777| 国产成人免费观看mmmm| av不卡在线播放| 国产一区有黄有色的免费视频| 色5月婷婷丁香| 亚洲熟女精品中文字幕| 久久97久久精品| 日日啪夜夜爽| av福利片在线观看| 99久久中文字幕三级久久日本| 五月天丁香电影| 亚洲丝袜综合中文字幕| 日产精品乱码卡一卡2卡三| 亚洲情色 制服丝袜| 如何舔出高潮| 成人免费观看视频高清| 亚洲av成人精品一二三区| 在线观看免费高清a一片| 伊人久久国产一区二区| 精品熟女少妇av免费看| 亚洲欧洲日产国产| 国产精品一二三区在线看| 亚洲在久久综合| 观看av在线不卡| 能在线免费看毛片的网站| 亚洲国产毛片av蜜桃av| 亚洲av日韩在线播放| 欧美精品国产亚洲| 国产老妇伦熟女老妇高清| h视频一区二区三区| 欧美亚洲 丝袜 人妻 在线| 综合色丁香网| 黑人巨大精品欧美一区二区蜜桃 | 色婷婷久久久亚洲欧美| 免费观看的影片在线观看| 精品一区二区三卡| 国内少妇人妻偷人精品xxx网站| 国产亚洲最大av| 三级国产精品片| 欧美激情国产日韩精品一区| 国产 一区精品| 美女内射精品一级片tv| 国产色婷婷99| 亚洲av国产av综合av卡| 啦啦啦视频在线资源免费观看| 老女人水多毛片| 天天操日日干夜夜撸| 美女xxoo啪啪120秒动态图| 亚洲精品国产av蜜桃| 国产高清不卡午夜福利| 国产精品人妻久久久影院| a 毛片基地| 不卡视频在线观看欧美| 国产一区二区在线观看av| 午夜福利影视在线免费观看| 日韩视频在线欧美| 天天操日日干夜夜撸| 在线观看国产h片| 国产精品伦人一区二区| 国产白丝娇喘喷水9色精品| www.色视频.com| 一本一本综合久久| 国产精品人妻久久久久久| 国产熟女午夜一区二区三区 | 欧美日韩视频高清一区二区三区二| 嘟嘟电影网在线观看| 精品国产一区二区三区久久久樱花| 久久久国产一区二区| 欧美丝袜亚洲另类| 亚洲成人av在线免费| 一级a做视频免费观看| 啦啦啦啦在线视频资源| 不卡视频在线观看欧美| 亚洲av.av天堂| 国产淫片久久久久久久久| 两个人免费观看高清视频 | 国产 精品1| 欧美+日韩+精品| 国产一区二区在线观看av| 亚洲四区av| 人人妻人人看人人澡| 日韩精品有码人妻一区| 日本欧美国产在线视频| 久久毛片免费看一区二区三区| 国产一区二区在线观看日韩| 能在线免费看毛片的网站| 日韩电影二区| 欧美bdsm另类| 在现免费观看毛片| 欧美激情国产日韩精品一区| 色吧在线观看| 少妇 在线观看| 久久久国产精品麻豆| 2018国产大陆天天弄谢| 欧美成人精品欧美一级黄| 纵有疾风起免费观看全集完整版| 色视频在线一区二区三区| 一个人免费看片子| 在线观看免费日韩欧美大片 | 日日爽夜夜爽网站| 免费少妇av软件| 观看av在线不卡| 热99国产精品久久久久久7| 熟女av电影| 色吧在线观看| 国产无遮挡羞羞视频在线观看| 九九在线视频观看精品| 成人特级av手机在线观看| 亚洲美女搞黄在线观看| 久久久亚洲精品成人影院| 99久久综合免费| 欧美高清成人免费视频www| 日日撸夜夜添| 国产日韩欧美视频二区| 黄色日韩在线| 91久久精品国产一区二区三区| 自线自在国产av| 永久网站在线| 亚洲精品久久午夜乱码| 涩涩av久久男人的天堂| 这个男人来自地球电影免费观看 | 日本黄大片高清| 国产综合精华液| 一级爰片在线观看| 国产精品福利在线免费观看| 国模一区二区三区四区视频| 国产av一区二区精品久久| 极品人妻少妇av视频| 久久精品国产亚洲网站| 插逼视频在线观看| av国产精品久久久久影院| 黄色欧美视频在线观看| 成人黄色视频免费在线看| 亚洲av免费高清在线观看| 国产探花极品一区二区| 午夜激情久久久久久久| 免费黄网站久久成人精品| 婷婷色麻豆天堂久久| 日韩免费高清中文字幕av| 久久久久久久久久成人| 亚洲内射少妇av| 伊人久久国产一区二区| 一区二区三区精品91| 在线 av 中文字幕| 久久久久久久久久久免费av| 一级毛片电影观看| 精品亚洲成a人片在线观看| 街头女战士在线观看网站| 高清欧美精品videossex| 国产一区二区三区综合在线观看 | 观看免费一级毛片| 成人黄色视频免费在线看| 曰老女人黄片| 久久久久久久久久久免费av| 亚洲欧洲精品一区二区精品久久久 | 日日爽夜夜爽网站| 99久久精品一区二区三区| 美女国产视频在线观看| 性色av一级| 午夜福利网站1000一区二区三区| 亚洲,一卡二卡三卡| 人人妻人人看人人澡| 色吧在线观看| 亚洲av综合色区一区| 三级国产精品欧美在线观看| 国产精品嫩草影院av在线观看| 又爽又黄a免费视频| 免费观看a级毛片全部| 狂野欧美白嫩少妇大欣赏| 欧美区成人在线视频| 国产男女内射视频| av线在线观看网站| 免费人妻精品一区二区三区视频| 男人和女人高潮做爰伦理| 黄色一级大片看看| 我要看日韩黄色一级片| 夜夜爽夜夜爽视频| 色婷婷av一区二区三区视频| 丝袜在线中文字幕| 国产精品国产三级专区第一集| 亚洲美女视频黄频| 狂野欧美白嫩少妇大欣赏| 国产有黄有色有爽视频| 久久97久久精品| 国产伦理片在线播放av一区| 午夜久久久在线观看| 国产色爽女视频免费观看| 日本午夜av视频| 51国产日韩欧美| 国产成人精品久久久久久| 18禁在线无遮挡免费观看视频| 欧美+日韩+精品| 免费av中文字幕在线| 丁香六月天网| 人人妻人人澡人人看| 婷婷色av中文字幕| 亚洲av国产av综合av卡| 麻豆成人午夜福利视频| 夜夜看夜夜爽夜夜摸| videossex国产| 欧美人与善性xxx| 国产亚洲最大av| 久久精品熟女亚洲av麻豆精品| 日韩三级伦理在线观看| 高清在线视频一区二区三区| 一区在线观看完整版| 国产精品一区www在线观看| 99视频精品全部免费 在线| 国精品久久久久久国模美| 中国美白少妇内射xxxbb| 黑人猛操日本美女一级片| 美女中出高潮动态图| 色吧在线观看| 内地一区二区视频在线| 国产一区二区三区av在线| 99久久精品国产国产毛片| 全区人妻精品视频| 最后的刺客免费高清国语| av有码第一页| 久久久久久久精品精品| 国产精品不卡视频一区二区| 丰满乱子伦码专区| 亚洲丝袜综合中文字幕| 久久人人爽人人爽人人片va| 观看免费一级毛片| 色吧在线观看| 涩涩av久久男人的天堂| 日本vs欧美在线观看视频 | av网站免费在线观看视频| 一本久久精品| 国产男女超爽视频在线观看| 男男h啪啪无遮挡| 日韩,欧美,国产一区二区三区| 少妇裸体淫交视频免费看高清| 亚洲精品一二三| 青春草亚洲视频在线观看| 成人午夜精彩视频在线观看| 九色成人免费人妻av| 精品一区二区三卡| 一级片'在线观看视频| 久久国产精品男人的天堂亚洲 | 中文字幕久久专区| 爱豆传媒免费全集在线观看| 国产日韩欧美亚洲二区| 美女国产视频在线观看| 亚洲精品一区蜜桃| 日本vs欧美在线观看视频 | 国产一区二区在线观看日韩| 丝袜在线中文字幕| av免费观看日本| 成人二区视频| 国产黄色免费在线视频| 麻豆乱淫一区二区| 这个男人来自地球电影免费观看 | 看非洲黑人一级黄片| 国产乱来视频区| 国产亚洲5aaaaa淫片| 国产视频内射| 国产一区二区三区av在线| 亚洲成人一二三区av| 欧美日韩在线观看h| 国产亚洲一区二区精品| 国产精品偷伦视频观看了| 韩国高清视频一区二区三区| 亚洲精品久久久久久婷婷小说| 99热全是精品| 久久99精品国语久久久| 国产乱来视频区| 免费人妻精品一区二区三区视频| 日本黄色片子视频| 国产真实伦视频高清在线观看| 成人二区视频| 欧美日韩精品成人综合77777| 久久久久久久国产电影| 人人妻人人澡人人看| 极品少妇高潮喷水抽搐| 色吧在线观看| 一级爰片在线观看| 日本猛色少妇xxxxx猛交久久| 80岁老熟妇乱子伦牲交| 18禁在线播放成人免费| 精品人妻熟女毛片av久久网站| av在线播放精品| 久久国产精品大桥未久av | 人妻制服诱惑在线中文字幕| 国产成人免费无遮挡视频| 亚洲成人av在线免费| 国产亚洲精品久久久com| 午夜福利网站1000一区二区三区| 最近2019中文字幕mv第一页| 亚洲激情五月婷婷啪啪| 日本黄色片子视频| 精品久久久久久久久亚洲| 亚洲美女搞黄在线观看| 日本vs欧美在线观看视频 | 精品久久久久久电影网| 久久久久久久亚洲中文字幕| 亚洲国产欧美在线一区| 欧美变态另类bdsm刘玥| 偷拍熟女少妇极品色| 国产成人精品福利久久| 91久久精品国产一区二区成人| 免费av不卡在线播放| 欧美 亚洲 国产 日韩一| a级毛片在线看网站|