張應(yīng)奎 孫國皓* 鐘蘇川 余顯祥
①(四川大學(xué)空天科學(xué)與工程學(xué)院 成都 610207)
②(電子科技大學(xué)信息與通信工程學(xué)院 成都 611731)
在對雜波環(huán)境信息感知的基礎(chǔ)上,認(rèn)知雷達(dá)可通過主動發(fā)射波形的方式,充分挖掘目標(biāo)與雜波信息之間的差異性,并通過優(yōu)化配置波形參數(shù)擴(kuò)大該差異,提高雜波抑制和目標(biāo)檢測性能。相較于傳統(tǒng)雷達(dá),認(rèn)知雷達(dá)具有更高的自由度和靈活度,現(xiàn)已成為雷達(dá)雜波抑制的主要技術(shù)途徑之一。
現(xiàn)有認(rèn)知雷達(dá)波形設(shè)計主要利用精確完整的雜波先驗數(shù)據(jù),形成兩大類準(zhǔn)則的設(shè)計方法。一是最大化輸出信雜噪比(Signal to Clutter plus Noise Ratio,SCNR)準(zhǔn)則,如Tang等人[1,2]利用精細(xì)化的雜波先驗數(shù)據(jù),基于松弛方法解決了雜波環(huán)境下MIMO (Multiple Inputs Multiple Outputs)雷達(dá)波形與濾波器聯(lián)合設(shè)計中的非凸優(yōu)化問題。為了高效求解上述非凸性難題,Yu等人[3]提出了基于ADMM(Alternating Direction Method of Multipliers)的MIMO雷達(dá)波形多約束優(yōu)化快速實現(xiàn)方法。在此基礎(chǔ)上,Wu等人[4]研究了基于MM (Majorization-Minimization)的加速算法,有效提升了發(fā)射波形與接收濾波器權(quán)聯(lián)合設(shè)計的雜波抑制性能。此外,O’Rourke等人[5]采用二次優(yōu)化和半正定松弛方法提升了收發(fā)聯(lián)合設(shè)計的目標(biāo)檢測性能。然而上述方法所采用的先驗數(shù)據(jù)需要精確已知各個雜波塊的幅相特征,當(dāng)雜波先驗數(shù)據(jù)存在缺失時,所構(gòu)建的雜波模型會嚴(yán)重失配,進(jìn)而影響雷達(dá)對雜波的抑制能力。二是基于信息量的優(yōu)化準(zhǔn)則,通過從回波信號中最大化提取目標(biāo)信息量,提升目標(biāo)檢測性能。如Tang等人[6]研究了雜波環(huán)境下基于信息相關(guān)熵的MIMO雷達(dá)波形設(shè)計方法;何子述團(tuán)隊[7,8]針對機(jī)載雷達(dá)雜波環(huán)境,依據(jù)最大化互信息量(Mutual Information,MI)準(zhǔn)則,提出了多約束條件下的波形與STAP (Space-Time Adaptive Processing)濾波器聯(lián)合設(shè)計方法。但該類方法仍然依賴于精確完整的先驗雜波協(xié)方差矩陣,在數(shù)據(jù)缺失條件下難以設(shè)計出優(yōu)效的雷達(dá)波形。
從上述研究動態(tài)可以看出,現(xiàn)有波形優(yōu)化方法往往需要精細(xì)到每個雜波片的幅頻相信息[9,10]。因此,在數(shù)據(jù)信息不完整/缺失條件下,上述方法存在模型失配效應(yīng),會嚴(yán)重削弱雷達(dá)的雜波抑制性能。
信息缺失在雷達(dá)信號處理中為常見現(xiàn)象[11-13],主要原因包括:
(1) 當(dāng)可用通道數(shù)小于陣列個數(shù)時,雷達(dá)通常采用切換器切換數(shù)據(jù)接收通道。一般情況下,該切換機(jī)制是隨機(jī)選取的,從數(shù)學(xué)角度上看,這無異于將完整數(shù)據(jù)“穿孔”,得到一個尺寸縮小的不完整向量[11]。
(2) 先驗數(shù)據(jù)信息在采集時,易受到氣候、采集設(shè)備和其他電磁頻譜設(shè)備等干擾的影響,導(dǎo)致采集到的數(shù)據(jù)與真實數(shù)據(jù)之間存在偏差;用戶在使用時需將干擾數(shù)據(jù)剔除掉,而剔除過程會造成信息的缺失。
(3) 故障傳感器通道內(nèi)的噪聲脈沖、模數(shù)轉(zhuǎn)換器故障等導(dǎo)致部分陣列達(dá)到飽和狀態(tài),從而造成數(shù)據(jù)缺失[14];雷達(dá)材料、環(huán)境、機(jī)械故障等情況亦有可能引起數(shù)據(jù)的失效[15]。
現(xiàn)有針對數(shù)據(jù)缺失的雷達(dá)信號處理方法主要集中于協(xié)方差矩陣估計、波束形成、目標(biāo)檢測等領(lǐng)域[16-18]。針對數(shù)據(jù)不完整條件下高維參數(shù)的優(yōu)化問題,主要有兩種解決途徑:一種是補(bǔ)全雷達(dá)數(shù)據(jù)缺失部分[19],該類方法在補(bǔ)全過程中通過添加專家的合理性判斷,在一定程度上保證其可信性。如Aubry等人[11]基于雜波協(xié)方差矩陣的結(jié)構(gòu)信息,采用Expectation-Maximization算法設(shè)計了數(shù)據(jù)缺失條件下的參數(shù)估計方法;Pavez等人[13]針對數(shù)據(jù)缺失分布的不同機(jī)制,提出了一種無偏協(xié)方差估計器,獲得不同缺失條件下的估計誤差界限;Liu等人[20]針對單調(diào)數(shù)據(jù)缺失模式研究了基于最大似然和正則化魯棒的估計器,提高了算法的收斂速度和估計精度;此外,劉宏偉團(tuán)隊[21]基于遷移學(xué)習(xí)算法,完成了對步進(jìn)頻雷達(dá)不完整波形數(shù)據(jù)的補(bǔ)全。另一種解決途徑是通過與復(fù)雜環(huán)境的交互訓(xùn)練,直接得到雷達(dá)參數(shù)的優(yōu)化策略,即端到端的波形訓(xùn)練方法[21,22]。例如Jiang等人[23]在多約束條件下,研究了基于端到端的波形與檢測器權(quán)值聯(lián)合優(yōu)化方法,然而該訓(xùn)練過程依賴于大量完整的數(shù)據(jù)樣本,尚未考慮數(shù)據(jù)缺失條件下的優(yōu)化問題。綜上所述,現(xiàn)有工作多集中在數(shù)據(jù)缺失參數(shù)估計問題上,鮮有涉及數(shù)據(jù)缺失條件下波形設(shè)計方法的研究。
因此,本文主要針對完全隨機(jī)缺失機(jī)制下的雜波數(shù)據(jù),基于強(qiáng)化學(xué)習(xí)對未知環(huán)境的高效探索和學(xué)習(xí)能力,提出優(yōu)先級填充-強(qiáng)化學(xué)習(xí)級聯(lián)優(yōu)化的雷達(dá)波形訓(xùn)練方法。該方法將缺失數(shù)據(jù)恢復(fù)與波形設(shè)計有機(jī)結(jié)合,通過智能體與雜波環(huán)境的不斷交互,尋求波形參數(shù)的最優(yōu)配置。其難點(diǎn)主要體現(xiàn)為:一是數(shù)據(jù)缺失條件下的波形設(shè)計建模方法;二是雷達(dá)波形設(shè)計中非凸問題的求解。針對上述難點(diǎn),本文主要工作與創(chuàng)新點(diǎn)體現(xiàn)在以下幾個方面:
(1) 本文建立了數(shù)據(jù)缺失條件下的波形設(shè)計問題模型,提出了基于優(yōu)先級填充-強(qiáng)化學(xué)習(xí)兩級級聯(lián)的波形優(yōu)化求解方法;該方法通過強(qiáng)化學(xué)習(xí)與填充算法所構(gòu)建的環(huán)境交互訓(xùn)練,決策輸出最大信雜噪比下的波形參數(shù);
(2) 本文考慮了完全隨機(jī)缺失機(jī)制,即數(shù)據(jù)的缺失與否與數(shù)據(jù)自身值無關(guān),并通過仿真分別驗證了點(diǎn)狀缺失與塊狀缺失場景下(類比文獻(xiàn)[11]中的缺失場景)所提算法雜波抑制能力;
(3) 本文所提算法可實現(xiàn)恒模、相似性約束下的波形優(yōu)化。
下面分別從雜波數(shù)據(jù)缺失條件下波形設(shè)計模型、雷達(dá)波形級聯(lián)優(yōu)化算法,以及算法仿真等方面展開介紹。
本節(jié)首先根據(jù)完全隨機(jī)缺失機(jī)制的定義,設(shè)置兩種常見的先驗數(shù)據(jù)缺失場景,建立恒模與相似性約束下的雷達(dá)波形設(shè)計問題模型;然后將波形設(shè)計過程與狀態(tài)-動作-獎勵的動態(tài)規(guī)劃結(jié)合,進(jìn)一步構(gòu)建雜波環(huán)境下波形設(shè)計的馬爾可夫決策模型,為雷達(dá)波形的優(yōu)化設(shè)計提供模型基礎(chǔ)。
不失一般性,本文考慮單輸入單輸出的雷達(dá)系統(tǒng),在一個時間相參積累間隔(Coherent Processing Interval,CPI)內(nèi)發(fā)射N個脈沖信號。假設(shè)發(fā)射端發(fā)射窄帶信號,在時間維度對信號進(jìn)行離散采樣,可得在某一包含目標(biāo)距離環(huán)上的雷達(dá)回波信號為
其中,α表示發(fā)射信號的幅度,s∈CN×1表示離散發(fā)射波形矢量,cm ∈CN×1表示第m個距離環(huán)的雜波矢量,n ∈CN×1表示零均值方差為的高斯白噪聲矢量,w∈CN×1表 示濾波權(quán)矢量,(·)H為向量/矩陣共軛轉(zhuǎn)置運(yùn)算符,m為雜波距離環(huán)編號或先驗雜波樣本編號。
本文重點(diǎn)考慮構(gòu)造雜波先驗協(xié)方差矩陣中樣本數(shù)據(jù)的缺失,假設(shè)C=[c1c2...cM]∈CN×M為數(shù)據(jù)完整的雜波樣本矩陣,M為樣本數(shù)。設(shè)置缺失矩陣ΔN×M,Δ中 僅有兩個元素N aN 和1,其中N aN表示對應(yīng)位置數(shù)據(jù)缺失,1表示該數(shù)據(jù)正常,則雜波缺失矩陣可表示為
其中,[·]m為矩陣的第m列,⊙為Hadamard乘積。
由于氣候、采集設(shè)備故障等導(dǎo)致的數(shù)據(jù)缺失完全隨機(jī)且不可控,因此本文引入完全隨機(jī)缺失機(jī)制。在該機(jī)制下,無法獲取數(shù)據(jù)的分布參數(shù),如均值和方差,且數(shù)據(jù)的缺失位置與數(shù)據(jù)的先驗分布相對獨(dú)立。類比文獻(xiàn)[11]中的缺失場景,本文考慮點(diǎn)狀缺失和塊狀缺失兩種雜波先驗數(shù)據(jù)缺失場景,構(gòu)造缺失矩陣Δ的方式分別如下:
場景1:點(diǎn)狀缺失。設(shè)置點(diǎn)狀缺失概率p∈(0,1),生成N×M個服從[0,1]均勻分布的隨機(jī)數(shù)構(gòu)成矩陣Δ,若Δ(i,j)>p,則Δ(i,j)=1,反之Δ(i,j)=NaN,其中i=1,2,...,N,j=1,2,...,M;
場景2:塊狀缺失。同場景1,設(shè)置塊狀缺失概率p′ ∈(0,1),在Δ中隨機(jī)生成n個缺失塊并賦值為NaN,其余數(shù)據(jù)皆令為1。缺失塊行數(shù)和列數(shù)分別為rl和cl,l=1,2,...,n。為保證場景設(shè)置的公平性,兩種場景下的缺失概率應(yīng)滿足:
點(diǎn)狀缺失和塊狀缺失示意圖分別如圖1(a)、圖1(b)所示,其中,白色代表缺失數(shù)據(jù)(取值為N aN),黑色代表正常數(shù)據(jù)(取值為1)。
圖1 缺失場景示意圖Fig.1 Schematic diagram of the missing scene
當(dāng)雜波先驗協(xié)方差矩陣Rc完全已知時,已有眾多學(xué)者針對相關(guān)波形優(yōu)化問題展開研究,如Li等人[24]提出的SWORD (Signal Waveform’s Optimalunder-Restriction Design)方法等。然而,Rc估值的高準(zhǔn)確度依賴于大量完整的樣本數(shù)據(jù)。在雜波先驗數(shù)據(jù)缺失的情況下,樣本信息不夠精確,協(xié)方差矩陣的估計誤差增大,難以保證優(yōu)越的雜波抑制性能。因此,本文考慮樣本數(shù)據(jù)缺失情況下的波形設(shè)計問題,并在式(4)中引入?yún)f(xié)方差矩陣約束Rc=h(),用于表征該雜波協(xié)方差矩陣由數(shù)據(jù)缺失樣本構(gòu)成,其中函數(shù)h(·)映射了該構(gòu)成過程。
由于強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)智能體在未知環(huán)境中以不斷試錯的方式學(xué)習(xí)得到最優(yōu)策略,故本節(jié)將上述先驗數(shù)據(jù)缺失條件下波形優(yōu)化問題刻畫為馬爾可夫過程。
將雷達(dá)視為智能體,在t時刻,智能體根據(jù)當(dāng)前時刻的狀態(tài)st以及策略π(at|st)向環(huán)境中發(fā)射動作at,其中策略是從狀態(tài)到動作概率分布的函數(shù)映射。然后,狀態(tài)st根 據(jù)狀態(tài)轉(zhuǎn)移函數(shù)p(st+1|st,at)轉(zhuǎn)換到st+1,并獲得相應(yīng)的反饋獎勵rt+1。假設(shè)t時刻的狀態(tài)僅與上一時刻的狀態(tài)有關(guān),則整個學(xué)習(xí)過程可以描述為一個馬爾可夫決策過程(Markov Decision Process,MDP)[25],用4元組表示為
其中,S為狀態(tài)集合st ∈S,A為動作集合at ∈A,P為狀態(tài)轉(zhuǎn)移函數(shù)集合pt ∈P,R為獎勵集合rt ∈R。
本文假設(shè)雷達(dá)發(fā)射機(jī)發(fā)射功率不變且載波頻率恒定,波形參數(shù)僅與發(fā)射相位有關(guān),故將t時刻的離散相位值以及信雜噪比作為雷達(dá)在環(huán)境中的狀態(tài)表征;若考慮相似性約束,則添加相似度衡量當(dāng)前波形與參考波形的偏差,以期快速獲得良好的性能參數(shù)。相似度定義為
其中,st表示t時刻的發(fā)射波形。
綜上,t時刻的狀態(tài)可表示為
其中,θti表示t時刻的離散相位值,i=1,2,...,N。
將雷達(dá)的動作設(shè)計為“指令”操作,即at={at1,at2,...,atN},其中,ati有3種可能取值:0,1和2,不同取值對應(yīng)不同的操作:
其中,σ表示雷達(dá)執(zhí)行一次動作對應(yīng)相位值的變化量。σ的設(shè)置與相位的分辨率息息相關(guān),σ越小,雷達(dá)發(fā)射波形精確度越高;但當(dāng)σ過小時,雷達(dá)需要耗費(fèi)更多的時間去學(xué)習(xí)最佳波形,導(dǎo)致算法收斂速度變慢。需要注意的是,由于相位的周期性,在整個決策過程中需保證θti的值始終位于[0,2π]內(nèi)。
獎勵函數(shù)是強(qiáng)化學(xué)習(xí)算法設(shè)計的核心,其作用是針對上一時刻的動作向強(qiáng)化學(xué)習(xí)模型提供即時反饋。因此,合理的獎勵設(shè)計方式有利于智能體最優(yōu)執(zhí)行策略的學(xué)習(xí)。由于目標(biāo)SCNR是影響檢測性能的關(guān)鍵因素,因此本文以雷達(dá)濾波處理后的SCNR作為t時刻動作所獲得的獎勵:
針對上述波形設(shè)計問題,本文提出一種基于優(yōu)先級填充-強(qiáng)化學(xué)習(xí)級聯(lián)優(yōu)化的波形設(shè)計方法。該級聯(lián)算法包含缺失數(shù)據(jù)填充和波形優(yōu)化兩個部分,分別用函數(shù)f(·)和g(·)表示。如圖2所示,輸入數(shù)據(jù)缺失條件下的先驗數(shù)據(jù)矩陣X,根據(jù)缺失值判斷數(shù)據(jù)缺失區(qū)域并將其作為缺失規(guī)則輸入雜波環(huán)境中。通過優(yōu)先級填充算法得到數(shù)據(jù)完整的雜波數(shù)據(jù)矩陣,進(jìn)一步估計雜波協(xié)方差矩陣,即=。強(qiáng)化學(xué)習(xí)波形設(shè)計的目的是通過雷達(dá)與雜波環(huán)境交互,訓(xùn)練生成最大SCNR的發(fā)射波形,即s=g(),其中,將優(yōu)先級填充算法輸出結(jié)果作為智能體與之交互的雜波環(huán)境。本文所提的級聯(lián)架構(gòu)亦是指以估計雜波協(xié)方差矩陣為基礎(chǔ)的強(qiáng)化學(xué)習(xí)波形設(shè)計框架,通過優(yōu)先級填充-強(qiáng)化學(xué)習(xí)級聯(lián)的迭代過程,最終獲得先驗數(shù)據(jù)缺失條件下的優(yōu)化波形。
圖2 級聯(lián)優(yōu)化算法整體框架圖Fig.2 Overall framework diagarm of the cascade optimization algorithm
根據(jù)級聯(lián)優(yōu)化算法整體架構(gòu),本節(jié)首先介紹基于優(yōu)先級的填充算法。將雜波缺失矩陣以及缺失區(qū)域輸入到雜波環(huán)境中,通過優(yōu)先級填充算法的映射關(guān)系f(·),完成對雜波缺失數(shù)據(jù)的修復(fù),估計輸出雜波協(xié)方差矩陣。如圖3所示,該修復(fù)過程為:首先,通過判斷雜波數(shù)據(jù)與缺失值是否匹配,將其分為目標(biāo)區(qū)域Ω和源區(qū)域Φ。目標(biāo)區(qū)域?qū)?yīng)數(shù)據(jù)缺失部分,其輪廓用δΩ表示;剩余部分為源區(qū)域。然后在目標(biāo)區(qū)域輪廓δΩ上選定點(diǎn)p,以p為中心點(diǎn)確定一待修復(fù)的正方形滑窗Ψp,在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)Ψq,令Ψp=Ψq,完成對Ψp的填充。最后,隨著填充進(jìn)度的推進(jìn),不斷更新δΩ直至所有目標(biāo)區(qū)域Ω填充完成。
填充順序是數(shù)據(jù)修復(fù)質(zhì)量的關(guān)鍵性因素之一。傳統(tǒng)標(biāo)準(zhǔn)同心層填充算法以逆時針順序?qū)⑼膶訅K逐漸填入目標(biāo)區(qū)域,可能導(dǎo)致目標(biāo)輪廓附近源區(qū)域內(nèi)的完整數(shù)據(jù)被意外重構(gòu),使得目標(biāo)輪廓區(qū)域的填充效果變差。因此,為了確定最佳樣本填充順序,本節(jié)引入樣本填充優(yōu)先級的計算[26]。針對上述目標(biāo)輪廓區(qū)域填充效果不明顯的問題,優(yōu)先級的計算偏向于數(shù)據(jù)差異大的強(qiáng)邊緣區(qū)域和高置信度的目標(biāo)區(qū)域。
給定中心點(diǎn)p以及目標(biāo)填充樣本Ψp,將優(yōu)先級函數(shù)P(p)表示為
其中,C(p)為 置信度項,D(p)為數(shù)據(jù)項。置信度C(p)表征中心點(diǎn)p附近可靠數(shù)據(jù)的度量,即優(yōu)先填充目標(biāo)區(qū)域輪廓周圍的樣本并不斷向內(nèi)填充;數(shù)據(jù)項D(p)體 現(xiàn)δΩ兩邊數(shù)據(jù)信息的差異大小,優(yōu)先填充差異較大的樣本。計算公式分別為
其中,|Ψp|表 示Ψp的 面積,κ是歸一化因子,?Ip為Ψp ∩I區(qū)間內(nèi)的最大梯度值,Jp表示p點(diǎn)處正交于目標(biāo)區(qū)域輪廓δΩ的單位向量?!捅硎菊?。初始化時,設(shè)置置信度函數(shù)C(p)為
獲得目標(biāo)區(qū)域內(nèi)所有待填充樣本的優(yōu)先級后,按照優(yōu)先級遞減的方向從源區(qū)域內(nèi)搜尋最相似樣本進(jìn)行填充。上述過程可通過最小化平方差之和算法實現(xiàn):
其中,d(Ψa,Ψb)表 示樣本Ψa和Ψb中數(shù)據(jù)的平方差之和。
此時雜波數(shù)據(jù)矩陣的目標(biāo)區(qū)域輪廓δΩ發(fā)生相應(yīng)變化,重復(fù)優(yōu)先級的計算,逐層更新直至目標(biāo)區(qū)域填充完成,即通過f(·)的映射關(guān)系,實現(xiàn)從雜波缺失矩陣到協(xié)方差矩陣的估計過程。算法步驟的偽代碼見表1。
表1 優(yōu)先級填充算法Tab.1 Priority filling algorithm
由3.1節(jié)可知,將優(yōu)先級填充算法補(bǔ)償后的雜波矩陣作為強(qiáng)化學(xué)習(xí)優(yōu)化算法中智能體的交互環(huán)境。雷達(dá)發(fā)射波形作用到雜波環(huán)境中并獲取反饋獎勵,通過最大化累積獎勵和的方式?jīng)Q策出最優(yōu)波形相位。整個過程基(于端)到端的學(xué)習(xí)方式,用函數(shù)g(·)表示,即。本文采用DDPG (Deep Deterministic Policy Gradient)算法實現(xiàn)函數(shù)g(·)的映射過程。DDPG算法是一種基于Actor-critic框架的深度確定性策略梯度算法[27],由DPG (Deterministic Policy Gradient)算法改進(jìn)而來,得益于其在連續(xù)動作空間中的有效決策性能,廣泛用于解決各領(lǐng)域中復(fù)雜連續(xù)的決策問題。在波形優(yōu)化設(shè)計問題中,由于動作空間和狀態(tài)空間的高維連續(xù)性,使用DDPG算法可以更好地輸出最佳動作策略。
Actor-critic框架由Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)構(gòu)成。Actor網(wǎng)絡(luò)輸入狀態(tài)st,輸出唯一確定性動作at與環(huán)境交互,返回下一時刻的狀態(tài)st+1和獎勵rt+1,其網(wǎng)絡(luò)權(quán)重參數(shù)用θ表示;Critic網(wǎng)絡(luò)輸入狀態(tài)st和動作at,通過價值函數(shù)評估動作at的優(yōu)劣性,其網(wǎng)絡(luò)權(quán)重參數(shù)用ω表示。為了避免網(wǎng)絡(luò)輸出的震蕩導(dǎo)致不穩(wěn)定的學(xué)習(xí)行為,增強(qiáng)算法的穩(wěn)定性,DDPG分別復(fù)制Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)生成相對應(yīng)的目標(biāo)網(wǎng)絡(luò),其網(wǎng)絡(luò)權(quán)重參數(shù)分別用θ′和ω′表示。
在DDPG算法中,為了增加學(xué)習(xí)過程的隨機(jī)性,提高智能體對環(huán)境的探索概率,針對Actor網(wǎng)絡(luò)決策機(jī)制引入隨機(jī)噪聲,設(shè)計輸出動作為
其中,μ(st|θ)表 示Actor網(wǎng)絡(luò)在狀態(tài)st時的輸出動作,N表示隨機(jī)噪聲過程。
Actor網(wǎng)絡(luò)采用off-police的訓(xùn)練方法,用于生成動作的行為策略和評估策略不同。引入策略梯度下降法更新其網(wǎng)絡(luò)參數(shù):
其中,K表示從經(jīng)驗池中采樣的樣本數(shù)。更新Critic網(wǎng)絡(luò)時,采用均方誤差計算其損失函數(shù):
其中,γ表示獎勵衰減因子。
通過軟更新的方式分別更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的目標(biāo)網(wǎng)絡(luò)參數(shù):
其中,τ表示軟更新系數(shù),用于控制迭代中每一步更新的幅度,一般取τ=0.01。
結(jié)合前文分析,智能體通過Actor網(wǎng)絡(luò)輸出波形相位,將當(dāng)前所處狀態(tài)和動作矢量信息輸入到Critic網(wǎng)絡(luò)中;Critic網(wǎng)絡(luò)輸出評估狀態(tài)-動作對的Q值。利用梯度下降法和均方誤差分別計算Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的損失函數(shù),結(jié)合軟更新的方式,實現(xiàn)策略網(wǎng)絡(luò)、評估網(wǎng)絡(luò)以及對應(yīng)目標(biāo)網(wǎng)絡(luò)參數(shù)的更新。DDPG偽代碼如表2所示,算法結(jié)構(gòu)框圖如圖4所示。
圖4 雷達(dá)波形設(shè)計的DDPG算法結(jié)構(gòu)圖Fig.4 Structure diagram of DDPG algorithm for radar waveform design
表2 基于DDPG的波形優(yōu)化算法Tab.2 Algorithm for waveform optimization based on DDPG
為了分析雷達(dá)雜波先驗數(shù)據(jù)缺失對發(fā)射波形優(yōu)化過程的影響,驗證本文所提級聯(lián)優(yōu)化算法的有效性,本節(jié)針對雜波先驗數(shù)據(jù)點(diǎn)狀與塊狀缺失場景進(jìn)行仿真試驗。
雜波數(shù)據(jù)缺失模型參數(shù)設(shè)置如下:N=16,M=2000,數(shù)據(jù)缺失概率p=0.1。為方便觀察數(shù)據(jù)修復(fù)效果,將雜波數(shù)據(jù)矩陣可視化,如圖5所示,為雜波參考矩陣C的俯視圖。據(jù)2.1節(jié)所述,設(shè)置點(diǎn)狀缺失和塊狀缺失如圖6所示,其中,黃色部分表示數(shù)據(jù)缺失。由于修復(fù)完成的雜波矩陣將進(jìn)一步計算雜波協(xié)方差矩陣,為提高數(shù)據(jù)缺失的代表性,將大多數(shù)缺失數(shù)據(jù)集中設(shè)置于N個脈沖編碼內(nèi)(圖6中第41行到第56行內(nèi)),保證內(nèi)耦合更多缺失數(shù)據(jù)信息。
圖5 雜波參考矩陣可視化圖Fig.5 Visualization of the clutter reference matrix
圖6 雜波數(shù)據(jù)信息缺失圖Fig.6 Missing information of clutter data
根據(jù)樣本優(yōu)先級填充算法,對雜波數(shù)據(jù)缺失矩陣目標(biāo)區(qū)域進(jìn)行修復(fù)??紤]到雜波數(shù)據(jù)缺失對后續(xù)波形優(yōu)化的影響,將雜波缺失矩陣中的N aN值設(shè)為500,并采用KNN填充算法作為對比算法進(jìn)行仿真試驗,結(jié)果如圖7、圖8所示(黑色方框表示雜波數(shù)據(jù)缺失矩陣的目標(biāo)區(qū)域輪廓)。由圖7可看出,針對完全隨機(jī)缺失機(jī)制,雜波數(shù)據(jù)缺失部分在一定程度上得到了修復(fù),然而點(diǎn)狀缺失數(shù)據(jù)分布比較分散,無法得出明顯的效果圖;由圖8可看出,在塊狀缺失場景下,優(yōu)先級填充算法結(jié)合了優(yōu)先級排序和樣本相似度的計算,修復(fù)效果明顯優(yōu)于KNN填充算法,與參考矩陣C差異較小。由此可得出初步結(jié)論:優(yōu)先級填充算法考慮了缺失點(diǎn)周圍數(shù)據(jù)的關(guān)聯(lián)性,可以從源區(qū)域內(nèi)全局搜索出最相似樣本塊進(jìn)行填充,并取得良好的修復(fù)效果。
圖7 點(diǎn)狀缺失場景下缺失數(shù)據(jù)修復(fù)圖Fig.7 Missing data repair diagram in the point-like missing scene
圖8 塊狀缺失場景下缺失數(shù)據(jù)修復(fù)圖Fig.8 Missing data repair diagram in the block-like missing scenario
為進(jìn)一步驗證上述優(yōu)先級填充算法對缺失數(shù)據(jù)修復(fù)的有效性,設(shè)置不同的缺失概率,將修復(fù)后的雜波矩陣與參考雜波矩陣的均方根誤差(Root Mean Square Error,RMSE)作為衡量指標(biāo),定量分析算法的優(yōu)劣性。如圖9所示,RMSE隨著缺失概率p的增加不斷增大。在點(diǎn)狀缺失場景下,優(yōu)先級填充算法修復(fù)誤差明顯低于KNN填充算法;在塊狀缺失場景下,當(dāng)缺失概率p<0.3時,優(yōu)先級填充算法略優(yōu),隨著p繼續(xù)增加,其算法誤差亦快速增大,填充性能下降且劣于KNN填充算法。對比不同的缺失場景,根據(jù)缺失數(shù)據(jù)分布的均勻性可知,塊狀缺失的數(shù)據(jù)相較于點(diǎn)狀缺失更為集中,故點(diǎn)狀缺失的修復(fù)性能更佳,誤差更小。
圖9 不同缺失概率下數(shù)據(jù)修復(fù)性能分析Fig.9 Data repair performance analysis under different missing probability
表3 強(qiáng)化學(xué)習(xí)參數(shù)表Tab.3 Reinforcement learning parameters table
設(shè)置相位初始狀態(tài)為 01×16,運(yùn)行步驟step=1000,單個回合結(jié)束。訓(xùn)練曲線如圖10所示,圖10(a)、圖10(b)分別表示點(diǎn)狀缺失和塊狀缺失兩種雜波缺失場景下的強(qiáng)化學(xué)習(xí)獎勵曲線圖。由圖10可以看出,獎勵曲線皆由初始的負(fù)獎勵值快速上升至400左右,然后逐漸收斂并趨于穩(wěn)定,對應(yīng)最大信噪比可達(dá)16 dB。說明在雜波先驗數(shù)據(jù)缺失的條件下,雷達(dá)發(fā)射機(jī)通過Critic網(wǎng)絡(luò)對動作策略的評估及獎勵反饋,成功學(xué)習(xí)到較優(yōu)的波形相位動作。對比兩種缺失場景,由于塊狀缺失場景下缺失塊中心填充誤差較大,獎勵曲線收斂速度相對較慢。
圖10 僅恒模約束下強(qiáng)化學(xué)習(xí)獎勵曲線圖Fig.10 Reinforcement learning reward curves under constant modulus constraint
為驗證完全隨機(jī)缺失機(jī)制下基于優(yōu)先級填充算法-強(qiáng)化學(xué)習(xí)級聯(lián)優(yōu)化的訓(xùn)練效果,以雷達(dá)接收信號的SCNR作為參考指標(biāo)進(jìn)行仿真分析。如圖11所示,橫坐標(biāo)表示輸入信雜噪比α2/tr(Rc+σ2),其中α2表 示信號的能量,σ2為噪聲方差,依據(jù)不同輸入條件設(shè)計噪聲能量值。在仿真中,設(shè)置缺失概率為0.1和0.3,將協(xié)方差矩陣無缺失條件下SWORD算法所得結(jié)果作為性能上限,將數(shù)據(jù)缺失條件下SWORD算法以及KNN填充后的SWORD算法與本文所提算法進(jìn)行仿真對比。由圖11可知,針對完全隨機(jī)缺失機(jī)制下的缺失場景,隨著雜噪比值的變化,所提算法能夠較好地逼近無缺失條件的波形設(shè)計性能,且優(yōu)于KNN補(bǔ)償算法。其中,隨著缺失概率p的增大,雜波有效先驗數(shù)據(jù)信息減少,輸出性能略有下降。對比不同缺失場景,點(diǎn)狀缺失場景下的優(yōu)化性能相較于塊狀缺失場景更優(yōu),但本文所提算法的優(yōu)勢在塊狀缺失場景中更為明顯。
圖11 僅恒模約束下不同場景的輸出SCNR性能曲線圖Fig.11 Output SCNR performance curves of different scenarios under constant modulus constraint
為驗證不同約束對算法輸出性能的影響,在雷達(dá)波形優(yōu)化方程中添加相似性約束,并根據(jù)式(7)在強(qiáng)化學(xué)習(xí)t時刻的狀態(tài)中添加相似度參數(shù)?。仿真結(jié)果如圖12和圖13所示。從圖12可以看出,不同場景下的獎勵曲線有明顯的提升和收斂表現(xiàn);相較于無相似性約束下的仿真結(jié)果,由于具備參考波形的引導(dǎo),Actor網(wǎng)絡(luò)能在相似度的衡量指標(biāo)下迅速逼近最佳輸出動作,算法收斂速度加快且獎勵值小幅提升。從圖13可以看出,本文所提算法在恒模與相似性約束條件下,仍然具有較優(yōu)的雜波抑制性能。由于對比實驗均考慮了相同的波形相似性約束,雖然在輸出性能曲線上不同算法的仿真結(jié)果差異變小,但本文所提算法與無缺失條件下SWORD算法的性能表現(xiàn)更為接近,且依然優(yōu)于KNN算法補(bǔ)償后的傳統(tǒng)優(yōu)化算法。
圖12 相似性約束下強(qiáng)化學(xué)習(xí)獎勵曲線圖Fig.12 Reinforcement learning reward curves under similarity constraints
圖13 相似性約束下不同場景的輸出SCNR性能曲線圖Fig.13 Output SCNR performance curves of different scenarios under similarity constraints
針對雜波先驗數(shù)據(jù)缺失條件下的波形優(yōu)化問題,本文提出了一種優(yōu)先級填充-強(qiáng)化學(xué)習(xí)級聯(lián)優(yōu)化的波形設(shè)計算法。為求解恒模約束和相似性約束下的非凸非線性優(yōu)化問題,本文首先根據(jù)缺失數(shù)據(jù)的優(yōu)先度在源區(qū)域內(nèi)搜索最佳匹配數(shù)據(jù)進(jìn)行填充,實現(xiàn)隨機(jī)缺失機(jī)制下的數(shù)據(jù)修復(fù),再結(jié)合DDPG強(qiáng)化學(xué)習(xí)決策算法,通過Actor-Critic網(wǎng)絡(luò)架構(gòu)訓(xùn)練決策出雷達(dá)最佳相位選擇策略,實現(xiàn)最大信雜噪比下的波形優(yōu)化。最后,本文針對雜波先驗數(shù)據(jù)不同缺失場景,采用數(shù)值仿真對比KNN算法填充后的SWORD優(yōu)化算法,分析結(jié)果表明:(1)級聯(lián)算法無需考慮先驗數(shù)據(jù)的分布函數(shù),對雜波數(shù)據(jù)的完全隨機(jī)缺失具有較好的修復(fù)效果;(2)針對點(diǎn)狀缺失和塊狀缺失場景,本文所提算法均可獲得優(yōu)越的雜波抑制性能,進(jìn)一步提升雷達(dá)的探測能力。