張昀普,單甘霖
(陸軍工程大學(xué)石家莊校區(qū)電子與光學(xué)工程系,河北石家莊 050003)
隨著科學(xué)技術(shù)的發(fā)展,網(wǎng)絡(luò)戰(zhàn)、電子戰(zhàn)和信息戰(zhàn)等新型作戰(zhàn)形式已逐漸成為現(xiàn)代戰(zhàn)爭的主流,戰(zhàn)場環(huán)境也隨之變得復(fù)雜多變,這也對多傳感器系統(tǒng)的有效使用提出了更高的要求。在實(shí)際戰(zhàn)場上,傳感器系統(tǒng)所獲取的信息形式多樣,數(shù)據(jù)量巨大,加之對信息處理速度的實(shí)時性要求越來越高,如何運(yùn)用合理的傳感器管理方法以獲取最大的作戰(zhàn)效益,已經(jīng)成為國內(nèi)外學(xué)者的研究熱點(diǎn)。
目前,傳感器管理的研究重點(diǎn)均放在了基于貝葉斯最優(yōu)的管理方法上,即設(shè)定一個或多個與作戰(zhàn)指標(biāo)相關(guān)的目標(biāo)函數(shù),通過求取目標(biāo)函數(shù)的最優(yōu)解以獲取最佳管理方案,按照指標(biāo)種類的不同,可分為3類方法:基于信息論的管理方法、基于風(fēng)險論的管理方法和基于任務(wù)論的管理方法。基于信息論的管理方法以信息指標(biāo)最優(yōu)為管理準(zhǔn)則,可通過傳感器管理使觀測一次前后的信息增益達(dá)到最大,常用的指標(biāo)有Renyi增量、K-L散度和交叉熵等。但文獻(xiàn)[6]指出,該類方法的缺點(diǎn)是指標(biāo)過于抽象化和理論化,與具體任務(wù)需要關(guān)聯(lián)不緊密,致使指揮員可能不理解這些指標(biāo)的意義?;陲L(fēng)險論的管理方法主要用于傳感器資源稀缺的場景中,該方法的目的是通過設(shè)置與決策風(fēng)險相關(guān)的目標(biāo)函數(shù)來最小化風(fēng)險帶來的損失,而不是一味追求傳感器觀測性能的最佳。常用的風(fēng)險指標(biāo)有威脅評估風(fēng)險、目標(biāo)丟失風(fēng)險和檢測誤判風(fēng)險等。基于任務(wù)論的管理方法主要面向不同的任務(wù)需求,結(jié)合具體的任務(wù)指標(biāo)制定相應(yīng)的傳感器管理準(zhǔn)則,常用的指標(biāo)有目標(biāo)跟蹤精度、目標(biāo)檢測概率和目標(biāo)識別概率等。該類方法相比于前兩類方法更貼合任務(wù)實(shí)際需求,且運(yùn)用場景更為廣泛。
在基于任務(wù)論的傳感器管理方法中,面向目標(biāo)跟蹤任務(wù)的研究最為普遍,在現(xiàn)有相關(guān)文獻(xiàn)中,大多都是針對空中目標(biāo)進(jìn)行研究,目標(biāo)的運(yùn)動區(qū)域無約束。但在實(shí)際偵察任務(wù)中,通常也會存在地面目標(biāo),這些目標(biāo)往往速度較慢、機(jī)動性大,且運(yùn)動時往往會受到地形遮蔽或者道路約束,因此其運(yùn)動建模和跟蹤準(zhǔn)則也與無約束目標(biāo)不同,傳感器管理的方法也會相應(yīng)改變。同時,陸戰(zhàn)場偵察雷達(dá)常采用脈沖多普勒體制,為了減少雜波對觀測的影響,其會設(shè)定一個最小可檢測徑向速度(MDV),小于MDV的目標(biāo)將落入雷達(dá)的多普勒盲區(qū),從而無法被探測。
此外,在現(xiàn)代戰(zhàn)場上,傳感器偵察對抗設(shè)備已廣泛應(yīng)用于車載或機(jī)載平臺上,其可通過輻射接收機(jī)截獲有源傳感器的輻射信號,從而達(dá)到對傳感器的定位和打擊。因此,需要在執(zhí)行任務(wù)的同時控制傳感器系統(tǒng)的輻射,以提高其生存能力,而合理量化傳感器輻射狀態(tài)是控制輻射的前提。文獻(xiàn)[19]將傳感器使用一次的輻射量設(shè)為固定常數(shù),但其沒有考慮傳感器連續(xù)工作時輻射量會非線性增長,同時也未建立傳感器工作參數(shù)與輻射狀態(tài)的數(shù)學(xué)關(guān)系,不符合實(shí)際。文獻(xiàn)[20]利用傳感器和敵方接收機(jī)的工作參數(shù)計算出施里海爾截獲因子,以此量化傳感器的輻射狀態(tài);文獻(xiàn)[21]通過設(shè)定在時間域上的多個截獲窗口函數(shù),計算出傳感器輻射被截獲概率。但上述文獻(xiàn)所用方法均未考慮傳感器之間的差異性,即在有限傳感器資源下,戰(zhàn)術(shù)價值更高、性能更好的傳感器更需要優(yōu)先控制輻射。
針對上述問題,本文面向道路約束條件下的地面目標(biāo)跟蹤問題,在考慮多普勒盲區(qū)的情況下,結(jié)合傳感器系統(tǒng)的跟蹤性能和輻射損失控制兩種作戰(zhàn)需求,制定相應(yīng)的傳感器管理方法。首先建立了基于部分可觀馬爾可夫決策過程(POMDP)的傳感器管理模型,提出以目標(biāo)跟蹤精度和傳感器輻射損失的加權(quán)和最小為管理準(zhǔn)則。然后給出道路約束下目標(biāo)狀態(tài)估計方法和多普勒盲區(qū)下的目標(biāo)預(yù)測狀態(tài)修正方法。此外,考慮傳感器信號被敵方截獲后的損失,在文獻(xiàn)[21]基礎(chǔ)上,結(jié)合傳感器被截獲后的損失代價,構(gòu)建傳感器截獲損失模型,并設(shè)計一種萊維飛行-樽海鞘群算法(LF-SSA)對傳感器管理方案進(jìn)行優(yōu)化求解,最后進(jìn)行了仿真實(shí)驗。
假設(shè)我方共用個傳感器跟蹤個在道路上行駛的敵方目標(biāo),傳感器系統(tǒng)采用集中式結(jié)構(gòu)。在時刻,控制中心計算得到下一時刻的最佳工作方案。為方便下文表述,做出以下3點(diǎn)說明:
1)本文所提傳感器為有源傳感器,且在整個任務(wù)過程中位置和結(jié)構(gòu)不發(fā)生改變。
2)假設(shè)我方已通過地理信息系統(tǒng)獲取道路網(wǎng)的相關(guān)地理信息。
3)本文研究的管理方法為長期管理中的開環(huán)反饋方法,指系統(tǒng)通過預(yù)測未來一段時間內(nèi)的總收益制定下一時刻的管理方案。
由于本文所研究的傳感器管理問題屬于不確定性環(huán)境下的隨機(jī)決策問題,因此可以基于POMDP標(biāo)準(zhǔn)框架進(jìn)行建模,其可由6要素組成:行動空間、狀態(tài)空間、狀態(tài)轉(zhuǎn)移律、觀測空間、觀測律和目標(biāo)函數(shù)。
行動空間代表著傳感器系統(tǒng)在每時刻的自由度,在本文中即為每時刻傳感器系統(tǒng)的工作方案,用×維矩陣A =(A)表示,其中A的值為1或0,分別表示在時刻是否開啟傳感器跟蹤目標(biāo)。同時,設(shè)定矩陣組A =[A ,A ,…,A ]表示在時間步長為的時域[,+-1]上的管理方案。
本文不考慮不同傳感器的觀測數(shù)據(jù)融合,因此設(shè)定:同一時刻每個目標(biāo)僅能被一部傳感器跟蹤;同一時刻每個傳感器可同時跟蹤一個或多個目標(biāo),但不能超過其最大跟蹤能力C。因此,行動空間的約束可表述為
目標(biāo)的狀態(tài)轉(zhuǎn)移律可結(jié)合目標(biāo)動態(tài)模型表示,即
傳感器的觀測律可結(jié)合觀測方程表示,即
式中:(·)表示事件發(fā)生的概率。
傳感器管理的核心是通過預(yù)測未來時刻內(nèi)的不同動作A (即管理方案)所對應(yīng)的收益值,找到使收益達(dá)到最佳的動作。本文考慮目標(biāo)跟蹤任務(wù)實(shí)際,以目標(biāo)跟蹤精度和傳感器截獲損失的加權(quán)和為收益衡量指標(biāo),建立如下目標(biāo)函數(shù):
式中:為平衡系數(shù);(A )和(A )分別表示執(zhí)行管理方案A 后在時域[,+-1]上目標(biāo)跟蹤精度總值和傳感器截獲損失總值,具體計算方法將在下文詳述。
當(dāng)目標(biāo)在道路上運(yùn)動時,會沿著由道路拓?fù)浯_定的路段行駛,這些路段的信息可以從地理信息系統(tǒng)中收集,并利用相關(guān)信息建立道路網(wǎng)的數(shù)學(xué)模型。將非線性的道路網(wǎng)以多個直線路段的連接來表示,如圖1所示。
圖1 路段建模示意圖Fig.1 Schematic diagram of road modeling
在道路上持續(xù)運(yùn)動的目標(biāo),可認(rèn)為其沿著道路中心線運(yùn)動,且基本不會在垂直于道路中心線的方向有較大偏離。因此,若目標(biāo)在起點(diǎn)為(,)、終點(diǎn)為(,)的路段上運(yùn)動,則其狀態(tài)約束為
式中:為路段方向的正交矢量;、和為路段方程系數(shù),
用矩陣形式表示(8)式:
式中:?表示馬氏距離檢驗門限,服從自由度為2的卡方分布。若(12)式成立,則接受Ω,認(rèn)為目標(biāo)在該路段上;若存在多個路段滿足(12)式,則選取與目標(biāo)狀態(tài)估計值馬氏距離最小的路段為當(dāng)前路段。
在確定路段后,可對目標(biāo)狀態(tài)估計值進(jìn)行修正,使其投影到對應(yīng)路段上,在此選取與目標(biāo)狀態(tài)估計值馬氏距離最小的投影點(diǎn)作為道路信息點(diǎn),其修正狀態(tài)估計值為
式中:為誤差矩陣,與道路寬度正相關(guān)。
對應(yīng)的協(xié)方差矩陣值為
圖2 目標(biāo)運(yùn)動方向示意圖Fig.2 Schematic diagram of target movement direction
當(dāng)目標(biāo)切換所在路段時,其運(yùn)動方向?qū)淖?若按照原路段的模型信息進(jìn)行外推估計,則會影響估計精度,甚至造成路段判斷錯誤。同時,在單一路段上運(yùn)動的目標(biāo),其運(yùn)動方向受限,可基于單一運(yùn)動模型進(jìn)行濾波估計,但當(dāng)目標(biāo)遇到路口時,其可能會運(yùn)動到任意一個分路上,機(jī)動性大幅增加。
因此,在道路約束的情況下,需要基于多個運(yùn)動模型對目標(biāo)狀態(tài)進(jìn)行估計。相較于固定多模型法,VSMM通過實(shí)時更改模型集減少了運(yùn)算時間,更符合傳感器管理實(shí)時性要求,因此本文將基于VSMM對目標(biāo)狀態(tài)進(jìn)行估計。
圖3 路口示意圖Fig.3 Schematic diagram of intersection
圖4 多普勒盲區(qū)狀態(tài)修正示意圖Fig.4 Schematic diagram of target state correction in Doppler blind zone
首先根據(jù)卡爾曼濾波的基本公式,得到時刻模型下目標(biāo)的預(yù)測狀態(tài)和協(xié)方差陣:
由(7)式可知,在傳感器管理過程中需對未來目標(biāo)跟蹤精度進(jìn)行預(yù)測,本文引入目標(biāo)預(yù)測狀態(tài)對應(yīng)的克拉美羅下界(PCRLB)衡量未來時刻的跟蹤精度,并以其跡的位置信息量化跟蹤精度,計算公式為
結(jié)合傳感器的管理方案A 和道路約束下目標(biāo)跟蹤模型,時域[,+-1]內(nèi)的目標(biāo)跟蹤精度預(yù)測步驟如下。
1 初始化,令=1。
6 根據(jù)(20)式計算目標(biāo)跟蹤精度J(A )。
7 若=,則循環(huán)結(jié)束;否則,令=+1,轉(zhuǎn)步驟2。
傳感器的輻射信號能否被對方截獲是一個不確定性事件,可用傳感器被截獲概率進(jìn)行描述。文獻(xiàn)[21]指出,在傳感器輻射過程中,只有當(dāng)多個窗口函數(shù)在時域上同時發(fā)生重合,輻射才會被截獲。
結(jié)合本文研究內(nèi)容,考慮以下3個窗口函數(shù):
依據(jù)上述窗口函數(shù),傳感器跟蹤目標(biāo)時輻射被截獲概率為
在傳感器被截獲后,就有可能被敵方打擊,從而造成相應(yīng)的損失。但在實(shí)際戰(zhàn)場上,不同傳感器的重要度也不一樣,重要度更高的傳感器被打擊后所造成的損失也就更大。一般情況下,傳感器的重要度主要體現(xiàn)在性能、戰(zhàn)術(shù)價值和造價成本等方面,基于此,本文構(gòu)建一個多指標(biāo)重要度評價函數(shù),用以區(qū)分不同傳感器的差異性如下:
傳感器的截獲損失即為其被截獲概率和重要度之積,表示截獲事件發(fā)生后造成的潛在損失,具體表示為
由此可以看出,傳感器連續(xù)工作時間越長,其被截獲概率就越高,潛在損失就越大,因此需要通過傳感器管理來控制單傳感器的工作時間。
根據(jù)(24)式,結(jié)合傳感器管理方案A ,則傳感器系統(tǒng)在時域[,+-1]的總截獲損失可表示為
結(jié)合(7)式、(20)式和(25)式,可進(jìn)一步將目標(biāo)函數(shù)寫為
由(26)式可知本文所提傳感器管理問題是一個多維數(shù)的POMDP問題,解空間過于龐大,計算復(fù)雜度過高,為了滿足作戰(zhàn)時實(shí)時決策的要求,提高尋優(yōu)速度和質(zhì)量,本文設(shè)計了LF-SSA以快速求解。
SSA由Mirjalil在2017年提出,它是一種模仿海洋生物樽海鞘習(xí)性的智能算法。該算法的控制參數(shù)較少,具有計算量小、局部搜索能力強(qiáng)的優(yōu)點(diǎn),能有效解決單目標(biāo)優(yōu)化問題。
樽海鞘群在移動時會形成樽海鞘鏈,鏈中的樽海鞘分為領(lǐng)導(dǎo)者和追隨者,領(lǐng)導(dǎo)者處于鏈?zhǔn)?對環(huán)境有著最優(yōu)判斷,其他個體為追隨者。SSA利用了樽海鞘鏈的特性,通過更新領(lǐng)導(dǎo)者和追隨者的位置進(jìn)行尋優(yōu)。
設(shè)定SSA中樽海鞘的種群數(shù)量為,則可建立一個維數(shù)為××的種群位置空間,對于種群中的第個樽海鞘(1≤≤),可將其位置表示為
在每輪尋優(yōu)迭代中,先將E 作為自變量代入目標(biāo)函數(shù),計算出對應(yīng)的函數(shù)值,此數(shù)值可視為樽海鞘對環(huán)境的適應(yīng)度。適應(yīng)度最佳的樽海鞘所處位置被視為食物源的位置,然后可通過更新公式對樽海鞘的位置進(jìn)一步更新。
領(lǐng)導(dǎo)者的位置更新公式如下:
式中:為最大迭代次數(shù)。
追隨者呈鏈狀順次跟隨移動,其位置更新公式可表示為
SSA在位置更新時,領(lǐng)導(dǎo)者的位置決定了整個樽海鞘鏈的位置更新,如果領(lǐng)導(dǎo)者的位置在更新時不能跳出局部最優(yōu),會使算法的收斂精度不理想。因此,本文引入LF策略,它是一種服從萊維分布的隨機(jī)搜索方法,在搜索時將短距離搜索和偶爾長距離搜索相結(jié)合,可以確保SSA的搜索域多樣化,提高其全局搜索能力。
LF的軌跡滿足:
式中:為步長;evy()表示移動步長的概率;l為參數(shù)變量。
由于萊維分布過于復(fù)雜,目前常使用文獻(xiàn)[28]提出的模擬方法來計算LF步長,具體為
式中:Γ(·)表示gamma函數(shù)。
利用LF步長更新領(lǐng)導(dǎo)者位置,可提高領(lǐng)導(dǎo)者的移動能力,從而提高整個樽海鞘鏈對食物源的搜索能力,將(29)式改寫為
綜上所述,LF-SSA的具體求解流程如下。
1 種群初始化。根據(jù)傳感器數(shù)量、目標(biāo)數(shù)量、決策步長和種群數(shù)量,隨機(jī)生成一個樽海鞘種群。根據(jù)(26)式,計算各樽海鞘所對應(yīng)的適應(yīng)度值,并將最小值所對應(yīng)的樽海鞘位置設(shè)定為食物源的位置,準(zhǔn)備算法迭代。
2 更新領(lǐng)導(dǎo)者位置。根據(jù)(35)式對領(lǐng)導(dǎo)者的位置進(jìn)行更新。
3 更新追隨者位置。根據(jù)(31)式對追隨者的位置進(jìn)行更新。
4 食物源更新。對每一維的值進(jìn)行邊界處理,根據(jù)(26)式,計算位置更新后樽海鞘所對應(yīng)的適應(yīng)度值,若更新后樽海鞘種群的最小適應(yīng)度值優(yōu)于原值,則更新最優(yōu)適應(yīng)度值,并將對應(yīng)樽海鞘位置作為新的食物源位置。
若迭代未達(dá)到所設(shè)的的最大次數(shù), 則進(jìn)入下一輪迭代,重復(fù)步驟2~步驟4;否則,算法終止,輸出此時的食物位置,其結(jié)果即為最佳管理方案。
算法的時間復(fù)雜度影響算法的運(yùn)算效率,是關(guān)乎算法性能的重要因素,本文借鑒文獻(xiàn)[29]的思想,對LF-SSA的時間復(fù)雜度進(jìn)行分析。
在傳統(tǒng)SSA中,可分為初始化、領(lǐng)導(dǎo)者位置更新、追隨者位置更新和食物源更新4個階段。初始化階段,種群數(shù)為,維度為×,設(shè)定參數(shù)設(shè)置的時間為,在每一維上產(chǎn)生隨機(jī)數(shù)的時間為,求適應(yīng)度值的時間為(),排序并找出最優(yōu)適應(yīng)度及種群的時間為,因此初始化階段的時間復(fù)雜度為
在算法迭代的領(lǐng)導(dǎo)者位置更新階段,設(shè)定領(lǐng)導(dǎo)者的數(shù)量為2(數(shù)量大小對時間復(fù)雜度無影響),生成的時間為,在同一輪迭代時的值不變,即一輪迭代僅需生成一次。和為均勻分布的隨機(jī)數(shù),與不同,二者在同一輪迭代時,不同維對應(yīng)的值均不同,生成二者的時間均可視為與一致,利用領(lǐng)導(dǎo)者位置更新公式進(jìn)行更新的時間為。因此,領(lǐng)導(dǎo)者位置更新階段的時間復(fù)雜度為
在追隨者位置更新階段,設(shè)利用追隨者位置更新公式進(jìn)行更新的時間為,因此追隨著者位置更新階段的時間復(fù)雜度為
在食物源更新階段,設(shè)定每一維取值邊界處理的時間為,計算適應(yīng)度值的時間仍為(),排序并找到最佳結(jié)果、更新食物源的時間為,則食物源更新階段的時間復(fù)雜度為
因此,SSA的總時間復(fù)雜度為
LF-SSA與SSA的差異體現(xiàn)在領(lǐng)導(dǎo)者位置更新階段,利用萊維飛行軌跡代替隨機(jī)數(shù)對位置進(jìn)行更新,其主要計算量在于兩個正態(tài)分布隨機(jī)數(shù)和的獲取,而由于l=1.5,正態(tài)分布的標(biāo)準(zhǔn)差已知,故萊維步長計算開銷很小,可將其設(shè)為,則LF-SSA中領(lǐng)導(dǎo)者位置更新階段的時間復(fù)雜度為
因此,LF-SSA的總時間復(fù)雜度為
綜上所述,與SSA相比,LF-SSA沒有增加時間復(fù)雜度,運(yùn)算效率不會下降。
設(shè)定5部傳感器跟蹤2個在道路網(wǎng)中勻速運(yùn)動的目標(biāo),道路網(wǎng)及目標(biāo)運(yùn)動軌跡如圖5所示,各路段起始點(diǎn)的坐標(biāo)為:(0 km,0 km)、(0 km,1 km)、(1 km,1 km)、(0 km,2.2 km)、(1.8 km,2.9 km)、(2 km,2 km)、(2.5 km,1 km)、(3.5 km,4.5 km)、(3.6 km,7 km)、(6 km,6 km)、(5.7 km,4.5 km)、(5.4 km,3 km)、(5 km,1 km)、(8 km,6 km)、(8 km,3 km)、(8 km,2.4 km)。目標(biāo)1的初始速度為50 m/s,初始位置為(0 km,0 km);目標(biāo)2的初始速度為40 m/s,初始位置為(0 km,1 km)。平行于道路方向和垂直于道路方向的噪聲標(biāo)準(zhǔn)差分別為15 m和0.5 m。傳感器的最大跟蹤能力均為2,在不考慮多普勒盲區(qū)時的探測概率均為98%,MDV均為10 m/s,截獲損失的重要度評價函數(shù)中工作性能、戰(zhàn)術(shù)價值和成本的權(quán)重分別為0.4、0.4、0.2。傳感器的其他參數(shù)見表1。
圖5 道路網(wǎng)及目標(biāo)運(yùn)動軌跡Fig.5 Road network and target trajectory
表1 傳感器參數(shù)Tab.1 Sensor parameters
敵方目標(biāo)所帶偵察對抗設(shè)備的窗口函數(shù)為(0.5 s,0.03 s)和(0.4 s,0.04 s),傳感器信號被截獲的最小需要時間=0.2 s。仿真總時間為200 s,采樣間隔為2 s,決策步長=3,蒙特卡洛仿真次數(shù)為100次。
LF-SSA參數(shù)如下:樽海鞘種群規(guī)模為30個,前15個為領(lǐng)導(dǎo)者,后15個為追隨者,最大迭代次數(shù)為100次。
本文所有仿真均在Intel Core i7-10850H、2.70 GHz至5.10 GHz、6核處理器、16 GB內(nèi)存的計算機(jī)上進(jìn)行。
平衡系數(shù)的作用是平衡跟蹤精度和截獲損失之間的關(guān)系,其與兩種指標(biāo)的數(shù)量級有關(guān)系,與決策步長無關(guān),因此本文在=1的情況下對平衡系數(shù)的影響進(jìn)行研究,從而選取合適的值。圖6給出了=1時平衡系數(shù)的變化對兩種指標(biāo)歸一化后數(shù)值的影響。由圖6可以看出,平衡系數(shù)越大,跟蹤精度越小,截獲損失越大,這是由于隨著增大,跟蹤精度對于總目標(biāo)函數(shù)值的影響會越來愈大,傳感器管理的結(jié)果也會越來越注重跟蹤效果,而逐漸忽視控制截獲損失。反之,當(dāng)逐漸減小時,決策的結(jié)果會更加注重控制截獲損失,當(dāng)過大或過小時,均會造成兩種指標(biāo)的失衡,無法達(dá)到兼顧的效果。當(dāng)=0.15時,兩種指標(biāo)十分接近,說明此時二者達(dá)到了相對的平衡,因此取=0.15。
圖6 平衡系數(shù)對兩種指標(biāo)值的影響Fig.6 Influence of equilibrium coefficient on two index values
為了分析本文提出的LF-SSA性能,采用傳統(tǒng)SSA、粒子群優(yōu)化(PSO)算法和窮舉搜索(ES)法進(jìn)行對比。SSA的參數(shù)同LF-SSA,PSO算法的具體步驟可參考文獻(xiàn)[30],相關(guān)參數(shù)取值為:粒子種群規(guī)模數(shù)30,最大迭代次數(shù)為100,最大慣性權(quán)重為0.9,最小慣性權(quán)重為0.4,加速因子為1.7,最大速度為3。
各算法性能對比結(jié)果如表2所示,平均單次運(yùn)行時間用于評價算法的搜索速度,與最優(yōu)解之間的平均值由于評價算法的收斂精度,ES算法所得的解必為全局最優(yōu)解,可用來作為最優(yōu)參照。其中,ES算法雖然能獲得效果最好的管理方案,在尋優(yōu)時需遍歷全部解空間,運(yùn)行時間過長,且超過了傳感器的采樣間隔,實(shí)用性較差。LF-SSA的運(yùn)行速度較慢于SSA和PSO算法,因為其通過萊維飛行策略生成隨機(jī)數(shù)需要額外的計算代價,但是增加的時間并不多,不影響算法整體的時間復(fù)雜度。相比之下,LF-SSA所獲得的解與最優(yōu)解相差更小,即更接近全局最優(yōu)解,收斂精度更高,說明其兼顧了搜索速度和收斂性,尋優(yōu)的效果更好,算法的綜合性能更優(yōu)。
表2 各算法性能統(tǒng)計Tab.2 Performance statistics of each algorithm
為進(jìn)一步分析LF-SSA的性能,圖7(a)~圖7(d)分別給出了在第1 s、40 s、80 s、120 s、160 s和200 s的目標(biāo)函數(shù)值隨算法迭代次數(shù)的變化曲線。由圖7可以看出,LF-SSA會在某幾次迭代中,目標(biāo)函數(shù)值快速下降,這是由于LF策略采取短距離搜索和偶爾長距離搜索相結(jié)合,能夠使算法克服區(qū)域極小值的吸引,擺脫局部收斂,從而找到更優(yōu)的解,而SSA和PSO算法容易發(fā)生局部收斂現(xiàn)象,在某一極值處產(chǎn)生停滯,致使尋優(yōu)效果不理想。同時,相比PSO法和SSA,LF-SSA所得的解更接近于全局最優(yōu)解(即ES算法所得的解),收斂精度更好。
圖7 目標(biāo)函數(shù)值隨各算法迭代次數(shù)的變化情況Fig.7 Change of the objective function value with the iteration times of each algorithm
為了對本文所提傳感器管理方法的性能進(jìn)行充分分析,采用以下2種方法進(jìn)行對比:
1)短期管理方法:在跟蹤過程中,采用一步收益最佳為優(yōu)化目標(biāo)。
2)最近鄰方法:在跟蹤過程中,采用距離目標(biāo)最近的傳感器(從非盲區(qū)傳感器中選擇)進(jìn)行跟蹤,此方法理論上可獲得較優(yōu)的跟蹤精度。
引入均方根誤差(RMSE)來評價目標(biāo)跟蹤的效果,各方法所對應(yīng)的目標(biāo)位置RMSE變化情況如圖8所示;各方法所對應(yīng)的傳感器截獲損失變化情況如圖9所示。由圖9可以看出,在3種方法中,最近鄰方法由于選擇了距離目標(biāo)最近的傳感器進(jìn)行跟蹤,在每時刻能獲得較優(yōu)的跟蹤效果,其整體的跟蹤性能也優(yōu)于其他兩種方法,但由于其不能通過解算目標(biāo)函數(shù)來控制傳感器的合理切換,會使傳感器的被截獲概率隨著連續(xù)工作時間的上升而持續(xù)增長,從而造成較大的截獲損失,不利于傳感器的戰(zhàn)場生存,說明了設(shè)定加權(quán)平衡的目標(biāo)函數(shù)求取傳感器管理方案的重要性。而本文方法和短期管理方法通過在每時刻解算目標(biāo)函數(shù),能夠做到目標(biāo)跟蹤和控制輻射的合理平衡,二者雖然跟蹤效果略差于最近鄰方法,但大大減少了截獲損失,更具實(shí)用性。同時,相比于短期管理方法,本文方法采取了多決策步長的長期管理,能夠在每時刻獲得更小的目標(biāo)函數(shù)值,整體管理效果更優(yōu),驗證了長期管理的優(yōu)越性。同時,本文方法所得的跟蹤精度并非在每一時刻都優(yōu)于短期管理方法。這是因為在決策制定的預(yù)測階段,由于長期管理在目標(biāo)狀態(tài)估計時需通過預(yù)測量測值遞推多步,而不獲取實(shí)際量測,可能會造成狀態(tài)估計誤差的加大,從而無法獲得最優(yōu)的傳感器管理方案,但從整個跟蹤過程上來看,其性能依舊優(yōu)于短期管理。
圖8 不同方法下每時刻目標(biāo)位置RMSE的變化情況Fig.8 Target position RMSE at each time under different methods
圖9 不同方法下每時刻傳感器截獲損失的變化情況Fig.9 Sensor interception loss at each time under different methods
圖10給出了跟蹤精度、截獲損失和目標(biāo)函數(shù)值在整個仿真時間總數(shù)值歸一化后的結(jié)果。由圖10可以進(jìn)一步看出,本文方法在控制截獲損失和整體性能平衡上均表現(xiàn)最佳,且跟蹤效果相比于最近鄰方法差距很小,驗證了本文方法的有效性和先進(jìn)性。
圖10 不同方法下各指標(biāo)歸一化數(shù)值Fig.10 Normalized values of each index
為驗證本文所提多普勒盲區(qū)下目標(biāo)預(yù)測狀態(tài)修正方法的有效性,以目標(biāo)1為例,給出了其相對各傳感器的徑向速度和有無盲區(qū)信息修正下的位置RMSE示意圖,如圖11、圖12所示。由圖11、圖12可以看出,在跟蹤過程中所有的傳感器均存在多普勒盲區(qū),而盲區(qū)信息修正方法的跟蹤性能要優(yōu)于無修正方法。特別是在128 s左右,目標(biāo)1位于所有傳感器的多普勒盲區(qū),此時無修正的估計方法誤差很大,而盲區(qū)信息修正方法的RMSE仍會出現(xiàn)一定波動,但是相對于無修正方法,誤差得到了有效控制。該法從一定程度上減小了航跡關(guān)聯(lián)的錯誤率,提高了目標(biāo)狀態(tài)估計的質(zhì)量。
圖11 目標(biāo)1相對各傳感器的徑向速度變化Fig.11 Radial velocity variation of Target 1 relative to each sensor
圖12 有無盲區(qū)信息修正下每時刻目標(biāo)1的位置RMSEFig.12 Position RMSE of Target 1 at each time with/without blind zone information correction
圖13給出了傳感器-目標(biāo)的分配方案,即每時刻目標(biāo)函數(shù)的解,其直接著影響傳感器管理的效果。由圖13可以看出,在整個跟蹤過程中,不易被截獲、重要度小的傳感器3和傳感器4被頻繁使用,而最容易被截獲、重要度最高的傳感器2使用次數(shù)最少,符合控制輻射從而減少截獲損失的實(shí)際要求。進(jìn)一步說明了通過本文傳感器管理方法所制定的決策方案,可在每時刻合理切換各傳感器工作,實(shí)現(xiàn)了傳感器系統(tǒng)在目標(biāo)跟蹤和控制截獲損失上的合理平衡,即保障了跟蹤性能,又提高了傳感器系統(tǒng)的戰(zhàn)場生存能力。
圖13 傳感器-目標(biāo)的分配方案Fig.13 Sensor-target assignment scheme
本文針對道路約束下的地面目標(biāo)跟蹤任務(wù),基于POMDP框架對傳感器管理方法進(jìn)行了研究,建立了道路約束下的地面目標(biāo)跟蹤模型和傳感器截獲損失模型,給出了多普勒盲區(qū)下目標(biāo)預(yù)測狀態(tài)修正方法、目標(biāo)跟蹤精度計算方法和截獲損失計算方法,提出了基于LF-SSA的優(yōu)化算法以求取管理方案。得出主要結(jié)論如下:
1)本文所提出的LF-SSA可提高尋優(yōu)時的全局搜索能力,從而擺脫局部收斂,在較短時間內(nèi)找到高質(zhì)量的解。
2)本文所提傳感器管理方法有效地解決了多傳感器系統(tǒng)對道路約束下地面目標(biāo)跟蹤的需求,可確保系統(tǒng)合理決策,更好地實(shí)現(xiàn)目標(biāo)跟蹤和控制輻射損失的合理平衡。
3)在目標(biāo)進(jìn)入傳感器的多普勒盲區(qū)后,本文所提利用盲區(qū)信息對目標(biāo)預(yù)測狀態(tài)進(jìn)行修正的方法可在一定程度上提高目標(biāo)狀態(tài)估計的準(zhǔn)確性。
在下一步研究中,會在傳感器管理模型中考慮更加復(fù)雜的非線性地面目標(biāo)和起伏地形約束等與實(shí)際戰(zhàn)場情況更貼合的因素。