徐 旺,溫卓漫,吳朝波,張雁平,劉湘德
(1.電子信息控制重點(diǎn)實(shí)驗(yàn)室,四川 成都 610036;2.中國人民解放軍75831部隊(duì),廣東 廣州 510510)
近年來,因雷達(dá)組網(wǎng)良好的“四抗”特性,預(yù)警探測雷達(dá)網(wǎng)得到廣泛的研究和應(yīng)用。通過將多方位多頻段的多部雷達(dá)進(jìn)行交叉驗(yàn)證和關(guān)聯(lián)融合,預(yù)警雷達(dá)網(wǎng)實(shí)現(xiàn)了對目標(biāo)的穩(wěn)定航跡跟蹤效果。以臺灣防空雷達(dá)網(wǎng)為例,已經(jīng)建立預(yù)警雷達(dá)站超過40個,部署雷達(dá)數(shù)量超過100部[1],給空中編隊(duì)的突防航路規(guī)劃帶來了極大挑戰(zhàn)。
針對突防航路規(guī)劃問題,國內(nèi)學(xué)者提出了一些航路優(yōu)化理論方法。文獻(xiàn)[2]提出了基于干擾方程和雷達(dá)方程縮減雷達(dá)探測威力區(qū)域,將突防航路規(guī)劃問題轉(zhuǎn)換為突防避障問題,并利用A* 算法進(jìn)行求解。文獻(xiàn)[3]提出了通過預(yù)先設(shè)置先驗(yàn)毀傷概率,基于降低無人機(jī)毀傷概率,提出了對無人機(jī)進(jìn)行突防航路規(guī)劃的方法。文獻(xiàn)[4-5]分別提出了自適應(yīng)差分進(jìn)化算法和遺傳算法的空中目標(biāo)避障方法。總的來說,這些方法基本未考慮預(yù)警探測雷達(dá)網(wǎng)的多重覆蓋性,或者僅靜態(tài)考慮了雷達(dá)受干擾后的威力范圍下降,沒有考慮目標(biāo)航跡形成機(jī)理、多雷達(dá)組網(wǎng)融合以及突防兵力在各航路段面臨的威脅,難以良好地支撐空中編隊(duì)的突防行動。
為實(shí)現(xiàn)良好空中突防效果,需在考慮電子干擾和雷達(dá)探測能力基礎(chǔ)上,通過破解單部雷達(dá)的目標(biāo)檢測、航跡建立與跟蹤、組網(wǎng)融合等環(huán)節(jié),實(shí)現(xiàn)高效的突防效果?;诖?,本文提出了一種基于馬爾科夫決策模型的航路規(guī)劃方法,通過對突防戰(zhàn)機(jī)電子干擾和預(yù)警探測雷達(dá)網(wǎng)處理準(zhǔn)則進(jìn)行建模,建立空中編隊(duì)被檢測跟蹤狀態(tài)轉(zhuǎn)移模型和突防代價目標(biāo)描述,達(dá)到對空中兵力突防路徑的優(yōu)化效果。
組網(wǎng)雷達(dá)系統(tǒng)內(nèi)各節(jié)點(diǎn)獨(dú)立開展目標(biāo)探測,得到點(diǎn)跡或航跡后,上報至組網(wǎng)融合中心,經(jīng)過預(yù)處理、點(diǎn)跡/航跡關(guān)聯(lián)及航跡濾波與更新后,形成探測航跡,并實(shí)現(xiàn)穩(wěn)定跟蹤效果[6],基本處理流程如圖1。
單部雷達(dá)處理主要是形成探測點(diǎn)跡或航跡,為后續(xù)雷達(dá)組網(wǎng)處理提供信息來源。組網(wǎng)融合處理中,預(yù)處理主要負(fù)責(zé)對多部雷達(dá)探測信息進(jìn)行格式統(tǒng)一、時間對準(zhǔn)、空間配齊等處理;航跡或點(diǎn)跡關(guān)聯(lián)進(jìn)行最近鄰關(guān)聯(lián)等處理,確定哪些航跡或點(diǎn)跡是屬于同一目標(biāo);航跡濾波與更新,則基于卡爾曼濾波、α-β 濾波等處理,通過剔除部分誤差,達(dá)到對目標(biāo)的穩(wěn)定探測效果[6-8]。整個處理過程中,因航路規(guī)劃影響雷達(dá)網(wǎng)探測效果的是單部雷達(dá)點(diǎn)跡形成、航跡跟蹤和航跡丟失,以及組網(wǎng)航跡跟蹤、航跡丟失等。
圖1 預(yù)警探測雷達(dá)網(wǎng)基本處理流程
點(diǎn)跡形成:目標(biāo)回波信號達(dá)到一定的信噪比門限,可判斷目標(biāo)存在,從而在信號方位和距離上,生成目標(biāo)點(diǎn)跡。
航跡跟蹤:采用五中取四、連續(xù)三次探測等跟蹤算法,即在目標(biāo)附近特定區(qū)域內(nèi),連續(xù)五次檢測中有四次檢測到目標(biāo)信號,或者連續(xù)三次檢測到目標(biāo)點(diǎn)跡,則建立目標(biāo)航跡。在航跡建立后,且未丟失航跡,則為航跡跟蹤狀態(tài)。
航跡丟失:連續(xù)多次(如三次)未檢測到目標(biāo)時,判斷目標(biāo)航跡丟失。
航跡跟蹤:分為點(diǎn)跡融合和航跡融合。點(diǎn)跡融合時,將所有雷達(dá)探測點(diǎn)跡匯聚到融合中心,采用類似單部雷達(dá)航跡建立方式,建立組網(wǎng)探測航跡。航跡融合時,需要單部雷達(dá)形成航跡后,組網(wǎng)融合中心將多部雷達(dá)上報的航跡進(jìn)行聚集建立航跡,即任意一部雷達(dá)形成了航跡,才建立航跡。航跡建立后,且未丟失航跡,則為組網(wǎng)航跡保持狀態(tài)。
航跡丟失:與單部雷達(dá)處理類似。當(dāng)采用點(diǎn)跡融合方式時,一定時間閾值內(nèi)網(wǎng)內(nèi)節(jié)點(diǎn)均未檢測到目標(biāo)時,判斷航跡丟失;當(dāng)采用航跡融合方式時,若沒有一部雷達(dá)形成航跡,則判斷航跡丟失。
航路規(guī)劃目標(biāo)是尋找一條安全、經(jīng)濟(jì)且滿足飛機(jī)平臺機(jī)動性能的航路,并能給出整個突防路徑上的威脅航路段預(yù)警。本文中,將戰(zhàn)斗機(jī)編隊(duì)突防預(yù)警雷達(dá)網(wǎng)的過程建模為馬爾科夫決策過程(MDP),并定義戰(zhàn)斗機(jī)編隊(duì)突防代價,通過搜索代價最小的航路,實(shí)現(xiàn)航路優(yōu)化的目標(biāo)。
MDP定義為{S(0),T(s,a,s'),R(s,a)},分別代表初始狀態(tài)、轉(zhuǎn)移模型以及回報函數(shù)[11]。基于MDP的戰(zhàn)斗機(jī)突防航路規(guī)劃,定義如下。
1)初始突防狀態(tài)S(0)
首先采用一定的刻度將突防空間柵格化,單個柵格至少大于一個雷達(dá)回訪/ 掃描周期內(nèi)的機(jī)動距離??紤]預(yù)警雷達(dá)網(wǎng)對突防編隊(duì)的探測能力、突防編隊(duì)位置變化以及相鄰兩柵格間雷達(dá)探測狀態(tài)變化的連續(xù)性等因素,將戰(zhàn)斗機(jī)編隊(duì)突防狀態(tài)空間定義為
其中,Detect_State為預(yù)警雷達(dá)網(wǎng)對突防編隊(duì)的探測狀態(tài),包括“未探測到/ 航跡丟失(UnFind_State)”和“探測到/ 航跡跟蹤(Find_State)”兩種狀態(tài)。Loc_No表示突防編隊(duì)所處位置柵格的編號;DState_Last表示最近三次雷達(dá)網(wǎng)的目標(biāo)點(diǎn)跡探測狀態(tài),取值為二進(jìn)制000~111,第k位取0和1分別表示第k次掃描未形成、形成目標(biāo)點(diǎn)跡。
初始情況下,可假設(shè)突防編隊(duì)處于雷達(dá)探測威力外,即Detect_State取為“UnFind_State”,Loc_No取為突防兵力實(shí)際所處柵格編號,DState_Last取為“000”。
2)轉(zhuǎn)移模型T(s,a,s')
①編隊(duì)突防行動集A
A表示航路規(guī)劃可選的所有行動集合。不失一般性,以二維空間為例,突防編隊(duì)機(jī)動可選行為包括向左前(a1)、前(a2)、右前(a3)、右(a4)、右后(a5)、后(a6)、左后(a7)、左(a8)等八個動作,如圖2所示。
圖2 突防編隊(duì)行為集A定義示意
②突防狀態(tài)轉(zhuǎn)移模型
·突防位置轉(zhuǎn)移
以突防起始點(diǎn)為原點(diǎn),按照空間柵格尺度,向東、向北方向分別為水平向、縱向柵格編號的正值方向。記第i步突防編隊(duì)位置為Loc_No(i),所采用突防行為ai,則第i+1步突防編隊(duì)位置Loc_No(i+1)為:
其中,Loc_No(·)v、Loc_No(·)h分別表示編隊(duì)位置Loc_No(·)的縱向和水平向柵格編號。
·最近三次點(diǎn)跡生成狀態(tài)轉(zhuǎn)移
根據(jù)文獻(xiàn)[6,9-10]結(jié)論,一定虛警概率門限下,目標(biāo)點(diǎn)跡檢測概率Pd與信噪比(S/N)呈現(xiàn)出一定的函數(shù)關(guān)系Pd(S/N),如圖3所示?;诖耍捎?jì)算獲得雷達(dá)一次掃描/回訪周期內(nèi),對突防戰(zhàn)斗機(jī)編隊(duì)形成點(diǎn)跡的概率。
記第i步突防編隊(duì)從位置Loc_No(i),采用突防行為ai,機(jī)動到位置Loc_No(i+1)所需時間為ΔTi,雷達(dá)網(wǎng)回訪/掃描時間周期為TScan,則DState_Last轉(zhuǎn)移模型定義如下。
當(dāng)ΔTi大于等于3倍回訪/ 掃描周期時,最近三次點(diǎn)跡生成狀態(tài)轉(zhuǎn)移定義如式(1)。其中,Pd(i,S/N)表示雷達(dá)網(wǎng)探測概率,其是基于第i步突防編隊(duì)所處柵格中心位置的雷達(dá)網(wǎng)信噪比和圖3所示的函數(shù)關(guān)系計(jì)算得到的。組網(wǎng)處理時,一般采用具備最優(yōu)探測效果的雷達(dá)目標(biāo)探測點(diǎn)跡,因此Pd(i,S/N)可取為雷達(dá)組網(wǎng)系統(tǒng)中所有雷達(dá)的最大信噪比。
圖3 目標(biāo)檢測概率-信噪比-虛警概率關(guān)系
當(dāng)ΔTi小于3倍且大于2倍回訪/ 掃描周期時,最近三次點(diǎn)跡生成狀態(tài)轉(zhuǎn)移定義如式(2)。式中DState_Last(·)j表示探測狀態(tài)的第j位取值。
當(dāng)ΔTi小于2倍且大于1倍回訪/ 掃描周期時,最近三次點(diǎn)跡生成狀態(tài)轉(zhuǎn)移定義如式(3)??臻g柵格化時保證了單個柵格至少大于一個回訪/ 掃描周期內(nèi)突防編隊(duì)的機(jī)動距離,因而不考慮ΔTi小于1倍回訪/掃描周期的情況。
·探測狀態(tài)轉(zhuǎn)移
以點(diǎn)跡融合為例,假設(shè)航跡建立采用連續(xù)三次探測跟蹤算法,而航跡丟失采用連續(xù)三次丟失判別算法。顯然,雷達(dá)網(wǎng)的第i+1探測狀態(tài)僅依賴于第i步的探測狀態(tài)、最近三次點(diǎn)跡狀態(tài)、第i步到i+1步的轉(zhuǎn)移時間ΔTi以及雷達(dá)網(wǎng)的掃描回訪時間等因素?;诖耍疚目蓪⑻綔y狀態(tài)轉(zhuǎn)移定義如下。
當(dāng)Detect_State(i)=UnFind_State時,探測狀態(tài)轉(zhuǎn)移模型為式(4)。式中,φ(DState_Last(i),ΔTi+1,TScan)表示第j+1步預(yù)警雷達(dá)網(wǎng)的[ΔTi+1/TScan]次探測與DState_Last(i)組成的探測序列中,滿足雷達(dá)網(wǎng)航跡建立與航跡保持的排列個數(shù),即存在連續(xù)三次檢測且到最后一次探測時未出現(xiàn)連續(xù)三次目標(biāo)未探測到的排列個數(shù)。
當(dāng)Detect_State(i)=Find_State時,探測狀態(tài)的轉(zhuǎn)移模型如式(5)所示。式中,φ(DState_Last(i),ΔTi+1,TScan)表示第j+1步預(yù)警雷達(dá)網(wǎng)[ΔTi+1/TScan]次探測與DState_Last(i)組成的探測序列中,滿足雷達(dá)網(wǎng)航跡建立與航跡保持的排列個數(shù),即“目標(biāo)檢測序列中存在連續(xù)三次檢測到,同時直到最后一次探測時都未出現(xiàn)連續(xù)三次目標(biāo)未探測到的排列個數(shù)”,加上“目標(biāo)檢測序列中不同時存在連續(xù)三次檢測和連續(xù)三次目標(biāo)未探測到的排列個數(shù)”。
3)匯報函數(shù)R(s,a)
R(s,a)表示在狀態(tài)s下,執(zhí)行行動a所獲得的效益。記狀態(tài)s下,突防編隊(duì)執(zhí)行行動a后,將處于狀態(tài)s'??蓪⒒貓蠛瘮?shù)R(s,a)定義如式(6)所示。式中,r、c為常數(shù),分別表示向突防目標(biāo)位置移動、遠(yuǎn)離的獎勵和懲罰。
式中,dis(x,y)表示狀態(tài)x、y之間的距離;stgt表示目標(biāo)狀態(tài);Δdis表示相鄰兩個柵格中心之間的距離,即劃分柵格的尺度。
采用啟發(fā)式搜索方法對突防編隊(duì)航路規(guī)劃模型進(jìn)行求解,主要是涉及對搜索行動空間進(jìn)行消解、定義啟發(fā)式搜索目標(biāo)、搜索算法設(shè)計(jì)等三個方面。
1)搜索行動空間消解
針對突防編隊(duì)的突防行動集A,在考慮突防編隊(duì)上一位置基礎(chǔ)上,排除上一位置一步可達(dá)的位置后,得到平臺的實(shí)際機(jī)動動作,如圖4所示。
圖4 排除之前動作后,平臺實(shí)際候選動作
2)啟發(fā)式搜索目標(biāo)
航路規(guī)劃本質(zhì)上是,給定起始點(diǎn)和終止點(diǎn),尋求安全、時間/距離較短、適合飛機(jī)機(jī)動性能的路徑點(diǎn)序列{Loc_No(0),Loc_No(1),…,Loc_No(n)}。因此,從時間、距離、安全的角度,定義編隊(duì)突防規(guī)劃啟發(fā)式搜索代價函數(shù)為式(7)。其中,V(DState_Last(i))表示第i步處于 Loc_No(i)位置且雷達(dá)網(wǎng)探測狀態(tài)為DState_Last(i)的代價。該代價可以通過定義最終突防目標(biāo)狀態(tài)價值后,利用Bellman方程等[11]進(jìn)行反饋計(jì)算,如式 (8)。其 中,γ 為折扣因子,P(DState_Last(i +1))為處于DState_Last(i+1)的概率。
本文設(shè)置利用1個戰(zhàn)斗機(jī)編隊(duì)對10部預(yù)警雷達(dá)組成的雷達(dá)網(wǎng)進(jìn)行突防的仿真場景,如表1所示。突防戰(zhàn)機(jī)性能參數(shù)和突防目標(biāo)設(shè)置情況,如表2、3所示。
設(shè)干擾機(jī)功率為200 W,干擾機(jī)在多個目標(biāo)之間均分干擾功率,基于傳統(tǒng)A* 方法[2]得到的編隊(duì)突防航路規(guī)劃結(jié)果,如圖5所示。設(shè)置雷達(dá)的虛警概率為10-6,基于本文方法的規(guī)劃結(jié)果如圖6所示。其中,綠色、黃色分別表示處于未被雷達(dá)網(wǎng)探測、處于被航跡跟蹤的可能性最大,即可以對戰(zhàn)斗機(jī)編隊(duì)飛行員進(jìn)行威脅警示。圖5主要體現(xiàn)了依據(jù)雷達(dá)受干擾后威力范圍變化的規(guī)劃結(jié)果,因而規(guī)劃結(jié)果是處于各部雷達(dá)燒穿距離以外,且“繞著雷達(dá)走”。圖6則體現(xiàn)了依據(jù)雷達(dá)網(wǎng)處理邏輯的規(guī)劃結(jié)果,該結(jié)果并非僅依據(jù)雷達(dá)網(wǎng)信噪比/信干比,因而能體現(xiàn)編隊(duì)處于不同被探測狀態(tài)的概率。此外,需說明的是,當(dāng)干擾功率不能對雷達(dá)進(jìn)行完全壓制時,干擾后各雷達(dá)之間不存在“縫隙”,傳統(tǒng)A* 方法不能進(jìn)行規(guī)劃。圖7給出了每個航路段上,突防編隊(duì)處于各種探測狀態(tài)的概率估計(jì)值。
表1 預(yù)警雷達(dá)網(wǎng)坐標(biāo)和參數(shù)設(shè)置
表2 平臺機(jī)動性能參數(shù)設(shè)置
圖5 基于傳統(tǒng)A* 算法的規(guī)劃結(jié)果
圖6 基于MDP的航路規(guī)劃結(jié)果
圖7 各航路點(diǎn)上雷達(dá)網(wǎng)探測概率
本文針對戰(zhàn)機(jī)編隊(duì)對預(yù)警雷達(dá)網(wǎng)的空中突防應(yīng)用背景,在考慮雷達(dá)組網(wǎng)處理邏輯基礎(chǔ)上,提出了一種基于馬爾科夫決策的航路規(guī)劃方法。該方法綜合考慮了單部雷達(dá)點(diǎn)跡生成、航跡跟蹤、航跡丟失以及組網(wǎng)航跡跟蹤、航跡丟失等處理準(zhǔn)則,建立了突防狀態(tài)概率轉(zhuǎn)移模型以及突防航路優(yōu)化目標(biāo)。仿真結(jié)果表明,該方法在降低突防兵力的被探測跟蹤概率的同時,能給突防編隊(duì)飛行員進(jìn)行威脅警示,輔助空中突防作戰(zhàn)行動。