李龍躍 劉付顯
(空軍工程大學(xué) 防空反導(dǎo)學(xué)院,陜西 西安710051)
很多軍事作戰(zhàn)問題可以抽象為紅方防御多個(gè)藍(lán)方目標(biāo)的射擊戰(zhàn)斗問題,如地空導(dǎo)彈射擊多個(gè)空中目標(biāo)的防空作戰(zhàn)場景。這種場景下藍(lán)方目標(biāo)可能有多個(gè)類型,紅方不能完全確定藍(lán)方目標(biāo)的類型,且紅方也可能被藍(lán)方摧毀而喪失防空射擊能力[1]。紅藍(lán)雙方攻防射擊對抗過程本質(zhì)上是分配紅方可用射擊資源去射擊固定集合的藍(lán)方來襲目標(biāo),紅方射擊策略優(yōu)劣對射擊收益、殺傷藍(lán)方目標(biāo)數(shù)量和紅方生存概率都有影響,因此紅方制定和選用最優(yōu)射擊策略對于獲取最高射擊收益至關(guān)重要。Gittins 和Jones 首先基于指數(shù)最大化來研究決策問題[2]。近年來,Christopher M. Anderson[3]、Gu M Z[4]、Isaac M Sonin[5]、U Dinesh Kumar[6]、Si P B[7]等對Gittins 指數(shù)理論研究及在資源調(diào)度、任務(wù)分配和隨機(jī)決策等領(lǐng)域的應(yīng)用進(jìn)行了拓展,Glazebrook 和Gaver 結(jié)合Gittins 指數(shù)討論了軍事射擊優(yōu)化問題[8]。本文通過引入和拓展指數(shù)策略(Index Policy)應(yīng)用于紅藍(lán)雙方攻防射擊問題,以紅方在自身被摧毀之前最大化殺傷藍(lán)方目標(biāo)的收益(或數(shù)量)為目標(biāo),對指數(shù)策略在射擊策略中的最優(yōu)性進(jìn)行了討論,旨在最大化紅方作戰(zhàn)收益,對于輔助紅方射擊決策和建設(shè)作戰(zhàn)指揮信息系統(tǒng)具有一定借鑒意義。
首先考慮1 個(gè)紅方火力單元射擊N個(gè)藍(lán)方目標(biāo)的問題,規(guī)定“1 次戰(zhàn)斗”至少包括紅方對藍(lán)方進(jìn)行1 次射擊(期間紅方有可能被藍(lán)方摧毀),也包括紅方對藍(lán)方目標(biāo)殺傷效果的觀察過程。假設(shè)防空武器系統(tǒng)的彈藥數(shù)量不受限制,此時(shí)紅方的核心決策問題在于如何根據(jù)以往的射擊戰(zhàn)斗情況,選擇下一個(gè)需要射擊的目標(biāo),從而最大化射擊過程中的期望收益。以上決策問題可以描述為馬爾可夫決策過程[11]:
(1)X(t)={X1(t),X2(t),…,XN(t)}表示t∈N時(shí)刻(即在t +1 時(shí)刻之前)藍(lán)方目標(biāo)的狀態(tài)集合,Xj(t)表示藍(lán)方目標(biāo)j的狀態(tài)。
(2)Xj(t)∈Ωj∪{ωj},其中Ωj是紅方對藍(lán)方目標(biāo)j所有可能狀態(tài)的認(rèn)知空間,Xj(t)=ωj表示在時(shí)刻t,紅方被藍(lán)方目標(biāo)j摧毀。
(3)在t∈N時(shí)刻,aj表示在紅方?jīng)]有被摧毀的前提下,選擇下一次射擊(即在t +1 時(shí)刻)藍(lán)方目標(biāo)j。
(4)紅方在t∈N時(shí)刻采取射擊行動(dòng)aj的期望收益為有界且非負(fù)函數(shù):
常數(shù)β 為折扣因子,Rj可以理解為藍(lán)方目標(biāo)j的價(jià)值或?qū)t方造成的威脅值。
(5)Qj為標(biāo)記函數(shù),滿足:
標(biāo)記函數(shù)Qj(x)=0 表明如果紅方被摧毀則紅方收益為0,下一時(shí)刻停止射擊或目標(biāo)飛出射擊時(shí)間窗口。
(6)如果紅方在t時(shí)刻執(zhí)行射擊行動(dòng)aj,藍(lán)方目標(biāo)j狀態(tài)由Xj(t)變?yōu)閄j(t +1)的概率為:
顯然Ωj包含狀態(tài)ˉωj,表示藍(lán)方目標(biāo)被殺傷而紅方未被摧毀。為描述射擊行動(dòng)的期望收益,引入有界函數(shù):
其中Rj(x)表示在時(shí)刻t紅方執(zhí)行行動(dòng)aj的期望收益函數(shù),?Rj = RjQj,則紅方在時(shí)刻t執(zhí)行射擊行動(dòng)aj的期望收益為:
從式(3)中的Qk乘積項(xiàng)也可以看出如果紅方在射擊過程中被摧毀則收益為0,引入折扣因子β∈(0,1)來增加模型的通用性,β 的取值一般由決策者自行設(shè)定[12]。
一個(gè)射擊策略本質(zhì)是紅方基于歷史射擊效果,決策每一時(shí)刻射擊藍(lán)方目標(biāo)行動(dòng)的一種規(guī)則。設(shè)射擊策略為v,v(t)表示時(shí)刻t紅方的射擊選擇,則策略v下射擊期望收益為:
研究射擊策略的目的在于找到最優(yōu)射擊策略v*,使得紅方射擊期望收益最大。上述分析是馬爾可夫決策過程的一種,叫作廣義bandits 決策過程。廣義bandits 決策過程在不同決策行為之間引入了相互獨(dú)立的決策收益,可以作為研究射擊問題的框架。
令τ 表示紅方射擊過程結(jié)束時(shí)刻,?Rj(x,τ)表示在時(shí)間段[0,τ)紅方的射擊期望收益,則:
當(dāng)紅方被摧毀時(shí),則紅方收益也被終止,其收益率為:
Gj(x)為?Gj(x,τ)最大值。文獻(xiàn)[13]探討過Gj(x)的計(jì)算方法。
對于廣義bandits 決策過程存在最優(yōu)射擊策略,有定理1。
定理1[14]存在函數(shù)Gj∶Ωj→?+,假設(shè)在時(shí)刻t紅方未被摧毀,紅方射擊藍(lán)方目標(biāo)j*是最優(yōu)策略,當(dāng)且僅當(dāng)j*滿足下式:
假設(shè)藍(lán)方目標(biāo)有B種類型,“類型”是指隨著射擊戰(zhàn)斗進(jìn)行,可以決定射擊結(jié)果的藍(lán)方目標(biāo)特征的總稱。這里設(shè)定目標(biāo)“類型”是為了增強(qiáng)方法的普遍性,因此“類型”是廣義的,需要根據(jù)具體問題進(jìn)行設(shè)定,其常用的區(qū)分方法可以是依據(jù)對目標(biāo)的不同殺傷概率進(jìn)行劃分,如在防空作戰(zhàn)中“類型”可以是不同類型的目標(biāo),如隱身目標(biāo)、轟炸機(jī)目標(biāo)、戰(zhàn)斗機(jī)目標(biāo)等。通常情況下紅方不能確定藍(lán)方目標(biāo)的類型,射擊前其不確定性由N個(gè)獨(dú)立先驗(yàn)分布∏1,∏2,…,∏N表示,∏j b表示紅方判定藍(lán)方目標(biāo)j屬于b類型的概率(1 ≤j≤N,1 ≤b≤B)。設(shè)在1次戰(zhàn)斗中,所有射擊結(jié)果相互獨(dú)立,紅方對藍(lán)方b類型目標(biāo)的殺傷概率為rb,被其摧毀的概率為θb。紅方在第t次射擊殺傷一個(gè)藍(lán)方b類型目標(biāo)的收益為βtRb,紅方的戰(zhàn)斗目標(biāo)是在被摧毀前最大化殺傷藍(lán)方目標(biāo)所獲得的收益(若β=1,Rb =1,紅方的戰(zhàn)斗目標(biāo)等價(jià)于在被摧毀前最大化殺傷藍(lán)方目標(biāo)的數(shù)量)。基于貝葉斯理論,在經(jīng)歷n次戰(zhàn)斗后,如果紅方和藍(lán)方目標(biāo)j均存活,則此時(shí)紅方判定藍(lán)方目標(biāo)j屬于b類型的概率可由后驗(yàn)分布∏j,nb來表示:
則可得到下式:
式(9)中的3 個(gè)式子分別表示紅方和藍(lán)方目標(biāo)j均存活、紅方存活且藍(lán)方目標(biāo)j被殺傷和紅方被摧毀三種情況。三種情況下射擊行動(dòng)的期望收益(不帶折扣因子)為:
令隨機(jī)變量τr為紅方射擊的終止時(shí)刻(r為正整數(shù),Xj(0)= n),紅方對藍(lán)方目標(biāo)j能射擊r次,直到兩者之間有一個(gè)被摧毀時(shí)停止射擊。τr表示當(dāng)前紅方射擊次數(shù),則紅方射擊行動(dòng)的期望收益為:
依據(jù)式(6)、(8)、(11)和(12)可得到定理2。
定理2 假設(shè)在時(shí)刻t紅方未被摧毀,紅方射擊藍(lán)方目標(biāo)j*是最優(yōu)策略(Xj*(t)≠ˉωj*),當(dāng)且僅當(dāng)j*滿足下式:
令式(13)中r =1,則可將Gj(n)化為Hj(n)(即僅考慮當(dāng)前射擊收益,不考慮后續(xù)射擊收益)。
式(14)中Hj(n)本質(zhì)上可以被理解為紅方射擊藍(lán)方b類型目標(biāo)的加權(quán)平均收益指數(shù)Rbrb(1-β+βθb)-1。當(dāng)Rb和rb較大,θb較小時(shí)射擊收益指數(shù)較高,即目標(biāo)價(jià)值和紅方殺傷藍(lán)方概率較大,被藍(lán)方摧毀概率較小時(shí)收益指數(shù)較高,射擊收益較高,此目標(biāo)適宜射擊;反之,對于Rb和rb較小,θb較大的目標(biāo),即目標(biāo)價(jià)值和紅方殺傷藍(lán)方概率較小,被藍(lán)方摧毀概率較大時(shí)收益較低,此目標(biāo)不適宜射擊,上述結(jié)論較為符合實(shí)際作戰(zhàn)認(rèn)知。
如果函數(shù)Hj(n)是單調(diào)遞減的,則對于所有n當(dāng)r =1 時(shí)式(13)取得最大值,此時(shí)有Gj(n)=Hj(n)。這種特殊情況表示紅方的射擊策略是不停轉(zhuǎn)換所需射擊的藍(lán)方目標(biāo),選擇射擊指數(shù)最高的目標(biāo)射擊。如果函數(shù)Hj(n)是單調(diào)遞增的,則對于所有n當(dāng)r→∞式(13)取得最大值,此時(shí)Gj(n)為:
這種特殊情況表示紅方最優(yōu)策略是對每一個(gè)藍(lán)方目標(biāo)持續(xù)射擊直至目標(biāo)被殺傷。
為了和指數(shù)策略進(jìn)行比較,給出近視策略(Myopic Policy)、隨機(jī)策略(Random Policy)和循環(huán)策略(Round - Robin Policy)3 種射擊策略。
(1)近視策略。如果指數(shù)策略選擇射擊目標(biāo)是考慮射擊戰(zhàn)斗的長遠(yuǎn)期望收益,那么近視策略選擇射擊目標(biāo)則是考慮即時(shí)最優(yōu)收益,因此近視策略又可稱為即時(shí)最優(yōu)策略。近視策略指導(dǎo)紅方?jīng)Q策者按“眼前”最優(yōu)收益進(jìn)行射擊。如果藍(lán)方目標(biāo)j為b類型的先驗(yàn)概率分布為∏j b,采用近視射擊策略,進(jìn)行n次射擊戰(zhàn)斗后收益為:
近視策略并不一定是最優(yōu)策略[12]。舉例說明,如某次射擊戰(zhàn)斗,有2 枚射擊彈,射擊2 個(gè)目標(biāo),2 枚射擊彈對2 個(gè)目標(biāo)的殺傷概率是[1,0.9;0.9,0],R1= R2=1。按照近視策略,用第1 枚選擇目標(biāo)1,不使用第2 枚射擊彈,總收益是1,而最優(yōu)的策略則是用第2 枚射擊目標(biāo)1,如果失敗再用第1 枚射擊目標(biāo)1,或者第1 枚射擊目標(biāo)2,總收益都是0.9×(1+0.9)+0.1×(0+1)=1.81,顯然這說明了近視策略并非最優(yōu)策略。對本文研究來說,近視策略以紅方當(dāng)前時(shí)刻收益最大為目標(biāo),計(jì)算量小,實(shí)時(shí)性強(qiáng),但未考慮下一時(shí)刻目標(biāo)類型的變化對射擊收益的影響,適用常規(guī)目標(biāo)無差別射擊。
(2)隨機(jī)策略。隨機(jī)射擊策略就是對存活待射擊的藍(lán)方目標(biāo),紅方從中隨機(jī)選擇進(jìn)行射擊,選擇任何一個(gè)藍(lán)方目標(biāo)的概率相等或相似。
(3)循環(huán)策略。循環(huán)射擊策略就是對存活待射擊的藍(lán)方目標(biāo),紅方按某種順序循環(huán)射擊,其中,第1 個(gè)射擊目標(biāo)隨機(jī)選擇決定。
參數(shù)設(shè)置:設(shè)計(jì)2 個(gè)射擊戰(zhàn)斗場景,均含有10個(gè)待射擊藍(lán)方目標(biāo),藍(lán)方目標(biāo)有5 種類型,具體參數(shù)見表1。從表1 中可以發(fā)現(xiàn)基本上藍(lán)方價(jià)值越高的目標(biāo)就越難被殺傷,并且紅方被摧毀的概率越大。已知N =10,B =5,每次計(jì)算將目標(biāo)分成5 組,設(shè)置組內(nèi)第i類型目標(biāo)先驗(yàn)概率為0.75,組間則設(shè)相互獨(dú)立,并服從U(0,1)分布,滿足1(1 ≤j≤10),折扣率β 設(shè)置為0.95。
表1 紅藍(lán)雙方參數(shù)值
實(shí)驗(yàn)過程:用4 種射擊策略對2 個(gè)場景問題進(jìn)行求解,針對4 種射擊策略分別計(jì)算10000 次。
實(shí)驗(yàn)結(jié)果:實(shí)驗(yàn)記錄了2 個(gè)場景紅方的收益,包括最小收益、平均收益、最大收益、平均殺傷數(shù)量、紅方被摧毀概率等數(shù)據(jù)。表2 是2 個(gè)場景下針對4 種射擊策略紅方收益數(shù)據(jù),表3 是2 個(gè)場景下針對4 種射擊策略紅方殺傷藍(lán)方目標(biāo)數(shù)量數(shù)據(jù),表4 是4種射擊策略下紅方被摧毀的概率。
表2 紅方收益數(shù)據(jù)
表3 紅方殺傷藍(lán)方目標(biāo)數(shù)量數(shù)據(jù)
表4 紅方被摧毀的概率
一般認(rèn)為,射擊戰(zhàn)斗過程中較好射擊策略是根據(jù)紅藍(lán)雙方當(dāng)時(shí)狀態(tài)確定的,應(yīng)當(dāng)是即時(shí)最優(yōu)策略(近視策略);較差策略是隨機(jī)策略,因?yàn)殡S機(jī)策略不考慮射擊收益,而通過實(shí)例和計(jì)算結(jié)果分析發(fā)現(xiàn)并非如此。4 種射擊策略中指數(shù)策略要優(yōu)于其他3種射擊策略,尤其是平均射擊總收益和平均殺傷藍(lán)方目標(biāo)數(shù)量上具有優(yōu)勢,與定理1 和定理2 的論述相符。近視策略比預(yù)想表現(xiàn)要差,其根本原因在于對紅方自身被摧毀的概率考慮較少,導(dǎo)致紅方較早被摧毀而結(jié)束戰(zhàn)斗,獲得的射擊總收益也較少。實(shí)例中,近視策略甚至還不如隨機(jī)策略或循環(huán)策略,其原因有待下一步研究。
[1] 武從猛,王公寶.大型水面艦艇編隊(duì)空中來襲目標(biāo)威脅值評估[J].軍事運(yùn)籌與系統(tǒng)工程,2013,27(3):24 -27.
[2] GITTINS J C. Multi-armed bandit allocation indices[M]. Chichester:Wiley,1989.
[3] CHRISTOPHER M ANDERSON. Ambiguity aversion in multi -armed bandit problems[J]. Theory and Decision,2012,72(1):15 -33.
[4] GU M Z,LU X W. The expected asymptotical ratio for preemptive stochastic online problem [J]. Theoretical Computer Science,2013,49(5):96 -112.
[5] ISAAS M SONIN. A generalized Gittins index for a Markov chain and its recursive calculation[J]. Statistics and Probability Letters,2008,78(12):1526 -1553.
[6] U DINESH KUMAR,HARITHA SARANGA. Optimal selection of obsolescence mitigation strategies using a restless bandit model[J]. European Journal of Operational Research,2010,200(1):170 -180.
[7] SI P B,JI H,YU F R. Optimal network selection in heterogeneous wireless multimedia networks [J]. Wireless Networks,2010,16(5):1277 -1288.
[8] GLAZEBROOK K D,GAVER D P,JACOBS P A. On a military scheduling problem [R]. Monterey CA:Naval Postgraduate School,2001.
[9] BARKDOLL T C,GAVER D P,GLAZEBROOK K D,et al.Suppression of enemy air defense(SEAD)as an information duel[D]. Monterey: Naval Postgraduate School Working Paper,2001.
[10] GLAZEBROOK K D,WASHBURN A. Shoot - Look - Shoot:A review and extension [J]. Operations Research,2004,52(3):454 -463.
[11] GLAZEBROOK K D,MITCHELL H M,GAVER D P,et al.The analysis of shooting problems via generalized bandits[R].Monterey CA:Naval Postgraduate School,2004.
[12] GLAZEBROOK K D,KIRBRIDE C,MITCHELL H M,et al.Index policies for shooting problems[R]. Monterey CA:Naval Postgraduate School,2006.
[13] GLAZEBROOK K D,GREATRIX S. On transforming an index for generalized bandit problems[J]. Journal of Applied Probability,1995,32(1):168 -182.
[14] NASH P. A generalized bandit problem[J]. Journal of the Royal Statistical Society (Series B),1980,42(2):165 -169.