張 昊,巫銀花,吳 濤,文 韜,朱 智
(1.海軍指揮學院作戰(zhàn)實驗室,南京 210016;2.海軍指揮學院訓練管理系,南京 210016)
在多兵種交戰(zhàn)問題中,作戰(zhàn)指數(shù)評估的目標是科學衡量各兵種在作戰(zhàn)過程中的作用,它是指揮員制定軍事決策方案的重要依據(jù)。各兵種的火力分配策略是軍事決策的重要內(nèi)容,合理的火力分配策略能夠增強兵種戰(zhàn)斗力,從而提高兵種的作戰(zhàn)指數(shù)。因此,作戰(zhàn)指數(shù)是制定火力分配策略的前提,火力分配策略又對作戰(zhàn)指數(shù)有重要影響,這反映了軍事哲學中兵種的戰(zhàn)斗力與戰(zhàn)法的辯證關(guān)系。由于兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴,必須從整體上對兩者進行統(tǒng)一處理。在多兵種蘭徹斯特方程條件下,本文借鑒強化學習理論,根據(jù)兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互遞推關(guān)系,采用迭代計算方法進行統(tǒng)一處理,詳細考察不同更新策略對迭代收斂速度和穩(wěn)定性的影響。
對于大規(guī)模多兵種交戰(zhàn)問題,兵種作戰(zhàn)指數(shù)評估是進行軍事決策的重要依據(jù)。目前,研究人員提出了多種作戰(zhàn)指數(shù)評估方法,包括模糊綜合評價方法[1-2]、層次分析方法[3-4]、指數(shù)法[5-6]和概率影響圖方法[7]等。這些方法需要結(jié)合專家的經(jīng)驗知識,采用定性定量相結(jié)合方法進行綜合處理,其存在的主要缺點是研究結(jié)果依賴于相關(guān)專家的能力水平和主觀判斷,難以科學衡量結(jié)果的優(yōu)劣。
沙基昌教授強調(diào)作戰(zhàn)問題研究應(yīng)基于嚴謹?shù)臄?shù)學理論,提出了基于多兵種交戰(zhàn)蘭徹斯特方程的規(guī)范交戰(zhàn)模式理論,通過對作戰(zhàn)指數(shù)和火力分配策略進行整體處理,給出了最優(yōu)解的圖論求解方法[8]。規(guī)范交戰(zhàn)模式理論涉及高等數(shù)學理論,計算復雜度高,實踐應(yīng)用難度較大。
在多兵種交戰(zhàn)中,兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴,需要有機結(jié)合起來進行統(tǒng)一處理。兵種的作戰(zhàn)指數(shù)是制定火力分配策略的重要依據(jù),對于我方每一型兵種,其火力分配策略的目標是尋求對敵方打擊的最大化,這需要綜合考察該型兵種對敵方各兵種毀傷能力與作戰(zhàn)指數(shù)的乘積,其中的最大項對應(yīng)的敵方兵種即為我方的最優(yōu)火力分配目標?;鹆Ψ峙洳呗杂帜苡绊懫渥鲬?zhàn)指數(shù)評估結(jié)果,火力分配策略確定了兵種的打擊目標,直接影響該兵種的作戰(zhàn)效果,從而事實上影響其作戰(zhàn)指數(shù)。
兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴關(guān)系[8],類似于強化學習理論中Q 值和動作策略的相互依賴關(guān)系[9]。在強化學習理論中,智能體采取某行為策略與環(huán)境進行交互并獲得獎勵,然后根據(jù)獎勵值大小改進智能體行為策略,持續(xù)學習以尋求獎勵值最大化。Q 學習方法[10]是強化學習理論的重要方法,對于智能體的每個狀態(tài)si,初始化一個效用值qi,稱作Q 值;智能體執(zhí)行某動作的回報定義為該動作的直接獎勵加上后序狀態(tài)的效用值;智能體優(yōu)先選擇執(zhí)行回報最大的動作,然后利用該回報值更新原狀態(tài)的Q 值,循環(huán)執(zhí)行直至所有狀態(tài)的Q值收斂。Q 學習方法用Q 值描述了智能體在各個狀態(tài)時獲取回報的能力,智能體在各狀態(tài)時最優(yōu)動作策略為選擇回報最大的動作。對于多兵種交戰(zhàn)問題,兵種作戰(zhàn)指數(shù)描述了其在作戰(zhàn)過程中的作用,兵種的最優(yōu)火力分配策略需要尋求其作戰(zhàn)效果的最大化。通過類比研究可以發(fā)現(xiàn),多兵種交戰(zhàn)問題與強化學習理論在概念和原理上有相通之處,借鑒強化學習理論相關(guān)成果研究多兵種交戰(zhàn)問題,能夠啟發(fā)研究思路。
對于大規(guī)模多兵種交戰(zhàn)問題,蘭徹斯特方程是描述其作戰(zhàn)過程的基礎(chǔ)數(shù)學模型:
為了擊敗對方,提升我方兵種的作戰(zhàn)效果,需要對各兵種火力分配系數(shù)的取值進行優(yōu)化,尋求對敵方打擊的最大化。由于各方均有多型兵種,不同兵種的價值是未知的,從而難以統(tǒng)一度量和比較某兵種攻擊對敵方不同目標時的價值差異。為統(tǒng)一度量各兵種的價值,需要對各型兵種的重要性進行加權(quán)比較。
需要注意的是,毀傷系數(shù)矩陣中各列的最大項并不一定是各型兵種的最優(yōu)火力分配目標。在某些情況下,為了保護本方的高價值兵種,本方的其他兵種往往會攻擊敵方目標中對我方高價值兵種威脅較大的兵種,從而體現(xiàn)了本方不同兵種之間的掩護作用,在某種程度上反映了蘭徹斯特方程模型條件下的多兵種協(xié)同作戰(zhàn)。權(quán)衡“打擊敵方兵種”和“掩護本文兵種”,是各型兵種火力分配的一個難題。量化各型兵種在作戰(zhàn)過程的作用和重要性,是解決上述難題的關(guān)鍵。
各型兵種對于作戰(zhàn)過程的作用和重要性,即作戰(zhàn)指數(shù),是制定火力分配策略的重要依據(jù)。在作戰(zhàn)指數(shù)已知條件下,從某兵種對敵方目標兵種毀傷系數(shù)和目標兵種作戰(zhàn)指數(shù)乘積中,選擇出最大的項,即對應(yīng)最優(yōu)的火力分配目標。因此,最優(yōu)火力分配策略依賴于作戰(zhàn)指數(shù)。
兵種的作戰(zhàn)指數(shù)反映了該兵種對于作戰(zhàn)過程的作用和重要性,采取的火力分配策略必然影響該兵種的作戰(zhàn)效能。在火力分配策略已知條件下,某兵種的作戰(zhàn)指數(shù),應(yīng)正比于其對敵方目標兵種毀傷系數(shù)和目標兵種作戰(zhàn)指數(shù)的乘積。因此,兵種的作戰(zhàn)指數(shù)又依賴于其采取的火力分配策略。
對于多兵種交戰(zhàn)蘭徹斯特方程,兵種的作戰(zhàn)指數(shù)和火力分配策略是相互依賴的兩組未知量,難以直接求解。借鑒強化學習理論中Q 學習方法對Q 值和行為策略的迭代更新過程,可采取迭代計算方法求解各兵種的作戰(zhàn)指數(shù)和火力分配策略。如圖1 所示,作戰(zhàn)指數(shù)迭代計算方法的基本思想為:首先初始化各兵種作戰(zhàn)指數(shù)取值,然后以最大化打擊敵方作戰(zhàn)指數(shù)為目標,制定當前各兵種的最優(yōu)火力策略,之后再根據(jù)該火力分配策略對敵方作戰(zhàn)指數(shù)毀傷程度,重新評估各兵種的作戰(zhàn)指數(shù);循環(huán)上述作戰(zhàn)指數(shù)與火力分配策略的相互推算步驟,直至結(jié)果收斂到穩(wěn)定值。
圖1 作戰(zhàn)指數(shù)迭代計算方法基本思想
基于上述基本思想,作戰(zhàn)指數(shù)迭代計算方法的主要步驟為:
上述主要步驟中,第6)步的更新率α 取值對迭代計算方法的收斂速度和穩(wěn)定性有重要影響,需要進一步詳細考察。
為了提高作戰(zhàn)指數(shù)迭代計算方法的收斂速度和穩(wěn)定性,需要對主要步驟中第6)步進行適當調(diào)整,考察不同更新策略的效果。在整個迭代計算過程中,可采取一種相對簡潔的策略,更新率α 始終選取某固定值,考察不同的固定值對收斂過程的影響;另一種比較靈活的策略是采取動態(tài)更新策略,迭代計算過程中動態(tài)調(diào)整更新率α 和更新梯度,進一步提高作戰(zhàn)指數(shù)的收斂速度和穩(wěn)定性。
在作戰(zhàn)指數(shù)迭代計算方法中,固定更新率的不同取值對作戰(zhàn)指數(shù)迭代過程有重要影響,下面通過算例進行詳細考察。
算例1 設(shè)定甲乙方的兵種數(shù)量均為4 個,其毀傷系數(shù)矩陣為:
毀傷系數(shù)矩陣A 和B 是特殊構(gòu)造的,其中每行的唯一偶數(shù)項對應(yīng)于理論最優(yōu)火力分配,甲方各兵種作戰(zhàn)指數(shù)理論值分別為0.1、0.2、0.3 和0.4,乙方各兵種作戰(zhàn)指數(shù)理論值分別0.4、0.3、0.2 和0.1。依據(jù)規(guī)范交戰(zhàn)模式理論的圖論求解方法,交戰(zhàn)模式的核心循環(huán)對應(yīng)于該毀傷系數(shù)矩陣中的偶數(shù)項,進而可以推算出各兵種作戰(zhàn)指數(shù)理論值,詳見文獻[8]。后面將利用簡單直觀的作戰(zhàn)指數(shù)迭代計算方法,快速求解各兵種作戰(zhàn)指數(shù)理論值。
算例1 考察了更新率α 不同取值條件下雙方作戰(zhàn)指數(shù)的收斂過程,如圖2 所示,更新率α 取值分別為0.01、0.1 和0.99,隨著迭代次數(shù)的增加,雙方各兵種的作戰(zhàn)指數(shù)逐步收斂到理論值。算例1 表明,本文提出的方法能夠正確收斂到理論結(jié)果,當更新率α 取值較大時,該方法在迭代初期具有較快的收斂速度,但在迭代后期容易引起振蕩;當更新率α 取值較小時,該方法在迭代初期收斂速度較慢,但在迭代后期的穩(wěn)定性較好。
圖2 更新率α 不同取值時作戰(zhàn)指數(shù)變化過程
為了驗證算例1 中觀測到的現(xiàn)象是否具有普遍性,下面在大規(guī)模多兵種條件交戰(zhàn)下考察作戰(zhàn)指數(shù)的收斂過程。算例2 中,甲乙方兵種數(shù)量均為100個,其毀傷系數(shù)矩陣中各元素為區(qū)間[0,1]范圍內(nèi)的隨機值,共進行100 次實驗,考察各方所有兵種作戰(zhàn)指數(shù)的均方誤差變化過程。算例2 的實驗結(jié)果如圖3 所示,隨著迭代次數(shù)的增加,作戰(zhàn)指數(shù)均方誤差逐步減小并趨近于0,表明提出的方法在大樣本條件下仍然具有良好的收斂性。
圖3 更新率α 不同取值時作戰(zhàn)指數(shù)均方誤差變化過程
通過以上算例可以發(fā)現(xiàn),本文提出的方法能夠正確收斂到理論值,當更新率α 取值較大時,收斂速度較快,但后期容易振蕩;當更新率α 取值較小時,收斂速度較慢,但后期相對平穩(wěn)。為了兼顧收斂速度和穩(wěn)定性兩個指標,需要考慮動態(tài)更新策略。
當更新率α 取固定值時,其取值較小時在迭代運算前期收斂速度偏小,其取值較大時在后期容易發(fā)生振蕩,為了克服以上兩個缺點,可采取動態(tài)更新策略,使得迭代運算在前期更新率取值較大,在后期更新率取值較小。下面著重考察兩種動態(tài)更新策略,包括更新率指數(shù)遞減方法和動量梯度方法。
3.2.1 指數(shù)遞減方法
更新率指數(shù)遞減方法指更新率隨迭代次數(shù)增加以負指數(shù)函數(shù)的形式減小,其形式為
其中,α(t)表示在第t 步迭代時的更新率取值,參數(shù)k 表示遞減強度,參數(shù)z0表示終態(tài)更新率。負指數(shù)函數(shù)α(t)是單調(diào)遞減函數(shù),當t 取值較小時,其函數(shù)值較大;當t 取值較大時,其函數(shù)值較小。該方法在某種程度上兼顧了更新率α 取值較大和較小時的優(yōu)點,直覺上能夠提高迭代運算的收斂速度和穩(wěn)定性。
下面繼續(xù)針對算例1,采取更新率指數(shù)遞減方法進行作戰(zhàn)指數(shù)迭代計算,其結(jié)果如圖4 所示,隨著迭代次數(shù)的增加,作戰(zhàn)指數(shù)振蕩幅度逐漸減小,提高了收斂穩(wěn)定性。當終態(tài)更新率z0取值較大時,作戰(zhàn)指數(shù)振蕩幅度較大;當終態(tài)更新率z0取值較小時,作戰(zhàn)指數(shù)振蕩幅度較??;當遞減強度k 取值較大時,收斂速度相對較慢,但振蕩幅度較?。划斶f減強度k 取值較小時,收斂速度較快,但易產(chǎn)生振蕩。對于更新率指數(shù)遞減方法,迭代計算以降低后期收斂速度為代價來減少振蕩,提高了收斂穩(wěn)定性。
圖4 更新率指數(shù)遞減時甲方作戰(zhàn)指數(shù)變化過程
3.2.2 動量梯度方法
動量梯度方法[11]能夠在減少振蕩的同時不降低收斂速度,是一種更為高效的方法。動量梯度方法通過累積歷史梯度來抵消當前梯度的振蕩。如圖5(a)所示,迭代計算從初始值P 點開始,沿折線逐步向終點O 迭代收斂,顯然,其迭代折線沿總體趨勢線(虛線)上下振蕩,若能消除在總體趨勢線垂直方向的振蕩,可加快迭代收斂速度和穩(wěn)定性。若當前梯度與歷史累積梯度方向近似相反,兩者相加時相互抵消,從而減小振蕩(圖5(b));若當前梯度與歷史累積梯度方向近似一致,兩者相加時長度增加,從而提高收斂速度(圖5(c))。觀察圖2(b)和圖2(d),可以發(fā)現(xiàn),當兵種作戰(zhàn)指數(shù)振蕩時,相鄰迭代周期的梯度方向近似相反,當前梯度加上歷史累積梯度可抵消當前梯度的振蕩;當兵種作戰(zhàn)指數(shù)沒有振蕩時,相鄰迭代周期的梯度方向近似相同,當前梯度加上歷史累積梯度可增加長度,提高收斂速度。
圖5 動量梯度方法
下面繼續(xù)針對算例1,采取動量梯度方法進行作戰(zhàn)指數(shù)迭代運算,運算結(jié)果如下頁圖6 所示,動量梯度方法能夠減小迭代過程中的振蕩,提高迭代收斂速度和穩(wěn)定性。當動量強度β 取值較大時,迭代過程中易產(chǎn)生較大幅度的長周期振蕩;當動量強度β 取值較小時,振蕩幅度減小甚至消失;當更新率α 取值較大時,振蕩幅度較大,反之,則振蕩幅度較小。動量梯度方法中,在迭代運算前期,相鄰迭代周期的梯度方向近似一致,兩者相加增大,提高了收斂速度;在迭代運算后期,相鄰迭代周期的梯度方向近似相反,兩者抵消減小振蕩,提高了收斂穩(wěn)定性。
圖6 動量梯度方法時甲方作戰(zhàn)指數(shù)變化過程
更新策略能夠影響作戰(zhàn)指數(shù)迭代計算方法的收斂速度和穩(wěn)定性。對于固定更新率方法,當更新率α 取值較大時,收斂速度較快但容易振蕩;當更新率α 取值較小時,收斂穩(wěn)定性較好但收斂速度較慢。針對不同更新率α 取值的優(yōu)缺點,更新率指數(shù)遞減方法通過動態(tài)降低迭代后期的更新率取值,使迭代計算在前期具有較大的更新率,在后期更新率較小,從而綜合了更新率α 不同取值的優(yōu)點,兼顧了收斂速度和穩(wěn)定性,具有思路簡單直接的特點。動量梯度方法考慮了歷史累積梯度方向與當前梯度方向的異同,利用兩者相加時增強或抵消的性質(zhì),同時提高了收斂速度和穩(wěn)定性,具有較好的自適應(yīng)性。
在多兵種交戰(zhàn)問題中,評估各兵種的作戰(zhàn)指數(shù)是進行軍事決策的重要依據(jù)。對于多兵種交戰(zhàn)蘭徹斯特方程,各兵種的作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴關(guān)系,類似于強化學習理論中的Q 值和動作策略的相互依賴關(guān)系。本文通過類比研究,利用作戰(zhàn)指數(shù)和火力分配策略的遞推關(guān)系,提出了作戰(zhàn)指數(shù)迭代計算方法,重點考察了固定更新率、指數(shù)遞減方法和動量梯度方法對迭代過程的影響,通過調(diào)節(jié)更新率、遞減強度和動量強度等超參數(shù)取值,提高了迭代收斂速度和穩(wěn)定性。實驗表明,提出的方法能夠快速穩(wěn)定收斂到最優(yōu)解,具有簡單直觀、便于計算的優(yōu)點,為軍事理論研究和指揮決策提供有力定量支撐。