• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    強化學習在多階段裝備組合規(guī)劃問題中的應用*

    2021-10-10 04:16:04張驍雄李明浩義余江
    國防科技大學學報 2021年5期
    關鍵詞:效能裝備階段

    張驍雄,丁 松,李明浩,丁 鯤,王 龍,義余江

    (1. 國防科技大學 第六十三研究所, 江蘇 南京 210007; 2. 浙江財經(jīng)大學 經(jīng)濟學院, 浙江 杭州 310018;3. 國防科技大學 系統(tǒng)工程學院, 湖南 長沙 410073; 4. 西南電子電信技術研究所, 四川 成都 610041)

    裝備組合規(guī)劃選擇是武器裝備體系頂層發(fā)展規(guī)劃中的重要問題,旨在對一定規(guī)劃期內(nèi)裝備的具體建設發(fā)展進行總體規(guī)劃安排[1]。當前戰(zhàn)爭形態(tài)的變化,要求決策者們更多關注裝備組合作為一個整體發(fā)揮的效能,而不再局限于單一裝備的性能。同時,在考慮涉及多個階段的裝備組合方面,任何單一階段的最優(yōu)裝備組合無法保證整個規(guī)劃周期內(nèi)的最優(yōu)性。因此,需要合理權衡規(guī)劃不同階段、不同周期的裝備組合選擇,從而更好地滿足未來作戰(zhàn)能力需求和完成多元化的任務。

    裝備組合選擇源于項目組合選擇問題,Markowitz[2]最早提出了組合的概念來處理投資組合問題,旨在最大化投資收益的同時降低投資的市場風險,奠定了金融領域的投資組合理論。后來該理論又逐漸被應用到項目管理中輔助組合方案的比較和選型。針對軍事領域的組合選擇問題,常見的研究方法有多準則決策分析、專家評審法、價值分析法、風險分析法和資源分配方法等。例如,Kangaspunta等[3]在考慮裝備之間相互關聯(lián)的條件下,提出了一種費用-效能分析方法,輔助裝備組合選型;Yang等[4]對復雜軍事大數(shù)據(jù)環(huán)境下的武器裝備組合選擇優(yōu)化問題進行了建模,并設計了一種自適應的遺傳算法對模型進行求解;Li等[5]基于能力規(guī)劃的思想,提出了一種基于異質(zhì)網(wǎng)絡模型的高端裝備組合選擇方法;Dou等[6]提出了一種基于偏好基線值的方法,對裝備組合中冗余裝備的取舍進行了研究;王等[7]運用epoch-era思想,構建了區(qū)間型需求下的裝備組合多階段隨機規(guī)劃模型;孫等[8]提出了面向作戰(zhàn)需求的衛(wèi)星裝備組合優(yōu)化算法,對不同裝備組合的作戰(zhàn)效能進行了評估。

    此外,還有一些比較流行的概念和方法論,被用來指導武器裝備組合選擇與優(yōu)化,包括美國國防部提出的基于能力的規(guī)劃(Capability Based Planning, CBP)[9]、麻省理工學院提出的多屬性權衡空間探索(Multi-Attribute Tradespace Exploration, MATE)方法[10]、美國軍方提出的將費用當作獨立變量的方法[11]等。同時,裝備組合選擇與評估優(yōu)化問題也引起了國內(nèi)如軍事科學院[12-13]、國防大學[14]、國防科技大學[15-16]等高校與研究機構的廣泛關注,并取得了一定的研究成果。

    不同學者對軍事領域的組合選擇進行了不同的探索和嘗試,然而現(xiàn)實中這種建模對數(shù)據(jù)要求較高,目前仍然缺少較為定量的模型與算法,在支撐裝備體系頂層規(guī)劃和決策方面仍略有不足。同時,隨著考慮的場景、規(guī)劃的裝備數(shù)目以及規(guī)劃周期的增多,傳統(tǒng)的數(shù)學方法以及多目標優(yōu)化算法在求解效率上往往捉襟見肘。例如,對于一個具備K個場景和T個優(yōu)化周期的規(guī)劃問題來說,決策者需要至少同時考慮K·T個優(yōu)化目標,大大增加了求解難度。近年來,深度學習在圖片識別等任務上取得了前所未有的效果,強化學習也在AlphaGo方面效果顯著,它通過學習和選擇動作改變外界環(huán)境,并使用一個累計回報來定義任意動作序列的質(zhì)量,正適用于解決多階段下的裝備組合選擇問題。

    因此,擬借鑒強化學習的思想,研究多階段情形下的裝備組合優(yōu)化問題。以裝備組合的效能和成本為目標,建立武器裝備組合規(guī)劃問題的多目標優(yōu)化模型,并基于智能算法生成各階段的最優(yōu)裝備組合。相比傳統(tǒng)研究,本文采用強化學習對不同階段的裝備組合進行尋優(yōu),生成整個規(guī)劃周期內(nèi)的最優(yōu)裝備組合方案。目前,鮮有研究將強化學習應用于多階段的裝備規(guī)劃研究方面,且該方法可以大大提高求解效率。

    1 問題分析及建模

    重點面向多個作戰(zhàn)場景,研究多階段情形下的裝備組合選擇問題。在橫向上突出面向不同場景的優(yōu)化,縱向上突出時間維度,并非將單階段單場景下的裝備組合方案進行簡單疊加。任何針對單一場景或固定效能值的裝備組合選擇往往具有一定的片面性。圖1為多階段裝備組合發(fā)展示意圖,該問題研究的難點在于階段之間相互關聯(lián),上一階段的決定直接影響后續(xù)階段的選擇,即每個階段裝備的解空間都發(fā)生變化,且裝備不能被重復選擇[17]。

    圖1 多階段裝備組合發(fā)展示意圖Fig.1 An illustration of multi-period weapon portfolio selection

    決策變量xi數(shù)學形式的定義為:

    (1)

    基于上述分析,針對單一階段的裝備組合優(yōu)化問題,需要同時考慮K個可能場景,從當前可選裝備集合中選取合適的裝備組合,達到最大化裝備組合效能以及最小化裝備組合成本的目標。由此,可構建如式(2)所示目標函數(shù)。

    (2)

    其中,k∈[1,K]表示任意場景,K為場景總數(shù),B表示總預算限制,δ為預算違背閾值。不等式約束限制了選中裝備組合的總成本。顯然,上述問題存在K+1個待優(yōu)化目標。

    武器裝備發(fā)展規(guī)劃需要對一個周期(通常為10 a)內(nèi)的裝備進行統(tǒng)籌安排,并需要考慮裝備的更替。進一步,將上述優(yōu)化問題擴展到多個階段,即決策者需要選擇能夠在整個規(guī)劃周期內(nèi)最大化裝備組合效能并最小化裝備組合成本的方案。形式上,決策變量xit被定義為:

    (3)

    其中,Xt代表t階段可選裝備集合。

    此時,目標函數(shù)在多階段多場景下變更為:

    (4)

    針對本節(jié)構建的多階段不確定性模型,可通過綜合使用多目標優(yōu)化算法以及強化學習來處理。決策者可以有效應對未來階段的不確定性,并在每個階段產(chǎn)生的最優(yōu)解中進行動態(tài)優(yōu)化。

    為使構造的模型更加合理,限定如下基本假設:

    1)初始階段裝備項目已知,并在未來每一階段會有新裝備加入;

    2)不同場景下各裝備的效能服從一定的分布,假定為正態(tài)分布;

    3)裝備之間相互獨立,可并行發(fā)展;

    4)各裝備發(fā)展成本已知且固定;

    5)裝備一旦被選中發(fā)展則不可剔除。

    2 模型構建求解

    針對多階段裝備組合規(guī)劃問題,本節(jié)給出基于多目標優(yōu)化算法以及強化學習的求解框架,并分小節(jié)闡述。

    2.1 基于NSGA-Ⅲ的多目標優(yōu)化算法

    針對任一階段的裝備組合選型,需要在給定的決策空間中,最大化所選擇裝備組合的效能。由于考慮K個不同場景,且不同場景下裝備組合的效能無法進行簡單的疊加。故而,將其轉(zhuǎn)變?yōu)镵+1個多目標優(yōu)化問題,包括K個不同場景下裝備組合的效能以及裝備組合的成本。隨著場景數(shù)目以及裝備數(shù)目的增多,該多目標優(yōu)化問題具備NP-hard性質(zhì)。傳統(tǒng)的搜索方法效率低下,且使用范圍有限。

    非支配排序遺傳算法(Non-dominated Sorting Genetic Algorithm-Ⅲ,NSGA-Ⅲ)[18]是一種新型智能優(yōu)化算法,算法沿用了NSGA-Ⅱ的框架,但臨界層選擇方法采用參考點方法選擇個體,以使種群具有良好的分布性,保證更加準確的全局搜索能力。

    針對上述待優(yōu)化模型,首先初始化種群A,經(jīng)過與NSGA-Ⅱ相同的選擇、交叉、變異后,選擇生成非支配個體A′。在對約束部分進行處理時,算法采用罰函數(shù)將個體違反約束的部分累加到目標函數(shù)中。之后,NSGA-Ⅲ將主要執(zhí)行如下步驟。

    (5)

    式中,St為種群的個體集合。

    之后尋找極值點,定義函數(shù)ASF。

    (6)

    遍歷每個函數(shù),找到ASF數(shù)值最小的個體,即為極值點,再根據(jù)這些點計算出每個坐標點在對應坐標軸上的坐標值αi。之后,采用式(7)進行歸一化。

    (7)

    步驟3:關鍵層解的選擇策略。通過定義參考線的方式,計算種群每個個體到參考線的垂直距離,并將種群中的個體分別關聯(lián)到相應的參考點。假設與參考點j關聯(lián)的解的數(shù)量為ρj。從關鍵層選取ρj最小的參考點j加入種群中。若ρj=0,則從關鍵層里選取一個距離該參考點j最小的解加入種群,否則將該參考點從當前代中去除;若ρj≥1,則從關鍵層里面隨機挑選一個關聯(lián)到該參考點的解加入種群。

    2.2 Q-Learning強化學習方法

    通過對單一階段的求解,可以獲取每個階段的Pareto解。然而任意單階段的最優(yōu)解未必是整個規(guī)劃周期里的最優(yōu)選擇。同時,當前階段的選擇又直接影響著下一個階段的決策空間和選擇。

    強化學習[19]是一種重要的機器學習方法之一,它明確考慮了目標導向的智能體與不確定環(huán)境交互的整個問題,旨在最大化期望積累獎勵。強化學習的特點正適用于解決多階段的裝備組合選擇與規(guī)劃問題。圖2為強化學習示意圖。主要包括如下幾個關鍵要素:環(huán)境、回報、動作和狀態(tài)。

    圖2 強化學習示意圖Fig.2 Illustration of reinforcement learning

    1)狀態(tài)(state)。描述當前agent所處的狀態(tài),所有可能的狀態(tài)稱為狀態(tài)空間。狀態(tài)s對應不同的決策階段。不同的決策階段對應不同的選型空間,即截至當前階段所有未被選中發(fā)展的裝備集合。

    2)行動(action)。指agent根據(jù)每次所處的狀態(tài)以及上一狀態(tài)的回報確定當前要執(zhí)行的動作。本研究中的動作即決策者在各個時刻選取裝備組合的行為。

    3)回報(reward)。強化學習是agent可以學習行為以實現(xiàn)最大化其累計獎勵的方式,即在發(fā)生狀態(tài)轉(zhuǎn)移的同時,環(huán)境反饋給agent的獎賞,且回報是一個標量。

    4)策略(policy)。策略用來描述agent在不同狀態(tài)下執(zhí)行的動作。常見的策略分為確定性策略以及隨機性策略。確定性策略描述在狀態(tài)s下執(zhí)行確定動作a,隨機策略描述狀態(tài)s下執(zhí)行動作a的概率。本模型中,動作a代表在t時刻選取xit=1 (xit∈Xt)的裝備選擇行為。

    5)價值函數(shù)(value function)。強化學習是一個連續(xù)決策的過程,當下的行為是否正確需要經(jīng)過一定的時間才能得知,因此需要用未來一段時間的收益來作為當下行為的評判。如果僅僅關注當前階段收益的最大化,容易導致決策的片面性。因此建立當前狀態(tài)下的價值函數(shù):

    Vπ(S)=Eπ[Rt+1+γRt+2+γ2Rt+3+…|St=s]

    (8)

    式中:γ為獎勵衰減因子,且取值區(qū)間為[0,1]。γ越接近1,則考慮越長遠;若為0,則表示只考慮一步的獎勵。

    6)狀態(tài)轉(zhuǎn)移模型。使用狀態(tài)轉(zhuǎn)移模型來預測接下來的動作行為,即在當前狀態(tài)下執(zhí)行某一動作導致的狀態(tài)以及產(chǎn)生的回報。采用動作轉(zhuǎn)移概率與動作狀態(tài)回報來描述該模型。

    (9)

    2.3 基于Q-Learning的多階段組合優(yōu)化模型求解

    多階段裝備組合規(guī)劃選型旨在從每一階段的非支配解中選取合適的方案構成整個規(guī)劃周期內(nèi)的裝備組合,并使裝備組合效能和成本總體達到最優(yōu)。任何單一階段的最優(yōu)解的集合未必在多個階段仍然最優(yōu),同時需要綜合考慮每一階段,決策對未來的影響。結合Q-Learning的算法,基于強化學習的多階段裝備組合規(guī)劃問題的求解步驟如下。

    步驟1:在各階段,刪除之前階段已被選中發(fā)展的裝備組合,同時增加新型待發(fā)展的裝備集合(代指可供選擇發(fā)展的新增裝備),更新并生成當前可供選擇發(fā)展的裝備集合,即當前階段的解空間。

    步驟2:針對K個場景的選擇規(guī)劃問題,每個階段存在K+1個目標待優(yōu)化,采用NSGA-Ⅲ算法對當前階段的目標進行求解,生成當前階段可供選擇的非支配Pareto解。

    步驟3:采用隨機探索或者利用最優(yōu)Q值的方式,從上階段的Pareto解中選取一個裝備組合,并采用式(10)中的Q-Learning公式更新當前階段下選擇該裝備組合的Q值。

    (10)

    式中,Q(St,at)表示在狀態(tài)St下采取動作at產(chǎn)生的Q值,α∈[0,1]表示學習率,描述控制新信息被采用的程度。該公式評估了在某個特定狀態(tài)采取某個特定行動的價值。

    步驟4:重復迭代,直至達到停止標準。

    如步驟2所述,需要針對每一階段求解生成該階段的非劣解,并從中選取一個裝備組合作為該階段的動作行為。步驟3中基于探索或利用的策略,從當前階段的Pareto解中隨機選擇或者選擇Q值最高的裝備組合。常見的Q-Learning引入一個參數(shù)τ來控制在兩種選擇策略之間的權衡關系。一般來說,將τ設置為0.5,即允許算法在兩種策略之間隨機選擇。

    步驟5:回報函數(shù)的構建是衡量和計算非劣解中方案Q值的重要依據(jù)。采用式(11)來衡量當前階段St選擇方案at的回報值。

    Rt=w1RE+w2RC

    (11)

    式中:RE和RC分別代表裝備組合在效能以及成本方面的回報,默認為二者都已經(jīng)過歸一化處理;w1和w2是針對效能和成本的權重,且滿足兩者之和為1,此處將二者都設置為0.5。

    具體來說,RE與當前所選裝備組合以及下一階段可能選擇的裝備組合的效能息息相關,采用式(12)進行度量。

    (12)

    其中,K代表場景的個數(shù),等式右邊括號中前半部分代表當前所選擇裝備組合a在K個場景中效能的算術平均,后半部分代表下一階段所有可能裝備組合a′在K個場景中效能的算術平均,Pt+1為下一階段的最優(yōu)Pareto解,NPt+1代表該Pareto解的個數(shù)。

    對于RC,決策者希望在每個階段t所選擇的裝備組合at的成本能盡可能貼近當前階段給定的總成本約束Bt,同時下一階段的裝備組合非劣解中每個方案的成本也盡可能與下階段的成本約束相近,由此,采用式(13)來衡量與成本相關的回報。

    (13)

    其中,Ca表示當前階段裝備組合的成本。等式右邊括號中前半部分對當前階段的選擇進行了衡量,后半部分則對未來階段的可能性進行了衡量,以此來凸顯當前選擇可能對未來的影響。由于決策者希望任一階段的裝備組合成本更加貼近給定的預算,即與給定預算之間的差值越小越好,因此對兩邊的加和進行取反操作,以保證RC越大越好。獲得方案的當前回報值Rt后,采用式(10)中的Q-Learning公式對Q值進行更新。

    3 實驗與結果分析

    3.1 數(shù)據(jù)說明

    本節(jié)開展示例研究,將Q-Learning思想應用于多階段裝備組合規(guī)劃中。采用隨機生成的方法產(chǎn)生裝備的效能以及成本數(shù)據(jù)。具體參數(shù)設置如下:

    1)裝備項目:假定存在50個初始裝備,之后每年增加5個。

    2)場景(K):假定存在3個不同場景。

    3)規(guī)劃階段(T):假定整個規(guī)劃周期為10 a,該數(shù)值可根據(jù)需要進行調(diào)整。

    4)效能與成本:通過正態(tài)分布模擬裝備在不同場景下發(fā)揮的效能以及發(fā)展成本,如圖3所示。表1給出了初始階段的裝備效能以及成本數(shù)值,且假設裝備效能和成本取值均已經(jīng)過歸一化處理。

    圖3 效能成本分布Fig.3 Distribution for weapon effectiveness and cost

    其他方面,設置總經(jīng)費S=25億元,一般情形下保證年度經(jīng)費分配相對平均,并允許在一定范圍δ=0.1(10%)內(nèi)波動,即每年的年度經(jīng)費波動范圍為[(1-δ)S/T,(1+δ)S/T][20];回報函數(shù)中,學習率α=0.1,折算率γ=0.9。

    表1 不同場景下裝備效能與成本

    續(xù)表

    本次實驗仿真采用MATLAB 2017軟件,運行于Windows 7 64位系統(tǒng)中,軟件環(huán)境見表2。

    表2 實驗硬件環(huán)境

    另外,由于每年會增加一些新的待選裝備,而之前已經(jīng)被選中發(fā)展的裝備在未來規(guī)劃階段內(nèi)不能作為待選裝備出現(xiàn),因此需要對每個階段的可選裝備組合進行更新。具體裝備信息生成、更新方法如圖4所示。

    圖4 裝備更新策略Fig.4 Weapon update strategy

    3.2 結果分析

    基于所述算法,采用探索和利用相結合的方式,設置τ=0.5,對示例進行20次運行。每次運行需要考慮整個規(guī)劃周期內(nèi)每個年度的優(yōu)化目標。將所采用的多目標優(yōu)化算法(NSGA-Ⅲ)的種群規(guī)模設為100,迭代次數(shù)設為50,交叉概率設為0.8,變異概率設為0.02。

    經(jīng)過100次學習,可以獲得100組Q值矩陣,對應不同的裝備組合方案。選取總體效能最大的方案,各個年度對應裝備組合的Q值如圖5所示。

    圖5 最優(yōu)規(guī)劃方案對應的Q值Fig.5 Corresponding Q value of the best portfolio solution

    Q矩陣中每一行代表一種裝備組合規(guī)劃方案,而每一元素代表該方案在當前階段下裝備組合產(chǎn)生的Q值。圖5中,第1、4、7以及第10階段,采用隨機探索的方式選取裝備組合方案,其他年度按Q值最大值選取裝備組合方案。

    圖6 最優(yōu)裝備發(fā)展方案Fig.6 Optimal weapon development solution

    總的規(guī)劃周期內(nèi),各個規(guī)劃階段的裝備組合選擇方案如圖6所示。圖6中,黃色部分代表整個規(guī)劃周期內(nèi)被選中發(fā)展的裝備。由圖6可知,得益于每年新裝備的加入,此次規(guī)劃方案一共選擇發(fā)展58個裝備,每一年被選中發(fā)展的裝備數(shù)目相對平均,除了第3年、第6年和第8年,選擇發(fā)展了6個裝備,其他階段都選擇發(fā)展了5個裝備,且每年裝備投入的成本也相對均衡,滿足現(xiàn)實約束的需要。

    為突出NSGA-Ⅲ參數(shù)對算法結果的影響,對算法中主要參數(shù)進行敏感性分析。分別獨立運行各種情形20次,并對各情形下的裝備組合方案效能值以及成本取平均值進行分析,結果見表3。

    表3 NSGA-Ⅲ參數(shù)敏感性分析

    由表3 可知,不同情形下最終方案效能以及成本各異。總體來說,隨著種群規(guī)模和迭代次數(shù)的增大,最后生成的方案在效能上更優(yōu),但方案成本以及算法運行時間也隨之增大。隨著交叉概率的增大,各最終生成方案總體更優(yōu),主要表現(xiàn)為方案的效能總和不斷增加,因為較大的交叉概率可以較好地保證進化時種群的豐富性。隨著變異概率的增大,各情形下生成的方案結果差異性不大,主要因為總體變異幅度相對較小。

    3.3 對比分析

    為驗證本文方法的有效性,分別設置兩個傳統(tǒng)解決多階段問題的基準方法進行對比分析。其中,基準方法1在滿足經(jīng)費約束條件下隨機生成各階段的裝備組合方案,并實時更新下一階段的可選裝備集合空間?;鶞史?與基準方法1相似,但在各階段選取裝備時按照當前可選裝備在各場景中發(fā)揮效能均值的大小從高到低依次進行選擇,生成當前選擇裝備組合,并更新下一階段的可選裝備組合空間。重復上述步驟直至生成整個規(guī)劃周期內(nèi)的裝備組合方案。兩種方法都更加注重短期內(nèi)各階段的選擇,沒有考慮多個階段之間的權衡選擇問題,且這兩種方法都沒有選擇智能優(yōu)化算法對多目標優(yōu)化問題進行求解[19]。分別運行上述算法以及本文方法20次,圖7給出了不同方法策略下的最優(yōu)裝備組合方案在各階段的效能均值以及成本均值。

    由于基準方法2是在各階段選擇效能最大的裝備構成當前裝備組合,因此總體效能略優(yōu)于其他兩種方法。但由圖7(a)可知,本文方法在后續(xù)各階段的生成裝備組合效能與基準方法2基本持平,并在第7年后略優(yōu)于基準方法2。基準方法1生成的裝備組合方案效能在各階段均相對較低。由圖7(b)可知,基準方法2的成本總體較高。而本文方法除了在初始階段成本略高于另兩種方法,在后續(xù)各階段的成本均明顯低于兩種基準方法,且成本總和最低。從占優(yōu)的角度,本文方法優(yōu)于另兩種方法對應的裝備組合方案。換而言之,本文方法可以在更低成本下生成總體效能更優(yōu)的裝備組合方案。

    (a) 效能分析(a) Effectiveness analysis

    3.4 參數(shù)敏感性

    為突出選取策略參數(shù)對模型結果的影響,在同樣的參數(shù)設置下,改變每個階段選取裝備的策略:將探索和利用兩種策略的控制參數(shù)τ從0.1增加到0.9。其中,τ=0.5對應3.1節(jié)中的基本設置。由于效能與成本均是歸一化后的值,因此可對不同方案的結果在同一維度下進行加和比較。通過計算,五種策略對應的組合方案的三種效能值以及成本如圖8所示。

    圖8 不同策略對應方案結果對比Fig.8 Comparison of different solutions under different strategies

    圖8中的效能1、效能2和效能3分別指裝備組合方案在三種不同場景下的效能之和。對比發(fā)現(xiàn),不同策略下方案的效能值以及成本各異。從占優(yōu)的角度,四種方案都是非劣解,即不存在一個方案在每一項指標上都優(yōu)于其他方案。但從總體效能的角度來看,方案3(τ=0.5)混合策略下產(chǎn)生方案的效能在三種場景下皆優(yōu)于其他幾種方案。在效能1方面,方案5(τ=0.9)優(yōu)于方案1(τ=0.1)、方案4(τ=0.7)和方案2(τ=0.3)。在效能2方面,方案1次優(yōu),后面依次為方案5、方案2和方案4。在效能3方面,方案1次優(yōu),后面依次為方案5、方案4和方案2。從成本角度來看,方案3所產(chǎn)生裝備組合成本相對較高,方案4對應裝備組合方案成本最低。對比實驗表明,在進行算法設計時,采取探索與利用相結合的方式選取裝備,可以生成更加魯棒的總體裝備組合方案。

    3.5 Q-Learning效果分析

    為驗證模型中是否采用Q-Learning策略對最終選型方案的影響,繼續(xù)開展對比實驗。采用強化學習的策略依據(jù)Q函數(shù)選取各階段的裝備,而不采取強化學習的策略則在各階段從候選Pareto中隨機選取裝備,類似于傳統(tǒng)的優(yōu)化算法。分別運行算法各20次,圖9給出了是否采取強化學習策略下的最優(yōu)裝備組合方案運算結果分布情況。

    (a) 效能分析(a) Effectiveness analysis

    由圖9的盒須圖可知,利用Q-Learning策略下生成的裝備組合在大多數(shù)階段的性能表現(xiàn)在最優(yōu)值、均值等方面均優(yōu)于未利用Q-Learning策略生成的方案。尤其是在第3至6階段,利用Q-Learning的方案最優(yōu)值顯著優(yōu)于未利用Q-Learning的方案,且方案在整個規(guī)劃周期的總效能更優(yōu)。在成本方面,未利用Q-Learning策略生成的方案在最優(yōu)值方面略優(yōu)于采用Q-Learning策略生成的方案。但在成本均值方面,兩者基本相當,且在第2、第3、第4、第6和第10階段以及各階段的總和,利用Q-Learning策略生成的方案在各階段的成本之和更優(yōu)。換而言之,利用Q-Learning策略方案可以在相對更低成本下生成總體效能更高的裝備組合方案,這驗證了本文模型采取Q-Learning策略的優(yōu)勢。

    4 結論

    武器裝備組合規(guī)劃是我軍武器裝備體系建設發(fā)展中亟須解決的現(xiàn)實問題,具有十分重要的戰(zhàn)略意義。結合多目標優(yōu)化算法與強化學習技術,重點回答了多個階段多個場景下的武器裝備組合選擇問題,而目前仍鮮有研究將強化學習應用于多階段的裝備規(guī)劃研究方面,其中,多目標優(yōu)化算法用來在每個規(guī)劃時間決策點內(nèi),以最大化多個場景裝備組合的總效能與最小化總成本為目標,搜索非支配的裝備組合方案;強化學習算法可以有效對多階段問題進行水平搜索,形成任意階段的策略規(guī)則,從而有效保證決策結果在整個階段的最優(yōu)性。通過具體示例驗證了本文模型的可行性與求解的高效性。對比實驗表明,本文方法生成的裝備組合方案優(yōu)于其他傳統(tǒng)多目標決策方法,探索和利用策略的控制參數(shù)對模型結果具有一定影響,且采取強化學習生成的方案優(yōu)于不采取強化學習方法生成的方案。提出的模型與算法可以支撐武器裝備中長期規(guī)劃決策和論證。

    猜你喜歡
    效能裝備階段
    好裝備這樣造
    遷移探究 發(fā)揮效能
    港警新裝備
    關于基礎教育階段實驗教學的幾點看法
    科學與社會(2022年1期)2022-04-19 11:38:42
    同時多層擴散成像對胰腺病變的診斷效能
    充分激發(fā)“以工代賑”的最大效能
    防曬裝備折起來
    在學前教育階段,提前搶跑,只能跑得快一時,卻跑不快一生。
    莫愁(2019年36期)2019-11-13 20:26:16
    唐代前后期交通運輸效能對比分析
    大熱的O2O三個階段,你在哪?
    營銷界(2015年22期)2015-02-28 22:05:18
    亚洲黑人精品在线| 亚洲精品国产一区二区精华液| 人妻丰满熟妇av一区二区三区| 国产免费男女视频| 精品人妻1区二区| 亚洲激情在线av| 国产精品精品国产色婷婷| 亚洲精华国产精华精| 性欧美人与动物交配| 熟女少妇亚洲综合色aaa.| 欧美另类亚洲清纯唯美| 美女国产高潮福利片在线看| 国产在线观看jvid| 欧美成人性av电影在线观看| 国产成人欧美在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 国产精品国产高清国产av| 午夜免费成人在线视频| 日韩三级视频一区二区三区| av福利片在线| 波多野结衣巨乳人妻| 动漫黄色视频在线观看| 国产精品香港三级国产av潘金莲| 亚洲av电影在线进入| 亚洲精华国产精华精| 99热这里只有精品一区 | 国产熟女午夜一区二区三区| 脱女人内裤的视频| 欧美一区二区精品小视频在线| 久热这里只有精品99| 免费看美女性在线毛片视频| 午夜老司机福利片| 9191精品国产免费久久| 国产亚洲精品第一综合不卡| 免费高清在线观看日韩| 国产视频内射| 搡老熟女国产l中国老女人| 色哟哟哟哟哟哟| 在线永久观看黄色视频| av视频在线观看入口| bbb黄色大片| 日日爽夜夜爽网站| 国产免费男女视频| 国产精品亚洲一级av第二区| 激情在线观看视频在线高清| 午夜精品在线福利| 淫妇啪啪啪对白视频| 首页视频小说图片口味搜索| 精品一区二区三区av网在线观看| 国产久久久一区二区三区| 97超级碰碰碰精品色视频在线观看| 人妻久久中文字幕网| 99久久无色码亚洲精品果冻| 中文字幕人妻熟女乱码| 18禁裸乳无遮挡免费网站照片 | 免费女性裸体啪啪无遮挡网站| 免费高清视频大片| or卡值多少钱| 人妻久久中文字幕网| www.www免费av| 亚洲人成伊人成综合网2020| √禁漫天堂资源中文www| 99国产精品99久久久久| 国产精品亚洲一级av第二区| 男人舔奶头视频| 一区二区日韩欧美中文字幕| 他把我摸到了高潮在线观看| 亚洲性夜色夜夜综合| videosex国产| 日日摸夜夜添夜夜添小说| 黄片播放在线免费| 精品久久蜜臀av无| bbb黄色大片| svipshipincom国产片| 午夜成年电影在线免费观看| 国产亚洲精品一区二区www| ponron亚洲| 日本精品一区二区三区蜜桃| 国产精品自产拍在线观看55亚洲| 这个男人来自地球电影免费观看| 久久性视频一级片| 两人在一起打扑克的视频| 久久久久久久久免费视频了| 天天一区二区日本电影三级| 99re在线观看精品视频| 丝袜美腿诱惑在线| 久久精品人妻少妇| 一区福利在线观看| 18禁美女被吸乳视频| x7x7x7水蜜桃| 成人三级做爰电影| 97碰自拍视频| 成人永久免费在线观看视频| 亚洲色图av天堂| 欧美日韩黄片免| 成人国产一区最新在线观看| 美女午夜性视频免费| 一进一出好大好爽视频| 亚洲av美国av| 国产精品自产拍在线观看55亚洲| 后天国语完整版免费观看| 婷婷亚洲欧美| 国产三级在线视频| 精品国产一区二区三区四区第35| 天堂动漫精品| 久久久久久大精品| 18禁裸乳无遮挡免费网站照片 | 久久国产亚洲av麻豆专区| 久久久久国产精品人妻aⅴ院| 少妇粗大呻吟视频| 日本精品一区二区三区蜜桃| 国产色视频综合| 国产在线精品亚洲第一网站| 岛国在线观看网站| 黄色成人免费大全| 国产黄片美女视频| 成人av一区二区三区在线看| 婷婷精品国产亚洲av在线| 99热只有精品国产| 欧美黄色片欧美黄色片| 久久久精品欧美日韩精品| 露出奶头的视频| 亚洲精品粉嫩美女一区| 国产欧美日韩一区二区三| 久久精品国产清高在天天线| 亚洲一区二区三区不卡视频| 搡老熟女国产l中国老女人| 我的亚洲天堂| av免费在线观看网站| 久久欧美精品欧美久久欧美| 深夜精品福利| 久久精品成人免费网站| 成年女人毛片免费观看观看9| 99国产精品99久久久久| 少妇粗大呻吟视频| 在线永久观看黄色视频| 一进一出好大好爽视频| 国产一区二区激情短视频| 国产三级黄色录像| 精品久久久久久久末码| 国产视频内射| 中文字幕久久专区| 精品高清国产在线一区| 最近最新免费中文字幕在线| 黄网站色视频无遮挡免费观看| 香蕉av资源在线| 日本a在线网址| 制服诱惑二区| 久久久久国产一级毛片高清牌| 欧美日本视频| 国产午夜福利久久久久久| 精品国产一区二区三区四区第35| 黄频高清免费视频| 黄色片一级片一级黄色片| 18美女黄网站色大片免费观看| 婷婷丁香在线五月| 真人做人爱边吃奶动态| 国产精品乱码一区二三区的特点| 国产亚洲精品久久久久久毛片| 美女免费视频网站| 国产精品精品国产色婷婷| 国产成人一区二区三区免费视频网站| 欧美另类亚洲清纯唯美| 女性被躁到高潮视频| 日韩欧美国产一区二区入口| 中文亚洲av片在线观看爽| 久久草成人影院| 日韩有码中文字幕| av片东京热男人的天堂| 香蕉av资源在线| 国产精品爽爽va在线观看网站 | 桃红色精品国产亚洲av| 在线观看免费日韩欧美大片| 非洲黑人性xxxx精品又粗又长| 亚洲成a人片在线一区二区| 99久久精品国产亚洲精品| 一本一本综合久久| 又大又爽又粗| 男女视频在线观看网站免费 | 制服丝袜大香蕉在线| 精品久久久久久久末码| 亚洲人成电影免费在线| 欧美人与性动交α欧美精品济南到| 无人区码免费观看不卡| 国产精品 国内视频| 99在线视频只有这里精品首页| 国产亚洲欧美精品永久| 久久热在线av| 亚洲熟女毛片儿| 一级a爱片免费观看的视频| 国产精品一区二区免费欧美| 性欧美人与动物交配| 欧美日韩亚洲国产一区二区在线观看| 日本三级黄在线观看| 国产精品一区二区免费欧美| 亚洲va日本ⅴa欧美va伊人久久| 激情在线观看视频在线高清| 国产成人欧美| 欧美在线黄色| 国产黄a三级三级三级人| 色播亚洲综合网| 1024手机看黄色片| a在线观看视频网站| 免费在线观看成人毛片| 日韩欧美国产在线观看| 一二三四在线观看免费中文在| 国产精品综合久久久久久久免费| 1024香蕉在线观看| 一区福利在线观看| 黑丝袜美女国产一区| 97超级碰碰碰精品色视频在线观看| 欧美日韩中文字幕国产精品一区二区三区| 精品免费久久久久久久清纯| 国产精品久久电影中文字幕| 亚洲va日本ⅴa欧美va伊人久久| 午夜福利欧美成人| cao死你这个sao货| 国产成人啪精品午夜网站| 亚洲精品一卡2卡三卡4卡5卡| 色综合亚洲欧美另类图片| 精品久久久久久久毛片微露脸| x7x7x7水蜜桃| 亚洲最大成人中文| 色综合亚洲欧美另类图片| 丝袜人妻中文字幕| 熟女少妇亚洲综合色aaa.| 久久精品国产综合久久久| 大型黄色视频在线免费观看| av在线天堂中文字幕| 日本一区二区免费在线视频| 国产精品 欧美亚洲| 亚洲成人免费电影在线观看| 国产高清激情床上av| 亚洲一码二码三码区别大吗| 国产单亲对白刺激| av电影中文网址| 国产精品久久久久久亚洲av鲁大| 亚洲成人国产一区在线观看| 听说在线观看完整版免费高清| 久99久视频精品免费| 日日爽夜夜爽网站| 亚洲第一av免费看| 大香蕉久久成人网| 免费观看精品视频网站| 欧美绝顶高潮抽搐喷水| 在线观看www视频免费| 国产欧美日韩一区二区三| 又大又爽又粗| 精品国产乱子伦一区二区三区| 麻豆久久精品国产亚洲av| 美女大奶头视频| 国产一区二区三区在线臀色熟女| 久久香蕉激情| av电影中文网址| 好男人电影高清在线观看| 长腿黑丝高跟| 久久午夜亚洲精品久久| www.熟女人妻精品国产| 亚洲国产高清在线一区二区三 | 老司机靠b影院| 国产一区二区激情短视频| 桃色一区二区三区在线观看| 中文字幕精品免费在线观看视频| 亚洲自拍偷在线| 国产精品自产拍在线观看55亚洲| 黄色片一级片一级黄色片| 欧美大码av| 国产亚洲精品综合一区在线观看 | 午夜激情av网站| 国产又色又爽无遮挡免费看| 国产一区二区在线av高清观看| 最近在线观看免费完整版| 色播在线永久视频| 波多野结衣高清无吗| 俄罗斯特黄特色一大片| 国内精品久久久久久久电影| 在线观看免费视频日本深夜| 精品国产超薄肉色丝袜足j| 亚洲男人天堂网一区| 久久精品成人免费网站| 成人精品一区二区免费| 国产精品,欧美在线| 99久久精品国产亚洲精品| 妹子高潮喷水视频| 桃红色精品国产亚洲av| 一级a爱视频在线免费观看| 国产精品爽爽va在线观看网站 | 国产久久久一区二区三区| 又紧又爽又黄一区二区| 88av欧美| 最近最新免费中文字幕在线| 九色国产91popny在线| 在线观看免费视频日本深夜| 亚洲精品美女久久av网站| 国产欧美日韩一区二区精品| 99久久99久久久精品蜜桃| 神马国产精品三级电影在线观看 | 午夜福利在线观看吧| 午夜免费鲁丝| 亚洲精品一区av在线观看| 搡老妇女老女人老熟妇| 91麻豆av在线| 中文亚洲av片在线观看爽| 国产一区二区激情短视频| 久久草成人影院| 国产亚洲精品久久久久久毛片| 黄色视频不卡| 欧美黄色淫秽网站| 国产精品国产高清国产av| 国产私拍福利视频在线观看| 久久久精品国产亚洲av高清涩受| 岛国在线观看网站| 免费电影在线观看免费观看| 久久精品影院6| 亚洲人成77777在线视频| 久久久久久亚洲精品国产蜜桃av| 精品国产亚洲在线| 国产精品自产拍在线观看55亚洲| 天堂影院成人在线观看| 国产乱人伦免费视频| 久久久久久国产a免费观看| 国产精品久久电影中文字幕| 悠悠久久av| 狠狠狠狠99中文字幕| 淫妇啪啪啪对白视频| av天堂在线播放| 久久精品91无色码中文字幕| 麻豆一二三区av精品| 久久国产乱子伦精品免费另类| 日本 欧美在线| 亚洲精品av麻豆狂野| 色在线成人网| 1024香蕉在线观看| 免费电影在线观看免费观看| 一级作爱视频免费观看| 国产伦在线观看视频一区| 国产精品久久久av美女十八| 亚洲av日韩精品久久久久久密| 国产精品二区激情视频| 老鸭窝网址在线观看| 一级毛片精品| 久久99热这里只有精品18| 久久性视频一级片| 一级毛片女人18水好多| 999久久久国产精品视频| 极品教师在线免费播放| 亚洲男人的天堂狠狠| 午夜两性在线视频| 在线天堂中文资源库| 久久精品国产99精品国产亚洲性色| 777久久人妻少妇嫩草av网站| 亚洲片人在线观看| 丝袜人妻中文字幕| 国内精品久久久久精免费| 欧美日本亚洲视频在线播放| 老鸭窝网址在线观看| 国产1区2区3区精品| 午夜a级毛片| 午夜精品久久久久久毛片777| 男男h啪啪无遮挡| 久久精品国产亚洲av香蕉五月| 真人一进一出gif抽搐免费| 一本大道久久a久久精品| 久久精品国产清高在天天线| 免费在线观看成人毛片| av免费在线观看网站| 日韩三级视频一区二区三区| 女人被狂操c到高潮| 欧美成人午夜精品| 中国美女看黄片| 欧美精品亚洲一区二区| 国产亚洲精品久久久久5区| 亚洲人成网站高清观看| 日韩精品青青久久久久久| 欧美成人性av电影在线观看| 国产人伦9x9x在线观看| 亚洲国产欧美日韩在线播放| 露出奶头的视频| 熟女少妇亚洲综合色aaa.| 欧美三级亚洲精品| 国产精品久久久久久人妻精品电影| 亚洲国产精品合色在线| 国产精品 国内视频| av免费在线观看网站| a级毛片在线看网站| 手机成人av网站| 满18在线观看网站| 亚洲精品一卡2卡三卡4卡5卡| 日本 欧美在线| 国产精品免费视频内射| 在线观看免费日韩欧美大片| 亚洲中文字幕一区二区三区有码在线看 | xxx96com| 亚洲熟妇中文字幕五十中出| 我的亚洲天堂| 国产亚洲欧美在线一区二区| svipshipincom国产片| avwww免费| 国产亚洲欧美精品永久| 免费av毛片视频| 久久久久精品国产欧美久久久| 久久精品国产亚洲av香蕉五月| 国内久久婷婷六月综合欲色啪| 在线永久观看黄色视频| 淫妇啪啪啪对白视频| 99在线人妻在线中文字幕| 一级毛片女人18水好多| 一个人免费在线观看的高清视频| 亚洲自偷自拍图片 自拍| 最近最新中文字幕大全免费视频| av免费在线观看网站| 在线观看午夜福利视频| 欧美亚洲日本最大视频资源| 久久久精品国产亚洲av高清涩受| 日韩成人在线观看一区二区三区| 国产精品久久电影中文字幕| 亚洲,欧美精品.| 一级毛片女人18水好多| 日韩视频一区二区在线观看| 中文字幕精品免费在线观看视频| 久久亚洲真实| 久久久久国产精品人妻aⅴ院| 亚洲狠狠婷婷综合久久图片| 国产成人av激情在线播放| 黄色女人牲交| 精品久久久久久成人av| 国产三级在线视频| 国产一区二区在线av高清观看| 精品电影一区二区在线| 18禁裸乳无遮挡免费网站照片 | 亚洲国产精品999在线| 亚洲成人久久爱视频| 亚洲国产高清在线一区二区三 | 天堂影院成人在线观看| 搡老岳熟女国产| 99热6这里只有精品| 身体一侧抽搐| 男女视频在线观看网站免费 | av免费在线观看网站| 18禁美女被吸乳视频| 香蕉久久夜色| 国产亚洲av高清不卡| 男人舔女人下体高潮全视频| 国产亚洲欧美98| 亚洲精品在线美女| 欧美zozozo另类| 久久精品国产综合久久久| 国产成年人精品一区二区| 十分钟在线观看高清视频www| 999精品在线视频| 久久人妻av系列| 波多野结衣av一区二区av| 可以在线观看的亚洲视频| 日韩中文字幕欧美一区二区| 99久久无色码亚洲精品果冻| 成人永久免费在线观看视频| 淫秽高清视频在线观看| 精品国产乱子伦一区二区三区| 国产欧美日韩一区二区三| 亚洲精品国产一区二区精华液| 亚洲欧美日韩无卡精品| 午夜精品久久久久久毛片777| 动漫黄色视频在线观看| 中亚洲国语对白在线视频| 不卡av一区二区三区| 欧美性猛交╳xxx乱大交人| 在线国产一区二区在线| 琪琪午夜伦伦电影理论片6080| 亚洲第一电影网av| 亚洲成av片中文字幕在线观看| 看黄色毛片网站| 91av网站免费观看| 在线观看免费视频日本深夜| 国产麻豆成人av免费视频| 精华霜和精华液先用哪个| 国产精品久久电影中文字幕| АⅤ资源中文在线天堂| 欧美绝顶高潮抽搐喷水| 嫁个100分男人电影在线观看| 好男人电影高清在线观看| 狂野欧美激情性xxxx| 精品国产美女av久久久久小说| 亚洲 欧美一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 国语自产精品视频在线第100页| 真人一进一出gif抽搐免费| 亚洲精品一区av在线观看| 亚洲成国产人片在线观看| 日本免费一区二区三区高清不卡| 最近在线观看免费完整版| 亚洲 国产 在线| 中出人妻视频一区二区| 88av欧美| 久久精品亚洲精品国产色婷小说| 亚洲aⅴ乱码一区二区在线播放 | 色综合婷婷激情| 精品国产乱码久久久久久男人| 亚洲国产日韩欧美精品在线观看 | 欧美日韩精品网址| 亚洲一卡2卡3卡4卡5卡精品中文| 欧美+亚洲+日韩+国产| 欧美日韩亚洲国产一区二区在线观看| 波多野结衣高清作品| 好看av亚洲va欧美ⅴa在| 久久久久久久精品吃奶| 12—13女人毛片做爰片一| 女人被狂操c到高潮| 国产一卡二卡三卡精品| 波多野结衣巨乳人妻| 国产成人精品无人区| 身体一侧抽搐| 99久久精品国产亚洲精品| 国产精品久久久人人做人人爽| 看免费av毛片| 亚洲av熟女| 久久婷婷成人综合色麻豆| 国产成人欧美在线观看| 亚洲激情在线av| 亚洲国产欧美网| 日韩av在线大香蕉| 丝袜在线中文字幕| 色综合欧美亚洲国产小说| 男女床上黄色一级片免费看| 国产亚洲精品综合一区在线观看 | 中文字幕最新亚洲高清| 亚洲av日韩精品久久久久久密| 老熟妇乱子伦视频在线观看| 操出白浆在线播放| 国内揄拍国产精品人妻在线 | 亚洲第一青青草原| 亚洲av成人一区二区三| 一级片免费观看大全| 天天躁夜夜躁狠狠躁躁| 亚洲国产精品久久男人天堂| 视频区欧美日本亚洲| 岛国在线观看网站| 欧美日韩福利视频一区二区| 一区福利在线观看| 久久国产亚洲av麻豆专区| 国产高清有码在线观看视频 | 在线视频色国产色| 中文在线观看免费www的网站 | 久久久久久亚洲精品国产蜜桃av| 亚洲第一青青草原| 搞女人的毛片| 99riav亚洲国产免费| 2021天堂中文幕一二区在线观 | 亚洲av电影在线进入| 在线观看66精品国产| 很黄的视频免费| 午夜免费观看网址| av电影中文网址| 成人手机av| 一级a爱片免费观看的视频| 日韩大尺度精品在线看网址| 日本免费a在线| 熟女电影av网| 在线看三级毛片| 精品乱码久久久久久99久播| 亚洲自偷自拍图片 自拍| tocl精华| 无遮挡黄片免费观看| 50天的宝宝边吃奶边哭怎么回事| 亚洲七黄色美女视频| 在线观看免费视频日本深夜| 最新在线观看一区二区三区| 宅男免费午夜| 好看av亚洲va欧美ⅴa在| 久久九九热精品免费| 久久国产乱子伦精品免费另类| 50天的宝宝边吃奶边哭怎么回事| 国产成人精品无人区| 亚洲全国av大片| 国产高清videossex| 极品教师在线免费播放| 999久久久精品免费观看国产| 精品午夜福利视频在线观看一区| АⅤ资源中文在线天堂| 777久久人妻少妇嫩草av网站| 免费在线观看亚洲国产| 久久久久久久久久黄片| 在线国产一区二区在线| 嫁个100分男人电影在线观看| 欧美av亚洲av综合av国产av| 91老司机精品| 欧美成人性av电影在线观看| 天天躁夜夜躁狠狠躁躁| 天堂影院成人在线观看| 日本免费a在线| 午夜视频精品福利| 欧洲精品卡2卡3卡4卡5卡区| 黑丝袜美女国产一区| 欧美日韩黄片免| 久久久国产成人精品二区| 国产高清激情床上av| 欧美乱码精品一区二区三区| 制服诱惑二区| 欧美黑人精品巨大| 成人精品一区二区免费| 男人的好看免费观看在线视频 | 99国产精品一区二区蜜桃av| 亚洲国产欧美日韩在线播放| 欧美国产日韩亚洲一区| 久久久精品欧美日韩精品| 国产99白浆流出| 成人国语在线视频| 国产一区二区在线av高清观看| 麻豆成人av在线观看| 欧美黄色淫秽网站| 亚洲精品粉嫩美女一区| 女同久久另类99精品国产91| 超碰成人久久| 男人操女人黄网站| 国产免费av片在线观看野外av| 国产免费男女视频|