• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度強化學(xué)習(xí)在軍事領(lǐng)域的應(yīng)用研究

    2022-11-25 00:04:04文東日
    軍事運籌與系統(tǒng)工程 2022年2期
    關(guān)鍵詞:軍事決策深度

    文東日

    (1.國防大學(xué) 研究生院,北京100091;2.中國人民解放軍63936 部隊,北京102202)

    1 引言

    2 深度強化學(xué)習(xí)軍事應(yīng)用研究現(xiàn)狀

    深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,擁有廣闊的軍事應(yīng)用前景,受到研究人員的廣泛關(guān)注。近年來,深度強化學(xué)習(xí)軍事應(yīng)用研究的相關(guān)文獻逐年增多,在態(tài)勢感知、指揮決策、裝備控制、空戰(zhàn)博弈、兵棋推演等諸多領(lǐng)域均有成果。

    2.1 應(yīng)用深度強化學(xué)習(xí)于態(tài)勢感知

    態(tài)勢感知是實施作戰(zhàn)行動的邏輯起點,核心是綜合處理戰(zhàn)場環(huán)境、情報偵察、兵力部署、力量對比等各種信息,做出綜合判斷,為采取作戰(zhàn)行動提供決策依據(jù)。吳志強等構(gòu)建了基于Actor-Critic 的態(tài)勢估計模型,提出基于深度強化學(xué)習(xí)的自動態(tài)勢分析技術(shù)框架[1]。Actor-Critic 架構(gòu)既有決策功能(Actor)又有評估功能(Critic),文獻[1]僅利用Critic 進行態(tài)勢估計,卻舍棄了Actor 的決策功能。冷鵬飛等提出一種基于深度強化學(xué)習(xí)的雷達(dá)輻射源個體識別方法[2],以雷達(dá)輻射源信號包絡(luò)前沿作為深度神經(jīng)網(wǎng)絡(luò)的輸入狀態(tài),以輻射源類別作為輸入狀態(tài)的可選動作,通過擬合當(dāng)前狀態(tài)動作對的Q 值完成雷達(dá)輻射源個體識別任務(wù)。利用深度強化學(xué)習(xí)進行目標(biāo)識別是深度強化學(xué)習(xí)的一種特殊應(yīng)用,此種情況下的馬爾可夫決策過程僅有一個決策步。李銀通等提出利用逆強化學(xué)習(xí)進行空戰(zhàn)態(tài)勢評估[3]。在態(tài)勢評估或目標(biāo)識別領(lǐng)域應(yīng)用深度強化學(xué)習(xí),未充分發(fā)揮其技術(shù)優(yōu)勢,相關(guān)應(yīng)用研究也較少。

    2.2 應(yīng)用深度強化學(xué)習(xí)于指揮決策

    深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,發(fā)揮深度強化學(xué)習(xí)這一技術(shù)特點,提升指揮控制能力、獲取決策優(yōu)勢,是深度強化學(xué)習(xí)在軍事領(lǐng)域的主要應(yīng)用方向。曹雷提出將深度強化學(xué)習(xí)應(yīng)用于作戰(zhàn)輔助決策(或作戰(zhàn)任務(wù)規(guī)劃、智能博弈對抗)的基本構(gòu)想[4],建立基于馬爾可夫決策過程的作戰(zhàn)指揮控制模型,探討獲得最優(yōu)策略的基本邏輯。針對不同領(lǐng)域、不同規(guī)模、不同階段的指揮決策問題,諸多學(xué)者進行了具體探索。如陳希亮等針對陸軍分隊?wèi)?zhàn)術(shù)決策問題,提出有限指揮決策范例數(shù)據(jù)條件下的逆向強化學(xué)習(xí)方法,給出方案推演中基于深度Q網(wǎng)絡(luò)的陸軍分隊?wèi)?zhàn)術(shù)決策技術(shù)求解框架[5]。馮利設(shè)計了基于深度Q 網(wǎng)絡(luò)的炮兵連智能決策系統(tǒng)[6],為解決炮兵戰(zhàn)術(shù)決策問題提供了借鑒。筆者曾提出基于深度強化學(xué)習(xí)的裝備組合運用方法[7],發(fā)揮深度強化學(xué)習(xí)解決組合優(yōu)化問題的優(yōu)勢,進行裝備運用方案籌劃。于彤彤等提出基于深度強化學(xué)習(xí)的艦載機在線調(diào)度方法[8]。此外,一些學(xué)者圍繞利用深度強化學(xué)習(xí)解決防空反導(dǎo)[9]、網(wǎng)電攻防[10]、低軌衛(wèi)星路由策略[11]中的輔助決策問題進行了研究。

    2.3 應(yīng)用深度強化學(xué)習(xí)于裝備控制

    利用深度強化學(xué)習(xí)實現(xiàn)裝備智能控制,是深度強化學(xué)習(xí)軍事應(yīng)用的又一重要方向。如付佳龍研究利用深度強化學(xué)習(xí)實現(xiàn)艦載機的自動著艦[12],張耀、相曉嘉、趙明皓等分別研究利用深度強化學(xué)習(xí)實現(xiàn)無人戰(zhàn)車[13]、無人機[14]、無人艇[15]等無人平臺的自主控制,南英、馬子杰、高昂等分別研究利用深度強化學(xué)習(xí)進行彈道導(dǎo)彈[16]、巡航導(dǎo)彈[17]、巡飛彈[18]等制導(dǎo)導(dǎo)彈的突防控制以及航跡規(guī)劃。Gaudet 等研究基于強化學(xué)習(xí)的自主高超聲速打擊武器末端自適應(yīng)制導(dǎo)方法[19]。可以說,武器裝備智能化是軍事智能化的物質(zhì)基礎(chǔ),是深度強化學(xué)習(xí)軍事應(yīng)用的重要領(lǐng)域,是催生智能化武器裝備的重要技術(shù)基礎(chǔ)。2018 年2 月,SpaceX 公司利用強化學(xué)習(xí)技術(shù)提升火箭著陸精度和可靠性,使其出色地完成自動轉(zhuǎn)向等操作,大幅減少了地面專家操作工作量[20]。

    2.4 應(yīng)用深度強化學(xué)習(xí)于空戰(zhàn)博弈

    空戰(zhàn)博弈是裝備控制的一種特殊情況,相比較一般裝備控制問題,空戰(zhàn)博弈具有激烈對抗性的突出特點。2020 年8 月,美國國防高級研究計劃局(DARPA)舉辦阿爾法空戰(zhàn)格斗系列比賽(Alpha-DogFight),蒼鷺系統(tǒng)公司基于深度強化學(xué)習(xí)算法完勝F-16 頂尖飛行員,顯示出將深度強化學(xué)習(xí)應(yīng)用于空戰(zhàn)博弈的巨大潛力。圍繞空戰(zhàn)博弈問題,POPE 等研究利用分層深度強化學(xué)習(xí)進行飛機空中格斗[21],馬文等提出一種深度強化學(xué)習(xí)與博弈相結(jié)合的近距空戰(zhàn)機動決策方法[22],郭萬春等提出一種基于改進雙延遲深度確定性策略梯度法的無人機反追擊機動決策方法[23],楊霄等提出一種深度強化學(xué)習(xí)與微分對策(Differential Games,DG)相結(jié)合的無人機空戰(zhàn)決策方法[24]。正如陳希亮等指出,空戰(zhàn)決策問題與圍棋、星際爭霸等問題不同,無法簡單套用游戲中的深度強化學(xué)習(xí)算法,須針對具體軍事問題,綜合運用運籌分析、知識建模、智能搜索和機器學(xué)習(xí)等方法尋找解決方案[25]。

    2.5 應(yīng)用深度強化學(xué)習(xí)于兵棋推演

    深度強化學(xué)習(xí)基于大量采樣和試錯進行學(xué)習(xí),為降低試錯成本,一般須構(gòu)建虛擬仿真環(huán)境,而兵棋推演正好滿足這一要求。美國國防高級研究計劃局在深度強化學(xué)習(xí)攻克星際爭霸后,立馬將其應(yīng)用于戰(zhàn)爭模擬研究[26]。筆者曾指出為使傳統(tǒng)軍事仿真平臺能和智能體進行交互,須對傳統(tǒng)軍事仿真平臺進行改造,包括實現(xiàn)環(huán)境功能的仿真平臺、實現(xiàn)智能體功能的開發(fā)平臺以及連接仿真平臺和開發(fā)平臺的接口[7]。劉靜等設(shè)計了網(wǎng)電作戰(zhàn)多智能體博弈仿真平臺[27]。崔文華等探討以兵棋系統(tǒng)為依托的基于深度強化學(xué)習(xí)的決策技術(shù)框架[28]。目前,深度強化學(xué)習(xí)成為兵棋推演智能決策的主要技術(shù)之一,國內(nèi)已有多個能夠應(yīng)用深度強化學(xué)習(xí)進行推演的仿真平臺。

    3 深度強化學(xué)習(xí)軍事應(yīng)用的優(yōu)勢及挑戰(zhàn)

    3.1 深度強化學(xué)習(xí)軍事應(yīng)用優(yōu)勢分析

    深度強化學(xué)習(xí)具有不需要數(shù)據(jù)標(biāo)簽、環(huán)境模型、提取特征等內(nèi)在特點,符合許多軍事應(yīng)用問題的技術(shù)要求,使得應(yīng)用深度強化學(xué)習(xí)于軍事領(lǐng)域具有明顯優(yōu)勢。

    3.1.1 不需要數(shù)據(jù)標(biāo)簽,從而擺脫數(shù)據(jù)標(biāo)記

    The median follow-up period for all patients was 34.5(9.9-81) mo. Median follow-up time for group Ⅰ was 37.5 (9.9-74.5) mo and group Ⅱ was 31.2 (10.7-81) mo.Median follow-up was comparable in both groups (P =0.59).

    深度強化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題擺脫數(shù)據(jù)標(biāo)記。以深度學(xué)習(xí)為代表的監(jiān)督學(xué)習(xí),需要大量的數(shù)據(jù)標(biāo)簽,以致產(chǎn)生對數(shù)據(jù)進行標(biāo)記的巨大市場需求。但當(dāng)人們試圖把深度學(xué)習(xí)以及大數(shù)據(jù)等技術(shù)應(yīng)用于軍事領(lǐng)域時,卻發(fā)現(xiàn)由于缺少數(shù)據(jù)標(biāo)簽或者根本沒有數(shù)據(jù)積累、數(shù)據(jù)來源,導(dǎo)致很多軍事問題難以利用監(jiān)督學(xué)習(xí)的方法。而強化學(xué)習(xí)不需要數(shù)據(jù)標(biāo)簽,其通過持續(xù)地交互“試錯”機制,不斷地“接收狀態(tài)—執(zhí)行動作—獲得收益—調(diào)整策略”,最終獲得最大收益、找到最優(yōu)策略。此種源于行為主義心理學(xué)的學(xué)習(xí)機制,使得以深度強化學(xué)習(xí)解決軍事問題時,解決了沒有數(shù)據(jù)來源、缺少數(shù)據(jù)積累以及數(shù)據(jù)標(biāo)簽的問題。

    3.1.2 不需要環(huán)境模型,從而超越經(jīng)驗知識

    深度強化學(xué)習(xí)不需要環(huán)境模型,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題超越經(jīng)驗知識。環(huán)境模型即狀態(tài)轉(zhuǎn)移函數(shù),表示在一個狀態(tài)下采取某個動作時,從當(dāng)前狀態(tài)轉(zhuǎn)移到另一狀態(tài)并獲得收益的概率。簡單理解,智能體好比是懂行的專家,其對動作的后續(xù)影響完全知悉。然而,在沒有環(huán)境模型的情況下,強化學(xué)習(xí)通過與環(huán)境交互采樣,得到狀態(tài)、動作、收益的序列,并在收益的引導(dǎo)下糾正錯誤動作、選擇正確動作,依然能夠達(dá)到最優(yōu)的行為。根據(jù)這一原理,AlphaGo Zero 在完全不懂圍棋、也不借助人類經(jīng)驗的情況下,成為圍棋頂尖高手,打敗先前版本的AlphaGo Master 。類似于此,利用深度強化學(xué)習(xí)解決軍事問題,也可能在完全沒有軍事專家指導(dǎo)、沒有軍事經(jīng)驗的情況下,成為精于計算、足智多謀的軍事助手。

    3.1.3 不需要提取特征,從而回避特征工程

    深度強化學(xué)習(xí)不需要提取特征,從而使得應(yīng)用深度強化學(xué)習(xí)解決軍事問題回避特征工程。傳統(tǒng)的強化學(xué)習(xí)在解決一般任務(wù)時存在以下幾點不足:一是需要根據(jù)具體任務(wù)提取特征,從而轉(zhuǎn)化為有限狀態(tài)空間及有限動作空間;二是提取特征需要人工完成,因而受人為因素的影響較大;三是有的高維任務(wù)或許根本無法轉(zhuǎn)化為有限狀態(tài)空間及動作空間。而深度強化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)強大的泛函表示能力,既能夠應(yīng)對連續(xù)狀態(tài)空間和動作空間的任務(wù),又可省去人工提取特征的環(huán)節(jié),從而克服了傳統(tǒng)強化學(xué)習(xí)的不足。運用深度強化學(xué)習(xí)解決軍事問題,不需要對特征提取進行人為選擇,即使面對不同作戰(zhàn)條件、作戰(zhàn)目標(biāo)和作戰(zhàn)意圖,也可基于同一網(wǎng)絡(luò)結(jié)構(gòu)進行訓(xùn)練,提高了網(wǎng)絡(luò)結(jié)構(gòu)的通用性。

    3.2 深度強化學(xué)習(xí)軍事應(yīng)用困難挑戰(zhàn)

    雖然利用深度強化學(xué)習(xí)解決軍事問題具有諸多優(yōu)勢和廣闊前景,但與落地應(yīng)用仍有差距,在系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面存在困難。

    3.2.1 系統(tǒng)建構(gòu)之難

    應(yīng)用深度強化學(xué)習(xí)解決軍事問題,需要開發(fā)平臺、計算平臺、仿真平臺等作為支撐,由此導(dǎo)致實現(xiàn)該方法存在相應(yīng)困難。①源于開發(fā)平臺,人工成本高。雖然利用開發(fā)平臺構(gòu)建智能體,能夠?qū)崿F(xiàn)自動學(xué)習(xí)、智能尋優(yōu),改變傳統(tǒng)仿真方法效率低、時間長等缺點,但編寫智能體專業(yè)性強、工作量大、不易實現(xiàn)。且對于軍事問題,由于戰(zhàn)場環(huán)境的開放性,任務(wù)想定總是處于動態(tài)變化之中,要為不同的想定設(shè)計不同的動作空間、狀態(tài)空間,編寫不同的訓(xùn)練環(huán)境,相當(dāng)于針對一個想定開發(fā)一個“游戲”,由此導(dǎo)致利用深度強化學(xué)習(xí)解決軍事問題仍需要較大人工成本。②源于計算平臺,計算開銷大。利用深度強化學(xué)習(xí)解決復(fù)雜問題需要高性能計算資源支持。例如,深度思維公司訓(xùn)練AlphaGo 圍棋智能體利用了多 達(dá)280 個GPU 和1 920 個CPU[29],訓(xùn) 練OpenAI Five 星際爭霸智能體利用了多達(dá)256 個GPU 和128 000 個CPU[30]。而2020 年中國超級計算排名第三的北京超級云計算中心也僅有192 000 個CPU,2018 年世界超級計算排名第一、2020 年排名第四的“太湖之光”安裝了40 960 個眾核處理器[31]。如此龐大的計算開銷,使得眾多普通的深度強化學(xué)習(xí)研究者望而卻步,限制了深度強化學(xué)習(xí)的軍事應(yīng)用。③源于仿真平臺,導(dǎo)致方法起點要求高。利用深度強化學(xué)習(xí)解決軍事問題,首先需要仿真平臺的支撐,沒有仿真平臺,方法也就無從構(gòu)建。因此,深度強化學(xué)習(xí)的軍事應(yīng)用在硬件支撐上要求更高、條件更嚴(yán)、實現(xiàn)更難。

    3.2.2 訓(xùn)練收斂之難

    應(yīng)用深度強化學(xué)習(xí)解決軍事問題雖具有可行性,但由于深度強化學(xué)習(xí)本身存在訓(xùn)練效率低、不穩(wěn)定等缺陷,使得探尋最優(yōu)策略需要漫長時間,且收斂存在偶然性。如深度思維公司即便擁有超強的計算資源,但訓(xùn)練OpenAI Five 星際爭霸智能體,也耗時長達(dá)10 個月。在實際軍事問題場景中,裝備實體數(shù)量大幅增加、問題復(fù)雜度成倍提高、時效性要求極其嚴(yán)苛,過長的訓(xùn)練時間直接導(dǎo)致方法不可用。另外,由于收斂的偶然性,訓(xùn)練開始并不能保證最終得到最優(yōu)結(jié)果,往往由于學(xué)習(xí)率過大或過小、網(wǎng)絡(luò)初始模型不適用、激活函數(shù)不合理、“探索—利用”沒有平衡好等因素而失敗。

    3.2.3 算法遷移之難

    由于深度強化學(xué)習(xí)具有過擬合、難解釋的本質(zhì)缺陷,利用深度強化學(xué)習(xí)解決軍事問題存在遷移困難。其遷移困難首先體現(xiàn)在不同想定之間難遷移。深度強化學(xué)習(xí)是基于環(huán)境的學(xué)習(xí)探索,為使智能體實現(xiàn)獎勵最大化,可以盡量地擬合環(huán)境要求。但若環(huán)境(或想定)稍做調(diào)整變化,經(jīng)過反復(fù)調(diào)試、精心訓(xùn)練,最終收斂得到的智能體就完全失效,須從頭開始、重新訓(xùn)練??梢哉f,基于深度強化學(xué)習(xí)訓(xùn)練的智能體雖然能夠解決某些問題,但只能機械地應(yīng)對,不能靈活地變化。面對多種想定情況,深度強化學(xué)習(xí)智能體不能舉一反三、觸類旁通、實現(xiàn)遷移。其遷移困難還體現(xiàn)在向現(xiàn)實環(huán)境遷移難。深度強化學(xué)習(xí)解決問題的性能非常優(yōu)異,但其只是給出方案“是什么”,至于“為什么”沒有任何信息,因而難以獲得軍事指揮員的理解、信任與采納,阻礙深度強化學(xué)習(xí)的軍事應(yīng)用。

    4 深度強化學(xué)習(xí)軍事應(yīng)用研究展望

    4.1 打造智能平臺

    打造仿真平臺是深度強化學(xué)習(xí)軍事應(yīng)用的基礎(chǔ)。當(dāng)前,雖有能夠利用深度強化學(xué)習(xí)的仿真平臺,但基于傳統(tǒng)仿真平臺實現(xiàn)深度強化學(xué)習(xí)軍事應(yīng)用的過程復(fù)雜,智能體的編寫需要耗費大量精力。打造智能軍事仿真平臺,簡化智能體的構(gòu)造及訓(xùn)練過程,是未來研究的重要方向。一是通過標(biāo)準(zhǔn)化的方式,統(tǒng)一智能體的結(jié)構(gòu)。不同類型的智能體,功能要求不一樣,有的智能體用于識別目標(biāo)、有的智能體用于判斷風(fēng)險、有的智能體用于作出決策等。對于不同的智能體,還可能有不同的設(shè)計方法和實現(xiàn)途徑。標(biāo)準(zhǔn)化的目的在于從概念形式上統(tǒng)一各種不同功能、不同技術(shù)途徑的智能體,為簡化智能體的構(gòu)建及部署奠定基礎(chǔ)。二是通過模塊化的方式,簡化智能體的構(gòu)建。集成模塊化的深度神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度信念網(wǎng)絡(luò)(DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短時記憶網(wǎng)絡(luò)(LSTM)等;集成模塊化的強化學(xué)習(xí)算法,如深度Q學(xué)習(xí)算法(DQN)、深度確定性策略梯度算法(DDPG)、近端策略優(yōu)化算法(PPO)、異步的基于優(yōu)勢函數(shù)的“行動器—評判器”算法(A3C)、信賴域策略優(yōu)化算法(TRPO)等;集成模塊化的狀態(tài)輸入與動作輸出。當(dāng)智能體的構(gòu)建、訓(xùn)練及部署較為容易簡便時,就可以為每一個必要的模型賦予智能,從而完成認(rèn)知建模,使得模型“活”起來。如此,模型就可以更加真實地模擬真實情況,也可以更加便捷地進行推演,而不需要每個決策都由參演人員臨時輸入、每個操作都由參演人員人工控制;在推演中有的席位可以直接由智能模型替代,甚至整個藍(lán)方都由智能體扮演,大大減少陪練人員,聚焦關(guān)鍵問題。傳統(tǒng)的計算機兵棋系統(tǒng)將發(fā)生本質(zhì)性改變,實現(xiàn)智能化的升級改造。

    4.2 構(gòu)建并行模式

    深度強化學(xué)習(xí)本身存在采樣效率低、訓(xùn)練時間長等不足,通過構(gòu)建分布式并行訓(xùn)練模式解決軍事問題,從而提高采樣效率、降低時間成本,值得進一步研究探索。許多大規(guī)模分布式強化學(xué)習(xí)架構(gòu),如并行的基于優(yōu)勢函數(shù)的“行動器—評判器”架構(gòu)(Parallel Advantage Actor Critic,PAAC)、重要性加權(quán)的操作者—學(xué)習(xí)者架構(gòu)(Importance Weighted Actor-Learner Architecture,IMPALA)、去中心化的分布式近端策略優(yōu)化架構(gòu)(Decentralized Distributed Proximal Policy Optimization,DDPPO)等,能夠顯著改善單進程的深度強化學(xué)習(xí)在解決大規(guī)模復(fù)雜問題時的性能不足。相關(guān)實驗證明,采用分布式深度強化學(xué)習(xí)玩雅達(dá)利游戲,可以將原來需要幾十個小時甚至十幾天才能達(dá)到人類玩家水平的訓(xùn)練時間,縮短到幾個小時甚至幾分鐘。深度思維公司在分布式深度強化學(xué)習(xí)的啟發(fā)下,研究老鼠多巴胺細(xì)胞的生理機制,發(fā)現(xiàn)大腦中同樣存在分布式架構(gòu)[32],證明分布式深度強化學(xué)習(xí)比標(biāo)準(zhǔn)的深度強化學(xué)習(xí)更加類似于大腦機能,是正確的研究方向。為此,應(yīng)研究構(gòu)建基于分布式深度強化學(xué)習(xí)架構(gòu)的軍事應(yīng)用方法,探究在分布式深度強化學(xué)習(xí)架構(gòu)下仿真平臺及其接口的技術(shù)要求,分析部署分布式深度強化學(xué)習(xí)的硬件需求,評估基于分布式深度強化學(xué)習(xí)架構(gòu)的軍事應(yīng)用的優(yōu)勢,解決基于標(biāo)準(zhǔn)的深度強化學(xué)習(xí)軍事應(yīng)用存在效率低、時間長等不足。

    4.3 融合符號主義

    軍事問題十分復(fù)雜,簡單套用游戲中的深度強化學(xué)習(xí)算法,存在難解釋、效率低、過擬合、不穩(wěn)定等本質(zhì)缺陷,如何有效利用知識是深度強化學(xué)習(xí)軍事應(yīng)用研究的重要突破方向。近年來,深度強化學(xué)習(xí)誕生很多前沿研究方向,如分層深度強化學(xué)習(xí)、深度逆向強化學(xué)習(xí)、多任務(wù)遷移深度強化學(xué)習(xí)、多智能體深度強化學(xué)習(xí)、基于記憶與推理的深度強化學(xué)習(xí)等,其中很多研究方向都試圖把知識融進深度強化學(xué)習(xí),以期實現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的結(jié)合。如分層深度強化學(xué)習(xí)的基本思想是將一個復(fù)雜問題分解為若干個容易解決的子問題,通過子問題的解決策略,得出整體問題的最優(yōu)策略。由于問題分解、劃分層次通常是由人工完成,這就需要特定領(lǐng)域的知識和技巧,以促進更好的學(xué)習(xí)效果。深度逆向強化學(xué)習(xí)的基本思想是針對獎勵函數(shù)難以獲得問題,通過專家示例反推得到獎勵函數(shù),進而利用獎勵函數(shù)引導(dǎo)獲得最優(yōu)策略。由于逆向強化學(xué)習(xí)以專家示例為榜樣,同樣需要特定領(lǐng)域的知識。多任務(wù)遷移深度強化學(xué)習(xí)的基本思想是為解決傳統(tǒng)的深度強化學(xué)習(xí)只能應(yīng)對單一任務(wù)、單一環(huán)境,只要任務(wù)或者環(huán)境稍有變化,之前的學(xué)習(xí)結(jié)果就會失效,泛化性能差的問題,通過將知識從源任務(wù)遷移到目標(biāo)任務(wù),從而使得智能體更好適應(yīng)新的任務(wù)場景?;谟洃浥c推理的深度強化學(xué)習(xí)的基本思想是針對傳統(tǒng)的深度強化學(xué)習(xí)模型不具備記憶、認(rèn)知、推理等高層次能力的問題,加入外部記憶組件,使得智能體具有初步的主動認(rèn)知與推理能力,從而提高智能體性能。知識是人類認(rèn)識世界的成果,是“去偽存真,去粗存精”的總結(jié)凝練,是“透過現(xiàn)象看本質(zhì)”的規(guī)律把握,比起一般數(shù)據(jù)和信息更有價值。通過融入知識,實現(xiàn)符號主義、聯(lián)結(jié)主義、行為主義的貫通,智能體在性能上均有提升,為深度強化學(xué)習(xí)的軍事應(yīng)用提供了有益借鑒。

    5 結(jié)束語

    深度強化學(xué)習(xí)具有突出的決策規(guī)劃能力,是軍事智能化的關(guān)鍵技術(shù)基礎(chǔ),在軍事領(lǐng)域具有廣闊應(yīng)用前景。應(yīng)用深度強化學(xué)習(xí)解決軍事問題既有擺脫數(shù)據(jù)標(biāo)記、超越經(jīng)驗知識、回避特征工程等技術(shù)優(yōu)勢,也有系統(tǒng)建構(gòu)、訓(xùn)練收斂、算法遷移等方面不足。應(yīng)進一步加強深度強化學(xué)習(xí)軍事應(yīng)用研究,堅持以軍事需求為牽引,以技術(shù)進步為推動,努力將深度強化學(xué)習(xí)的突出性能轉(zhuǎn)化為軍事博弈的決策優(yōu)勢,為未來戰(zhàn)爭制勝“OODA”環(huán)奠定基礎(chǔ)。

    猜你喜歡
    軍事決策深度
    為可持續(xù)決策提供依據(jù)
    深度理解一元一次方程
    決策為什么失誤了
    深度觀察
    深度觀察
    深度觀察
    軍事幽默:局
    軍事文摘(2009年9期)2009-07-30 09:40:44
    軍事
    軍事幽默
    軍事文摘(2009年5期)2009-06-30 01:01:04
    世界軍事掠影
    軍事文摘(2001年7期)2001-08-06 20:02:14
    激情视频va一区二区三区| 成年女人毛片免费观看观看9| 欧美国产精品va在线观看不卡| 狂野欧美激情性xxxx| 成人三级做爰电影| 欧美成人免费av一区二区三区| 97超级碰碰碰精品色视频在线观看| 久久久久久亚洲精品国产蜜桃av| 美女扒开内裤让男人捅视频| 久久人妻av系列| 国产在线精品亚洲第一网站| 丁香六月欧美| 免费一级毛片在线播放高清视频 | 欧美另类亚洲清纯唯美| 色综合欧美亚洲国产小说| 久久性视频一级片| 极品教师在线免费播放| 国产高清激情床上av| 男人舔女人下体高潮全视频| 99热只有精品国产| 久久精品影院6| 日本免费a在线| 久久中文字幕一级| 满18在线观看网站| 99riav亚洲国产免费| 国产麻豆69| 亚洲男人的天堂狠狠| 精品国产乱子伦一区二区三区| 精品国产国语对白av| 精品福利观看| 欧美日韩av久久| 美国免费a级毛片| 亚洲精品久久午夜乱码| 我的亚洲天堂| 免费观看精品视频网站| 精品国产国语对白av| 亚洲色图av天堂| 天堂俺去俺来也www色官网| 午夜视频精品福利| 黑人巨大精品欧美一区二区蜜桃| 91成人精品电影| 丰满的人妻完整版| 欧美激情极品国产一区二区三区| 国产伦人伦偷精品视频| 国产精品偷伦视频观看了| 超色免费av| 色尼玛亚洲综合影院| 又黄又爽又免费观看的视频| 国产av一区二区精品久久| 精品福利永久在线观看| 色尼玛亚洲综合影院| 老司机亚洲免费影院| 亚洲美女黄片视频| 亚洲一码二码三码区别大吗| 成人影院久久| 久久精品91蜜桃| 美女高潮喷水抽搐中文字幕| bbb黄色大片| 日日摸夜夜添夜夜添小说| 老汉色∧v一级毛片| 免费高清视频大片| 国产精品偷伦视频观看了| 久久热在线av| 女人被躁到高潮嗷嗷叫费观| 一个人免费在线观看的高清视频| 中文字幕色久视频| 亚洲色图av天堂| 亚洲精品久久成人aⅴ小说| 夜夜爽天天搞| 黄片播放在线免费| 伊人久久大香线蕉亚洲五| 国产精品九九99| 99精品久久久久人妻精品| 久久青草综合色| 超碰97精品在线观看| 美女高潮喷水抽搐中文字幕| 国产成人一区二区三区免费视频网站| 美女福利国产在线| 一级a爱片免费观看的视频| 久久人妻熟女aⅴ| 十分钟在线观看高清视频www| 中文字幕av电影在线播放| 亚洲专区中文字幕在线| 免费观看人在逋| 最新在线观看一区二区三区| 国产精品国产高清国产av| 午夜福利欧美成人| 18美女黄网站色大片免费观看| 免费av中文字幕在线| 亚洲午夜精品一区,二区,三区| 巨乳人妻的诱惑在线观看| 国产亚洲精品久久久久5区| 久久久国产成人精品二区 | 天天添夜夜摸| 美女 人体艺术 gogo| 午夜91福利影院| 久久人人97超碰香蕉20202| 视频区欧美日本亚洲| 久久久精品国产亚洲av高清涩受| 欧美性长视频在线观看| 欧美老熟妇乱子伦牲交| 久久香蕉激情| 久久精品亚洲熟妇少妇任你| 午夜福利欧美成人| tocl精华| 日日摸夜夜添夜夜添小说| 久久久久亚洲av毛片大全| 免费高清在线观看日韩| 国产精品永久免费网站| 每晚都被弄得嗷嗷叫到高潮| 宅男免费午夜| 久久99一区二区三区| 久久精品91无色码中文字幕| 午夜福利,免费看| 久久久久久久午夜电影 | 亚洲在线自拍视频| 手机成人av网站| 国产成人精品无人区| 亚洲五月婷婷丁香| 性欧美人与动物交配| 久久久久久久久免费视频了| 在线十欧美十亚洲十日本专区| 黄色 视频免费看| 黄色女人牲交| 天堂中文最新版在线下载| 操出白浆在线播放| 法律面前人人平等表现在哪些方面| 日本三级黄在线观看| 久久香蕉精品热| 亚洲男人天堂网一区| 亚洲一卡2卡3卡4卡5卡精品中文| 在线国产一区二区在线| 国产精品久久久人人做人人爽| 午夜免费激情av| 99精品在免费线老司机午夜| 巨乳人妻的诱惑在线观看| 麻豆av在线久日| 一级毛片女人18水好多| 婷婷精品国产亚洲av在线| 黄频高清免费视频| 人人澡人人妻人| ponron亚洲| 欧美激情高清一区二区三区| 欧美久久黑人一区二区| 国产三级在线视频| 这个男人来自地球电影免费观看| 丁香六月欧美| 亚洲欧美日韩无卡精品| 成人手机av| 真人做人爱边吃奶动态| 波多野结衣av一区二区av| 母亲3免费完整高清在线观看| 成人18禁高潮啪啪吃奶动态图| 麻豆久久精品国产亚洲av | 亚洲va日本ⅴa欧美va伊人久久| 日韩欧美一区视频在线观看| 亚洲人成伊人成综合网2020| 日韩精品中文字幕看吧| 国产成年人精品一区二区 | 国产又爽黄色视频| 99在线视频只有这里精品首页| 91九色精品人成在线观看| 日韩 欧美 亚洲 中文字幕| 国产成人影院久久av| 亚洲 欧美一区二区三区| 自线自在国产av| 国产伦人伦偷精品视频| 成人18禁高潮啪啪吃奶动态图| 日韩免费av在线播放| 久久人妻福利社区极品人妻图片| 黄色a级毛片大全视频| 亚洲av成人不卡在线观看播放网| 免费看十八禁软件| 久久精品亚洲精品国产色婷小说| 男女床上黄色一级片免费看| 日本撒尿小便嘘嘘汇集6| 9热在线视频观看99| 日韩欧美三级三区| 亚洲人成伊人成综合网2020| 久久精品91蜜桃| 国产av精品麻豆| 法律面前人人平等表现在哪些方面| 超碰97精品在线观看| 丝袜美腿诱惑在线| 久久影院123| 婷婷精品国产亚洲av在线| 亚洲国产欧美一区二区综合| 91老司机精品| 在线观看一区二区三区| 视频区图区小说| 国产亚洲精品一区二区www| 另类亚洲欧美激情| 亚洲人成伊人成综合网2020| 国产99白浆流出| 成在线人永久免费视频| 怎么达到女性高潮| 国产免费av片在线观看野外av| 在线观看免费午夜福利视频| 亚洲五月色婷婷综合| 深夜精品福利| 久久香蕉激情| 欧美另类亚洲清纯唯美| 精品久久久久久久毛片微露脸| 极品教师在线免费播放| 如日韩欧美国产精品一区二区三区| 精品一区二区三区av网在线观看| 精品国产超薄肉色丝袜足j| 啦啦啦 在线观看视频| 这个男人来自地球电影免费观看| 欧美大码av| 亚洲中文字幕日韩| 亚洲,欧美精品.| av福利片在线| 欧美成人免费av一区二区三区| 在线十欧美十亚洲十日本专区| 国产不卡一卡二| 最近最新中文字幕大全免费视频| 青草久久国产| www.精华液| 久久香蕉精品热| 在线免费观看的www视频| 18禁裸乳无遮挡免费网站照片 | 高潮久久久久久久久久久不卡| 日韩中文字幕欧美一区二区| 精品乱码久久久久久99久播| 国产欧美日韩一区二区精品| 一级毛片精品| 亚洲全国av大片| 亚洲av日韩精品久久久久久密| 母亲3免费完整高清在线观看| 欧美中文日本在线观看视频| 丝袜美足系列| ponron亚洲| 天堂√8在线中文| 电影成人av| 日本三级黄在线观看| 国产精品乱码一区二三区的特点 | 久久久久久人人人人人| 免费高清在线观看日韩| 真人一进一出gif抽搐免费| 黄片播放在线免费| 在线观看免费视频日本深夜| 日本精品一区二区三区蜜桃| 久久精品91无色码中文字幕| 男女高潮啪啪啪动态图| 黑人操中国人逼视频| 亚洲成人免费电影在线观看| 伊人久久大香线蕉亚洲五| 午夜免费观看网址| 黑丝袜美女国产一区| 国产成人精品久久二区二区91| 69av精品久久久久久| 在线观看免费午夜福利视频| av国产精品久久久久影院| 亚洲成人久久性| 91成人精品电影| 国产精品国产av在线观看| 亚洲国产欧美一区二区综合| 69精品国产乱码久久久| 久久久国产成人精品二区 | 视频区欧美日本亚洲| 亚洲色图 男人天堂 中文字幕| 免费观看精品视频网站| 日韩中文字幕欧美一区二区| 天天影视国产精品| 日日干狠狠操夜夜爽| 99热国产这里只有精品6| 精品国产乱子伦一区二区三区| 日韩免费av在线播放| 久久人妻福利社区极品人妻图片| 国产精品秋霞免费鲁丝片| 国产伦一二天堂av在线观看| 久久国产精品男人的天堂亚洲| 91av网站免费观看| 久久草成人影院| 亚洲国产欧美网| 美女大奶头视频| 夜夜爽天天搞| 久久久国产一区二区| 精品福利观看| 男女午夜视频在线观看| 日日干狠狠操夜夜爽| 亚洲avbb在线观看| 亚洲人成网站在线播放欧美日韩| 欧美黑人欧美精品刺激| 老司机午夜十八禁免费视频| 国产熟女xx| 99国产极品粉嫩在线观看| 欧美日韩中文字幕国产精品一区二区三区 | 午夜精品久久久久久毛片777| 精品国产乱子伦一区二区三区| 黑人巨大精品欧美一区二区mp4| 午夜福利,免费看| 欧美成狂野欧美在线观看| 看免费av毛片| 日本五十路高清| 亚洲一区二区三区欧美精品| 国产激情欧美一区二区| av天堂在线播放| 中文字幕另类日韩欧美亚洲嫩草| 久久久精品国产亚洲av高清涩受| 我的亚洲天堂| 老汉色∧v一级毛片| 十八禁网站免费在线| 18美女黄网站色大片免费观看| 狂野欧美激情性xxxx| 免费在线观看视频国产中文字幕亚洲| 国产精品国产av在线观看| 午夜免费激情av| 一级毛片精品| 无遮挡黄片免费观看| 久久久久久久精品吃奶| 两个人看的免费小视频| 涩涩av久久男人的天堂| 亚洲精华国产精华精| 精品国内亚洲2022精品成人| 男人舔女人下体高潮全视频| 中文欧美无线码| 高潮久久久久久久久久久不卡| 嫩草影视91久久| 99国产精品一区二区蜜桃av| 丰满人妻熟妇乱又伦精品不卡| 午夜两性在线视频| 欧美日本中文国产一区发布| 国产精品亚洲av一区麻豆| 国产熟女xx| 男女下面进入的视频免费午夜 | 久久久久久久久中文| 日韩欧美一区视频在线观看| 在线观看午夜福利视频| 窝窝影院91人妻| 国产精品久久久av美女十八| 一级片免费观看大全| 精品高清国产在线一区| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲五月天丁香| 丁香六月欧美| 日韩精品青青久久久久久| 亚洲av第一区精品v没综合| 丰满迷人的少妇在线观看| 国产高清视频在线播放一区| 午夜福利免费观看在线| 国产成人欧美在线观看| 亚洲 欧美 日韩 在线 免费| 91成年电影在线观看| 老司机午夜十八禁免费视频| 欧美日韩av久久| 午夜免费观看网址| bbb黄色大片| 中文字幕精品免费在线观看视频| 国产主播在线观看一区二区| 一级作爱视频免费观看| 欧美 亚洲 国产 日韩一| 18禁国产床啪视频网站| 亚洲欧美激情综合另类| 一级a爱视频在线免费观看| 五月开心婷婷网| 两个人看的免费小视频| 啦啦啦免费观看视频1| 一进一出抽搐动态| 日韩免费高清中文字幕av| 国产精品免费一区二区三区在线| 精品熟女少妇八av免费久了| 热99国产精品久久久久久7| 黑人巨大精品欧美一区二区蜜桃| 久久人妻福利社区极品人妻图片| 午夜免费鲁丝| 精品久久久久久,| 黄片大片在线免费观看| 搡老熟女国产l中国老女人| 日本精品一区二区三区蜜桃| 久久久国产成人精品二区 | 久久精品aⅴ一区二区三区四区| 精品国产乱码久久久久久男人| 久久国产精品人妻蜜桃| 国产深夜福利视频在线观看| 99riav亚洲国产免费| 一本大道久久a久久精品| 亚洲精品一二三| 老司机午夜福利在线观看视频| 成人av一区二区三区在线看| 欧美日韩亚洲综合一区二区三区_| 高清在线国产一区| 亚洲成人免费av在线播放| 伦理电影免费视频| 侵犯人妻中文字幕一二三四区| 99精品欧美一区二区三区四区| 中文字幕色久视频| 纯流量卡能插随身wifi吗| 天堂中文最新版在线下载| 亚洲情色 制服丝袜| 久久狼人影院| 99久久国产精品久久久| 亚洲 欧美 日韩 在线 免费| 99国产综合亚洲精品| 人妻久久中文字幕网| 亚洲精品国产区一区二| 天堂中文最新版在线下载| 91老司机精品| av中文乱码字幕在线| 一个人观看的视频www高清免费观看 | 天堂影院成人在线观看| 99re在线观看精品视频| 亚洲免费av在线视频| 999精品在线视频| 免费搜索国产男女视频| 啦啦啦在线免费观看视频4| 国产av在哪里看| 国产精品久久视频播放| 99久久99久久久精品蜜桃| 久久精品aⅴ一区二区三区四区| 一区在线观看完整版| 成年版毛片免费区| 亚洲av电影在线进入| 成人18禁高潮啪啪吃奶动态图| 涩涩av久久男人的天堂| 国产欧美日韩综合在线一区二区| 国产亚洲精品久久久久久毛片| 高清黄色对白视频在线免费看| 国产精品电影一区二区三区| 国产精品免费一区二区三区在线| av福利片在线| 国产精品亚洲一级av第二区| 久久久久久大精品| 国产亚洲欧美精品永久| 久久久久久人人人人人| 中亚洲国语对白在线视频| 成人精品一区二区免费| 亚洲久久久国产精品| 伦理电影免费视频| 国产亚洲精品第一综合不卡| 桃红色精品国产亚洲av| 欧美激情久久久久久爽电影 | 90打野战视频偷拍视频| 久久久久精品国产欧美久久久| 伊人久久大香线蕉亚洲五| 超色免费av| 国产精品99久久99久久久不卡| 国产精品av久久久久免费| 伦理电影免费视频| 亚洲成人精品中文字幕电影 | 中文字幕最新亚洲高清| 午夜福利欧美成人| 久久久久国产一级毛片高清牌| 韩国精品一区二区三区| 制服诱惑二区| 少妇 在线观看| 欧美成人性av电影在线观看| 久久久久久久久中文| 免费高清视频大片| 老熟妇乱子伦视频在线观看| 午夜a级毛片| 亚洲人成伊人成综合网2020| 国产精品亚洲一级av第二区| 天堂中文最新版在线下载| 久久精品国产综合久久久| 1024香蕉在线观看| 成人国语在线视频| 超碰97精品在线观看| 久久99一区二区三区| 黑人操中国人逼视频| 久久久水蜜桃国产精品网| 国产成人啪精品午夜网站| 国产野战对白在线观看| 交换朋友夫妻互换小说| 国内久久婷婷六月综合欲色啪| 村上凉子中文字幕在线| 日本一区二区免费在线视频| 老汉色∧v一级毛片| 午夜精品在线福利| 久久香蕉精品热| 亚洲黑人精品在线| 欧美性长视频在线观看| 99精国产麻豆久久婷婷| 国产99久久九九免费精品| 精品乱码久久久久久99久播| av网站在线播放免费| 亚洲精品一区av在线观看| 桃色一区二区三区在线观看| 91字幕亚洲| 久久久国产成人免费| 老汉色∧v一级毛片| 欧美成狂野欧美在线观看| 激情视频va一区二区三区| 老鸭窝网址在线观看| 窝窝影院91人妻| 1024香蕉在线观看| 精品久久久久久成人av| 亚洲精品久久成人aⅴ小说| 高清在线国产一区| 国产成人系列免费观看| 日本vs欧美在线观看视频| 一进一出抽搐gif免费好疼 | 香蕉久久夜色| 亚洲九九香蕉| 韩国av一区二区三区四区| 成年人免费黄色播放视频| 国产高清国产精品国产三级| 久久中文看片网| 人人澡人人妻人| 国产精品二区激情视频| 在线播放国产精品三级| 午夜福利欧美成人| 亚洲一区高清亚洲精品| 久久欧美精品欧美久久欧美| 99久久精品国产亚洲精品| 涩涩av久久男人的天堂| 国产精品秋霞免费鲁丝片| 18禁观看日本| 日韩有码中文字幕| 12—13女人毛片做爰片一| 久久人妻熟女aⅴ| 91在线观看av| 国产精品免费一区二区三区在线| 亚洲国产中文字幕在线视频| 麻豆久久精品国产亚洲av | 欧美激情久久久久久爽电影 | 男女之事视频高清在线观看| 韩国av一区二区三区四区| 99精国产麻豆久久婷婷| 黑人操中国人逼视频| 天天添夜夜摸| 国产亚洲精品一区二区www| 国产亚洲精品久久久久5区| 亚洲一区中文字幕在线| 一个人观看的视频www高清免费观看 | av在线播放免费不卡| 搡老乐熟女国产| 久久久久久免费高清国产稀缺| 一级,二级,三级黄色视频| 在线观看66精品国产| 高清黄色对白视频在线免费看| 一本大道久久a久久精品| 亚洲精品美女久久av网站| 夜夜躁狠狠躁天天躁| 午夜福利,免费看| e午夜精品久久久久久久| 国产亚洲精品久久久久久毛片| 精品国产乱码久久久久久男人| 国产高清国产精品国产三级| 啦啦啦免费观看视频1| 欧美日韩一级在线毛片| 高清欧美精品videossex| 99国产精品免费福利视频| 夫妻午夜视频| 自线自在国产av| 国产精品久久视频播放| 午夜福利影视在线免费观看| 亚洲av美国av| 国产亚洲欧美98| 中文亚洲av片在线观看爽| 大陆偷拍与自拍| 亚洲情色 制服丝袜| 国产在线观看jvid| www.www免费av| 高清欧美精品videossex| 久久中文看片网| 十分钟在线观看高清视频www| 热re99久久精品国产66热6| 少妇裸体淫交视频免费看高清 | 天天躁夜夜躁狠狠躁躁| 交换朋友夫妻互换小说| 午夜福利影视在线免费观看| 久久久水蜜桃国产精品网| 成人三级做爰电影| 日本免费一区二区三区高清不卡 | 99re在线观看精品视频| 欧美人与性动交α欧美精品济南到| 老司机亚洲免费影院| 90打野战视频偷拍视频| 久久青草综合色| 啦啦啦 在线观看视频| 国产精品野战在线观看 | 亚洲精品av麻豆狂野| 黄色视频,在线免费观看| 成人永久免费在线观看视频| 免费女性裸体啪啪无遮挡网站| 国产精品乱码一区二三区的特点 | 电影成人av| 国产亚洲精品久久久久久毛片| 18禁裸乳无遮挡免费网站照片 | 久久中文字幕人妻熟女| netflix在线观看网站| 51午夜福利影视在线观看| 久久精品亚洲熟妇少妇任你| 大型av网站在线播放| 亚洲精品一卡2卡三卡4卡5卡| 麻豆国产av国片精品| 久久久国产欧美日韩av| av网站在线播放免费| 精品国产美女av久久久久小说| 久久热在线av| 十八禁网站免费在线| 黄色毛片三级朝国网站| 俄罗斯特黄特色一大片| 亚洲午夜精品一区,二区,三区| 久久久久国内视频| 国产成人欧美| 两人在一起打扑克的视频| 国产不卡一卡二| 久久影院123| 国产免费现黄频在线看| 一级黄色大片毛片| 欧美中文日本在线观看视频| 男女床上黄色一级片免费看| 亚洲av五月六月丁香网| 99久久精品国产亚洲精品| 亚洲av美国av| 一边摸一边抽搐一进一出视频| 精品一区二区三区四区五区乱码| 亚洲av美国av| 欧美不卡视频在线免费观看 | 一级a爱片免费观看的视频| 免费一级毛片在线播放高清视频 | 国产精品一区二区免费欧美|