• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多組并行深度Q網(wǎng)絡(luò)的連續(xù)空間追逃博弈算法

    2021-05-06 07:49:40劉冰雁葉雄兵岳智宏董獻(xiàn)洲張其揚(yáng)
    兵工學(xué)報 2021年3期
    關(guān)鍵詞:微分神經(jīng)網(wǎng)絡(luò)函數(shù)

    劉冰雁, 葉雄兵, 岳智宏, 董獻(xiàn)洲, 張其揚(yáng)

    (1.軍事科學(xué)院, 北京 100091; 2.32032部隊(duì), 北京 100094)

    0 引言

    以追捕者視角看待的追逃博弈(PEG)問題[1],是在僅知自身狀態(tài)和逃逸者當(dāng)前有限狀態(tài)、未知逃逸者未來行為策略的條件下采取最優(yōu)行為,并最終完成追捕任務(wù)的一個動態(tài)博弈過程。該問題是最優(yōu)控制與動態(tài)博弈的深度融合,現(xiàn)已在戰(zhàn)車追捕[2]、戰(zhàn)斗機(jī)格斗[3]、導(dǎo)彈攔截[4]以及航天器交會[5]等軍事應(yīng)用場景中被重點(diǎn)關(guān)注。

    PEG問題中的逃逸者,除了在一個連續(xù)且動態(tài)變化的空間環(huán)境中活動外,還具有典型的非合作性,即有信息層面不溝通、機(jī)動行為不配合、先驗(yàn)知識不完備等特性[5]。針對此類軍事場景中常出現(xiàn)的雙方連續(xù)動態(tài)沖突、對抗博弈問題,可通過微分對策[6-7]進(jìn)行數(shù)學(xué)描述。這類追捕- 逃逸微分博弈是微分對策的一種應(yīng)用,最初由Isaacs[1]提出,近年被廣泛運(yùn)用到諸多領(lǐng)域。例如,文獻(xiàn)[8-9]根據(jù)機(jī)器人追捕問題的具體情況,通過分析追逃雙方的不同狀態(tài)及形勢,建立了追捕者與逃逸者的微分博弈描述式。文獻(xiàn)[10]將高速機(jī)動目標(biāo)攔截末制導(dǎo)過程抽象為以視線角速率和燃料消耗為性能指標(biāo)的零和微分博弈問題,設(shè)計了一種微分對策制導(dǎo)律,以表述對目標(biāo)的攔截策略。文獻(xiàn)[11-12]在主動防御飛行器制導(dǎo)問題研究中,運(yùn)用微分對策理論對對抗雙方的制導(dǎo)律進(jìn)行了描述與設(shè)計。文獻(xiàn)[13]在三維空間中多智能體參與的PEG問題研究中,利用微分對策設(shè)計了防御器和逃逸器的最優(yōu)控制策略。文獻(xiàn)[14]為獲得追逃雙方在對策條件下的最優(yōu)策略,運(yùn)用微分博弈對航天器的整個追逃過程進(jìn)行了數(shù)學(xué)描述。但在利用微分對策描述PEG問題過程中,由于會面臨多目標(biāo)求解、方程復(fù)雜度以及約束非線性等諸多難題,導(dǎo)致其求解過程一直較為棘手[15]。

    當(dāng)前,強(qiáng)化學(xué)習(xí)技術(shù)[16]在有效結(jié)合深度學(xué)習(xí)[17]后得到了進(jìn)一步發(fā)展,為微分對策問題提供了更好的解決方案,并受到各領(lǐng)域廣泛關(guān)注[18-19]。例如,針對實(shí)時對抗微分對策問題,Deepmind科研團(tuán)隊(duì)利用深度學(xué)習(xí)展現(xiàn)了強(qiáng)大的信息處理和決策能力,之后又結(jié)合強(qiáng)化學(xué)習(xí)技術(shù)以提升實(shí)時對抗和動態(tài)博弈能力,使其自主對抗決策能力接近人智水平[20]。文獻(xiàn)[21]闡述了軍事智能博弈對抗的發(fā)展需求和概念內(nèi)涵,分析了基于強(qiáng)化學(xué)習(xí)的博弈對抗特點(diǎn),展望了智能博弈對抗技術(shù)的發(fā)展方向。文獻(xiàn)[22]在交通網(wǎng)絡(luò)信號控制領(lǐng)域研究中,融入博弈論的混合策略納什均衡概念,改進(jìn)IA-MARL的決策過程,提出了一種考慮博弈的多智能體強(qiáng)化學(xué)習(xí)框架,有效降低了車輛在不飽和且交通需求不均衡和波動的城市路網(wǎng)中的單位行程時間和單位車均延誤。文獻(xiàn)[23]針對無人機(jī)通信網(wǎng)絡(luò)中的干擾對抗問題,考慮無人機(jī)網(wǎng)絡(luò)節(jié)點(diǎn)的動態(tài)特性,將干擾器視為分層博弈領(lǐng)導(dǎo)者無人機(jī)用戶視為分層博弈跟隨者,提出一種基于分層博弈的自適應(yīng)頻譜接入優(yōu)化機(jī)制,智能地調(diào)整信道選擇從而獲得了良好的吞吐量性能。因此,基于深度強(qiáng)化學(xué)習(xí)的技術(shù)性突破,對解決高動態(tài)、不確定以及復(fù)雜環(huán)境下的微分對策問題,將具有重要的理論意義和應(yīng)用價值[24-27]。

    在空中格斗、導(dǎo)彈攔截、戰(zhàn)車追擊以及空間非合作目標(biāo)交會等軍事對抗中,追捕者試圖在最短時間內(nèi)追上逃逸者,而逃逸者則試圖盡可能避開追捕者的現(xiàn)實(shí)問題,是典型的雙方對抗博弈問題。本文在運(yùn)用強(qiáng)化學(xué)習(xí)解決此類PEG問題過程中,針對傳統(tǒng)Q-learning應(yīng)對連續(xù)空間存在維數(shù)災(zāi)難問題,構(gòu)建了Takagi-Sugeno-Kang(TSK)模糊推理模型表征連續(xù)空間行為;針對離散動作集自學(xué)復(fù)雜且耗時問題,設(shè)計了多組并行的深度Q網(wǎng)絡(luò)(DQN)算法,從而達(dá)成以較短學(xué)習(xí)時間、在連續(xù)空間快速完成追捕任務(wù)的研究目標(biāo)。

    1 連續(xù)空間的TSK模糊推理模型

    PEG問題通常出現(xiàn)在連續(xù)空間,但傳統(tǒng)強(qiáng)化學(xué)習(xí)可能會由于其狀態(tài)連續(xù)性、多維并存而存在維數(shù)災(zāi)難問題[28]。為有效避免這一問題,本文依據(jù)“模糊推理是一種可以任何精度逼近任意非線性函數(shù)的萬能逼近器”[29]的結(jié)論,通過構(gòu)建一個TSK模糊推理模型來表征連續(xù)空間,并將其作為強(qiáng)化學(xué)習(xí)中的一部分。

    通過零階TSK模糊推理模型[30],結(jié)合隸屬函數(shù)[31]表征連續(xù)狀態(tài)行為空間,經(jīng)過IF-THEN規(guī)則獲得模糊集到輸出連續(xù)線性函數(shù)之間的模糊映射關(guān)系[32]為

    (1)

    對于模糊模型的輸出,可利用加權(quán)平均去模糊化技術(shù)將模糊量轉(zhuǎn)換成精確量[34]:

    (2)

    (3)

    圖1所示為輸入量為2、隸屬函數(shù)個數(shù)為3的TSK模糊推理模型。推廣到一般情況,假設(shè)以n個連續(xù)空間行為變量xi為輸入。對每個xi通過y個隸屬函數(shù),再經(jīng)過去模糊處理后輸出精確值U.

    圖1 TSK模糊推理模型Fig.1 TSK fuzzy inference model

    第2層網(wǎng)絡(luò)中,采取直積推理[35],即分別在L(L=yn)個運(yùn)算節(jié)點(diǎn)對各隸屬度進(jìn)行交叉相乘運(yùn)算:

    (4)

    第3層網(wǎng)絡(luò)中,進(jìn)行加權(quán)平均去模糊化處理,歸一隸屬度為

    (5)

    (6)

    第5層網(wǎng)絡(luò)中,累計各節(jié)點(diǎn),便可實(shí)現(xiàn)(2)式所示的去模糊化效果:

    (7)

    2 基于多組并行DQN的PEG

    強(qiáng)化學(xué)習(xí)直接運(yùn)用于TSK模糊推理模型,會面臨行為數(shù)量與映射規(guī)則的組合增長問題,將大大削弱離散化處理后的行為控制決策能力。為此,本文構(gòu)建多組、并行的DQN網(wǎng)絡(luò)架構(gòu),設(shè)計PEG強(qiáng)化學(xué)習(xí)算法,提出追捕者與逃逸者的博弈交互訓(xùn)練步驟,在未知逃逸策略、行為動作的條件下,實(shí)現(xiàn)最優(yōu)追捕行為的自主生成。

    2.1 多組并行DQN網(wǎng)絡(luò)架構(gòu)

    連續(xù)狀態(tài)空間和行為空間,經(jīng)過TSK模糊推理模型處理,依L條規(guī)則根據(jù)(5)式計算,獲得L項(xiàng)歸一化直積推理值。其間,構(gòu)建多組并行的DQN網(wǎng)絡(luò)架構(gòu),為基于TSK模糊推理預(yù)處理的追逃微分策略問題生成全局連續(xù)行為。

    由此,依據(jù)TSK模糊推理模型中的L條規(guī)則,建立L組DQN網(wǎng)絡(luò),對PEG策略進(jìn)行自主學(xué)習(xí)。多組并行DQN網(wǎng)絡(luò),是在單個神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了多個并行神經(jīng)網(wǎng)絡(luò)。與單組神經(jīng)網(wǎng)絡(luò)[36]類似,并行神經(jīng)網(wǎng)絡(luò)在與環(huán)境的不斷交互中自主學(xué)習(xí)并提升行為決策能力,通過在網(wǎng)絡(luò)中加入博弈和反饋機(jī)制,使多組并行DQN網(wǎng)絡(luò)具有更強(qiáng)的自主性、靈活性和協(xié)調(diào)性等特點(diǎn),具備更強(qiáng)的學(xué)習(xí)、推理和自組織能力。

    多組并行DQN基本架構(gòu)如圖2所示。其中,與L條IF-THEN模糊規(guī)則相對應(yīng)的離散動作集a={a1,a2,…,aL},經(jīng)過多組并行的神經(jīng)網(wǎng)絡(luò)計算,獲得離散動作的狀態(tài)行為函數(shù)(簡稱為q函數(shù)),再經(jīng)過PEG強(qiáng)化學(xué)習(xí)算法以及加權(quán)平均去模糊處理,便可獲得該狀態(tài)下的輸出行為U.

    圖2 多組并行DQN基本架構(gòu)Fig.2 Basic framework of multi-group DQN

    2.2 PEG強(qiáng)化學(xué)習(xí)算法

    為運(yùn)用多組并行DQN架構(gòu)解決連續(xù)空間PEG問題,需要對模糊規(guī)則稍作調(diào)整,用al替換(1)式中的cl. 在運(yùn)用加權(quán)平均去模糊化技術(shù)之前,依據(jù)輸入量為n、隸屬函數(shù)個數(shù)為y的TSK模糊推理模型,進(jìn)行L(L=yn)條IF-THEN模糊規(guī)則映射:

    (8)

    式中:al為追捕者離散動作集a中對應(yīng)于規(guī)則l的動作。

    為了有效解決強(qiáng)化學(xué)習(xí)中的探索與利用問題,即持續(xù)使用當(dāng)前最優(yōu)策略保持高回報的同時,敢于嘗試一些新的行為以求更大地獎勵,對行為al采取ε-greedy貪婪策略[25]。該策略定義追捕者以ε的概率在動作集中隨機(jī)選取,以1-ε的概率選擇一個最優(yōu)動作。

    (9)

    式中:q(S,al)為規(guī)則和追捕者動作al∈a下的關(guān)聯(lián)q函數(shù)。

    根據(jù)(2)式,t時刻追捕者所采取的全局連續(xù)行為可表示為

    (10)

    (11)

    為了彌補(bǔ)DQN算法存在的獎勵偏見問題,本文提出一種競爭網(wǎng)絡(luò)取代經(jīng)典算法中的單輸出網(wǎng)絡(luò)模型,以提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果,加快收斂速度。將q函數(shù)的神經(jīng)網(wǎng)絡(luò)全連接層分解為一個狀態(tài)函數(shù)vt(S)和一個優(yōu)勢函數(shù)ot(S,al),再通過全連接合并,有

    qt(S,al)=vt(S)+ot(S,al).

    (12)

    利用優(yōu)勢函數(shù)期望值為0這一特性[37],用優(yōu)勢函數(shù)ot(S,al)減去當(dāng)前狀態(tài)下所有動作優(yōu)勢函數(shù)的均值,以控制優(yōu)勢函數(shù)的期望,進(jìn)而(12)式修改為

    (13)

    DQN架構(gòu)中,在獎懲值的牽引下為實(shí)現(xiàn)反饋?zhàn)灾鲗W(xué)習(xí),定義了時間差分誤差函數(shù):

    (14)

    式中:γ為折扣因子,γ∈[0,1];Rt+1為t+1時刻可獲得的獎懲值。

    通過神經(jīng)網(wǎng)絡(luò)迭代,更新q函數(shù),有

    (15)

    式中:η為強(qiáng)化學(xué)習(xí)速率。

    2.3 PEG交互過程

    在追捕者與逃逸者的PEG交互過程中,追捕者當(dāng)前行為的確定需要TSK模糊推理模型中離散動作集a={a1,a2,…,aL}的參與。運(yùn)用多組并行DQN架構(gòu),可實(shí)現(xiàn)離散動作al的并行自主學(xué)習(xí),在獲得最優(yōu)動作的同時提升運(yùn)行時效。與此同時,多組神經(jīng)網(wǎng)絡(luò)并行部署,極大提升了離散動作的獨(dú)立學(xué)習(xí)能力,增強(qiáng)了算法對環(huán)境探索的能力。

    為使追捕者獲得高效的追擊行為策略,限定一次回合中最大時間步個數(shù)為M. 同時,為真實(shí)反映追捕者與逃逸者的PEG過程,隨機(jī)初始化逃逸者初始位置、狀態(tài)以及逃逸策略。在多次訓(xùn)練中,1輪PEG交互過程如圖3所示。

    圖3 PEG交互流程圖Fig.3 Flow chart of pursuit-evasion game interaction

    具體交互訓(xùn)練步驟如下:

    步驟1隨機(jī)初始化逃逸者位置狀態(tài)P,設(shè)定逃逸者行為方式與逃逸策略;初始化追捕者位置狀態(tài)S,定義追捕者追捕方式及行為邊界條件;初始化系統(tǒng)變量“回合數(shù)”=0、“完成”=0.

    步驟2根據(jù)追捕者位置狀態(tài)S定義TSK模糊推理模型輸入量n,設(shè)定隸屬函數(shù)y. 依據(jù)模糊規(guī)則數(shù),定義L(L=yn)組DQN網(wǎng)絡(luò),并對各網(wǎng)絡(luò)的q函數(shù)進(jìn)行隨機(jī)初始化。

    步驟4分別在與第l={1,2,…,L}條規(guī)則所對應(yīng)的DQN網(wǎng)絡(luò)中,根據(jù)(9)式選取動作al(l=1,2,…,L)。

    步驟6計算追捕者與逃逸者的歐氏距離,判斷是否滿足捕獲條件。若滿足,則令變量“完成”=1并轉(zhuǎn)步驟11;若不滿足,則執(zhí)行步驟7.

    步驟7令變量“完成”=0,依據(jù)策略逃逸者選擇對自身最佳的行動方向,并移至下一狀態(tài)P+1.

    步驟9各組DQN網(wǎng)絡(luò)中,依據(jù)(12)式~(15)式,以回報值rl為牽引,采取一定的學(xué)習(xí)率η,更新q(S,al)函數(shù)。

    步驟10判斷變量“回合數(shù)”是否大于最大行動步數(shù)M. 若“回合數(shù)”>M,則轉(zhuǎn)步驟11;否則,“回合數(shù)”數(shù)量加1并轉(zhuǎn)步驟3.

    步驟11結(jié)束本輪PEG交互過程。

    3 仿真分析

    以四輪智能戰(zhàn)車PEG問題為例設(shè)計仿真環(huán)境與運(yùn)動模型,運(yùn)用本文算法進(jìn)行仿真實(shí)驗(yàn),并與其他算法結(jié)果相比對,以驗(yàn)證本論文算法的有效性。

    3.1 PEG仿真環(huán)境

    PEG過程中,追捕者試圖在最短時間內(nèi)追上逃逸者,而逃逸者則試圖盡可能避開追捕者。為了使仿真結(jié)果盡可能反映真實(shí)情況,需要提前構(gòu)建仿真環(huán)境以及追捕者與逃逸者的運(yùn)動模型。

    假設(shè)整個追逃環(huán)境是無障礙的,追捕者與逃逸者均不知道對方下一步的行為選擇,二者均可根據(jù)當(dāng)前狀態(tài)采取對自身最有利的行為,只有當(dāng)逃逸者處于追捕者捕獲范圍或者“回合數(shù)”達(dá)到最大時間步M,本輪博弈交互過程結(jié)束。

    如圖4所示,以四輪智能戰(zhàn)車PEG問題[39]為例,構(gòu)建追捕者p與逃逸者e. 圖4中,xp、yp為追捕者當(dāng)前的笛卡爾坐標(biāo);xe、ye為逃逸者當(dāng)前的笛卡爾坐標(biāo);vp、ve分別為追捕者與逃逸者速度,且定義追捕者快于逃逸者;θp、θe分別為追捕者與逃逸者的運(yùn)動方向;Lp、Le分別為追捕者與逃逸者的軸距。

    圖4 追捕者和逃逸者的運(yùn)動模型Fig.4 Motion model of pursuer and runaway

    設(shè)追捕者和逃逸者的運(yùn)動模型分別為

    (16)

    (17)

    式中:up與ue分別為追捕者與逃逸者采取的轉(zhuǎn)向角,up∈[-upmax,upmax]、ue∈[-uemax,uemax],upmax、uemax分別為追捕者與逃逸者的最大轉(zhuǎn)向角;設(shè)定追捕者機(jī)動性能差于逃逸者,即upmax

    由此,追捕者p和逃逸者e之間的角度差φ為

    (18)

    (19)

    式中:φ′為上一狀態(tài)的角度差;T為采樣時間。

    追捕者p和逃逸者e之間的歐氏距離d為

    (20)

    在PEG過程中,追捕者p的目標(biāo)是在最短時間內(nèi)追上逃逸者e;而逃逸者e的目標(biāo)是使得追捕時間最大化并避免被追上。只有當(dāng)逃逸者e位于追捕者p捕獲半徑l內(nèi),即d≤l時,追捕任務(wù)才算完成。

    追捕者p采取的策略是使得與逃逸者e之間的角度差φ趨于0,由此將多組并行DQN架構(gòu)中的回報函數(shù)定義為

    rl=2e-φ2-1, ?l∈[1,L],

    (21)

    追捕者p在連續(xù)空間可采取如下行為:

    (22)

    逃逸者e選取對其最有利的逃逸策略,且不以追捕者p的意志為轉(zhuǎn)移。借鑒文獻(xiàn)[40-41]結(jié)論,逃逸者e將采用以下兩種策略使得與追捕者p之間的距離最大化:

    1)若二者之間歐氏距離d大于特定距離D,則逃逸者e將采取如下行為:

    (23)

    2)若二者之間歐氏距離d小于特定距離D,則逃逸者e則將采取更高機(jī)動性的行為,即

    ue=θp-θe+π.

    (24)

    3.2 算例仿真

    仿真實(shí)驗(yàn)在1.6 GHz、1.8 GHz雙核CPU、8G RAM計算硬件上,運(yùn)用PyCharm仿真編譯環(huán)境進(jìn)行。設(shè)定1輪episode中時間步個數(shù)M=360,采樣時間T=0.1 s. 設(shè)定追捕者p的初始位置(xp,yp)=(0 m,0 m),初始方向θp=0°,恒定追捕速度vp=1 m/s,捕獲半徑l=0.1 m,軸距Lp=0.3 m,轉(zhuǎn)向角范圍up∈[-0.5°,0.5°]。隨機(jī)初始化逃逸者位置(xe,ye),初始方向θe=0°,恒定逃逸速度ve=0.5 m/s,逃逸策略中特定距離D=3 m,軸距Le=0.3 m,轉(zhuǎn)向角ue∈[-1°,1°]。多組并行DQN架構(gòu)中,采用的神經(jīng)網(wǎng)絡(luò)層數(shù)為5,隱藏層神經(jīng)元個數(shù)為10,激活函數(shù)為sigmoid,探索率ε=0.3,折扣因子γ=0.9,學(xué)習(xí)速率η=0.3.

    運(yùn)用本文所提算法進(jìn)行仿真實(shí)驗(yàn),與Q-learning算法[42]、基于資格跡的強(qiáng)化學(xué)習(xí)算法[33]以及基于獎勵的遺傳算法[43]實(shí)驗(yàn)結(jié)果進(jìn)行比對。各算法在經(jīng)過100次自主學(xué)習(xí)后,均能完成追捕任務(wù),捕獲時間和訓(xùn)練時間如表1所示。其中,Q-learning算法由于需要鏈?zhǔn)酱鎯Χ鄠€特征向量以及同時迭代更新多張Q表,導(dǎo)致其自主學(xué)習(xí)耗時較長;基于資格跡的強(qiáng)化學(xué)習(xí)算法將時序差分法和蒙特卡洛法相統(tǒng)一,只需要追蹤一個跡向量,不再需要存儲多個特征向量,大大縮減了自主學(xué)習(xí)時間,但其短期記憶特性延長了實(shí)際追捕時間;基于獎勵的遺傳算法,雖具有較高的實(shí)際應(yīng)用性能,但卻以更長的自主訓(xùn)練時耗為代價[43];本文所提算法,在充分發(fā)揮強(qiáng)化學(xué)習(xí)算法自主尋優(yōu)優(yōu)勢的同時,運(yùn)用多組神經(jīng)網(wǎng)絡(luò)對進(jìn)行并行訓(xùn)練,大大縮減了自主學(xué)習(xí)耗時,并能確保在較短時間內(nèi)完成追捕任務(wù)。

    表1 不同算法完成捕獲任務(wù)的耗時Tab.1 Elapsed time of different algorithms to complete the capture task s

    圖5展示了當(dāng)逃逸者初始位置為(5 m,5 m)時運(yùn)用本文所提算法,分別經(jīng)過自主學(xué)習(xí)0次、50次和100次后的PEG過程。圖6和圖7分別展現(xiàn)了3種情況下PEG過程中,追捕者與逃逸者之間距離及角度差的空間變化情況。其中,如圖5(a)所示,當(dāng)算法不經(jīng)學(xué)習(xí)直接應(yīng)用于該P(yáng)EG問題,追捕者雖以角度差趨于零為行動目標(biāo),但由于其q函數(shù)隨機(jī)生成,且沒有任何先驗(yàn)知識,導(dǎo)致角度差上下來回浮動,與逃逸者距離卻越來越大,不能完成任務(wù)。如圖5(b)所示,當(dāng)算法經(jīng)過50次自主學(xué)習(xí)后,追捕者能夠朝著追捕者方向逼近,途中逃逸者采取更為靈活的規(guī)避策略,致使與追捕者角度差陡增,追捕者在緊急轉(zhuǎn)向后順利完成追捕任務(wù)。如圖5(c)所示,當(dāng)算法獲得更多的學(xué)習(xí)次數(shù)后,能夠更好地處理逃逸者規(guī)避行為,自主選取更為有利的行動方向,從而大大提升了任務(wù)完成效果。

    圖6 追捕者與逃逸者之間的距離變化Fig.6 Distance between pursuer and runaway

    圖7 追捕者與逃逸者之間的角度差變化Fig.7 Angle difference between pursuer and runaway

    4 結(jié)論

    本文提出一種自主學(xué)習(xí)時間少、問題應(yīng)用耗時短的PEG算法,實(shí)現(xiàn)了追捕者在連續(xù)空間最優(yōu)追捕行為的自主生成。通過構(gòu)建TSK模糊推理模型以表征連續(xù)行為空間,構(gòu)建多組并行的DQN架構(gòu),設(shè)計基于DQN的PEG算法,提出追捕者與逃逸者在連續(xù)空間博弈交互的訓(xùn)練步驟,從而有效地避免了傳統(tǒng)強(qiáng)化學(xué)習(xí)應(yīng)對連續(xù)空間所可能存在的維數(shù)災(zāi)難不足,實(shí)現(xiàn)了最優(yōu)追捕行為的自主生成,有效解決了離散動作集自學(xué)習(xí)復(fù)雜且耗時的問題。連續(xù)空間PEG方法不僅能夠完成連續(xù)空間PEG任務(wù),還能隨著學(xué)習(xí)次數(shù)增加不斷提升問題處理能力,滿足動態(tài)實(shí)時博弈需求,對于解決其他領(lǐng)域的PEG問題同樣具有借鑒意義。

    猜你喜歡
    微分神經(jīng)網(wǎng)絡(luò)函數(shù)
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    擬微分算子在Hp(ω)上的有界性
    二次函數(shù)
    函數(shù)備考精講
    上下解反向的脈沖微分包含解的存在性
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    借助微分探求連續(xù)函數(shù)的極值點(diǎn)
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    国产日韩欧美在线精品| 免费不卡黄色视频| 人人妻人人澡人人爽人人夜夜| 男女午夜视频在线观看| 亚洲精品久久午夜乱码| 人人妻人人澡人人看| 五月开心婷婷网| av欧美777| av天堂在线播放| 国产视频一区二区在线看| 咕卡用的链子| 久久久久精品国产欧美久久久| 欧美日韩福利视频一区二区| videosex国产| 国产精品国产av在线观看| 12—13女人毛片做爰片一| 多毛熟女@视频| 欧美激情 高清一区二区三区| 少妇粗大呻吟视频| 亚洲va日本ⅴa欧美va伊人久久| 中文字幕色久视频| 两性夫妻黄色片| 肉色欧美久久久久久久蜜桃| a级片在线免费高清观看视频| 涩涩av久久男人的天堂| 亚洲午夜精品一区,二区,三区| 久久 成人 亚洲| 久久久久国产一级毛片高清牌| 午夜老司机福利片| 免费观看a级毛片全部| 国产精品亚洲一级av第二区| 99热国产这里只有精品6| 亚洲国产精品一区二区三区在线| 国产一区二区三区综合在线观看| 国产欧美日韩一区二区三| www.自偷自拍.com| 久久国产精品影院| 国精品久久久久久国模美| 精品久久蜜臀av无| 麻豆av在线久日| 国产伦人伦偷精品视频| 中文字幕人妻丝袜一区二区| 亚洲成人免费av在线播放| 中文亚洲av片在线观看爽 | 日韩有码中文字幕| 亚洲一码二码三码区别大吗| 国产精品一区二区在线观看99| 美女高潮喷水抽搐中文字幕| 国产在线一区二区三区精| 曰老女人黄片| 女人爽到高潮嗷嗷叫在线视频| 黄色丝袜av网址大全| 亚洲第一欧美日韩一区二区三区 | 丰满人妻熟妇乱又伦精品不卡| 国产成人av教育| 汤姆久久久久久久影院中文字幕| 久久国产精品大桥未久av| 另类亚洲欧美激情| 少妇粗大呻吟视频| 一区二区三区激情视频| av不卡在线播放| 久久久久久久久免费视频了| 亚洲免费av在线视频| 两人在一起打扑克的视频| 国产国语露脸激情在线看| 嫁个100分男人电影在线观看| 电影成人av| 大陆偷拍与自拍| 欧美黄色片欧美黄色片| av视频免费观看在线观看| 在线观看人妻少妇| 欧美日韩亚洲高清精品| 麻豆成人av在线观看| 夜夜骑夜夜射夜夜干| 制服人妻中文乱码| 久久热在线av| 免费一级毛片在线播放高清视频 | 精品一区二区三区四区五区乱码| 男女下面插进去视频免费观看| 亚洲一码二码三码区别大吗| 一夜夜www| 91av网站免费观看| 国产三级黄色录像| 考比视频在线观看| 国产淫语在线视频| 国产主播在线观看一区二区| 国产主播在线观看一区二区| av欧美777| 考比视频在线观看| 巨乳人妻的诱惑在线观看| 搡老岳熟女国产| 美女午夜性视频免费| 新久久久久国产一级毛片| av线在线观看网站| 日韩欧美国产一区二区入口| 12—13女人毛片做爰片一| 999精品在线视频| 婷婷成人精品国产| 蜜桃国产av成人99| 人人妻,人人澡人人爽秒播| 91字幕亚洲| 日韩欧美国产一区二区入口| 91成人精品电影| 亚洲美女黄片视频| 在线观看一区二区三区激情| 午夜福利乱码中文字幕| 国产91精品成人一区二区三区 | 日本wwww免费看| 桃花免费在线播放| av网站在线播放免费| 免费久久久久久久精品成人欧美视频| 亚洲精品国产色婷婷电影| 精品第一国产精品| 国产精品一区二区在线不卡| 国产精品一区二区免费欧美| 黄片播放在线免费| 国产精品一区二区在线不卡| 啦啦啦中文免费视频观看日本| 啦啦啦视频在线资源免费观看| 国产av国产精品国产| 亚洲午夜理论影院| 亚洲av国产av综合av卡| 夜夜爽天天搞| 嫁个100分男人电影在线观看| 99香蕉大伊视频| 极品人妻少妇av视频| 香蕉国产在线看| 无人区码免费观看不卡 | 亚洲欧美日韩另类电影网站| 老汉色∧v一级毛片| 18禁观看日本| tube8黄色片| 国产真人三级小视频在线观看| 国产一卡二卡三卡精品| 另类亚洲欧美激情| 91麻豆精品激情在线观看国产 | 夫妻午夜视频| 久久ye,这里只有精品| 男男h啪啪无遮挡| 夜夜骑夜夜射夜夜干| 757午夜福利合集在线观看| 热99国产精品久久久久久7| 老司机亚洲免费影院| 亚洲欧美日韩另类电影网站| 超碰97精品在线观看| 国产亚洲一区二区精品| 精品国产超薄肉色丝袜足j| 超碰97精品在线观看| 国产精品免费视频内射| 欧美 日韩 精品 国产| 新久久久久国产一级毛片| 国产一区有黄有色的免费视频| 午夜两性在线视频| 精品久久久久久久毛片微露脸| 天天操日日干夜夜撸| av线在线观看网站| e午夜精品久久久久久久| 亚洲国产欧美一区二区综合| 在线观看免费日韩欧美大片| 制服诱惑二区| 极品人妻少妇av视频| 亚洲精品乱久久久久久| 天堂8中文在线网| 美国免费a级毛片| 99国产精品一区二区三区| 麻豆乱淫一区二区| 亚洲国产欧美日韩在线播放| videos熟女内射| 国产精品国产av在线观看| 露出奶头的视频| 桃红色精品国产亚洲av| 中文字幕色久视频| 最新在线观看一区二区三区| 高清av免费在线| 精品国内亚洲2022精品成人 | 精品久久久久久电影网| 精品第一国产精品| 久久精品亚洲精品国产色婷小说| 另类精品久久| 亚洲欧美色中文字幕在线| 99re6热这里在线精品视频| 久久人妻福利社区极品人妻图片| 制服诱惑二区| 成人三级做爰电影| 久久热在线av| 两性午夜刺激爽爽歪歪视频在线观看 | 精品人妻熟女毛片av久久网站| 国产男女超爽视频在线观看| 桃红色精品国产亚洲av| 欧美中文综合在线视频| 亚洲成人手机| 欧美成人午夜精品| 涩涩av久久男人的天堂| 国产精品免费一区二区三区在线 | 日韩成人在线观看一区二区三区| 午夜老司机福利片| 一区二区日韩欧美中文字幕| 精品久久久久久久毛片微露脸| 久久精品91无色码中文字幕| 最新在线观看一区二区三区| 国产高清国产精品国产三级| 女性被躁到高潮视频| 丝袜在线中文字幕| 热99久久久久精品小说推荐| 国产亚洲欧美在线一区二区| 麻豆av在线久日| 在线av久久热| 亚洲 欧美一区二区三区| 9热在线视频观看99| 国产亚洲精品第一综合不卡| www.999成人在线观看| 精品福利永久在线观看| 日韩中文字幕视频在线看片| 精品福利观看| 丝袜在线中文字幕| 午夜福利免费观看在线| 欧美精品一区二区免费开放| 色综合欧美亚洲国产小说| 丝袜美足系列| 久热爱精品视频在线9| 在线观看人妻少妇| 国产在线免费精品| 老鸭窝网址在线观看| 亚洲人成伊人成综合网2020| 欧美大码av| 久久久久网色| 伊人久久大香线蕉亚洲五| 精品少妇黑人巨大在线播放| 国产精品自产拍在线观看55亚洲 | 亚洲av电影在线进入| 久久久久国内视频| 桃花免费在线播放| 久久99热这里只频精品6学生| 午夜激情av网站| 国产日韩欧美在线精品| 免费高清在线观看日韩| 高清毛片免费观看视频网站 | 9热在线视频观看99| 亚洲av成人不卡在线观看播放网| 国产伦理片在线播放av一区| 高清黄色对白视频在线免费看| 日本wwww免费看| 国产免费视频播放在线视频| 黑人巨大精品欧美一区二区mp4| 国产日韩欧美亚洲二区| 亚洲精品国产精品久久久不卡| 一级,二级,三级黄色视频| 十分钟在线观看高清视频www| 美女福利国产在线| 妹子高潮喷水视频| 久热这里只有精品99| 香蕉丝袜av| 菩萨蛮人人尽说江南好唐韦庄| 精品国内亚洲2022精品成人 | 人妻久久中文字幕网| 一本大道久久a久久精品| 久久久久久久国产电影| 宅男免费午夜| 亚洲国产精品一区二区三区在线| av福利片在线| www.熟女人妻精品国产| 在线 av 中文字幕| 男女午夜视频在线观看| 亚洲成av片中文字幕在线观看| 久久人妻福利社区极品人妻图片| 久9热在线精品视频| 十分钟在线观看高清视频www| 99精品在免费线老司机午夜| 水蜜桃什么品种好| 午夜福利视频在线观看免费| 欧美日韩中文字幕国产精品一区二区三区 | 久久影院123| 欧美人与性动交α欧美软件| 亚洲伊人色综图| 亚洲成人国产一区在线观看| 久久久久久久久久久久大奶| 女人精品久久久久毛片| 国产成人免费无遮挡视频| 天堂俺去俺来也www色官网| 亚洲成人免费av在线播放| 日韩熟女老妇一区二区性免费视频| 久久亚洲真实| 最新在线观看一区二区三区| 男男h啪啪无遮挡| 成人av一区二区三区在线看| 国产欧美日韩一区二区三| 人人妻人人澡人人爽人人夜夜| tocl精华| 淫妇啪啪啪对白视频| 国产精品1区2区在线观看. | 色综合婷婷激情| 丰满饥渴人妻一区二区三| 少妇被粗大的猛进出69影院| 免费观看av网站的网址| 桃花免费在线播放| 午夜福利视频精品| 久久久久久久国产电影| 日本黄色日本黄色录像| tocl精华| 国产一区二区 视频在线| 色老头精品视频在线观看| 色在线成人网| 久久国产精品大桥未久av| 99热国产这里只有精品6| 国产免费视频播放在线视频| 丰满饥渴人妻一区二区三| 日韩欧美三级三区| 十八禁人妻一区二区| 两个人看的免费小视频| 一区二区三区激情视频| 欧美黄色片欧美黄色片| 欧美在线一区亚洲| 熟女少妇亚洲综合色aaa.| 老司机亚洲免费影院| 久久久精品免费免费高清| 国产免费福利视频在线观看| 三级毛片av免费| 精品国产国语对白av| 波多野结衣av一区二区av| 69av精品久久久久久 | 国产日韩欧美亚洲二区| 黑丝袜美女国产一区| 视频区图区小说| 国产av国产精品国产| 成人国产一区最新在线观看| 人人妻人人澡人人爽人人夜夜| 欧美日韩视频精品一区| 少妇猛男粗大的猛烈进出视频| 亚洲精品国产色婷婷电影| 成年人午夜在线观看视频| 精品国产一区二区三区四区第35| 精品免费久久久久久久清纯 | 99热网站在线观看| 丰满少妇做爰视频| 十八禁高潮呻吟视频| 国产午夜精品久久久久久| 亚洲精品自拍成人| 黑人猛操日本美女一级片| 国产视频一区二区在线看| 久久久久精品人妻al黑| 国产精品 国内视频| 国产极品粉嫩免费观看在线| 99精品在免费线老司机午夜| 自线自在国产av| 丝袜美腿诱惑在线| 欧美亚洲 丝袜 人妻 在线| 人妻久久中文字幕网| 午夜日韩欧美国产| 男人舔女人的私密视频| 午夜福利在线免费观看网站| 久久这里只有精品19| 国产精品电影一区二区三区 | 黄色丝袜av网址大全| 九色亚洲精品在线播放| 日韩欧美一区二区三区在线观看 | h视频一区二区三区| 中国美女看黄片| 亚洲免费av在线视频| 美国免费a级毛片| 亚洲欧美色中文字幕在线| 日本a在线网址| 女人精品久久久久毛片| 国产成+人综合+亚洲专区| 91成人精品电影| 国产福利在线免费观看视频| 自拍欧美九色日韩亚洲蝌蚪91| 国产精品免费视频内射| 91精品三级在线观看| 国产av又大| 精品卡一卡二卡四卡免费| 免费黄频网站在线观看国产| 成在线人永久免费视频| 亚洲第一欧美日韩一区二区三区 | 亚洲 国产 在线| 十八禁网站网址无遮挡| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲色图综合在线观看| 老熟女久久久| 免费观看人在逋| 成人三级做爰电影| 99九九在线精品视频| 免费黄频网站在线观看国产| 69av精品久久久久久 | 又紧又爽又黄一区二区| 中文字幕人妻丝袜一区二区| 18禁黄网站禁片午夜丰满| 午夜福利影视在线免费观看| 久久亚洲精品不卡| 国产色视频综合| 女人爽到高潮嗷嗷叫在线视频| 精品人妻在线不人妻| 如日韩欧美国产精品一区二区三区| 男男h啪啪无遮挡| 狠狠精品人妻久久久久久综合| 极品教师在线免费播放| 欧美中文综合在线视频| 亚洲精品国产区一区二| 国产精品.久久久| 婷婷丁香在线五月| 丰满饥渴人妻一区二区三| 成在线人永久免费视频| 国产一区二区在线观看av| 9热在线视频观看99| 国产一区二区三区综合在线观看| av福利片在线| 国产老妇伦熟女老妇高清| 天天躁夜夜躁狠狠躁躁| 热99久久久久精品小说推荐| 大陆偷拍与自拍| 成人手机av| 成人精品一区二区免费| 亚洲第一av免费看| 国产黄频视频在线观看| 亚洲成人手机| 国产精品国产av在线观看| 日本av免费视频播放| 女人爽到高潮嗷嗷叫在线视频| 午夜福利一区二区在线看| 91国产中文字幕| 久久精品国产综合久久久| 80岁老熟妇乱子伦牲交| 亚洲色图 男人天堂 中文字幕| 亚洲成人手机| 国产高清激情床上av| 国产精品美女特级片免费视频播放器 | 亚洲全国av大片| 大陆偷拍与自拍| av天堂久久9| 97在线人人人人妻| 麻豆av在线久日| 91九色精品人成在线观看| 国产主播在线观看一区二区| 美女主播在线视频| 一边摸一边抽搐一进一出视频| 十八禁网站网址无遮挡| 日本一区二区免费在线视频| 色尼玛亚洲综合影院| 777久久人妻少妇嫩草av网站| 亚洲视频免费观看视频| 国产成人av教育| 99国产精品99久久久久| 国产精品国产av在线观看| 两人在一起打扑克的视频| 午夜视频精品福利| 久久午夜亚洲精品久久| 国产精品98久久久久久宅男小说| 国产主播在线观看一区二区| 欧美成狂野欧美在线观看| 一本大道久久a久久精品| 久久av网站| 中文字幕色久视频| 999久久久国产精品视频| 欧美精品一区二区大全| 国精品久久久久久国模美| 国产日韩欧美在线精品| 久9热在线精品视频| 美女国产高潮福利片在线看| 99国产精品免费福利视频| 亚洲中文日韩欧美视频| 黄色毛片三级朝国网站| 无遮挡黄片免费观看| 国产黄频视频在线观看| 成人永久免费在线观看视频 | 国产97色在线日韩免费| 亚洲中文字幕日韩| 天天添夜夜摸| 成人影院久久| 亚洲国产毛片av蜜桃av| 国产成人影院久久av| 咕卡用的链子| 日韩欧美三级三区| 国产单亲对白刺激| 婷婷成人精品国产| 亚洲av日韩在线播放| 最新美女视频免费是黄的| 在线观看人妻少妇| 中文字幕人妻熟女乱码| 欧美日韩av久久| www.999成人在线观看| 久久久久久亚洲精品国产蜜桃av| 精品国产亚洲在线| 香蕉丝袜av| 国产99久久九九免费精品| 亚洲精品一二三| 久久精品国产99精品国产亚洲性色 | 亚洲中文av在线| 91麻豆av在线| 欧美亚洲日本最大视频资源| 久久人妻福利社区极品人妻图片| 国产一区二区 视频在线| 美女午夜性视频免费| 亚洲天堂av无毛| 无限看片的www在线观看| 男女床上黄色一级片免费看| 久久久国产一区二区| 成人国产一区最新在线观看| 国产精品偷伦视频观看了| 色婷婷久久久亚洲欧美| 五月开心婷婷网| 久久久久久久久免费视频了| 精品亚洲成国产av| 免费人妻精品一区二区三区视频| 夜夜骑夜夜射夜夜干| 国产精品国产av在线观看| 十分钟在线观看高清视频www| 国产精品免费视频内射| a级片在线免费高清观看视频| 国产成人一区二区三区免费视频网站| 亚洲专区字幕在线| 久久精品aⅴ一区二区三区四区| 日韩中文字幕视频在线看片| videos熟女内射| 精品久久久久久电影网| 999久久久国产精品视频| 国产熟女午夜一区二区三区| av免费在线观看网站| 狠狠狠狠99中文字幕| 高清欧美精品videossex| 人人妻人人澡人人爽人人夜夜| 啦啦啦视频在线资源免费观看| 亚洲成人国产一区在线观看| 一级片'在线观看视频| 一个人免费看片子| 十分钟在线观看高清视频www| 十八禁高潮呻吟视频| 视频区图区小说| 12—13女人毛片做爰片一| 久久午夜亚洲精品久久| 成人特级黄色片久久久久久久 | 亚洲综合色网址| 久久精品国产a三级三级三级| 久9热在线精品视频| 欧美 日韩 精品 国产| 免费人妻精品一区二区三区视频| 亚洲专区国产一区二区| 在线看a的网站| a级毛片黄视频| 亚洲性夜色夜夜综合| 国产成人精品久久二区二区免费| 啦啦啦 在线观看视频| 一级毛片女人18水好多| 欧美黄色片欧美黄色片| 久久热在线av| 欧美黑人欧美精品刺激| 最近最新中文字幕大全电影3 | 成人国语在线视频| 日韩欧美国产一区二区入口| 国产精品久久久久久人妻精品电影 | 老司机在亚洲福利影院| 欧美黄色片欧美黄色片| 亚洲一卡2卡3卡4卡5卡精品中文| 色播在线永久视频| 岛国毛片在线播放| 熟女少妇亚洲综合色aaa.| 涩涩av久久男人的天堂| av网站免费在线观看视频| 精品少妇久久久久久888优播| 亚洲一区中文字幕在线| 午夜视频精品福利| 亚洲精品久久成人aⅴ小说| 丝袜人妻中文字幕| 欧美日韩福利视频一区二区| 大片电影免费在线观看免费| 亚洲一区中文字幕在线| 90打野战视频偷拍视频| 99热网站在线观看| 一边摸一边抽搐一进一出视频| 69av精品久久久久久 | 国产深夜福利视频在线观看| 免费女性裸体啪啪无遮挡网站| 中文字幕最新亚洲高清| 另类亚洲欧美激情| 欧美日韩视频精品一区| 欧美国产精品va在线观看不卡| 久久久久久久国产电影| 久久精品国产a三级三级三级| 中国美女看黄片| 亚洲国产欧美网| 国产不卡一卡二| 亚洲国产中文字幕在线视频| 精品少妇一区二区三区视频日本电影| 交换朋友夫妻互换小说| 我的亚洲天堂| 丁香六月天网| 国产一区二区在线观看av| 在线观看免费视频日本深夜| 国产一区二区激情短视频| 国产在线精品亚洲第一网站| 国产精品麻豆人妻色哟哟久久| 欧美人与性动交α欧美精品济南到| 在线亚洲精品国产二区图片欧美| 欧美精品人与动牲交sv欧美| 国产免费视频播放在线视频| 人人妻人人澡人人爽人人夜夜| 大码成人一级视频| 97人妻天天添夜夜摸| 久久国产精品大桥未久av| 一区二区三区乱码不卡18| 他把我摸到了高潮在线观看 | 亚洲avbb在线观看| 99久久人妻综合| 又大又爽又粗| 国产日韩欧美视频二区| 国内毛片毛片毛片毛片毛片| 在线av久久热| 啦啦啦免费观看视频1| bbb黄色大片| 国产精品98久久久久久宅男小说| 女人久久www免费人成看片| 法律面前人人平等表现在哪些方面| 成年动漫av网址| 精品熟女少妇八av免费久了| 国产精品久久久久成人av| 欧美老熟妇乱子伦牲交| 怎么达到女性高潮|