• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Actor-Critic框架下的多智能體決策方法及其在兵棋上的應(yīng)用

    2021-03-02 05:36:26黃炎焱張永亮陳天德
    關(guān)鍵詞:兵棋算子決策

    李 琛,黃炎焱,張永亮,陳天德

    (1.南京理工大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210094;2.陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007)

    0 引 言

    兵棋推演是基于棋盤來描述地形、地貌,用棋子來描述作戰(zhàn)實(shí)體和事件,引入作戰(zhàn)經(jīng)驗(yàn)和時(shí)間,以“人在回路”的決策形成基于實(shí)戰(zhàn)化規(guī)則的作戰(zhàn)模擬系統(tǒng)。

    近年來,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)在圍棋對(duì)抗[1-2]、機(jī)器人[3-4]、自動(dòng)駕駛[5-7]、對(duì)抗類游戲[8-9]等領(lǐng)域廣泛應(yīng)用。將強(qiáng)化學(xué)習(xí)等人工智能技術(shù)應(yīng)用在作戰(zhàn)推演,能夠一定程度上為指揮員提供參考和借鑒。在軍事應(yīng)用方面,兵棋推演可以作為強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)方法的驗(yàn)證平臺(tái)。將人工智能技術(shù)應(yīng)用于兵棋推演,形成智能戰(zhàn)術(shù)兵棋,對(duì)于未來的作戰(zhàn)指揮具有一定的意義。將強(qiáng)化學(xué)習(xí)的方法利用在兵棋推演中,能夠充分發(fā)揮強(qiáng)化學(xué)習(xí)的探索作用,對(duì)于提升兵棋推演的戰(zhàn)術(shù)水平、獲取復(fù)盤數(shù)據(jù)等有著重要的意義。

    文獻(xiàn)[10]通過蘭徹斯特模型對(duì)兵棋的減負(fù)過程和作戰(zhàn)結(jié)果進(jìn)行了仿真分析,為兵棋規(guī)則設(shè)計(jì)提供了依據(jù)和參考。文獻(xiàn)[11]針對(duì)回合制六角格兵棋,使用AlphaZero深度強(qiáng)化學(xué)習(xí)來自動(dòng)學(xué)習(xí)作戰(zhàn)游戲過程。文獻(xiàn)[12]將模糊Petri網(wǎng)的知識(shí)表示與推理方法應(yīng)用于兵棋推演,利用圖的特征用不同的符號(hào)表示不同的變量,從而形成一個(gè)簡(jiǎn)潔的PN映射,作用于兵棋推演的兵力表示和推理決策。文獻(xiàn)[13]著力于兵棋推演數(shù)據(jù)的采集分析和處理,并基于數(shù)據(jù)搭建了兵棋推演的分析系統(tǒng)。目前,兵棋推演方面的研究面向規(guī)則、智能算法和作戰(zhàn)方案評(píng)估[14]等。智能算法方面多基于規(guī)則和數(shù)據(jù)分析,因此開展基于強(qiáng)化學(xué)習(xí)的兵棋推演算法研究,有助于提高兵棋推演的智能化水平,相較于人人對(duì)抗,基于強(qiáng)化學(xué)習(xí)的兵棋推演能夠創(chuàng)造更多的數(shù)據(jù)進(jìn)行篩選。

    基于規(guī)則的兵棋推演算法缺少針對(duì)不同想定的適應(yīng)能力,本文針對(duì)兵棋算子的行動(dòng)決策和戰(zhàn)術(shù)決策的不同特點(diǎn),側(cè)重于利用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行行動(dòng)決策并結(jié)合基于規(guī)則的戰(zhàn)術(shù)決策,提出應(yīng)用于兵棋推演的基于演員-評(píng)論家(Actor-Critic)強(qiáng)化學(xué)習(xí)框架[15]的一種多智能體決策方法,分析了兵棋行動(dòng)決策與馬爾可夫決策過程(Markov decision process,MDP)的適應(yīng)性;分析了行動(dòng)決策的獎(jiǎng)勵(lì)設(shè)計(jì)(Reward Shaping)[16]過程以優(yōu)化訓(xùn)練的速度和效果;完整介紹了兵棋推演算法設(shè)計(jì);最后選取實(shí)驗(yàn)想定進(jìn)行仿真對(duì)比其他方法來驗(yàn)證本文方法的效果和合理性。

    1 智能戰(zhàn)術(shù)行動(dòng)決策中的MDP模型

    1.1 馬爾可夫性

    強(qiáng)化學(xué)習(xí)中包含的要素之一為環(huán)境狀態(tài)轉(zhuǎn)換模型,表示為一個(gè)概率模型,即在狀態(tài)s下如果采取一定的動(dòng)作a,則轉(zhuǎn)換到下一個(gè)狀態(tài)s′。在非理想環(huán)境下,狀態(tài)轉(zhuǎn)換的過程需要考慮到新狀態(tài)s′之前的所有環(huán)境要素s1,s2,…,sn,顯然這種方式在會(huì)使得模型狀態(tài)的轉(zhuǎn)換非常復(fù)雜,強(qiáng)化學(xué)習(xí)假設(shè)狀態(tài)轉(zhuǎn)換符合馬爾可夫性,狀態(tài)轉(zhuǎn)換只與上一個(gè)狀態(tài)有關(guān),即

    (1)

    兵棋推演的行動(dòng)決策過程中,下一步的選擇只與上一步的環(huán)境狀態(tài)觀測(cè)量有關(guān),因此本文的行動(dòng)決策遵循MDP。

    1.2 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)大類,能夠通過Bellman方程來求解交互問題[17],從而改進(jìn)并最終達(dá)到目的的一種學(xué)習(xí)方式[18]。強(qiáng)化學(xué)習(xí)使得智能體最終形成一種策略,使得其為了達(dá)成目的而使獎(jiǎng)勵(lì)值最大化[19-20]。Littman[21]在20世紀(jì)90年代提出了以MDP為框架的多智能體強(qiáng)化學(xué)習(xí),將強(qiáng)化學(xué)習(xí)的思想和算法應(yīng)用到多智能體系統(tǒng)中,往往會(huì)考慮智能體間的競(jìng)爭(zhēng)、合作等關(guān)系[22-23]。

    深度Q網(wǎng)絡(luò)(deepQ-network,DQN)融合了深度神經(jīng)網(wǎng)絡(luò)[24]和Q-Learning[25],是一種基于值的深度強(qiáng)化學(xué)習(xí)方法。Q-Learning在環(huán)境中選擇值最大的方向進(jìn)行學(xué)習(xí)[26],即

    Qπ(st,at)=
    E[Rt+1+γRt+2+γ2Rt+3+…|st,at]

    (2)

    PolicyGradient即梯度下降法,基于值的強(qiáng)化學(xué)習(xí)方法如DQN需要對(duì)值函數(shù)進(jìn)行更新,然后才能反映到策略當(dāng)中,而值函數(shù)的一些小小的改變可能導(dǎo)致策略選取動(dòng)作完全改變,尤其在兵棋環(huán)境中會(huì)震蕩更強(qiáng)、收斂更難,而基于策略的強(qiáng)化學(xué)習(xí)方法[27]在這個(gè)問題上會(huì)更有優(yōu)勢(shì)。

    (3)

    PolicyGradient的最終目的最大化目標(biāo)函數(shù),J(θ)考慮單步的馬爾可夫過程,R(s,a)表示獎(jiǎng)勵(lì)函數(shù),推導(dǎo)可得

    (4)

    即對(duì)目標(biāo)函數(shù)J(θ)求導(dǎo)最終轉(zhuǎn)化為了對(duì)策略π求梯度。

    1.3 產(chǎn)生式戰(zhàn)術(shù)規(guī)則

    產(chǎn)生式規(guī)則是目前戰(zhàn)術(shù)知識(shí)常用且有效的表示方法。機(jī)器學(xué)習(xí)中的“規(guī)則”通常是指語義明確、能描述數(shù)據(jù)分布所隱含的客觀規(guī)律或領(lǐng)域概念[28],實(shí)現(xiàn)規(guī)則的方式是當(dāng)檢測(cè)到規(guī)則滿足某前提條件后,那么這條規(guī)則就會(huì)按照既定的規(guī)定去執(zhí)行。

    產(chǎn)生式戰(zhàn)術(shù)規(guī)則系統(tǒng)的結(jié)構(gòu)和規(guī)則執(zhí)行過程如圖1所示,采用專家數(shù)據(jù)加入初始的動(dòng)態(tài)數(shù)據(jù)庫,并存儲(chǔ)戰(zhàn)術(shù)決策的結(jié)果,通過指定合理的規(guī)則庫產(chǎn)生相應(yīng)的戰(zhàn)術(shù)決策。

    圖1 產(chǎn)生式戰(zhàn)術(shù)規(guī)則Fig.1 Production tactics rules

    2 基于MDP的行動(dòng)規(guī)劃算法獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    2.1 智能戰(zhàn)術(shù)兵棋環(huán)境中強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)稀疏的問題

    強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)函數(shù)可以看作是一個(gè)映射關(guān)系,即智能體所做出的動(dòng)作在當(dāng)前環(huán)境中的好壞程度。大部分的狀態(tài)動(dòng)作空間中,獎(jiǎng)勵(lì)信號(hào)都為0,即為獎(jiǎng)勵(lì)稀疏性。

    如圖2所示,從S1出發(fā)到Sn-1最終獲得獎(jiǎng)勵(lì)值的過程中,在第一回合,每個(gè)單步執(zhí)行并不帶來獎(jiǎng)勵(lì)值,即不管這個(gè)單步是好是壞都不產(chǎn)生獎(jiǎng)勵(lì)值,只有達(dá)到目標(biāo)之后才能獲得獎(jiǎng)勵(lì)值。

    圖2 獎(jiǎng)勵(lì)稀疏性Fig.2 Sparsity of reward

    在兵棋推演環(huán)境中,MDP的狀態(tài)空間往往都很大,并且單個(gè)算子所采取的動(dòng)作選擇也較多,導(dǎo)致了智能體首次達(dá)到目標(biāo)的概率非常低,智能體首次達(dá)到目標(biāo)的概率為

    (5)

    式中,|A|為智能體所能采取的動(dòng)作的數(shù)量;S是達(dá)到目標(biāo)所用的單步數(shù)。從式(5)可以直觀地看出,在兵棋推演這種大狀態(tài)空間、智能體動(dòng)作選擇多的環(huán)境下,P會(huì)很低,大量的無意義探索會(huì)導(dǎo)致算法收斂速度很慢,訓(xùn)練時(shí)間長(zhǎng)等問題。

    2.2 通過Reward Shaping來解決問題

    既然回合更新不適用于兵棋推演環(huán)境,則選擇單步更新,對(duì)單步的好壞進(jìn)行評(píng)價(jià),對(duì)智能體給予額外的獎(jiǎng)勵(lì),即

    R=R′+r(s,a,s′)

    (6)

    式中,R是最終的總獎(jiǎng)勵(lì)值;R′是達(dá)到目標(biāo)所獲得的獎(jiǎng)勵(lì)值;r(s,a,s′)是單步更新的獎(jiǎng)勵(lì)值,如圖3所示。這個(gè)過程稱之為RewardShaping。

    圖3 Reward Shaping補(bǔ)償Fig.3 Reward Shaping compensate

    2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)置

    目前陸戰(zhàn)兵棋推演一般圍繞一個(gè)或幾個(gè)奪控點(diǎn)展開攻勢(shì)[29]。兵棋算子在地圖中的可行動(dòng)范圍較大,如果采取獲勝/失敗這樣的獎(jiǎng)勵(lì)方式,由于紅藍(lán)雙方隨機(jī)性太強(qiáng),即使訓(xùn)練中一方獲勝并獲得正向的獎(jiǎng)勵(lì)值,也無法佐證獲勝方本次的行動(dòng)是值得獎(jiǎng)勵(lì)的。

    對(duì)奪控點(diǎn)進(jìn)行占領(lǐng)和對(duì)對(duì)手的打擊是獲勝的必要條件,因此本文獎(jiǎng)勵(lì)函數(shù)的設(shè)置與算子和目標(biāo)奪控點(diǎn)的距離變化率有關(guān)。當(dāng)算子出界時(shí)給予懲罰,當(dāng)算子到達(dá)目標(biāo)奪控點(diǎn)時(shí)給予獎(jiǎng)勵(lì)值,當(dāng)算子距離目標(biāo)奪控點(diǎn)更近時(shí)給予額外獎(jiǎng)勵(lì)值。本文中的獎(jiǎng)勵(lì)函數(shù)設(shè)置如下:

    (7)

    式中,R0為奪取奪控點(diǎn)獲得的獎(jiǎng)勵(lì)值;當(dāng)算子出界時(shí)給予-R0的獎(jiǎng)勵(lì)值;x為當(dāng)前狀態(tài)下算子距離奪控點(diǎn)的距離;x′為在當(dāng)前狀態(tài)下選擇動(dòng)作a后距離奪控點(diǎn)的距離,而

    (8)

    式中,X為算子的起始點(diǎn)距離奪控點(diǎn)的距離標(biāo)量;ε為變化率修正系數(shù)。

    3 兵棋算法設(shè)計(jì)

    3.1 算法應(yīng)用場(chǎng)景

    本文的算法應(yīng)用于一種回合制六角格形式的智能戰(zhàn)術(shù)兵棋推演,以全國兵棋推演大賽“鐵甲突擊群”兵棋推演平臺(tái)[29]為基礎(chǔ)做了適當(dāng)?shù)暮?jiǎn)化,以便于對(duì)算法進(jìn)行驗(yàn)證。其中簡(jiǎn)化修改的部分如下所述。本文算法應(yīng)用的兵棋地圖對(duì)實(shí)地地形圖進(jìn)行了格式化處理,針對(duì)給作戰(zhàn)行動(dòng)可能產(chǎn)生影響的要素進(jìn)行了量化,主要地形包括開闊地、從林地和城鎮(zhèn)居民地。通過分析可知,地形因素會(huì)對(duì)算子收到的傷害裁決以及被觀察視野產(chǎn)生影響。這就需要建制為連排級(jí),裝備為武器級(jí),一個(gè)六角格的建模為實(shí)際中的200m,高程為10m。棋子的類型包括重型坦克和步戰(zhàn)車,其中坦克和步戰(zhàn)車每一單步均可向六角格的6個(gè)方向機(jī)動(dòng),且坦克具備行進(jìn)間射擊能力,即在本次機(jī)動(dòng)之后可以進(jìn)行一次直瞄射擊,而戰(zhàn)車只能選擇機(jī)動(dòng)或直瞄射擊中的一個(gè)動(dòng)作。在任意算子到達(dá)奪控點(diǎn)之后任意算子都可以用一次行動(dòng)機(jī)會(huì)占領(lǐng)奪控點(diǎn)。每局推演獲勝的條件為占領(lǐng)奪控點(diǎn)或全殲對(duì)方算子。回合制六角格形式兵棋推演的推演流程如表1所示,表格中所有動(dòng)作執(zhí)行一次為一個(gè)單步,當(dāng)有一方達(dá)成勝利條件后回合結(jié)束。

    表1 回合制六角格兵棋推演的推演流程Table 1 Deduction process of the turn based hexagonal wargame

    3.2 算法不足

    Actor-Critic算法是一種單步更新的深度強(qiáng)化學(xué)習(xí)算法,結(jié)合了基于值和基于策略的方法,可具有連續(xù)的狀態(tài)和動(dòng)作[30]。策略π(a|s)表示選擇輸出動(dòng)作的概率,Qπ(a|s)即為采取策略π(a|s)獲得的獎(jiǎng)勵(lì)值。Qπ(a|s)越大,其對(duì)應(yīng)選擇的輸出動(dòng)作的概率就越大。π(a|s)沿著梯度的方向進(jìn)行學(xué)習(xí)更新,策略梯度可寫為

    (9)

    傳統(tǒng)Actor-Critic算法在兵棋推演中的實(shí)現(xiàn)如圖4所示。

    圖4 傳統(tǒng)Actor-Critic算法在兵棋推演中的實(shí)現(xiàn)Fig.4 Implementation of traditional Actor-Critic algorithm in wargame

    Actor-Critic算法框圖如圖4(a)所示。利用上述Actor-Critic算法能夠?qū)崿F(xiàn)戰(zhàn)術(shù)行動(dòng)的動(dòng)態(tài)決策,但是只能針對(duì)單算子進(jìn)行訓(xùn)練。從圖4(b)可以看出,利用Actor-Critic算法實(shí)現(xiàn)的兵棋算子行動(dòng)部署,每一個(gè)算子都有獨(dú)立的一套網(wǎng)絡(luò):Actor網(wǎng)絡(luò)根據(jù)自身的狀態(tài)觀測(cè)量產(chǎn)生動(dòng)作,Critic網(wǎng)絡(luò)同樣根據(jù)自身的狀態(tài)觀測(cè)量變化和動(dòng)作進(jìn)行評(píng)判更新。由于彼此間的互不關(guān)聯(lián),無法分享彼此的狀態(tài)信息,相當(dāng)于兵棋算子彼此間獨(dú)自決策。

    3.3 算法改進(jìn)思路

    由于是兵棋環(huán)境,本文考慮的多智能體算子間的關(guān)系是合作,即多智能體算子均為本方算子,可以共享信息。兵棋推演中的合作需要算子根據(jù)自身具體環(huán)境采取動(dòng)作,但是后方的指揮需要分享彼此的信息綜合考慮。結(jié)合戰(zhàn)場(chǎng)實(shí)際,算子即作戰(zhàn)單位擁有自身獲取的局部狀態(tài)觀測(cè)量,而指揮員即Critic擁有全局狀態(tài)觀測(cè)量對(duì)作戰(zhàn)單位進(jìn)行指導(dǎo)。本文算子的行動(dòng)部署采取分布式執(zhí)行、集中式訓(xùn)練的方法,即每個(gè)算子的Actor都只能根據(jù)自身的信息采取動(dòng)作,而每個(gè)算子的Critic都要根據(jù)全部信息來進(jìn)行更新和反饋。

    本文采取如圖5所示的算法整體思路。

    圖5 算法整體思路Fig.5 Overall idea of algorithm

    在對(duì)方未進(jìn)入射程之前,先讓算子優(yōu)先到達(dá)奪控點(diǎn)附近展開行動(dòng)。在既可以戰(zhàn)斗也可以機(jī)動(dòng)時(shí),根據(jù)二者之間的收益平衡來確定動(dòng)作。

    3.4 算法設(shè)計(jì)

    3.4.1 行動(dòng)決策

    多智能體的訓(xùn)練方式如圖6所示。算子的行動(dòng)決策建立有Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),記算子為agenti(i=1,2,…,n)。局部狀態(tài)觀測(cè)量φ(si)是每個(gè)算子能夠觀察到的態(tài)勢(shì)信息集合,包括:本方算子agenti的橫坐標(biāo)和縱坐標(biāo),對(duì)方算子的橫坐標(biāo)和縱坐標(biāo),奪控點(diǎn)d的橫坐標(biāo)和縱坐標(biāo),以及攻擊臨界值τ。全局狀態(tài)觀測(cè)量φ(s)=φ(s1)∪φ(s2)∪…∪φ(sn),即所有局部狀態(tài)觀測(cè)量的并集。

    每個(gè)算子agenti的Actor網(wǎng)絡(luò)都根據(jù)局部狀態(tài)觀測(cè)量φ(si)選擇動(dòng)作ai,此時(shí)不考慮其他算子的影響;每個(gè)Critic網(wǎng)絡(luò)的輸入會(huì)將對(duì)應(yīng)算子的動(dòng)作ai以及行動(dòng)后的全局狀態(tài)觀測(cè)量φ(s)考慮在內(nèi),且每個(gè)算子都擁有自己的獎(jiǎng)勵(lì)值;而每個(gè)算子的Actor網(wǎng)絡(luò)更新時(shí),Critic網(wǎng)絡(luò)輸出的狀態(tài)估計(jì)差值會(huì)輸入進(jìn)行更新,以此來調(diào)整Actor網(wǎng)絡(luò)。

    圖6 多智能體訓(xùn)練方式Fig.6 Training mode of multi-agent

    算法1 分布執(zhí)行集中訓(xùn)練算子行動(dòng)決策算法for回合=1,最大訓(xùn)練回合數(shù): 初始化所有局部狀態(tài)觀測(cè)量φ(s1),φ(s2),…,φ(si) for單步=1,最大訓(xùn)練步數(shù):在Actor網(wǎng)絡(luò)中輸入φ(si),輸出動(dòng)作ai基于動(dòng)作ai得到新的狀態(tài)觀測(cè)量φ′(si)以及獎(jiǎng)勵(lì)值ri在Critic網(wǎng)絡(luò)中輸入全局狀態(tài)觀測(cè)量φ(s)得到價(jià)值vi和v′i更新Critic:通過最小化L(θi)=[(ri+γv′i)-vi]12更新Actor:θj←θj+αΔθjlogπθj(St,ai)δφ(si)←φ′(si)endfor endfor

    3.4.2 戰(zhàn)術(shù)決策

    兵棋算子的戰(zhàn)術(shù)決策基于規(guī)則庫進(jìn)行選擇。與神經(jīng)網(wǎng)絡(luò)這樣的“黑箱模型”相比,規(guī)則具有更好的可解釋性,能夠使用戶更直觀地對(duì)判別過程有所了解。在兵棋推演的實(shí)驗(yàn)環(huán)境中,每一步選擇有兩個(gè)維度,即移動(dòng)或射擊。而由于行動(dòng)決策的不確定性以及開火對(duì)象的不確定性,由于兵棋地圖狀態(tài)空間大,會(huì)使得訓(xùn)練的收斂速度很慢,很可能一場(chǎng)都贏不了,導(dǎo)致大量的無意義訓(xùn)練。

    針對(duì)以上環(huán)境的特性,本文對(duì)兵棋算子的戰(zhàn)術(shù)決策擬定了如圖7所示的戰(zhàn)術(shù)決策規(guī)則。動(dòng)態(tài)數(shù)據(jù)庫包含了根據(jù)專家數(shù)據(jù)擬定的初始攻擊臨界值τ,其意義在于當(dāng)算子既能夠射擊也能夠機(jī)動(dòng)時(shí),選擇哪一個(gè)動(dòng)作能夠獲得最大的收益,τ會(huì)隨著算子的訓(xùn)練過程進(jìn)行如下更新:

    (10)

    式中,常量Rw l為最終勝利或者失敗獲得的獎(jiǎng)勵(lì)值;σ為修正系數(shù)。

    圖7 戰(zhàn)術(shù)決策規(guī)則Fig.7 Tactics decision rules

    4 仿真實(shí)驗(yàn)分析

    4.1 實(shí)驗(yàn)平臺(tái)簡(jiǎn)介

    以如圖8所示的城鎮(zhèn)居民地遭遇戰(zhàn)示例想定進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。紅藍(lán)雙方各包含一個(gè)坦克算子和一個(gè)戰(zhàn)車算子,每個(gè)算子代表一定編制,坐標(biāo)2 422所在的六角格即為奪控點(diǎn)。如表2所示為紅藍(lán)雙方兵力屬性和部署表。每個(gè)算子每回合可以向6個(gè)方向中的一個(gè)六角格行動(dòng)但不允許越界,或?qū)砷_火對(duì)象進(jìn)行射擊,且智能體每次只能選擇機(jī)動(dòng)或者射擊中的一個(gè)動(dòng)作。一方算子全殲另一方算子或有一方取得對(duì)奪控點(diǎn)的控制,則為獲勝方。

    圖8 想定示例Fig.8 Scenario example

    表2 紅藍(lán)雙方算子屬性和部署表Table 2 Properties and deployment table of red and blue operators

    4.2 實(shí)驗(yàn)分析

    實(shí)驗(yàn)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均通過Tensorflow庫進(jìn)行搭建。Actor網(wǎng)絡(luò)包含有兩個(gè)隱藏層;Critic網(wǎng)絡(luò)包含有兩個(gè)隱藏層,學(xué)習(xí)率為0.01。訓(xùn)練均選擇300回合以對(duì)比訓(xùn)練效果。Critic和Actor的網(wǎng)絡(luò)連接結(jié)構(gòu)分別如圖9和圖10所示。

    圖9 Critic網(wǎng)絡(luò)搭建Fig.9 Critic network’s building

    圖10 Actor網(wǎng)絡(luò)搭建Fig.10 Actor network’s building

    圖11中每個(gè)算子采用Actor-Critic封閉網(wǎng)絡(luò),即各自的評(píng)價(jià)網(wǎng)絡(luò)彼此不分享信息,其平均步數(shù)-回合曲線如圖11所示。圖12為采用Actor各自分布式執(zhí)行Critic集中式訓(xùn)練分享信息的平均步數(shù)-回合曲線。

    圖11 封閉訓(xùn)練算子的平均步數(shù)-回合曲線Fig.11 S-E curve of closed training agents

    圖12 分布執(zhí)行集中訓(xùn)練的平均步數(shù)-回合曲線Fig.12 S-E curve of distributed execution and centralized training

    從圖11和圖12可以看出,兩種訓(xùn)練方式算子的步數(shù)都隨著訓(xùn)練過程越來越少,這意味著算子以更短的路徑向奪控點(diǎn)行進(jìn)。相對(duì)于前者,采用分布式執(zhí)行集中訓(xùn)練的算子在100回合之后平均步數(shù)更加穩(wěn)定,且顯然平均單步數(shù)是更少的。因此在本文的實(shí)驗(yàn)環(huán)境中,Critic網(wǎng)絡(luò)整合全局狀態(tài)觀測(cè)量的集中訓(xùn)練能夠讓算子的行動(dòng)決策更加高效穩(wěn)定。

    圖13為采用第一種封閉網(wǎng)絡(luò)訓(xùn)練的平均獎(jiǎng)勵(lì)值-回合曲線,在約100回合之后,平均獎(jiǎng)勵(lì)值曲線朝著正值的方向快速收斂。

    圖13 封閉訓(xùn)練算子的每回合獎(jiǎng)勵(lì)值-回合曲線Fig.13 R-E curve of closed training agents

    圖14為采用分布執(zhí)行集中訓(xùn)練的算子每回合平均獎(jiǎng)勵(lì)值-回合曲線,相比于圖13中的方法,其平均獎(jiǎng)勵(lì)值更高,穩(wěn)定性顯著增強(qiáng),并且提前開始收斂。

    圖14 分布執(zhí)行集中訓(xùn)練每回合獎(jiǎng)勵(lì)值-回合曲線Fig.14 R-E curve of distributed execution and centralized training

    從圖12和圖14可以看出,在經(jīng)歷了同樣多的訓(xùn)練回合數(shù)之后,分布執(zhí)行集中訓(xùn)練算子的單步波動(dòng)程度小且數(shù)值較小,這意味著無意義的動(dòng)作更少,因?yàn)槟承o意義的機(jī)動(dòng)動(dòng)作會(huì)導(dǎo)致后續(xù)連續(xù)的無意義動(dòng)作,往往會(huì)導(dǎo)致單步數(shù)量的急劇上升從而產(chǎn)生波動(dòng)。另一方面的優(yōu)點(diǎn),從每回合獎(jiǎng)勵(lì)值-回合曲線能夠看出,獎(jiǎng)勵(lì)值波動(dòng)程度小且較高,而獎(jiǎng)勵(lì)值意味著單步執(zhí)行動(dòng)作的正確性以及獲勝。

    圖15為采用分布執(zhí)行集中訓(xùn)練的算子總獎(jiǎng)勵(lì)值-回合曲線,算子的總獎(jiǎng)勵(lì)值在經(jīng)歷短暫的探索階段后,受限于算子的隨機(jī)選擇,呈整體的波動(dòng)上升階段,證明了基于Actor-Critic框架下的分布式執(zhí)行集中式訓(xùn)練的多算子強(qiáng)化學(xué)習(xí)的有效性。

    圖15 分布執(zhí)行集中訓(xùn)練總獎(jiǎng)勵(lì)值-回合曲線Fig.15 Total rewards-episodes curve of distributed execution and centralized training

    5 結(jié) 論

    本文基于Actor-Critic框架和產(chǎn)生式戰(zhàn)術(shù)規(guī)則對(duì)兵棋推演的多智能體決策方法進(jìn)行了研究。行動(dòng)決策根據(jù)采用分布式執(zhí)行、集中式訓(xùn)練的方法,Critic網(wǎng)絡(luò)接收全局狀態(tài)觀測(cè)信息從而兼顧了兩個(gè)算子的狀態(tài)信息;每個(gè)算子都擁有獨(dú)立的Actor網(wǎng)絡(luò)接收Critic網(wǎng)絡(luò)學(xué)習(xí)產(chǎn)生的觀測(cè)誤差并根據(jù)算子的局部狀態(tài)觀測(cè)量生成下一步動(dòng)作。

    本文通過對(duì)比基于彼此封閉Actor-Critic算法訓(xùn)練兵棋推演算子的方法,驗(yàn)證本文方法的有效性。從第一組對(duì)比的回合-平均步數(shù)曲線可以看出,不論是單算子采用封閉的Actor-Critic網(wǎng)絡(luò)訓(xùn)練還是采用分布執(zhí)行集中訓(xùn)練,算子總體的平均步數(shù)隨著訓(xùn)練回合的推進(jìn),都在波動(dòng)變小,這也驗(yàn)證了Actor-Critic框架應(yīng)用于本文所述的回合制六角格兵棋推演的應(yīng)用場(chǎng)景中的有效性。但相比于算子間態(tài)勢(shì)信息不共享的方法,分布執(zhí)行集中訓(xùn)練的方法的優(yōu)點(diǎn)在于Critic網(wǎng)絡(luò)分享彼此信息,使得算子獲得的態(tài)勢(shì)信息更為豐富,這對(duì)于加快訓(xùn)練的速度以及訓(xùn)練后得到的模型的穩(wěn)定性作用明顯。如上所述,本文對(duì)Actor-Critic框架應(yīng)用于回合制六角格智能戰(zhàn)術(shù)兵棋提出了一種決策方法。

    猜你喜歡
    兵棋算子決策
    為可持續(xù)決策提供依據(jù)
    擬微分算子在Hp(ω)上的有界性
    兵棋推演:未來戰(zhàn)爭(zhēng)的水晶球
    軍事文摘(2020年19期)2020-10-13 12:29:28
    各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應(yīng)用
    基于兵棋推演實(shí)驗(yàn)的綜合評(píng)估指標(biāo)度量方法
    決策為什么失誤了
    一類Markov模算子半群與相應(yīng)的算子值Dirichlet型刻畫
    基于深度學(xué)習(xí)的兵棋實(shí)體決策效果智能評(píng)估模型
    基于混合Beta分布的兵棋推演可信度評(píng)估方法研究
    Roper-Suffridge延拓算子與Loewner鏈
    啦啦啦在线免费观看视频4| 一a级毛片在线观看| 女性生殖器流出的白浆| 亚洲一卡2卡3卡4卡5卡精品中文| 怎么达到女性高潮| 女同久久另类99精品国产91| 在线永久观看黄色视频| 一边摸一边抽搐一进一小说 | 一a级毛片在线观看| 91av网站免费观看| 免费不卡黄色视频| 看黄色毛片网站| 久久人人爽av亚洲精品天堂| 超碰成人久久| 热99国产精品久久久久久7| 精品少妇一区二区三区视频日本电影| 午夜福利一区二区在线看| 亚洲九九香蕉| 亚洲av电影在线进入| 成在线人永久免费视频| 香蕉丝袜av| 大型av网站在线播放| 母亲3免费完整高清在线观看| 亚洲人成电影观看| 麻豆av在线久日| 桃红色精品国产亚洲av| 别揉我奶头~嗯~啊~动态视频| 夜夜夜夜夜久久久久| 日韩欧美在线二视频 | 欧美老熟妇乱子伦牲交| 日韩三级视频一区二区三区| 18禁美女被吸乳视频| 99精品久久久久人妻精品| 9色porny在线观看| 国产欧美日韩一区二区三区在线| 天堂√8在线中文| 国产精品成人在线| xxxhd国产人妻xxx| 日本五十路高清| 露出奶头的视频| 99热国产这里只有精品6| 夜夜躁狠狠躁天天躁| 国产无遮挡羞羞视频在线观看| 亚洲成人国产一区在线观看| 99精品久久久久人妻精品| 精品国内亚洲2022精品成人 | 夜夜爽天天搞| 伦理电影免费视频| 丝袜在线中文字幕| 亚洲成av片中文字幕在线观看| 国产精品久久视频播放| 91老司机精品| 精品电影一区二区在线| 国产亚洲精品久久久久5区| 欧美黄色淫秽网站| 无限看片的www在线观看| 国产日韩欧美亚洲二区| 最近最新中文字幕大全免费视频| 男女高潮啪啪啪动态图| 国产99白浆流出| 美女高潮喷水抽搐中文字幕| 99香蕉大伊视频| 欧美最黄视频在线播放免费 | 国产一区在线观看成人免费| 日韩人妻精品一区2区三区| 美女扒开内裤让男人捅视频| 激情视频va一区二区三区| 人妻一区二区av| 欧美乱妇无乱码| 国产精品一区二区免费欧美| 午夜视频精品福利| 国产精品一区二区在线观看99| 国产国语露脸激情在线看| 久久国产亚洲av麻豆专区| 国产深夜福利视频在线观看| 黑丝袜美女国产一区| 日本一区二区免费在线视频| 亚洲一区二区三区不卡视频| 成年动漫av网址| a级毛片在线看网站| 国产高清videossex| 黄色成人免费大全| 亚洲av美国av| 精品熟女少妇八av免费久了| 美国免费a级毛片| 国产精品久久久av美女十八| 日本a在线网址| 成人三级做爰电影| 午夜两性在线视频| videosex国产| 国产精品亚洲av一区麻豆| 无限看片的www在线观看| 啦啦啦免费观看视频1| 人成视频在线观看免费观看| 免费久久久久久久精品成人欧美视频| 一区二区三区激情视频| 久久国产精品大桥未久av| 女人精品久久久久毛片| 一级a爱视频在线免费观看| 久久亚洲精品不卡| 国产欧美日韩一区二区精品| 欧美乱码精品一区二区三区| 久久精品熟女亚洲av麻豆精品| 国产精品久久久久久人妻精品电影| 欧洲精品卡2卡3卡4卡5卡区| 女人被躁到高潮嗷嗷叫费观| 欧美日韩亚洲综合一区二区三区_| 久久久久视频综合| 亚洲三区欧美一区| 色94色欧美一区二区| 夜夜夜夜夜久久久久| 欧美精品啪啪一区二区三区| 人人妻人人爽人人添夜夜欢视频| 免费不卡黄色视频| 黑人巨大精品欧美一区二区mp4| 免费在线观看完整版高清| tocl精华| 黑人操中国人逼视频| 亚洲国产精品sss在线观看 | 色婷婷av一区二区三区视频| 不卡av一区二区三区| 精品视频人人做人人爽| 欧美色视频一区免费| 免费一级毛片在线播放高清视频 | 飞空精品影院首页| 免费女性裸体啪啪无遮挡网站| 亚洲综合色网址| 欧美精品亚洲一区二区| 成年人免费黄色播放视频| 亚洲人成伊人成综合网2020| 午夜激情av网站| 亚洲第一青青草原| 老司机午夜十八禁免费视频| 精品少妇一区二区三区视频日本电影| 亚洲人成77777在线视频| 操美女的视频在线观看| 亚洲精品成人av观看孕妇| 亚洲久久久国产精品| 女警被强在线播放| 亚洲色图av天堂| 亚洲男人天堂网一区| 黄色片一级片一级黄色片| 最新美女视频免费是黄的| 建设人人有责人人尽责人人享有的| 成年人免费黄色播放视频| 久久久久久亚洲精品国产蜜桃av| 丰满饥渴人妻一区二区三| 日韩熟女老妇一区二区性免费视频| 亚洲人成伊人成综合网2020| 久久 成人 亚洲| 欧美成人午夜精品| 美女午夜性视频免费| 亚洲久久久国产精品| 久久久久久久久久久久大奶| 极品人妻少妇av视频| 一级毛片女人18水好多| 亚洲精品一卡2卡三卡4卡5卡| 丁香欧美五月| 国产av精品麻豆| 中文欧美无线码| 亚洲精品国产一区二区精华液| 国产成人精品久久二区二区免费| 麻豆乱淫一区二区| 久久狼人影院| 国产有黄有色有爽视频| 美女 人体艺术 gogo| 两个人看的免费小视频| 97人妻天天添夜夜摸| 亚洲视频免费观看视频| 国产精品亚洲av一区麻豆| 久久国产精品影院| 俄罗斯特黄特色一大片| 国内久久婷婷六月综合欲色啪| 身体一侧抽搐| 亚洲欧美一区二区三区黑人| 久久久久精品国产欧美久久久| 欧美日韩黄片免| 老司机影院毛片| 国产精品久久电影中文字幕 | 交换朋友夫妻互换小说| 少妇猛男粗大的猛烈进出视频| 国产一区有黄有色的免费视频| 超色免费av| 色综合婷婷激情| 久热这里只有精品99| 亚洲色图 男人天堂 中文字幕| 亚洲一区二区三区不卡视频| 19禁男女啪啪无遮挡网站| 国产精品亚洲av一区麻豆| 亚洲三区欧美一区| 男女下面插进去视频免费观看| 9色porny在线观看| 精品一品国产午夜福利视频| 99香蕉大伊视频| 亚洲国产精品合色在线| 欧美黑人欧美精品刺激| 校园春色视频在线观看| 亚洲av成人不卡在线观看播放网| 国产精华一区二区三区| 又黄又爽又免费观看的视频| 亚洲av电影在线进入| 成人18禁在线播放| 国产精品久久久av美女十八| 欧美日韩一级在线毛片| 一级a爱视频在线免费观看| 欧美日韩中文字幕国产精品一区二区三区 | 女人高潮潮喷娇喘18禁视频| 久久九九热精品免费| 韩国av一区二区三区四区| 国产不卡av网站在线观看| 很黄的视频免费| 国产精品免费视频内射| 亚洲av第一区精品v没综合| 国产在线精品亚洲第一网站| av欧美777| 欧美日韩一级在线毛片| 日本黄色视频三级网站网址 | 亚洲三区欧美一区| 亚洲黑人精品在线| 91在线观看av| 亚洲精品粉嫩美女一区| 欧美精品av麻豆av| 国产xxxxx性猛交| 国产熟女午夜一区二区三区| 欧美不卡视频在线免费观看 | 日本撒尿小便嘘嘘汇集6| 少妇 在线观看| 成人亚洲精品一区在线观看| 91老司机精品| 他把我摸到了高潮在线观看| 两人在一起打扑克的视频| 亚洲中文字幕日韩| 免费人成视频x8x8入口观看| 天天躁日日躁夜夜躁夜夜| 亚洲成人国产一区在线观看| 成年女人毛片免费观看观看9 | 1024视频免费在线观看| 久久精品亚洲熟妇少妇任你| 人人妻人人澡人人爽人人夜夜| 国产片内射在线| 午夜影院日韩av| 成人手机av| 女性被躁到高潮视频| 日韩三级视频一区二区三区| 久久久久久久久免费视频了| 黄色女人牲交| 国产男女内射视频| 丁香欧美五月| 女人精品久久久久毛片| 日韩欧美国产一区二区入口| 男人操女人黄网站| 黄色成人免费大全| 精品福利永久在线观看| 欧美国产精品va在线观看不卡| 国产欧美亚洲国产| 午夜免费鲁丝| 人人妻人人爽人人添夜夜欢视频| av一本久久久久| 色在线成人网| 色婷婷av一区二区三区视频| 老司机靠b影院| 免费人成视频x8x8入口观看| 在线十欧美十亚洲十日本专区| 日韩熟女老妇一区二区性免费视频| 久久影院123| 亚洲国产毛片av蜜桃av| bbb黄色大片| 建设人人有责人人尽责人人享有的| 亚洲欧美一区二区三区黑人| netflix在线观看网站| 午夜福利,免费看| 成人三级做爰电影| 搡老岳熟女国产| bbb黄色大片| 精品一区二区三区视频在线观看免费 | 国产亚洲欧美在线一区二区| 精品少妇久久久久久888优播| 国产又色又爽无遮挡免费看| 国产单亲对白刺激| 人人妻,人人澡人人爽秒播| 91国产中文字幕| 不卡av一区二区三区| 成人亚洲精品一区在线观看| 久久国产亚洲av麻豆专区| 午夜福利,免费看| 欧洲精品卡2卡3卡4卡5卡区| 国产淫语在线视频| 欧美黄色淫秽网站| 91成人精品电影| 别揉我奶头~嗯~啊~动态视频| 在线观看免费视频日本深夜| 老鸭窝网址在线观看| 亚洲一区二区三区不卡视频| 天天添夜夜摸| 成人精品一区二区免费| 国产视频一区二区在线看| 51午夜福利影视在线观看| 色综合婷婷激情| 亚洲精品美女久久av网站| 亚洲精品国产色婷婷电影| 久久狼人影院| 自拍欧美九色日韩亚洲蝌蚪91| 超碰97精品在线观看| 女性生殖器流出的白浆| 十分钟在线观看高清视频www| 一本大道久久a久久精品| 巨乳人妻的诱惑在线观看| 51午夜福利影视在线观看| 国产人伦9x9x在线观看| 一进一出抽搐gif免费好疼 | 久久精品91无色码中文字幕| 一级毛片精品| 国产不卡一卡二| 大香蕉久久成人网| 国产日韩一区二区三区精品不卡| 欧美久久黑人一区二区| 亚洲欧美激情在线| 51午夜福利影视在线观看| 黑人欧美特级aaaaaa片| 身体一侧抽搐| 在线看a的网站| 在线播放国产精品三级| 纯流量卡能插随身wifi吗| 日韩欧美免费精品| 欧美大码av| 村上凉子中文字幕在线| 亚洲精华国产精华精| 亚洲一区二区三区不卡视频| 日韩欧美三级三区| 欧美乱码精品一区二区三区| 在线观看一区二区三区激情| 久9热在线精品视频| av不卡在线播放| 黄片小视频在线播放| 国产熟女午夜一区二区三区| 国产成+人综合+亚洲专区| 欧美午夜高清在线| 欧美日韩福利视频一区二区| 又黄又粗又硬又大视频| 欧美午夜高清在线| av片东京热男人的天堂| 欧美成人午夜精品| 国产一区二区三区在线臀色熟女 | 精品久久久久久电影网| 欧美日韩av久久| av有码第一页| www.精华液| 韩国精品一区二区三区| 99riav亚洲国产免费| 久久国产精品影院| 国产精品久久视频播放| 亚洲熟女毛片儿| 亚洲一区二区三区欧美精品| 亚洲欧美激情在线| 亚洲熟女精品中文字幕| 国产高清视频在线播放一区| 欧美日韩一级在线毛片| 大型黄色视频在线免费观看| 色婷婷av一区二区三区视频| 亚洲国产精品sss在线观看 | 亚洲色图综合在线观看| 成人亚洲精品一区在线观看| 国产亚洲精品一区二区www | 婷婷成人精品国产| 欧美人与性动交α欧美精品济南到| 国产99白浆流出| 成年人黄色毛片网站| 国产亚洲一区二区精品| 免费观看a级毛片全部| 美女视频免费永久观看网站| 99香蕉大伊视频| 午夜精品国产一区二区电影| 国产成人av教育| 久久精品国产a三级三级三级| 亚洲欧美激情综合另类| 久久国产乱子伦精品免费另类| 操美女的视频在线观看| 日本欧美视频一区| svipshipincom国产片| 国产主播在线观看一区二区| 亚洲精品国产色婷婷电影| 一进一出好大好爽视频| 人妻丰满熟妇av一区二区三区 | 国产片内射在线| 久久天堂一区二区三区四区| 高潮久久久久久久久久久不卡| 一二三四社区在线视频社区8| 精品国内亚洲2022精品成人 | 黄片播放在线免费| 国产一区二区三区综合在线观看| 中文字幕高清在线视频| 国产亚洲精品久久久久5区| www日本在线高清视频| 国产成人精品无人区| 亚洲一区中文字幕在线| 99riav亚洲国产免费| 动漫黄色视频在线观看| 99热国产这里只有精品6| 黑人巨大精品欧美一区二区蜜桃| 国产精品亚洲av一区麻豆| 免费少妇av软件| 大片电影免费在线观看免费| 午夜免费观看网址| 久久青草综合色| 日韩熟女老妇一区二区性免费视频| 亚洲av成人一区二区三| 亚洲精品中文字幕一二三四区| 激情在线观看视频在线高清 | 丝瓜视频免费看黄片| 国产成人免费观看mmmm| 久久精品熟女亚洲av麻豆精品| 丰满人妻熟妇乱又伦精品不卡| 他把我摸到了高潮在线观看| 免费观看精品视频网站| 午夜福利在线免费观看网站| 两性午夜刺激爽爽歪歪视频在线观看 | a级毛片在线看网站| 国产亚洲精品久久久久久毛片 | 午夜影院日韩av| 亚洲综合色网址| 另类亚洲欧美激情| 怎么达到女性高潮| 极品教师在线免费播放| 欧美日韩精品网址| 欧美日韩视频精品一区| 亚洲精品在线观看二区| 欧美日韩亚洲国产一区二区在线观看 | 亚洲国产欧美一区二区综合| 动漫黄色视频在线观看| 国产精品秋霞免费鲁丝片| tube8黄色片| 日韩欧美在线二视频 | 欧美日韩国产mv在线观看视频| 男女之事视频高清在线观看| 国产精品99久久99久久久不卡| 国产精华一区二区三区| 国产深夜福利视频在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 国产av一区二区精品久久| 91大片在线观看| 大香蕉久久网| 欧美性长视频在线观看| 在线观看午夜福利视频| 天天躁夜夜躁狠狠躁躁| 免费高清在线观看日韩| 久久精品亚洲熟妇少妇任你| 亚洲人成电影观看| 嫩草影视91久久| 老司机午夜福利在线观看视频| 两个人免费观看高清视频| 丰满迷人的少妇在线观看| 久久香蕉国产精品| 热99国产精品久久久久久7| 午夜福利在线观看吧| 国产精品久久久久久精品古装| 精品无人区乱码1区二区| 巨乳人妻的诱惑在线观看| 欧美精品av麻豆av| 日韩熟女老妇一区二区性免费视频| 高清欧美精品videossex| av网站免费在线观看视频| 热re99久久精品国产66热6| 亚洲av片天天在线观看| 精品免费久久久久久久清纯 | 国产男女超爽视频在线观看| 免费在线观看视频国产中文字幕亚洲| 久久精品91无色码中文字幕| 久热爱精品视频在线9| 国产av精品麻豆| 亚洲午夜精品一区,二区,三区| 大香蕉久久成人网| 欧美 日韩 精品 国产| 91国产中文字幕| 在线观看www视频免费| 欧美黑人精品巨大| 亚洲五月天丁香| 午夜福利影视在线免费观看| 成年人免费黄色播放视频| 最新美女视频免费是黄的| 精品视频人人做人人爽| 国产成人欧美在线观看 | 色精品久久人妻99蜜桃| 老熟妇乱子伦视频在线观看| 狠狠狠狠99中文字幕| 老司机深夜福利视频在线观看| 天天添夜夜摸| 久久精品国产综合久久久| 成人亚洲精品一区在线观看| 日日爽夜夜爽网站| 一二三四社区在线视频社区8| 淫妇啪啪啪对白视频| 欧美黄色片欧美黄色片| 成人18禁高潮啪啪吃奶动态图| 成年动漫av网址| 美女扒开内裤让男人捅视频| av欧美777| 法律面前人人平等表现在哪些方面| 国产又色又爽无遮挡免费看| 美女扒开内裤让男人捅视频| 亚洲国产看品久久| 国产精品 国内视频| 国产成人一区二区三区免费视频网站| 动漫黄色视频在线观看| 免费看十八禁软件| 变态另类成人亚洲欧美熟女 | 黄色视频不卡| 一边摸一边抽搐一进一出视频| 欧美成狂野欧美在线观看| av中文乱码字幕在线| 黄色丝袜av网址大全| videosex国产| 久热爱精品视频在线9| 视频区图区小说| 国产精品香港三级国产av潘金莲| 国产精品电影一区二区三区 | 超碰97精品在线观看| 最新在线观看一区二区三区| 日韩欧美三级三区| 高清欧美精品videossex| 在线观看免费日韩欧美大片| 久久久国产欧美日韩av| 久久午夜综合久久蜜桃| 日韩视频一区二区在线观看| 国产视频一区二区在线看| 亚洲欧美激情综合另类| 91麻豆精品激情在线观看国产 | 欧美av亚洲av综合av国产av| 亚洲在线自拍视频| 狠狠狠狠99中文字幕| 免费在线观看影片大全网站| 大片电影免费在线观看免费| 久久香蕉国产精品| 水蜜桃什么品种好| 亚洲人成伊人成综合网2020| 午夜免费观看网址| 久久精品亚洲精品国产色婷小说| 黄片大片在线免费观看| 精品亚洲成a人片在线观看| 成人18禁高潮啪啪吃奶动态图| 极品教师在线免费播放| 国产亚洲一区二区精品| 精品久久蜜臀av无| 久久久久精品人妻al黑| 热99国产精品久久久久久7| 波多野结衣一区麻豆| 亚洲国产看品久久| 91精品国产国语对白视频| a级毛片在线看网站| 99久久人妻综合| 高清在线国产一区| 国产精品av久久久久免费| 精品国产亚洲在线| 精品久久蜜臀av无| 黄色视频不卡| 亚洲专区国产一区二区| e午夜精品久久久久久久| 99热只有精品国产| 欧美精品啪啪一区二区三区| 欧美日韩福利视频一区二区| 国产av一区二区精品久久| 王馨瑶露胸无遮挡在线观看| 18禁裸乳无遮挡免费网站照片 | 亚洲欧美激情综合另类| 免费在线观看完整版高清| av不卡在线播放| 99精品久久久久人妻精品| 精品人妻在线不人妻| 成人精品一区二区免费| 十八禁人妻一区二区| 欧美av亚洲av综合av国产av| 国产精品电影一区二区三区 | 天天躁夜夜躁狠狠躁躁| 亚洲欧洲精品一区二区精品久久久| 丝袜美腿诱惑在线| 超碰97精品在线观看| 熟女少妇亚洲综合色aaa.| 欧美日韩中文字幕国产精品一区二区三区 | 欧美乱妇无乱码| 午夜福利欧美成人| 99国产精品99久久久久| 亚洲人成电影观看| 国产又爽黄色视频| 一区二区三区国产精品乱码| 国产黄色免费在线视频| 亚洲美女黄片视频| 国产激情欧美一区二区| 国产黄色免费在线视频| 在线观看一区二区三区激情| 久久国产亚洲av麻豆专区| 丝袜人妻中文字幕| 国产在线观看jvid| 美女福利国产在线| 又大又爽又粗| 欧美av亚洲av综合av国产av| 中文字幕av电影在线播放| 又大又爽又粗| 久久国产精品男人的天堂亚洲| 成人精品一区二区免费| 久久性视频一级片| 国产一区在线观看成人免费| 丝袜美足系列| 一区二区三区精品91| 啦啦啦免费观看视频1| 亚洲中文日韩欧美视频| 91国产中文字幕| 午夜福利乱码中文字幕| 日韩免费高清中文字幕av| 亚洲人成电影免费在线| 宅男免费午夜| 亚洲一区中文字幕在线| 99久久精品国产亚洲精品| 亚洲精品美女久久av网站| 黑人巨大精品欧美一区二区mp4| 欧美一级毛片孕妇| 国产一区二区三区在线臀色熟女 |