• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策方法

    2023-09-18 04:36:14
    計(jì)算機(jī)工程 2023年9期
    關(guān)鍵詞:兵棋戰(zhàn)場(chǎng)梯度

    胡 水

    (中國(guó)人民解放軍陸軍指揮學(xué)院,南京 210000)

    0 概述

    隨著高新技術(shù)在軍事領(lǐng)域的不斷發(fā)展運(yùn)用,武器裝備的性能參數(shù)和造價(jià)越來(lái)越多,現(xiàn)代作戰(zhàn)體系越來(lái)越復(fù)雜,作戰(zhàn)訓(xùn)練成本也同步激增。文獻(xiàn)[1]介紹為控制訓(xùn)練成本和節(jié)約人力物力資源,各國(guó)使用仿真技術(shù)模擬作戰(zhàn)訓(xùn)練。近年來(lái),以深度強(qiáng)化學(xué)習(xí)為代表的人工智能技術(shù)快速發(fā)展,直接從模擬戰(zhàn)場(chǎng)原始數(shù)據(jù)中快速提取特征,使得對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行描述、感知并進(jìn)一步自主決策成為可能。將人工智能技術(shù)應(yīng)用于兵棋推演,形成戰(zhàn)術(shù)兵棋智能體,對(duì)培養(yǎng)智能化作戰(zhàn)指揮員打贏未來(lái)戰(zhàn)爭(zhēng)具有深遠(yuǎn)意義。

    文獻(xiàn)[2]通過(guò)蘭徹斯特模型對(duì)兵棋的勝負(fù)過(guò)程和作戰(zhàn)結(jié)果進(jìn)行仿真分析,為兵棋規(guī)則的設(shè)計(jì)提供依據(jù)和參考。文獻(xiàn)[3]針對(duì)六角格回合制兵棋,使用AlphaZero 深度強(qiáng)化學(xué)習(xí)來(lái)自動(dòng)學(xué)習(xí)作戰(zhàn)游戲過(guò)程。文獻(xiàn)[4]將模糊Petri 網(wǎng)的知識(shí)表示與推理方法應(yīng)用于兵棋推演,在圖的特征中用不同符號(hào)表示不同變量,從而形成1 個(gè)簡(jiǎn)潔的PN 映射,并將其用于兵棋推演的兵力表示和推理決策。文獻(xiàn)[5]通過(guò)對(duì)兵棋推演數(shù)據(jù)進(jìn)行采集分析和處理,并基于數(shù)據(jù)搭建兵棋推演分析系統(tǒng)。文獻(xiàn)[6]介紹目前兵棋推演方面的研究面向規(guī)則智能算法、作戰(zhàn)方案評(píng)估等。智能算法多基于規(guī)則和數(shù)據(jù)分析,因此,開展基于深度強(qiáng)化學(xué)習(xí)的兵棋推演算法研究有助于提高兵棋推演的智能化水平,相較于人與人之間的兵棋推演對(duì)抗,基于強(qiáng)化學(xué)習(xí)的兵棋推演能夠篩選更多的數(shù)據(jù)。文獻(xiàn)[7]利用馬爾可夫決策過(guò)程、神經(jīng)網(wǎng)絡(luò)等方法,增強(qiáng)AI 推演行動(dòng)反饋及指揮策略應(yīng)用能力,以逐步提高AI 在兵棋系統(tǒng)的對(duì)抗推演水準(zhǔn)。文獻(xiàn)[8]深入分析軍事輔助決策走向智能化所面臨的難題和挑戰(zhàn),僅根據(jù)深度學(xué)習(xí)是無(wú)法實(shí)現(xiàn)AI 對(duì)于高位輸入做出最優(yōu)的決策,因此,針對(duì)已有AI 在人機(jī)對(duì)戰(zhàn)中所做的失誤決策,提出將深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法相結(jié)合的新一代智能兵棋推演算法。

    目前,深度強(qiáng)化學(xué)習(xí)的研究主要應(yīng)用于博弈方向以及人機(jī)對(duì)抗方向,其中,深度Q 學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Network,DQN)能有效完成對(duì)環(huán)境狀態(tài)的態(tài)勢(shì)理解與決策構(gòu)建的準(zhǔn)確性。文獻(xiàn)[9]介紹記憶函數(shù)的引入將在可自我博弈的基礎(chǔ)上完成對(duì)模型的快速訓(xùn)練并獲得較優(yōu)的準(zhǔn)確性。但是,在兵棋推演系統(tǒng)中智能體設(shè)計(jì)上,面對(duì)瞬息萬(wàn)變的戰(zhàn)場(chǎng)環(huán)境與錯(cuò)綜復(fù)雜的作戰(zhàn)場(chǎng)景,智能體的數(shù)據(jù)學(xué)習(xí)周期較長(zhǎng),策略產(chǎn)出與模型訓(xùn)練收斂都需要較長(zhǎng)時(shí)間。文獻(xiàn)[10]基于深度強(qiáng)化學(xué)習(xí)的思想和方式實(shí)現(xiàn)智能算法,雖然提高了AI 在兵棋系統(tǒng)的對(duì)抗推演水準(zhǔn),但是較長(zhǎng)周期的策略產(chǎn)出是其最大的弊端。

    本文聚焦于智能體在兵棋推演系統(tǒng)中自主決策產(chǎn)出過(guò)程的改進(jìn),在傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的基礎(chǔ)上提出適用于兵棋推演的低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)(Low Advantage Policy-Value Network,LAPVN)智能決策模型,有助于智能體加快產(chǎn)出作戰(zhàn)決策,設(shè)計(jì)符合兵棋規(guī)則的戰(zhàn)場(chǎng)態(tài)勢(shì)感知方法,提高策略的合理性。

    1 相關(guān)理論

    1.1 智能體的狀態(tài)-價(jià)值函數(shù)

    狀態(tài)-價(jià)值函數(shù)Vπ(st)定義如下:

    其中:Vπ(st)用于評(píng)判戰(zhàn)場(chǎng)狀態(tài)st下策略函數(shù)π的好壞程度。在大多數(shù)場(chǎng)景中智能體的狀態(tài)-價(jià)值函數(shù)是離散變量。策略函數(shù)π由策略網(wǎng)絡(luò)π(a|st;θ)近似表示。智能體在t時(shí)刻的狀態(tài)-價(jià)值函數(shù)如下:

    其中:Qπ(st,a)表示t時(shí)刻動(dòng)作-價(jià)值函數(shù),表示在狀態(tài)st下執(zhí)行動(dòng)作a后獲得的價(jià)值。若消去環(huán)境狀態(tài)S可得:

    由于V(S;θ)值可用于反映在環(huán)境狀態(tài)S下策略函數(shù)π的完備性,因此當(dāng)J(θ)越高時(shí),V(S;θ)也越高,說(shuō)明策略網(wǎng)絡(luò)對(duì)于完備策略函數(shù)的近似度越高,即策略網(wǎng)絡(luò)做出的策略是一個(gè)完備的策略。但是J(θ)具有一定的閾值約束。文獻(xiàn)[11-12]利用策略梯度算法提高J(θ)。策略梯度的定義[13]如式(4)所示:

    通過(guò)梯度上升不斷更新策略網(wǎng)絡(luò)π(a|S;θ)參數(shù)θ。

    1.2 近似動(dòng)作-價(jià)值函數(shù)

    在策略梯度算法中,動(dòng)作-價(jià)值函數(shù)Qπ并不是已知的,且直接計(jì)算需要大量的計(jì)算資源。因此,在策略梯度算法中將動(dòng)作-價(jià)值函數(shù)Qπ(st,at)近似為qt。近似方法通常有Reinforce 和神經(jīng)網(wǎng)絡(luò)近似方法。

    Reinforce 方法:假定智能體在T時(shí)刻完成計(jì)算,在完成過(guò)程中統(tǒng)計(jì)(s1,a1,r1,s2,a2,r2,…,sT,aT,rT)。此時(shí)可得到任意時(shí)刻t的折扣回報(bào):

    由于動(dòng)作-價(jià)值函數(shù)定義Qπ(st,at)=E[Ut],ut是動(dòng)作-價(jià)值函數(shù)Qπ的無(wú)偏估計(jì),因此可用ut近似Qπ,即:

    其中:qt為當(dāng)前t時(shí)刻的動(dòng)作-價(jià)值函數(shù)值。

    神經(jīng)網(wǎng)絡(luò)近似方法:文獻(xiàn)[14-15]借鑒了DQN的思想,利用另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)Qπ(w)近似動(dòng)作-價(jià)值函數(shù)。

    1.3 策略-價(jià)值網(wǎng)絡(luò)

    策略網(wǎng)絡(luò)π(a|S;θ)用于近似策略函數(shù)π,給出當(dāng)前狀態(tài)S下的動(dòng)作a,通過(guò)策略梯度算法中梯度上升方式更新網(wǎng)絡(luò)參數(shù)θ。價(jià)值網(wǎng)絡(luò)q(S,a;w)用于近似動(dòng)作-價(jià)值函數(shù)Qπ,評(píng)判動(dòng)作a的好壞程度,以改進(jìn)策略網(wǎng)絡(luò)。文獻(xiàn)[16-17]通過(guò)時(shí)間差分(Temporal-Difference,TD)算法中梯度下降方式更新網(wǎng)絡(luò)參數(shù)w。此時(shí),狀態(tài)-價(jià)值函數(shù)如式(7)所示:

    狀態(tài)-價(jià)值函數(shù)用于對(duì)當(dāng)前環(huán)境狀態(tài)打分,評(píng)分高低反映智能體可獲勝的概率,更新θ是為了增加V(S;θ,w),價(jià)值網(wǎng)絡(luò)q(S,a;w)在θ更新過(guò)程中對(duì)動(dòng)作打分起著監(jiān)督作用。更新w是為了提高對(duì)動(dòng)作評(píng)分的精準(zhǔn)度,環(huán)境給出的獎(jiǎng)勵(lì)r起監(jiān)督作用。

    算法1 所示為在神經(jīng)網(wǎng)絡(luò)中θt和wt的更新過(guò)程,st、θt、wt作為輸 入,θt+1、wt+1作為輸 出,步驟主要有:

    1)對(duì)at~π(?|st;θ)進(jìn)行采樣,得到動(dòng)作at;

    2)執(zhí)行動(dòng)作at,得到新的環(huán)境狀態(tài)st+1;

    5)計(jì)算δt=qt-(rt+γ?qt+1);

    6)計(jì)算價(jià)值網(wǎng)絡(luò)梯度?wt與策略網(wǎng)絡(luò)梯度?θt:

    7)更 新θ與w:wt+1←wt-α?δt??wt,θt+1←θt+β?qt??θt;

    8)得到7)中wt+1與θt+1。

    2 基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策方法

    針對(duì)兵棋智能體決策模型訓(xùn)練時(shí)間長(zhǎng)、策略產(chǎn)出效率較低的問(wèn)題,本文提出一種策略網(wǎng)絡(luò)更新的改進(jìn)方法,以縮短策略產(chǎn)出周期,加快模型訓(xùn)練的收斂速度。

    智能兵棋推演決策模型框架由戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型、作戰(zhàn)場(chǎng)景判斷模型、智能決策模型與作戰(zhàn)動(dòng)作指令模型組成,如圖1 所示。

    圖1 基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策框架Fig.1 Framework of intelligent wargame deduction decision based on deep reinforcement learning

    戰(zhàn)場(chǎng)態(tài)勢(shì)感知模型將兵棋推演仿真平臺(tái)獲取到的戰(zhàn)場(chǎng)仿真數(shù)據(jù)構(gòu)建為智能體所能感知的戰(zhàn)場(chǎng)環(huán)境狀態(tài)st,并將其作為作戰(zhàn)場(chǎng)景判斷模型和智能決策模型的輸入。文獻(xiàn)[18]介紹在兵棋博弈中指揮決策或行為的優(yōu)劣評(píng)估,難以通過(guò)人為設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)來(lái)判斷,因此,基于軍事規(guī)則先驗(yàn)知識(shí)指導(dǎo)智能決策模型最終策略的產(chǎn)出。智能決策模型將收到的戰(zhàn)場(chǎng)態(tài)勢(shì)信息,經(jīng)公共卷積層進(jìn)行態(tài)勢(shì)感知,并提取特征向量,再分別發(fā)送給策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。策略網(wǎng)絡(luò)根據(jù)收到的特征信息輸出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)下所有動(dòng)作概率,得到可行動(dòng)作概率集;價(jià)值網(wǎng)絡(luò)根據(jù)收到的特征信息輸出對(duì)當(dāng)前戰(zhàn)場(chǎng)狀態(tài)st執(zhí)行動(dòng)作at的評(píng)分,并接收兵棋推演仿真平臺(tái)的戰(zhàn)場(chǎng)狀態(tài)環(huán)境反饋信息。作戰(zhàn)動(dòng)作指令模型將獲取到的智能體動(dòng)作指令下達(dá)到兵棋推演仿真平臺(tái)。該框架實(shí)現(xiàn)了智能體從戰(zhàn)場(chǎng)態(tài)勢(shì)感知、作戰(zhàn)場(chǎng)景判斷、智能決策產(chǎn)出以及最后的指令下達(dá)。

    2.1 戰(zhàn)場(chǎng)態(tài)勢(shì)感知

    戰(zhàn)場(chǎng)態(tài)勢(shì)感知用于幫助智能體構(gòu)建狀態(tài)空間,主要包含戰(zhàn)場(chǎng)地圖信息、棋子信息、作戰(zhàn)場(chǎng)景規(guī)則信息等。其中,戰(zhàn)場(chǎng)地圖信息為智能體提供所處戰(zhàn)場(chǎng)環(huán)境的視野,幫助智能體理解其戰(zhàn)場(chǎng)作戰(zhàn)環(huán)境與作戰(zhàn)任務(wù),棋子信息為智能體提供所擁有的作戰(zhàn)兵力,幫助智能體判斷其力量編組與作戰(zhàn)目標(biāo),作戰(zhàn)場(chǎng)景規(guī)則信息將為智能體提供指令規(guī)則,幫助智能體識(shí)別其作戰(zhàn)指令決策來(lái)源,理解作戰(zhàn)指令下達(dá)的合理性。文獻(xiàn)[19]介紹實(shí)時(shí)感知并準(zhǔn)確理解戰(zhàn)場(chǎng)態(tài)勢(shì),挖掘復(fù)雜態(tài)勢(shì)中的隱藏信息,是指揮員做出正確決策規(guī)劃的基礎(chǔ)。

    本文提出兵棋智能體對(duì)于戰(zhàn)場(chǎng)環(huán)境的感知方法,通過(guò)劃分不同的戰(zhàn)場(chǎng)要素實(shí)體,將智能體所獲得的大規(guī)模戰(zhàn)場(chǎng)初始信息數(shù)據(jù)進(jìn)行分類與提取,以得到戰(zhàn)場(chǎng)要素結(jié)果,并構(gòu)造為智能體的輸入矩陣,有助于智能體進(jìn)行戰(zhàn)場(chǎng)感知。

    2.2 策略梯度中基準(zhǔn)線的引入

    兵棋智能體策略網(wǎng)絡(luò)受兵棋推演對(duì)抗問(wèn)題中較復(fù)雜因素的影響,存在策略產(chǎn)出較慢且訓(xùn)練效率較低的問(wèn)題,而策略梯度算法可以幫助策略網(wǎng)絡(luò)更新其網(wǎng)絡(luò)參數(shù)。因此,本文在隨機(jī)策略梯度中引入基準(zhǔn)線(Baseline)進(jìn)行改進(jìn),以提高策略網(wǎng)絡(luò)訓(xùn)練效率。

    文獻(xiàn)[20]將Baseline 定義為1 個(gè)不依賴動(dòng)作A的函數(shù)b。與傳統(tǒng)策略梯度更新方式不同,若向策略梯度中加入Baseline,在期望不變的情況下減小策略梯度的方差,使策略網(wǎng)絡(luò)的收斂速度加快。在策略梯度中引入函數(shù)b,則:

    策略函數(shù)π為概率密度函數(shù)。式(8)中關(guān)于a求和后結(jié)果為1,因此式(8)結(jié)果為0,引入Baseline 的策略梯度將保證期望不變,即:

    由于直接求策略梯度中的期望代價(jià)較高,因此利用蒙特卡洛對(duì)期望求近似值。在t時(shí)刻智能體通過(guò)隨機(jī)抽樣采取的動(dòng)作為at~π(?|st;θ),令:

    其中:g(at)為策略梯度的無(wú)偏估計(jì)。由于at是通過(guò)隨機(jī)抽樣得到的,因此隨機(jī)梯度可得:

    文獻(xiàn)[21]介紹了若b的選擇越接近于Qπ,則隨機(jī)策略梯度g(at)的方差越小,策略網(wǎng)絡(luò)訓(xùn)練時(shí)收斂速度越快。

    2.3 策略網(wǎng)絡(luò)的改進(jìn)

    由于在兵棋推演中戰(zhàn)場(chǎng)狀態(tài)st先于兵棋指令A(yù)被觀測(cè),而且不依賴于A,因此狀態(tài)-價(jià)值函數(shù)Vπ(st)的評(píng)估結(jié)果只與當(dāng)前戰(zhàn)場(chǎng)狀態(tài)有關(guān)。Vπ(st)定義如下:

    Vπ(st)反映在當(dāng)前狀態(tài)下采取任何行動(dòng)的預(yù)期回報(bào),非常接近Qπ,需要的計(jì)算成本和參數(shù)量較少,較容易實(shí)現(xiàn)和調(diào)整。因此,在策略網(wǎng)絡(luò)更新時(shí)引入Vπ(st)作為Baseline,在策略網(wǎng)絡(luò)更新時(shí),隨機(jī)策略梯度方差會(huì)很小,能夠提高策略網(wǎng)絡(luò)在訓(xùn)練時(shí)的穩(wěn)定性。由于Baseline 的引入提供了1 個(gè)較好的起點(diǎn)和參考點(diǎn),因此會(huì)加快策略網(wǎng)絡(luò)的收斂速度。此時(shí)的隨機(jī)梯度計(jì)算式如下:

    其中:動(dòng)作-價(jià)值函數(shù)Qπ由Reinforce 方法近似得到。本文根據(jù)優(yōu)先經(jīng)驗(yàn)回放池[22]中的數(shù)據(jù)可計(jì)算得到Qπ的近似值ut。狀態(tài)-價(jià)值函數(shù)Vπ(S)根據(jù)式(1)使用另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)V(S;w)近似。隨機(jī)梯度可近似:

    狀態(tài)-價(jià)值網(wǎng)絡(luò)參數(shù)更新:因?yàn)閯?dòng)作-價(jià)值函數(shù)Vπ是對(duì)回報(bào)Ut的期望,因此可用Reinforce 方法觀測(cè)到的折扣回報(bào)ut擬合Qπ得到預(yù)測(cè)誤差。預(yù)測(cè)誤差的計(jì)算式如下:

    梯度下降更新狀態(tài)-價(jià)值網(wǎng)絡(luò)中參數(shù)ω,參數(shù)ω的計(jì)算式如下:

    其中:γ為學(xué)習(xí)率。

    此外,算法2 所示為引入Baseline 的策略網(wǎng)絡(luò)參數(shù)更新方法。戰(zhàn)場(chǎng)狀態(tài)st和策略網(wǎng)絡(luò)參數(shù)θt作為輸入,下一時(shí)刻的策略網(wǎng)絡(luò)參數(shù)θt+1作為輸出,步驟主要有:

    1)從at~π(?|st;θ)采樣,得到動(dòng)作at;

    2)近似qt,qt≈Qπ(st,at);

    3)近似策略梯度g(at;θ):

    4)策略網(wǎng)絡(luò)參數(shù)θt通過(guò)梯度上升更新,β是學(xué)習(xí)率,θt+1的計(jì)算式如下:

    5)根據(jù)4)計(jì)算結(jié)果得到下一時(shí)刻策略網(wǎng)絡(luò)參數(shù)θt+1。

    隨著策略網(wǎng)絡(luò)訓(xùn)練加深,引入的Baseline 函數(shù)b會(huì)越來(lái)越接近動(dòng)作-價(jià)值函數(shù)Qπ,在后續(xù)訓(xùn)練時(shí)收斂速度會(huì)不斷加快。

    2.4 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型訓(xùn)練框架

    低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)基于策略-價(jià)值網(wǎng)絡(luò),其低優(yōu)勢(shì)來(lái)源于優(yōu)勢(shì)函數(shù)。優(yōu)勢(shì)函數(shù)定義如下:

    優(yōu)勢(shì)函數(shù)表示在狀態(tài)S下,某動(dòng)作a相對(duì)于平均而言的優(yōu)勢(shì)性。在本文優(yōu)勢(shì)函數(shù)恰好存在于式(13)中,若A(S,a)的值越小,說(shuō)明該動(dòng)作具有平均性。在策略網(wǎng)絡(luò)中表現(xiàn)的隨機(jī)梯度方差越小,這種低優(yōu)勢(shì)性將加快模型訓(xùn)練速度。

    低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)訓(xùn)練框架如圖2 所示。

    圖2 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)訓(xùn)練框架Fig.2 Training framework of low advantage policy-value network

    策略網(wǎng)絡(luò)將給出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)st下的1 個(gè)經(jīng)評(píng)價(jià)空間修正后自認(rèn)為較優(yōu)的作戰(zhàn)方案at,經(jīng)戰(zhàn)場(chǎng)控制執(zhí)行。價(jià)值網(wǎng)絡(luò)為策略網(wǎng)絡(luò)給出的動(dòng)作at評(píng)分值q。策略網(wǎng)絡(luò)根據(jù)q不斷改進(jìn)自身策略(更新w)以迎合價(jià)值網(wǎng)絡(luò)判斷,并結(jié)合低優(yōu)勢(shì)性,加快策略網(wǎng)絡(luò)的收斂速度,戰(zhàn)場(chǎng)環(huán)境給出的獎(jiǎng)勵(lì)rt不斷提高價(jià)值網(wǎng)絡(luò)評(píng)分的專業(yè)性和準(zhǔn)確性(更新θ),使價(jià)值網(wǎng)絡(luò)的打分更加合理。

    2.5 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)的構(gòu)建

    在策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)中將當(dāng)前戰(zhàn)場(chǎng)狀態(tài)提取為特征向量,因此在特征提取時(shí)可共用卷積層與池化層。輸入信息首先經(jīng)過(guò)3 層全卷積網(wǎng)絡(luò),分別使用32、64、128 個(gè)3×3 的過(guò)濾器,設(shè)置為ReLU 激活函數(shù),以避免神經(jīng)元節(jié)點(diǎn)輸出恒為0 的問(wèn)題,緩解了梯度消失問(wèn)題。公共卷積層將提取到的特征向量分別輸入到策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。

    公共卷積層通過(guò)共享權(quán)重增加效率和泛化能力,經(jīng)過(guò)3 層全卷積網(wǎng)絡(luò)所提取的特征向量后,包含戰(zhàn)場(chǎng)環(huán)境的局部特征,如地形的邊緣、地形類別等,還包括戰(zhàn)場(chǎng)的全局特征,如戰(zhàn)場(chǎng)布局與比例等。這些信息有助于策略網(wǎng)絡(luò)生成合理的動(dòng)作概率集,如根據(jù)地形類別特征幫助機(jī)動(dòng)決策規(guī)劃,根據(jù)戰(zhàn)場(chǎng)布局特征幫助尋找合理的直瞄打擊位置。

    對(duì)于策略網(wǎng)絡(luò),設(shè)置4 個(gè)1×1 的過(guò)濾器進(jìn)行降維處理,再接1 個(gè)全連接層,使用Softmax 激活函數(shù)對(duì)輸出信息進(jìn)行歸一化處理,輸出兵棋的可行動(dòng)作概率,供智能體AI 進(jìn)行動(dòng)作選擇。

    對(duì)于價(jià)值網(wǎng)絡(luò),設(shè)置4 個(gè)1×1 的過(guò)濾器進(jìn)行降維處理,再設(shè)置1 個(gè)具有64 個(gè)神經(jīng)元的全連接層,最后再接1 個(gè)使用Tanh 激活函數(shù)的全連接層,將輸出信息約束到[-1,1]之間作為戰(zhàn)場(chǎng)狀態(tài)好壞的評(píng)分。

    本文的價(jià)值網(wǎng)絡(luò)是對(duì)狀態(tài)-價(jià)值函數(shù)Vπ的近似,而非傳統(tǒng)動(dòng)作-價(jià)值函數(shù)Qπ的近似。價(jià)值網(wǎng)絡(luò)與策略網(wǎng)絡(luò)都設(shè)置了過(guò)濾器進(jìn)行降維處理,從而將輸入的高維狀態(tài)矩陣降維到1 個(gè)較低維度的特征空間。這種降維操作可能會(huì)丟失輸入狀態(tài)矩陣中的某些特征信息,導(dǎo)致在計(jì)算過(guò)程時(shí)出現(xiàn)偏差。若降維操作過(guò)于強(qiáng)烈,可能會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)欠擬合現(xiàn)象。但是,降維操作可以大幅降低神經(jīng)網(wǎng)絡(luò)的計(jì)算量,有效減少神經(jīng)網(wǎng)絡(luò)的參數(shù)量并縮短計(jì)算時(shí)間,提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,通過(guò)降低輸入矩陣維度,從而降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,進(jìn)而減少神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合的風(fēng)險(xiǎn)。本文在實(shí)驗(yàn)中不斷調(diào)整過(guò)濾器數(shù)量,以選擇適當(dāng)?shù)慕稻S策略,最終將過(guò)濾器數(shù)量設(shè)置為4,使神經(jīng)網(wǎng)絡(luò)在保證準(zhǔn)確性、計(jì)算效率和泛化能力的同時(shí)降低過(guò)擬合出現(xiàn)概率。

    智能體狀態(tài)空間由4 個(gè)二值矩陣和1 個(gè)多值矩陣描述,并作為輸入信息輸入到低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)中。低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)的輸入矩陣如圖3所示。

    圖3 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)的輸入矩陣Fig.3 Input matrix of low advantage policy-value network

    根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)感知信息,分別構(gòu)造地形矩陣、兵棋位置矩陣(我方兵棋位置矩陣和敵方兵棋位置矩陣)、敵方上一步矩陣、是否為先手矩陣。

    地形矩陣反映地圖上每個(gè)位置的地形類型,如平坦地、山地、灘涂等。地形可以影響部隊(duì)的機(jī)動(dòng)速度、隱蔽性、攻擊防御力等方面,對(duì)作戰(zhàn)有著非常重要的影響。

    兵棋位置矩陣記錄了每個(gè)兵棋在地圖上的位置,由于兵棋的種類、數(shù)量、位置等都會(huì)對(duì)作戰(zhàn)結(jié)果產(chǎn)生重要影響,因此加入位置矩陣可直接反映兵棋位置,間接反映兵棋數(shù)量。策略網(wǎng)絡(luò)通過(guò)兵棋位置矩陣可以更充分了解戰(zhàn)場(chǎng)上的兵棋分布情況,從而制定更加合理的戰(zhàn)術(shù)。在本文中,我方兵棋位置矩陣描述當(dāng)前己方部隊(duì)以及友軍的情況。敵方兵棋位置矩陣描述敵方部隊(duì)情況。

    敵方上一步矩陣記錄了上一個(gè)動(dòng)作對(duì)應(yīng)的狀態(tài)矩陣,策略網(wǎng)絡(luò)通過(guò)上一步矩陣可充分了解到戰(zhàn)場(chǎng)狀態(tài)的變化情況,從而更準(zhǔn)確預(yù)測(cè)下一步可能的變化趨勢(shì),有助于策略網(wǎng)絡(luò)學(xué)習(xí)作戰(zhàn)的規(guī)則和戰(zhàn)術(shù)。在本文中,敵方上一步矩陣描述敵方情況。

    是否為先手矩陣記錄了當(dāng)前局面是先手還是后手,該因素對(duì)作戰(zhàn)對(duì)抗的勝負(fù)非常重要。先手可率先展開攻勢(shì),占據(jù)更有利的位置。因此,是否為先手矩陣的加入是有必要的。

    這4 類矩陣的加入使神經(jīng)網(wǎng)絡(luò)更全面地了解戰(zhàn)場(chǎng)狀態(tài)和作戰(zhàn)規(guī)則,從而更準(zhǔn)確預(yù)測(cè)下一步?jīng)Q策,制定更加合理的戰(zhàn)術(shù)。

    策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的公共卷積層將從輸入信息中提取棋盤狀態(tài)的特征形成特征向量,將特征向量分別交給策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)進(jìn)行后續(xù)處理。策略網(wǎng)絡(luò)輸出對(duì)于當(dāng)前戰(zhàn)場(chǎng)狀態(tài)下每個(gè)動(dòng)作的概率,供兵棋AI 參考動(dòng)作選擇。價(jià)值網(wǎng)絡(luò)輸出當(dāng)前戰(zhàn)場(chǎng)狀態(tài)對(duì)于兵棋AI的好壞,供策略網(wǎng)絡(luò)訓(xùn)練和博弈時(shí)參考。

    3 實(shí)驗(yàn)與結(jié)果分析

    3.1 實(shí)驗(yàn)環(huán)境與兵棋作戰(zhàn)環(huán)境定義

    本實(shí)驗(yàn)平臺(tái)硬件配置使用移動(dòng)版的NVIDA GeForce RTX3070 Ti顯卡,Python 編程語(yǔ) 言被用 于軟件配置上,具體的軟硬件配置如表1 所示。

    表1 實(shí)驗(yàn)配置軟硬件信息 Table 1 Experimental configuration software and hardware information

    為研究當(dāng)前算法的可行性,本文設(shè)置一種具有代表性的作戰(zhàn)場(chǎng)景,紅藍(lán)雙方圍繞島嶼奪控進(jìn)行兵棋推演,場(chǎng)景設(shè)計(jì)示意圖如圖4 所示。

    戰(zhàn)場(chǎng)環(huán)境大小為16×16,以六角格坐標(biāo)量化棋盤,這種六角格結(jié)構(gòu)使得相鄰的六角格之間可以沿6 個(gè)方向進(jìn)行機(jī)動(dòng)。從六角格的對(duì)稱性分析,在計(jì)算時(shí)其中心點(diǎn)到6 條邊的距離是相等的,并將距離設(shè)定為100 m。六角格可以更貼近實(shí)際作戰(zhàn)環(huán)境,適應(yīng)不規(guī)則形狀和不同大小的場(chǎng)景,如凹型與凸型環(huán)境。該場(chǎng)景主要包含水面、灘涂、平地和植被4 類地形。六角格戰(zhàn)場(chǎng)環(huán)境參數(shù)說(shuō)明如表2 所示。

    表2 六角格戰(zhàn)場(chǎng)環(huán)境參數(shù) Table 2 Parameters of hexagonal grid battlefield environmental

    六角格戰(zhàn)場(chǎng)環(huán)境的地形決定其通行等級(jí)與限制等級(jí)的數(shù)值,數(shù)值越高,通行難度越大。地形與通行等級(jí)和限制等級(jí)的關(guān)系如表3 所示。

    表3 地形與通行等級(jí)和限制等級(jí)的關(guān)系 Table 3 Relationship between terrain and passability levels and restriction levels

    平坦地與疏林的限制等級(jí)與通行等級(jí)都為1,對(duì)機(jī)動(dòng)值的消耗最少。沙泥灘、沙礫灘和密林的限制等級(jí)為1,通行等級(jí)為2,對(duì)機(jī)動(dòng)值消耗較高。在只有為平坦地和疏林的戰(zhàn)場(chǎng)環(huán)境中,兵棋1 個(gè)回合最多能走4 格,而在沙泥灘、沙礫灘、密林等這類地形中,最多能走2 格。深海的限制等級(jí)與通行等級(jí)最高,兵棋一般是無(wú)法進(jìn)行機(jī)動(dòng)的。

    高程變化從0~50,每增加1,平均海拔高度增加10 m,紅藍(lán)雙方的所有棋子在該場(chǎng)景內(nèi)對(duì)抗。本文實(shí)驗(yàn)所設(shè)定的主要戰(zhàn)役規(guī)則如下:

    1)戰(zhàn)役最終勝利目標(biāo)為殲滅敵方單位,雙方初始血量為100,任意一方數(shù)量歸零則戰(zhàn)役結(jié)束,表明另一方奪控了島嶼。

    2)在每次迭代開始時(shí),紅藍(lán)棋子的初始位置在島嶼中隨機(jī)產(chǎn)生,且不會(huì)出現(xiàn)在彼此射程之內(nèi),以增加戰(zhàn)役的隨機(jī)性,使得每次戰(zhàn)斗都具有一定的不確定性,智能體需要靈活應(yīng)對(duì)。

    3)雙方擁有相同的武器裝備,當(dāng)執(zhí)行射擊直瞄時(shí),按距離增加造成的傷害逐步減小,直至超出射程無(wú)法射擊。當(dāng)執(zhí)行射擊間瞄時(shí),通過(guò)貝塔分布進(jìn)行傷害修正,以模擬現(xiàn)實(shí)中的射擊情況,智能體在射擊時(shí)對(duì)距離和瞄準(zhǔn)進(jìn)行權(quán)衡,以達(dá)到最佳的戰(zhàn)術(shù)效果。

    4)該場(chǎng)景中兵棋自身觀測(cè)范圍是有限的,同時(shí)高程差與地形也會(huì)影響射擊通視情況,可能無(wú)法準(zhǔn)確命中目標(biāo)。為模擬現(xiàn)實(shí)中復(fù)雜的戰(zhàn)場(chǎng)環(huán)境,智能體通過(guò)觀測(cè)和推理來(lái)確定目標(biāo)位置和可行的決策方案,以便更好地應(yīng)對(duì)戰(zhàn)斗情況。

    5)六角格間高程差與地形的限制等級(jí)會(huì)影響棋子能否機(jī)動(dòng)進(jìn)入該六角格,地形的通行等級(jí)會(huì)影響棋子的機(jī)動(dòng)性能。為模擬地形的復(fù)雜性和機(jī)動(dòng)力的不同,智能體需要根據(jù)環(huán)境狀態(tài)矩陣中包含的地形信息和自身狀態(tài)進(jìn)行合理移動(dòng)決策,以便更好地適應(yīng)戰(zhàn)斗環(huán)境并實(shí)現(xiàn)作戰(zhàn)目標(biāo)。

    該作戰(zhàn)規(guī)則的實(shí)際性較高,殲滅敵方單位也是一種常見的勝利目標(biāo),雙方初始血量為100 也能夠反映兵棋在戰(zhàn)斗中的真實(shí)受損情況與作戰(zhàn)時(shí)的持久性。同時(shí),兵棋初始位置的隨機(jī)性能增加戰(zhàn)術(shù)的多樣性。武器裝備產(chǎn)生的傷害按距離增加逐漸減小也符合實(shí)際射擊的物理規(guī)律,而間瞄時(shí)按貝塔分布進(jìn)行傷害修正也能更全面地考慮移動(dòng)射擊時(shí)對(duì)于打擊精度的影響。在實(shí)際作戰(zhàn)中六角格間的高程差和地形對(duì)機(jī)動(dòng)進(jìn)入該六角格的限制也是需要考慮的因素之一。同時(shí),該規(guī)則較為簡(jiǎn)單,不涉及復(fù)雜的戰(zhàn)術(shù)和策略,易于理解和操作,因此具有一定的普適性。除此之外,在一些實(shí)際戰(zhàn)斗中需要考慮兵棋有限的觀測(cè)范圍以及地形對(duì)通視情況的影響,因此,這些規(guī)則應(yīng)用于不同的戰(zhàn)場(chǎng)環(huán)境中,例如城市、叢林、沙漠等不同類型的地形。但是,該規(guī)則也存在一定的局限性,由于不同類型的戰(zhàn)斗可能存在其他不同的勝利目標(biāo),因此需要根據(jù)實(shí)際情況進(jìn)行調(diào)整。

    該推演實(shí)驗(yàn)博弈過(guò)程、規(guī)則和勝負(fù)標(biāo)準(zhǔn)具有一定的代表性,并且在實(shí)驗(yàn)驗(yàn)證過(guò)程和方法對(duì)比上有利于分析與驗(yàn)證。

    3.2 實(shí)驗(yàn)結(jié)果

    本文對(duì)該低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型和文獻(xiàn)[23]所提的傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)模型運(yùn)用于兵棋問(wèn)題環(huán)境中并進(jìn)行訓(xùn)練,訓(xùn)練效果對(duì)比如圖5所示。

    圖5 低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)和傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的損失值下降趨勢(shì)Fig.5 Decrease trend of loss values between low advantage policy-value network and traditional policy-value network

    從圖5 可以看出,在400 次自博弈對(duì)抗訓(xùn)練中,2 種模型的損失函數(shù)總體呈下降趨勢(shì)。低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)損失值從開始的5.3 下降到2.3,并且在前300 次迭代訓(xùn)練中,損失值下降較快,之后下降的趨勢(shì)比較平緩。傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)的損失值從5.7 下降至3.0,并且在前100 次迭代訓(xùn)練中,損失值下降較快,在100~250 次迭代訓(xùn)練中下降趨勢(shì)較為平緩,之后下降較快。因此,引入Baseline 的低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型損失值下降的趨勢(shì)與效果都優(yōu)于傳統(tǒng)策略-價(jià)值網(wǎng)絡(luò)模型。

    為評(píng)估低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型對(duì)真實(shí)策略的擬合度,本文引入文獻(xiàn)[24]所提的KL 散度進(jìn)行評(píng)測(cè),KL 散度趨勢(shì)如圖6 所示。

    圖6 KL 散度趨勢(shì)Fig.6 Trend of KL divergence

    從圖6 可以看出,低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型進(jìn)行400 次迭代訓(xùn)練,KL 散度在剛開始訓(xùn)練時(shí)比較振蕩。隨著迭代訓(xùn)練次數(shù)的增加,KL 散度值越來(lái)越平穩(wěn),并且非常接近于0,說(shuō)明低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的擬合策略近似其真實(shí)策略,在該實(shí)驗(yàn)場(chǎng)景中能得到最優(yōu)策略。

    在進(jìn)行博弈訓(xùn)練時(shí),本文將蒙特卡洛樹搜索算法(MCTS)[25-26]作為對(duì)抗方參與同低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的訓(xùn)練。當(dāng)?shù)蛢?yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型迭代訓(xùn)練達(dá)50 次后,與MCTS 進(jìn)行博弈評(píng)估,進(jìn)行10 局對(duì)抗,并將定義的勝負(fù)率作為評(píng)估標(biāo)準(zhǔn)。勝負(fù)率的定義如下:

    其中:wwin為低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型的場(chǎng)數(shù);ttie為平局?jǐn)?shù)。表4 所示為在400 次迭代過(guò)程中MCTS 勝負(fù)率的變化,開始時(shí)MCTS 的搜索深度為1 000。MCTS 的勝負(fù)率變化趨勢(shì)如圖7 所示。

    表4 MCTS 的勝負(fù)率變化 Table 4 Changes in win-loss ratio of MCTS

    圖7 MCTS 的勝負(fù)率變化趨勢(shì)Fig.7 Change trend of win-loss ratio of MCTS

    在每50 次迭代訓(xùn)練的對(duì)弈中,若低優(yōu)勢(shì)策略-價(jià)值網(wǎng)絡(luò)模型10 局完勝時(shí),MCTS 算法的搜索深度將增加1 000,在提高其指揮決策能力的同時(shí)保存算法模型的參數(shù)。圖7 所示為進(jìn)行7 次模型評(píng)估,在第6 次對(duì)抗MCTS 算法獲取完勝后,本文將MCTS 的搜索深度提高到2 000,第7 次對(duì)抗僅負(fù)2 局,說(shuō)明在此迭代階段,模型已初步具備人類指揮員的作戰(zhàn)能力。

    為進(jìn)一步驗(yàn)證LAPVN 決策的合理性,本文將訓(xùn)練好的LAPVN 智能決策模型與文獻(xiàn)[27]所提的基于博弈樹搜索算法中極大值-極小值(Max-Min)、α-β剪枝搜索算法以及搜索深度為3 000 的MCTS算法分別進(jìn)行50 局對(duì)抗。由于博弈樹搜索算法適用于對(duì)稱性博弈,因此本文在此處的對(duì)比實(shí)驗(yàn)進(jìn)行修改,將作戰(zhàn)場(chǎng)景規(guī)則4)中兵棋的局部觀測(cè)修改為全局性觀測(cè),以式(19)的勝負(fù)率作為對(duì)比指標(biāo),實(shí)驗(yàn)結(jié)果如圖8 所示。

    圖8 不同網(wǎng)絡(luò)的博弈對(duì)抗Fig.8 Game adversaries among different networks

    從圖8(a)和圖8(b)可以看出,在兵棋推演對(duì)抗中LAPVN 的決策較為合理,博弈對(duì)抗時(shí)間也較短,同時(shí)從圖8(c)可以看出,LAPVN 與博弈樹搜索算法中2 類算法的勝負(fù)率在0.7 以上,對(duì)抗MCTS 算法的勝負(fù)比超過(guò)了0.7。

    4 結(jié)束語(yǔ)

    本文提出基于深度強(qiáng)化學(xué)習(xí)的智能兵棋推演決策方法。在策略梯度中引入狀態(tài)-價(jià)值函數(shù),實(shí)現(xiàn)對(duì)策略網(wǎng)絡(luò)的改進(jìn)。在理論推導(dǎo)與兵棋推演上的實(shí)驗(yàn)結(jié)果表明,在策略網(wǎng)絡(luò)更新時(shí)將狀態(tài)-價(jià)值函數(shù)作為Baseline,加快模型訓(xùn)練時(shí)的收斂速度,策略網(wǎng)絡(luò)對(duì)于真實(shí)策略函數(shù)的擬合程度也非常接近。隨著迭代訓(xùn)練的加深,該算法與MCTS 算法的對(duì)抗表現(xiàn)更優(yōu)的決策水平。下一步將對(duì)如何提高Baseline 中動(dòng)作-價(jià)值函數(shù)的擬合效率進(jìn)行研究,實(shí)現(xiàn)對(duì)價(jià)值網(wǎng)絡(luò)的改進(jìn)與優(yōu)化。

    猜你喜歡
    兵棋戰(zhàn)場(chǎng)梯度
    戰(zhàn)場(chǎng)上的神來(lái)之筆
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    C-130:戰(zhàn)場(chǎng)多面手
    貼秋膘還有三秒到達(dá)戰(zhàn)場(chǎng)
    意林(2020年20期)2020-11-06 04:06:14
    兵棋推演:未來(lái)戰(zhàn)爭(zhēng)的水晶球
    軍事文摘(2020年19期)2020-10-13 12:29:28
    一種自適應(yīng)Dai-Liao共軛梯度法
    基于兵棋推演實(shí)驗(yàn)的綜合評(píng)估指標(biāo)度量方法
    一類扭積形式的梯度近Ricci孤立子
    基于深度學(xué)習(xí)的兵棋實(shí)體決策效果智能評(píng)估模型
    基于混合Beta分布的兵棋推演可信度評(píng)估方法研究
    日本黄色日本黄色录像| 狠狠精品人妻久久久久久综合| 久久精品国产亚洲av天美| 国产精品不卡视频一区二区| 亚洲精品日韩在线中文字幕| 日本猛色少妇xxxxx猛交久久| 欧美成人a在线观看| 国产精品久久久久久精品古装| 大又大粗又爽又黄少妇毛片口| 性高湖久久久久久久久免费观看| 精品国产三级普通话版| 最近中文字幕高清免费大全6| 51国产日韩欧美| 久久国内精品自在自线图片| 亚洲精品aⅴ在线观看| 一级毛片黄色毛片免费观看视频| 天天躁夜夜躁狠狠久久av| 大话2 男鬼变身卡| 老司机影院毛片| 熟女电影av网| 黄色日韩在线| 伦理电影大哥的女人| 久久国产精品大桥未久av | 九九爱精品视频在线观看| 蜜桃亚洲精品一区二区三区| 久久久久国产网址| 美女主播在线视频| 天天躁日日操中文字幕| 中文字幕亚洲精品专区| 老司机影院毛片| 日韩制服骚丝袜av| 毛片女人毛片| 免费人成在线观看视频色| 日本-黄色视频高清免费观看| 亚洲伊人久久精品综合| av国产久精品久网站免费入址| 亚洲av不卡在线观看| 亚洲,欧美,日韩| 久久久午夜欧美精品| 多毛熟女@视频| 中文乱码字字幕精品一区二区三区| 观看免费一级毛片| 久久久久久九九精品二区国产| 一级毛片 在线播放| 六月丁香七月| 一级爰片在线观看| 国产淫片久久久久久久久| 亚洲美女搞黄在线观看| 大陆偷拍与自拍| 国产伦精品一区二区三区视频9| 一区二区三区四区激情视频| 精品亚洲乱码少妇综合久久| 免费观看av网站的网址| 免费久久久久久久精品成人欧美视频 | 性色avwww在线观看| 国产深夜福利视频在线观看| 全区人妻精品视频| 亚洲精品色激情综合| av卡一久久| 美女视频免费永久观看网站| 联通29元200g的流量卡| 韩国av在线不卡| 色吧在线观看| 哪个播放器可以免费观看大片| 国产精品无大码| 久久99热这里只有精品18| 观看av在线不卡| 日本av免费视频播放| 久久久久精品久久久久真实原创| 国产伦精品一区二区三区视频9| 久久久久久伊人网av| 男女下面进入的视频免费午夜| 男人舔奶头视频| 3wmmmm亚洲av在线观看| 亚洲一级一片aⅴ在线观看| 亚洲精品国产色婷婷电影| 在线观看免费高清a一片| 插阴视频在线观看视频| 青春草国产在线视频| av在线app专区| 欧美97在线视频| 国产探花极品一区二区| 身体一侧抽搐| freevideosex欧美| 亚洲性久久影院| 亚洲av欧美aⅴ国产| 精品一区二区免费观看| 青青草视频在线视频观看| 久久精品夜色国产| videos熟女内射| 免费大片黄手机在线观看| 免费人妻精品一区二区三区视频| 一区二区三区精品91| 国产成人免费观看mmmm| 欧美国产精品一级二级三级 | 亚洲aⅴ乱码一区二区在线播放| 建设人人有责人人尽责人人享有的 | 日韩国内少妇激情av| 亚洲精品久久久久久婷婷小说| 欧美精品国产亚洲| 欧美成人一区二区免费高清观看| 亚洲不卡免费看| 欧美+日韩+精品| 日本与韩国留学比较| 狂野欧美激情性xxxx在线观看| 下体分泌物呈黄色| 涩涩av久久男人的天堂| 成人免费观看视频高清| 一区在线观看完整版| 久久久久人妻精品一区果冻| 国产精品久久久久成人av| 亚洲国产成人一精品久久久| 国产一区二区三区综合在线观看 | 亚洲,一卡二卡三卡| 午夜激情福利司机影院| 久热这里只有精品99| 成人毛片60女人毛片免费| 97超视频在线观看视频| 午夜老司机福利剧场| 免费看av在线观看网站| 18+在线观看网站| 亚洲欧美精品自产自拍| 各种免费的搞黄视频| 插阴视频在线观看视频| 狠狠精品人妻久久久久久综合| 日本黄色日本黄色录像| 亚洲欧美精品专区久久| 国产成人精品婷婷| 丰满少妇做爰视频| 青春草国产在线视频| 日韩欧美一区视频在线观看 | 这个男人来自地球电影免费观看 | www.色视频.com| 久久综合国产亚洲精品| 国产片特级美女逼逼视频| 99久久人妻综合| 国产精品99久久久久久久久| 国产精品一区二区性色av| 一本—道久久a久久精品蜜桃钙片| 美女福利国产在线 | 看免费成人av毛片| av在线观看视频网站免费| 国产亚洲欧美精品永久| 国产成人免费无遮挡视频| 中文字幕免费在线视频6| 97超碰精品成人国产| av福利片在线观看| 男女下面进入的视频免费午夜| 天堂8中文在线网| 免费黄色在线免费观看| 国产在线男女| 亚洲av中文av极速乱| 97在线视频观看| 久久久久久久久大av| 日日撸夜夜添| av卡一久久| 熟妇人妻不卡中文字幕| 看十八女毛片水多多多| 免费观看a级毛片全部| 深爱激情五月婷婷| 麻豆精品久久久久久蜜桃| 午夜免费男女啪啪视频观看| 亚洲欧美一区二区三区黑人 | 女人十人毛片免费观看3o分钟| 国产乱人偷精品视频| 成人毛片60女人毛片免费| 久久综合国产亚洲精品| 日韩视频在线欧美| 国产精品偷伦视频观看了| 91精品伊人久久大香线蕉| 国产一区有黄有色的免费视频| 2022亚洲国产成人精品| 丰满少妇做爰视频| 免费看光身美女| 高清日韩中文字幕在线| 久久精品久久久久久久性| 成人高潮视频无遮挡免费网站| 99久久中文字幕三级久久日本| 免费黄色在线免费观看| 一级毛片黄色毛片免费观看视频| 国产黄片视频在线免费观看| 国产高清三级在线| 免费观看a级毛片全部| 免费观看的影片在线观看| 国产在线男女| 中国三级夫妇交换| 亚洲精品456在线播放app| 欧美三级亚洲精品| 天美传媒精品一区二区| 一级爰片在线观看| 日韩不卡一区二区三区视频在线| 99热6这里只有精品| 国产成人精品福利久久| 日本猛色少妇xxxxx猛交久久| 香蕉精品网在线| 肉色欧美久久久久久久蜜桃| 亚洲精品国产色婷婷电影| av卡一久久| av一本久久久久| 女性被躁到高潮视频| 久久精品久久久久久久性| 国产在线一区二区三区精| 免费看光身美女| 亚洲av中文av极速乱| 丰满人妻一区二区三区视频av| 亚洲,一卡二卡三卡| 亚洲精品国产av成人精品| 亚洲精品中文字幕在线视频 | 日韩伦理黄色片| 少妇的逼好多水| 美女cb高潮喷水在线观看| 久久久久久人妻| 国产毛片在线视频| 久久久亚洲精品成人影院| 亚洲国产欧美在线一区| 国语对白做爰xxxⅹ性视频网站| 80岁老熟妇乱子伦牲交| 国产精品国产三级国产av玫瑰| 青春草国产在线视频| 九九在线视频观看精品| 国产成人免费无遮挡视频| a级一级毛片免费在线观看| 精品国产乱码久久久久久小说| 国产淫片久久久久久久久| www.av在线官网国产| 黑人高潮一二区| 亚洲精品中文字幕在线视频 | 久久久午夜欧美精品| 精品久久久久久久末码| 大话2 男鬼变身卡| 久久6这里有精品| 联通29元200g的流量卡| 一级毛片 在线播放| 国产69精品久久久久777片| 欧美区成人在线视频| 99九九线精品视频在线观看视频| 午夜免费观看性视频| 3wmmmm亚洲av在线观看| 性色av一级| 日本-黄色视频高清免费观看| 久久久久久久精品精品| 另类亚洲欧美激情| 亚洲国产欧美在线一区| 直男gayav资源| 免费人妻精品一区二区三区视频| 国产美女午夜福利| 成年美女黄网站色视频大全免费 | 一级毛片电影观看| 青春草视频在线免费观看| 少妇被粗大猛烈的视频| 建设人人有责人人尽责人人享有的 | freevideosex欧美| 亚洲欧美中文字幕日韩二区| 九九在线视频观看精品| 毛片一级片免费看久久久久| 在线精品无人区一区二区三 | 亚洲欧美日韩东京热| 麻豆国产97在线/欧美| 欧美高清性xxxxhd video| 久久久亚洲精品成人影院| 一区二区三区乱码不卡18| 国产伦在线观看视频一区| 欧美精品国产亚洲| 国产一区有黄有色的免费视频| 精华霜和精华液先用哪个| 久久久久国产精品人妻一区二区| 午夜福利网站1000一区二区三区| 97热精品久久久久久| 亚洲国产精品999| 大码成人一级视频| tube8黄色片| 男女下面进入的视频免费午夜| 秋霞在线观看毛片| 天天躁夜夜躁狠狠久久av| 一级毛片我不卡| 久久精品国产亚洲av涩爱| 国产精品免费大片| 大又大粗又爽又黄少妇毛片口| 久久久成人免费电影| 蜜桃亚洲精品一区二区三区| 91aial.com中文字幕在线观看| 简卡轻食公司| 午夜福利网站1000一区二区三区| 热99国产精品久久久久久7| 看十八女毛片水多多多| 久久6这里有精品| 久久亚洲国产成人精品v| 青春草亚洲视频在线观看| 亚洲精品一区蜜桃| 国产伦精品一区二区三区视频9| 干丝袜人妻中文字幕| 91久久精品电影网| 国产精品久久久久久精品电影小说 | 搡老乐熟女国产| 国产高清三级在线| 爱豆传媒免费全集在线观看| 久久久a久久爽久久v久久| 视频区图区小说| 亚洲成人一二三区av| 熟女电影av网| 18禁裸乳无遮挡免费网站照片| 十八禁网站网址无遮挡 | 日韩一区二区三区影片| 日韩av不卡免费在线播放| 99久国产av精品国产电影| 夫妻性生交免费视频一级片| 亚洲国产精品一区三区| 午夜视频国产福利| 欧美国产精品一级二级三级 | 中文天堂在线官网| 亚洲精品日本国产第一区| 精品国产一区二区三区久久久樱花 | 91aial.com中文字幕在线观看| 又粗又硬又长又爽又黄的视频| 人妻少妇偷人精品九色| 一个人看视频在线观看www免费| 七月丁香在线播放| 嘟嘟电影网在线观看| 女人久久www免费人成看片| 日韩av不卡免费在线播放| 嫩草影院入口| 国产精品国产av在线观看| 亚洲精品自拍成人| 91久久精品国产一区二区成人| 丝瓜视频免费看黄片| 伦理电影大哥的女人| 午夜激情久久久久久久| 国产精品一区www在线观看| 九草在线视频观看| 各种免费的搞黄视频| 精品人妻熟女av久视频| 人妻一区二区av| 成人国产麻豆网| 狂野欧美激情性xxxx在线观看| 特大巨黑吊av在线直播| 尾随美女入室| 婷婷色综合大香蕉| 能在线免费看毛片的网站| 国产免费又黄又爽又色| 久久久午夜欧美精品| 久久国产亚洲av麻豆专区| 极品少妇高潮喷水抽搐| 人妻夜夜爽99麻豆av| 精品久久久久久久久av| 欧美3d第一页| 大香蕉久久网| 爱豆传媒免费全集在线观看| 国产69精品久久久久777片| videos熟女内射| 男人添女人高潮全过程视频| 久久久久久九九精品二区国产| 免费大片18禁| 99热这里只有精品一区| 成年美女黄网站色视频大全免费 | 精品人妻一区二区三区麻豆| 亚洲欧洲国产日韩| 又爽又黄a免费视频| 一区二区av电影网| 丝瓜视频免费看黄片| 男女下面进入的视频免费午夜| 亚洲av不卡在线观看| 欧美日韩精品成人综合77777| 国产v大片淫在线免费观看| 少妇人妻一区二区三区视频| 久热久热在线精品观看| 黄片wwwwww| 如何舔出高潮| 一区二区av电影网| 久久久a久久爽久久v久久| 中国三级夫妇交换| 亚洲人成网站高清观看| 一级片'在线观看视频| 九九爱精品视频在线观看| 黄色配什么色好看| 国产精品不卡视频一区二区| 欧美xxⅹ黑人| 高清av免费在线| av女优亚洲男人天堂| 亚洲精品一二三| 久久久久久伊人网av| 熟女人妻精品中文字幕| 另类亚洲欧美激情| 91aial.com中文字幕在线观看| 卡戴珊不雅视频在线播放| 国产深夜福利视频在线观看| 三级国产精品欧美在线观看| 久久ye,这里只有精品| 美女视频免费永久观看网站| 亚洲最大成人中文| www.色视频.com| 亚洲国产色片| 国产精品99久久久久久久久| 精品国产三级普通话版| 日韩 亚洲 欧美在线| 九草在线视频观看| 国产一区亚洲一区在线观看| 国产人妻一区二区三区在| 免费看光身美女| av又黄又爽大尺度在线免费看| 99热6这里只有精品| 女人久久www免费人成看片| 丰满人妻一区二区三区视频av| 国产美女午夜福利| .国产精品久久| 亚洲国产精品一区三区| 伊人久久国产一区二区| 免费高清在线观看视频在线观看| 成人无遮挡网站| 中国美白少妇内射xxxbb| 七月丁香在线播放| 91精品国产九色| 亚洲精品日韩在线中文字幕| 国产精品久久久久久精品古装| 婷婷色综合大香蕉| 国产日韩欧美亚洲二区| 九色成人免费人妻av| av视频免费观看在线观看| 国产精品精品国产色婷婷| 国产成人freesex在线| 毛片一级片免费看久久久久| 成年美女黄网站色视频大全免费 | 国产精品欧美亚洲77777| 亚洲欧美成人精品一区二区| 国产高清有码在线观看视频| 成人亚洲欧美一区二区av| 国产在视频线精品| 日韩人妻高清精品专区| 亚洲av综合色区一区| 少妇丰满av| 亚洲精品一区蜜桃| 一边亲一边摸免费视频| 麻豆成人av视频| 91在线精品国自产拍蜜月| 色综合色国产| 热99国产精品久久久久久7| 天天躁夜夜躁狠狠久久av| 99热这里只有是精品在线观看| 精品久久久久久久久亚洲| 日日啪夜夜爽| 2018国产大陆天天弄谢| 久久毛片免费看一区二区三区| 丰满迷人的少妇在线观看| 国产在线视频一区二区| 日韩免费高清中文字幕av| 午夜免费鲁丝| 一个人看视频在线观看www免费| 美女福利国产在线 | av免费在线看不卡| 国产老妇伦熟女老妇高清| 亚洲精品456在线播放app| 免费看光身美女| 大片电影免费在线观看免费| 涩涩av久久男人的天堂| 男女下面进入的视频免费午夜| 国产深夜福利视频在线观看| 国产亚洲欧美精品永久| 高清视频免费观看一区二区| 亚洲高清免费不卡视频| 午夜福利网站1000一区二区三区| 国产69精品久久久久777片| 亚洲欧洲国产日韩| 美女中出高潮动态图| 亚洲av电影在线观看一区二区三区| 伊人久久精品亚洲午夜| 18禁裸乳无遮挡免费网站照片| 欧美精品人与动牲交sv欧美| 国产v大片淫在线免费观看| 日日撸夜夜添| 人人妻人人看人人澡| 一区二区三区四区激情视频| 成年美女黄网站色视频大全免费 | 青青草视频在线视频观看| 黄色日韩在线| 水蜜桃什么品种好| 五月伊人婷婷丁香| 免费少妇av软件| 伦理电影免费视频| 性高湖久久久久久久久免费观看| 女性被躁到高潮视频| 国产精品福利在线免费观看| 高清在线视频一区二区三区| 丰满乱子伦码专区| 国产在线免费精品| 国产片特级美女逼逼视频| 亚洲欧美精品专区久久| 精品亚洲成a人片在线观看 | h日本视频在线播放| 五月天丁香电影| 一区二区三区精品91| 久久精品国产a三级三级三级| 国产亚洲欧美精品永久| 亚洲欧美日韩东京热| 插阴视频在线观看视频| 国产黄色免费在线视频| 99久久人妻综合| 色哟哟·www| 黄色配什么色好看| 国产淫片久久久久久久久| 亚洲欧美日韩无卡精品| 又黄又爽又刺激的免费视频.| 丰满乱子伦码专区| 成人亚洲精品一区在线观看 | 亚洲电影在线观看av| 久久久久国产精品人妻一区二区| 精品国产三级普通话版| av专区在线播放| 女人十人毛片免费观看3o分钟| 寂寞人妻少妇视频99o| a级毛色黄片| 色婷婷av一区二区三区视频| 午夜免费男女啪啪视频观看| 嫩草影院入口| 亚洲精品视频女| 中文字幕免费在线视频6| 大码成人一级视频| 伊人久久精品亚洲午夜| 女性被躁到高潮视频| 久久国产乱子免费精品| 国产成人精品一,二区| 99九九线精品视频在线观看视频| 黑丝袜美女国产一区| 在线免费观看不下载黄p国产| 欧美bdsm另类| 午夜免费观看性视频| 久久国产亚洲av麻豆专区| 欧美精品一区二区大全| 亚洲av不卡在线观看| 2018国产大陆天天弄谢| 大香蕉久久网| 人妻少妇偷人精品九色| 搡女人真爽免费视频火全软件| 国产欧美日韩精品一区二区| 91精品伊人久久大香线蕉| 久久热精品热| 亚洲精品一区蜜桃| 中国国产av一级| 熟女电影av网| 妹子高潮喷水视频| 777米奇影视久久| 久久精品国产亚洲av涩爱| 热99国产精品久久久久久7| 久久国产乱子免费精品| 联通29元200g的流量卡| 久久韩国三级中文字幕| 午夜日本视频在线| 乱码一卡2卡4卡精品| 18禁在线播放成人免费| 亚洲欧美精品自产自拍| 亚洲国产成人一精品久久久| 亚洲国产欧美人成| 国产白丝娇喘喷水9色精品| 最近的中文字幕免费完整| 久久99热这里只有精品18| 日韩在线高清观看一区二区三区| 欧美xxxx黑人xx丫x性爽| 午夜日本视频在线| 国产 一区 欧美 日韩| 色视频在线一区二区三区| 国产精品一区二区性色av| 久久久久久久国产电影| 伦理电影免费视频| 你懂的网址亚洲精品在线观看| 婷婷色av中文字幕| 中文精品一卡2卡3卡4更新| 国产在线视频一区二区| 黄色视频在线播放观看不卡| 精品一区二区免费观看| 亚洲性久久影院| 色婷婷久久久亚洲欧美| 视频区图区小说| kizo精华| 国内精品宾馆在线| 欧美bdsm另类| 国产精品人妻久久久久久| 日韩免费高清中文字幕av| 一区在线观看完整版| 男人添女人高潮全过程视频| 男男h啪啪无遮挡| 国产黄色免费在线视频| 国产高清三级在线| 欧美zozozo另类| 久久久午夜欧美精品| 少妇精品久久久久久久| 最近中文字幕高清免费大全6| 久久热精品热| 老师上课跳d突然被开到最大视频| 国产精品女同一区二区软件| 男女免费视频国产| 成年av动漫网址| 国产精品精品国产色婷婷| 寂寞人妻少妇视频99o| 免费黄网站久久成人精品| 91久久精品国产一区二区三区| 熟女电影av网| 中文字幕亚洲精品专区| 国产精品爽爽va在线观看网站| 免费观看av网站的网址| 亚洲精品国产av蜜桃| 91久久精品国产一区二区三区| av.在线天堂| 晚上一个人看的免费电影| 欧美国产精品一级二级三级 | 自拍欧美九色日韩亚洲蝌蚪91 | 一级毛片 在线播放| 日韩,欧美,国产一区二区三区| 97精品久久久久久久久久精品| 日日撸夜夜添| 黄色配什么色好看| 日韩一区二区三区影片| 又粗又硬又长又爽又黄的视频| 夫妻性生交免费视频一级片| 国产精品伦人一区二区| 国国产精品蜜臀av免费| 免费观看av网站的网址| 欧美成人午夜免费资源|