• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合先驗(yàn)知識(shí)的異構(gòu)多智能體強(qiáng)化學(xué)習(xí)算法研究

    2023-06-12 10:53:26周佳煒孫宇祥薛宇凡周獻(xiàn)中
    指揮控制與仿真 2023年3期
    關(guān)鍵詞:勝率敵方頻點(diǎn)

    周佳煒,孫宇祥,薛宇凡,項(xiàng) 祺,吳 瑩,周獻(xiàn)中

    (南京大學(xué),江蘇 南京 210093)

    目前,基于深度強(qiáng)化學(xué)習(xí)的機(jī)器學(xué)習(xí)方法受到越來(lái)越多的關(guān)注,更多的游戲通過(guò)訓(xùn)練智能體的方式與人類進(jìn)行人機(jī)對(duì)抗,典型代表有在圍棋領(lǐng)域獲得成功的AlphaGo以及在游戲《星際爭(zhēng)霸》人機(jī)對(duì)抗賽中獲得成功的AlphaStar等,越來(lái)越多的研究將深度強(qiáng)化學(xué)習(xí)方法融入RTS游戲領(lǐng)域[1-3]。如Ye D嘗試?yán)酶倪M(jìn)的PPO算法訓(xùn)練王者榮耀游戲中的英雄AI,取得了較好的訓(xùn)練效果[4]。Silver D設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)算法的訓(xùn)練框架,不需要游戲規(guī)則以外的任何人類知識(shí),可以讓AlphaGo自己訓(xùn)練,同樣達(dá)到了很高的智能性[5]。Barriga N利用深度強(qiáng)化學(xué)習(xí)技術(shù)和監(jiān)督策略學(xué)習(xí)改善RTS游戲的AI性能,取得了擊敗游戲內(nèi)置AI的成果[6]。大數(shù)據(jù)和人工智能技術(shù)加速運(yùn)用于戰(zhàn)略問(wèn)題研究,戰(zhàn)略博弈推演的智能化特征凸顯[7-8]。研究表明,人工智能在智能博弈對(duì)抗與推演方面受到廣泛關(guān)注,并在近年成為研究熱點(diǎn)[9-11]。但是,對(duì)寬泛條件下的收斂問(wèn)題以及收斂速度問(wèn)題,仍然缺乏有效的解決方法,特別是在對(duì)抗方面,采用強(qiáng)化學(xué)習(xí)算法使其具有高水平的智能性仍是當(dāng)前研究的難點(diǎn)。

    本文分析了當(dāng)前主流且成熟的多智能體強(qiáng)化學(xué)習(xí)算法,將先驗(yàn)知識(shí)與強(qiáng)化學(xué)習(xí)算法相結(jié)合,解決了強(qiáng)化學(xué)習(xí)算法在多智能體對(duì)抗訓(xùn)練初期效果一般且不能快速收斂的問(wèn)題,提升了多智能體博弈對(duì)抗中的算子智能性,同時(shí),在實(shí)驗(yàn)平臺(tái)中進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,PK-MADDPG在MaCA多智能體博弈平臺(tái)訓(xùn)練效果與收斂速度方面均有提升。

    1 基礎(chǔ)理論

    1.1 強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)屬于機(jī)器學(xué)習(xí)中的一類,是利用求解Bellman方程以解決交互問(wèn)題[12],進(jìn)而改善效果并最終達(dá)到預(yù)期效果的一種學(xué)習(xí)方式。強(qiáng)化學(xué)習(xí)使得智能體最終形成一種策略,在達(dá)成目的的同時(shí)使獲得的獎(jiǎng)勵(lì)值最大化[13]。Littman在20世紀(jì)90年代提出了以馬爾科夫決策過(guò)程(Markov Decision Process, MDP)為框架的多智能體強(qiáng)化學(xué)習(xí),將強(qiáng)化學(xué)習(xí)的思想和算法應(yīng)用到多智能體系統(tǒng)中,通常需考慮智能體間的競(jìng)爭(zhēng)、合作等關(guān)系[14-15]。馬爾科夫過(guò)程是強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,通過(guò)狀態(tài)與動(dòng)作建模,描述智能體與環(huán)境的交互過(guò)程[16]。一般地,MDP是由4個(gè)元素構(gòu)成的元組〈S,A,R,T〉表示[17]:

    1)S為有限狀態(tài)空間(State Space),包含Agent在環(huán)境中所有的狀態(tài);

    2)A為有限動(dòng)作空間(Action Space),包含Agent在每個(gè)狀態(tài)下可采取的所有動(dòng)作;

    在MDP中,Agent與環(huán)境交互如圖1所示。

    圖1 強(qiáng)化學(xué)習(xí)與環(huán)境交互示意圖Fig.1 Schematic diagram of interaction between reinforcement learning and environment

    (1)

    其中,Eπ表示策略下的期望值,γ∈[0,1)為折扣率(Discount Rate),k為后續(xù)時(shí)間周期,rt+k表示Agent在時(shí)間周期(t+k)上獲得的即時(shí)獎(jiǎng)賞。

    (2)

    (3)

    1.2 MADDPG算法

    Multi-agent Deep Deterministic Policy Gradient (MADDPG)算法是一種應(yīng)用在多智能體強(qiáng)化學(xué)習(xí)中的訓(xùn)練算法,由Open AI研究人員提出[19]。作為DDPG (Deep Deterministic Policy Gradient)的延伸,MADDPG算法基于Actor-Critic架構(gòu),可應(yīng)用于連續(xù)動(dòng)作空間,有如下特征:

    1)通過(guò)學(xué)習(xí)得到最優(yōu)策略,在應(yīng)用時(shí),僅借助局部信息就能給出最優(yōu)動(dòng)作;

    2)無(wú)需構(gòu)建環(huán)境的動(dòng)力學(xué)模型以及智能體間特殊通信需求;

    3)該算法可用于合作關(guān)系多智能體,同時(shí)適用于競(jìng)爭(zhēng)關(guān)系多智能體。

    MADDPG算法采用集中式訓(xùn)練,分布式執(zhí)行的方式。訓(xùn)練時(shí)采用集中式學(xué)習(xí)訓(xùn)練Critic與Actor,使用時(shí)Actor只需知道局部信息即可執(zhí)行[20]。同時(shí),對(duì)每個(gè)智能體訓(xùn)練多個(gè)策略,并基于所有策略的整體效果進(jìn)行優(yōu)化,以提高算法的穩(wěn)定性和魯棒性。該算法網(wǎng)絡(luò)結(jié)構(gòu)與更新方式如圖2所示。

    圖2 MADDPG算法網(wǎng)絡(luò)結(jié)構(gòu)與更新方式Fig.2 MADDPG algorithm network structure and update method

    MADDPG算法采用了類似DQN的雙網(wǎng)絡(luò)結(jié)構(gòu),Actor和Critic都擁有target和eval兩個(gè)網(wǎng)絡(luò)組成[21],在訓(xùn)練過(guò)

    程中,只有Actor和Critic的eval網(wǎng)絡(luò)進(jìn)行實(shí)際的參數(shù)訓(xùn)練,而target網(wǎng)絡(luò)只需要在一定訓(xùn)練迭代次數(shù)后,通過(guò)eval網(wǎng)絡(luò)進(jìn)行參數(shù)拷貝即可,這種設(shè)計(jì)使得MADDPG算法能夠保持比較穩(wěn)定的參數(shù)更新效果。

    2 PK-MADDPG

    2.1 PK-MADDPG算法

    為加快訓(xùn)練收斂,提升訓(xùn)練效果,本文對(duì)MADDPG進(jìn)行改進(jìn),對(duì)其結(jié)構(gòu)進(jìn)行優(yōu)化,形成基于先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的PK-MADDPG(Prior Knowledge-Multi-Agent Deep Deterministic Policy Gradient)。

    在PK-MADDPG的獎(jiǎng)賞函數(shù)設(shè)計(jì)上,本文考慮算子特征與全局目標(biāo)問(wèn)題,從個(gè)體回報(bào)與全局回報(bào)兩方面進(jìn)行獎(jiǎng)賞函數(shù)設(shè)置,根據(jù)每個(gè)回合的對(duì)抗結(jié)果設(shè)置獎(jiǎng)賞函數(shù)。若訓(xùn)練過(guò)程中每一步未獲得獎(jiǎng)勵(lì),容易導(dǎo)致稀疏獎(jiǎng)勵(lì),影響算法收斂,本文根據(jù)不同個(gè)體類型在對(duì)抗過(guò)程中的動(dòng)作選擇給予獎(jiǎng)勵(lì),優(yōu)化訓(xùn)練的收斂。為防止智能體在探索過(guò)程中陷入局部最優(yōu),在全局回報(bào)中加入智能體推演回合消耗,獲勝前,每多一個(gè)回合都會(huì)接收懲罰。具體獎(jiǎng)勵(lì)回報(bào)如表1、2所示。

    表1 個(gè)體回報(bào)定義Tab.1 Individual reward definition

    針對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練收斂問(wèn)題,本文融入先驗(yàn)知識(shí)進(jìn)行經(jīng)驗(yàn)優(yōu)先回放。對(duì)于先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的融合,本文對(duì)領(lǐng)域?qū)<医?jīng)驗(yàn)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)行動(dòng)序列數(shù)據(jù)分別進(jìn)行構(gòu)建。把領(lǐng)域?qū)<医?jīng)驗(yàn)數(shù)據(jù)轉(zhuǎn)化為對(duì)應(yīng)的狀態(tài)-行動(dòng)序列存儲(chǔ)到經(jīng)驗(yàn)池中,并計(jì)算得出先驗(yàn)知識(shí)QF值。針對(duì)領(lǐng)域?qū)<医?jīng)驗(yàn)數(shù)據(jù)從歷史勝率、敵我雙方相對(duì)實(shí)力、我方兵力三個(gè)因素考慮,進(jìn)行加權(quán)求和,并定義了獲勝回合數(shù)、總回合數(shù)、相對(duì)實(shí)力和兵力構(gòu)成(偵察機(jī)數(shù)量、戰(zhàn)斗機(jī)數(shù)量、導(dǎo)彈數(shù)量與敵方單位數(shù)量),以此來(lái)計(jì)算領(lǐng)域?qū)<医?jīng)驗(yàn)數(shù)據(jù)的Q值。具體計(jì)算公式如下:

    其中,k(·),g(·),h(·)分別表示歷史勝率、敵我雙方相對(duì)實(shí)力與我方兵力構(gòu)成,roundswin,roundsall表示獲勝回合數(shù)與比賽總合數(shù)?;贛ADDPG算法的狀態(tài)-行動(dòng)序列也存儲(chǔ)到經(jīng)驗(yàn)池中,同樣可以擬合出QP值。在推演過(guò)程中,每個(gè)固定step對(duì)QF和QP值進(jìn)行比較,選擇較大的Q值所對(duì)應(yīng)的動(dòng)作進(jìn)行執(zhí)行。

    除此之外,本文也對(duì)經(jīng)驗(yàn)提取機(jī)制進(jìn)行優(yōu)化。在實(shí)現(xiàn)經(jīng)驗(yàn)回放過(guò)程中,將先驗(yàn)知識(shí)存入經(jīng)驗(yàn)池,根據(jù)隨機(jī)優(yōu)先級(jí)和重要性采樣原理等進(jìn)行經(jīng)驗(yàn)抽樣,以此計(jì)算優(yōu)先值。利用隨機(jī)優(yōu)先級(jí)進(jìn)行經(jīng)驗(yàn)抽取可解決數(shù)據(jù)間的強(qiáng)相關(guān)性以及丟棄將來(lái)可能有用的經(jīng)驗(yàn)等問(wèn)題,同時(shí),通過(guò)重要性采樣的修正作用抑制由非均勻采樣帶來(lái)的誤差。隨機(jī)優(yōu)先級(jí)與重要性采樣系數(shù)如下:

    (5)

    (6)

    其中,P(i)表示隨機(jī)優(yōu)先采樣的概率,pi>0表示優(yōu)先級(jí),指數(shù)α決定使用多少優(yōu)先級(jí),α=0時(shí)對(duì)應(yīng)均勻分布;wi表示重要性采樣權(quán)重。根據(jù)求出的優(yōu)先值生成最小batch,傳入MADDPG算法進(jìn)行動(dòng)作選擇。通過(guò)與環(huán)境交互生成訓(xùn)練數(shù)據(jù),并將數(shù)據(jù)存入經(jīng)驗(yàn)池中進(jìn)行知識(shí)更新。經(jīng)驗(yàn)池劃分到部分內(nèi)存空間,設(shè)定內(nèi)存空間的大小,把分配的數(shù)組數(shù)據(jù)依次傳入并存儲(chǔ)。當(dāng)存儲(chǔ)空間大于內(nèi)存空間時(shí),剔除之前的數(shù)據(jù),同時(shí)不斷提取batch size大小的數(shù)據(jù)傳入學(xué)習(xí)模塊進(jìn)行策略網(wǎng)絡(luò)更新,從而降低loss函數(shù)。通過(guò)上述方式,實(shí)現(xiàn)先驗(yàn)知識(shí)的融入與經(jīng)驗(yàn)回放,提高M(jìn)ADDPG算法的訓(xùn)練效果。具體流程如圖3所示。

    圖3 先驗(yàn)知識(shí)優(yōu)先回放過(guò)程Fig.3 Prior knowledge priority playback process

    針對(duì)結(jié)構(gòu)調(diào)整,本文構(gòu)建了雙重Critic框架的MADDPG,同時(shí)最大化Global Reward和Local Reward,使得策略選擇向著使全局和局部Critic最大化的方向進(jìn)行。在此基礎(chǔ)上,使用雙延遲深度確定性策略梯度更新Local Critic網(wǎng)絡(luò),并使用經(jīng)驗(yàn)優(yōu)先回放來(lái)優(yōu)化先驗(yàn)知識(shí)提取,以此解決動(dòng)作價(jià)值函數(shù)過(guò)擬合問(wèn)題。如圖4所示,整個(gè)流程中,每個(gè)Agent均構(gòu)建一個(gè)Actor和Local Critic,每個(gè)Agent的Actor進(jìn)行動(dòng)作輸出和狀態(tài)輸出,存入Replay Buffer中。Critic網(wǎng)絡(luò)從各自的Replay Buffer中提取對(duì)應(yīng)的先驗(yàn)知識(shí),反向更新各自的Actor。通過(guò)構(gòu)建整體的Global Replay Buffer提取信息用以訓(xùn)練Global Critic,再反向指導(dǎo)各Actor提高訓(xùn)練效果。PK-MADDPG訓(xùn)練優(yōu)化使目標(biāo)沿著全局和局部均最大化的方向,避免可能出現(xiàn)的局部最優(yōu)問(wèn)題,同時(shí)可以利用TD3等方式進(jìn)一步優(yōu)化先驗(yàn)知識(shí)提取,解決過(guò)擬合等問(wèn)題。

    圖4 MADDPG模型改進(jìn)Fig.4 MADDPG model improvement

    2.2 PK-MADDPG訓(xùn)練流程

    基于Tensorflow和Gym兩個(gè)框架對(duì)改進(jìn)的PK-MADDPG算法進(jìn)行訓(xùn)練時(shí),在與環(huán)境交互中,可利用MaCA環(huán)境獲取回報(bào)值。訓(xùn)練基于對(duì)抗進(jìn)行,將改進(jìn)的PK-MADDPG智能體作為紅方,規(guī)則智能體作為藍(lán)方,具體對(duì)抗流程如下:

    1)初始化藍(lán)方規(guī)則智能體,初始化并獲取地圖尺度、探測(cè)單元和攻擊單元數(shù)量,實(shí)例化狀態(tài)信息重構(gòu)對(duì)象obs_convert,設(shè)定網(wǎng)絡(luò)輸出動(dòng)作空間維度為6(每個(gè)探測(cè)單元2個(gè)動(dòng)作,每個(gè)攻擊單元4個(gè)動(dòng)作),構(gòu)造動(dòng)作空間結(jié)構(gòu)action_space_n和狀態(tài)空間結(jié)構(gòu)obs_shape_n。

    2)根據(jù)action_space_n(動(dòng)作空間)、obs_shape_n (狀態(tài)空間)以及各類單元數(shù)量,實(shí)例化訓(xùn)練器trainers,并調(diào)用U.initialize()初始化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)。

    3)實(shí)例化Tensorflow存儲(chǔ)器對(duì)象saver,用于保存和讀取網(wǎng)絡(luò)參數(shù)。

    4)初始化total_reward用于存放各類單元回報(bào)值,初始化勝利計(jì)數(shù)常量,用于記錄訓(xùn)練過(guò)程中紅藍(lán)雙方各自勝利次數(shù)。

    5)對(duì)于每一個(gè)episode:

    ②對(duì)于每一個(gè)step:

    c)判斷各個(gè)智能體是否存活,是否到達(dá)邊界以及是否航向角度發(fā)生變化,并根據(jù)這些因素對(duì)相應(yīng)智能體的回報(bào)值進(jìn)行修改。

    d)判斷環(huán)境是否終止,由于一輪推演結(jié)束后才會(huì)輸出雙方round_reward,若終止,則判斷雙方round_reward高低,并將低的一方各單元reward減去round_reward,高的一方單元reward加上round_reward。

    f)對(duì)本次step產(chǎn)生的雙方的reward進(jìn)行匯總,便于后續(xù)輸出reward均值。

    g)對(duì)每一個(gè)Agent調(diào)用preupdate()函數(shù)和update()函數(shù),根據(jù)從經(jīng)驗(yàn)池中取得的樣本對(duì)其神經(jīng)網(wǎng)絡(luò)進(jìn)行參數(shù)更新。

    h)判斷是否滿足step終止條件,如果滿足,那么結(jié)束本次訓(xùn)練,并轉(zhuǎn)5)開(kāi)始新一輪訓(xùn)練,同時(shí)更新紅藍(lán)雙方勝利次數(shù)。

    i)判斷是否滿足保存模型條件,如果滿足,則進(jìn)行模型保存操作,同時(shí)輸出截至當(dāng)前回合中紅藍(lán)雙方勝利次數(shù)信息、各Agent的信息、reward均值信息以及所用時(shí)間。

    2.3 決策機(jī)制

    作戰(zhàn)單元決策是基于綜合規(guī)則和多智能體強(qiáng)化學(xué)習(xí)算法制定的。在實(shí)際對(duì)抗中,根據(jù)當(dāng)前狀態(tài)信息,首先使用基于規(guī)則的算法進(jìn)行決策,如果規(guī)則算法決策無(wú)效,則切換到強(qiáng)化學(xué)習(xí)算法進(jìn)行決策,Agent行為根據(jù)每次所選的決策采取適用于當(dāng)前對(duì)抗態(tài)勢(shì)的行動(dòng)。整體思路如圖5所示。

    圖5 決策生成機(jī)制Fig.5 Decision generation mechanism

    3 MaCA環(huán)境

    3.1 環(huán)境概述

    MaCA(Multi-agent Combat Arena)是由國(guó)內(nèi)某重點(diǎn)實(shí)驗(yàn)室發(fā)布的多智能體對(duì)抗算法研究、訓(xùn)練、測(cè)試和評(píng)估環(huán)境,可支持作戰(zhàn)場(chǎng)景和規(guī)模自定義,智能體數(shù)量和種類自定義,智能體特征和屬性自定義,支持智能體行為回報(bào)規(guī)則和回報(bào)值自定義等[23]。MaCA提供了一個(gè)電磁空間對(duì)抗的多智能體實(shí)驗(yàn)環(huán)境,環(huán)境中預(yù)設(shè)了兩種智能體類型:探測(cè)單元和攻擊單元。探測(cè)單元可模擬L、S波段雷達(dá)進(jìn)行全向探測(cè),支持多頻點(diǎn)切換[23];攻擊單元具備偵察、探測(cè)、干擾、打擊等功能,可模擬X波段雷達(dá)進(jìn)行指向性探測(cè),模擬L、S、X頻段干擾設(shè)備進(jìn)行阻塞式和瞄準(zhǔn)式電子干擾,支持多頻點(diǎn)切換,攻擊單元還可對(duì)對(duì)方智能體進(jìn)行導(dǎo)彈攻擊,同時(shí)具有無(wú)源偵測(cè)能力,可模擬多站無(wú)源協(xié)同定位和輻射源特征識(shí)別。

    MaCA環(huán)境為研究利用人工智能方法解決大規(guī)模多智能體分布式對(duì)抗問(wèn)題提供了很好的支撐,專門(mén)面向多智能體深度強(qiáng)化學(xué)習(xí)開(kāi)放了RL-API接口[23]。環(huán)境支持使用Python語(yǔ)言進(jìn)行算法實(shí)現(xiàn),并可調(diào)用Tensorflow、Pytorch等常用深度學(xué)習(xí)框架。

    3.2 MaCA環(huán)境與算法交互關(guān)系

    MaCA環(huán)境支持紅藍(lán)雙方智能算法在設(shè)定地圖場(chǎng)景中進(jìn)行對(duì)抗博弈,最終進(jìn)行對(duì)抗的算法可以是基于規(guī)則直接實(shí)現(xiàn)的,也可以是基于強(qiáng)化學(xué)習(xí)等方法訓(xùn)練后得到的模型,環(huán)境中預(yù)先制定了簡(jiǎn)單的基于規(guī)則實(shí)現(xiàn)的對(duì)抗算法。設(shè)計(jì)MaCA環(huán)境的主要目的是促進(jìn)多智能體強(qiáng)化學(xué)習(xí)方法在智能對(duì)抗領(lǐng)域的研究與應(yīng)用。強(qiáng)化學(xué)習(xí)算法與環(huán)境交互過(guò)程可以分為兩個(gè)階段:一是訓(xùn)練階段,通過(guò)收集算法與環(huán)境交互的實(shí)時(shí)數(shù)據(jù)更新模型參數(shù);二是訓(xùn)練完成之后通過(guò)調(diào)用訓(xùn)練好的模型與其他對(duì)手進(jìn)行對(duì)抗。

    4 先驗(yàn)知識(shí)說(shuō)明

    本文結(jié)合MaCA對(duì)抗的任務(wù)特點(diǎn),參照專業(yè)選手采取的行動(dòng)策略,設(shè)計(jì)規(guī)則算法,同時(shí)將其作為先驗(yàn)知識(shí)的補(bǔ)充和完善。規(guī)則算法中針對(duì)不同作戰(zhàn)動(dòng)作的策略設(shè)計(jì)詳見(jiàn)攻擊策略、干擾頻點(diǎn)設(shè)置策略及躲避策略。為提高算法訓(xùn)練的適應(yīng)性,本文重構(gòu)了從仿真對(duì)抗環(huán)境獲取的原始態(tài)勢(shì)。

    4.1 具體先驗(yàn)知識(shí)設(shè)計(jì)

    4.1.1 攻擊策略

    對(duì)于處在我方任何攻擊單元攻擊范圍以外的敵方單元,我方將比較戰(zhàn)機(jī)間的相對(duì)距離,由距敵最近的我方空閑攻擊單元進(jìn)行追蹤。同時(shí),限制追蹤同一敵方的我方攻擊單元數(shù)量,以保證追蹤的有效性和剩余攻擊資源的充足性。

    對(duì)于處在攻擊范圍內(nèi)的敵方單元,統(tǒng)籌分配我方空閑的作戰(zhàn)單元,具體原則如下:

    1)盡可能地攻擊在我方攻擊范圍之內(nèi)的所有敵方單元;

    2)攻擊任務(wù)分配采用基于優(yōu)化的貪心算法實(shí)現(xiàn);

    3)為節(jié)約彈藥,對(duì)同一敵方單元進(jìn)行攻擊時(shí),限定我方攻擊單元的數(shù)量;

    4)為提高導(dǎo)彈命中率,擴(kuò)大偵察單元雷達(dá)照射范圍,指引在途任務(wù)的單元完成相關(guān)動(dòng)作任務(wù);

    5)為提高命中率,在發(fā)動(dòng)攻擊時(shí)調(diào)整我方攻擊航向,保持正面接敵。

    4.1.2 干擾頻點(diǎn)設(shè)置策略

    考慮敵方雷達(dá)頻點(diǎn)具有周期性變化規(guī)律,干擾頻點(diǎn)策略主要采用在線學(xué)習(xí)預(yù)測(cè)方式,包括學(xué)習(xí)過(guò)程與預(yù)測(cè)過(guò)程兩部分。

    學(xué)習(xí)過(guò)程從進(jìn)入推演開(kāi)始貫穿整個(gè)推演過(guò)程。其具體過(guò)程如下:

    1)獲取某敵機(jī)雷達(dá)頻點(diǎn)的變化,以三個(gè)連續(xù)時(shí)間點(diǎn)內(nèi)的變化情況作為樣本;

    2)按時(shí)序組合前兩個(gè)頻點(diǎn)作為特征,預(yù)測(cè)并存儲(chǔ)第三個(gè)頻點(diǎn)的概率分布[22]。

    預(yù)測(cè)過(guò)程是從推演的第二輪起,直至整個(gè)推演過(guò)程結(jié)束。在預(yù)測(cè)過(guò)程中,統(tǒng)計(jì)每次預(yù)測(cè)結(jié)果與實(shí)際結(jié)果的相同次數(shù),從而得出預(yù)測(cè)過(guò)程中的算法成功率。預(yù)先設(shè)定成功率閾值(默認(rèn)0.95),通過(guò)比較成功率來(lái)判斷預(yù)測(cè)模塊的結(jié)果是否有效[22],然后決定后續(xù)對(duì)抗中是否使用獲得的預(yù)測(cè)結(jié)果。具體判斷方式如下:

    1)若預(yù)測(cè)成功率高于閾值,則表明學(xué)習(xí)過(guò)程和預(yù)測(cè)過(guò)程的結(jié)果與敵方雷達(dá)頻點(diǎn)的變化具有相同規(guī)律,可使用預(yù)測(cè)的結(jié)果;

    2)若低于閾值,則表明學(xué)習(xí)過(guò)程和預(yù)測(cè)過(guò)程的結(jié)果與敵方雷達(dá)頻點(diǎn)變化的規(guī)律不同,故不可使用預(yù)測(cè)的結(jié)果,且將干擾模式設(shè)置為阻塞式干擾。

    4.1.3 躲避策略

    我方算子偵察獲取敵方算子在連續(xù)兩個(gè)step的態(tài)勢(shì)信息,計(jì)算出敵方算子可能機(jī)動(dòng)的航向,結(jié)合上一個(gè)step中我方算子的信息,推算敵方算子追蹤我方算子時(shí)可能采取的航向等信息。根據(jù)推測(cè)結(jié)果,調(diào)度我方相應(yīng)的偵察單元與無(wú)攻擊能力的攻擊單元做出躲避動(dòng)作。

    4.2 狀態(tài)信息重構(gòu)

    為了更好地適應(yīng)訓(xùn)練,本文對(duì)仿真對(duì)抗環(huán)境獲取的原始態(tài)勢(shì)進(jìn)行重構(gòu),包括探測(cè)單元態(tài)勢(shì)重構(gòu)與攻擊單元態(tài)勢(shì)重構(gòu)。

    4.2.1 探測(cè)單元態(tài)勢(shì)重構(gòu)

    本文分別對(duì)異構(gòu)環(huán)境中我方所具有的2個(gè)探測(cè)單元進(jìn)行狀態(tài)信息組織,具體如下。

    1)我方基本屬性:該算子存活狀態(tài)、X坐標(biāo)、Y坐標(biāo)、航向、雷達(dá)狀態(tài)以及雷達(dá)頻點(diǎn);

    2)友方基本信息:與友方另一探測(cè)單元的距離、與友方所有攻擊單元的距離;

    3)敵方基本信息:與雷達(dá)發(fā)現(xiàn)的所有敵方單元的距離。

    4.2.2 攻擊單元態(tài)勢(shì)重構(gòu)

    異構(gòu)環(huán)境中我方10個(gè)攻擊單元的狀態(tài)信息組織如下。

    1)我方基本屬性:算子存活狀態(tài)、X坐標(biāo)、Y坐標(biāo)、航向、雷達(dá)狀態(tài)、雷達(dá)頻點(diǎn)、干擾雷達(dá)狀態(tài)、干擾雷達(dá)頻點(diǎn)、遠(yuǎn)程導(dǎo)彈數(shù)量以及中程導(dǎo)彈數(shù)量;

    2)友方基本信息:與友方所有探測(cè)單元的距離、與友方其他存活攻擊單元的距離;

    3)敵方基本信息:與雷達(dá)主動(dòng)觀測(cè)到的敵方單元的距離、與干擾雷達(dá)被動(dòng)觀測(cè)到的敵方單元的距離、敵方單元的方向以及敵方單元的雷達(dá)頻點(diǎn)。

    5 實(shí)驗(yàn)仿真設(shè)計(jì)

    5.1 配置及運(yùn)行說(shuō)明

    MaCA環(huán)境適用于Linux 64-bit 、Mac OS及windows10 x64操作系統(tǒng),通過(guò)Pycharm進(jìn)行Python環(huán)境配置,使用Tensorflow強(qiáng)化學(xué)習(xí)框架。在MaCA根目錄中運(yùn)行相關(guān)py文件,將其“Work Directory”均設(shè)置為MaCA根目錄。

    5.2 超參數(shù)設(shè)計(jì)

    強(qiáng)化學(xué)習(xí)的actor與critic神經(jīng)網(wǎng)絡(luò)均使用兩個(gè)隱藏層,每個(gè)隱藏層包含64個(gè)全連接神經(jīng)元。訓(xùn)練過(guò)程中使用的超參數(shù)如表3所示。

    表3 超參數(shù)設(shè)置Tab.3 Hyperparameter setting

    5.3 MaCA環(huán)境仿真

    5.3.1 異構(gòu)多智能體環(huán)境設(shè)置

    本文基于MaCA環(huán)境開(kāi)展實(shí)驗(yàn)仿真,分析融合規(guī)則算法的深度強(qiáng)化學(xué)習(xí)MADDPG算法在多智能體博弈對(duì)抗中的實(shí)際使用效果。MaCA支持紅藍(lán)雙方多智能體在設(shè)定的地圖場(chǎng)景中進(jìn)行博弈對(duì)抗,在異構(gòu)地圖中對(duì)戰(zhàn)雙方各擁有12個(gè)不同屬性的攻擊單元和探測(cè)單元,探測(cè)單元具備偵察和探測(cè)功能,攻擊單元具備偵察、探測(cè)、干擾和打擊等功能,具體信息如表4所示。紅藍(lán)雙方作戰(zhàn)單元接敵開(kāi)始對(duì)抗,當(dāng)一輪對(duì)戰(zhàn)符合結(jié)束規(guī)則時(shí),本輪結(jié)束并進(jìn)行勝負(fù)判定。若一方被全部擊毀,判定另一方完勝;若雙方導(dǎo)彈存量為0或達(dá)到最大step,判定剩余作戰(zhàn)單元數(shù)量多的一方獲勝;若雙方作戰(zhàn)單元全部被擊毀,判定為平局。當(dāng)雙方導(dǎo)彈存量為0或達(dá)到最大step時(shí),雙方存活作戰(zhàn)單元數(shù)量相同的情況下,也判定為平局。MaCA異構(gòu)多智能體環(huán)境中紅藍(lán)雙方作戰(zhàn)單元與偵察單元初始配置情況如圖6所示。

    表4 MaCA異構(gòu)多智能體單元屬性Tab.4 Properties of MaCA heterogeneous multi-agent unit

    圖6 MaCA異構(gòu)多智能體地圖Fig.6 MaCA heterogeneous multi-agent map

    5.3.2 實(shí)驗(yàn)結(jié)果與分析

    本文利用基于先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)的PK-MADDPG算法與MADDPG算法、基準(zhǔn)規(guī)則算法進(jìn)行勝率比較分析。首先,對(duì)基準(zhǔn)規(guī)則算法進(jìn)行實(shí)驗(yàn),將紅藍(lán)雙方智能體均基于規(guī)則算法進(jìn)行博弈對(duì)抗;將MADDPG算法用于紅方,基準(zhǔn)規(guī)則算法用于藍(lán)方算法,獲取強(qiáng)化學(xué)習(xí)算法在異構(gòu)多智能體環(huán)境中的效果;然后,將PK-MADDPG作用于紅方智能體,將基準(zhǔn)規(guī)則算法作用于藍(lán)方智能體,驗(yàn)證本文算法在實(shí)驗(yàn)中的實(shí)際效果。比較3類實(shí)驗(yàn)在博弈對(duì)抗500局中的勝率,實(shí)驗(yàn)勝率結(jié)果如圖7~10所示,紅藍(lán)雙方對(duì)抗獲勝次數(shù)如表5~8所示。從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),MADDPG算法較傳統(tǒng)規(guī)則算法能提高博弈對(duì)抗勝率,但在實(shí)驗(yàn)初期收斂較慢;而PK-MADDPG算法的Agent勝率提高效果明顯,在利用先驗(yàn)知識(shí)的情況下能夠使訓(xùn)練收斂較快,紅方使用PK-MADDPG算法對(duì)抗藍(lán)方規(guī)則算法時(shí),勝率維持在90%以上。同時(shí),在實(shí)驗(yàn)中,將PK-MADDPG與MADDPG算法進(jìn)行對(duì)比可知:1)在同樣對(duì)抗基準(zhǔn)規(guī)則AI下,曲線在100回合左右時(shí),PK-MADDPG算法勝率經(jīng)平穩(wěn)增長(zhǎng)逐步達(dá)到收斂,MADDPG算法仍存在較明顯波動(dòng),收斂速度和效果均有欠缺;2)在PK-MADDPG與MADDPG直接對(duì)抗時(shí),PK-MADDPG的勝率優(yōu)于MADDPG。這表明本文設(shè)計(jì)的融合規(guī)則算法的MADDPG算法能有效提高多智能體對(duì)抗博弈的智能性。

    表5 base rule與base rule獲勝次數(shù)比較Tab.5 The compare of winning times between base rule and base rule

    圖7 base rule (red)與base rule (blue)對(duì)抗勝率圖Fig.7 The winning rate of base rule (red) and base rule (blue)

    表6 MADDPG與base rule獲勝次數(shù)比較Tab.6 The compare of winning times between MADDPG and base rule

    圖8 MADDPG(red)與base rule(blue)對(duì)抗勝率圖Fig.8 The winning rate of MADDPG (red) and base rule (blue)

    表7 PK-MADDPG與base rule獲勝次數(shù)比較Tab.7 The compare of winning times between PK-MADDPG and base rule

    圖9 PK-MADDPG (red)與base rule (blue) 對(duì)抗勝率圖Fig.9 The winning rate of PK-MADDPG (red) and base rule (blue)

    表8 PK-MADDPG與MADDPG獲勝次數(shù)比較Tab.8 The compare of winning times between PK-MADDPG and MADDPG

    圖10 PK-MADDPG(red)與base rule(blue)對(duì)抗勝率圖Fig.10 The winning rate of PK-MADDPG (red) and base rule (blue)

    6 結(jié)束語(yǔ)

    本文針對(duì)強(qiáng)化學(xué)習(xí)算法在多智能體對(duì)抗博弈中訓(xùn)練收斂過(guò)慢,以及智能體對(duì)抗特定規(guī)則下智能體勝率較低的問(wèn)題,提出了一種先驗(yàn)知識(shí)與強(qiáng)化學(xué)習(xí)結(jié)合的多智能體博弈對(duì)抗算法PK-MADDPG,并在MaCA異構(gòu)多智能體環(huán)境中對(duì)該算法進(jìn)行實(shí)驗(yàn),驗(yàn)證了算法的智能性。其中,引入規(guī)則算法解決了強(qiáng)化學(xué)習(xí)算法在多智能體對(duì)抗初期收斂速度較慢且博弈效果較差的問(wèn)題,同時(shí)保留了強(qiáng)化學(xué)習(xí)自我探索能力,使得智能體在現(xiàn)有規(guī)則策略的基礎(chǔ)上進(jìn)一步優(yōu)化對(duì)抗過(guò)程,提高了整體獎(jiǎng)勵(lì)值。在該領(lǐng)域中,我們嘗試和探索了多智能體博弈對(duì)抗,在傳統(tǒng)規(guī)則算法的基礎(chǔ)上,利用先驗(yàn)知識(shí)融合強(qiáng)化學(xué)習(xí)算法,降低了異構(gòu)多智能體復(fù)雜度高狀態(tài)多變情況下規(guī)則算法設(shè)計(jì)的難度,進(jìn)一步提高了推演對(duì)抗過(guò)程的智能性。

    強(qiáng)化學(xué)習(xí)算法MADDPG在星際爭(zhēng)霸、Atari等多個(gè)游戲平臺(tái)上實(shí)現(xiàn)應(yīng)用,充分體現(xiàn)了MADDPG算法較強(qiáng)的可適用性,具有一定的泛化性。本文基于先驗(yàn)知識(shí)和強(qiáng)化學(xué)習(xí)算法提出的PK-MADDPG在MaCA平臺(tái)得到實(shí)驗(yàn)驗(yàn)證,較傳統(tǒng)強(qiáng)化學(xué)習(xí)算法和一般規(guī)則算法具有優(yōu)越性。

    猜你喜歡
    勝率敵方頻點(diǎn)
    基于4G MR的大數(shù)據(jù)分析優(yōu)化EPSFB語(yǔ)音時(shí)延
    少林韋陀十八手
    少林與太極(2022年6期)2022-09-14 08:59:42
    4打5,敵方還剩幾個(gè)人?
    一種生成殘局?jǐn)?shù)據(jù)庫(kù)的倒推算法
    基于預(yù)期收益策略與UCT的德州撲克算法
    水果大作戰(zhàn)
    人工智能有助于處置敵方炸彈
    2014—2015年中國(guó)女子籃球職業(yè)聯(lián)賽單節(jié)得失分與比賽結(jié)果相關(guān)性分析
    基于測(cè)量報(bào)告數(shù)據(jù)優(yōu)化CSFB頻點(diǎn)配置的方法
    載帶壓縮11頻點(diǎn)創(chuàng)新方案
    51午夜福利影视在线观看| 国产亚洲av嫩草精品影院| 亚洲欧美激情综合另类| 成人18禁高潮啪啪吃奶动态图| 岛国在线观看网站| 91字幕亚洲| 国产精品一区二区三区四区久久| 最近最新中文字幕大全免费视频| 国产成人aa在线观看| 淫妇啪啪啪对白视频| 婷婷精品国产亚洲av| 丁香欧美五月| 亚洲九九香蕉| 精品无人区乱码1区二区| 最近最新中文字幕大全电影3| 老司机在亚洲福利影院| 久久久国产欧美日韩av| 国产一区二区三区在线臀色熟女| 在线观看免费午夜福利视频| 黄色a级毛片大全视频| 变态另类成人亚洲欧美熟女| 男女下面进入的视频免费午夜| 日本a在线网址| 国产视频内射| 中文字幕av在线有码专区| 老司机靠b影院| 亚洲美女视频黄频| 日韩av在线大香蕉| 精品午夜福利视频在线观看一区| 国产伦在线观看视频一区| 日韩精品青青久久久久久| 啦啦啦免费观看视频1| 俄罗斯特黄特色一大片| 非洲黑人性xxxx精品又粗又长| 看免费av毛片| 国产高清视频在线播放一区| 亚洲av成人av| 国产av又大| 九色国产91popny在线| 国产精品免费视频内射| 国产高清激情床上av| 最近最新中文字幕大全免费视频| 午夜福利成人在线免费观看| 欧美精品啪啪一区二区三区| 午夜福利18| 亚洲性夜色夜夜综合| 午夜激情福利司机影院| 国产1区2区3区精品| 12—13女人毛片做爰片一| 岛国视频午夜一区免费看| 国产成人影院久久av| 一级黄色大片毛片| 无遮挡黄片免费观看| 成在线人永久免费视频| 国产区一区二久久| 欧美日本视频| 国产av在哪里看| 亚洲av电影在线进入| 黄色片一级片一级黄色片| 男男h啪啪无遮挡| 大型黄色视频在线免费观看| 琪琪午夜伦伦电影理论片6080| 亚洲人成电影免费在线| 男男h啪啪无遮挡| 又粗又爽又猛毛片免费看| 99热只有精品国产| 亚洲成av人片免费观看| 亚洲欧美日韩高清在线视频| 老汉色∧v一级毛片| 天堂动漫精品| 99在线视频只有这里精品首页| 淫妇啪啪啪对白视频| 老司机靠b影院| 亚洲精品粉嫩美女一区| 成人av在线播放网站| 99精品在免费线老司机午夜| 国内少妇人妻偷人精品xxx网站 | 91av网站免费观看| 亚洲一区高清亚洲精品| 亚洲va日本ⅴa欧美va伊人久久| 成人三级黄色视频| 亚洲av熟女| 99热这里只有精品一区 | 我的老师免费观看完整版| 国产高清视频在线观看网站| 99在线视频只有这里精品首页| 一级毛片精品| 日韩精品青青久久久久久| 99国产综合亚洲精品| 久久久久久亚洲精品国产蜜桃av| 99国产精品一区二区三区| 啦啦啦免费观看视频1| 老鸭窝网址在线观看| 成人18禁在线播放| 亚洲成人免费电影在线观看| www.999成人在线观看| 国产真实乱freesex| 欧美最黄视频在线播放免费| 午夜视频精品福利| 国产一区二区三区在线臀色熟女| 可以免费在线观看a视频的电影网站| 在线十欧美十亚洲十日本专区| 啦啦啦免费观看视频1| 国产精品 国内视频| 伦理电影免费视频| 麻豆久久精品国产亚洲av| 黄色视频不卡| 国内精品久久久久久久电影| 欧美绝顶高潮抽搐喷水| 男女做爰动态图高潮gif福利片| 丝袜人妻中文字幕| 精品久久久久久久久久免费视频| 国产精品综合久久久久久久免费| 最近视频中文字幕2019在线8| 欧美黄色淫秽网站| 国产精品98久久久久久宅男小说| 黄片小视频在线播放| 亚洲色图 男人天堂 中文字幕| 国产激情欧美一区二区| 午夜福利在线在线| 18禁美女被吸乳视频| 亚洲国产中文字幕在线视频| 熟女电影av网| 亚洲精品美女久久久久99蜜臀| 热99re8久久精品国产| 欧美日韩国产亚洲二区| 国产精品av视频在线免费观看| 男人的好看免费观看在线视频 | 国内毛片毛片毛片毛片毛片| 亚洲avbb在线观看| 亚洲人成网站在线播放欧美日韩| 久久精品91无色码中文字幕| www国产在线视频色| 色老头精品视频在线观看| 两个人免费观看高清视频| 又大又爽又粗| 成人一区二区视频在线观看| 亚洲欧美日韩无卡精品| 日本 欧美在线| 久久国产精品人妻蜜桃| 亚洲全国av大片| 国产精品av久久久久免费| 精品日产1卡2卡| 三级男女做爰猛烈吃奶摸视频| 在线免费观看的www视频| 欧美日韩一级在线毛片| 一本综合久久免费| 婷婷六月久久综合丁香| 别揉我奶头~嗯~啊~动态视频| 9191精品国产免费久久| av在线播放免费不卡| 在线观看午夜福利视频| 99精品在免费线老司机午夜| 成人三级黄色视频| 男人的好看免费观看在线视频 | 亚洲国产精品成人综合色| 观看免费一级毛片| av天堂在线播放| 99国产精品一区二区蜜桃av| 国产精品一区二区免费欧美| 久久欧美精品欧美久久欧美| 亚洲一码二码三码区别大吗| 精品国产乱子伦一区二区三区| 欧美+亚洲+日韩+国产| 国产黄色小视频在线观看| svipshipincom国产片| 日本黄大片高清| 亚洲狠狠婷婷综合久久图片| 欧洲精品卡2卡3卡4卡5卡区| 日韩免费av在线播放| 欧美日韩乱码在线| 国产aⅴ精品一区二区三区波| 欧美一区二区精品小视频在线| 叶爱在线成人免费视频播放| 在线播放国产精品三级| 亚洲av成人不卡在线观看播放网| 欧美zozozo另类| 精品第一国产精品| 国产男靠女视频免费网站| 欧美在线一区亚洲| 国产探花在线观看一区二区| 精品久久久久久,| 国模一区二区三区四区视频 | 又粗又爽又猛毛片免费看| 亚洲欧美精品综合久久99| av福利片在线观看| 19禁男女啪啪无遮挡网站| 老司机午夜福利在线观看视频| 亚洲中文字幕日韩| 久久中文字幕一级| 精品久久久久久久久久久久久| 国产精品综合久久久久久久免费| 国产精品精品国产色婷婷| 蜜桃久久精品国产亚洲av| 亚洲精品中文字幕在线视频| 丝袜美腿诱惑在线| 一本精品99久久精品77| 亚洲精品在线观看二区| av超薄肉色丝袜交足视频| 国产探花在线观看一区二区| 美女午夜性视频免费| 1024手机看黄色片| 国产精品国产高清国产av| 国产高清视频在线观看网站| 精品欧美一区二区三区在线| 12—13女人毛片做爰片一| 18禁美女被吸乳视频| 亚洲av成人精品一区久久| av中文乱码字幕在线| 这个男人来自地球电影免费观看| 男男h啪啪无遮挡| 99久久精品热视频| 午夜激情福利司机影院| 熟女电影av网| 性色av乱码一区二区三区2| 中文字幕最新亚洲高清| av天堂在线播放| 国产成人影院久久av| 国产熟女xx| 香蕉av资源在线| 精品无人区乱码1区二区| 三级男女做爰猛烈吃奶摸视频| 90打野战视频偷拍视频| 亚洲欧洲精品一区二区精品久久久| 大型黄色视频在线免费观看| 中国美女看黄片| 看黄色毛片网站| 一进一出好大好爽视频| 亚洲成a人片在线一区二区| 国产精品久久久久久久电影 | 麻豆国产97在线/欧美 | 18禁黄网站禁片免费观看直播| tocl精华| 免费无遮挡裸体视频| 国产一区二区激情短视频| 精品久久久久久成人av| 精品人妻1区二区| 99riav亚洲国产免费| 在线观看舔阴道视频| 91麻豆精品激情在线观看国产| 亚洲欧美激情综合另类| 国产一级毛片七仙女欲春2| 国产伦人伦偷精品视频| 人妻丰满熟妇av一区二区三区| 丁香欧美五月| 国产成人一区二区三区免费视频网站| 变态另类成人亚洲欧美熟女| 一个人免费在线观看电影 | 国产高清视频在线播放一区| 午夜福利在线观看吧| 久久精品国产综合久久久| 久久久久久久久久黄片| 久久久久国产一级毛片高清牌| 午夜视频精品福利| a在线观看视频网站| 国产伦一二天堂av在线观看| 亚洲精品国产精品久久久不卡| 成人18禁在线播放| 丁香欧美五月| x7x7x7水蜜桃| 两个人的视频大全免费| 精品久久久久久久末码| 欧美日韩国产亚洲二区| 国产一区二区激情短视频| 午夜久久久久精精品| 亚洲自拍偷在线| 亚洲人成电影免费在线| 日本黄色视频三级网站网址| а√天堂www在线а√下载| 欧美最黄视频在线播放免费| 国产私拍福利视频在线观看| 色综合欧美亚洲国产小说| 91字幕亚洲| 禁无遮挡网站| 欧美日韩精品网址| 免费观看人在逋| 免费一级毛片在线播放高清视频| 91麻豆精品激情在线观看国产| 久久久久国产一级毛片高清牌| 欧美+亚洲+日韩+国产| 在线观看免费日韩欧美大片| 国产精品99久久99久久久不卡| 国产一区二区三区在线臀色熟女| 脱女人内裤的视频| 99re在线观看精品视频| а√天堂www在线а√下载| 欧美成人免费av一区二区三区| 精品电影一区二区在线| 91国产中文字幕| 久久久久国产精品人妻aⅴ院| videosex国产| 99热这里只有是精品50| 男女做爰动态图高潮gif福利片| 久久久久久亚洲精品国产蜜桃av| 伊人久久大香线蕉亚洲五| 午夜免费激情av| 亚洲国产精品合色在线| 91av网站免费观看| 亚洲av成人一区二区三| 亚洲熟妇熟女久久| 欧美一级a爱片免费观看看 | 一区二区三区国产精品乱码| 国产高清视频在线观看网站| 亚洲天堂国产精品一区在线| 国产av一区二区精品久久| 欧美黄色淫秽网站| 精品人妻1区二区| 亚洲人成电影免费在线| 麻豆久久精品国产亚洲av| 国产成人影院久久av| 白带黄色成豆腐渣| 亚洲av第一区精品v没综合| 人人妻人人看人人澡| 中文字幕人妻丝袜一区二区| 国产又黄又爽又无遮挡在线| 国产精品久久久久久精品电影| 色av中文字幕| 天天躁狠狠躁夜夜躁狠狠躁| 在线看三级毛片| 亚洲专区中文字幕在线| 国产真实乱freesex| 全区人妻精品视频| 色精品久久人妻99蜜桃| 亚洲最大成人中文| 91av网站免费观看| 国产亚洲精品一区二区www| 色综合站精品国产| 99国产精品99久久久久| 国产一区二区激情短视频| 亚洲欧美日韩高清在线视频| 日本精品一区二区三区蜜桃| 91大片在线观看| 日韩欧美一区二区三区在线观看| 国产精品 欧美亚洲| 一a级毛片在线观看| 亚洲一区高清亚洲精品| 午夜福利18| xxxwww97欧美| 国产三级在线视频| 欧美丝袜亚洲另类 | 99在线人妻在线中文字幕| 久久久久久久久免费视频了| 18禁国产床啪视频网站| 最新美女视频免费是黄的| 免费av毛片视频| 日本三级黄在线观看| 啦啦啦免费观看视频1| 久久精品国产99精品国产亚洲性色| 777久久人妻少妇嫩草av网站| 国产高清有码在线观看视频 | 亚洲国产欧美人成| 成人一区二区视频在线观看| 麻豆国产97在线/欧美 | 日本精品一区二区三区蜜桃| 50天的宝宝边吃奶边哭怎么回事| 免费在线观看完整版高清| 在线播放国产精品三级| 91麻豆精品激情在线观看国产| 特大巨黑吊av在线直播| www日本黄色视频网| 成人国语在线视频| 亚洲全国av大片| 久久久久国内视频| 色尼玛亚洲综合影院| 99久久无色码亚洲精品果冻| 欧美一级毛片孕妇| 男人舔女人的私密视频| 五月玫瑰六月丁香| 中亚洲国语对白在线视频| 啦啦啦韩国在线观看视频| 午夜福利高清视频| 亚洲av电影在线进入| 国产成人欧美在线观看| 精品福利观看| 久久久水蜜桃国产精品网| 亚洲avbb在线观看| 久久精品人妻少妇| 18美女黄网站色大片免费观看| 男男h啪啪无遮挡| 国产精品久久久人人做人人爽| 99久久国产精品久久久| 精品少妇一区二区三区视频日本电影| 国产精品精品国产色婷婷| 精品久久久久久久久久免费视频| 久久人人精品亚洲av| 禁无遮挡网站| 成人高潮视频无遮挡免费网站| 亚洲精品美女久久久久99蜜臀| 成熟少妇高潮喷水视频| 久久精品人妻少妇| 日本a在线网址| 在线十欧美十亚洲十日本专区| av视频在线观看入口| 成人高潮视频无遮挡免费网站| 日韩av在线大香蕉| 女同久久另类99精品国产91| 亚洲色图 男人天堂 中文字幕| 悠悠久久av| 女警被强在线播放| 亚洲乱码一区二区免费版| 少妇的丰满在线观看| 日韩欧美精品v在线| 少妇的丰满在线观看| www日本黄色视频网| 国产成人啪精品午夜网站| 免费av毛片视频| 黑人欧美特级aaaaaa片| 女生性感内裤真人,穿戴方法视频| 波多野结衣巨乳人妻| 淫秽高清视频在线观看| 特级一级黄色大片| 日本 欧美在线| 亚洲成人免费电影在线观看| 99精品久久久久人妻精品| 午夜福利高清视频| 亚洲一区高清亚洲精品| 午夜福利欧美成人| 国产aⅴ精品一区二区三区波| 天堂动漫精品| 亚洲av成人一区二区三| 国产高清有码在线观看视频 | 久久天堂一区二区三区四区| 亚洲人成网站高清观看| 久久久国产精品麻豆| 亚洲午夜理论影院| а√天堂www在线а√下载| 国语自产精品视频在线第100页| 麻豆av在线久日| 久久久久久免费高清国产稀缺| 99在线视频只有这里精品首页| 欧美+亚洲+日韩+国产| 亚洲免费av在线视频| 99re在线观看精品视频| 九色国产91popny在线| 亚洲熟妇熟女久久| 欧美日韩国产亚洲二区| a级毛片a级免费在线| 精品久久久久久久久久免费视频| 精华霜和精华液先用哪个| xxxwww97欧美| 国产不卡一卡二| 国产片内射在线| 十八禁网站免费在线| 久久 成人 亚洲| 日韩欧美免费精品| 小说图片视频综合网站| 亚洲精品av麻豆狂野| 无遮挡黄片免费观看| 亚洲男人的天堂狠狠| 午夜a级毛片| 亚洲成a人片在线一区二区| av天堂在线播放| 色av中文字幕| 国产成年人精品一区二区| 丁香六月欧美| а√天堂www在线а√下载| 在线a可以看的网站| 久9热在线精品视频| av中文乱码字幕在线| 熟女少妇亚洲综合色aaa.| 丰满人妻一区二区三区视频av | 狂野欧美白嫩少妇大欣赏| 2021天堂中文幕一二区在线观| 亚洲avbb在线观看| 波多野结衣高清作品| 一区二区三区国产精品乱码| 欧美zozozo另类| 亚洲电影在线观看av| 日本一区二区免费在线视频| 美女午夜性视频免费| 九色国产91popny在线| 视频区欧美日本亚洲| 在线十欧美十亚洲十日本专区| 亚洲七黄色美女视频| 国产成+人综合+亚洲专区| 黄片小视频在线播放| 免费电影在线观看免费观看| 欧洲精品卡2卡3卡4卡5卡区| 亚洲欧美日韩无卡精品| 久久久久久亚洲精品国产蜜桃av| 最好的美女福利视频网| 99热6这里只有精品| 日韩精品青青久久久久久| aaaaa片日本免费| 最好的美女福利视频网| 婷婷丁香在线五月| 18禁黄网站禁片免费观看直播| 人妻久久中文字幕网| 国产蜜桃级精品一区二区三区| 久久午夜综合久久蜜桃| 国产精品久久久久久精品电影| 国产片内射在线| www日本黄色视频网| 国内精品久久久久久久电影| 此物有八面人人有两片| 女警被强在线播放| ponron亚洲| 精品熟女少妇八av免费久了| 亚洲精品一卡2卡三卡4卡5卡| 中亚洲国语对白在线视频| 一边摸一边做爽爽视频免费| 听说在线观看完整版免费高清| 成人一区二区视频在线观看| 亚洲国产欧美人成| 在线观看舔阴道视频| 国产高清有码在线观看视频 | 亚洲精品一卡2卡三卡4卡5卡| 国产91精品成人一区二区三区| 很黄的视频免费| 免费看a级黄色片| 国产日本99.免费观看| 又粗又爽又猛毛片免费看| 欧美3d第一页| 亚洲国产精品sss在线观看| 精品午夜福利视频在线观看一区| 国产一区在线观看成人免费| 欧美中文日本在线观看视频| 午夜福利18| 国产亚洲欧美98| 精品久久久久久,| 欧美一级毛片孕妇| avwww免费| 国产片内射在线| 国产主播在线观看一区二区| 日韩欧美在线二视频| 香蕉av资源在线| 日韩欧美国产在线观看| 久久中文看片网| 午夜精品一区二区三区免费看| 波多野结衣高清作品| 欧美最黄视频在线播放免费| 久久香蕉国产精品| 国产精品野战在线观看| 视频区欧美日本亚洲| 9191精品国产免费久久| 久久中文字幕人妻熟女| 国产伦一二天堂av在线观看| 亚洲七黄色美女视频| 国语自产精品视频在线第100页| 精品久久久久久久末码| 成人特级黄色片久久久久久久| 午夜福利视频1000在线观看| 日本黄大片高清| 日本一区二区免费在线视频| 午夜福利在线在线| 可以免费在线观看a视频的电影网站| 18禁黄网站禁片免费观看直播| 欧洲精品卡2卡3卡4卡5卡区| 视频区欧美日本亚洲| 三级男女做爰猛烈吃奶摸视频| 亚洲欧美激情综合另类| 日韩欧美三级三区| 国产成+人综合+亚洲专区| 成年人黄色毛片网站| 天天躁狠狠躁夜夜躁狠狠躁| 看免费av毛片| 欧美黑人巨大hd| 伊人久久大香线蕉亚洲五| 国产片内射在线| 免费看美女性在线毛片视频| 国产一区二区三区视频了| 色综合欧美亚洲国产小说| 女生性感内裤真人,穿戴方法视频| 午夜激情av网站| 免费在线观看成人毛片| 亚洲av美国av| 久久久久国产精品人妻aⅴ院| 日韩有码中文字幕| 欧美午夜高清在线| 久久精品国产综合久久久| 在线观看免费日韩欧美大片| 五月伊人婷婷丁香| 亚洲精品av麻豆狂野| 午夜福利在线观看吧| 亚洲乱码一区二区免费版| 人妻丰满熟妇av一区二区三区| 日韩av在线大香蕉| 婷婷精品国产亚洲av在线| avwww免费| 黄色毛片三级朝国网站| 老鸭窝网址在线观看| 婷婷精品国产亚洲av在线| 制服人妻中文乱码| 国产黄色小视频在线观看| 欧美一区二区精品小视频在线| www.熟女人妻精品国产| 在线观看美女被高潮喷水网站 | 国产精品久久久久久人妻精品电影| 久久久久久九九精品二区国产 | 亚洲中文av在线| 黄色成人免费大全| 久久久久久亚洲精品国产蜜桃av| 天堂√8在线中文| 亚洲av五月六月丁香网| 99久久精品国产亚洲精品| www.999成人在线观看| 欧美精品亚洲一区二区| 在线看三级毛片| 一二三四社区在线视频社区8| 777久久人妻少妇嫩草av网站| 亚洲成a人片在线一区二区| 国产欧美日韩精品亚洲av| 亚洲欧美精品综合一区二区三区| 欧美色欧美亚洲另类二区| 长腿黑丝高跟| 国产精品99久久99久久久不卡| 亚洲免费av在线视频| 亚洲精品粉嫩美女一区| 久久香蕉精品热| 校园春色视频在线观看| a级毛片a级免费在线| 亚洲中文字幕一区二区三区有码在线看 | 嫁个100分男人电影在线观看| 亚洲国产精品sss在线观看| 波多野结衣巨乳人妻|