• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)協(xié)同對(duì)抗算法研究

    2023-05-31 13:44:50侯進(jìn)永
    兵器裝備工程學(xué)報(bào) 2023年5期
    關(guān)鍵詞:藍(lán)方雷達(dá)經(jīng)驗(yàn)

    張 磊,李 姜,侯進(jìn)永,高 遠(yuǎn),王 燁

    (1.中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所, 長(zhǎng)春 130033;2.中國(guó)科學(xué)院大學(xué),北京100049; 3. 32802部隊(duì), 北京 100191)

    0 引言

    近年來(lái),隨著以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)的進(jìn)一步突破,無(wú)人控制系統(tǒng)領(lǐng)域飛速發(fā)展[1],無(wú)人機(jī)和無(wú)人車廣泛應(yīng)用于物流配送[2]、航拍[3]、電力檢修、工廠車間運(yùn)輸和軍事偵察[4]。特別是在軍事應(yīng)用領(lǐng)域,各國(guó)都致力于研究控制無(wú)人機(jī)自主決策執(zhí)行特定任務(wù)[5]。到目前為止,在自主決策空戰(zhàn)算法研究領(lǐng)域,有3個(gè)主要研究方向:① 采用數(shù)學(xué)求解法,這個(gè)方法自從20世紀(jì)60年代就已經(jīng)被提出,但是早年研究的任務(wù)較為簡(jiǎn)單,對(duì)于目前的復(fù)雜任務(wù)而言,具有很大的局限性,除此以外,這種方法需要嚴(yán)格的數(shù)學(xué)推導(dǎo)證明和復(fù)雜的數(shù)學(xué)模型。② 機(jī)器搜索方法[6],典型的方法有蒙特卡洛搜索[7]、決策樹(shù)等,該類算法根據(jù)無(wú)人機(jī)所面對(duì)的不同情形進(jìn)行態(tài)勢(shì)評(píng)估并對(duì)威脅目標(biāo)進(jìn)行排序[8],最后根據(jù)評(píng)估結(jié)果和威脅目標(biāo)排序進(jìn)行動(dòng)作決策[9],機(jī)器搜索方法的核心在于專家經(jīng)驗(yàn),所以要求研究人員具有很強(qiáng)的戰(zhàn)場(chǎng)經(jīng)驗(yàn),模型泛化能力較弱,且難以應(yīng)對(duì)復(fù)雜多變的戰(zhàn)場(chǎng)情況。③ 處于研究前沿的深度強(qiáng)化學(xué)習(xí)方法,利用智能體的不斷試錯(cuò)提升動(dòng)作決策水平。

    2013年DeepMind發(fā)表了一篇利用強(qiáng)化學(xué)習(xí)算法玩Atari游戲的論文,強(qiáng)化學(xué)習(xí)真正意義走上了大眾舞臺(tái)。

    不同于監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)不需要大量已標(biāo)記的數(shù)據(jù),只需通過(guò)與環(huán)境交互進(jìn)行大量的強(qiáng)化訓(xùn)練[10]。當(dāng)面對(duì)不同的環(huán)境狀態(tài),智能體會(huì)根據(jù)算法選擇不同的動(dòng)作,環(huán)境會(huì)根據(jù)所做的動(dòng)作更新下一個(gè)環(huán)境狀態(tài),同時(shí)還會(huì)根據(jù)不同的動(dòng)作給予智能體一個(gè)獎(jiǎng)勵(lì)值。智能體訓(xùn)練的目標(biāo)就是使得總獎(jiǎng)勵(lì)值最大,經(jīng)過(guò)大量的訓(xùn)練,智能體將一步步優(yōu)化決策策略。深度強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)的進(jìn)一步發(fā)展,是與深度學(xué)習(xí)的有機(jī)結(jié)合。利用神經(jīng)網(wǎng)絡(luò)擬合策略函數(shù)或者價(jià)值函數(shù),從而達(dá)到控制要求。相較于強(qiáng)化學(xué)習(xí),深度強(qiáng)化學(xué)習(xí)更能勝任連續(xù)動(dòng)作和復(fù)雜的任務(wù)[11]。

    現(xiàn)如今,強(qiáng)化學(xué)習(xí)逐步應(yīng)用于游戲、自動(dòng)駕駛決策、推薦算法等領(lǐng)域。根據(jù)環(huán)境中智能體的數(shù)量,強(qiáng)化學(xué)習(xí)劃分為單智能體強(qiáng)化學(xué)習(xí)和多智能體強(qiáng)化學(xué)習(xí)[12]。單智能體強(qiáng)化學(xué)習(xí)是指環(huán)境中只有一個(gè)智能體需要進(jìn)行動(dòng)作決策,AlphaGo就是典型的單智能體算法。由于環(huán)境中只有一個(gè)智能體進(jìn)行決策,狀態(tài)轉(zhuǎn)移簡(jiǎn)單,控制相對(duì)容易。無(wú)人機(jī)群協(xié)同自主對(duì)抗屬于多智能體強(qiáng)化學(xué)習(xí),環(huán)境中存在多個(gè)智能體,競(jìng)爭(zhēng)關(guān)系、合作關(guān)系以及合作競(jìng)爭(zhēng)關(guān)系等復(fù)雜的關(guān)系存在于各個(gè)智能體之間。隨著智能體數(shù)量的增加以及智能體之間的復(fù)雜關(guān)系讓強(qiáng)化學(xué)習(xí)任務(wù)變得愈發(fā)困難。目前主流的單智能體強(qiáng)化學(xué)習(xí)算法包括DQN[13]、DDPG[14]、PPO[15]、A3C[16]等,主流的多智能體強(qiáng)化學(xué)習(xí)算法包括MADDPG[17]、QMIX[18]、VDN[19]等。

    目前強(qiáng)化學(xué)習(xí)技術(shù)在無(wú)人機(jī)自主決策領(lǐng)域被廣泛研究,在多無(wú)人機(jī)協(xié)同搜索、路徑規(guī)劃和編隊(duì)控制等研究中,已經(jīng)獲得了不俗的成果[20]。

    文獻(xiàn)[21]提出了一種基于深度強(qiáng)化學(xué)習(xí)的任務(wù)動(dòng)態(tài)分配方法。該方法使無(wú)人機(jī)進(jìn)行實(shí)時(shí)交互,對(duì)任務(wù)執(zhí)行的優(yōu)先級(jí)順序和執(zhí)行時(shí)間加以約束,提高了有限時(shí)間內(nèi)總體的任務(wù)完成度。文獻(xiàn)[22]提出一種基于深度確定性策略梯度算法的改進(jìn)算法,提高了算法訓(xùn)練速度以及無(wú)人機(jī)在導(dǎo)航過(guò)程中對(duì)環(huán)境的適應(yīng)能力。文獻(xiàn)[23]提出了一種多機(jī)協(xié)同空戰(zhàn)決策流程框架,該框架提高了在多架無(wú)人機(jī)協(xié)同對(duì)抗場(chǎng)景下智能體間的協(xié)同程度。

    結(jié)合現(xiàn)有的成熟算法研究以及目前所遇到的工程項(xiàng)目難題,發(fā)現(xiàn)現(xiàn)有算法在工程應(yīng)用中存在了以下的不足之處:

    1) 隨著實(shí)驗(yàn)環(huán)境中無(wú)人機(jī)數(shù)量的增加,算法適應(yīng)能力下降,任務(wù)完成度低,且精度不高。

    2) 狀態(tài)空間和動(dòng)作空間過(guò)于龐大,經(jīng)驗(yàn)回收池中有效經(jīng)驗(yàn)較少,有時(shí)候會(huì)出現(xiàn)不收斂的問(wèn)題。

    3) 訓(xùn)練時(shí)間過(guò)長(zhǎng),且收斂效果不理想。

    針對(duì)目前算法的不足之處和實(shí)際的工程項(xiàng)目需求,作者在現(xiàn)有多智能體算法MADDPG的基礎(chǔ)上,在經(jīng)驗(yàn)存儲(chǔ)過(guò)程中引入了選擇性經(jīng)驗(yàn)存儲(chǔ)機(jī)制,設(shè)置經(jīng)驗(yàn)回收標(biāo)準(zhǔn)以及選擇性因子。并根據(jù)實(shí)際任務(wù)環(huán)境合理設(shè)定獎(jiǎng)勵(lì)函數(shù),最后通過(guò)仿真驗(yàn)證,證明了改進(jìn)后的算法相較其他強(qiáng)化學(xué)習(xí)算法,在保證算法時(shí)間復(fù)雜度的前提下,有了更好的收斂效果。

    1 任務(wù)描述及模型建立

    1.1 任務(wù)描述

    紅藍(lán)雙方展開(kāi)軍事對(duì)抗仿真,紅方出動(dòng)無(wú)人機(jī)集群,無(wú)人機(jī)具有偵察和干擾功能,藍(lán)方陣地布設(shè)雷達(dá)、空中預(yù)警機(jī)和防空導(dǎo)彈發(fā)射系統(tǒng)。紅方的任務(wù)為出動(dòng)無(wú)人機(jī)集群對(duì)藍(lán)方雷達(dá)進(jìn)行協(xié)同偵察,確定藍(lán)方雷達(dá)位置,并對(duì)雷達(dá)進(jìn)行協(xié)同干擾,掩護(hù)后方轟炸機(jī)進(jìn)入投彈區(qū)域。無(wú)人機(jī)群自主決策飛行路線,自主分派干擾任務(wù),并快速完成既定任務(wù)要求。藍(lán)方的任務(wù)為阻擋紅方的進(jìn)攻并保護(hù)指揮部,在指揮部周圍布設(shè)地面雷達(dá)和火力打擊系統(tǒng),并在空中布設(shè)預(yù)警機(jī)一架,圍繞藍(lán)方陣地進(jìn)行飛行預(yù)警。場(chǎng)景示意圖如圖1所示。

    圖1 對(duì)抗過(guò)程示意圖

    1.2 模型建立

    1.2.1紅方模型的建立

    紅方無(wú)人機(jī)群在執(zhí)行任務(wù)時(shí),受到包含風(fēng)力、天氣狀況、地形地貌等自然因素的影響,以及藍(lán)方防空雷達(dá)、預(yù)警機(jī)以及地面火力單元的威脅。構(gòu)建智能體訓(xùn)練環(huán)境所需的計(jì)算模型概述如下。

    紅方無(wú)人機(jī)偵察到藍(lán)方雷達(dá)信號(hào)的概率為:

    (1)

    式中:ξ為目標(biāo)的橫坐標(biāo);ζ為目標(biāo)的縱坐標(biāo)。該公式表示在時(shí)間(t0,t1)內(nèi)發(fā)現(xiàn)目標(biāo)的概率。

    1.2.2藍(lán)方模型的建立

    藍(lán)方地面雷達(dá)偵察到紅方的概率:當(dāng)目標(biāo)進(jìn)入到雷達(dá)的探測(cè)區(qū)域后,雷達(dá)不一定發(fā)現(xiàn)目標(biāo),目標(biāo)只是存在一定的概率會(huì)被發(fā)現(xiàn)。這個(gè)概率取決于雷達(dá)與目標(biāo)發(fā)生直接的能量接觸。一般而言,雷達(dá)的技術(shù)性能、目標(biāo)的反射面積、目標(biāo)的飛行高度與距離、雷達(dá)陣地(天線)高度等是影響目標(biāo)被發(fā)現(xiàn)的主要概率。通常雷達(dá)有多種工作方式,為討論方便,這里僅針對(duì)雷達(dá)的慢速掃描和快速掃描進(jìn)行討論[24]。

    1) 雷達(dá)慢速掃描。

    當(dāng)雷達(dá)慢速掃描時(shí),可將雷達(dá)對(duì)目標(biāo)的探測(cè)視為離散觀察,此時(shí)雷達(dá)的發(fā)現(xiàn)概率PD為:

    (2)

    式中:m為在持續(xù)搜索時(shí)間t時(shí)間段內(nèi),雷達(dá)與探測(cè)目標(biāo)的接觸次數(shù),可按式(3)計(jì)算;Pdi(1≤i≤m)為第i次與目標(biāo)接觸時(shí)的發(fā)現(xiàn)概率。

    m=「t/tsearch?

    (3)

    式中,tsearch為雷達(dá)的周期[24]。

    在無(wú)電子干擾條件下,Pdi(1≤i≤m)的計(jì)算表達(dá)式為:

    (4)

    式中:n0為一次掃描的脈沖累積數(shù);SNi為第i次與目標(biāo)接觸時(shí)單個(gè)脈沖的信噪比[24]。

    2) 雷達(dá)快速掃描。

    當(dāng)雷達(dá)快速掃描時(shí),可視為連續(xù)觀察,在無(wú)干擾的情況下,雷達(dá)對(duì)點(diǎn)目標(biāo)的發(fā)現(xiàn)概率為:

    (5)

    (6)

    令y0+Vδt=X0tanφ,則

    (7)

    在該段上發(fā)現(xiàn)目標(biāo)的概率為:

    PX0=1-e-U(x0)

    (8)

    單發(fā)防空導(dǎo)彈打擊的概率為:

    (9)

    式中:Wd為導(dǎo)彈的戰(zhàn)斗部質(zhì)量;σd為沒(méi)有干擾情況下導(dǎo)彈精度誤差的均方差值;α、β、γ為比例系數(shù),在此α取0.6,β取0.5,γ取0.7。

    2 MADDPG算法與SES-ADDPG算法

    2.1 MADDPG算法

    多智能體強(qiáng)化學(xué)習(xí)以馬爾科夫決策過(guò)程(MDP)作為算法的研究基礎(chǔ),可以利用一個(gè)高維元組(S,A1,…,An,R1,…,Rn,P,γ)進(jìn)行描述。其中S是馬爾科夫決策過(guò)程的狀態(tài)集合,n代表智能體的數(shù)量,A1,…,An代表各個(gè)智能體所選擇的動(dòng)作,R1,…,Rn代表每個(gè)智能體的收到環(huán)境給予的獎(jiǎng)勵(lì)回報(bào),P代表狀態(tài)的轉(zhuǎn)移函數(shù),γ代表折扣率。

    多智能體深度確定性策略梯度(multi-gent deep deterministic policy gradient,MADDPG)算法是OpenAI團(tuán)隊(duì)在2017年提出的專門用來(lái)解決多智能體問(wèn)題的算法,該算法可應(yīng)用于合作、競(jìng)爭(zhēng)以及競(jìng)爭(zhēng)合作等多種環(huán)境場(chǎng)景下。它可以使多個(gè)智能體在高維度、動(dòng)態(tài)化環(huán)境下通過(guò)智能體之間的通信以及智能體與環(huán)境之間的交互。能夠使得多個(gè)智能體協(xié)同決策完成較為復(fù)雜的任務(wù),是分布式計(jì)算方法在多智能體領(lǐng)域的優(yōu)秀應(yīng)用。除此之外,還能利用其他智能體的觀測(cè)信息進(jìn)行集中訓(xùn)練。訓(xùn)練過(guò)程采用集中訓(xùn)練,分散執(zhí)行(centralized training with decentralized execution)的算法思想[17]。

    MADDPG是單智能體強(qiáng)化學(xué)習(xí)算法在多智能體領(lǐng)域的擴(kuò)展,系統(tǒng)中的每個(gè)智能體都采用DDPG框架,每個(gè)網(wǎng)絡(luò)學(xué)習(xí)策略函數(shù)(policy)πactor和動(dòng)作價(jià)值函數(shù)(action value)Qcritic;同時(shí)具有目標(biāo)網(wǎng)絡(luò)(target network),用Q-learning算法的異策略(off-policy)學(xué)習(xí)。Q值計(jì)算公式為:

    Q=Q(st,a1,a2,…,an,θ)

    (10)

    每個(gè)智能體都有一個(gè)Actor和Critic網(wǎng)絡(luò),當(dāng)訓(xùn)練Actor網(wǎng)絡(luò)時(shí)給予Critic更多的信息(其他智能體的觀測(cè)信息以及動(dòng)作信息),而在測(cè)試時(shí)去掉Critic部分,使智能體在得到充分的訓(xùn)練之后,可以只通過(guò)Actor獲取自己下一步的動(dòng)作。這種獲取全局信息的訓(xùn)練策略,可以避免像Q-Learning、Policy Gradient等單智能體算法直接遷移到多智能體環(huán)境下,由于只能獲取自己的狀態(tài)和動(dòng)作,而產(chǎn)生的環(huán)境不穩(wěn)定、經(jīng)驗(yàn)回放失效等問(wèn)題。MADDPG算法能夠使得每個(gè)智能體所面臨的環(huán)境仍然可以視為穩(wěn)定的,其原因?yàn)?系統(tǒng)的動(dòng)力學(xué)模型可以描述為:

    P(s′∣s,a1,a2,…,an,π1,π2,…,πn)=

    P(s′∣s,a1,…,an)=

    (11)

    利用θ=(θ1,θ2,…,θn)代表n個(gè)智能體策略函數(shù)的參數(shù),用π=(π1,π2,…πn)表示n個(gè)智能體的策略函數(shù)[25]。針對(duì)第i個(gè)智能體,我們把累計(jì)獎(jiǎng)勵(lì)期望值定義為:

    (12)

    式中:γi為第i個(gè)智能體的獎(jiǎng)勵(lì);γ為折扣率。

    針對(duì)隨機(jī)策略梯度,求解策略梯度的公式為:

    (13)

    式中:oi為第i個(gè)智能體的觀測(cè)值;s=[o1,o2,…,on]為所觀測(cè)的向量,也就是狀態(tài)。

    系統(tǒng)的損失函數(shù)定義為:

    (14)

    對(duì)于actor網(wǎng)絡(luò),參數(shù)的更新公式為:

    θu=θu+αu▽?duì)圈蠮

    (15)

    (16)

    其中:θμ為actor網(wǎng)絡(luò)的參數(shù)值;αμ為actor網(wǎng)絡(luò)的學(xué)習(xí)率。

    2.2 SES-MADDPG算法

    選擇性經(jīng)驗(yàn)存儲(chǔ)策略的多智能體深度確定性策略梯度(selective experience storage multi-agent deep deterministicpolicy gradient,SES-MADDPG)算法是MADDPG算法的改進(jìn)提升。經(jīng)過(guò)前期仿真實(shí)驗(yàn)可知,隨著環(huán)境系統(tǒng)內(nèi)智能體的數(shù)量增加,狀態(tài)空間爆炸式擴(kuò)張,導(dǎo)致算法訓(xùn)練時(shí)間延長(zhǎng),算法的獎(jiǎng)勵(lì)值收斂緩慢或者收斂值不理想。MADDPG算法流程中存在經(jīng)驗(yàn)池機(jī)制,智能體與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)被存入經(jīng)驗(yàn)池中,經(jīng)驗(yàn)池里的經(jīng)驗(yàn)將會(huì)被二次抽取,重新用于訓(xùn)練。經(jīng)驗(yàn)池?zé)o保留地存儲(chǔ)了所有的經(jīng)驗(yàn),其中高質(zhì)量的經(jīng)驗(yàn)便于算法的快速收斂,低質(zhì)量的經(jīng)驗(yàn)將不利于算法訓(xùn)練。其中低質(zhì)量的經(jīng)驗(yàn)占大多數(shù),采用隨機(jī)抽取將會(huì)抽取大量的低質(zhì)量經(jīng)驗(yàn),因此將會(huì)消耗了大量的訓(xùn)練時(shí)間。前人研究者們?yōu)榱烁纳七@種問(wèn)題,提出了一種優(yōu)先經(jīng)驗(yàn)抽取的機(jī)制[27],該機(jī)制為了抽出更好的經(jīng)驗(yàn),不再采用隨機(jī)抽取,而是將進(jìn)入經(jīng)驗(yàn)池的經(jīng)驗(yàn)根據(jù)損失進(jìn)行排序,損失越大,排序越靠前。這種改進(jìn)可以優(yōu)先抽取高質(zhì)量經(jīng)驗(yàn),加快算法的收斂速度,但是該機(jī)制存在時(shí)間復(fù)雜度較高的問(wèn)題。每當(dāng)一條新的經(jīng)驗(yàn)進(jìn)入經(jīng)驗(yàn)池,該經(jīng)驗(yàn)將會(huì)與經(jīng)驗(yàn)池里的其他經(jīng)驗(yàn)進(jìn)行排序,排序的時(shí)間復(fù)雜度較高,大大增加了系統(tǒng)開(kāi)銷。

    一方面為了改善經(jīng)驗(yàn)優(yōu)先回放算法時(shí)間復(fù)雜度過(guò)高的問(wèn)題,另一方面需要控制經(jīng)驗(yàn)池中經(jīng)驗(yàn)的抽取。除了控制抽取的過(guò)程,還可以控制經(jīng)驗(yàn)存儲(chǔ)經(jīng)驗(yàn)的過(guò)程。在經(jīng)驗(yàn)回收存儲(chǔ)時(shí),并非無(wú)選擇性地將交互產(chǎn)生的經(jīng)驗(yàn)逐條存儲(chǔ)至經(jīng)驗(yàn)池內(nèi),而是設(shè)立經(jīng)驗(yàn)回收標(biāo)準(zhǔn),回收標(biāo)準(zhǔn)的具體數(shù)值應(yīng)該根據(jù)獎(jiǎng)勵(lì)函數(shù)和實(shí)際問(wèn)題進(jìn)行設(shè)定。對(duì)于每條經(jīng)驗(yàn)里的獎(jiǎng)勵(lì)值參量,對(duì)其求累積均值,當(dāng)均值大于回收標(biāo)準(zhǔn)時(shí),該條經(jīng)驗(yàn)將會(huì)被存入經(jīng)驗(yàn)池中 ,當(dāng)小于回收標(biāo)準(zhǔn)時(shí),系統(tǒng)產(chǎn)生0~1的隨機(jī)數(shù),當(dāng)隨機(jī)數(shù)小于選擇性因子時(shí),該條經(jīng)驗(yàn)將會(huì)被存入經(jīng)驗(yàn)池。該經(jīng)驗(yàn)選擇機(jī)制,既保證了對(duì)低質(zhì)量經(jīng)驗(yàn)的過(guò)濾,又避免了訓(xùn)練初期經(jīng)驗(yàn)池內(nèi)缺乏經(jīng)驗(yàn)數(shù)據(jù)。除此之外,該算法實(shí)現(xiàn)簡(jiǎn)單,算法的時(shí)間復(fù)雜度為常數(shù)級(jí)別,有效地減輕了系統(tǒng)的開(kāi)銷。算法基本框架示意圖如圖2所示,SES-MADDPG算法示意圖如圖3所示。

    圖2 基本算法框架示意圖

    圖3 SES-MADDPG算法示意圖

    算法的偽代碼實(shí)現(xiàn)如下。

    對(duì)超參數(shù)進(jìn)行隨機(jī)初始化

    對(duì)價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的參數(shù)進(jìn)行隨機(jī)初始化

    對(duì)目標(biāo)價(jià)值網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)的參數(shù)進(jìn)行隨機(jī)初始化

    初始化經(jīng)驗(yàn)池D和動(dòng)作噪聲Nt

    for episode from 1 to num_episode do:

    對(duì)環(huán)境和所有智能體的狀態(tài)集合進(jìn)行隨機(jī)初始化

    for step from 1 to max_episode_length do:

    對(duì)于每個(gè)智能體進(jìn)行動(dòng)作選擇,其中ai=μθi(oi)+Nt

    執(zhí)行動(dòng)作a=(a1,…,an),環(huán)境給與獎(jiǎng)勵(lì)r,進(jìn)入下一個(gè)環(huán)境s′

    獲得到一條經(jīng)驗(yàn)(s,a,r,s′)

    if (r>W):

    存儲(chǔ)經(jīng)驗(yàn)進(jìn)入經(jīng)驗(yàn)池D

    else:

    if(random(0,1 )<β):

    存儲(chǔ)經(jīng)驗(yàn)進(jìn)入經(jīng)驗(yàn)池D(其中W是回收標(biāo)準(zhǔn),β是選擇因子)

    結(jié)束if判斷語(yǔ)句

    結(jié)束else判斷語(yǔ)句

    更新環(huán)境s←s′

    for agent from 1 tondo:

    從回收池隨機(jī)抽取一條經(jīng)驗(yàn)(s,a,r,s′)

    根據(jù)目標(biāo)評(píng)估網(wǎng)絡(luò)計(jì)算每個(gè)動(dòng)作的期望回報(bào)y

    通過(guò)最小化損失更新critic網(wǎng)絡(luò)的參數(shù)

    使用隨機(jī)梯度下降更新actor

    結(jié)束(agent) 循環(huán)

    對(duì)于每個(gè)智能體更新目標(biāo)網(wǎng)絡(luò)參數(shù)

    θQ′=τθQ+(1-τ)θQ′

    結(jié)束(step)循環(huán)

    結(jié)束(episode)循環(huán)

    3 基于SES-MADDPG的協(xié)同對(duì)抗算法

    3.1 狀態(tài)空間的設(shè)計(jì)

    本文中將無(wú)人機(jī)集群偵察、干擾敵方雷達(dá)的問(wèn)題求解過(guò)程抽象為序列化決策過(guò)程,將作戰(zhàn)環(huán)境中每個(gè)無(wú)人機(jī)視為一個(gè)智能體。強(qiáng)化學(xué)習(xí)的訓(xùn)練目標(biāo)是構(gòu)造一個(gè)智能網(wǎng)絡(luò)模型,在每個(gè)狀態(tài)都能做出決策,在避免被敵方發(fā)現(xiàn)的情況下,實(shí)現(xiàn)對(duì)敵方雷達(dá)的偵察與干擾。為了減少維度,訓(xùn)練環(huán)境在二維空間內(nèi)進(jìn)行。

    無(wú)人機(jī)群的狀態(tài)空間分為2個(gè)部分:第一部分為環(huán)境狀態(tài)空間S,代表了總體的環(huán)境狀態(tài);第二部分是智能體的觀測(cè)狀態(tài)O,代表了無(wú)人機(jī)自身的狀態(tài)以及對(duì)環(huán)境的捕獲數(shù)據(jù)。分別如表1和表2所示。

    表1 環(huán)境狀態(tài)空間

    表2 智能體觀測(cè)狀態(tài)空間

    3.2 動(dòng)作空間的設(shè)計(jì)

    為了減小動(dòng)作空間的維度,對(duì)部分動(dòng)作做了離散和簡(jiǎn)化處理,具體動(dòng)作可分為以下6個(gè)方面。① 飛行動(dòng)作:無(wú)人機(jī)的飛行動(dòng)作可以選擇前、后、左、右和懸停等5個(gè)飛行動(dòng)作。② 飛行速度:無(wú)人機(jī)的飛行速度可以選擇低速、中速和高速等3個(gè)飛行速度。③ 定向偵察方向:無(wú)人機(jī)的定向偵察方向可以選擇左前方、正前方和右前方等3個(gè)方向。④ 定向干擾強(qiáng)度:無(wú)人機(jī)的定向干擾強(qiáng)度可以選擇不開(kāi)干擾、低強(qiáng)度、中強(qiáng)度和高強(qiáng)度等4個(gè)強(qiáng)度。⑤ 干擾頻段:無(wú)人機(jī)的干擾頻段可以選擇低頻段(0.03~1 GHz)、中頻段(1~15 GHz)和高頻段(15~30 GHz)等3個(gè)頻段。⑥ 干擾目標(biāo):無(wú)人機(jī)可以選擇7個(gè)雷達(dá)的任意一個(gè),共有7個(gè)選擇目標(biāo)。

    根據(jù)以上6個(gè)方面進(jìn)行動(dòng)作組合選擇,可產(chǎn)生3 780種不同的動(dòng)作,即為動(dòng)作空間,所有的動(dòng)作選擇采用獨(dú)熱編碼格式。

    3.3 獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)

    強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲取最大的獎(jiǎng)勵(lì)值,根據(jù)任務(wù)場(chǎng)景設(shè)定獎(jiǎng)勵(lì)值,將有利于完成任務(wù)的狀態(tài)設(shè)置正獎(jiǎng)勵(lì)值,將不利于完成任務(wù)的狀態(tài)設(shè)置負(fù)獎(jiǎng)勵(lì)值。

    由于無(wú)人機(jī)群之間需要協(xié)同完成任務(wù),如果距離太遠(yuǎn),將無(wú)法完成通信,因此需要設(shè)置無(wú)人機(jī)之間的距離獎(jiǎng)勵(lì)。

    (17)

    式中:D(i,j)為無(wú)人機(jī)i和無(wú)人機(jī)j之間的距離;(xi,yi)為無(wú)人機(jī)i的坐標(biāo);(xj,yj)為無(wú)人機(jī)j的坐標(biāo)。

    無(wú)人機(jī)之間的距離獎(jiǎng)勵(lì)為:

    (18)

    式中,C為無(wú)人機(jī)之間的通信距離。

    接近目標(biāo)區(qū)域的獎(jiǎng)勵(lì)為:

    (19)

    式中:D藍(lán)代表藍(lán)方雷達(dá)的探測(cè)距離;dnow代表此時(shí)無(wú)人機(jī)與藍(lán)方雷達(dá)中心的距離;dlast代表上一時(shí)刻無(wú)人機(jī)與藍(lán)方雷達(dá)中心的距離;D紅代表無(wú)人機(jī)的探測(cè)距離。

    被雷達(dá)發(fā)現(xiàn)的獎(jiǎng)勵(lì)為:

    R=-10

    (20)

    發(fā)現(xiàn)雷達(dá)的獎(jiǎng)勵(lì)為:

    R=20

    (21)

    對(duì)雷達(dá)的干擾獎(jiǎng)勵(lì)為:

    (22)

    式(22)中:D藍(lán)now代表被干擾后雷達(dá)的探測(cè)距離;D藍(lán)代表雷達(dá)最大的探測(cè)距離。

    無(wú)人機(jī)被火力擊落的獎(jiǎng)勵(lì)為:

    R=-100

    (23)

    開(kāi)辟投彈區(qū)域的獎(jiǎng)勵(lì)為:

    R=200

    (24)

    4 仿真實(shí)驗(yàn)

    4.1 仿真環(huán)境介紹

    為了驗(yàn)證由SES-MADDPG算法控制的無(wú)人機(jī)集群在戰(zhàn)場(chǎng)對(duì)抗的有效性,在自建的多無(wú)人機(jī)智能對(duì)抗仿真推演平臺(tái)進(jìn)行對(duì)比實(shí)驗(yàn)驗(yàn)證。該仿真平臺(tái)以海上登陸戰(zhàn)為作戰(zhàn)背景,以固定空域?yàn)樽鲬?zhàn)環(huán)境,紅方無(wú)人機(jī)集群在前方負(fù)責(zé)對(duì)藍(lán)方的地面雷達(dá)和空中預(yù)警機(jī)進(jìn)行偵察、干擾,為后方的轟炸機(jī)開(kāi)辟投彈通道,使之順利進(jìn)入投彈范圍進(jìn)行投彈,對(duì)藍(lán)方陣地進(jìn)行火力打擊。該仿真模擬環(huán)境選取了1 000 km×850 km的空域范圍作為作戰(zhàn)區(qū)域,以1 km為一單位進(jìn)行劃分,將整個(gè)作戰(zhàn)區(qū)域劃分為1 000 km×850 km的網(wǎng)格區(qū)域,便于多無(wú)人機(jī)集群在此區(qū)域進(jìn)行飛行動(dòng)作模擬和偵察動(dòng)作模擬等。紅方配備由10架偵干一體機(jī)構(gòu)成的無(wú)人機(jī)集群,通過(guò)強(qiáng)化算法進(jìn)行自主決策。藍(lán)方配備7臺(tái)地面雷達(dá),1架空中預(yù)警機(jī)和數(shù)發(fā)航空導(dǎo)彈,其中地面雷達(dá)位置固定,預(yù)警機(jī)繞藍(lán)方陣地作“8”字形或者沿跑道飛行。

    紅方無(wú)人機(jī)集群需要自主決策飛行路線,自主選擇偵察方向等,對(duì)雷達(dá)進(jìn)行偵察,同時(shí)鎖定雷達(dá)位置,并對(duì)其進(jìn)行干擾,為后方的轟炸機(jī)開(kāi)辟投彈通道(即通道內(nèi)無(wú)雷達(dá)探測(cè)信號(hào)覆蓋)。

    4.2 仿真實(shí)驗(yàn)設(shè)置

    在自建的多無(wú)人機(jī)智能對(duì)抗仿真推演平臺(tái)分別采用DQN算法、DDPG算法、MADDPG算法和SES-MADDPG算法進(jìn)行 20 000個(gè)實(shí)驗(yàn)周期的訓(xùn)練。每個(gè)周期的最大時(shí)間步為1 900步,當(dāng)環(huán)境內(nèi)的無(wú)人機(jī)個(gè)數(shù)不滿足完成任務(wù)的最低個(gè)數(shù)或者任務(wù)提前完成時(shí),該實(shí)驗(yàn)周期將會(huì)提前結(jié)束。通過(guò)對(duì)4種不同的算法進(jìn)行對(duì)比,對(duì)算法進(jìn)行評(píng)價(jià)比較。

    以每個(gè)實(shí)驗(yàn)周期內(nèi)的累積獎(jiǎng)勵(lì)以及任務(wù)的完成率作為評(píng)價(jià)指標(biāo)。由于長(zhǎng)機(jī)的設(shè)置與其他無(wú)人機(jī)稍有區(qū)別,因此當(dāng)對(duì)比每個(gè)實(shí)驗(yàn)周期的獎(jiǎng)勵(lì)時(shí),不僅比較10架無(wú)人機(jī)的平均獎(jiǎng)勵(lì),也對(duì)長(zhǎng)機(jī)獲得的獎(jiǎng)勵(lì)進(jìn)行單獨(dú)比較。實(shí)驗(yàn)代碼中部分超參數(shù)如表3所示。

    表3 超參數(shù)

    5 仿真實(shí)驗(yàn)分析

    5.1 訓(xùn)練獎(jiǎng)勵(lì)值分析

    在自建的多無(wú)人智能仿真推演平臺(tái)分別使用了DQN算法、DDPG算法、MADDPG算法和SES-MADDPG算法進(jìn)行20 000個(gè)周期的訓(xùn)練。其中圖4為集群內(nèi)所有無(wú)人機(jī)平均獎(jiǎng)勵(lì)的對(duì)比圖片,圖5為長(zhǎng)機(jī)平均獎(jiǎng)勵(lì)的對(duì)比圖片。由圖4、圖5中可以看出,大約5 000個(gè)周期后,訓(xùn)練過(guò)程進(jìn)入了較為平穩(wěn)的收斂狀態(tài)。MADDPG算法和SES-MADDPG算法的獎(jiǎng)勵(lì)收斂值明顯高于DQN算法和DDPG算法。其中SES-MADDPG算法的收斂效果最好,相較于沒(méi)有選擇性回收機(jī)制的MADDPG算法,收斂值有了一定的提升。

    圖4 所有無(wú)人機(jī)平均獎(jiǎng)勵(lì)對(duì)比圖

    圖5 長(zhǎng)機(jī)的獎(jiǎng)勵(lì)對(duì)比圖

    表4和表5分別展示了不同強(qiáng)化學(xué)習(xí)算法在20 000個(gè)實(shí)驗(yàn)周期內(nèi)的每架無(wú)人機(jī)的平均獎(jiǎng)勵(lì)和長(zhǎng)機(jī)的獎(jiǎng)勵(lì),由實(shí)驗(yàn)數(shù)據(jù)可看出,DQN和DDPG算法的平均獎(jiǎng)勵(lì)值均為負(fù)數(shù),而SES-MADDPG算法的獎(jiǎng)勵(lì)值在100左右,遠(yuǎn)遠(yuǎn)高于其他的算法,充分證明了該算法的優(yōu)越性。

    表4 每架無(wú)人機(jī)前20 000輪的平均獎(jiǎng)勵(lì)對(duì)比

    表5 長(zhǎng)機(jī)前20 000輪的平均獎(jiǎng)勵(lì)對(duì)比

    評(píng)估算法好壞的另一種方式是任務(wù)的完成度,為了避免訓(xùn)練前期收斂值不穩(wěn)定對(duì)實(shí)驗(yàn)產(chǎn)生的影響,分析了后10 000個(gè)實(shí)驗(yàn)周期的任務(wù)完成情況,如表6所示,展示了在10 000次的訓(xùn)練過(guò)程中,成功完成任務(wù)的次數(shù)。雖然任務(wù)的完成率不高,但是相較于MADDPG算法,任務(wù)完成率提高了25.427%。

    表6 任務(wù)成功完成的次數(shù)

    5.2 單次仿真可視化結(jié)果分析

    利用SES-MADDPG算法經(jīng)過(guò)20 000次訓(xùn)練后得到的模型,執(zhí)行單次仿真推演進(jìn)行效果的可視化評(píng)估分析。

    可視化演示如圖6所示。圖6(a)為仿真開(kāi)始,10架偵干一體機(jī)構(gòu)成的集群做好出發(fā)準(zhǔn)備,設(shè)置0號(hào)為長(zhǎng)機(jī)。圖6(b)集群內(nèi)的無(wú)人機(jī)試探前進(jìn),對(duì)范圍內(nèi)的信號(hào)進(jìn)行掃描探測(cè)。圖6(c)無(wú)人機(jī)集群進(jìn)入藍(lán)方陣地,開(kāi)始對(duì)雷達(dá)進(jìn)行分散探測(cè)定位。圖6(d)無(wú)人機(jī)確定雷達(dá)方位,對(duì)雷達(dá)進(jìn)行持續(xù)干擾,被干擾后的雷達(dá)的探測(cè)范圍大大降低。圖6(e)集群內(nèi)無(wú)人機(jī)團(tuán)結(jié)協(xié)作,在藍(lán)方陣地開(kāi)辟出投彈通道,任務(wù)成功結(jié)束。

    圖7為DQN算法模型經(jīng)過(guò)20 000次訓(xùn)練后得到的無(wú)人機(jī)運(yùn)動(dòng)軌跡圖,圖7中藍(lán)色點(diǎn)代表雷達(dá)的位置。有4架無(wú)人機(jī)被藍(lán)方雷達(dá)發(fā)現(xiàn)并被擊毀。其余無(wú)人機(jī)沒(méi)有進(jìn)行有效的偵察和干擾,運(yùn)動(dòng)無(wú)規(guī)律性,僅僅在某個(gè)區(qū)域進(jìn)行徘徊。圖8為SES-MADDPG算法模型經(jīng)過(guò)20 000次訓(xùn)練后得到的無(wú)人機(jī)運(yùn)動(dòng)軌跡圖,從圖8中可以看出,在未發(fā)現(xiàn)雷達(dá)前,無(wú)人機(jī)集群試探性前進(jìn),當(dāng)發(fā)現(xiàn)藍(lán)方雷達(dá)后,0號(hào)無(wú)人機(jī)繞著藍(lán)方陣地進(jìn)行往復(fù)移動(dòng),其目的是對(duì)運(yùn)動(dòng)的偵察機(jī)進(jìn)行持續(xù)性干擾。其余的無(wú)人機(jī)各自進(jìn)行任務(wù)分配,對(duì)藍(lán)方的地面雷達(dá)進(jìn)行持續(xù)性干擾,最后成功壓制了雷達(dá)的探測(cè)范圍,為轟炸機(jī)開(kāi)辟了投彈通道。

    圖6 對(duì)抗的仿真結(jié)果

    圖7 基于DQN算法的無(wú)人機(jī)飛行軌跡

    圖8 基于SES-MADDPG算法的無(wú)人機(jī)飛行軌跡

    6 結(jié)論

    針對(duì)紅藍(lán)對(duì)抗問(wèn)題,將深度強(qiáng)化學(xué)習(xí)算法引入到無(wú)人機(jī)集群協(xié)同偵察、干擾雷達(dá)的任務(wù)中。為了解決收斂效果差、任務(wù)完成率低的問(wèn)題,在MADDPG算法的基礎(chǔ)上,加入選擇性經(jīng)驗(yàn)回收機(jī)制,提出了SES-MADDPG算法。仿真實(shí)驗(yàn)結(jié)果表明:SES-MADDPG算法比其他幾種強(qiáng)化學(xué)習(xí)算法具有更好的收斂效果,同時(shí)任務(wù)完成率相較于MADDPG算法提高了25.427%。

    該算法雖然提高了收斂效果和任務(wù)完成率,但是會(huì)存在一定概率陷入局部最優(yōu)的情況。下一步研究方向:一方面要克服陷入局部最優(yōu)的缺陷,另一方面將該算法的環(huán)境推廣至三維空間環(huán)境中。

    猜你喜歡
    藍(lán)方雷達(dá)經(jīng)驗(yàn)
    有雷達(dá)
    大自然探索(2023年7期)2023-08-15 00:48:21
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2021年20期)2021-11-04 09:39:46
    經(jīng)驗(yàn)
    雷達(dá)
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2018年20期)2018-11-09 08:52:36
    精彩的足球比賽
    暗號(hào)
    基于空時(shí)二維隨機(jī)輻射場(chǎng)的彈載雷達(dá)前視成像
    暗號(hào)
    暗號(hào)
    欧美午夜高清在线| 精品国内亚洲2022精品成人 | 啦啦啦 在线观看视频| 人人妻,人人澡人人爽秒播| 天堂俺去俺来也www色官网| 国产精品久久久久久精品古装| 欧美日韩黄片免| 午夜精品国产一区二区电影| 欧美成人午夜精品| 国产精品综合久久久久久久免费 | 免费观看人在逋| 中文字幕av电影在线播放| 中文字幕av电影在线播放| 一本大道久久a久久精品| 国产精品1区2区在线观看. | 国产精品久久久久成人av| 亚洲午夜理论影院| 人妻丰满熟妇av一区二区三区 | 一级a爱片免费观看的视频| 成人特级黄色片久久久久久久| 美女国产高潮福利片在线看| 在线观看免费高清a一片| 色尼玛亚洲综合影院| 制服人妻中文乱码| 国产精品久久电影中文字幕 | 欧美精品啪啪一区二区三区| 午夜91福利影院| 99精品在免费线老司机午夜| 久久青草综合色| 成人精品一区二区免费| 91精品国产国语对白视频| 香蕉久久夜色| 欧美日韩av久久| 一边摸一边做爽爽视频免费| 嫩草影视91久久| 亚洲av成人不卡在线观看播放网| 99re在线观看精品视频| 成年动漫av网址| 黄色女人牲交| 最近最新中文字幕大全免费视频| 中文欧美无线码| 无人区码免费观看不卡| 亚洲情色 制服丝袜| 水蜜桃什么品种好| 婷婷成人精品国产| 老司机亚洲免费影院| 激情视频va一区二区三区| 极品少妇高潮喷水抽搐| 国产一区有黄有色的免费视频| 国产日韩欧美亚洲二区| 人妻 亚洲 视频| 天堂动漫精品| www.999成人在线观看| 久久久国产精品麻豆| 国产一区二区三区在线臀色熟女 | 亚洲av成人av| 国产精品二区激情视频| 国产不卡av网站在线观看| tube8黄色片| 丰满的人妻完整版| 91麻豆精品激情在线观看国产 | 国产不卡av网站在线观看| 无遮挡黄片免费观看| 一区福利在线观看| 国产一卡二卡三卡精品| 老汉色av国产亚洲站长工具| 国产精品自产拍在线观看55亚洲 | 丰满迷人的少妇在线观看| 日日摸夜夜添夜夜添小说| 啦啦啦视频在线资源免费观看| 欧美人与性动交α欧美软件| 国产精品99久久99久久久不卡| 亚洲精品在线美女| ponron亚洲| 国产精品影院久久| 国产一卡二卡三卡精品| 99re6热这里在线精品视频| 国产精品九九99| 久久国产精品大桥未久av| 国产精品久久视频播放| 免费看十八禁软件| 国产极品粉嫩免费观看在线| 成人三级做爰电影| 国产精品电影一区二区三区 | 90打野战视频偷拍视频| 岛国毛片在线播放| 亚洲人成77777在线视频| 老鸭窝网址在线观看| 中文欧美无线码| 精品欧美一区二区三区在线| 91大片在线观看| 丰满人妻熟妇乱又伦精品不卡| 男女高潮啪啪啪动态图| 50天的宝宝边吃奶边哭怎么回事| 啦啦啦视频在线资源免费观看| 亚洲国产欧美网| 欧美乱色亚洲激情| 久久久精品区二区三区| 女人被躁到高潮嗷嗷叫费观| 波多野结衣av一区二区av| 欧美午夜高清在线| 美女高潮到喷水免费观看| 精品免费久久久久久久清纯 | 精品一区二区三区视频在线观看免费 | 麻豆乱淫一区二区| 久久精品国产a三级三级三级| 国产在线观看jvid| 亚洲午夜精品一区,二区,三区| 美国免费a级毛片| 在线观看舔阴道视频| 国产精品一区二区在线不卡| 搡老乐熟女国产| 久久精品国产综合久久久| 女人高潮潮喷娇喘18禁视频| 国产精品久久久久久人妻精品电影| 男女高潮啪啪啪动态图| 久久婷婷成人综合色麻豆| 五月开心婷婷网| 欧美黄色淫秽网站| 成人特级黄色片久久久久久久| 99在线人妻在线中文字幕 | 一区福利在线观看| 亚洲人成电影免费在线| 欧美 亚洲 国产 日韩一| 国产又色又爽无遮挡免费看| 高清毛片免费观看视频网站 | 精品卡一卡二卡四卡免费| 日韩成人在线观看一区二区三区| 男人的好看免费观看在线视频 | 久久久久久久国产电影| 亚洲aⅴ乱码一区二区在线播放 | 亚洲精品中文字幕在线视频| 国产精品免费一区二区三区在线 | 久久香蕉精品热| 久久久久精品人妻al黑| 99热网站在线观看| 麻豆成人av在线观看| 国产精品二区激情视频| 亚洲一区高清亚洲精品| 国产99白浆流出| av有码第一页| 母亲3免费完整高清在线观看| 婷婷丁香在线五月| 女同久久另类99精品国产91| 精品久久久久久久毛片微露脸| 久久草成人影院| 侵犯人妻中文字幕一二三四区| 男女床上黄色一级片免费看| 久久精品国产99精品国产亚洲性色 | 国产精品久久视频播放| 中文字幕高清在线视频| 黄色女人牲交| aaaaa片日本免费| 女性被躁到高潮视频| 精品国产美女av久久久久小说| 亚洲色图 男人天堂 中文字幕| 王馨瑶露胸无遮挡在线观看| 少妇被粗大的猛进出69影院| 国产欧美日韩综合在线一区二区| 欧美精品啪啪一区二区三区| 国产精品九九99| 老司机午夜福利在线观看视频| 黑人巨大精品欧美一区二区mp4| 国产欧美亚洲国产| 狂野欧美激情性xxxx| 国产乱人伦免费视频| 人人妻人人爽人人添夜夜欢视频| 99久久综合精品五月天人人| 国产高清视频在线播放一区| 亚洲精品中文字幕一二三四区| 成人18禁高潮啪啪吃奶动态图| 中文字幕制服av| 男女之事视频高清在线观看| xxxhd国产人妻xxx| 亚洲国产精品sss在线观看 | 少妇的丰满在线观看| 一边摸一边抽搐一进一出视频| 精品乱码久久久久久99久播| 亚洲精品乱久久久久久| 亚洲欧美激情在线| 18禁美女被吸乳视频| 成人18禁高潮啪啪吃奶动态图| www.自偷自拍.com| 嫁个100分男人电影在线观看| 看黄色毛片网站| 亚洲精品久久成人aⅴ小说| 亚洲色图 男人天堂 中文字幕| 一本综合久久免费| 日本黄色日本黄色录像| 欧美国产精品一级二级三级| 色在线成人网| 久99久视频精品免费| 色老头精品视频在线观看| 国产精品国产av在线观看| 免费在线观看黄色视频的| 老司机亚洲免费影院| www.999成人在线观看| 中文字幕色久视频| 韩国精品一区二区三区| 久久九九热精品免费| 王馨瑶露胸无遮挡在线观看| 99re6热这里在线精品视频| 免费观看a级毛片全部| 精品第一国产精品| 国产xxxxx性猛交| 日韩欧美免费精品| √禁漫天堂资源中文www| 91字幕亚洲| 亚洲五月天丁香| 少妇猛男粗大的猛烈进出视频| 日韩精品免费视频一区二区三区| 午夜精品在线福利| 在线观看66精品国产| 亚洲av电影在线进入| 免费av中文字幕在线| 男人舔女人的私密视频| 久久九九热精品免费| 亚洲自偷自拍图片 自拍| 黄片小视频在线播放| 操美女的视频在线观看| 999久久久精品免费观看国产| 亚洲九九香蕉| 国产成人免费无遮挡视频| 国产真人三级小视频在线观看| 后天国语完整版免费观看| 欧美性长视频在线观看| 亚洲人成77777在线视频| 久久午夜综合久久蜜桃| 久久国产乱子伦精品免费另类| 如日韩欧美国产精品一区二区三区| 高清欧美精品videossex| 亚洲成av片中文字幕在线观看| 成年女人毛片免费观看观看9 | 国产精品久久视频播放| www日本在线高清视频| 天堂√8在线中文| 久久久国产一区二区| 三上悠亚av全集在线观看| 电影成人av| 精品国产国语对白av| a级片在线免费高清观看视频| 国产97色在线日韩免费| 大型黄色视频在线免费观看| 青草久久国产| 国产精品1区2区在线观看. | 久久精品国产综合久久久| 免费在线观看完整版高清| 大码成人一级视频| 国产野战对白在线观看| 视频区图区小说| 麻豆乱淫一区二区| 日韩人妻精品一区2区三区| 一区二区三区国产精品乱码| 日本精品一区二区三区蜜桃| 国产精品欧美亚洲77777| 男女午夜视频在线观看| 美女 人体艺术 gogo| 欧美日韩av久久| 久久国产精品大桥未久av| 欧美久久黑人一区二区| 在线永久观看黄色视频| 校园春色视频在线观看| 亚洲国产毛片av蜜桃av| 两人在一起打扑克的视频| 亚洲精品中文字幕在线视频| 亚洲五月婷婷丁香| 成年人午夜在线观看视频| 亚洲人成77777在线视频| 人人澡人人妻人| 精品一区二区三卡| 国产97色在线日韩免费| av天堂在线播放| 男人操女人黄网站| 亚洲中文字幕日韩| 99riav亚洲国产免费| 色婷婷久久久亚洲欧美| 俄罗斯特黄特色一大片| 色综合婷婷激情| 亚洲男人天堂网一区| 欧美中文综合在线视频| 精品视频人人做人人爽| 老司机福利观看| 成人国产一区最新在线观看| 大香蕉久久成人网| 亚洲成人免费电影在线观看| 丝袜人妻中文字幕| 九色亚洲精品在线播放| 久久99一区二区三区| 国产成人精品久久二区二区免费| 啦啦啦 在线观看视频| 最近最新中文字幕大全电影3 | 免费不卡黄色视频| 伊人久久大香线蕉亚洲五| 男人的好看免费观看在线视频 | 亚洲视频免费观看视频| 久久中文字幕一级| 丰满迷人的少妇在线观看| 无遮挡黄片免费观看| 操出白浆在线播放| 每晚都被弄得嗷嗷叫到高潮| 久久精品91无色码中文字幕| 高清欧美精品videossex| 色94色欧美一区二区| 久久人人爽av亚洲精品天堂| 国产一卡二卡三卡精品| 国产高清国产精品国产三级| 少妇被粗大的猛进出69影院| 色尼玛亚洲综合影院| 欧美在线黄色| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲 国产 在线| 久久九九热精品免费| 一级黄色大片毛片| 18在线观看网站| 国产精品国产高清国产av | 黄色成人免费大全| 久久精品91无色码中文字幕| 久久国产精品影院| 中国美女看黄片| 老熟妇乱子伦视频在线观看| 亚洲av欧美aⅴ国产| av不卡在线播放| 免费高清在线观看日韩| 欧美日韩国产mv在线观看视频| 女人久久www免费人成看片| 精品国产乱子伦一区二区三区| 国产不卡av网站在线观看| 法律面前人人平等表现在哪些方面| 一级a爱片免费观看的视频| 99热网站在线观看| 色在线成人网| 久久精品国产99精品国产亚洲性色 | 人妻久久中文字幕网| 亚洲成人免费av在线播放| 99久久国产精品久久久| 99久久人妻综合| 亚洲人成电影免费在线| 老汉色∧v一级毛片| 成人手机av| 麻豆成人av在线观看| 夜夜爽天天搞| 欧美日韩av久久| 久久99一区二区三区| 国产精品久久久久成人av| 丝袜美腿诱惑在线| 中文字幕精品免费在线观看视频| 亚洲精品中文字幕一二三四区| 久久精品亚洲精品国产色婷小说| 国产亚洲精品久久久久5区| 91九色精品人成在线观看| 精品久久久久久久毛片微露脸| 91精品国产国语对白视频| 国产欧美亚洲国产| 看黄色毛片网站| videosex国产| 天天躁日日躁夜夜躁夜夜| 国产免费现黄频在线看| 亚洲国产欧美网| 国产精品一区二区在线观看99| 黄色怎么调成土黄色| 18禁国产床啪视频网站| 性少妇av在线| 国产高清视频在线播放一区| 丝袜美腿诱惑在线| 精品视频人人做人人爽| 这个男人来自地球电影免费观看| 国产色视频综合| 夜夜躁狠狠躁天天躁| 又紧又爽又黄一区二区| 91精品三级在线观看| 国产人伦9x9x在线观看| 亚洲午夜精品一区,二区,三区| 欧美日本中文国产一区发布| 久久国产亚洲av麻豆专区| 国产三级黄色录像| 亚洲av片天天在线观看| 天天添夜夜摸| 久久精品亚洲熟妇少妇任你| 一夜夜www| 老司机亚洲免费影院| 最近最新中文字幕大全免费视频| 成人永久免费在线观看视频| 满18在线观看网站| 变态另类成人亚洲欧美熟女 | 搡老岳熟女国产| 91麻豆av在线| 日韩欧美一区二区三区在线观看 | 免费少妇av软件| 成年女人毛片免费观看观看9 | 如日韩欧美国产精品一区二区三区| 亚洲精品在线美女| 国产欧美日韩综合在线一区二区| 亚洲少妇的诱惑av| 精品欧美一区二区三区在线| 精品人妻在线不人妻| 黄色丝袜av网址大全| 亚洲成人国产一区在线观看| 欧美最黄视频在线播放免费 | 国产成人精品久久二区二区91| 欧美乱码精品一区二区三区| 一二三四社区在线视频社区8| 多毛熟女@视频| 国产精品99久久99久久久不卡| www.自偷自拍.com| 国产精品影院久久| 国产成人av教育| 午夜视频精品福利| 人成视频在线观看免费观看| 首页视频小说图片口味搜索| 欧美性长视频在线观看| 亚洲人成77777在线视频| 最新美女视频免费是黄的| 久久精品国产亚洲av香蕉五月 | 久久精品国产综合久久久| 欧美日本中文国产一区发布| 国产人伦9x9x在线观看| 女人高潮潮喷娇喘18禁视频| 亚洲熟女精品中文字幕| 不卡av一区二区三区| 极品教师在线免费播放| 国产精品电影一区二区三区 | www.精华液| 亚洲三区欧美一区| 国产精品久久久久久人妻精品电影| 老司机深夜福利视频在线观看| 亚洲,欧美精品.| 色综合欧美亚洲国产小说| 亚洲精品在线美女| 最近最新免费中文字幕在线| 99久久99久久久精品蜜桃| 久久久国产精品麻豆| 日日摸夜夜添夜夜添小说| 国产精品二区激情视频| 国产在线精品亚洲第一网站| 精品久久久久久,| 最新的欧美精品一区二区| 久久中文字幕一级| 在线播放国产精品三级| 日韩成人在线观看一区二区三区| 日本vs欧美在线观看视频| 妹子高潮喷水视频| 中国美女看黄片| 一级a爱视频在线免费观看| 亚洲av第一区精品v没综合| 亚洲午夜理论影院| www.999成人在线观看| 国产高清videossex| 亚洲国产精品sss在线观看 | 亚洲avbb在线观看| 亚洲,欧美精品.| 国产成人免费无遮挡视频| 91av网站免费观看| 亚洲欧美精品综合一区二区三区| 国产精品 国内视频| 亚洲va日本ⅴa欧美va伊人久久| 午夜福利在线免费观看网站| 脱女人内裤的视频| 精品人妻在线不人妻| 亚洲精品国产一区二区精华液| 精品人妻1区二区| 麻豆国产av国片精品| 国产精品1区2区在线观看. | 久久久久视频综合| av中文乱码字幕在线| 欧美日韩福利视频一区二区| 妹子高潮喷水视频| 日韩大码丰满熟妇| 下体分泌物呈黄色| 国产伦人伦偷精品视频| 欧美乱码精品一区二区三区| 色94色欧美一区二区| 国产激情欧美一区二区| 免费在线观看完整版高清| 正在播放国产对白刺激| 80岁老熟妇乱子伦牲交| 国产男女内射视频| 丁香欧美五月| e午夜精品久久久久久久| 精品电影一区二区在线| 免费观看a级毛片全部| 久久久久久免费高清国产稀缺| 夜夜爽天天搞| 老熟妇乱子伦视频在线观看| 国产成人精品无人区| 欧美 亚洲 国产 日韩一| 国产伦人伦偷精品视频| 午夜两性在线视频| aaaaa片日本免费| 国产高清激情床上av| 人人妻人人添人人爽欧美一区卜| 亚洲性夜色夜夜综合| 激情在线观看视频在线高清 | 国产亚洲精品第一综合不卡| 国产高清videossex| 国产亚洲欧美在线一区二区| 久久久久国产精品人妻aⅴ院 | av天堂在线播放| 法律面前人人平等表现在哪些方面| 亚洲精品美女久久久久99蜜臀| 女人爽到高潮嗷嗷叫在线视频| 最近最新免费中文字幕在线| 大型黄色视频在线免费观看| 国产成人啪精品午夜网站| 日本精品一区二区三区蜜桃| 高清欧美精品videossex| 高清毛片免费观看视频网站 | 80岁老熟妇乱子伦牲交| 少妇猛男粗大的猛烈进出视频| 大型av网站在线播放| 国产无遮挡羞羞视频在线观看| e午夜精品久久久久久久| 热99久久久久精品小说推荐| 成人精品一区二区免费| 亚洲五月天丁香| 一进一出抽搐gif免费好疼 | 国产精品一区二区精品视频观看| 女警被强在线播放| 日韩 欧美 亚洲 中文字幕| 人妻丰满熟妇av一区二区三区 | 在线国产一区二区在线| 夜夜爽天天搞| www.自偷自拍.com| 男女高潮啪啪啪动态图| 精品久久久久久久毛片微露脸| av免费在线观看网站| 黄色片一级片一级黄色片| 成年动漫av网址| 丁香六月欧美| 久久亚洲真实| 国产深夜福利视频在线观看| 男女高潮啪啪啪动态图| 免费高清在线观看日韩| 麻豆乱淫一区二区| 欧美丝袜亚洲另类 | 波多野结衣av一区二区av| 法律面前人人平等表现在哪些方面| 亚洲精品国产精品久久久不卡| a级毛片黄视频| 久久久国产成人免费| 啦啦啦免费观看视频1| 午夜免费鲁丝| 国产成人精品无人区| 国产欧美日韩一区二区三区在线| 国产男女内射视频| videosex国产| 国产精品1区2区在线观看. | 亚洲人成电影观看| 国产亚洲精品第一综合不卡| 精品久久久久久久久久免费视频 | 在线观看免费日韩欧美大片| 亚洲成人免费av在线播放| 亚洲在线自拍视频| 午夜亚洲福利在线播放| 丝袜在线中文字幕| 校园春色视频在线观看| 亚洲中文av在线| 少妇 在线观看| 性少妇av在线| 99精品欧美一区二区三区四区| 欧美人与性动交α欧美软件| 亚洲熟女精品中文字幕| avwww免费| 亚洲成人手机| 桃红色精品国产亚洲av| 十八禁高潮呻吟视频| 亚洲欧洲精品一区二区精品久久久| 俄罗斯特黄特色一大片| 亚洲精品国产区一区二| 欧美黄色淫秽网站| 天堂√8在线中文| 9热在线视频观看99| 久久这里只有精品19| 黄片小视频在线播放| 久久精品亚洲精品国产色婷小说| 成人黄色视频免费在线看| 国产xxxxx性猛交| 久久国产亚洲av麻豆专区| 男女免费视频国产| 午夜两性在线视频| 18禁黄网站禁片午夜丰满| 久久国产乱子伦精品免费另类| 国产成人欧美在线观看 | 欧美丝袜亚洲另类 | 欧美 日韩 精品 国产| 99热网站在线观看| 99热只有精品国产| 亚洲va日本ⅴa欧美va伊人久久| 亚洲人成电影免费在线| 国产欧美日韩一区二区三| 91九色精品人成在线观看| 欧美日韩视频精品一区| 国产主播在线观看一区二区| 韩国av一区二区三区四区| 欧美日韩视频精品一区| 精品人妻在线不人妻| 天天躁日日躁夜夜躁夜夜| 亚洲熟女精品中文字幕| 久热这里只有精品99| 亚洲一区二区三区不卡视频| 69精品国产乱码久久久| 他把我摸到了高潮在线观看| 亚洲午夜理论影院| 亚洲色图 男人天堂 中文字幕| 国产主播在线观看一区二区| 91九色精品人成在线观看| 久9热在线精品视频| 日韩欧美一区视频在线观看| netflix在线观看网站| 成年人黄色毛片网站| 久热这里只有精品99| 无限看片的www在线观看| 操出白浆在线播放| 日韩欧美三级三区| 又黄又爽又免费观看的视频| 久久这里只有精品19|