• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種無人機(jī)集群對抗多耦合任務(wù)智能決策方法

    2021-05-24 07:31:58文永明石曉榮黃雪梅
    宇航學(xué)報 2021年4期
    關(guān)鍵詞:紅藍(lán)紅方集群

    文永明,石曉榮,黃雪梅,余 躍

    (北京控制與電子技術(shù)研究所,北京100038)

    0 引 言

    隨著集群技術(shù)和人工智能的發(fā)展,基于群體智能的集群協(xié)同技術(shù)逐漸發(fā)展為未來智能化戰(zhàn)爭的發(fā)展方向[1-3]。無人機(jī)集群利用低成本、大規(guī)模和分布式的優(yōu)勢,協(xié)同偵查作戰(zhàn)可以體現(xiàn)出顯著的靈活性和智能性。無人機(jī)集群協(xié)同偵查在線決策主要包括協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多個相互耦合的任務(wù),無人機(jī)集群需要根據(jù)戰(zhàn)場態(tài)勢和作戰(zhàn)任務(wù)決策出每架無人機(jī)的偵查目標(biāo)和突防軌跡,以最大化集群對抗效能。隨著對抗環(huán)境愈加復(fù)雜動態(tài),對抗手段愈加多樣智能,無人機(jī)集群對抗在線決策存在耦合任務(wù)多、決策空間大和場景不確定難題,導(dǎo)致傳統(tǒng)基于專家知識和現(xiàn)代優(yōu)化算法的決策方法難以同時滿足在線決策的實(shí)時性、最優(yōu)性和泛化性。

    隨著人工智能技術(shù)的發(fā)展與突破[4],尤其是深度強(qiáng)化學(xué)習(xí)在智能決策等方面得到了廣泛關(guān)注與研究[5-7]。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有機(jī)結(jié)合,深度學(xué)習(xí)善于擬合,可通過深層神經(jīng)網(wǎng)絡(luò)表征復(fù)雜空間的非線性和泛化性,強(qiáng)化學(xué)習(xí)善于決策,可通過迭代學(xué)習(xí)使累計(jì)獎勵最大化來獲得高性能策略。深度強(qiáng)化學(xué)習(xí)基于大量離線訓(xùn)練得到智能策略網(wǎng)絡(luò),進(jìn)行快速在線決策,可彌補(bǔ)無人機(jī)集群對抗程序化策略帶來的局限性,提升應(yīng)對復(fù)雜飛行環(huán)境和突發(fā)事件的適應(yīng)能力[8]。

    在深度強(qiáng)化學(xué)習(xí)架構(gòu)方面,當(dāng)決策問題由單個任務(wù)或少數(shù)簡單任務(wù)構(gòu)成時,通常采用集中式深度強(qiáng)化學(xué)習(xí)架構(gòu)來解決。如圖1所示,集中式架構(gòu)的多耦合任務(wù)使用同一套策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池,進(jìn)行集中式耦合訓(xùn)練,在決策時一次同時輸出各個任務(wù)的動作。集中式架構(gòu)建模簡單,并且在理論上可保證存在全局最優(yōu)解。

    圖1 集中式架構(gòu)Fig.1 Centralized architecture

    文獻(xiàn)[9]基于DDPG集中式架構(gòu)優(yōu)化一類變體飛行器外形,因其決策空間較小,故可以快速收斂到最優(yōu)變外形策略。文獻(xiàn)[10]采用DQN(Deep Q-Network)算法對多個Atari小游戲(比如“乒乓球”、“打磚塊”等)進(jìn)行建模和訓(xùn)練,最終在多款游戲上的表現(xiàn)超越了人類玩家。然而,在“蒙特祖瑪?shù)膹?fù)仇”這款游戲中,DQN算法的勝率為0%[11],其原因是這款游戲的任務(wù)較多且相互耦合(比如爬樓梯、躲避敵人、拿鑰匙等),策略空間巨大,集中式架構(gòu)在有限計(jì)算資源下難以收斂。為了解決多個耦合復(fù)雜任務(wù)所帶來的決策空間爆炸等問題,分層式深度強(qiáng)化學(xué)習(xí)架構(gòu)被提出[12]。如圖2所示,分層式架構(gòu)的多耦合任務(wù)使用多套對應(yīng)的策略網(wǎng)絡(luò)、獎勵函數(shù)和經(jīng)驗(yàn)池,按照任務(wù)間的邏輯關(guān)系進(jìn)行分層單獨(dú)訓(xùn)練,在決策時輸出各自的動作進(jìn)行組合來完成整個決策問題。分層式架構(gòu)將多耦合任務(wù)進(jìn)行解耦建模與分層單獨(dú)訓(xùn)練,可以縮小整個決策問題的策略空間,使得各個任務(wù)的策略網(wǎng)絡(luò)收斂速度加快。

    圖2 分層式架構(gòu)Fig.2 Hierarchical architecture

    文獻(xiàn)[13]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)將“蒙特祖瑪?shù)膹?fù)仇”抽象成多個不同層次的子任務(wù)進(jìn)行建模,AI可以完成游戲任務(wù)。文獻(xiàn)[14]采用分層深度強(qiáng)化學(xué)習(xí)架構(gòu)對一款籃球游戲建模,基于下層已熟練掌握的籃球技巧,智能體學(xué)到了上層的有效策略。文獻(xiàn)[15]基于高斯過程回歸與深度強(qiáng)化學(xué)習(xí)的分層人機(jī)協(xié)作控制方法,并以人機(jī)協(xié)作控制球桿系統(tǒng)為例檢驗(yàn)該方法的高效性。然而,分層式架構(gòu)的各個子任務(wù)的策略網(wǎng)絡(luò)分離,即使各個子任務(wù)都收斂到各自的全局最優(yōu)解,但是將它們組合后,得到的結(jié)果很可能不是整個任務(wù)的全局最優(yōu)解。例如在無人機(jī)集群對抗中,目標(biāo)分配結(jié)果是軌跡規(guī)劃的輸入,而軌跡規(guī)劃性能是目標(biāo)分配的依據(jù),分層式架構(gòu)將這兩個子任務(wù)分開訓(xùn)練,沒有充分考慮它們之間固有的耦合關(guān)系,因此多耦合任務(wù)間的協(xié)同性無法充分體現(xiàn),集群對抗效能無法充分發(fā)揮。本文針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題,結(jié)合集中式和分層式架構(gòu)的優(yōu)點(diǎn),設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),通過構(gòu)建多套相關(guān)聯(lián)的多耦合任務(wù)分層策略網(wǎng)絡(luò)進(jìn)行集中耦合訓(xùn)練,可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能。

    在深度強(qiáng)化學(xué)習(xí)獎勵函數(shù)設(shè)計(jì)方面,序貫動作導(dǎo)致的稀疏獎勵問題是指在多步強(qiáng)化學(xué)習(xí)中,往往只在最后一步存在明確獎勵,而中間過程的即時獎勵函數(shù)難以人為設(shè)計(jì)且存在主觀性和經(jīng)驗(yàn)性。例如無人機(jī)集群對抗的多步軌跡規(guī)劃只在結(jié)束時才能得到是否被攔截或者偵查目標(biāo)的結(jié)果,而中間過程很難根據(jù)當(dāng)前的位置和速度等信息設(shè)計(jì)合適的即時獎勵函數(shù)來引導(dǎo)突防和偵查目標(biāo)。強(qiáng)化學(xué)習(xí)是求累計(jì)獎勵期望最大時的最優(yōu)策略,獎勵函數(shù)不同將直接影響策略的性能,如果沒有合適的即時獎勵,稀疏獎勵問題會導(dǎo)致策略網(wǎng)絡(luò)難以快速且穩(wěn)定收斂[16]。為了解決稀疏獎勵問題,文獻(xiàn)[17]提出逆向強(qiáng)化學(xué)習(xí)方法,即專家在完成某項(xiàng)任務(wù)時,其決策往往是最優(yōu)或接近最優(yōu),可以假設(shè),當(dāng)所有的策略所產(chǎn)生的累積獎勵期望都不比專家策略所產(chǎn)生的累積獎勵期望大時,所對應(yīng)的獎勵函數(shù)就是根據(jù)示例學(xué)到的獎勵函數(shù)。為了使逆向強(qiáng)化學(xué)習(xí)可以很好地?cái)U(kuò)展到具有大量狀態(tài)的系統(tǒng),將其與深度學(xué)習(xí)相結(jié)合,在神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)狀態(tài)動作對的獎勵,如基于最大邊際法的深度逆向強(qiáng)化學(xué)習(xí)[18]和基于深度Q網(wǎng)絡(luò)的深度學(xué)徒學(xué)習(xí)[19]等。然而,逆向強(qiáng)化學(xué)習(xí)和深度逆向強(qiáng)化學(xué)習(xí)都是從專家示例中學(xué)習(xí)獎勵函數(shù),在復(fù)雜場景下無人機(jī)集群對抗問題中難以獲取足夠的專家示例來支撐上述方法。本文針對軌跡規(guī)劃序貫決策的稀疏獎勵難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法,回避了多步?jīng)Q策的中間過程,從而避免了稀疏獎勵問題,可使策略網(wǎng)絡(luò)穩(wěn)定快速收斂。

    在深度強(qiáng)化學(xué)習(xí)的泛化性研究方面,泛化性是指訓(xùn)練好的智能策略網(wǎng)絡(luò)在未見過的場景中也具有一定的適應(yīng)能力,其體現(xiàn)在深度神經(jīng)網(wǎng)絡(luò)對獨(dú)立同分布數(shù)據(jù)強(qiáng)大的擬合和預(yù)測能力。因此,在深度強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,使策略網(wǎng)絡(luò)探索到盡可能大的決策空間,增加數(shù)據(jù)的多樣性,是提升其泛化性的有效途徑。2017年,DeepMind團(tuán)隊(duì)在《Nature》上推出了圍棋人工智能AlphaZero[20],AlphaZero不需要人類專家知識,只使用純粹的深度強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索,經(jīng)過3天的自我博弈就以100比0的成績完敗了AlphaGo,AlphaZero強(qiáng)大的搜索能力和泛化性得益于海量且多樣的自我博弈數(shù)據(jù)。文獻(xiàn)[21]指出,AlphaZero智能化方法框架可以啟發(fā)人工智能在智能指揮決策等領(lǐng)域的應(yīng)用。本文針對強(qiáng)對抗條件下的場景不確定難題,基于無人機(jī)集群紅藍(lán)對抗仿真平臺,設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,通過隨機(jī)變化對抗雙方的初始位置和速度等,來設(shè)置每局的對抗態(tài)勢,從而得到多樣化的對抗訓(xùn)練數(shù)據(jù);通過設(shè)計(jì)藍(lán)方AI,采用紅藍(lán)博弈的方式獲得更加智能的藍(lán)方策略作為紅方AI的陪練,從而可以進(jìn)一步提升紅方AI的泛化性。

    本文的主要創(chuàng)新點(diǎn)和貢獻(xiàn):1)針對無人機(jī)集群對抗中耦合任務(wù)多和決策空間大難題,設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu),可提升多耦合任務(wù)間的協(xié)同性和集群對抗效能;2)針對軌跡規(guī)劃序貫決策的稀疏獎勵難題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法,可加快策略網(wǎng)絡(luò)收斂速度;3)針對強(qiáng)對抗條件下的場景不確定難題,設(shè)計(jì)了基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,可增強(qiáng)策略網(wǎng)絡(luò)的泛化性。

    1 混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)

    混合式架構(gòu)將集中式架構(gòu)和分層式架構(gòu)進(jìn)行結(jié)合。多耦合任務(wù)使用多套與子任務(wù)對應(yīng)的執(zhí)行者-評估者(Actor-Critic, AC)神經(jīng)網(wǎng)絡(luò)與獎勵函數(shù)分層構(gòu)建網(wǎng)絡(luò),且多個經(jīng)驗(yàn)池中的經(jīng)驗(yàn)相互關(guān)聯(lián)。在策略網(wǎng)絡(luò)訓(xùn)練控制器的調(diào)度下,多個策略網(wǎng)絡(luò)按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練。在訓(xùn)練過程中,每個評估者(Critic)網(wǎng)絡(luò)收集所有任務(wù)的狀態(tài)和動作信息作為評價的輸入,從而為策略更新提供準(zhǔn)確且穩(wěn)定的信號,更充分的狀態(tài)和動作信息有助于提高耦合任務(wù)間的協(xié)同性;在策略執(zhí)行過程中,各任務(wù)只需根據(jù)自己的狀態(tài)和執(zhí)行者(Actor)網(wǎng)絡(luò),進(jìn)行決策控制,如圖3所示。

    圖3 混合式架構(gòu)Fig.3 Hybrid architecture

    混合式架構(gòu)保留了集中式和分層式架構(gòu)的主要優(yōu)點(diǎn),又克服了它們的突出缺點(diǎn),既保證了各個耦合任務(wù)之間相對穩(wěn)定的訓(xùn)練環(huán)境,有利于得到多任務(wù)協(xié)同下的全局最優(yōu)解,又使得策略空間規(guī)??山邮埽欣诓呗跃W(wǎng)絡(luò)快速收斂。三種深度強(qiáng)化學(xué)習(xí)架構(gòu)特點(diǎn)對比如表1所示。

    混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)主要由多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器組成,多任務(wù)策略網(wǎng)絡(luò)利用多套相關(guān)聯(lián)的AC網(wǎng)絡(luò)對子任務(wù)進(jìn)行建模并分層,策略網(wǎng)絡(luò)訓(xùn)練控制器按照多任務(wù)間的分層關(guān)系進(jìn)行集中耦合訓(xùn)練?;旌鲜郊軜?gòu)的建模和訓(xùn)練流程如圖4所示。

    表1 三種架構(gòu)特點(diǎn)對比Table 1 Comparison of three architectures

    圖4 混合式架構(gòu)建模與訓(xùn)練流程圖Fig.4 Hybrid architecture modeling and training flow chart

    1.1 多任務(wù)策略網(wǎng)絡(luò)

    多耦合任務(wù)M由N個子任務(wù)mi組成,即M={mi}(i表示子任務(wù)編號且i=1,2,…,N),根據(jù)多耦合任務(wù)之間的邏輯關(guān)系,將N個子任務(wù)進(jìn)行分層。任務(wù)mi基于AC架構(gòu)構(gòu)建執(zhí)行者(Actor)神經(jīng)網(wǎng)絡(luò)Ai和評估者(Critic)神經(jīng)網(wǎng)絡(luò)Ci。任務(wù)mi的狀態(tài)空間為si,動作空間為ai,獎勵值為ri。任務(wù)mi的經(jīng)驗(yàn)池設(shè)計(jì)為:

    ei={s1,s2,…,sN,a1,a2,…,aN,

    s′1,s′2,…,s′N,ri,d1,d2,…,dN}

    (1)

    式中:s′i為任務(wù)mi下一步的狀態(tài),di為任務(wù)mi結(jié)束標(biāo)志,且當(dāng)任務(wù)mi結(jié)束時,di=1,反之,di=0。

    任務(wù)mi的評估者神經(jīng)網(wǎng)絡(luò)Ci的輸入層為所有任務(wù)的狀態(tài)S={s1,s2,…,sN}和所有任務(wù)的動作A={a1,a2,…,aN},Ci的輸出層為1維的全局評估值。任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的輸入層為任務(wù)mi的狀態(tài)si,Ai的輸出層為任務(wù)mi的動作ai。

    1.2 策略網(wǎng)絡(luò)訓(xùn)練控制器

    為了多耦合任務(wù)M的整個策略網(wǎng)絡(luò)能夠快速穩(wěn)定收斂,下層任務(wù)需要給上層任務(wù)創(chuàng)造良好的學(xué)習(xí)環(huán)境基礎(chǔ),故策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)為先訓(xùn)練下層任務(wù),達(dá)到設(shè)計(jì)指標(biāo)后,再耦合訓(xùn)練上一層任務(wù),即上下層集中訓(xùn)練。

    策略網(wǎng)絡(luò)訓(xùn)練控制器設(shè)計(jì)訓(xùn)練流程如下:

    1)初始化:設(shè)置多任務(wù)策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)訓(xùn)練控制器參數(shù);

    2)生成下層動作:根據(jù)下層執(zhí)行者神經(jīng)網(wǎng)絡(luò)Ai的策略生成動作:

    ai=Ai(si)+δi

    (2)

    3)生成上層動作:上層任務(wù)隨機(jī)生成動作:

    ai=ξi

    (3)

    式中:ξi為服從均勻分布的隨機(jī)數(shù);

    4)與仿真環(huán)境交互:將得到動作集合A={a1,a2,…,aN}在仿真環(huán)境中執(zhí)行,得到獎勵值集合R={r1,r2,…,rN},下一個狀態(tài)集合S′={s′1,s′2,…,s′N}和任務(wù)是否結(jié)束標(biāo)志集合D={d1,d2,…,dN};

    5)保存經(jīng)驗(yàn):將經(jīng)驗(yàn)

    ei={S,A,S′,ri,D}={s1,s2,…,sN,a1,a2,…,

    aN,s′1,s′2,…,s′N,ri,d1,d2,…,dN}

    (4)

    存入任務(wù)mi的經(jīng)驗(yàn)池Ei;

    6)策略網(wǎng)絡(luò)訓(xùn)練:當(dāng)任務(wù)mi的經(jīng)驗(yàn)池Ei總經(jīng)驗(yàn)數(shù)達(dá)到開始訓(xùn)練的條件時,開始對任務(wù)mi的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練:

    (2)定義累計(jì)獎勵函數(shù):令任務(wù)mi的累計(jì)獎勵為:

    (5)

    (3)定義損失函數(shù):令任務(wù)mi的損失函數(shù)為:

    (6)

    式中:Ci(·)為任務(wù)mi在神經(jīng)網(wǎng)絡(luò)參數(shù)為θCi下的評估者神經(jīng)網(wǎng)絡(luò)價值函數(shù)。通過求L(θCi)的極小值來更新θCi;

    (4)定義采樣策略梯度函數(shù):令任務(wù)mi的采樣策略梯度為:

    (7)

    (5)更新策略網(wǎng)絡(luò)參數(shù):根據(jù)式(7)估計(jì)的策略梯度通過深度學(xué)習(xí)優(yōu)化器來更新任務(wù)mi的執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θAi;

    (6)更新目標(biāo)網(wǎng)絡(luò)參數(shù):滿足一定條件時,按照式(8)來更新任務(wù)mi的目標(biāo)執(zhí)行者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ai和目標(biāo)評估者神經(jīng)網(wǎng)絡(luò)參數(shù)θ′Ci:

    (8)

    式中:τi為神經(jīng)網(wǎng)絡(luò)參數(shù)更新頻率,“←”表示賦值。

    (7)測試與訓(xùn)練層級遞進(jìn):訓(xùn)練一定次數(shù)后,測試當(dāng)前層對應(yīng)的所有任務(wù)是否都達(dá)到設(shè)計(jì)指標(biāo),如果是,則開始上一層任務(wù)的訓(xùn)練;否則,繼續(xù)本層任務(wù)的訓(xùn)練;

    (8)循環(huán):重復(fù)流程(1)至流程(8),直至多耦合任務(wù)M訓(xùn)練結(jié)束,且測試達(dá)到預(yù)定指標(biāo)。

    1.3 無人機(jī)集群對抗混合式架構(gòu)建模

    1) 多任務(wù)策略網(wǎng)絡(luò)。上層:協(xié)同目標(biāo)分配,決策紅方無人機(jī)集群中每架無人機(jī)的偵查目標(biāo),以最大化集群對抗效能(偵查總得分);下層:突防軌跡規(guī)劃,決策紅方無人機(jī)的突防和偵查軌跡,既要進(jìn)行躲避機(jī)動又要保留足夠的機(jī)動能力對目標(biāo)進(jìn)行偵查,以最大化突防概率(突防成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)和偵查成功率(偵查成功的紅方無人機(jī)數(shù)量除以紅方無人機(jī)總數(shù)量)。

    2)狀態(tài)空間。目標(biāo)分配策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)數(shù)量、位置、速度和藍(lán)方待偵查目標(biāo)數(shù)量、位置、價值等;軌跡規(guī)劃策略網(wǎng)絡(luò)的狀態(tài)主要包括:紅方無人機(jī)位置、速度和藍(lán)方待偵查目標(biāo)位置等。

    3)動作空間。目標(biāo)分配策略網(wǎng)絡(luò)的動作為:紅方無人機(jī)偵查目標(biāo)的編號;軌跡規(guī)劃策略網(wǎng)絡(luò)的動作為:紅方無人機(jī)軌跡構(gòu)造函數(shù)的參數(shù)。

    4)獎勵函數(shù)。確定3個元獎勵分別為突防元獎勵ro_tf、偵查元獎勵ro_zc和效能元獎勵ro_xn。紅方無人機(jī)突防成功,則ro_tf=1,否則ro_tf=-1;紅方無人機(jī)成功偵查目標(biāo),則ro_zc=1,否則ro_zc=-1;集群對抗效能歸一化作為效能元獎勵ro_xn。為了進(jìn)一步體現(xiàn)各個耦合任務(wù)之間的協(xié)同性,采用元獎勵加權(quán)的方式使目標(biāo)分配和軌跡規(guī)劃的獎勵函數(shù)相互關(guān)聯(lián)。根據(jù)目標(biāo)分配對各個元獎勵的影響確定目標(biāo)分配的突防權(quán)重wo_tf_mb、偵查權(quán)重wo_zc_mb和效能權(quán)重wo_xn_mb,且滿足wo_tf_mb+wo_zc_mb+wo_xn_mb=1。同理,根據(jù)軌跡規(guī)劃對各個元獎勵的影響確定軌跡規(guī)劃的突防權(quán)重wo_tf_gj、偵查權(quán)重wo_zc_gj和效能權(quán)重wo_xn_gj,且滿足wo_tf_gj+wo_zc_gj+wo_xn_gj=1。則目標(biāo)分配獎勵函數(shù)為:

    rmb=wo_tf_mbro_tf+wo_zc_mbro_zc+wo_xn_mbro_xn

    (9)

    軌跡規(guī)劃的獎勵函數(shù)為:

    rgj=wo_tf_gjro_tf+wo_zc_gjro_zc+wo_xn_gjro_xn

    (10)

    5)策略網(wǎng)絡(luò)訓(xùn)練控制器。先訓(xùn)練下層軌跡規(guī)劃策略網(wǎng)絡(luò)。當(dāng)突防概率和偵查成功率達(dá)到指標(biāo)要求后,再訓(xùn)練上層目標(biāo)分配策略網(wǎng)絡(luò),兩個任務(wù)進(jìn)行集中耦合訓(xùn)練,直至突防概率、偵查成功率和集群對抗效能達(dá)到指標(biāo)要求后,訓(xùn)練完畢。

    2 基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法

    在突防軌跡規(guī)劃中,紅方無人機(jī)通過在線生成機(jī)動指令來達(dá)到躲避攔截和偵查目標(biāo)的目的。通常采用多步序貫決策方式會帶來稀疏獎勵問題,它是指在每個決策周期都生成無人機(jī)的機(jī)動指令,但只在最后一步存在明確的獎勵,而過程獎勵難以設(shè)計(jì),會導(dǎo)致策略網(wǎng)絡(luò)難以快速穩(wěn)定收斂。針對上述問題,設(shè)計(jì)了基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法。

    根據(jù)紅方無人機(jī)機(jī)動特性和藍(lán)方攔截?zé)o人機(jī)的攔截特點(diǎn)確定突防軌跡構(gòu)造函數(shù)表示為:

    nc(t)=F(P,t)+a0(t)

    (11)

    式中:nc(t)表示t時刻無人機(jī)的機(jī)動指令。a0(t)表示t時刻無人機(jī)的比例導(dǎo)引指令,引導(dǎo)無人機(jī)飛向目標(biāo)。F(P,t)表示t時刻無人機(jī)的附加機(jī)動指令函數(shù),控制機(jī)動突防,P為函數(shù)參數(shù)集合。F(P,t)的具體表達(dá)形式可以根據(jù)無人機(jī)的機(jī)動特性和攔截?zé)o人機(jī)的攔截特點(diǎn)確定,比如無人機(jī)的動態(tài)性能良好且藍(lán)方攔截策略簡單,F(xiàn)(P,t)可確定為方波函數(shù);無人機(jī)的動態(tài)性能一般且藍(lán)方攔截策略簡單,F(xiàn)(P,t)可確定為正弦函數(shù);藍(lán)方攔截策略復(fù)雜,F(xiàn)(P,t)可確定為多項(xiàng)式函數(shù)。

    從函數(shù)參數(shù)集合P中確定待優(yōu)化的參數(shù),表示為:

    P=C∪X

    (12)

    式中:C={c1,c2,…,cm}表示m個常值參數(shù)集合,X={x1,x2,…,xn}表示n個待優(yōu)化參數(shù)集合。

    確定深度強(qiáng)化學(xué)習(xí)的動作空間表示為:

    A=[x1,x2,…,xn]T(ximin≤xi≤ximax,i=1,2,…,n)

    (13)

    式中:ximin表示待優(yōu)化參數(shù)xi的最小值,ximax表示待優(yōu)化參數(shù)xi的最大值。

    基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法只需決策一次突防軌跡構(gòu)造函數(shù)的參數(shù)就可以規(guī)劃出完整的軌跡,對抗仿真后即可得到一次明確的獎勵,即一個動作對應(yīng)一個獎勵,因此避免了序貫動作的稀疏獎勵問題,使收斂速度和穩(wěn)定性有效提升。

    3 基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法

    針對強(qiáng)對抗條件下的場景不確定難題,基于無人機(jī)集群紅藍(lán)對抗仿真平臺,設(shè)計(jì)基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法。

    紅方無人機(jī)集群的作戰(zhàn)任務(wù)為最大化偵查覆蓋藍(lán)方目標(biāo)編隊(duì),紅方無人機(jī)在飛行過程中會受到藍(lán)方攔截?zé)o人機(jī)的攔截,在紅方無人機(jī)突防后,需要飛到待偵查目標(biāo)附近且保留一定的機(jī)動能力進(jìn)行偵查。如圖5所示,無人機(jī)集群紅藍(lán)對抗的主要場景及設(shè)計(jì)要素如下:1)紅方偵查無人機(jī)集群:由NH架偵查無人機(jī)組成;2)藍(lán)方待偵查目標(biāo)編隊(duì):由NL個待偵查目標(biāo)組成,五角星表示主要待偵查目標(biāo)(需要3架紅方無人機(jī)偵查保證覆蓋目標(biāo)),三角形表示次要目標(biāo)(需要2架紅方無人機(jī)偵查保證覆蓋目標(biāo));3)藍(lán)方攔截?zé)o人機(jī):針對1架紅方無人機(jī)最多可用2架藍(lán)方無人機(jī)進(jìn)行攔截;4)集群對抗效能:1架紅方無人機(jī)成功偵查目標(biāo)得1分,成功偵查主要目標(biāo)最多得3分,成功偵查次要目標(biāo)最多得2分,所得總分即為集群對抗效能;5)集群對抗效能比:為了對比不同想定之間的效能,定義集群對抗效能比為集群對抗效能除以理論最大效能。想定的名稱用“NHV NL”表示。

    圖5 典型對抗場景示意圖Fig.5 Typical confrontation scenarios

    設(shè)置多個典型無人機(jī)集群對抗想定(如8V5、8V7、12V10、18V12、18V14等)訓(xùn)練策略網(wǎng)絡(luò),設(shè)定紅藍(lán)對抗雙方的初始位置和速度等參數(shù)的合理變化范圍,每一局對抗訓(xùn)練隨機(jī)選取一個想定和一組參數(shù)來設(shè)置對抗態(tài)勢,則通過大量對抗仿真可得到多樣化的對抗訓(xùn)練數(shù)據(jù)。

    藍(lán)方的對抗模型和策略通常采用基于專家知識的方式進(jìn)行建模,然后進(jìn)行紅藍(lán)對抗仿真對紅方策略網(wǎng)絡(luò)進(jìn)行單方面訓(xùn)練,而基于藍(lán)方單一策略對紅方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練容易過擬合,導(dǎo)致紅方策略單一且對藍(lán)方策略的變化缺乏泛化性,難以適應(yīng)高動態(tài)的實(shí)際戰(zhàn)場環(huán)境。

    設(shè)計(jì)藍(lán)方策略網(wǎng)絡(luò),智能決策藍(lán)方攔截?zé)o人機(jī)的攔截目標(biāo)和起飛時機(jī),紅藍(lán)策略網(wǎng)絡(luò)在無人機(jī)集群紅藍(lán)對抗仿真平臺上采用紅藍(lán)博弈方式進(jìn)行訓(xùn)練。紅藍(lán)博弈訓(xùn)練方法流程如圖6所示,在每個并行的博弈環(huán)境中,紅藍(lán)策略網(wǎng)絡(luò)視對方為環(huán)境進(jìn)行學(xué)習(xí)。為增強(qiáng)博弈訓(xùn)練中策略學(xué)習(xí)的穩(wěn)定性,在每個博弈周期的訓(xùn)練中,固定紅藍(lán)雙方中一方的策略,訓(xùn)練另一方。在每一個博弈周期結(jié)束后,根據(jù)紅藍(lán)方策略的表現(xiàn)進(jìn)行優(yōu)勝劣汰,將實(shí)力相當(dāng)?shù)募t藍(lán)策略網(wǎng)絡(luò)配對,進(jìn)行下一周期的博弈,如此往復(fù),不斷提升紅方策略網(wǎng)絡(luò)對不同藍(lán)方策略的泛化性。

    多平臺分布式紅藍(lán)博弈訓(xùn)練場景如圖7所示。

    圖6 紅藍(lán)博弈訓(xùn)練流程Fig.6 Red blue game training process

    圖7 多平臺分布式紅藍(lán)博弈訓(xùn)練場景Fig.7 Multi platform distributed red blue game training scenario

    4 仿真校驗(yàn)

    4.1 有效性校驗(yàn)

    采用基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法對紅方和藍(lán)方策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最優(yōu)的紅方策略網(wǎng)絡(luò)(紅AI),以18架無人機(jī)集群偵查14個藍(lán)方目標(biāo)編隊(duì)(18V14)為例來闡述仿真與測試結(jié)果。紅方按照遺傳算法決策,得到的典型紅藍(lán)對抗平面軌跡如圖8(a)所示;紅方按照策略網(wǎng)絡(luò)決策,得到的典型紅藍(lán)對抗平面軌跡如圖8(b)所示。

    圖8 典型平面軌跡Fig.8 Typical plane trajectory

    圖8中,軌跡末端“×”表示紅方無人機(jī)被藍(lán)方無人機(jī)攔截或機(jī)動能力不足導(dǎo)致偵查失敗。由圖8可得遺傳算法的突防概率為8÷18=44%,集群對抗效能比為7÷18=39%;紅AI的突防概率為16÷18=89%,集群對抗效能比為15÷18=83%。通過對比可知:紅AI可以為紅方無人機(jī)集群分配合理的偵查目標(biāo)和規(guī)劃有效的突防和成功偵查目標(biāo)軌跡,有效提高了集群對抗效能。

    紅AI訓(xùn)練過程曲線如圖9所示。

    圖9 集群對抗效能訓(xùn)練曲線Fig.9 Efficiency training curve of group confrontation

    圖9中的訓(xùn)練曲線為單平臺訓(xùn)練過程,仿真次數(shù)為200時,紅AI收斂。采用60個無人機(jī)集群紅藍(lán)對抗仿真平臺進(jìn)行多平臺分布式紅藍(lán)博弈訓(xùn)練,因此紅AI的訓(xùn)練收斂次數(shù)約為200×60=12000次。

    遺傳算法和紅AI測試得到的性能對比如表2所示。由表2可得,紅AI相比基于遺傳算法在集群對抗效能上提升了約95%,說明了本文方法的有效性。

    表2 遺傳算法與紅AI性能對比Table 2 Performance comparison between genetic algorithm and red AI

    4.2 泛化性校驗(yàn)

    通過對12V10、18V14等場景進(jìn)行隨機(jī)訓(xùn)練,得到的策略網(wǎng)絡(luò)在未訓(xùn)練過的場景上(13V10、17V15)進(jìn)行泛化性測試,得到的結(jié)果如表3所示。由表3可得,策略網(wǎng)絡(luò)在未訓(xùn)練過場景上的適應(yīng)性平均大于90%,說明紅AI具有一定的泛化性。

    表3 泛化性測試Table 3 Generalization testing

    4.3 先進(jìn)性校驗(yàn)

    將集中式架構(gòu)訓(xùn)練得到的集中式AI、分層式架構(gòu)訓(xùn)練得到的分層式AI分別在無人機(jī)集群紅藍(lán)對抗仿真平臺測試,得到的性能對比結(jié)果如表4所示。

    從表4中可以得到以下結(jié)論:1)集中式AI在有限計(jì)算資源條件下難以收斂;2)分層式AI多任務(wù)迭代訓(xùn)練耗時大,且未得到全任務(wù)最優(yōu)策略;3)混合式AI學(xué)到了多耦合任務(wù)間的協(xié)同能力,得到了全任務(wù)最優(yōu)策略,相比分層式AI在集群對抗效能上提升了約31%;混合式AI策略網(wǎng)絡(luò)收斂速度較快,相比分層式AI收斂速度提升567%。上述結(jié)果表明:在多耦合任務(wù)決策問題上,混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)相比集中式和分層式架構(gòu),具有較強(qiáng)的先進(jìn)性。

    表4 三種架構(gòu)性能對比Table 4 Performance comparison of three architectures

    5 結(jié) 論

    本文針對復(fù)雜場景下無人機(jī)集群對抗中協(xié)同目標(biāo)分配和突防軌跡規(guī)劃等多耦合任務(wù)的決策問題,提出了一種集群對抗多耦合任務(wù)智能決策方法。設(shè)計(jì)了面向多耦合任務(wù)的混合式深度強(qiáng)化學(xué)習(xí)架構(gòu)、基于軌跡構(gòu)造的一步式動作空間設(shè)計(jì)方法和基于多隨機(jī)場景的紅藍(lán)博弈訓(xùn)練方法,解決了無人機(jī)集群對抗在線決策耦合任務(wù)多、決策空間大和場景不確定等難題,增強(qiáng)了策略網(wǎng)絡(luò)的收斂性能和泛化性,提升了無人機(jī)集群對抗多耦合任務(wù)間的協(xié)同性、集群對抗效能。通過與傳統(tǒng)方法、集中式架構(gòu)方法和分層式架構(gòu)方法進(jìn)行對比,驗(yàn)證了本文提出方法的有效性和先進(jìn)性。

    猜你喜歡
    紅藍(lán)紅方集群
    如何在方格紙上確定位置
    最愛紅藍(lán)飯
    海上小型無人機(jī)集群的反制裝備需求與應(yīng)對之策研究
    一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
    電子制作(2018年11期)2018-08-04 03:25:40
    Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
    勤快又呆萌的集群機(jī)器人
    紅藍(lán)飯飄香
    西江月(2014年3期)2014-11-17 05:49:49
    試論棋例裁決難點(diǎn)
    棋藝(2014年3期)2014-05-29 14:27:14
    提示棋例的盲點(diǎn)
    棋藝(2009年8期)2009-04-29 08:53:52
    象摸殘局
    中國青年(1983年2期)1983-08-21 03:00:18
    国产精品一区二区免费欧美| 不卡一级毛片| 日本免费a在线| 亚洲av五月六月丁香网| 制服丝袜大香蕉在线| 亚洲电影在线观看av| 久久 成人 亚洲| 国产伦人伦偷精品视频| 久久久国产欧美日韩av| 成人欧美大片| 免费人成视频x8x8入口观看| 国产真人三级小视频在线观看| 色婷婷久久久亚洲欧美| 国产av一区在线观看免费| 亚洲av日韩精品久久久久久密| 国产精品免费视频内射| x7x7x7水蜜桃| 欧美激情 高清一区二区三区| 一二三四在线观看免费中文在| 狂野欧美激情性xxxx| 国产精品av久久久久免费| 在线永久观看黄色视频| 女同久久另类99精品国产91| 欧美一级a爱片免费观看看 | 99国产精品一区二区蜜桃av| 一区二区日韩欧美中文字幕| 亚洲一区二区三区色噜噜| 国产亚洲精品av在线| 亚洲av电影不卡..在线观看| 久久香蕉激情| 国产av又大| 国产一区二区三区综合在线观看| 伊人久久大香线蕉亚洲五| www日本在线高清视频| 欧美另类亚洲清纯唯美| 男人的好看免费观看在线视频 | 欧美色视频一区免费| 亚洲精品美女久久久久99蜜臀| 久久国产乱子伦精品免费另类| 亚洲精品一卡2卡三卡4卡5卡| 久久人人爽av亚洲精品天堂| 免费在线观看亚洲国产| 亚洲一码二码三码区别大吗| 啦啦啦 在线观看视频| 一区福利在线观看| 欧美+亚洲+日韩+国产| 老熟妇乱子伦视频在线观看| 色综合婷婷激情| 亚洲天堂国产精品一区在线| 很黄的视频免费| 十八禁人妻一区二区| 免费女性裸体啪啪无遮挡网站| 国产私拍福利视频在线观看| 最好的美女福利视频网| 九色亚洲精品在线播放| 中文字幕高清在线视频| 正在播放国产对白刺激| 久久久久久亚洲精品国产蜜桃av| 给我免费播放毛片高清在线观看| 90打野战视频偷拍视频| 天堂√8在线中文| 男人舔女人下体高潮全视频| 日韩精品青青久久久久久| 国产视频一区二区在线看| 看免费成人av毛片| 成人一区二区视频在线观看| 国产在视频线在精品| 尤物成人国产欧美一区二区三区| 国产精品一区www在线观看 | 亚洲天堂国产精品一区在线| 国产视频内射| 成年人黄色毛片网站| 女人十人毛片免费观看3o分钟| 乱人视频在线观看| 床上黄色一级片| 国产91精品成人一区二区三区| 精品久久久久久久久亚洲 | 日本a在线网址| 国产一区二区激情短视频| 亚洲美女视频黄频| 国内少妇人妻偷人精品xxx网站| 老熟妇乱子伦视频在线观看| 联通29元200g的流量卡| 高清在线国产一区| 狂野欧美白嫩少妇大欣赏| 国内精品宾馆在线| 精品久久久久久久末码| 嫩草影院精品99| 国产精品国产三级国产av玫瑰| av在线观看视频网站免费| 一区二区三区激情视频| 亚洲无线观看免费| 黄色欧美视频在线观看| 人妻久久中文字幕网| 国产精品美女特级片免费视频播放器| 日本 欧美在线| 免费搜索国产男女视频| 有码 亚洲区| 国产av不卡久久| 亚洲一级一片aⅴ在线观看| 成人av一区二区三区在线看| 亚洲国产精品合色在线| 久久久久久久久中文| 国模一区二区三区四区视频| 欧美日韩精品成人综合77777| 国产精品一区二区性色av| 免费看光身美女| 欧美色视频一区免费| 午夜福利在线观看吧| 两个人视频免费观看高清| 69人妻影院| 嫩草影院精品99| 男女边吃奶边做爰视频| 亚洲自偷自拍三级| 亚洲综合色惰| 日韩欧美 国产精品| 亚洲av五月六月丁香网| 色5月婷婷丁香| 黄色欧美视频在线观看| 亚洲av成人精品一区久久| 国产大屁股一区二区在线视频| 国内久久婷婷六月综合欲色啪| 亚洲avbb在线观看| 精品午夜福利视频在线观看一区| 很黄的视频免费| 国产精品久久久久久av不卡| 国产精品女同一区二区软件 | a在线观看视频网站| 亚洲精品粉嫩美女一区| 国产真实伦视频高清在线观看 | 亚洲性夜色夜夜综合| 97人妻精品一区二区三区麻豆| 久久香蕉精品热| 看十八女毛片水多多多| 国产精品人妻久久久久久| 国产单亲对白刺激| 一本久久中文字幕| 亚洲狠狠婷婷综合久久图片| 国产私拍福利视频在线观看| 日韩精品有码人妻一区| av在线观看视频网站免费| 22中文网久久字幕| 成人毛片a级毛片在线播放| 日韩中文字幕欧美一区二区| 搡老熟女国产l中国老女人| 波多野结衣巨乳人妻| 老师上课跳d突然被开到最大视频| 如何舔出高潮| 性欧美人与动物交配| 午夜激情欧美在线| 国产真实乱freesex| 毛片一级片免费看久久久久 | 久久6这里有精品| 久久国内精品自在自线图片| 成年免费大片在线观看| 国产人妻一区二区三区在| 啪啪无遮挡十八禁网站| 国产精品爽爽va在线观看网站| 国内揄拍国产精品人妻在线| 精品久久久久久,| 日韩一本色道免费dvd| 成人av一区二区三区在线看| 国产三级在线视频| 美女大奶头视频| 搡女人真爽免费视频火全软件 | 欧美中文日本在线观看视频| 国产精品美女特级片免费视频播放器| 最近在线观看免费完整版| 久久国内精品自在自线图片| 1024手机看黄色片| 中文字幕精品亚洲无线码一区| 男插女下体视频免费在线播放| 最近在线观看免费完整版| 一进一出抽搐动态| 欧美丝袜亚洲另类 | 动漫黄色视频在线观看| 午夜福利高清视频| 欧美又色又爽又黄视频| av国产免费在线观看| 色综合亚洲欧美另类图片| 99久久中文字幕三级久久日本| 十八禁网站免费在线| 国产亚洲91精品色在线| 舔av片在线| 最近中文字幕高清免费大全6 | 麻豆成人午夜福利视频| 给我免费播放毛片高清在线观看| 久99久视频精品免费| 97超级碰碰碰精品色视频在线观看| 国产精品久久久久久久久免| 欧美日韩亚洲国产一区二区在线观看| 精品久久久久久久久久久久久| 免费观看精品视频网站| 亚洲人成网站高清观看| 大又大粗又爽又黄少妇毛片口| 久久久久免费精品人妻一区二区| 黄色配什么色好看| 精品一区二区三区视频在线观看免费| 欧美一区二区精品小视频在线| 人人妻人人澡欧美一区二区| 3wmmmm亚洲av在线观看| 精品一区二区免费观看| 久久精品综合一区二区三区| 亚洲国产欧美人成| 少妇裸体淫交视频免费看高清| 亚洲av第一区精品v没综合| 69av精品久久久久久| 日韩高清综合在线| 午夜视频国产福利| 美女高潮的动态| 久久久国产成人精品二区| 欧美3d第一页| 成熟少妇高潮喷水视频| 欧美国产日韩亚洲一区| 老女人水多毛片| 美女被艹到高潮喷水动态| 国产午夜精品论理片| 女同久久另类99精品国产91| 国内少妇人妻偷人精品xxx网站| 国产精品无大码| 91麻豆精品激情在线观看国产| 久久久久久久午夜电影| 国产伦人伦偷精品视频| 高清毛片免费观看视频网站| 国产精品一区www在线观看 | netflix在线观看网站| 久久久久久久久中文| 看免费成人av毛片| 日本黄大片高清| 亚洲精品在线观看二区| 91麻豆精品激情在线观看国产| 九九热线精品视视频播放| av视频在线观看入口| 毛片一级片免费看久久久久 | 中文字幕熟女人妻在线| 国产精品日韩av在线免费观看| 美女大奶头视频| 国产蜜桃级精品一区二区三区| 久久99热这里只有精品18| 国产高清视频在线观看网站| 天美传媒精品一区二区| 男插女下体视频免费在线播放| bbb黄色大片| 成人亚洲精品av一区二区| 国内精品久久久久精免费| 国产免费男女视频| 国产老妇女一区| 色在线成人网| 免费电影在线观看免费观看| 色哟哟·www| 两个人视频免费观看高清| 毛片女人毛片| 国产69精品久久久久777片| 在线国产一区二区在线| 12—13女人毛片做爰片一| www.色视频.com| 久久中文看片网| 国产一区二区在线av高清观看| 日本爱情动作片www.在线观看 | 琪琪午夜伦伦电影理论片6080| 一个人免费在线观看电影| 啪啪无遮挡十八禁网站| 精品欧美国产一区二区三| 免费在线观看成人毛片| 在线播放国产精品三级| 日韩一区二区视频免费看| 国产毛片a区久久久久| 日韩精品青青久久久久久| 国产主播在线观看一区二区| 麻豆国产97在线/欧美| 午夜亚洲福利在线播放| 亚洲黑人精品在线| 男插女下体视频免费在线播放| 亚洲欧美日韩高清专用| bbb黄色大片| 国内久久婷婷六月综合欲色啪| 日日摸夜夜添夜夜添小说| 亚洲欧美日韩东京热| 午夜福利在线观看免费完整高清在 | 精品人妻一区二区三区麻豆 | 欧美激情在线99| 麻豆国产av国片精品| 亚洲一区高清亚洲精品| 国产色婷婷99| 免费一级毛片在线播放高清视频| 黄色欧美视频在线观看| 99热这里只有是精品在线观看| 国产美女午夜福利| x7x7x7水蜜桃| 欧美一级a爱片免费观看看| 麻豆一二三区av精品| 亚洲va日本ⅴa欧美va伊人久久| ponron亚洲| 男女做爰动态图高潮gif福利片| 噜噜噜噜噜久久久久久91| 欧美成人性av电影在线观看| 51国产日韩欧美| 国产在线精品亚洲第一网站| 中文资源天堂在线| 日韩中文字幕欧美一区二区| 欧美日韩精品成人综合77777| 有码 亚洲区| 国模一区二区三区四区视频| 欧美极品一区二区三区四区| a级一级毛片免费在线观看| 搡老熟女国产l中国老女人| 久久香蕉精品热| 久久精品久久久久久噜噜老黄 | 九九久久精品国产亚洲av麻豆| 国产精品久久久久久久电影| 日韩欧美精品v在线| 极品教师在线免费播放| 中亚洲国语对白在线视频| 亚洲avbb在线观看| 精品久久久噜噜| 日韩精品中文字幕看吧| 午夜福利在线观看免费完整高清在 | 国产午夜精品久久久久久一区二区三区 | 久久亚洲真实| 亚洲va在线va天堂va国产| 久久久久九九精品影院| 国产日本99.免费观看| 精品久久久久久久久久久久久| 在线国产一区二区在线| 999久久久精品免费观看国产| 国产午夜精品久久久久久一区二区三区 | 在线观看午夜福利视频| 久久久久性生活片| 国产 一区 欧美 日韩| 亚洲,欧美,日韩| 日韩人妻高清精品专区| 99热网站在线观看| 亚洲七黄色美女视频| 1024手机看黄色片| 亚洲美女搞黄在线观看 | 成年免费大片在线观看| 久久国产精品人妻蜜桃| 亚洲色图av天堂| 国产三级中文精品| 国产男人的电影天堂91| 久久精品国产亚洲av香蕉五月| 亚洲成人免费电影在线观看| 国产精品不卡视频一区二区| 亚洲三级黄色毛片| 免费搜索国产男女视频| 欧美日韩综合久久久久久 | 亚洲人成网站在线播放欧美日韩| 22中文网久久字幕| 午夜亚洲福利在线播放| 桃色一区二区三区在线观看| 真人做人爱边吃奶动态| 国产高清视频在线播放一区| 有码 亚洲区| 能在线免费观看的黄片| 赤兔流量卡办理| 欧美又色又爽又黄视频| 久久久久久大精品| 精品人妻熟女av久视频| 国产在线精品亚洲第一网站| av天堂中文字幕网| 美女免费视频网站| 极品教师在线免费播放| 性欧美人与动物交配| 久久久久免费精品人妻一区二区| 精品人妻1区二区| 最近视频中文字幕2019在线8| 中文字幕精品亚洲无线码一区| 亚洲中文日韩欧美视频| 日韩欧美 国产精品| 草草在线视频免费看| 亚洲va在线va天堂va国产| 精品人妻一区二区三区麻豆 | 精品无人区乱码1区二区| 午夜精品一区二区三区免费看| 色哟哟哟哟哟哟| 亚洲熟妇中文字幕五十中出| 久99久视频精品免费| 久久久久久久久中文| 午夜免费成人在线视频| 免费看美女性在线毛片视频| 亚洲久久久久久中文字幕| 网址你懂的国产日韩在线| 黄片wwwwww| 欧美成人一区二区免费高清观看| 国产av一区在线观看免费| 国产探花极品一区二区| 亚洲美女黄片视频| 国产黄色小视频在线观看| 老司机福利观看| 亚洲性久久影院| 国产男靠女视频免费网站| 天美传媒精品一区二区| 亚洲精品乱码久久久v下载方式| 国产亚洲精品久久久久久毛片| 我的女老师完整版在线观看| 在线免费十八禁| 国产精品不卡视频一区二区| av在线观看视频网站免费| 我要搜黄色片| 校园春色视频在线观看| 白带黄色成豆腐渣| 亚洲美女视频黄频| 中亚洲国语对白在线视频| 国产aⅴ精品一区二区三区波| 日韩欧美 国产精品| 国产精品自产拍在线观看55亚洲| 老司机午夜福利在线观看视频| 国产白丝娇喘喷水9色精品| 国产精品久久久久久精品电影| 久久久久九九精品影院| 中文字幕久久专区| 国内精品美女久久久久久| 国产精品三级大全| 成人鲁丝片一二三区免费| .国产精品久久| 国产精品一区二区三区四区久久| 18禁黄网站禁片午夜丰满| 国产毛片a区久久久久| 国产精品免费一区二区三区在线| 国产美女午夜福利| 日韩国内少妇激情av| www.色视频.com| 毛片女人毛片| 波多野结衣巨乳人妻| 精品人妻偷拍中文字幕| 丰满人妻一区二区三区视频av| 日韩欧美精品免费久久| 免费人成在线观看视频色| 亚洲综合色惰| 一级a爱片免费观看的视频| 一边摸一边抽搐一进一小说| 日韩大尺度精品在线看网址| 成人国产一区最新在线观看| 午夜亚洲福利在线播放| av黄色大香蕉| 嫩草影视91久久| 国内毛片毛片毛片毛片毛片| 又爽又黄a免费视频| 色哟哟哟哟哟哟| 搡老妇女老女人老熟妇| 中文在线观看免费www的网站| 老熟妇仑乱视频hdxx| 精品免费久久久久久久清纯| 国产精品一区二区免费欧美| 国产三级中文精品| 99久久无色码亚洲精品果冻| 联通29元200g的流量卡| 色在线成人网| a在线观看视频网站| 91在线观看av| 久久亚洲精品不卡| 亚洲最大成人手机在线| 欧美日本视频| 热99在线观看视频| 男人和女人高潮做爰伦理| 免费一级毛片在线播放高清视频| 成人三级黄色视频| 亚洲欧美清纯卡通| 日日摸夜夜添夜夜添av毛片 | 99热6这里只有精品| 午夜视频国产福利| 久久精品久久久久久噜噜老黄 | 久久久久九九精品影院| 午夜视频国产福利| 国产高清激情床上av| 欧美丝袜亚洲另类 | 国产精品女同一区二区软件 | 免费看a级黄色片| 亚洲七黄色美女视频| 日本一本二区三区精品| 深夜a级毛片| 国内精品宾馆在线| 欧美高清成人免费视频www| 在线观看一区二区三区| 麻豆国产av国片精品| 内射极品少妇av片p| 99热只有精品国产| 国内精品久久久久久久电影| 老熟妇乱子伦视频在线观看| 亚洲国产欧洲综合997久久,| 91麻豆av在线| 成人毛片a级毛片在线播放| 国产高清有码在线观看视频| 国产 一区 欧美 日韩| 日韩一本色道免费dvd| 成人午夜高清在线视频| 成人精品一区二区免费| 久久99热这里只有精品18| 两人在一起打扑克的视频| 精品一区二区三区视频在线观看免费| 少妇裸体淫交视频免费看高清| 亚洲在线观看片| 男人舔女人下体高潮全视频| 51国产日韩欧美| 亚洲中文字幕日韩| 日本a在线网址| 精品国内亚洲2022精品成人| 国产主播在线观看一区二区| 免费在线观看成人毛片| 国产熟女欧美一区二区| 深爱激情五月婷婷| 99热精品在线国产| 男人舔女人下体高潮全视频| 精品无人区乱码1区二区| 亚洲国产高清在线一区二区三| 日本a在线网址| 国产精品野战在线观看| 久久久久久久久大av| 女人被狂操c到高潮| 国产高清视频在线播放一区| 一区二区三区免费毛片| 大又大粗又爽又黄少妇毛片口| 美女大奶头视频| 麻豆成人午夜福利视频| 国产精品98久久久久久宅男小说| 国产精品爽爽va在线观看网站| 九色国产91popny在线| 亚洲精品成人久久久久久| 最近在线观看免费完整版| av福利片在线观看| 日本免费a在线| 欧美高清成人免费视频www| 波多野结衣高清作品| 成人亚洲精品av一区二区| 欧美+亚洲+日韩+国产| 18禁裸乳无遮挡免费网站照片| 日本熟妇午夜| 淫秽高清视频在线观看| 99精品在免费线老司机午夜| 亚洲av.av天堂| 欧美成人免费av一区二区三区| 亚洲 国产 在线| 亚洲四区av| 又紧又爽又黄一区二区| 久久6这里有精品| 国产伦一二天堂av在线观看| 亚洲精品粉嫩美女一区| 老女人水多毛片| 日本 av在线| 91麻豆av在线| 日本五十路高清| 99在线视频只有这里精品首页| 九九在线视频观看精品| 免费人成视频x8x8入口观看| 中文资源天堂在线| 男女边吃奶边做爰视频| 成人美女网站在线观看视频| 国产私拍福利视频在线观看| 亚洲不卡免费看| 91av网一区二区| 色视频www国产| 人人妻,人人澡人人爽秒播| 18禁裸乳无遮挡免费网站照片| 亚洲av五月六月丁香网| 俄罗斯特黄特色一大片| 真人做人爱边吃奶动态| 长腿黑丝高跟| 亚洲人成网站高清观看| 91麻豆精品激情在线观看国产| 国产精品伦人一区二区| 日韩人妻高清精品专区| 五月玫瑰六月丁香| 久久精品国产亚洲av天美| 深夜a级毛片| 国产69精品久久久久777片| 欧美又色又爽又黄视频| 亚洲人与动物交配视频| 国产爱豆传媒在线观看| 美女cb高潮喷水在线观看| 波野结衣二区三区在线| 97热精品久久久久久| 亚洲精品一卡2卡三卡4卡5卡| 一区二区三区四区激情视频 | 亚洲熟妇中文字幕五十中出| 尤物成人国产欧美一区二区三区| 国产主播在线观看一区二区| 女的被弄到高潮叫床怎么办 | 99热这里只有是精品在线观看| 亚洲精品亚洲一区二区| 三级毛片av免费| 午夜福利高清视频| 免费观看的影片在线观看| 欧美日韩综合久久久久久 | 99久国产av精品| 国产一区二区三区av在线 | 久久久久久九九精品二区国产| 日韩亚洲欧美综合| 麻豆久久精品国产亚洲av| 一本一本综合久久| 国产免费一级a男人的天堂| 午夜精品久久久久久毛片777| 99久久久亚洲精品蜜臀av| 午夜免费激情av| 免费观看在线日韩| 久久久色成人| 国产高清视频在线播放一区| 成人性生交大片免费视频hd| 日韩欧美 国产精品| 国产美女午夜福利| 日韩欧美国产一区二区入口| 亚洲成a人片在线一区二区| av中文乱码字幕在线| 国产69精品久久久久777片| 亚洲国产精品sss在线观看| 99久国产av精品| 日韩精品有码人妻一区| 欧洲精品卡2卡3卡4卡5卡区| 久久99热这里只有精品18| 老师上课跳d突然被开到最大视频| 色吧在线观看| 日韩大尺度精品在线看网址| 床上黄色一级片| 国产激情偷乱视频一区二区| 国产精品爽爽va在线观看网站| 欧美日韩国产亚洲二区|