• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種深度強化學習與模仿學習結(jié)合的突防策略

    2023-07-24 12:56:26王曉芳顧焜仁
    宇航學報 2023年6期
    關(guān)鍵詞:戰(zhàn)斗機指令專家

    王曉芳,顧焜仁

    (北京理工大學宇航學院,北京 100081)

    0 引 言

    隨著電子雷達以及機載武器等技術(shù)的發(fā)展,戰(zhàn)斗機的作戰(zhàn)能力提高使得其成為獲取制空權(quán)的重要力量,是現(xiàn)在及未來空戰(zhàn)的主力。隨著機載雷達系統(tǒng)、中遠距空空防御彈等技術(shù)的發(fā)展,防御力量不斷增強,這給我方戰(zhàn)機突破防御、打擊目標帶來了很大的挑戰(zhàn)[1-2]。因此,研究我方戰(zhàn)機在新形勢下的機動突防技術(shù)具有重要的意義。

    早期戰(zhàn)斗機通常采用蛇形機動、螺旋機動等預制[3-5]的機動模式突防,這種突防模式容易被敵方探測并辨識出,缺乏靈活性。近年來,基于戰(zhàn)斗機或第三方探測得到的防御方信息而設(shè)計的主動突防策略得到了發(fā)展,其主要可分為基于威脅區(qū)規(guī)避的軌跡優(yōu)化算法和基于現(xiàn)代控制理論的突防制導律設(shè)計。基于威脅區(qū)規(guī)避的突防方法中,戰(zhàn)斗機首先對防御方的可達區(qū)進行預估,作為己方所不能經(jīng)過的威脅區(qū),之后,設(shè)計能夠規(guī)避威脅區(qū)的算法對飛行軌跡進行規(guī)劃,以保存生命力并到達目的地。飛行器避障航跡規(guī)劃算法研究成果眾多,主要有基于A*算法[6]、Gauss偽譜法[7]、Dubins路徑[8]以及分段預測校正法[9]等傳統(tǒng)方法以及基于改進蟻群算法[10]、粒子群算法[11]、蜂群算法[12]及灰狼算法[13]等群智能算法。但是基于威脅區(qū)規(guī)避的這種從空間上完全避開的突防方法對戰(zhàn)斗機來講是一種非常保守的方法,戰(zhàn)斗機可能會繞很遠的路,付出很多的能量。基于現(xiàn)代控制理論的突防制導律則同時考慮戰(zhàn)斗機和防御彈相遇的時間和空間問題,依據(jù)探測得到的信息設(shè)計制導律,又主要有基于最優(yōu)控制理論[14-16]和基于微分對策理論[17-18]的突防制導律。Shima[14]推導出能夠使突防彈在誘餌彈護衛(wèi)下突防的單邊最優(yōu)制導律,王寧宇等[15]提出了基于誘導碰撞策略實現(xiàn)突防的多彈最優(yōu)協(xié)同誘導突防制導律,王曉芳等[16]在考慮降低戰(zhàn)斗機控制能量前提下設(shè)計出考慮突防攔截和打擊目標的一對一最優(yōu)突防制導律。文獻[17-18]不再假設(shè)防御彈的制導律已知,而是假設(shè)突防飛行器和防御彈進行博弈對抗,采用微分對策理論推導得到突防制導律。Weiss等[17]和Shalumov[18]均以最大化防御彈脫靶量和最小化突防彈機動消耗作為性能指標設(shè)計末制導律。但無論是基于最優(yōu)控制還是基于微分對策的突防制導律,都需要建立精確的數(shù)學模型,對于環(huán)境中具有復雜未知干擾的情況的適用性較差,而且這類制導律中關(guān)鍵參數(shù)的設(shè)定非常重要,如果設(shè)計不好,直接影響到突防效果。

    隨著人工智能技術(shù)的發(fā)展,深度強化學習理論在許多領(lǐng)域得到了成功應用。深度強化學習由深度學習和強化學習結(jié)合,在不斷與環(huán)境交互的試錯中優(yōu)化決策網(wǎng)絡直至收斂[19],它不依賴于精確的數(shù)學模型,并且能夠適用于復雜環(huán)境中的決策。目前已經(jīng)有學者將深度強化學習技術(shù)應用于飛行器制導[20-21]、姿態(tài)控制[22]及航跡規(guī)劃[23]中?;趶娀瘜W習的飛行器突防技術(shù)的研究相對比較少,文獻[23]采用深度確定性的策略梯度算法(Deep deter-ministic policy gradient,DDPG)設(shè)計了躲避威脅區(qū)的飛行器軌跡規(guī)劃方法從而實現(xiàn)突防,文獻[24]采用決斗雙深度Q網(wǎng)絡(Dueling double DQN,D3QN)算法訓練出彈道導彈的最優(yōu)側(cè)推發(fā)動機點火策略從而實現(xiàn)中段突防,文獻[25]基于DDPG算法成功實現(xiàn)低速無人機協(xié)同突防動態(tài)攔截器。但由于強化學習是無教師無經(jīng)驗學習,因此,在復雜戰(zhàn)場環(huán)境中,基于深度強化學習的突防策略存在著訓練時間長、收斂速度慢的問題。由前述可見,目前基于精確數(shù)學模型的突防策略和基于深度強化學習的突防策略均存在不足,但如果能夠把兩者的優(yōu)勢結(jié)合,則可得到既能夠快速收斂又能適用于復雜戰(zhàn)場環(huán)境的突防方法。本文將在忽略環(huán)境中未知擾動的數(shù)學模型基礎(chǔ)上設(shè)計的突防策略作為專家策略,對深度強化學習突防策略進行前期的引導,以避免強化學習完全的無經(jīng)驗學習,從而加速其收斂。隨著網(wǎng)絡訓練回合數(shù)的增大,逐漸過渡到強化學習中在獎勵函數(shù)的引導下對考慮未知擾動復雜環(huán)境的探索,因而最后得到收斂速度快且能適應復雜環(huán)境的突防策略。同時,目前的方法大都只考慮飛行器成功突防的問題,而對于突防后飛行器是否偏離目標太遠而無法命中目標、在突防過程中如何同時考慮目標打擊問題為突防后的目標打擊創(chuàng)造有利條件等問題,則考慮得不多。

    本文同時考慮戰(zhàn)斗機的突防和打擊問題,提出一種模仿學習和深度強化學習結(jié)合的智能突防算法,構(gòu)造了突防策略網(wǎng)絡的獎勵函數(shù)和損失函數(shù),并通過調(diào)整損失函數(shù)中的權(quán)重參數(shù)實現(xiàn)了前期專家策略引導后期強化學習探索的功能。本文首先建立攻防對抗雙方的數(shù)學模型,之后建立了突防問題的馬爾科夫決策模型,設(shè)定了狀態(tài)空間、動作空間、獎勵函數(shù)等。然后構(gòu)建了基于深度強化學習PPO算法的決策網(wǎng)絡,同時通過結(jié)合生成對抗模仿學習(Generative antagonistic imitation learning,GAIL)[26],最終設(shè)計了能夠使戰(zhàn)斗機機動突防策略網(wǎng)絡快速收斂的GAIL-PPO算法。通過仿真對多種突防策略進行了對比分析。

    1 戰(zhàn)斗機突防問題強化學習建模

    1.1 攻防雙方飛行器相對運動模型

    假設(shè)戰(zhàn)斗機攻擊空中目標,敵方探測到我方戰(zhàn)機并發(fā)射防御導彈攔截戰(zhàn)斗機,且空戰(zhàn)發(fā)生在某一高度的水平面內(nèi),此時,戰(zhàn)斗機、目標和防御彈的相對運動關(guān)系如圖1所示。

    圖1 戰(zhàn)斗機-目標-防御彈相對運動關(guān)系

    圖1中,XOZ為地面坐標系,F,T和D分別表示戰(zhàn)斗機、目標和防御彈,Vi(i=F,D)為各飛行器的速度;ψVi(i=F,D)為各飛行器的彈道偏角;rFT和rFD分別為戰(zhàn)斗機與目標、戰(zhàn)斗機與防御彈之間的距離;qFT,qFD分別為戰(zhàn)斗機-目標、防御彈-戰(zhàn)斗機的視線角,均以基準線逆時針轉(zhuǎn)至視線連線為正方向;ai(i=F,D)為各飛行器垂直于速度的法向加速度。

    由圖1可知,戰(zhàn)斗機與靜止目標之間的相對運動方程組為

    (1)

    防御彈與戰(zhàn)斗機之間的相對運動方程組為

    (2)

    同時,由圖1還可知,戰(zhàn)斗機的運動模型為

    (3)

    (4)

    1.2 戰(zhàn)斗機突防馬爾科夫決策模型構(gòu)建

    為了采用深度強化學習理論解決戰(zhàn)斗機的突防問題,需將突防問題轉(zhuǎn)化到強化學習框架中,首先構(gòu)建戰(zhàn)斗機突防的馬爾可夫決策過程(Markov decision process, MDP),其由元組(S,A,P,R,γ)描述。其中,S為有限的狀態(tài)空間,且任意狀態(tài)s∈S;A為有限動作空間,且任意動作a∈A;P為狀態(tài)轉(zhuǎn)移概率;R為回報函數(shù);γ為折扣因子且γ∈[0,1],用來計算累積回報。在本文的戰(zhàn)斗機突防問題中,狀態(tài)轉(zhuǎn)移概率P=1。因此,接下來給出狀態(tài)空間、動作空間和獎勵函數(shù)的定義。

    1.2.1狀態(tài)空間定義

    由于突防涉及到戰(zhàn)斗機與目標、戰(zhàn)斗機與防御彈之間的相對運動,考慮突防以及打擊目標的要求,構(gòu)建歸一化的狀態(tài)空間為

    (5)

    1.2.2動作空間定義

    在戰(zhàn)斗機突防問題的MDP中,選取戰(zhàn)斗機的法向過載作為動作,考慮到飛行器可用過載的有限性,設(shè)定其范圍為[-2,2]。

    1.2.3獎勵函數(shù)定義

    獎勵函數(shù)將引導智能體的訓練方向,對于智能突防決策的生成具有重要的意義。因此需綜合考慮突防、打擊目標要求合理設(shè)計獎勵函數(shù)。同時考慮到不至于使問題太復雜,在滿足要求的前提下,獎勵函數(shù)應盡量簡單。

    子獎勵函數(shù)R1主要根據(jù)戰(zhàn)斗機與目標的接近情況設(shè)置,有

    R1=KR1cosη

    (6)

    式中:KR1為大于零的常數(shù)。由式(6)可知,當速度前置角η越接近于0,即戰(zhàn)斗機接近目標時,給予的獎勵越大。

    (7)

    式中:KR2為大于零的常數(shù)。R2的目的在于引導戰(zhàn)斗機成功突防。

    同時考慮突防任務、打擊目標要求的總的獎勵函數(shù)設(shè)計為

    R=

    (8)

    式中:第一行表示當戰(zhàn)斗機完成突防任務時滿足速度前置角不大于10°的要求時,此時給予較大獎勵;第二行表示戰(zhàn)斗機突防防御彈后但不滿足速度前置角要求時,不給獎勵;第三行表示戰(zhàn)斗機被敵方防御彈攔截時,給予嚴重懲罰;第四行表示在戰(zhàn)斗機突防過程中的獎勵函數(shù)由子獎勵函數(shù)構(gòu)成。其中,K+與K-為常值系數(shù),下標i表示第i個子獎勵函數(shù),i=1,2。獎勵函數(shù)中的各參數(shù)見表1。

    表1 獎勵函數(shù)參數(shù)

    2 基于深度強化學習-模仿學習的突防方法設(shè)計

    基于深度強化學習的智能突防算法在面對復雜作戰(zhàn)場景時存在著訓練時間長、收斂速度慢的問題,通過引入專家策略并進行模仿學習能夠達到快速收斂的目的。因此,本文研究基于深度強化學習PPO算法及模仿學習GAIL算法的作戰(zhàn)飛機機動突防方法。該方法在突防策略網(wǎng)絡訓練初期側(cè)重于通過模仿學習擬合專家經(jīng)驗,減少盲目、冗余的探索,之后再通過PPO在環(huán)境中進行進一步的探索,達到突防的目的。PPO和GAIL算法互相結(jié)合能夠在保證戰(zhàn)斗機成功突防防御彈的前提下顯著地提升突防網(wǎng)絡的訓練速度。

    2.1 基于PPO的突防策略網(wǎng)絡構(gòu)建

    PPO通過梯度下降的方法對戰(zhàn)斗機突防策略網(wǎng)絡進行優(yōu)化,從而得到使戰(zhàn)斗機在與防御彈攻防對抗過程中基于獎勵函數(shù)的總收益期望最大化的神經(jīng)網(wǎng)絡參數(shù),該算法在訓練中同時訓練更新Actor的參數(shù)θ和Critic網(wǎng)絡的參數(shù)φ。其中,Actor網(wǎng)絡為戰(zhàn)斗機突防策略網(wǎng)絡,承擔生成突防加速度指令的作用,Critic網(wǎng)絡是基于強化學習理論構(gòu)建出用于估計狀態(tài)值的網(wǎng)絡,依據(jù)獎勵函數(shù)引導戰(zhàn)斗機突防策略網(wǎng)絡的學習方向。為了利于該網(wǎng)絡收斂,訓練過程中Actor網(wǎng)絡輸出戰(zhàn)斗機的加速度指令均值,將構(gòu)造動作采樣的高斯分布中的方差σ作為固定超參數(shù)。

    PPO算法中引入了基于新舊策略差異的比值nt對訓練步長進行動態(tài)調(diào)整,并且利用采樣數(shù)據(jù)多次訓練使突防策略網(wǎng)絡訓練效率顯著提升。為了避免步長過大影響訓練效果,需對比值進行裁剪,表示為

    (9)

    (10)

    (11)

    式中:rt為獎勵函數(shù);V(·)表示為狀態(tài)估計值函數(shù)。

    綜上,Actor網(wǎng)絡訓練的損失函數(shù)為

    (12)

    而Critic網(wǎng)絡損失函數(shù)則使用均方誤差函數(shù)構(gòu)造

    (13)

    PPO算法具有解決序列決策問題的巨大潛力,但是對獎勵函數(shù)的設(shè)計要求非常嚴苛,如果設(shè)計不好,則會使得突防策略網(wǎng)絡在前期進行諸多冗余的探索導致收斂速度很慢,甚至無法收斂,因此本文中將結(jié)合模仿學習理論與深度強化學習算法進行構(gòu)建突防策略網(wǎng)絡及訓練。

    2.2 模仿專家策略的生成對抗網(wǎng)絡

    GAIL結(jié)合了生成對抗網(wǎng)絡(Generative adversa-rial network, GAN)與逆強化學習(Inverse reinforce-ment learning, IRL)的模仿學習方法,在生成對抗網(wǎng)絡的結(jié)構(gòu)框架上對逆強化學習進行拓展,改進了IRL表征能力差和計算效率低的缺陷。GAIL結(jié)構(gòu)如圖2所示,由飛行器突防策略網(wǎng)絡Actor和判別網(wǎng)絡(Discrimination network,以下簡稱D網(wǎng)絡)兩部分組成,設(shè)D網(wǎng)絡參數(shù)為ξ。Actor網(wǎng)絡基于狀態(tài)量st生成突防動作指令at。D網(wǎng)絡則作為一種二分類器,以狀態(tài)量-動作指令對作為輸入量,輸出該動作指令是源自專家策略的判別概率。

    圖2 GAIL結(jié)構(gòu)框圖

    圖中,aEt表示t時刻突防決策網(wǎng)絡根據(jù)狀態(tài)量st生成的專家動作指令;D(·)表示判別網(wǎng)絡的輸出,通常以(st,aEt)作為正樣本,因此該輸出越接近1則表示該動作指令來自專家策略的概率越大。

    其訓練目的為提高D網(wǎng)絡區(qū)分來自專家策略與網(wǎng)絡生成策略的突防指令的概率,而突防策略網(wǎng)絡在訓練中不斷向?qū)<也呗詳M合。因此,可以將GAIL算法的損失函數(shù)LGAIL表示為

    ln(1-D(st,at))

    (14)

    式(14)說明D網(wǎng)絡通過最大化損失函數(shù)LGAIL進行梯度更新參數(shù)ξ,Actor網(wǎng)絡通過最小化損失函數(shù)LGAIL進行更新參數(shù)θ,在訓練過程中可以視為兩者的博弈過程。

    由于考慮損失函數(shù)中專家策略項對突防策略網(wǎng)絡訓練影響小,更新Actor網(wǎng)絡時可忽略與專家策略相關(guān)項,同時考慮利用專家策略基于突防策略網(wǎng)絡的采樣概率從而加速使Actor網(wǎng)絡學習專家經(jīng)驗,因此訓練中Actor網(wǎng)絡的損失函數(shù)可以改寫為式(15)所示

    (15)

    式中:P(aEt|st,θ)表示為從突防策略網(wǎng)絡基于狀態(tài)量st構(gòu)造的分布中采樣突防專家動作指令aEt的概率。當P(aEt|st,θ)值越接近0時,說明根據(jù)Actor網(wǎng)絡生成的指令越遠離專家策略,此時將使損失函數(shù)LGAIL(θ)幅值越大,更新Actor網(wǎng)絡的步長更大,使其能夠更有效的向?qū)<也呗詳M合。

    GAIL算法有較強的表征能力和計算效率,將其應用于戰(zhàn)斗機的機動突防問題中能夠起到加快智能突防網(wǎng)絡收斂的作用。

    2.3 基于GAIL-PPO的突防策略網(wǎng)絡構(gòu)建及訓練

    GAIL-PPO算法將GAIL與PPO網(wǎng)絡結(jié)構(gòu)相結(jié)合,兼具了兩者的優(yōu)點,能夠?qū)崿F(xiàn)在復雜環(huán)境中戰(zhàn)斗機的智能突防并且網(wǎng)絡具有較快的收斂速度?;贕AIL-PPO的戰(zhàn)斗機突防策略網(wǎng)絡(GAIL-PPO突防策略網(wǎng)絡)主要由Actor、Critic和D網(wǎng)絡三類網(wǎng)絡構(gòu)成,總的網(wǎng)絡結(jié)構(gòu)如圖3所示。

    圖3 GAIL-PPO網(wǎng)絡結(jié)構(gòu)框圖

    圖3展示了從經(jīng)驗池中獲取數(shù)據(jù)從而計算各網(wǎng)絡損失函數(shù)并更新網(wǎng)絡參數(shù)的關(guān)系。其中,在戰(zhàn)斗機使用突防策略網(wǎng)絡與防御彈對抗過程時,經(jīng)驗池同時儲存了馬爾可夫決策數(shù)據(jù)(st,at,rt,st+1)與專家指令數(shù)據(jù)aEt。從圖3中可見,戰(zhàn)斗機突防決策網(wǎng)絡的訓練損失函數(shù)L(θ)由LPPO(θ)與LGAIL(θ)兩部分組成,因此GAIL-PPO算法的重點在于如何在機動突防智能體訓練過程中通過調(diào)整權(quán)重參數(shù)ω來調(diào)節(jié)LPPO(θ)與LGAIL(θ)對Actor網(wǎng)絡的影響,從而進行平穩(wěn)訓練形成快速有效的智能突防策略。權(quán)重參數(shù)ω遵循GAIL-PPO算法前期訓練以模仿學習為主,然后過渡至后期以強化學習訓練為主的思想,進行非線性衰減,如式(16)所示。

    (16)

    式中:i表示為當前訓練回合數(shù);NGAIL表示基于戰(zhàn)斗機突防專家經(jīng)驗與模仿學習構(gòu)造的損失函數(shù)LGAIL(θ)參與訓練的回合數(shù)。

    在GAIL-PPO突防策略網(wǎng)絡的訓練過程中,當戰(zhàn)斗機連續(xù)200回合成功實現(xiàn)突防任務時停止網(wǎng)絡的訓練。需要說明的是,由于模仿學習訓練速度較快,因而固定了模仿學習參與訓練的回合數(shù)NGAIL,但是存在戰(zhàn)斗機突防策略網(wǎng)絡向?qū)<覜Q策學習后仍未停止訓練的情況,考慮到此時權(quán)重參數(shù)趨于0,為了減少計算量可以減少模仿學習的相關(guān)參數(shù)計算,因此GAIL-PPO中突防策略網(wǎng)絡的損失函數(shù)設(shè)置成如式(17)所示

    (17)

    GAIL-PPO突防策略網(wǎng)絡訓練過程可分為數(shù)據(jù)收集和網(wǎng)絡訓練兩部分,突防策略網(wǎng)絡在攻防對抗場景中不斷采集數(shù)據(jù)并以此進行迭代更新。GAIL-PPO突防策略網(wǎng)絡更新步驟如圖4所見。其中,訓練各網(wǎng)絡時,從經(jīng)驗池中重復nre次抽取ndata組數(shù)據(jù)用于計算損失函數(shù)更新網(wǎng)絡參數(shù),nre與ndata為常數(shù)。

    圖4 GAIL-PPO突防策略網(wǎng)絡訓練流程

    3 仿真校驗及分析

    3.1 仿真環(huán)境參數(shù)與訓練參數(shù)設(shè)定

    3.1.1攻防雙方參數(shù)設(shè)置

    假設(shè)空戰(zhàn)對抗發(fā)生在水平面內(nèi),目標處于懸停狀態(tài)。戰(zhàn)斗機采用比例系數(shù)NF=3的比例導引律抵近目標,敵方識別戰(zhàn)斗機并發(fā)射一枚防御彈,防御彈采用比例系數(shù)ND=3的比例導引律攔截戰(zhàn)斗機。仿真初始時刻戰(zhàn)斗機、防御彈、目標的位置,戰(zhàn)斗機和防御彈的速度大小、方向及可用過載見表2。

    表2 攻防雙方仿真初始參數(shù)

    3.1.2GAIL-PPO網(wǎng)絡參數(shù)設(shè)定

    GAIL-PPO算法包含Actor、Critic與D網(wǎng)絡共3類網(wǎng)絡。由于多層前向全連接神經(jīng)網(wǎng)絡具有從狀態(tài)量中有效提取特征并用于擬合非線性函數(shù)的特點,因此,本文Actor、Critic和D網(wǎng)絡設(shè)計為全連接神經(jīng)網(wǎng)絡結(jié)構(gòu)。3類網(wǎng)絡的結(jié)構(gòu)參數(shù)見表3。GAIL-PPO突防策略網(wǎng)絡訓練參數(shù)設(shè)置見表4。

    表3 GAIL-PPO網(wǎng)絡結(jié)構(gòu)參數(shù)

    表4 GAIL-PPO算法訓練相關(guān)參數(shù)

    需要說明的是,GAIL-PPO算法基于PPO改進而來,存在功能相同的網(wǎng)絡,而在本文的仿真部分中將對兩者進行對比,因此PPO突防策略網(wǎng)絡采用部分表3參數(shù)構(gòu)建和表4所示的訓練。

    3.1.3專家策略設(shè)定

    本文采用文獻[16]中的最優(yōu)突防制導律作為專家經(jīng)驗參與戰(zhàn)斗機突防策略網(wǎng)絡的前期訓練,突防制導律指令為

    aEt=

    (18)

    為了對比,接下來分別采用專家策略、PPO突防策略和GAIL-PPO突防策略進行仿真。

    3.2 GAIL-PPO突防策略、PPO突防策略及專家策略仿真對比

    基于PPO與GAIL-PPO算法的戰(zhàn)斗機突防策略網(wǎng)絡的訓練過程中的獎勵曲線如圖5所示。圖中的平均獎勵指最近30回合內(nèi)的單回合累計獎勵的平均值。

    圖5 突防網(wǎng)絡獎勵曲線

    由圖5可見,PPO突防策略網(wǎng)絡在1 300回合之前的獎勵值一直都很小,表明戰(zhàn)斗機在與防御彈對抗過程中均被其攔截,在前期探索的基礎(chǔ)上1 300回合之后突防成功,獲得較大的單回合獎勵,在1 330回合后單回合獎勵和平均獎勵曲線重合,網(wǎng)絡收斂;而采用GAIL-PPO突防策略網(wǎng)絡由于首先向?qū)<医?jīng)驗學習,所以能夠較快地獲得較好的獎勵值,但在訓練前期戰(zhàn)斗機在突防防御彈后會出現(xiàn)未能夠滿足的要求而導致獎勵曲線波動,在280回合時單回合累計獎勵曲線和平均獎勵曲線重合,網(wǎng)絡收斂。由上可見,GAIL-PPO突防策略網(wǎng)絡收斂所需訓練回合數(shù)是PPO突防策略網(wǎng)絡的21.1%,網(wǎng)絡收斂速度大幅提高。同時,從圖中可知,兩種突防策略網(wǎng)絡收斂后的獎勵值相差不大,因此可知GAIL-PPO突防策略網(wǎng)絡在和PPO突防策略網(wǎng)絡性能基本相同的前提下具有更快的收斂速度。

    仿真開始時,戰(zhàn)斗機和防御彈各自按照比例導引律攻擊相應的目標,在11.81 s時,兩者之間的距離小于18 km,戰(zhàn)斗機開始突防。圖6給出了訓練過程中D網(wǎng)絡基于不同狀態(tài)-動作指令對輸入而輸出的專家策略平均判別率曲線,圖7給出了分別采用專家策略、訓練100回合的PPO突防策略和GAIL-PPO突防策略的戰(zhàn)斗機突防過載指令以及相應的防御彈過載。

    圖6 平均判別率曲線

    圖7 訓練100回合時戰(zhàn)斗機和防御彈過載

    由圖6可見,訓練100回合時,將GAIL-PPO突防策略指令和專家策略指令分別與對應的狀態(tài)量一起輸入D網(wǎng)絡中,得到的輸出值均接近0.5,說明GAIL-PPO突防策略已經(jīng)向?qū)<也呗詳M合,使得判別網(wǎng)絡認為兩種輸入的動作指令均源自專家策略;之后,由于ω的逐漸減小,因此,突防網(wǎng)絡由模仿專家策略逐漸轉(zhuǎn)向基于強化學習的探索訓練,因此其突防指令不再和專家策略類似,因此D網(wǎng)絡中判別率曲線逐漸分離。由圖7也可見,前期GAIL-PPO突防策略指令與專家策略指令近似重合,而PPO突防策略網(wǎng)絡由于沒有引導在不斷進行低獎勵回報的探索,法向過載幅值減小,不利于突防。

    圖8給出了戰(zhàn)斗機分別采用專家策略、訓練結(jié)束(連續(xù)200回合成功突防)后的GAIL-PPO突防策略與PPO突防策略與防御彈對抗的運動軌跡,圖9給出了雙方的過載指令。

    圖8 戰(zhàn)斗機和防御彈運動軌跡

    圖9 戰(zhàn)斗機和防御彈過載

    由圖8和仿真數(shù)據(jù)可知,戰(zhàn)斗機采用三種突防策略,均成功突防,其中最優(yōu)突防制導專家策略時飛行軌跡最彎曲,PPO突防策略時的飛行軌跡彎曲度最小,而GAIL-PPO突防策略的飛行軌跡彎曲度介于兩者之間。由圖9可知,戰(zhàn)斗機采用專家策略時,使得防御彈最早滿過載飛行,相應地戰(zhàn)斗機的過載幅值也最大,PPO突防策略時戰(zhàn)斗機的過載幅值最小,其也使得防御彈最晚達到滿過載飛行,GAIL-PPO突防策略的戰(zhàn)斗機過載幅值和使得防御彈滿過載飛行的時間介于兩者之間。

    表5 不同突防策略的突防效果與控制能量對比

    由表5可知,三種策略下,最小機彈距離均大于導彈毀傷半徑20 m,因此戰(zhàn)斗機均成功突防且持續(xù)突防時間相差不大;突防終止時,機彈距離均小于30 km,速度前置角均小于10°,滿足突防和打擊任務要求。同時可以看到,在均成功突防的前提下,GAIL-PPO突防策略的控制能量相比專家策略減少了49.5%,突防結(jié)束時的rFDm和η相比專家策略較小,說明GAIL-PPO策略并沒有使戰(zhàn)斗機過多繞飛,在保證戰(zhàn)斗機成功突防的前提下比專家策略更有利于打擊目標。由于GAIL-PPO突防策略借鑒了專家策略,而PPO突防策略完全由探索得到,因此PPO突防策略時的rFDm和控制能量均小于GAIL-PPO突防策略,但由前可知,其收斂回合數(shù)為GAIL-PPO突防策略的4.75倍。

    戰(zhàn)斗機采用三種突防策略時,機彈距離及相對于戰(zhàn)斗機-目標連線的速度前置角隨時間變化如圖10和圖11所示。

    圖10 機彈距離變化

    圖11 戰(zhàn)斗機速度前置角

    由圖10和圖11可知,三種策略下,機彈距離均在不斷減小,但rFDm均大于20 m,戰(zhàn)斗機成功突防;突防過程中,戰(zhàn)斗機速度相對于戰(zhàn)斗機-目標視線的速度前置角不斷增大,但最終η均小于10°。

    另外需要說明的是,對于單獨PPO突防策略網(wǎng)絡來講,超參數(shù)的選擇很重要,直接影響網(wǎng)絡的性能,而在GAIL-PPO網(wǎng)絡中,由于前期借鑒了專家策略,因此一定程度上降低了網(wǎng)絡性能對超參數(shù)的敏感性,使得網(wǎng)絡更加穩(wěn)健。

    3.3 不同干擾下GAIL-PPO突防策略性能分析

    在具有不同干擾的復雜戰(zhàn)場環(huán)境中,采用本文方法對戰(zhàn)斗機突防策略網(wǎng)絡進行訓練并將其用于與防御彈的對抗仿真。設(shè)式(3)中戰(zhàn)斗機受到的有界干擾如表6所示。

    表6 不同類型的環(huán)境干擾

    表中,N(0,1)表示服從均值為0、方差為1的正態(tài)分布。

    在不同干擾情況下, GAIL-PPO突防策略網(wǎng)絡的平均累計獎勵變化如圖12所示。

    圖12 不同干擾下突防網(wǎng)絡平均獎勵曲線

    由圖12可見,無干擾和隨機干擾情況下,GAIL-PPO突防策略網(wǎng)絡的收斂速度相差不大,分別在280、284回合收斂并獲得較高的平均累計獎勵值;常值干擾和綜合干擾情況下,網(wǎng)絡的收斂速度相差不大,分別為430和434回合。在常值干擾下,由于戰(zhàn)斗機持續(xù)受到正向干擾,使得速度矢量方向持續(xù)向一個方向偏轉(zhuǎn),此時不利于滿足戰(zhàn)斗機在突防結(jié)束時相對機目視線的速度前置角η的要求,因此,其網(wǎng)絡收斂速度要比無干擾和隨機干擾慢。而綜合干擾由于包含常值干擾,因此,其收斂速度類似于常值干擾。由圖還可知,不同干擾情況下的突防策略網(wǎng)絡收斂后的獎勵值相差不大,說明突防網(wǎng)絡在滿足突防和打擊要求方面性能相差不大。

    圖13給出了不同干擾情況下戰(zhàn)斗機采用訓練結(jié)束后的GAIL-PPO突防策略與防御彈對抗的運動軌跡,圖14給出了戰(zhàn)斗機的過載指令。不同干擾情況下GAIL-PPO突防策略的突防效果及控制能量情況見表7。

    表7 不同干擾下的突防效果與控制能量對比

    圖13 不同干擾下戰(zhàn)斗機和防御彈運動軌跡

    圖14 不同干擾下戰(zhàn)斗機過載

    由圖13和表7可知,三種干擾情況下,戰(zhàn)斗機采用GAIL-PPO突防策略時的rFDm均大于20 m,速度前置角η均小于10°,因此戰(zhàn)斗機均成功突防且滿足有利于后續(xù)攻擊目標的要求。由圖14可知,由于正向常值干擾的存在,這種情況下戰(zhàn)斗機的過載指令幅值小于無干擾的情況,因此控制能量較小,由表6可見。綜合干擾包含常值干擾,因此其過載指令類似于常值干擾的情況,同樣由圖14和表6可見。由于隨機干擾的隨機性,因此相比無干擾情況,其對應的過載指令和控制能量并無確定的規(guī)律可循。需要注意的是,如果戰(zhàn)斗機持續(xù)受到負的常值干擾,則其控制能量將會增大。由上可知,GAIL-PPO突防策略具有較強的魯棒性。

    4 結(jié) 論

    本文針對復雜戰(zhàn)場環(huán)境下戰(zhàn)斗機打擊目標過程中遭遇防御彈攔截進行突防的問題,提出一種深度強化學習PPO算法與模仿學習GAIL算法結(jié)合的智能突防方法,并對突防方法的性能進行了仿真分析。本文的結(jié)論如下:

    1) 通過將模仿學習和深度強化學習相結(jié)合,實現(xiàn)了突防網(wǎng)絡前期學習專家經(jīng)驗、后期在復雜環(huán)境中充分探索的目的,得到了既能夠在復雜環(huán)境中成功突防又具有較快收斂速度的智能突防策略網(wǎng)絡。

    2) 同時考慮戰(zhàn)斗機的突防與打擊問題設(shè)置了獎勵函數(shù),使得戰(zhàn)斗機在成功突防的前提下不至于繞飛太遠,為后續(xù)打擊目標提供了良好的條件。

    3) 通過對專家策略、PPO突防策略和GAIL-PPO突防策略進行仿真對比,可知:在成功突防的前提下,GAIL-PPO突防策略相比專家策略來講,戰(zhàn)斗機的繞飛程度更小、更有利于打擊目標;相比PPO突防策略來講,其收斂速度更快。另外,仿真結(jié)果還顯示,在具有不同干擾的復雜戰(zhàn)場環(huán)境中,GAIL-PPO突防策略均能實現(xiàn)突防并滿足有利于攻擊目標的要求,具有魯棒性。

    猜你喜歡
    戰(zhàn)斗機指令專家
    聽我指令:大催眠術(shù)
    致謝審稿專家
    計算機應用(2022年2期)2022-03-01 12:35:06
    蘇-35S戰(zhàn)斗機
    軍事文摘(2021年17期)2021-09-24 01:05:58
    ARINC661顯控指令快速驗證方法
    LED照明產(chǎn)品歐盟ErP指令要求解讀
    電子測試(2018年18期)2018-11-14 02:30:34
    殲-5戰(zhàn)斗機
    蚋式戰(zhàn)斗機
    請叫我專家
    專家面對面
    坐標系旋轉(zhuǎn)指令數(shù)控編程應用
    機電信息(2014年27期)2014-02-27 15:53:56
    国产精品成人在线| 99热全是精品| 美女内射精品一级片tv| 亚洲成国产人片在线观看| 亚洲精品,欧美精品| 亚洲精品久久久久久婷婷小说| 国产免费福利视频在线观看| 26uuu在线亚洲综合色| 日本猛色少妇xxxxx猛交久久| 日韩中字成人| 国产男女超爽视频在线观看| 少妇被粗大的猛进出69影院 | 香蕉国产在线看| 成人免费观看视频高清| 宅男免费午夜| 丝袜喷水一区| 久久精品熟女亚洲av麻豆精品| 日韩成人伦理影院| 天天操日日干夜夜撸| 日韩中字成人| 国产精品女同一区二区软件| 啦啦啦啦在线视频资源| 亚洲成av片中文字幕在线观看 | av网站免费在线观看视频| 日韩中字成人| 午夜福利视频精品| 午夜福利视频在线观看免费| 国产成人精品久久久久久| 免费人妻精品一区二区三区视频| 高清av免费在线| 中文字幕av电影在线播放| 9热在线视频观看99| 中文字幕制服av| 精品人妻在线不人妻| 大话2 男鬼变身卡| 国产成人免费观看mmmm| 日本爱情动作片www.在线观看| 免费日韩欧美在线观看| 午夜精品国产一区二区电影| 免费在线观看完整版高清| 午夜福利在线观看免费完整高清在| 亚洲av中文av极速乱| 少妇人妻久久综合中文| 亚洲国产精品一区三区| 亚洲人与动物交配视频| 高清视频免费观看一区二区| 婷婷色麻豆天堂久久| 母亲3免费完整高清在线观看 | 丝袜喷水一区| 国产乱人偷精品视频| 另类亚洲欧美激情| 欧美日本中文国产一区发布| 午夜日本视频在线| 精品一区二区三区四区五区乱码 | 免费久久久久久久精品成人欧美视频 | 最新的欧美精品一区二区| av免费在线看不卡| 人人妻人人添人人爽欧美一区卜| 热re99久久精品国产66热6| 天天影视国产精品| 精品国产一区二区三区久久久樱花| 中文欧美无线码| 18禁裸乳无遮挡动漫免费视频| 亚洲,一卡二卡三卡| 五月天丁香电影| 成年av动漫网址| 久久婷婷青草| 免费高清在线观看日韩| 免费播放大片免费观看视频在线观看| 亚洲内射少妇av| 一二三四中文在线观看免费高清| 曰老女人黄片| tube8黄色片| 看十八女毛片水多多多| 免费不卡的大黄色大毛片视频在线观看| 久久午夜福利片| 999精品在线视频| 两个人免费观看高清视频| 亚洲成色77777| 亚洲精品,欧美精品| 一级a做视频免费观看| 久久精品国产综合久久久 | 性高湖久久久久久久久免费观看| 欧美精品一区二区免费开放| 亚洲国产欧美在线一区| 亚洲国产最新在线播放| 久久精品国产鲁丝片午夜精品| 国产毛片在线视频| 边亲边吃奶的免费视频| 26uuu在线亚洲综合色| 青春草亚洲视频在线观看| 99九九在线精品视频| 妹子高潮喷水视频| 97超碰精品成人国产| 日本免费在线观看一区| 久久精品久久久久久噜噜老黄| 狂野欧美激情性xxxx在线观看| 2021少妇久久久久久久久久久| 中文字幕免费在线视频6| 宅男免费午夜| 在线观看免费日韩欧美大片| 亚洲精品久久成人aⅴ小说| 插逼视频在线观看| 两性夫妻黄色片 | 精品国产露脸久久av麻豆| 亚洲av电影在线进入| 一级毛片黄色毛片免费观看视频| 久久这里有精品视频免费| a级毛片黄视频| 在现免费观看毛片| 亚洲综合精品二区| 亚洲综合精品二区| 国产高清国产精品国产三级| 五月玫瑰六月丁香| 亚洲精品色激情综合| 国产一区二区在线观看av| 日本vs欧美在线观看视频| 亚洲国产精品一区二区三区在线| 夫妻性生交免费视频一级片| 免费看光身美女| 99精国产麻豆久久婷婷| 在线天堂中文资源库| 老司机影院毛片| 中文字幕另类日韩欧美亚洲嫩草| 人人妻人人爽人人添夜夜欢视频| 精品一品国产午夜福利视频| 久久国产精品男人的天堂亚洲 | 性高湖久久久久久久久免费观看| 国产午夜精品一二区理论片| 亚洲精品久久成人aⅴ小说| 亚洲三级黄色毛片| 欧美老熟妇乱子伦牲交| 看免费成人av毛片| 日本黄色日本黄色录像| 亚洲国产看品久久| 一区二区日韩欧美中文字幕 | 人妻少妇偷人精品九色| 99热6这里只有精品| 久久精品久久久久久久性| 国产精品久久久久久久久免| 亚洲伊人色综图| 亚洲精品一区蜜桃| 欧美精品高潮呻吟av久久| 国产午夜精品一二区理论片| 亚洲欧美精品自产自拍| 中文字幕人妻熟女乱码| 国产成人免费无遮挡视频| 久热久热在线精品观看| 国产欧美亚洲国产| 婷婷色综合大香蕉| av又黄又爽大尺度在线免费看| 久久综合国产亚洲精品| 日本欧美国产在线视频| 久热久热在线精品观看| 女性生殖器流出的白浆| 搡女人真爽免费视频火全软件| 9色porny在线观看| 欧美3d第一页| 欧美日本中文国产一区发布| 看非洲黑人一级黄片| 日本av手机在线免费观看| 性色av一级| 久久亚洲国产成人精品v| 亚洲精品自拍成人| 欧美精品av麻豆av| 亚洲欧美日韩另类电影网站| 国产一区二区三区综合在线观看 | √禁漫天堂资源中文www| 最近手机中文字幕大全| 亚洲人与动物交配视频| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 街头女战士在线观看网站| 91精品国产国语对白视频| 日韩视频在线欧美| 免费在线观看黄色视频的| 我要看黄色一级片免费的| 午夜视频国产福利| 亚洲伊人久久精品综合| 99热6这里只有精品| 成人免费观看视频高清| 亚洲精品国产色婷婷电影| 在线亚洲精品国产二区图片欧美| 22中文网久久字幕| 亚洲婷婷狠狠爱综合网| 亚洲精华国产精华液的使用体验| av免费在线看不卡| 欧美成人精品欧美一级黄| 日本黄色日本黄色录像| 亚洲av男天堂| 九色亚洲精品在线播放| 一个人免费看片子| 永久免费av网站大全| 国产一区亚洲一区在线观看| 麻豆乱淫一区二区| 性高湖久久久久久久久免费观看| av免费在线看不卡| 9热在线视频观看99| 成人午夜精彩视频在线观看| 日本av免费视频播放| 久久99热这里只频精品6学生| 在现免费观看毛片| 免费在线观看完整版高清| 成人国产麻豆网| 欧美另类一区| 18禁观看日本| 免费高清在线观看日韩| 国产精品欧美亚洲77777| 最近的中文字幕免费完整| 午夜免费男女啪啪视频观看| 国产极品天堂在线| av在线播放精品| 亚洲精品一区蜜桃| 国产永久视频网站| 国产亚洲最大av| 18禁在线无遮挡免费观看视频| 巨乳人妻的诱惑在线观看| 亚洲欧美成人精品一区二区| 一区二区av电影网| 性色avwww在线观看| 久久国产精品男人的天堂亚洲 | 久久久久网色| 久久久欧美国产精品| 两性夫妻黄色片 | av黄色大香蕉| 久久狼人影院| 国产伦理片在线播放av一区| 黑丝袜美女国产一区| 女性生殖器流出的白浆| 亚洲少妇的诱惑av| 久久久精品免费免费高清| 亚洲欧美成人精品一区二区| 考比视频在线观看| 97超碰精品成人国产| 国产成人一区二区在线| 国产有黄有色有爽视频| 欧美亚洲 丝袜 人妻 在线| av片东京热男人的天堂| 色哟哟·www| 日本av手机在线免费观看| 老司机亚洲免费影院| 一边摸一边做爽爽视频免费| 国产日韩欧美亚洲二区| 国产毛片在线视频| 欧美日韩一区二区视频在线观看视频在线| 国产成人精品久久久久久| 久久人人爽人人爽人人片va| 老司机影院成人| 久久精品熟女亚洲av麻豆精品| 91午夜精品亚洲一区二区三区| 夫妻午夜视频| 亚洲国产精品成人久久小说| 亚洲欧美成人精品一区二区| 日本vs欧美在线观看视频| 欧美人与性动交α欧美软件 | 国产av精品麻豆| 免费不卡的大黄色大毛片视频在线观看| 高清欧美精品videossex| 免费看av在线观看网站| 国产精品.久久久| av片东京热男人的天堂| 大香蕉97超碰在线| 久久婷婷青草| 街头女战士在线观看网站| 久久青草综合色| 三上悠亚av全集在线观看| 久久精品人人爽人人爽视色| 最近最新中文字幕免费大全7| 中文字幕精品免费在线观看视频 | 午夜av观看不卡| 丰满迷人的少妇在线观看| 超碰97精品在线观看| videosex国产| 国产精品人妻久久久影院| 精品少妇内射三级| 男人添女人高潮全过程视频| 久久99蜜桃精品久久| 精品久久久久久电影网| www日本在线高清视频| 黑人巨大精品欧美一区二区蜜桃 | 波多野结衣一区麻豆| 色视频在线一区二区三区| 久久久久久久大尺度免费视频| 成人免费观看视频高清| 国产一区亚洲一区在线观看| 啦啦啦啦在线视频资源| 国产成人精品在线电影| 美女国产视频在线观看| 熟女人妻精品中文字幕| 两个人免费观看高清视频| 香蕉丝袜av| 亚洲色图 男人天堂 中文字幕 | 日韩一区二区三区影片| 免费av不卡在线播放| 18禁裸乳无遮挡动漫免费视频| 国产 精品1| 99re6热这里在线精品视频| 日韩伦理黄色片| 丰满少妇做爰视频| 精品一区二区三卡| av免费观看日本| 三级国产精品片| 午夜福利网站1000一区二区三区| 亚洲综合精品二区| 国产男女内射视频| 亚洲精品国产av成人精品| kizo精华| 在线观看国产h片| 亚洲国产看品久久| 国产一区二区在线观看av| 天堂俺去俺来也www色官网| 男女下面插进去视频免费观看 | 久久精品人人爽人人爽视色| 91精品国产国语对白视频| 亚洲成av片中文字幕在线观看 | 嫩草影院入口| 国产成人精品在线电影| 精品少妇内射三级| 亚洲成色77777| 一区二区三区四区激情视频| 精品人妻熟女毛片av久久网站| 欧美另类一区| 热99久久久久精品小说推荐| 欧美少妇被猛烈插入视频| 亚洲国产毛片av蜜桃av| 国产成人91sexporn| 黄色配什么色好看| 欧美性感艳星| 色5月婷婷丁香| 精品久久国产蜜桃| 免费人成在线观看视频色| 国产欧美另类精品又又久久亚洲欧美| 久久久久久久亚洲中文字幕| 国产日韩欧美亚洲二区| 女人精品久久久久毛片| 亚洲av在线观看美女高潮| 精品国产乱码久久久久久小说| 国产无遮挡羞羞视频在线观看| 汤姆久久久久久久影院中文字幕| 人妻系列 视频| 人成视频在线观看免费观看| 国产片特级美女逼逼视频| 成年美女黄网站色视频大全免费| 婷婷色综合www| 九草在线视频观看| 黄色毛片三级朝国网站| 岛国毛片在线播放| 国产精品久久久久久av不卡| 久久久久久久久久人人人人人人| 美女内射精品一级片tv| 人体艺术视频欧美日本| 又黄又粗又硬又大视频| 国产精品久久久久久久电影| 亚洲欧美清纯卡通| 狠狠婷婷综合久久久久久88av| 一二三四中文在线观看免费高清| 精品人妻熟女毛片av久久网站| 黑人欧美特级aaaaaa片| 久久精品国产亚洲av涩爱| 久久影院123| 欧美变态另类bdsm刘玥| 男女边吃奶边做爰视频| 18+在线观看网站| 男女高潮啪啪啪动态图| a级片在线免费高清观看视频| 久久久国产一区二区| tube8黄色片| 少妇人妻 视频| 高清毛片免费看| 免费观看a级毛片全部| 黄色 视频免费看| av播播在线观看一区| 麻豆乱淫一区二区| 午夜av观看不卡| 999精品在线视频| av播播在线观看一区| 国产 精品1| 一级毛片黄色毛片免费观看视频| 日韩成人av中文字幕在线观看| 亚洲少妇的诱惑av| 国产一区二区三区av在线| 美女国产高潮福利片在线看| 国产一区二区三区综合在线观看 | 亚洲精品第二区| 国产毛片在线视频| 亚洲成国产人片在线观看| 狂野欧美激情性bbbbbb| 国产精品一区二区在线观看99| 久久久久人妻精品一区果冻| 老熟女久久久| 国产精品国产三级专区第一集| 日韩欧美精品免费久久| 在线观看免费视频网站a站| 欧美bdsm另类| 久久精品夜色国产| 九九在线视频观看精品| 黑人欧美特级aaaaaa片| 在线观看一区二区三区激情| 国产精品成人在线| 热re99久久国产66热| 国产伦理片在线播放av一区| 国产一区亚洲一区在线观看| 乱人伦中国视频| 国产一区二区在线观看日韩| 欧美成人午夜免费资源| 久久久久久伊人网av| av黄色大香蕉| 国产国拍精品亚洲av在线观看| 国产色婷婷99| 国产精品欧美亚洲77777| 午夜视频国产福利| 国产片内射在线| 久久亚洲国产成人精品v| 欧美日韩视频高清一区二区三区二| 国产一区二区三区综合在线观看 | 免费观看av网站的网址| 美女国产高潮福利片在线看| 国产极品天堂在线| 在线亚洲精品国产二区图片欧美| 亚洲av.av天堂| 巨乳人妻的诱惑在线观看| 中文精品一卡2卡3卡4更新| 精品国产一区二区三区四区第35| 中文字幕最新亚洲高清| 午夜免费观看性视频| 亚洲综合色网址| 两个人免费观看高清视频| 亚洲内射少妇av| 丁香六月天网| 欧美日韩成人在线一区二区| 午夜老司机福利剧场| 亚洲,欧美,日韩| 日本av免费视频播放| 免费日韩欧美在线观看| videosex国产| 亚洲国产精品一区三区| 免费人成在线观看视频色| av片东京热男人的天堂| 成年av动漫网址| av免费观看日本| 日韩一区二区三区影片| 天天操日日干夜夜撸| 婷婷色综合www| 久久久国产精品麻豆| 天美传媒精品一区二区| 久久这里有精品视频免费| 久久久久视频综合| 国产在线一区二区三区精| 日本午夜av视频| 建设人人有责人人尽责人人享有的| 男的添女的下面高潮视频| 日韩免费高清中文字幕av| 成人亚洲欧美一区二区av| 99久久人妻综合| 亚洲国产av影院在线观看| 一个人免费看片子| 一边亲一边摸免费视频| a级片在线免费高清观看视频| 亚洲色图综合在线观看| 国产有黄有色有爽视频| 少妇人妻精品综合一区二区| 制服诱惑二区| 高清在线视频一区二区三区| 国产激情久久老熟女| 国产成人一区二区在线| 国产精品久久久久久av不卡| 免费观看在线日韩| 国产精品国产三级国产专区5o| 两性夫妻黄色片 | 久久久久久久久久久久大奶| 亚洲av综合色区一区| 菩萨蛮人人尽说江南好唐韦庄| 天天影视国产精品| 成人18禁高潮啪啪吃奶动态图| 日本黄色日本黄色录像| 好男人视频免费观看在线| 男女免费视频国产| 丰满饥渴人妻一区二区三| av福利片在线| 丝袜喷水一区| 欧美国产精品一级二级三级| 18禁国产床啪视频网站| 卡戴珊不雅视频在线播放| 寂寞人妻少妇视频99o| 秋霞在线观看毛片| 亚洲美女视频黄频| 午夜免费观看性视频| 精品少妇久久久久久888优播| 99国产综合亚洲精品| 人妻少妇偷人精品九色| 观看av在线不卡| 国产亚洲精品第一综合不卡 | 九草在线视频观看| 国产精品嫩草影院av在线观看| 国产黄色免费在线视频| 亚洲图色成人| 免费久久久久久久精品成人欧美视频 | 国产女主播在线喷水免费视频网站| 黄网站色视频无遮挡免费观看| 日韩精品有码人妻一区| 成年动漫av网址| 亚洲精品久久午夜乱码| 午夜福利在线观看免费完整高清在| 一边摸一边做爽爽视频免费| 日韩制服骚丝袜av| 人妻 亚洲 视频| 亚洲精品久久午夜乱码| 国产成人精品久久久久久| 亚洲av免费高清在线观看| 永久网站在线| 水蜜桃什么品种好| 亚洲成人av在线免费| av国产久精品久网站免费入址| 一级毛片黄色毛片免费观看视频| 老司机亚洲免费影院| 美女大奶头黄色视频| 国产日韩欧美视频二区| 国产黄频视频在线观看| 免费看av在线观看网站| 午夜av观看不卡| 一边摸一边做爽爽视频免费| 在线观看免费日韩欧美大片| 国产69精品久久久久777片| 日本-黄色视频高清免费观看| 美女福利国产在线| 亚洲成色77777| 咕卡用的链子| 久久精品人人爽人人爽视色| 男男h啪啪无遮挡| 在线天堂最新版资源| 老司机亚洲免费影院| 亚洲精品自拍成人| 成人二区视频| 国产极品粉嫩免费观看在线| 国产在线一区二区三区精| 七月丁香在线播放| 天天影视国产精品| 国产高清国产精品国产三级| 在线精品无人区一区二区三| 黄色毛片三级朝国网站| 国产伦理片在线播放av一区| 观看美女的网站| 岛国毛片在线播放| 久久午夜福利片| 最近最新中文字幕大全免费视频 | 九色亚洲精品在线播放| 1024视频免费在线观看| 国产精品一二三区在线看| 久久99蜜桃精品久久| 建设人人有责人人尽责人人享有的| 欧美精品人与动牲交sv欧美| a 毛片基地| 91午夜精品亚洲一区二区三区| 久久99热6这里只有精品| 成人黄色视频免费在线看| 亚洲国产成人一精品久久久| 日韩不卡一区二区三区视频在线| 久久精品国产亚洲av天美| www.色视频.com| 国产精品久久久av美女十八| 国产精品免费大片| 考比视频在线观看| 免费大片18禁| www.av在线官网国产| 99九九在线精品视频| 99国产综合亚洲精品| 99久国产av精品国产电影| 交换朋友夫妻互换小说| 亚洲欧美一区二区三区国产| 在线观看免费日韩欧美大片| 女的被弄到高潮叫床怎么办| 亚洲美女视频黄频| 国产精品久久久av美女十八| 黑人猛操日本美女一级片| 国产毛片在线视频| 免费日韩欧美在线观看| 国产极品粉嫩免费观看在线| 国产又色又爽无遮挡免| 亚洲欧美清纯卡通| 美女主播在线视频| 成年动漫av网址| 18禁在线无遮挡免费观看视频| av在线观看视频网站免费| 国产成人精品一,二区| 久久精品久久精品一区二区三区| 国产永久视频网站| 国产日韩欧美亚洲二区| 亚洲精品久久午夜乱码| 伊人亚洲综合成人网| 日日啪夜夜爽| 校园人妻丝袜中文字幕| 一级片免费观看大全| av在线app专区| 精品少妇久久久久久888优播| 伊人亚洲综合成人网| 十八禁高潮呻吟视频| 色视频在线一区二区三区| 亚洲av欧美aⅴ国产| 国产在线一区二区三区精| 人人澡人人妻人| 国产av精品麻豆| 国产日韩欧美视频二区| 亚洲av福利一区| 国产一区二区激情短视频 | 美女中出高潮动态图| 嫩草影院入口| 香蕉国产在线看| 精品国产一区二区三区四区第35| 久久99热这里只频精品6学生| 久久免费观看电影| 久久久国产欧美日韩av| 免费观看无遮挡的男女| av在线观看视频网站免费| 美女中出高潮动态图| 日韩欧美精品免费久久| 美女主播在线视频|