• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于價值濾波的空戰(zhàn)機動決策優(yōu)化方法

    2024-01-20 08:25:08付宇鵬鄧向陽朱子強張立民
    航空學報 2023年22期
    關鍵詞:藍方機動示例

    付宇鵬,鄧向陽,2,*,朱子強,張立民

    1.海軍航空大學 航空作戰(zhàn)勤務學院,煙臺 264001

    2.清華大學 自動化系,北京 100084

    隨著電子對抗技術的發(fā)展和戰(zhàn)機隱身性能的提高,未來仍存在視距內空戰(zhàn)的場景[1],對抗雙方如何根據(jù)當前作戰(zhàn)態(tài)勢選擇精確有效的機動決策仍然是重要的研究方向[2]。為了提高訓練效能,飛行員對抗訓練中需要具有決策能力的智能化、風格化的陪練對手[3]。

    2020 年,DARPA 舉辦Alpha Dogfight 狗斗大賽,最終美國蒼鷺公司獲得冠軍,洛克希德·馬丁公司獲得亞軍[4]。并且蒼鷺公司的AI 在人機對抗中以5:0 完勝人類飛行員。同年11 月,中國航空工業(yè)成都飛機設計研究所舉辦人工智能空戰(zhàn)大賽,是相關單位第1 次組織如此大規(guī)模人工智能對戰(zhàn)。2021 年開始,中國指揮與控制學會每年主辦全國空中智能博弈大賽,吸引全國各機構隊伍參賽。與傳統(tǒng)方法不同的是,各賽事中各參賽隊伍越來越多采用強化學習(Reinforcement Learning,RL)和模仿學習(Imitation Learning,IL)算法實現(xiàn)機動決策控制。

    強化學習是一個旨在學習某種控制策略的過程,該策略可以最大化智能體獲得的獎勵[5]。結合深度神經(jīng)網(wǎng)絡優(yōu)秀的函數(shù)逼近能力,深度強化學習已被證明即使在復雜的連續(xù)動作空間也可以解決許多困難的任務并獲得超過人類專家的性能,具備近距格斗這類復雜場景的飛行機動決策控制的能力。

    強化學習在飛行控制系統(tǒng)、航路規(guī)劃、空戰(zhàn)博弈等領域取得了一定的進展,文獻[5-6]設計了基于強化學習算法的姿態(tài)控制器,驗證了神經(jīng)網(wǎng)絡模型控制固定翼飛機的可行性。文獻[7]利用經(jīng)驗池Actor-Critic 算法,通過選擇原子動作實現(xiàn)了固定翼飛機軌跡跟蹤,為機動決策系統(tǒng)架構設計提供了寶貴的思路。文獻[2]采用基于原子行為的分層馬爾科夫決策過程,利用雙深度Q網(wǎng)絡(Double Deep Q-Network,DDQN)算法訓練網(wǎng)絡模型,實現(xiàn)了機動決策控制?;谠有袨榈目刂颇P头抡婢群驼鎸嵭允芟抻陔x散動作空間粒度,隨著離散動作空間的增長,模型訓練難度和內存需求將大幅上升。而采用端到端模型,即智能體直接控制飛機發(fā)動機油門開度、升降舵、副翼、方向舵偏轉,算法收斂難度大。文獻[4]采用分層策略的架構,利用柔性動作-評價(Soft Actor-Critic,SAC)算法訓練網(wǎng)絡模型,取得了較好的效果,但模型結構復雜,訓練周期長。文獻[8]基于雙延時確定策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)

    算法,提出了基于價值的經(jīng)驗池樣本優(yōu)先度排序方法,提高了算法收斂速度。文獻[9-10]提出了應用于超視距空戰(zhàn)的機動決策方法,采用分層近端策略優(yōu)化(Hierarchical Proximal Policy Optimization,H-PPO)算法,將動作空間映射到原子行為序列,分別實現(xiàn)了單機和多機的空戰(zhàn)機動決策智能體建模。

    面對空戰(zhàn)對抗這類狀態(tài)空間復雜的環(huán)境,基于強化學習的空戰(zhàn)機動決策優(yōu)化算法專家經(jīng)驗利用不足,往往難以保證算法快速收斂。針對該問題,提出了價值濾波(Value-Filter)概念,并提出了基于價值濾波方法的示例策略約束算法(Demonstration Policy Constrain,DPC)。主要創(chuàng)新在于,算法利用價值濾波方法提取回放經(jīng)驗池和示例經(jīng)驗池的優(yōu)勢數(shù)據(jù),約束空戰(zhàn)智能體策略優(yōu)化方向,從而提高傳統(tǒng)強化學習在線策略(on-policy)算法的收斂效率,并避免示例數(shù)據(jù)次優(yōu)的問題。

    1 研究背景

    1.1 基于示例的策略優(yōu)化問題

    在復雜的智能體機動決策優(yōu)化任務中,訓練難點在于狀態(tài)空間龐大,且大多數(shù)據(jù)無效,導致智能體消耗大量時間學會平穩(wěn)飛行,因此需要示例數(shù)據(jù)給予啟發(fā)式信息。少量的示例軌跡可以由人類專家或簡單的策略模型收集,示例軌跡數(shù)據(jù)集定義為DE={τ1,τ2,…,τn},其中τn=表示第n條飛行軌跡,由“狀態(tài)-動作-獎勵-狀態(tài)”四元組序列構成。這些軌跡的質量可以用獎勵函數(shù)來判斷。基于示例數(shù)據(jù)的策略優(yōu)化方法中,常用方法包括3 類:

    1)利用模仿學習的策略優(yōu)化方法。最常見的一類方式稱為行為克?。˙ehavioral Cloning,BC),直接通過監(jiān)督學習的方式,從示例數(shù)據(jù)集的狀態(tài)-動作對中學習策略。行為克隆技術在自動駕駛[11-12],無人機導航控制[13-14]取得了進展。為了解決行為克隆技術存在的策略偏移和復合誤差,提出了基于數(shù)據(jù)增廣的DAgger 算法[15],但該類算法需要長時間在線干預,在空戰(zhàn)決策建模場景中不易實現(xiàn)。逆強化學習(IRL)是另一類模仿學習算法,通過示例推測獎勵函數(shù)[16],在無人機自主飛行控制,機械手臂等應用中取得一定成果[17-18]。但空戰(zhàn)對抗問題狀態(tài)空間復雜,示例策略分布往往不唯一或目標不明確,算法難以收斂。

    2)將示例數(shù)據(jù)保存為示例經(jīng)驗池,利用離線強化學習算法進行訓練。文獻[19-20]將深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法與BC 算法相結合,利用BC 約束策略優(yōu)化方向,在稀疏獎勵下利用后驗經(jīng)驗回放技術仍可獲得較高回報。但離線強化學習存在策略偏移問題,往往需要在線細調。

    3)行為克隆預訓練,在線細調。AlphaStar[21]使用人類玩家對局數(shù)據(jù)和智能體自博弈數(shù)據(jù)結合訓練生成策略,在星際爭霸游戲中擊敗職業(yè)玩家。文獻[22]將模仿學習應用于無人駕駛環(huán)境,實現(xiàn)智能體自主駕駛。文獻[23]利用采集的飛行軌跡數(shù)據(jù)并進行軌跡分類預處理,通過模仿學習生成行為網(wǎng)絡集作為原子行為集合,有效提高行為逼真度,并利用DQN 算法優(yōu)化智能體策略探索能力。文獻[24]提出SAIL 算法,通過將經(jīng)驗池中的優(yōu)勢軌跡數(shù)據(jù)擴充示例數(shù)據(jù),提高算法收斂效率。

    1.2 基于策略分布正則項的約束方法

    上述基于示例的策略優(yōu)化方法中,第3 類方法目前應用廣泛,但基于行為克隆的預訓練策略在與環(huán)境交互過程中存在復合誤差,如果僅依靠強化學習算法在線細調,策略更新方向將不可控,例如,在飛行器機動控制時出現(xiàn)飛機不停滾轉、墜地等情況,破壞預訓練的初始化參數(shù)。這類情況下,學習率、batch size、更新次數(shù)等算法超參數(shù)設置不當可能直接導致算法無法收斂。因此示例數(shù)據(jù)應得到充分利用,在算法訓練中對智能體策略更新方向加以約束。

    在基于策略分布正則項的約束方法中,將示例數(shù)據(jù)保存在經(jīng)驗池DE中加以利用。設示例策略表示為πE,其狀態(tài)-動作概率分布表示為dπE(s,a),當前策略的狀態(tài)-動作概率分布表示為dπθ(s,a),πθ(s)即策略網(wǎng)絡,根據(jù)輸入狀態(tài)s輸出動作a。為衡量dπθ(s,a)與dπE(s,a)的相似性,采樣(s,a)~DE,將二者分布距離作為策略損失函數(shù)的正則項,記為D(dπE(s,a)||dπθ(s,a)),其中D(·||·)表示概率分布空間的距離測量方法。因此策略優(yōu)化方向約束為式(1),用κ衡量概率分布約束邊界。

    式(1)表示智能體策略在訓練過程中的目標是在策略分布約束范圍內,得到式(2)的最大期望回報Rπ,其中γ為折扣系數(shù),確保無限長馬爾科夫決策過程能夠收斂。通過策略分布距離作為正則項,能夠引導策略向示例策略方向收斂。

    2 價值濾波

    現(xiàn)實中真實對抗數(shù)據(jù)獲得成本高,因此基于示例的策略優(yōu)化方法的目標是充分利用少量的示例軌跡,結合在線訓練來提高樣本效率,但當示例數(shù)據(jù)質量低,如策略分布多峰或次優(yōu)時,該方法難以得到最優(yōu)解,會導致在線訓練時的負向引導。因此基于次優(yōu)示例的策略約束面臨的難點在于如何對次優(yōu)數(shù)據(jù)采樣,從而接近最優(yōu)策略π*。在上述預訓練-在線細調的策略訓練框架下,本文提出價值濾波,通過對優(yōu)勢經(jīng)驗數(shù)據(jù)和優(yōu)勢示例數(shù)據(jù)提取,提高算法收斂速度,并解決示例策略次優(yōu)的問題。

    2.1 價值函數(shù)濾波器設計

    強化學習算法中優(yōu)勢動作評論(Advantage Actor Critic,A2C)、置信域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[25]、PPO[26]等在線策略(on-policy)算法,穩(wěn)定性高,同時支持并行仿真,在計算資源充足的情況下具有優(yōu)勢,但on-policy 算法的采樣機制導致經(jīng)驗數(shù)據(jù)利用率低;DQN、DDPG、TD3、SAC 等離線策略(offpolicy)算法[27]經(jīng)驗數(shù)據(jù)利用率高,為了提高有效樣本的利用率,常采用優(yōu)先經(jīng)驗回放等技術,但是當示例價值波動較大時,優(yōu)先經(jīng)驗回放會提高次優(yōu)數(shù)據(jù)的采樣概率,從而降低價值網(wǎng)絡的準確性,進而影響策略網(wǎng)絡收斂性。為了解決上述問題,將基于策略梯度的在線策略算法和基于能量模型的離線策略算法相結合[28],提出價值濾波方法。

    基于策略梯度的強化學習算法訓練的目標是接近最優(yōu)策略π*,根據(jù)熵正則化強化學習和soft Q learning 理論[29],最優(yōu)動作價值函數(shù)和最優(yōu)狀態(tài)價值函數(shù)分別表示為

    式中:Hπ表示策略的熵正則化,則推導出最優(yōu)策略表示為

    由式(5)可知,狀態(tài)價值滿足V*(st)≥Vφ(st),即當前策略狀態(tài)價值上界為最優(yōu)策略π*的狀態(tài)價值,因此必然有V*(st)≥Rt-,即當前策略下的回報小于最優(yōu)狀態(tài)價值。為了使當前策略快速逼近最優(yōu)策略,訓練過程增加優(yōu)勢樣本的采樣占比,選擇Rt->Vφ(st)的優(yōu)勢數(shù)據(jù)進行增強訓練,由此提出價值濾波器(V-Filter),定義為

    式(6)在實現(xiàn)中忽略策略熵,文獻[28]證明了當系數(shù)α很小時,狀態(tài)價值函數(shù)將逼近最優(yōu)狀態(tài)價值函數(shù)的下界,說明價值濾波方法具有可收斂性。根據(jù)策略梯度算法得到利用回放經(jīng)驗的策略損失函數(shù),即

    式(7)直觀表示算法訓練中選擇當前策略和狀態(tài)價值評估下的優(yōu)勢狀態(tài)-動作進行進一步模型訓練。

    2.2 基于價值濾波的策略約束算法

    為了實現(xiàn)利用價值濾波對優(yōu)勢示例數(shù)據(jù)進行增強,提出基于價值濾波的示例策略約束算法(DPC)。為便于實現(xiàn),首先將式(1)改寫為拉格朗日函數(shù)形式[30],即

    該min-max 問題包含θ和η這2 個參數(shù),為了降低算法設計和收斂難度,將η作為超參數(shù),訓練中僅更新策略網(wǎng)絡參數(shù)θ,即

    當獎勵函數(shù)設計的目標與示例策略目標一致時,根據(jù)式(9),可以通過對基于策略(policybased)的強化學習算法優(yōu)化,實現(xiàn)利用少量示例數(shù)據(jù)實現(xiàn)策略約束。

    考慮到通過mini-batch 采樣DE得到的策略分布dπE(s,a)存在較大誤差,因此在策略約束算法具體實現(xiàn)中,算法參考行為克隆,采樣示例狀態(tài)-動作(,)~DE,~πE。因此式(9)簡化為

    針對實際示例數(shù)據(jù)中策略可能存在次優(yōu)或不唯一的問題,將價值濾波與策略約束相結合,濾除采樣示例數(shù)據(jù)中回報低于當前狀態(tài)價值的非優(yōu)勢數(shù)據(jù),僅對優(yōu)勢數(shù)據(jù)進行增強,因此式(10)改寫為

    針對可能存在的價值函數(shù)過估計問題,可利用廣義優(yōu)勢估計(GAE)方法更新價值網(wǎng)絡[31],降低偏差和方差,價值網(wǎng)絡損失函數(shù)表示為

    注意到與優(yōu)先經(jīng)驗回放不同,采樣數(shù)據(jù)近似服從獨立同分布,在訓練初期,價值網(wǎng)絡隨機性較高,當其因過估計導致輸出Vφ(st)>V*(st)時,價值濾波器輸出為0,即當前策略僅根據(jù)在線策略算法更新;當價值網(wǎng)絡估計偏低時,策略同時由示例策略約束算法和在線策略算法更新;隨著價值網(wǎng)絡收斂,算法將對示例數(shù)據(jù)進行濾波從而解決示例次優(yōu)問題。

    2.3 PPO-DPC 算法流程

    本文的DPC 算法可優(yōu)化任意在線策略算法。以結合分布式PPO 算法為例,設置N個分布式Rollout Worker 和一個中心Learner。每個Worker 與環(huán)境交互并將四元組軌跡數(shù)據(jù)存放在各自的回合經(jīng)驗池(記為)中?;睾辖Y束后將數(shù)據(jù)存入全局回放經(jīng)驗池(記為Doff)中。

    PPO-DPC 算法流程如算法1 所示,首先建立示例經(jīng)驗池,行為克隆生成預訓練策略,并利用示例數(shù)據(jù)對價值網(wǎng)絡進行初始化。由各Worker 與環(huán)境交互采集數(shù)據(jù),回合結束后,將采樣數(shù)據(jù)分割成mini-batch,策略梯度為

    式中:ct(θ)表示當前策略和舊策略的概率比,即

    將其回傳Learner,由Learner 將各梯度累加并更新策略網(wǎng)絡和價值網(wǎng)絡參數(shù),以上過程為近似在線策略訓練過程。

    每回合結束后,Learner 分別從Doff和DE中采樣,根據(jù)式(12)計算策略梯度并更新策略網(wǎng)絡。下一回合開始前,Learner 將更新的網(wǎng)絡參數(shù)發(fā)布給各Worker,Worker 以新策略采樣獲得樣本。

    為了使智能體行為在訓練初期能受示例策略約束,保證算法快速收斂,而訓練中后期利用強化學習的環(huán)境探索能力進一步優(yōu)化當前策略,式中參數(shù)η隨訓練步數(shù)增加逐漸降低。

    3 實驗系統(tǒng)設計

    3.1 算法實驗系統(tǒng)

    本文算法實驗系統(tǒng)框圖如圖1 所示。訓練過程包含3 個階段,

    圖1 實驗系統(tǒng)框圖Fig.1 Structure of experiment system

    1)數(shù)據(jù)采集階段:由專家策略模型與藍方對抗生成對抗軌跡數(shù)據(jù),即策略πE與環(huán)境交互,產(chǎn)生四元組(st,at,st+1,rt),存入示例經(jīng)驗池。

    2)離線預訓練階段:利用行為克隆初始化神經(jīng)網(wǎng)絡模型,提高初始階段模型訓練效率。

    3)在線訓練階段:智能體與環(huán)境交互進行在線強化學習訓練,提高智能體狀態(tài)空間探索能力,解決行為克隆存在的策略偏移問題。

    仿真環(huán)境中對抗雙方采用相同的六自由度(6DOF)固定翼飛機模型。藍方策略基于蒙特卡洛樹搜索的層次化建模方法,決策層預測紅藍雙方可到達位置點,并根據(jù)態(tài)勢評估函數(shù)選擇優(yōu)勢目標航點;控制層由PID 控制器控制飛機模型到達指定目標點。紅方由基于神經(jīng)網(wǎng)絡的智能體控制。紅藍雙方初始高度h∈[1,9] km,初始相對水平距離Δx∈[-10,10] km,Δy∈[-10,10] km,初始速度v∈[150,300] m/s,初始任意姿態(tài)。

    3.2 模型輸入輸出變量設計

    飛機的運動主要由發(fā)動機推力、升降舵、副翼、方向舵控制。當各操縱面變化時,模型根據(jù)對應的氣動參數(shù),改變飛機合力和合力矩。因此機動決策控制網(wǎng)絡輸出升降舵、副翼、方向舵和油門控制指令,實現(xiàn)飛機姿態(tài)和位置的控制,即

    為了提高飛機控制的穩(wěn)定性,飛機模型包含基于PID 控制器的穩(wěn)定增強系統(tǒng),包括角速度、過載反饋環(huán)路和控制指令前饋通路,控制器輸出升降舵、副翼、方向舵偏轉角度,分別表示為

    對抗中考慮視距內格斗,同時具有預警機支援,雙方態(tài)勢透明,智能體模型輸入狀態(tài)st由自身狀態(tài)和雙方相對態(tài)勢組成。其中自身狀態(tài)表示為

    其中:ψ、θ、φ分別表示航向角、俯仰角和滾轉角;為俯仰角速度;表示當前滾轉角;h表示歸一化高度;V表示NED 坐標系下的歸一化速度。相對態(tài)勢表示為

    其中:ΔV表示速度差;ΔX表示NED 坐標系下的相對位置;αATA表示方位角;αAA表示目標進入角。

    3.3 獎勵函數(shù)設計

    獎勵函數(shù)rt=r(st,at)是引導算法收斂的重要影響因素,本文獎勵函數(shù)設計考慮角度優(yōu)勢、能量優(yōu)勢、自身穩(wěn)定性等關鍵空戰(zhàn)要素。

    雙方位置關系圖如圖2 所示,αATA和αAA用來判斷角度優(yōu)勢[32],相對歐式距離R用來引導我方接敵以到達格斗彈或航炮發(fā)射條件。因此,獎勵函數(shù)rt設計為

    圖2 相對位置關系圖Fig.2 Diagram of relative position

    其中:ηA、ηR、ηE分別代表的權重,本文中分別設置為0.5、0.3、0.2。

    此外,當飛機飛行高度和飛行速度低于或高于閾值,引入懲罰項rpenalty,避免機動決策陷入快速‘死亡’等錯誤選擇的局部最優(yōu)。

    4 系統(tǒng)仿真

    本文強化學習訓練環(huán)境采用OpenAI gym 平臺,飛機動力學和運動學解算基于JSBSim 開源平臺,飛機空氣動力學模型為公開的F16 模型。

    1)模型預訓練階段,由基于PID 控制器的簡單策略模型對抗靶機目標,獲取20 回合對抗數(shù)據(jù),形成約2×105規(guī)模的示例數(shù)據(jù)集?;谠撌纠龜?shù)據(jù)并對智能體策略網(wǎng)絡和價值網(wǎng)絡參數(shù)初始化。

    2)模型在線訓練階段,仿真共2 200 回合,飛機狀態(tài)仿真步長,即智能體決策間隔為20 ms,每回合最長時間5 min。算法中超參數(shù)設計如表1所示,策略網(wǎng)絡和價值網(wǎng)絡結構均采用全連接結構,其中隱藏層激活函數(shù)為均為ReLu 函數(shù),策略網(wǎng)絡輸出層激活函數(shù)為tanh 函數(shù)。損失函數(shù)采用Adam 方法更新梯度[33]。

    表1 PPO-DPC 算法參數(shù)設置Table 1 Parameters of PPO-DPC algorithm

    回報函數(shù)的仿真曲線如圖3,仿真對比了傳統(tǒng)PPO 算法、PPO 算法結合自模仿學習[30]算法(PPO-SIL)、PPO 算法結合本文示例策略約束算法(圖中PPO-DPC)、TD3-BC[34]算法(TD3-BC)以及BC 算法,其中BC 算法生成的模型作為上述4 種算法的預訓練初始模型。結果顯示利用專家數(shù)據(jù)的TD3-BC 算法和PPO-DPC 算法收斂速度明顯高于PPO 算法,此外,PPO-DPC 算法通過優(yōu)勢經(jīng)驗數(shù)據(jù)的濾波,較TD3-BC 更快收斂。而PPO 與PPO-SIL 算法由于缺乏策略約束,態(tài)勢觀測發(fā)現(xiàn)智能體在訓練中花費大量時間才能學會平穩(wěn)飛行,因此回報函數(shù)上升緩慢。

    圖3 回合回報仿真曲線Fig.3 Simulation of returns per episode

    價值函數(shù)的仿真曲線如圖4,仿真中設置γ=0.998,即價值網(wǎng)絡估計約10 s 仿真步長的策略價值。為了衡量價值網(wǎng)絡收斂情況,每次更新價值網(wǎng)絡隨機從DE中采樣,估計示例策略價值,結果表明具有策略約束的算法,其價值網(wǎng)絡在1×104仿真步數(shù)后基本收斂,能準確估計策略價值,而PPO-SIL 算法對狀態(tài)價值估值較低。結合圖3 回報函數(shù)曲線,說明策略約束能夠輔助價值網(wǎng)絡收斂,從而準確估計策略價值,在優(yōu)化當前策略的同時有利于算法快速收斂。

    圖4 價值函數(shù)仿真曲線Fig.4 Simulation of value function

    示例利用率和動作誤差仿真曲線如圖5 所示。在訓練初期,由于策略網(wǎng)絡隨機性較強,策略分布隨機,此時示例數(shù)據(jù)利用率接近1,策略網(wǎng)絡輸出動作于示例動作誤差較大;隨著算法收斂,價值濾波器將采樣示例的次優(yōu)數(shù)據(jù)濾除,示例數(shù)據(jù)利用率逐漸降低為0.25 左右,同時動作誤差在0.01 左右。結果表明在訓練初期策略約束能夠有效幫助策略收斂,后期利用價值濾波方法提高了智能體環(huán)境探索能力,從而避免示例策略次優(yōu)的問題。

    圖5 示例利用率和動作誤差仿真曲線Fig.5 Simulation of utilization of demonstration data and error of actions

    圖6 給出了博弈對抗的部分態(tài)勢渲染圖,從圖中可以看到雙方能夠判斷態(tài)勢并做出合理的機動決策,完成如圖中破S 機動、剪刀機動、筋斗等常用機動動作。

    圖6 博弈對抗場景渲染圖Fig.6 Diagram of air-combat scene

    為了驗證基于DPC 算法的機動策略性能提高,圖7(a)、圖7(c)、圖7(e)分別給出了示例策略、DPC 策略和PPO 策略對抗相同簡單機動目標時的航跡,圖7(b)、圖7(d)、圖7(f)分別對應其輸出動作。航跡結果顯示,示例策略在初始階段能夠調整跟蹤目標,而90 s 后決策明顯失誤丟失目標;PPO 策略盡管始終保持相對距離,但未明顯體現(xiàn)戰(zhàn)術意圖;相比之下DPC 策略能夠始終占據(jù)藍方后半球區(qū)域,保持角度優(yōu)勢和武器發(fā)射條件,更具智能性。通過輸出動作曲線觀察,DPC策略學習到示例策略的平穩(wěn)變化規(guī)律,而PPO 策略抖動明顯。結果證明DPC 方法能夠模仿示例策略的同時,有效避免了示例策略次優(yōu)的問題。

    圖7 相同目標下示例策略、DPC 策略和PPO 策略態(tài)勢對比圖Fig.7 Comparison of air-combat situation with the same target among demonstration,DPC and PPO based policies

    為了驗證機動策略的性能,圖8 給出了使用本文生成策略的紅方與藍方簡單靶機對抗的態(tài)勢圖。圖8(a)初始條件為雙方均勢,航線相距4 km,相向飛行,紅方選擇高yo-yo 機動,而后迅速調轉機頭指向藍方并保持優(yōu)勢位置;圖8(b)初始條件為雙方均勢,航線相距4 km,同向飛行,紅方連續(xù)壓坡度轉向藍方,占據(jù)有利位置;圖8(c)初始條件為雙方均勢迎頭飛行,紅方爬升規(guī)避,而后破S 機動轉向藍方后半球;圖8(d)初始條件為藍方位紅方6 點鐘方向,紅方迅速急轉,待藍方無追擊行為,轉向藍方。結果顯示,紅方反饋行為符合占據(jù)敵后半球優(yōu)勢位置的目標。

    圖8 簡單目標對抗態(tài)勢圖Fig.8 Situation of combat with simple target

    圖9 給出了紅藍雙發(fā)均使用本文生成策略的自博弈對抗態(tài)勢圖,圖10 給出了策略網(wǎng)絡輸出動作,分別對應于圖9 中紅方智能體行為。圖9(a)初始條件反向飛行,藍方高度略高,具有能量優(yōu)勢,雙方進入剪刀機動,紅方逐漸陷入劣勢,選擇脫離,藍方追擊;圖9(b)初始條件為紅方略具角度優(yōu)勢,藍方策略激進,選擇急轉接敵,而后雙方進入單環(huán)戰(zhàn);圖9(c)初始條件為藍方占據(jù)角度優(yōu)勢和速度優(yōu)勢,紅方急轉規(guī)避,藍方始終位紅方后半球優(yōu)勢區(qū)域;圖9(d)初始條件為雙方均勢,反向飛行,雙方進入雙環(huán)戰(zhàn)。結果表明,在雙方使用相同策略下,初始態(tài)勢對于戰(zhàn)局發(fā)展影響較大,與直觀戰(zhàn)術機動理解一致。對抗過程中,智能體能夠利用副翼和方向舵協(xié)同轉彎,并在大坡度機動時利用方向舵保持垂直高度,優(yōu)于示例行為,同時配合使用油門和方向舵完成小半徑轉彎。通過上述比較分析,可以說明基于DPC 算法的機動決策模型具有一定智能性,能夠判斷態(tài)勢并完成戰(zhàn)術機動。

    圖9 自博弈對抗態(tài)勢圖Fig.9 Situation of combat with self-play

    圖10 策略網(wǎng)絡輸出動作Fig.10 Output action of policy network

    為了驗證智能體性能,基于VR 設備的桌面模擬器進行了人機對抗測試,如圖11 所示,紅方為人類,藍方為智能體。智能體封裝了簡易火控雷達和武器模型,鎖定目標后實時獲取坐標、速度、姿態(tài)信息。圖11(a)中藍方為前述基于蒙特卡洛搜索樹的簡單智能體,圖11(b)中藍方為DPC 算法生成智能體。紅藍雙方初始高度5 km,距離10 km,速度200 m/s,同向飛行。圖11(a)智能體選擇抵近飛行,被紅方導彈鎖定后未及時規(guī)避,迅速被擊落;圖11(a)智能體被紅方跟蹤后釋放紅外干擾并急轉脫離,態(tài)勢相對均勢后進入近距纏斗,智能體能精確判斷態(tài)勢和控制機動行為,智能水平明顯提高。

    圖11 人機對抗態(tài)勢圖Fig.11 Diagram of human-AI air combat

    5 結論

    針對近距空戰(zhàn)智能體機動決策建模問題,提出并分析了價值濾波方法,提出了基于價值濾波的示例策略約束算法,DPC 算法通過價值濾波方法對優(yōu)勢示例數(shù)據(jù)進行學習,有效提高模型訓練效率,同時避免示例數(shù)據(jù)的次優(yōu)問題。

    基于DPC 算法,建立了空戰(zhàn)機動決策智能體建模流程,通過自博弈對抗和人機對抗實驗,說明生成的智能體表現(xiàn)出較好智能性。為空戰(zhàn)對抗訓練中建立風格化智能陪練模型提供了新思路。

    猜你喜歡
    藍方機動示例
    大還是小
    裝載機動臂的疲勞壽命計算
    2019年高考上海卷作文示例
    常見單位符號大小寫混淆示例
    山東冶金(2019年5期)2019-11-16 09:09:22
    12萬畝機動地不再“流浪”
    當代陜西(2019年12期)2019-07-12 09:12:02
    機動三輪車的昨天、今天和明天
    “全等三角形”錯解示例
    精彩的足球比賽
    暗號
    暗號
    小小說月刊(2015年5期)2016-01-22 08:39:19
    亚洲av成人精品一区久久| 在线a可以看的网站| 午夜福利视频1000在线观看| 在线观看一区二区三区| 精品电影一区二区在线| 午夜福利高清视频| 美女午夜性视频免费| 色哟哟哟哟哟哟| 婷婷精品国产亚洲av在线| 久久精品夜夜夜夜夜久久蜜豆 | 国产蜜桃级精品一区二区三区| 色噜噜av男人的天堂激情| 在线观看www视频免费| 无遮挡黄片免费观看| 99精品欧美一区二区三区四区| 狠狠狠狠99中文字幕| 亚洲成人久久爱视频| 国产久久久一区二区三区| 亚洲欧美日韩高清在线视频| 欧美国产日韩亚洲一区| 一区二区三区国产精品乱码| 亚洲中文日韩欧美视频| 国产精品一区二区三区四区免费观看 | 精品国内亚洲2022精品成人| 午夜久久久久精精品| 国产精品永久免费网站| 欧美日本视频| 国产午夜福利久久久久久| 美女免费视频网站| 麻豆久久精品国产亚洲av| 成人特级黄色片久久久久久久| 亚洲专区字幕在线| 天堂av国产一区二区熟女人妻 | 在线a可以看的网站| 亚洲熟女毛片儿| 欧美又色又爽又黄视频| 99久久久亚洲精品蜜臀av| 国产成年人精品一区二区| 淫秽高清视频在线观看| 国产成人影院久久av| 俄罗斯特黄特色一大片| 日本一区二区免费在线视频| 国产片内射在线| 国产1区2区3区精品| 99国产精品99久久久久| 欧美高清成人免费视频www| 男男h啪啪无遮挡| 国产99久久九九免费精品| 9191精品国产免费久久| 精品福利观看| 国产精品久久久久久亚洲av鲁大| 波多野结衣高清作品| АⅤ资源中文在线天堂| 久久久久久久精品吃奶| 国产精华一区二区三区| 欧美黄色淫秽网站| 色播亚洲综合网| 高清毛片免费观看视频网站| 成人手机av| 亚洲欧美精品综合久久99| 色尼玛亚洲综合影院| 一区二区三区国产精品乱码| 国产99久久九九免费精品| 免费在线观看视频国产中文字幕亚洲| 亚洲专区国产一区二区| 此物有八面人人有两片| 亚洲片人在线观看| 久久久水蜜桃国产精品网| 69av精品久久久久久| 免费看美女性在线毛片视频| 亚洲人成伊人成综合网2020| 最新美女视频免费是黄的| 曰老女人黄片| 国产一级毛片七仙女欲春2| 男人舔女人下体高潮全视频| 嫩草影院精品99| www.www免费av| 久久久国产成人免费| 一级作爱视频免费观看| 亚洲精品国产一区二区精华液| 亚洲欧美精品综合久久99| 亚洲一区二区三区不卡视频| www.自偷自拍.com| av天堂在线播放| 国产午夜精品久久久久久| 日本 欧美在线| 亚洲一区高清亚洲精品| 精品久久久久久久人妻蜜臀av| 国产精品一区二区三区四区免费观看 | 成人欧美大片| 国产精品免费视频内射| 亚洲国产精品999在线| 亚洲av电影在线进入| 真人一进一出gif抽搐免费| 欧美日韩福利视频一区二区| 女人被狂操c到高潮| 精品久久久久久成人av| 国产激情偷乱视频一区二区| 午夜激情av网站| 亚洲成人久久性| 亚洲精品国产一区二区精华液| 亚洲欧洲精品一区二区精品久久久| 人人妻人人看人人澡| 日本黄大片高清| 国产精品久久久久久精品电影| 叶爱在线成人免费视频播放| www.www免费av| 久久久国产成人精品二区| 夜夜躁狠狠躁天天躁| 欧美 亚洲 国产 日韩一| 日本黄色视频三级网站网址| 欧美三级亚洲精品| 人人妻人人澡欧美一区二区| 欧美午夜高清在线| 国产亚洲精品久久久久5区| 99riav亚洲国产免费| 国产v大片淫在线免费观看| 黑人欧美特级aaaaaa片| 国产精品1区2区在线观看.| 亚洲真实伦在线观看| 99在线人妻在线中文字幕| 1024视频免费在线观看| 欧美人与性动交α欧美精品济南到| 国产单亲对白刺激| 男女那种视频在线观看| 搡老熟女国产l中国老女人| 妹子高潮喷水视频| 老汉色∧v一级毛片| 91字幕亚洲| 久久99热这里只有精品18| 老汉色av国产亚洲站长工具| 久久久久久久午夜电影| 欧美日韩乱码在线| 夜夜爽天天搞| 后天国语完整版免费观看| 久久久国产成人精品二区| 最新美女视频免费是黄的| 亚洲中文日韩欧美视频| 老司机在亚洲福利影院| 国产视频一区二区在线看| 色哟哟哟哟哟哟| 欧美日本亚洲视频在线播放| 欧美在线黄色| 天堂√8在线中文| 搡老妇女老女人老熟妇| 男女视频在线观看网站免费 | 不卡一级毛片| 在线视频色国产色| 长腿黑丝高跟| 中文字幕熟女人妻在线| 美女 人体艺术 gogo| 国产又黄又爽又无遮挡在线| 精品福利观看| 一级a爱片免费观看的视频| 欧美日韩乱码在线| 午夜老司机福利片| 国产在线精品亚洲第一网站| 国产黄片美女视频| 亚洲成人久久性| 九色成人免费人妻av| 国产熟女午夜一区二区三区| 免费观看精品视频网站| 精品国产亚洲在线| 日韩欧美三级三区| 久久久久九九精品影院| 亚洲色图 男人天堂 中文字幕| 18禁黄网站禁片午夜丰满| 婷婷丁香在线五月| 在线观看舔阴道视频| 国产黄片美女视频| 人人妻人人澡欧美一区二区| 美女免费视频网站| 久久天堂一区二区三区四区| 久久精品综合一区二区三区| 日韩欧美免费精品| 丝袜人妻中文字幕| 久久久国产成人精品二区| 成年免费大片在线观看| 日本在线视频免费播放| 国产亚洲精品综合一区在线观看 | 国产三级黄色录像| 少妇裸体淫交视频免费看高清 | 亚洲av成人av| 香蕉丝袜av| 日本一二三区视频观看| 久久久精品国产亚洲av高清涩受| 日本撒尿小便嘘嘘汇集6| 99热这里只有精品一区 | 久久久久久国产a免费观看| 免费观看人在逋| 青草久久国产| 操出白浆在线播放| 成人三级做爰电影| 久久国产精品人妻蜜桃| 亚洲av中文字字幕乱码综合| 手机成人av网站| 老司机靠b影院| 精品久久久久久,| 国产精品一区二区三区四区久久| 久久久精品欧美日韩精品| 日日干狠狠操夜夜爽| 99精品久久久久人妻精品| 熟女少妇亚洲综合色aaa.| 正在播放国产对白刺激| 一本综合久久免费| 神马国产精品三级电影在线观看 | 亚洲国产中文字幕在线视频| 一本精品99久久精品77| 黑人操中国人逼视频| 久久久久久国产a免费观看| 天天添夜夜摸| 久久亚洲真实| e午夜精品久久久久久久| 亚洲av成人精品一区久久| 特级一级黄色大片| 色哟哟哟哟哟哟| 色综合亚洲欧美另类图片| 精品久久久久久久毛片微露脸| 亚洲精华国产精华精| 国产亚洲欧美98| 色综合婷婷激情| 午夜免费成人在线视频| 久久精品综合一区二区三区| 夜夜夜夜夜久久久久| 国产亚洲精品av在线| 午夜福利18| 午夜亚洲福利在线播放| www国产在线视频色| 色老头精品视频在线观看| 国产精品av视频在线免费观看| 18美女黄网站色大片免费观看| 国产激情久久老熟女| 欧美日韩瑟瑟在线播放| 日韩欧美精品v在线| 最近视频中文字幕2019在线8| 国产视频内射| 国产精品一区二区三区四区免费观看 | 手机成人av网站| 色老头精品视频在线观看| 日韩精品青青久久久久久| 国产一区二区在线av高清观看| 麻豆成人午夜福利视频| 中文字幕久久专区| 亚洲一区二区三区色噜噜| 99在线人妻在线中文字幕| 两性夫妻黄色片| 国产又黄又爽又无遮挡在线| 国产乱人伦免费视频| 国产三级中文精品| 男女床上黄色一级片免费看| 国产欧美日韩一区二区精品| 精品久久久久久久久久久久久| 国产精品免费视频内射| 男女做爰动态图高潮gif福利片| 亚洲精华国产精华精| www.精华液| 精品福利观看| 一a级毛片在线观看| 欧美一区二区国产精品久久精品 | 国产成人欧美在线观看| 欧美绝顶高潮抽搐喷水| 日韩欧美精品v在线| 91av网站免费观看| 狂野欧美激情性xxxx| 一本综合久久免费| 国产在线观看jvid| 国产一区二区三区在线臀色熟女| 制服诱惑二区| 精品国内亚洲2022精品成人| 悠悠久久av| 国产av不卡久久| 国产麻豆成人av免费视频| 丁香六月欧美| 12—13女人毛片做爰片一| 在线视频色国产色| 国产高清有码在线观看视频 | 男男h啪啪无遮挡| 波多野结衣高清无吗| 在线观看美女被高潮喷水网站 | 最近在线观看免费完整版| 亚洲精品av麻豆狂野| 午夜影院日韩av| 亚洲av第一区精品v没综合| 无人区码免费观看不卡| 亚洲 欧美一区二区三区| 国产精品久久久久久久电影 | 亚洲国产中文字幕在线视频| 小说图片视频综合网站| 亚洲国产看品久久| 一边摸一边抽搐一进一小说| 亚洲av成人精品一区久久| 亚洲专区国产一区二区| 久久天堂一区二区三区四区| 久久午夜亚洲精品久久| 国产1区2区3区精品| 天天躁夜夜躁狠狠躁躁| 长腿黑丝高跟| 1024手机看黄色片| netflix在线观看网站| 麻豆久久精品国产亚洲av| 国产黄a三级三级三级人| 美女 人体艺术 gogo| 国产亚洲精品av在线| 日韩免费av在线播放| 床上黄色一级片| 亚洲人成伊人成综合网2020| 亚洲av片天天在线观看| 久久久国产欧美日韩av| 大型av网站在线播放| 国内久久婷婷六月综合欲色啪| 国产精品99久久99久久久不卡| 日本 av在线| 1024视频免费在线观看| 亚洲欧洲精品一区二区精品久久久| 亚洲人成网站在线播放欧美日韩| 一进一出好大好爽视频| 制服诱惑二区| 国产亚洲精品一区二区www| 国产不卡一卡二| 这个男人来自地球电影免费观看| 精品国内亚洲2022精品成人| 麻豆久久精品国产亚洲av| 亚洲国产欧美人成| 亚洲欧美激情综合另类| 一级毛片高清免费大全| 亚洲成人中文字幕在线播放| 大型av网站在线播放| 最近最新中文字幕大全电影3| 午夜老司机福利片| 亚洲欧美一区二区三区黑人| 精品午夜福利视频在线观看一区| 午夜两性在线视频| 国产高清视频在线观看网站| 亚洲成人久久爱视频| 久久久久久久久中文| 欧美激情久久久久久爽电影| 18禁黄网站禁片免费观看直播| 国产高清有码在线观看视频 | 亚洲成av人片在线播放无| 午夜福利18| 精品久久久久久久末码| 最新美女视频免费是黄的| 岛国在线观看网站| 久久精品国产清高在天天线| a级毛片在线看网站| 制服人妻中文乱码| 亚洲精品中文字幕在线视频| 88av欧美| 啪啪无遮挡十八禁网站| 精品久久久久久久久久久久久| 国产亚洲av高清不卡| 亚洲精品美女久久久久99蜜臀| 无人区码免费观看不卡| 丁香六月欧美| ponron亚洲| 国产亚洲欧美在线一区二区| 久久久久性生活片| 欧美日韩国产亚洲二区| 男人舔女人下体高潮全视频| 99国产精品一区二区蜜桃av| 日本在线视频免费播放| 亚洲av五月六月丁香网| 久久精品夜夜夜夜夜久久蜜豆 | 国产真实乱freesex| 色综合欧美亚洲国产小说| 精品一区二区三区视频在线观看免费| 国产黄a三级三级三级人| 欧美色欧美亚洲另类二区| 欧美 亚洲 国产 日韩一| 欧美午夜高清在线| 色精品久久人妻99蜜桃| 中文字幕最新亚洲高清| 国产精品亚洲一级av第二区| 国产高清视频在线观看网站| 夜夜夜夜夜久久久久| 国产精品国产高清国产av| 变态另类丝袜制服| 国产v大片淫在线免费观看| 国产精品亚洲一级av第二区| 变态另类丝袜制服| 午夜福利成人在线免费观看| 日本熟妇午夜| 亚洲男人天堂网一区| aaaaa片日本免费| 国产精品国产高清国产av| 国产欧美日韩精品亚洲av| 精品无人区乱码1区二区| 免费无遮挡裸体视频| 极品教师在线免费播放| 免费在线观看日本一区| 不卡一级毛片| 亚洲狠狠婷婷综合久久图片| 精品久久蜜臀av无| 亚洲av成人不卡在线观看播放网| 1024视频免费在线观看| 国产成人精品久久二区二区免费| 欧美黄色片欧美黄色片| 久9热在线精品视频| 好看av亚洲va欧美ⅴa在| 亚洲片人在线观看| 欧美色视频一区免费| www日本在线高清视频| 99精品欧美一区二区三区四区| e午夜精品久久久久久久| 亚洲av中文字字幕乱码综合| 国产高清视频在线播放一区| 国产三级黄色录像| 久久久久国产一级毛片高清牌| 免费在线观看影片大全网站| 久久人妻福利社区极品人妻图片| 精品一区二区三区av网在线观看| 亚洲成人精品中文字幕电影| 日韩三级视频一区二区三区| e午夜精品久久久久久久| 熟妇人妻久久中文字幕3abv| 日本黄大片高清| 国产成人精品久久二区二区91| 国产激情偷乱视频一区二区| 亚洲国产看品久久| 成人av在线播放网站| 亚洲一区中文字幕在线| 久久精品综合一区二区三区| 欧美一级毛片孕妇| 精品电影一区二区在线| 免费人成视频x8x8入口观看| 免费在线观看日本一区| 午夜福利18| 99精品久久久久人妻精品| 在线观看免费视频日本深夜| 国产一区二区在线av高清观看| 欧美日韩亚洲国产一区二区在线观看| 国产精品综合久久久久久久免费| 免费搜索国产男女视频| 男男h啪啪无遮挡| 天天躁狠狠躁夜夜躁狠狠躁| 午夜福利视频1000在线观看| 国产伦在线观看视频一区| 88av欧美| 国产精品永久免费网站| 久久久久亚洲av毛片大全| 国产精品一区二区三区四区久久| 国产成人一区二区三区免费视频网站| 一级黄色大片毛片| 日韩精品中文字幕看吧| 久久中文字幕人妻熟女| 国产探花在线观看一区二区| 搡老岳熟女国产| av国产免费在线观看| 久久九九热精品免费| 搡老熟女国产l中国老女人| 国产av一区二区精品久久| 免费在线观看黄色视频的| 老司机深夜福利视频在线观看| 国产精品久久久久久精品电影| 精品熟女少妇八av免费久了| 欧美性长视频在线观看| 日本精品一区二区三区蜜桃| 女人被狂操c到高潮| 精品一区二区三区视频在线观看免费| 国产精品精品国产色婷婷| 99精品在免费线老司机午夜| 国产又色又爽无遮挡免费看| 久久久国产成人免费| 国产亚洲精品一区二区www| 亚洲,欧美精品.| 性欧美人与动物交配| 日韩欧美 国产精品| 一本久久中文字幕| 欧美成人午夜精品| 亚洲av熟女| 中文资源天堂在线| 亚洲国产欧洲综合997久久,| 亚洲av电影不卡..在线观看| 国产高清视频在线播放一区| 我要搜黄色片| 夜夜躁狠狠躁天天躁| 国产精品久久久人人做人人爽| 热99re8久久精品国产| 欧美三级亚洲精品| 欧美zozozo另类| 看片在线看免费视频| 久久久水蜜桃国产精品网| 黄色丝袜av网址大全| 18禁黄网站禁片免费观看直播| 欧美色欧美亚洲另类二区| 精品国产超薄肉色丝袜足j| av视频在线观看入口| 午夜日韩欧美国产| 亚洲av成人av| 亚洲欧美日韩高清在线视频| av在线播放免费不卡| 久久草成人影院| 欧美日本亚洲视频在线播放| 免费在线观看亚洲国产| 一进一出抽搐gif免费好疼| 真人一进一出gif抽搐免费| 久久久久久免费高清国产稀缺| 国产成人影院久久av| 亚洲精品一卡2卡三卡4卡5卡| 啪啪无遮挡十八禁网站| 777久久人妻少妇嫩草av网站| 搡老妇女老女人老熟妇| 亚洲一区二区三区不卡视频| 听说在线观看完整版免费高清| 国产激情偷乱视频一区二区| 99在线人妻在线中文字幕| 午夜久久久久精精品| 国产高清激情床上av| 午夜福利成人在线免费观看| 日韩欧美精品v在线| 欧美中文日本在线观看视频| 亚洲自拍偷在线| 日本撒尿小便嘘嘘汇集6| 国产精品影院久久| 免费在线观看亚洲国产| 欧美一区二区精品小视频在线| av福利片在线| 老熟妇仑乱视频hdxx| 真人一进一出gif抽搐免费| 亚洲一区二区三区色噜噜| av福利片在线| 好男人电影高清在线观看| 亚洲人与动物交配视频| 精品电影一区二区在线| 无人区码免费观看不卡| 此物有八面人人有两片| 欧美日韩福利视频一区二区| 欧美一区二区精品小视频在线| 99在线视频只有这里精品首页| 欧美日韩黄片免| 在线观看日韩欧美| 麻豆久久精品国产亚洲av| tocl精华| 国产一级毛片七仙女欲春2| www.www免费av| 日韩中文字幕欧美一区二区| 亚洲精品久久国产高清桃花| 欧美日韩精品网址| 啪啪无遮挡十八禁网站| 国产乱人伦免费视频| 岛国在线免费视频观看| 白带黄色成豆腐渣| 精品久久久久久久末码| 亚洲av五月六月丁香网| 夜夜爽天天搞| 欧美不卡视频在线免费观看 | 99热这里只有精品一区 | 欧美不卡视频在线免费观看 | 韩国av一区二区三区四区| 久久香蕉国产精品| 精品高清国产在线一区| 欧美性猛交╳xxx乱大交人| 午夜日韩欧美国产| 色综合站精品国产| 一级毛片女人18水好多| 男女下面进入的视频免费午夜| 欧美黄色淫秽网站| 最好的美女福利视频网| 免费在线观看成人毛片| 老司机靠b影院| 久久久国产成人免费| 国产一区二区三区视频了| 久久久久国内视频| 三级男女做爰猛烈吃奶摸视频| 亚洲aⅴ乱码一区二区在线播放 | 欧美黑人巨大hd| 黄色a级毛片大全视频| 变态另类丝袜制服| 91在线观看av| 搡老妇女老女人老熟妇| 国产精品乱码一区二三区的特点| 我要搜黄色片| 久热爱精品视频在线9| 99在线视频只有这里精品首页| 精品电影一区二区在线| 非洲黑人性xxxx精品又粗又长| 一区二区三区高清视频在线| 久久久久性生活片| 色噜噜av男人的天堂激情| 色av中文字幕| 少妇被粗大的猛进出69影院| 精品久久久久久久久久久久久| 国产精品一及| 国产1区2区3区精品| 午夜亚洲福利在线播放| 久久久久免费精品人妻一区二区| 夜夜爽天天搞| 亚洲成人久久性| 亚洲欧美激情综合另类| 亚洲国产精品999在线| 午夜久久久久精精品| 日韩三级视频一区二区三区| 亚洲成av人片在线播放无| 黄色视频,在线免费观看| 欧美性长视频在线观看| 一个人观看的视频www高清免费观看 | 久久久久久人人人人人| 国产熟女午夜一区二区三区| 午夜福利高清视频| 亚洲欧美激情综合另类| 亚洲美女黄片视频| 亚洲avbb在线观看| 国产欧美日韩一区二区三| 亚洲欧美精品综合久久99| 在线观看一区二区三区| 正在播放国产对白刺激| 99精品欧美一区二区三区四区| 一级毛片女人18水好多| 亚洲,欧美精品.| 99精品在免费线老司机午夜| 免费看美女性在线毛片视频| 国语自产精品视频在线第100页| 又大又爽又粗| 亚洲成人免费电影在线观看| 久99久视频精品免费|