• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    強化學(xué)習(xí)算法在超視距空戰(zhàn)輔助決策上的應(yīng)用研究

    2021-08-05 09:20:25吳宜珈賴俊陳希亮曹雷徐鵬
    航空兵器 2021年2期
    關(guān)鍵詞:人工智能

    吳宜珈 賴俊 陳希亮 曹雷 徐鵬

    摘要:針對近端策略優(yōu)化算法在空戰(zhàn)智能決策過程中面臨的動作空間過大、難收斂等問題,提出基于option的近端策略分層優(yōu)化算法,構(gòu)建了基于強化學(xué)習(xí)的空戰(zhàn)智能決策模型框架,并在超視距空戰(zhàn)仿真模型中進行了對抗性實驗并可視化。實驗結(jié)果表明,近端策略分層優(yōu)化算法能夠驅(qū)動智能體在對抗過程中產(chǎn)生迂回攻擊等戰(zhàn)術(shù)行為,達到提升傳統(tǒng)算法性能和提高空戰(zhàn)博弈決策效率的目的。

    關(guān)鍵詞: 超視距空戰(zhàn);智能決策;人工智能;強化學(xué)習(xí);近端策略優(yōu)化算法;分層強化學(xué)習(xí)

    中圖分類號:TJ760; V271.4? 文獻標(biāo)識碼: A 文章編號: 1673-5048(2021)02-0055-07

    0 引? 言

    超視距空戰(zhàn)環(huán)境中,戰(zhàn)場態(tài)勢不斷變化,戰(zhàn)爭節(jié)奏不斷加快。傳統(tǒng)空戰(zhàn)中常用的影響圖法[1-3]、動態(tài)規(guī)劃法[4]、矩陣博弈法[5]、風(fēng)險決策法[6]、模糊推理法[7-11]等已不能滿足指揮員決策需要,空戰(zhàn)領(lǐng)域智能化發(fā)展需求與日俱增[12]。隨著人工智能技術(shù)的飛速發(fā)展,利用智能化方法輔助飛行員決策、奪取制空權(quán)在打贏信息化局部戰(zhàn)爭中的需求日趨迫切,空戰(zhàn)智能決策成為研究熱點[13-14]。

    強化學(xué)習(xí)作為人工智能技術(shù)的重要組成部分,在指揮控制系統(tǒng)中的應(yīng)用優(yōu)勢愈發(fā)突顯。2007年,DARPA開發(fā)DEEP GREEN系統(tǒng),平行仿真戰(zhàn)場態(tài)勢,預(yù)測戰(zhàn)局走向[15]。2016年,美國空軍實驗室將遺傳模糊樹(Genetic Fuzzy Trees,GFTs)方法應(yīng)用于ALPHA AI系統(tǒng),使系統(tǒng)具備充當(dāng)僚機、搜集情報、控制無人機群[16]等能力。同年,應(yīng)用強化學(xué)習(xí)算法對計算機生成兵力(Computer Generated Forces,CGFs)行為建模,開發(fā)新的獎勵函數(shù),使之可將擊敗曾經(jīng)對手時學(xué)到的知識應(yīng)用于擊敗下一個對手,從而學(xué)習(xí)到新戰(zhàn)術(shù)[17]。2017年,美國空軍Maven系統(tǒng)成功利用強化學(xué)習(xí)算法在智能采集單元中自動識別目標(biāo)運動,通過自主智能體實驗改進軍事仿真軟件行為建模方式,為決策應(yīng)用提供輔助[18]。2018年,智能化交互式問題解答系統(tǒng)MEADE應(yīng)用于美國空軍飛行員日常訓(xùn)練,為訓(xùn)練提供針對性輔助決策。同年10月,美國空軍在軍事演習(xí)中應(yīng)用SLATE訓(xùn)練系統(tǒng)實現(xiàn)航空兵在本場和異地開展分布式訓(xùn)練。2019年,美軍啟動 “智能僚機”、“空戰(zhàn)演進”和“機器飛行員”項目,旨在為飛行員提供智能僚機群作戰(zhàn)輔助和行動方案推薦,通過非侵入式手段對現(xiàn)有作戰(zhàn)系統(tǒng)進行無人化改裝。同年,模擬人類知識的更新和存儲機制改造智能空戰(zhàn)學(xué)習(xí)系統(tǒng),設(shè)計了具有層次結(jié)構(gòu)的異步學(xué)習(xí)原理[19],將神經(jīng)網(wǎng)絡(luò)和人工勢場結(jié)合應(yīng)用于空戰(zhàn)協(xié)同博弈問題[20]。2020年,DARPA 發(fā)布“座艙內(nèi)機組自動化系統(tǒng)(ALIAS)”研究計劃,擬通過無人駕駛技術(shù)控制美國陸軍直升機,利用蒙特卡洛搜索樹算法進行推演式?jīng)Q策計算,通過智能虛擬陪練幫助飛行員完成復(fù)雜的戰(zhàn)術(shù)訓(xùn)練[21]。

    指揮控制系統(tǒng)的智能化水平?jīng)Q定未來戰(zhàn)爭的主動權(quán)[22],戰(zhàn)術(shù)決策是該系統(tǒng)的核心[23]。實踐證明,強化學(xué)習(xí)算法有效提升指揮控制系統(tǒng)智能性,為戰(zhàn)術(shù)決策系統(tǒng)在戰(zhàn)場信息搜集、處理、分析、決策等方面提供強大動力。目前,近端策略優(yōu)化算法是強化學(xué)習(xí)中性能最好的算法[24],但面對具體的超視距空戰(zhàn)決策問題仍面臨動作空間過大、不易收斂等問題。 現(xiàn)提出基于Option的近端策略分層優(yōu)化算法,通過在動作選擇過程中加入專家知識,智能提高決策博弈效率,輔助智能體學(xué)習(xí)空戰(zhàn)規(guī)則,豐富空戰(zhàn)過程戰(zhàn)術(shù)指向性。

    1 相關(guān)工作

    1.1 強化學(xué)習(xí)

    強化學(xué)習(xí)(Reinforcement Learning,RL)用于解決序貫決策問題[25-26],以使整個任務(wù)序列在當(dāng)前狀態(tài)下達到最優(yōu)為目的進行動作選擇。智能體不斷與環(huán)境交互,通過“試錯”機制和“利用-探索”平衡策略從環(huán)境中獲得實時反饋,根據(jù)反饋選擇相應(yīng)動作,繼而不斷調(diào)整參數(shù),最終選擇出最優(yōu)策略[27]。強化學(xué)習(xí)[28]過程主要有狀態(tài)、動作、轉(zhuǎn)移概率及獎賞函數(shù)四個要素,可用馬爾可夫決策過程(Markov Decision Process,MDP)描述:智能體處在環(huán)境中,狀態(tài)為智能體對當(dāng)前環(huán)境的感知,智能體通過執(zhí)行動作影響環(huán)境。在某一狀態(tài)下,當(dāng)智能體采取某一動作后,環(huán)境受影響根據(jù)轉(zhuǎn)移概率轉(zhuǎn)移至下一狀態(tài),同時依據(jù)獎賞函數(shù)給予智能體獎勵,如圖1所示。

    當(dāng)狀態(tài)維度和動作維度不斷提高,強化學(xué)習(xí)面臨難以遍歷所有情況、收斂慢、無法找到最優(yōu)策略的難題。有學(xué)者提出通過線性函數(shù)、核函數(shù)、神經(jīng)網(wǎng)絡(luò)等來近似表示值或策略的解決方法[29-30]。深度強化學(xué)習(xí)在強化學(xué)習(xí)中加入神經(jīng)網(wǎng)絡(luò),結(jié)合了強化學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)點[31],經(jīng)典近端策略優(yōu)化算法屬于深度強化學(xué)習(xí)算法。

    1.2 經(jīng)典近端策略優(yōu)化算法

    近端策略優(yōu)化算法(Proximal Policy Optimization Algorithms,PPO)[24] 是以信賴域策略優(yōu)化算法(Trust Region Policy Optimization,TRPO)[32] 為基礎(chǔ)的改進算法。

    TRPO算法通過對步長的合理選擇使回報函數(shù)的值在策略更新后單調(diào)增或不減,解決了策略梯度算法對迭代步長異常敏感的問題。PPO算法在TRPO算法的基礎(chǔ)上結(jié)合Actor-Critic架構(gòu),針對TRPO算法在懲罰時超參數(shù)β難以確定的問題,提出了自適應(yīng)確定超參數(shù)的方法:

    d=Et[KL[πθ,πθ′]]

    式中:θ為原網(wǎng)絡(luò)參數(shù);θ′為目標(biāo)網(wǎng)絡(luò)參數(shù)。

    PPO算法針對控制分布差距范圍優(yōu)化問題,采用裁剪函數(shù)

    clippθ(at|st)pθ′(at|st),1-ε,1+ε

    來避免完全施加硬約束。相對于TRPO算法,PPO算法降低了計算復(fù)雜性,彌補了TRPO算法計算效率低下的缺陷。

    近年,出現(xiàn)較多關(guān)于近端策略優(yōu)化算法性能改進的探討。PPO算法的近端特性導(dǎo)致不能完全消除推動策略退出的動機[33-34],所以不能嚴(yán)格限制概率比率。文獻[35]提出基于信任域的回滾PPO 算法(TR-PPO-RB),應(yīng)用一個負面激勵來防止在訓(xùn)練期間將策略推出,該算法結(jié)合了TRPO算法和PPO算法的優(yōu)點,易于與一階優(yōu)化相結(jié)合。由于 PPO算法和 TRPO 算法分別采用的兩種約束類型之間的固有差異而不能強制執(zhí)行信任區(qū)域約束,文獻[36]提出基于kronecker因子逼近的深度強化學(xué)習(xí)的可伸縮信賴域方法(ACKTR),擴展PG框架,利用帶信賴域的kronecker因子近似曲率(K-FAC) 對Actor-Critic進行優(yōu)化。文獻[33]發(fā)現(xiàn) PPO算法受局部最優(yōu)問題的困擾,衍生出基于概率比率的裁剪方法問題,并通過自適應(yīng)地調(diào)整由信任區(qū)域標(biāo)準(zhǔn)指導(dǎo)的裁剪范圍來解決此問題。文獻[37]提出DPPO算法,使用多個線程在不同的環(huán)境中并行PPO算法。

    1.3 分層強化學(xué)習(xí)

    分層強化學(xué)習(xí)(Hierarchical Reinforcement Learning,HRL)在強化學(xué)習(xí)的基礎(chǔ)上增加抽象機制,通過設(shè)立子任務(wù)把問題分解成具有層次結(jié)構(gòu)的子問題,是一種有效加強強化學(xué)習(xí)訓(xùn)練速率的層次結(jié)構(gòu)方法。分層強化學(xué)習(xí)可以通過馬爾可夫決策過程模型化,Option方法是典型的分層強化學(xué)習(xí)方法。

    Option由Sutton提出,通過擴展MDP原子動作將學(xué)習(xí)過程進行分層[38-39]。原子動作是第一層Option,原子動作集即Action集。Option可由專家系統(tǒng)離線寫入,也可在線生成。上層Option被定義為新的動作加入初始動作集中,通過調(diào)用下層Option或原子動作實現(xiàn)分層控制。Option可分為基于馬爾可夫決策過程的Option(Markov-Option)和基于半馬爾可夫決策過程的Option(Semi- Markov-Option)。

    馬爾可夫決策過程可用元組表達[40]:S為狀態(tài)集; A為動作集;P(s′|s,a)為狀態(tài)s下采取動作a之后,轉(zhuǎn)移到s′狀態(tài)的概率;R(s,a)為狀態(tài)s下采取動作a獲得的累積回報。γ是未來回報的折扣因子,是0到1之間的實數(shù)。半馬爾可夫決策過程將動作間隔時間設(shè)置為變量。Semi-Markov-Option可表示為三元組<,μ,β>。 μ:×0[0,1]為內(nèi)部策略。第一層Option<,μ,β>啟動后,根據(jù)μ選擇相應(yīng)動作或Option執(zhí)行。滿足終止條件β則完成選擇。被選中的Option可以根據(jù)自身策略選擇其他Option,如圖2所示。

    2 基于Option的近端策略分層優(yōu)化算法

    針對強化學(xué)習(xí)在處理超視距空戰(zhàn)博弈問題時面臨的動作空間大、難以收斂、獎勵稀疏等共性問題[41],提出了基于Option的近端策略分層優(yōu)化算法(Proximal Policy Hierarchical Optimization Algorithm,PPHO),優(yōu)化空戰(zhàn)決策過程中戰(zhàn)術(shù)性策略選擇過程,提高空戰(zhàn)決策效率。

    PPHO算法選用Semi-Markov模型對標(biāo)準(zhǔn)的近端策略優(yōu)化算法進行改進。用擴充后的馬爾科夫決策過程表示強化學(xué)習(xí)過程,M為過程的Option空間,D為初始的狀態(tài)分布。PPHO算法動作選擇過程為:第一步根據(jù)狀態(tài)選擇合適的Option,第二步根據(jù)Option選擇合適的動作。PPHO算法利用Option有效增強動作選擇過程的專業(yè)指向性,提高動作選擇效率。

    空戰(zhàn)原子動作集中每一動作均為基本Option,在此基礎(chǔ)上,根據(jù)問題實際情況設(shè)置復(fù)雜Option。復(fù)雜Option包含為完成特定目的根據(jù)專家系統(tǒng)知識做出的動作序列,算法結(jié)構(gòu)如圖3所示。

    PPHO算法流程為

    (1) 接受初始觀察狀態(tài)S1;

    (2) θ′=θ+αΔθJ;

    (3) For n=1,2,…,n do;

    (4) 將s輸入 Actor的目標(biāo)網(wǎng)絡(luò),構(gòu)建正態(tài)分布,fθ(s)=A;

    (5) 將action輸入environment得到獎勵r_和下一步狀態(tài)s_,存儲[s,a,r];

    (6) 將s_輸入到critic網(wǎng)絡(luò)中,得到狀態(tài)的v_值,計算折扣獎勵;

    (7) 將s_輸入Actor的目標(biāo)網(wǎng)絡(luò)中;

    (8) End for;

    (9) 將存儲的所有s組合輸入到critic網(wǎng)絡(luò)中,得到所有狀態(tài)的V_值,計算At;

    (10) 求解損失函數(shù),反向傳播更新critic網(wǎng)絡(luò);

    (11) 將(3)的結(jié)果輸入Option層;

    (12) If Option=1,2,…,N then;

    (13) Action=原子動作序列;

    (14) 將結(jié)果輸入Actor的原網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò);

    (15) 計算裁剪函數(shù)clippθ(at|st)pθ′(at|st),1-ε,1+ε,更新Actor的目標(biāo)網(wǎng)絡(luò);

    (16) 循環(huán)算法第(12)~(15)步;

    (17) 更新Actor的原網(wǎng)絡(luò);

    (18) 結(jié)束。

    PPHO算法謀求更加高效解決超視距空戰(zhàn)問題中針對性制定決策等問題,同時在策略選擇過程中結(jié)合傳統(tǒng)經(jīng)典戰(zhàn)術(shù)進一步豐富戰(zhàn)術(shù)智能。PPHO算法通過向PPO算法中引入分層思想加入領(lǐng)域知識,引導(dǎo)智能體脫離盲目搜索、提高學(xué)習(xí)效率,大大提高算法收斂速度。

    3 基于強化學(xué)習(xí)的空戰(zhàn)智能決策模型構(gòu)建

    3.1 空戰(zhàn)決策狀態(tài)空間

    通過狀態(tài)空間對戰(zhàn)場態(tài)勢進行描述,基礎(chǔ)狀態(tài)集有:速度、海拔、重力、垂直速度、方向、推力、彈藥、燃油、質(zhì)量、空氣密度、壓強和溫度。

    3.2 空戰(zhàn)決策動作空間

    基礎(chǔ)的原子動作集有:向前直線飛行,向左飛行,向右飛行,提升飛機高度,降低飛機高度。實驗初步預(yù)設(shè)9個Option,通過IF-THEN規(guī)則關(guān)系描述飛機Option到動作的映射關(guān)系,如表1所示。后期的訓(xùn)練過程中,隨著戰(zhàn)術(shù)理論的發(fā)展,Option數(shù)量可機動增加,及時適應(yīng)新戰(zhàn)術(shù)博弈需要。

    3.3 回報函數(shù)設(shè)計

    (1) 當(dāng)Agent未感知到環(huán)境威脅時,reward+=1/dis(agent,target):引導(dǎo)Agent飛向目標(biāo)進行交戰(zhàn);

    (2) 超出交戰(zhàn)空域,reward-=10:引導(dǎo)Agent在交戰(zhàn)空域內(nèi);

    (3) 命中目標(biāo),reward+=2:引導(dǎo)Agent發(fā)射導(dǎo)彈;

    (4) 被目標(biāo)擊中,reward-=10:引導(dǎo)Agent避免進入敵方不可逃逸區(qū);

    (5) 被敵方鎖定后,逃脫導(dǎo)彈成功,reward+=1,引導(dǎo)Agent學(xué)習(xí)導(dǎo)彈規(guī)避動作。

    3.4 決策模型構(gòu)建

    構(gòu)建基于強化學(xué)習(xí)的空戰(zhàn)仿真指揮控制模型,如圖4所示。

    智能決策系統(tǒng)代表強化學(xué)習(xí)過程中智能體的角色,利用傳感器、探測器等設(shè)備感知當(dāng)前戰(zhàn)場態(tài)勢信息。決策系統(tǒng)利用自身目前已掌握的經(jīng)驗和知識,對當(dāng)前戰(zhàn)場態(tài)勢進行判斷,同時結(jié)合強化學(xué)習(xí)所學(xué)得的策略,在動作空間中對飛行控制、航電系統(tǒng)、火力控制等方面進行相應(yīng)的選擇。戰(zhàn)場環(huán)境狀態(tài)收到動作的影響后,轉(zhuǎn)移到新的狀態(tài),同時給予智能決策系統(tǒng)一個即時效果反饋,決策系統(tǒng)根據(jù)效果反饋和當(dāng)前戰(zhàn)場態(tài)勢,調(diào)整自身強化學(xué)習(xí)策略并進行下一次動作選擇。結(jié)合近端策略分層優(yōu)化算法的空戰(zhàn)智能決策模型訓(xùn)練過程如圖5所示。

    4 面向超視距空戰(zhàn)模型的近端策略分層優(yōu)化算法仿真實驗

    4.1 實驗場景設(shè)置

    現(xiàn)有的空戰(zhàn)仿真實驗因?qū)嶋H問題的復(fù)雜性和仿真效能的限制大多將問題抽象成簡單模型,簡化空戰(zhàn)決策過程,降低了系統(tǒng)對飛行員決策的參考意義。本實驗選用在Unity平臺安裝ML-Agents插件為背景進行超視距智能化空戰(zhàn)模擬仿真實驗,構(gòu)建空戰(zhàn)仿真環(huán)境,對超視距空戰(zhàn)博弈問題進行3D仿真。

    ML-Agents是Unity支持的處理連續(xù)問題的開源插件,用于Agent在模擬環(huán)境中的訓(xùn)練。ML-Agents提供基于TensorFlow的算法實現(xiàn)方式,包含2D,3D 和 VR/AR的實驗環(huán)境。

    ML-Agents包含三個高級組件:

    (1)Learning Environment:包含 Unity 場景和所有角色,可分為三個組件:Agent,可以被附加到場景中的任何角色上,負責(zé)生成觀測結(jié)果、執(zhí)行接收動作,并適時分配正/負獎勵。Brain,封裝 Agent 的決策邏輯。Academy,指揮 Agent 的觀測和決策過程。

    (2)Python API:包含訓(xùn)練的所有機器學(xué)習(xí)算法。

    (3)External Communicator:將Learning Environment與 Python API 連接起來。

    實驗運用PPHO 算法指導(dǎo)紅方飛機進行機動。PPHO算法包含于Python API 組件中,通過External Communicator與 Learning Environment中的紅方智能體相連,使紅方智能體在學(xué)習(xí)型Brain的指導(dǎo)下學(xué)習(xí)算法策略。Learning Environment中的Academy組件負責(zé)指揮智能體的觀測和決策過程。ML-Agents環(huán)境中PPHO算法應(yīng)用框架如圖6所示。

    基于Unity平臺,實驗場景設(shè)置為100 km×100 km,設(shè)置紅藍雙方飛機探測性能50 km,射程10 km,同時對飛機速度、海拔、重力、垂直速度、方向、功效、推力、彈藥、燃油、重量、空氣密度、壓強、溫度等參數(shù)進行實時監(jiān)控調(diào)整。在仿真環(huán)境中既可以通過規(guī)則制定紅藍雙方的作戰(zhàn)行動序列,也可以通過快速博弈對抗產(chǎn)生大量數(shù)據(jù)訓(xùn)練決策模型的方式進行,實驗場景如圖7所示。

    4.2 定義任務(wù)想定

    紅藍雙方使用同等戰(zhàn)機型號。雙方在指定對抗空域內(nèi),自由空戰(zhàn)。藍方為規(guī)則驅(qū)動,當(dāng)未感知到威脅時,在預(yù)設(shè)交戰(zhàn)空域內(nèi)巡邏,一旦感知到威脅,殲滅紅方威脅,目標(biāo)丟失后,繼續(xù)巡邏搜索。紅方任務(wù)為取得預(yù)設(shè)空域制空權(quán),擊落敵機。

    4.3 決策模型更新方法

    智能體學(xué)習(xí)主要包括離線訓(xùn)練和在線使用兩部分。通過離線訓(xùn)練得到強化學(xué)習(xí)的決策網(wǎng)絡(luò),然后進行“自主對抗”,優(yōu)化決策網(wǎng)絡(luò)。使用“自主對抗”產(chǎn)生的數(shù)據(jù)訓(xùn)練態(tài)勢評估網(wǎng)絡(luò),訓(xùn)練好的態(tài)勢評估網(wǎng)絡(luò)能夠?qū)?zhàn)場態(tài)勢進行評估,對決策方案的作戰(zhàn)效能進行預(yù)測。

    在離線訓(xùn)練階段,智能決策模型為紅方智能體提供動作選擇,藍方智能體基于規(guī)則驅(qū)動,紅藍雙方進行對抗。將戰(zhàn)場態(tài)勢信息等交戰(zhàn)數(shù)據(jù)轉(zhuǎn)換成狀態(tài)向量存儲于記憶單元中,從記憶單元中采樣數(shù)據(jù)對新舊策略價值網(wǎng)絡(luò)進行訓(xùn)練,經(jīng)過Option層輸出相應(yīng)行為序列,對紅方飛機速度、航向、航電系統(tǒng)、火力控制等參數(shù)設(shè)置進行更新,進一步提高對抗水平,產(chǎn)生更高質(zhì)量的交戰(zhàn)數(shù)據(jù)用于策略價值網(wǎng)絡(luò)的訓(xùn)練。學(xué)得的策略價值網(wǎng)絡(luò)即作為當(dāng)前作戰(zhàn)仿真環(huán)境下的博弈對抗行為模型,進行在線部署。

    對戰(zhàn)回合數(shù)以200為限,基礎(chǔ)點數(shù)均為100。每回合開始,飛機位置隨機分配,交戰(zhàn)過程根據(jù)動作選擇損失相應(yīng)點數(shù),點數(shù)歸零,回合結(jié)束。下一回合開始,系統(tǒng)初始化。實驗主要根據(jù)點數(shù)比分判斷回合勝負,通過比較算法收斂速度和變化率進行算法優(yōu)劣對比。

    4.4 仿真實驗結(jié)果分析

    針對實驗效果和收斂速度兩方面對當(dāng)前訓(xùn)練階段算法效能進行評價。通過累計回報和損失函數(shù)的對比進行具體論述。累計回報是智能體在采取相應(yīng)動作之后,環(huán)境反饋的累計獎勵,實驗效果如圖8所示。

    實驗數(shù)據(jù)統(tǒng)計時,取最近10次訓(xùn)練模型的測試?yán)塾嫽貓笾?,偏差小?.5%,認(rèn)為該算法已經(jīng)達到穩(wěn)定收斂。PPHO算法在1.1×105步長的訓(xùn)練后趨于穩(wěn)定,PPO算法在1.6×105步長的訓(xùn)練后趨于穩(wěn)定。PPHO算法累計回報值達到與PPO算法同樣高度,證明PPHO算法在效果上同樣達到了PPO算法的高水平。對訓(xùn)練數(shù)據(jù)進行統(tǒng)計分析:PPHO算法訓(xùn)練數(shù)據(jù)均值為1.50,方差為0.39。 PPO算法訓(xùn)練數(shù)據(jù)均值為1.12,方差為1.10。PPHO算法與PPO算法均值相近,方差相差較大,說明算法的改進起到了穩(wěn)定提升訓(xùn)練速度的作用。

    損失函數(shù)計算訓(xùn)練樣本的誤差,評估算法對數(shù)據(jù)的建模程度。若實際結(jié)果與預(yù)測值相差較大 ,損失函數(shù)也會相應(yīng)變大。算法優(yōu)化后,損失函數(shù)不斷減小預(yù)測值的誤差。實驗效果如圖9所示,PPHO算法初始狀態(tài)損耗值小于經(jīng)典PPO算法損耗值的一半。訓(xùn)練過程中,PPHO算法正向損耗值均小于PPO算法,實驗效果優(yōu)于PPO算法。收斂速度上,PPHO算法先于PPO算法達到穩(wěn)定狀態(tài),最終結(jié)果趨近于0。

    實驗結(jié)果顯示:在訓(xùn)練期間,PPHO算法較PPO算法展現(xiàn)出了更加優(yōu)越的性能。

    利用訓(xùn)練好的模型驅(qū)動飛機2v2自由空戰(zhàn),同時取1.1×105步長訓(xùn)練后的模型作為測試對象??梢暬砻?,PPO算法在1.1×105步長訓(xùn)練后飛機仍采用直接攻擊的策略,如圖10所示。通過探索-利用與仿真環(huán)境交互產(chǎn)生動作,由于動作本身沒有明確的戰(zhàn)術(shù)意義,學(xué)習(xí)的代價是大量不符合戰(zhàn)術(shù)規(guī)則的動作導(dǎo)致任務(wù)失敗。但PPHO算法訓(xùn)練得到的模型驅(qū)動的飛機在面對敵方正面攻擊的情況時,能夠以顯式的戰(zhàn)術(shù)機動優(yōu)化模型,表現(xiàn)出迂回攻擊的戰(zhàn)術(shù)行為,如圖11所示。

    5 結(jié)? 論

    本文提出的PPHO算法通過專家指導(dǎo)增加戰(zhàn)術(shù)儲備,為超視距空戰(zhàn)仿真過程注入經(jīng)驗支持的戰(zhàn)術(shù)智能,達到加速學(xué)習(xí)過程的效果。實驗過程貼近實戰(zhàn),對增強戰(zhàn)斗機端到端的操作訓(xùn)練經(jīng)驗具有積極意義。實驗結(jié)果表明PPHO算法可有效提升輔助決策效率。

    下一步工作重點為:提升算法自學(xué)習(xí)能力,解決Option的內(nèi)容需要離線更新的問題??梢圆扇〉姆椒òǎ海?)結(jié)合規(guī)則驅(qū)動;借助少量規(guī)則提升強化學(xué)習(xí)的探索與利用效率,加速收斂。(2)結(jié)合元深度強化學(xué)習(xí); 對不同任務(wù)下歷史數(shù)據(jù)和訓(xùn)練參數(shù)優(yōu)化模式的充分利用,從一系列不同任務(wù)下歷史數(shù)據(jù)中尋找共性規(guī)律,提煉出一般性的知識,提升決策模型的泛化能力。(3)結(jié)合深度逆向強化學(xué)習(xí); 借助少量高質(zhì)量對抗樣本數(shù)據(jù)重構(gòu)回報函數(shù),加速強化學(xué)習(xí)。

    參考文獻:

    [1] Ji H M,Yu M J,Yang J Y. Research on the Air Combat Countermeasure Generation of Fighter Mid-Range Turn[C]∥ 2018 2nd International Conference on Artificial Intelligence Applications and Technologies (AIAAT2018),2018.

    [2] 孫永芹,孫濤,范洪達,等. 現(xiàn)代空戰(zhàn)機動決策研究[J]. 海軍航空工程學(xué)院學(xué)報,2009,24(5):573-577.

    Sun Yongqin,Sun Tao,F(xiàn)an Hongda,et al. Research on Maneuvering Decision for Modern Air Combat[J]. Journal of Naval Aeronautical and Astronautical University,2009,24(5):573-577. (in Chinese)

    [3] Pan Q,Zhou D Y,Huang J C,et al. Maneuver Decision for Cooperative Close-Range Air Combat Based on State Predicted Influence Diagram[C]∥? IEEE International Conference on Information and Automation(ICIA),2017:726-731.

    [4] 馬耀飛,馬小樂. 一種空戰(zhàn)智能決策方法研究[C]∥中國制導(dǎo)、導(dǎo)航與控制學(xué)術(shù)會議論文集,2014: 2249-2454.

    Ma Yaofei,Ma Xiaole.The Methods of Air Combat Intelligent Decision[C]∥Proceedings of IEEE Chinese Guidance,Navigation and Control Conference,2014: 2249-2454. (in Chinese)

    [5] 惠一楠,朱華勇,沈林成. 無人機攻防對抗不完全信息動態(tài)博弈方法研究[J]. 兵工自動化,2009,28(1):7-10.

    Hui Yinan,Zhu Huayong,Shen Lincheng. Study on Dynamic Game Method with Incomplete Information in UAV Attack-Defends Campaign[J].Ordnance Industry Automation,2009,28(1):7-10. (in Chinese)

    [6] 周思羽,吳文海,張楠.自主空戰(zhàn)機動決策方法綜述[J]. 航空計算技術(shù),2012,24(1):27-31.

    Zhou Siyu,Wu Wenhai,Zhang Nan. Overview of Autonomous Air Combat Maneuver Decision[J]. Aeronautical Computing Technique,2012,24(1):27-31.(in Chinese)

    [7] 張立鵬,魏瑞軒,李霞. 無人作戰(zhàn)飛機空戰(zhàn)自主戰(zhàn)術(shù)決策方法研究[J]. 電光與控制,2012,19(2):92-96.

    Zhang Lipeng,Wei Ruixuan,Li Xia. Autonomous Tactical Decision-Making of UCAVs in Air Combat[J]. Electronics Optics & Control,2012,19(2):92-96.(in Chinese)

    [8] 張磊. 無人作戰(zhàn)飛機自主決策技術(shù)研究[J]. 航空科學(xué)技術(shù),2014,25(5):49-53.

    Zhang Lei. Research on Autonomous Decision Making Technology of UCAV[J]. Aeronautical Science & Technology,2014,25(5):49-53.(in Chinese)

    [9] 唐傳林,黃長強,丁達理,等. 一種UCAV自主空戰(zhàn)智能戰(zhàn)術(shù)決策方法[J].指揮控制與仿真,2015,37(5):5-11.

    Tang Chuanlin,Huang Changqiang,Ding Dali,et al. A Method of Intelligent Tactical Decision Making for UCAV Autonomous Air Combat[J]. Command Control & Simulation,2015,37(5):5-11.(in Chinese)

    [10] Ma S D,Zhang H Z,Yang G Q. Target Threat Level Assessment Based on Cloud Model under Fuzzy and Uncertain Conditions in Air Combat Simulation[J]. Aerospace Science and Technology,2017,67:49-53.

    [11] Ernest N,Cohen K,Kivelevitch E,et al. Genetic Fuzzy Trees and Their Application towards Autonomous Training and Control of a Squadron of Unmanned Combat Aerial Vehicles[J]. Unmanned Systems,2015,3(3):185-204.

    [12] 鮮勇,李揚. 人工智能技術(shù)對未來空戰(zhàn)武器的變革與展望[J]. 航空兵器,2019,26(5): 26-31.

    Xian Yong,Li Yang. Revolution and Assumptions of Artificial Intelligence Technology for Air Combat Weapons in the Future[J]. Aero Weaponry,2019,26(5): 26-31.(in Chinese)

    [13] Ernest N,Garroll D,Schumacher C,et al. Genetic Fuzzy Based Artificial Intelligence for Unmanned Combat Aerial Vehicle Control in Simulated Air Combat Missions[J]. Journal of Defense Management,2016,6(1):1-7.

    [14] Yin Y F,Gong G H,Han L. An Approach to Pilot Air-Combat Behavior Assessment[J].Procedia Engineering,2011,15:4036-4040.

    [15] 胡曉峰,榮明. 作戰(zhàn)決策輔助向何處去——“深綠”計劃的啟示與思考[J]. 指揮與控制學(xué)報,2016,2(1):22-25.

    Hu Xiaofeng,Rong Ming. Where Do Operation Decision Support Systems Go: Inspiration and Thought on Deep Green Plan[J]. Journal of Command and Control,2016,2(1):22-25.(in Chinese)

    [16] 周光霞,周方.美軍人工智能空戰(zhàn)系統(tǒng)阿爾法初探[C]∥第六屆中國指揮控制大會論文集,2018.

    Zhou Guangxia,Zhou Fang. Analysis of Alpha AI for Air-to-Air Combat of US[C]∥Proceedings of 6th Command and Control Conference,2018.(in Chinese)

    [17] Toubman A,Roessingh J J,van Oijen J,et al. Modeling Behavior of Computer Generated Forces with Machine Learning Techniques,the NATO Task Group Approach[C]∥ IEEE International Conference on? Systems,Man,and Cybernetics(SMC), 2016.

    [18] Roessingh J J,Toubman A,van Oijen J,et al. Machine Learning Techniques for Autonomous Agents in Military Simulations-Multum in Parvo[C]∥IEEE International Conference on Systems,Man,and Cybernetics (SMC), 2017.

    [19] Zhou K,Wei R X,Xu Z F,et al. An Air Combat Decision Learning System Based on a Brain-Like Cognitive Mechanism[J]. Cognitive Computation,2019,12(4):128-139.

    [20] 張菁,何友,彭應(yīng)寧,等. 基于神經(jīng)網(wǎng)絡(luò)和人工勢場的協(xié)同博弈路徑規(guī)劃[J]. 航空學(xué)報,2019,40(3): 322493.

    Zhang Jing,He You,Peng Yingning,et al. Neural Network and Artificial Potential Field Based Cooperative and Adversarial Path Planning[J]. Acta Aeronautica et Astronautica Sinica,2019,40(3): 322493.(in Chinese)

    [21] 陳斌,王江,王陽. 戰(zhàn)斗機嵌入式訓(xùn)練系統(tǒng)中的智能虛擬陪練[J]. 航空學(xué)報,2020,41(6): 523467.

    Chen Bin,Wang Jiang,Wang Yang. Intelligent Virtual Training Partner in Embedded Training System of Fighter[J]. Acta Aeronautica et Astronautica Sinica,2020,41(6): 523467. (in Chinese)

    [22] 程運江,張程,趙日,等. 人工智能的發(fā)展及其在未來戰(zhàn)爭中的影響與應(yīng)用思考[J]. 航空兵器,2019,26(1): 58-62.

    Cheng Yunjiang,Zhang Cheng,Zhao Ri,et al. Development of Artificial Intelligence and Thoughts on Its Influence and Application in the Future War[J]. Aero Weaponry,2019,26(1): 58-62.(in Chinese)

    [23] 黃長強. 未來空戰(zhàn)過程智能化關(guān)鍵技術(shù)研究[J]. 航空兵器,2019,26(1): 11-19.

    Huang Changqiang. Research on Key Technology of Future Air Combat Process Intelligentization[J]. Aero Weaponry,2019,26(1): 11-19. (in Chinese)

    [24] Schulman J,Wolski F,Dhariwal P,et al. Proximal Policy Optimization Algorithms[EB/OL].(2017-08-28)[2020-05-10].https://arxiv.org/pdf/1707.06347.pdf

    [25] 杜正軍,陳超,姜鑫. 基于影響網(wǎng)絡(luò)與序貫博弈的作戰(zhàn)行動序列模型與求解[J]. 系統(tǒng)工程理論與實踐,2013,33(1):215-222.

    Du Zhengjun,Chen Chao,Jiang Xin. Modeling and Solution of Course of Action Based on Influence Net and Sequential Game[J]. System Engineering Theory and Practice,2013,33(1): 215-222. (in Chinese)

    [26] 張迎新,陳超,劉忠,等. 資源不確定軍事任務(wù)計劃預(yù)測調(diào)度模型與算法[J]. 國防科技大學(xué)學(xué)報,2013,35(3): 30-35.

    Zhang Yingxin,Chen Chao,Liu Zhong,et al. Method for Modeling and Solving Military Mission Planning with Uncertain Resource Availability[J]. Journal of National University of Defense Technology,2013,35(3): 30-35. (in Chinese)

    [27] 陳希亮,張永亮. 基于深度強化學(xué)習(xí)的陸軍分隊?wèi)?zhàn)術(shù)決策問題研究[J]. 軍事運籌與系統(tǒng)工程,2017,31(3):21-27.

    Chen Xiliang,Zhang Yongliang. Research on the Tactical Decision-Making Problem of Army Units Based on Deep Reinforcement Learning[J].Military Operations Research and Systems Engineering,2017,31(3):21-27.(in Chinese)

    [28] Richard S S,Andrew G B. Reinforcement Learning: An Introduction[M].London: MIT Press,1998.

    [29] Whiteson S,Stone P. Evolutionary Function Approximation for Reinforcement Learning[J]. Journal of Machine Learning Research,2006(7):877-917.

    [30] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programing[C]∥ Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.

    [31] 周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2015: 390-392.

    Zhou Zhihua. Machine Learning[M]. Beijing: Tsinghua University Press,2015:390-392. (in Chinese)

    [32] Schulman J,Levine S,Moritz P,et al. Trust Region Policy Optimization[EB/OL].(2015-02-19)[2020-05-10].https://arxiv.org/abs/1502.05477v2.

    [33] Wang Y H,He H,Tan X Y,et al.Trust Region-Guided Proximal Policy Optimization[EB/OL].(2019-11-08)[2020-05-10].https://arxiv.org/pdf/1901.10314.pdf.

    [34] Ilyas A,Engstrom L,Santurkar S,et al. Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? [EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v3.

    [35] Wang Y H,He H,Wen C,et al. A Closer Look at Deep Policy Gradients[EB/OL].(2018-11-06)[2020-05-10].https://arxiv.org/abs/1811.02553v4.

    [36] Wu Y H,Mansimov E,Liao S,et al. Scalable Trust Region Method for Deep Reinforcement Learning Using Kronecker-Factored Approximation[EB/OL].(2017-08-17)[2020-05-10].https://arxiv.org/abs/1708.05144v2.

    [37] Heess N,TB D,Sriram S,et al.Emergence of Locomotion Behaviors in Rich Environments[EB/OL].(2017-07-10)[2020-05-10].https://arxiv.org/pdf/1707.02286.pdf.

    [38] Sutton R S,Precup D,Singh S. Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning[J]. Artificial Intelligence,1999,112(1/2):181-211.

    [39] Mannor S,Menache I,Hoze A,et al. Dynamic Abstraction in Reinforcement Learning via Clustering[C]∥ Proceedings of the 21st International Conference on Machine Learning,2004: 560-567.

    [40] Preux P,Girgin S,Loth M. Feature Discovery in Approximate Dynamic Programming[C]∥Proceedings of IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning,2009:109-116.

    [41] Barto A G,Mahadevan S. Recent Advances in Hierarchical Reinforcement Learning[J].Discrete Event Dynamic Systems,2003,13 (4): 341-379.

    Research on the Application of Reinforcement Learning Algorithm in

    Decision Support of Beyond-Visual-Range Air Combat

    Wu Yijia1,2,Lai Jun1*,Chen Xiliang1,Cao Lei1,Xu Peng1,3

    (1. Army Engineering University of PLA,Nanjing 210000,China;2. Unit 32526 of PLA,Wuxi 214000,China;

    3.Unit 31102 of PLA,Nanjing 210000,China)

    Abstract:

    In order to solve? problems of the action selection space and the difficulty of convergence of traditional proximal policy optimization algorithm in air combat simulation,proximal policy hierarchical optimization algorithm is proposed. The framework of intelligent decision model of air combat based on reinforcement learning is constructed,and the antagonistic experiment is carried out and visualized. The experimental result shows that proximal policy hierarchical optimization algorithm could drive the agent to produce indirect attack and other tactical behaviors in the process of confrontation. The purpose of improving the performance of the traditional algorithm and decision-making efficiency of air combat is achieved.

    Key words: beyond-visual-range air combat; intelligent decision; artificial intelligence; reinforcement learning; proximal policy optimization algorithm; hierarchical reinforcement learning

    收稿日期:2020-05-11

    基金項目:國家自然科學(xué)基金項目(61806221);裝備發(fā)展部預(yù)研基金項目(61421010318);十三五全軍共用信息系統(tǒng)裝備預(yù)研項目(31505550302)

    作者簡介:吳宜珈(1993-),女,江蘇連云港人,助理工程師,研究方向為智能化指揮控制。

    通訊作者:賴?。?979-),男,江蘇南京人,副教授,研究方向為指揮信息系統(tǒng)、虛擬現(xiàn)實、模擬仿真和人工智能。

    猜你喜歡
    人工智能
    我校新增“人工智能”本科專業(yè)
    用“小AI”解決人工智能的“大”煩惱
    汽車零部件(2020年3期)2020-03-27 05:30:20
    當(dāng)人工智能遇見再制造
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    AI人工智能解疑答問
    人工智能與就業(yè)
    基于人工智能的電力系統(tǒng)自動化控制
    人工智能,來了
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    人工智能來了
    亚洲美女视频黄频| a 毛片基地| 国产久久久一区二区三区| 熟女av电影| 欧美精品一区二区大全| 精品久久久久久久久av| 麻豆成人午夜福利视频| 精品一品国产午夜福利视频| 人人妻人人澡人人爽人人夜夜| 国产极品天堂在线| 亚洲av电影在线观看一区二区三区| 精品一区二区三区视频在线| 欧美一级a爱片免费观看看| 九草在线视频观看| 男女下面进入的视频免费午夜| 一级二级三级毛片免费看| 精品久久久精品久久久| 亚洲不卡免费看| 熟女av电影| 日韩av不卡免费在线播放| 国产精品人妻久久久影院| 日韩成人av中文字幕在线观看| 在线 av 中文字幕| 97在线人人人人妻| 国产伦在线观看视频一区| 国产免费福利视频在线观看| 我的女老师完整版在线观看| 六月丁香七月| tube8黄色片| .国产精品久久| 少妇被粗大猛烈的视频| 美女内射精品一级片tv| 高清毛片免费看| 久久久久国产网址| 男女下面进入的视频免费午夜| 日本av手机在线免费观看| 国产中年淑女户外野战色| 久热这里只有精品99| 亚洲欧美一区二区三区黑人 | av又黄又爽大尺度在线免费看| 王馨瑶露胸无遮挡在线观看| 在线观看人妻少妇| 国产高潮美女av| 又粗又硬又长又爽又黄的视频| 欧美成人一区二区免费高清观看| av黄色大香蕉| 午夜福利在线观看免费完整高清在| 国产伦精品一区二区三区视频9| 国产成人免费无遮挡视频| 亚洲精品国产av蜜桃| 国产欧美亚洲国产| 精品人妻视频免费看| 五月玫瑰六月丁香| 国产成人精品婷婷| av一本久久久久| 一级毛片久久久久久久久女| 97热精品久久久久久| 美女福利国产在线 | 亚洲欧美精品专区久久| 少妇人妻一区二区三区视频| 国产精品国产三级国产av玫瑰| 精品一区在线观看国产| 久久久久久久精品精品| 国产黄片美女视频| 久久热精品热| 精品久久久久久电影网| 丰满乱子伦码专区| 午夜福利视频精品| 韩国av在线不卡| 国产色爽女视频免费观看| 亚洲精品一区蜜桃| 自拍欧美九色日韩亚洲蝌蚪91 | 人人妻人人澡人人爽人人夜夜| www.av在线官网国产| 精品熟女少妇av免费看| 亚洲欧美精品专区久久| 久久久久视频综合| 日本爱情动作片www.在线观看| 国产亚洲精品久久久com| 婷婷色av中文字幕| 夜夜爽夜夜爽视频| 国产在线免费精品| 交换朋友夫妻互换小说| 最黄视频免费看| 日本猛色少妇xxxxx猛交久久| 毛片一级片免费看久久久久| 老师上课跳d突然被开到最大视频| 国产高清不卡午夜福利| 亚洲av男天堂| 国产在视频线精品| 99热这里只有是精品50| av在线蜜桃| 各种免费的搞黄视频| 久久午夜福利片| av线在线观看网站| 大陆偷拍与自拍| 菩萨蛮人人尽说江南好唐韦庄| 亚洲色图综合在线观看| 国产精品久久久久久久久免| 少妇高潮的动态图| 美女国产视频在线观看| 99久久精品国产国产毛片| av在线app专区| 免费av不卡在线播放| 精品人妻视频免费看| 青青草视频在线视频观看| 青春草国产在线视频| 免费看不卡的av| 婷婷色麻豆天堂久久| 日韩av免费高清视频| 国产淫片久久久久久久久| 亚洲人成网站高清观看| 两个人的视频大全免费| 欧美精品国产亚洲| 久久人人爽人人片av| 赤兔流量卡办理| 亚洲av国产av综合av卡| 天堂8中文在线网| 国产无遮挡羞羞视频在线观看| 91精品一卡2卡3卡4卡| 亚洲av中文av极速乱| 五月玫瑰六月丁香| 久久精品国产亚洲网站| 日本黄色日本黄色录像| 久久精品久久久久久噜噜老黄| 嫩草影院新地址| 久久久久久久大尺度免费视频| 成人免费观看视频高清| 亚洲国产av新网站| 2021少妇久久久久久久久久久| 国产成人精品一,二区| 精品熟女少妇av免费看| 91久久精品国产一区二区三区| 亚洲精品日本国产第一区| 男人添女人高潮全过程视频| 国产爱豆传媒在线观看| 精品少妇久久久久久888优播| 亚洲精品456在线播放app| 国产成人一区二区在线| 日本与韩国留学比较| 一边亲一边摸免费视频| 国国产精品蜜臀av免费| 在线观看人妻少妇| 亚洲第一av免费看| 在线观看免费视频网站a站| 日韩国内少妇激情av| 三级国产精品欧美在线观看| 观看av在线不卡| 国产亚洲欧美精品永久| 亚洲aⅴ乱码一区二区在线播放| 国产成人aa在线观看| 亚洲图色成人| 亚洲欧美成人精品一区二区| 三级经典国产精品| 这个男人来自地球电影免费观看 | 女性生殖器流出的白浆| 亚洲av福利一区| 少妇人妻精品综合一区二区| av福利片在线观看| 亚洲精品国产成人久久av| 如何舔出高潮| 日本-黄色视频高清免费观看| 搡老乐熟女国产| 国产精品蜜桃在线观看| av网站免费在线观看视频| 欧美一区二区亚洲| 夜夜爽夜夜爽视频| 久久99蜜桃精品久久| 国产亚洲午夜精品一区二区久久| 一级毛片久久久久久久久女| 日韩欧美 国产精品| 91午夜精品亚洲一区二区三区| 各种免费的搞黄视频| 人人妻人人添人人爽欧美一区卜 | 成年人午夜在线观看视频| 国产成人免费观看mmmm| 日韩制服骚丝袜av| 91狼人影院| 亚洲精华国产精华液的使用体验| 免费高清在线观看视频在线观看| 夫妻午夜视频| 色婷婷久久久亚洲欧美| 亚洲第一av免费看| 免费观看在线日韩| 亚洲一级一片aⅴ在线观看| 亚洲国产最新在线播放| 亚洲精品乱码久久久v下载方式| 免费看光身美女| 国产真实伦视频高清在线观看| a级毛片免费高清观看在线播放| 老司机影院成人| 国产大屁股一区二区在线视频| 成人亚洲欧美一区二区av| 亚洲内射少妇av| 欧美 日韩 精品 国产| 寂寞人妻少妇视频99o| 久久影院123| 极品少妇高潮喷水抽搐| 久久99蜜桃精品久久| 插阴视频在线观看视频| 日韩成人伦理影院| 在线观看三级黄色| 久久99热6这里只有精品| 久久女婷五月综合色啪小说| 国产精品精品国产色婷婷| 99久久人妻综合| 亚洲激情五月婷婷啪啪| 大片免费播放器 马上看| 日韩欧美一区视频在线观看 | 久久久久视频综合| 香蕉精品网在线| 日本-黄色视频高清免费观看| 在线观看美女被高潮喷水网站| 乱码一卡2卡4卡精品| 亚洲精品日韩在线中文字幕| 欧美日韩国产mv在线观看视频 | 一二三四中文在线观看免费高清| 免费人成在线观看视频色| 久久精品国产自在天天线| 日韩亚洲欧美综合| 成人高潮视频无遮挡免费网站| 久久久国产一区二区| 狠狠精品人妻久久久久久综合| 成人毛片a级毛片在线播放| 女人十人毛片免费观看3o分钟| 国产免费又黄又爽又色| 亚洲av男天堂| 99热这里只有精品一区| 亚洲美女黄色视频免费看| 美女cb高潮喷水在线观看| 尾随美女入室| 麻豆国产97在线/欧美| 在线亚洲精品国产二区图片欧美 | av福利片在线观看| 人人妻人人添人人爽欧美一区卜 | 少妇人妻久久综合中文| 如何舔出高潮| 中文字幕av成人在线电影| 国产免费一区二区三区四区乱码| 亚洲在久久综合| 久久人人爽人人爽人人片va| 观看免费一级毛片| 精品国产乱码久久久久久小说| 在现免费观看毛片| 精品酒店卫生间| 91久久精品国产一区二区三区| 中文在线观看免费www的网站| 国产午夜精品久久久久久一区二区三区| 热99国产精品久久久久久7| 国产成人freesex在线| 久久人人爽人人爽人人片va| 一个人免费看片子| www.色视频.com| 免费看av在线观看网站| 久久久午夜欧美精品| 我要看黄色一级片免费的| 看免费成人av毛片| 观看美女的网站| 精品一区二区三卡| 亚洲av男天堂| 国产精品蜜桃在线观看| 亚洲精品日韩在线中文字幕| 国产精品久久久久久精品电影小说 | 一区二区三区精品91| 我要看黄色一级片免费的| 大香蕉久久网| 久久精品久久精品一区二区三区| 人人妻人人爽人人添夜夜欢视频 | 日韩成人av中文字幕在线观看| 亚洲国产毛片av蜜桃av| 欧美精品一区二区大全| 久久热精品热| 伦理电影大哥的女人| 日韩不卡一区二区三区视频在线| 久久国产亚洲av麻豆专区| 又爽又黄a免费视频| 欧美三级亚洲精品| 欧美另类一区| 亚洲成人一二三区av| 国产在线免费精品| 亚洲一级一片aⅴ在线观看| a 毛片基地| 99国产精品免费福利视频| www.色视频.com| 在线免费十八禁| 久久av网站| 一区二区av电影网| 亚洲国产精品成人久久小说| 91精品一卡2卡3卡4卡| 久久精品国产自在天天线| 免费观看的影片在线观看| 国产av一区二区精品久久 | 国产男人的电影天堂91| 国产亚洲一区二区精品| 久久鲁丝午夜福利片| 一级毛片电影观看| 久久久精品免费免费高清| 一本色道久久久久久精品综合| 国产欧美日韩一区二区三区在线 | 日韩欧美 国产精品| 插阴视频在线观看视频| 熟女电影av网| 亚洲精品国产av成人精品| 看免费成人av毛片| 久久97久久精品| av视频免费观看在线观看| 国产精品偷伦视频观看了| 国产欧美另类精品又又久久亚洲欧美| 欧美日韩在线观看h| 视频中文字幕在线观看| 国产日韩欧美亚洲二区| 欧美xxⅹ黑人| 激情 狠狠 欧美| 精品99又大又爽又粗少妇毛片| 永久网站在线| 国产精品女同一区二区软件| 久久久久久久久久久丰满| 日韩欧美 国产精品| 视频中文字幕在线观看| 高清在线视频一区二区三区| 国产爱豆传媒在线观看| 久久97久久精品| 国产成人a区在线观看| 国产视频内射| 国产av精品麻豆| 一二三四中文在线观看免费高清| 亚洲中文av在线| 久久99热这里只频精品6学生| 日韩成人伦理影院| 美女xxoo啪啪120秒动态图| 少妇的逼水好多| 色哟哟·www| 中文字幕久久专区| 有码 亚洲区| 男女无遮挡免费网站观看| 日韩大片免费观看网站| 涩涩av久久男人的天堂| 亚洲av.av天堂| 香蕉精品网在线| 深夜a级毛片| 性色av一级| 欧美亚洲 丝袜 人妻 在线| 少妇 在线观看| 交换朋友夫妻互换小说| 日韩 亚洲 欧美在线| 高清黄色对白视频在线免费看 | 久久人人爽人人片av| 在线观看av片永久免费下载| 免费黄色在线免费观看| 汤姆久久久久久久影院中文字幕| 麻豆乱淫一区二区| 日本与韩国留学比较| 三级国产精品片| 国产黄色免费在线视频| 久久精品久久久久久久性| av在线观看视频网站免费| 秋霞在线观看毛片| 亚洲真实伦在线观看| 一级黄片播放器| freevideosex欧美| 99热这里只有是精品在线观看| 日产精品乱码卡一卡2卡三| 最近2019中文字幕mv第一页| 91午夜精品亚洲一区二区三区| 国产成人aa在线观看| 久久热精品热| 99热这里只有是精品在线观看| 蜜臀久久99精品久久宅男| 久久精品国产亚洲网站| 国产 一区精品| 免费看日本二区| 精华霜和精华液先用哪个| 晚上一个人看的免费电影| 欧美日韩精品成人综合77777| 香蕉精品网在线| 国产一区二区在线观看日韩| 国产在线一区二区三区精| 草草在线视频免费看| 老熟女久久久| 日韩三级伦理在线观看| 在线观看免费视频网站a站| 多毛熟女@视频| 人人妻人人看人人澡| 日韩强制内射视频| 精品少妇黑人巨大在线播放| 在线观看免费高清a一片| 一个人看的www免费观看视频| 亚洲婷婷狠狠爱综合网| 亚洲第一区二区三区不卡| 国产精品嫩草影院av在线观看| 我的老师免费观看完整版| 国产片特级美女逼逼视频| 永久免费av网站大全| 国产 精品1| 午夜福利高清视频| 建设人人有责人人尽责人人享有的 | 亚洲国产欧美在线一区| 在线观看免费视频网站a站| 欧美另类一区| 国产精品99久久久久久久久| 亚洲欧美日韩卡通动漫| 精品国产一区二区三区久久久樱花 | 97在线人人人人妻| 欧美精品国产亚洲| 国产精品人妻久久久久久| 丰满迷人的少妇在线观看| 色5月婷婷丁香| 超碰av人人做人人爽久久| 一个人看视频在线观看www免费| 久久97久久精品| 一个人看的www免费观看视频| 国模一区二区三区四区视频| 久久人妻熟女aⅴ| 国产精品久久久久久精品电影小说 | 99久久综合免费| 色网站视频免费| 我要看黄色一级片免费的| 在线看a的网站| 亚洲欧美一区二区三区国产| 国产一区二区三区av在线| 纯流量卡能插随身wifi吗| 亚洲国产av新网站| 日韩视频在线欧美| 中国国产av一级| 不卡视频在线观看欧美| 成人无遮挡网站| 大话2 男鬼变身卡| 免费在线观看成人毛片| 美女主播在线视频| 乱码一卡2卡4卡精品| 国产成人精品婷婷| 中文资源天堂在线| 91精品伊人久久大香线蕉| 看十八女毛片水多多多| 偷拍熟女少妇极品色| 天美传媒精品一区二区| av女优亚洲男人天堂| 内射极品少妇av片p| 一边亲一边摸免费视频| 黄色视频在线播放观看不卡| 国产精品一区二区三区四区免费观看| 国产精品国产三级国产av玫瑰| av不卡在线播放| 国产一区二区三区综合在线观看 | 男女国产视频网站| 大又大粗又爽又黄少妇毛片口| 日日撸夜夜添| 欧美日韩亚洲高清精品| 国产精品成人在线| 下体分泌物呈黄色| 国产av码专区亚洲av| 美女内射精品一级片tv| 内射极品少妇av片p| 久久影院123| av视频免费观看在线观看| 自拍欧美九色日韩亚洲蝌蚪91 | 日韩欧美一区视频在线观看 | 国产视频内射| av国产精品久久久久影院| 性色av一级| 亚洲av日韩在线播放| 欧美区成人在线视频| 亚洲欧洲国产日韩| 国产黄色视频一区二区在线观看| 国产有黄有色有爽视频| 午夜福利视频精品| 国产在线视频一区二区| 国产高清国产精品国产三级 | 欧美日韩精品成人综合77777| 建设人人有责人人尽责人人享有的 | 亚洲av日韩在线播放| 国产在视频线精品| 少妇人妻久久综合中文| 免费黄网站久久成人精品| 日韩中字成人| 在线亚洲精品国产二区图片欧美 | a级一级毛片免费在线观看| 国产成人精品婷婷| 久热这里只有精品99| 精品少妇久久久久久888优播| 色网站视频免费| 下体分泌物呈黄色| 欧美日韩精品成人综合77777| 国产亚洲av片在线观看秒播厂| 免费av中文字幕在线| 国产一区二区三区综合在线观看 | 男人舔奶头视频| 一级黄片播放器| 亚洲精品,欧美精品| 久久精品久久久久久久性| 人人妻人人看人人澡| 91aial.com中文字幕在线观看| 三级国产精品片| 中文欧美无线码| 亚洲精品中文字幕在线视频 | 91狼人影院| 噜噜噜噜噜久久久久久91| 国产色婷婷99| 自拍欧美九色日韩亚洲蝌蚪91 | 老女人水多毛片| 99热网站在线观看| av在线app专区| 久久久成人免费电影| 欧美成人午夜免费资源| 深夜a级毛片| 一级av片app| 日本色播在线视频| 国产v大片淫在线免费观看| 免费观看a级毛片全部| 嘟嘟电影网在线观看| 亚洲欧美日韩无卡精品| 美女视频免费永久观看网站| av国产免费在线观看| 九九爱精品视频在线观看| 国产伦精品一区二区三区视频9| 国产在线一区二区三区精| 精品久久久久久电影网| av在线app专区| 一本色道久久久久久精品综合| 亚洲国产毛片av蜜桃av| 国产一区亚洲一区在线观看| 国产色爽女视频免费观看| xxx大片免费视频| 一级毛片aaaaaa免费看小| 少妇的逼好多水| av视频免费观看在线观看| 我要看日韩黄色一级片| 亚洲精品一二三| 亚洲精品国产色婷婷电影| 亚洲国产精品999| 最近中文字幕高清免费大全6| 国产在线免费精品| 久久6这里有精品| 国产男女超爽视频在线观看| 久久久久国产精品人妻一区二区| 九九久久精品国产亚洲av麻豆| 欧美变态另类bdsm刘玥| av国产久精品久网站免费入址| 国产黄色免费在线视频| 涩涩av久久男人的天堂| 在线观看国产h片| 在线天堂最新版资源| 美女高潮的动态| 久久久久视频综合| 国产在线视频一区二区| 亚洲欧美中文字幕日韩二区| 亚洲欧洲国产日韩| 久久久欧美国产精品| 能在线免费看毛片的网站| 亚洲真实伦在线观看| 免费黄频网站在线观看国产| 色视频在线一区二区三区| 亚洲av日韩在线播放| 中文字幕亚洲精品专区| 亚洲内射少妇av| 国产黄片美女视频| 韩国av在线不卡| 中国三级夫妇交换| 日韩国内少妇激情av| 亚洲国产色片| 日本wwww免费看| 国产av一区二区精品久久 | 免费看光身美女| 精品一区二区三区视频在线| 日韩不卡一区二区三区视频在线| 久久久欧美国产精品| 插阴视频在线观看视频| 深夜a级毛片| 成人一区二区视频在线观看| av卡一久久| 日产精品乱码卡一卡2卡三| tube8黄色片| 亚洲色图综合在线观看| 久久精品人妻少妇| 久久精品国产鲁丝片午夜精品| 亚洲av电影在线观看一区二区三区| 免费观看av网站的网址| 纯流量卡能插随身wifi吗| 男女国产视频网站| 全区人妻精品视频| 晚上一个人看的免费电影| 多毛熟女@视频| 99精国产麻豆久久婷婷| 亚洲精品456在线播放app| 亚洲内射少妇av| 久久久久久久久久人人人人人人| 成年免费大片在线观看| 久久人人爽人人爽人人片va| 久久女婷五月综合色啪小说| 国产亚洲一区二区精品| 国产国拍精品亚洲av在线观看| .国产精品久久| 热re99久久精品国产66热6| xxx大片免费视频| 网址你懂的国产日韩在线| 建设人人有责人人尽责人人享有的 | 一区二区三区免费毛片| 免费人妻精品一区二区三区视频| 国产精品麻豆人妻色哟哟久久| 国精品久久久久久国模美| 国产黄色免费在线视频| 免费少妇av软件| 嫩草影院入口| 国产一区二区三区av在线| 99久久精品一区二区三区| 亚洲va在线va天堂va国产| 最黄视频免费看| 亚洲精品一二三| 精品一区二区三区视频在线| www.色视频.com| 国产在线视频一区二区| 在线免费观看不下载黄p国产| 国产一区亚洲一区在线观看| 久久久久久久久久久免费av| 美女高潮的动态|