• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于PPO算法的集群多目標火力規(guī)劃方法

    2024-11-25 00:00:00秦湖程黃炎焱陳天德張寒
    系統(tǒng)工程與電子技術 2024年11期

    摘要: 針對高動態(tài)戰(zhàn)場態(tài)勢下防御作戰(zhàn)場景中的多目標火力規(guī)劃問題,提出一種基于近端策略優(yōu)化算法的火力規(guī)劃方法,以最大化作戰(zhàn)效能為目標,從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設計強化學習獎勵函數(shù)??紤]歷史決策序列對當前規(guī)劃的影響,以長短期記憶網(wǎng)絡(long short-term memory, LSTM)為核心,基于Actor-Critic框架設計神經(jīng)網(wǎng)絡,使用近端策略優(yōu)化算法訓練網(wǎng)絡,利用訓練好的強化學習智能體進行序貫決策,根據(jù)多個決策階段的態(tài)勢實時生成一系列連貫火力規(guī)劃方案。仿真結果表明,智能體能夠?qū)崿F(xiàn)高動態(tài)態(tài)勢下多目標火力規(guī)劃,其計算效率相對于其他算法具有更明顯的優(yōu)勢。

    關鍵詞: 多目標火力規(guī)劃; 近端策略優(yōu)化算法; 長短期記憶網(wǎng)絡; 序貫決策

    中圖分類號: TP 273

    文獻標志碼: A

    DOI:10.12305/j.issn.1001-506X.2024.11.18

    Cluster multi-target fire planning method based on PPO algorithm

    QIN Hucheng, HUANG Yanyan*, CHEN Tiande, ZHANG Han

    (School of Automation, Nanjing University of Science and Technology, Nanjing 210094, China)

    Abstract: To solve the problem of multi-target firepower planning in defensive combat scenarios under high dynamic battlefield situation, a firepower planning method based on the proximal strategy optimization algorithm is proposed. With the goal of maximizing combat effectiveness, the reinforcement learning reward function is designed from four aspects: ammunition consumption, combat effect, combat cost and combat time. Considering the influence of historical decision sequence on the current planning, the neural network is designed based on the Actor-Critic framework with the long short-term memory network (LSTM) as the core. The network is trained by the proximal strategy optimization algorithm, and the trained reinforcement learning agent is used for sequential decision-making. A series of coherent fire planning schemes are generated in real time according to the situation of multiple decision-making stages. Simulation results show that the agent can realize multi-target firepower planning under high dynamic situation, and its computational efficiency has more obvious advantages than other algorithms.

    Keywords: multi-target firepower planning; proximal strategy optimization algorithm; long short-term memory network (LSTM); sequential decision-making

    0 引 言

    近年來,隨著無人機在續(xù)航、超視距通信、小型化、低成本化等方面持續(xù)取得進展,無人機技術及戰(zhàn)術的應用對現(xiàn)代戰(zhàn)爭產(chǎn)生了越來越重要的影響[1-2。同時,隨著集群技術、協(xié)同技術等智能化技術在無人機上的應用,無人機集群在智能化戰(zhàn)場逐漸展現(xiàn)出不容小覷的作戰(zhàn)能力[3。因此,提升反無人機集群作戰(zhàn)能力變得尤為迫切。如何通過合理利用現(xiàn)有裝備和理論研發(fā)新的反無人機集群系統(tǒng),實現(xiàn)對無人機集群的壓制,提升反無人集群作戰(zhàn)能力成為重要研究課題[4-5

    反無人機集群作戰(zhàn)系統(tǒng)由偵察探測、可靠通信、決策評估、對抗處置等分系統(tǒng)組成。作為反無人機集群系統(tǒng)的重要組成部分,決策評估系統(tǒng)需要根據(jù)戰(zhàn)場態(tài)勢的實時變化,及時準確地制定和調(diào)整作戰(zhàn)火力規(guī)劃,實現(xiàn)自主動態(tài)決策。在復雜多變的作戰(zhàn)態(tài)勢下,快速準確及科學地選擇合適的武器裝備及彈藥,執(zhí)行對相匹配目標的火力打擊是提升反無人機集群決策評估系統(tǒng)作戰(zhàn)能力的關鍵。

    針對火力規(guī)劃這種帶約束組合優(yōu)化問題,目前主要使用的求解方法有蟻群算法[6-7、遺傳算法8-10、粒子群優(yōu)化算法11-12、遺傳模擬退火算法13、布谷鳥搜索算法14-15等智能算法。這類算法不僅易于實現(xiàn),且具有計算復雜度低、性能優(yōu)越等優(yōu)點,但尋優(yōu)速度難以用于實時性要求高的戰(zhàn)場環(huán)境。相較上述算法,基于深度神經(jīng)網(wǎng)絡模型的智能決策方法無需搜索就能輸出問題解,求解速度快,模型一旦訓練完成,即使戰(zhàn)場態(tài)勢改變,也不需要重新訓練,模型具有很強的泛化能力[16。因此,利用深度強化學習方法解決動態(tài)火力規(guī)劃問題是一個很好的選擇。近年來,隨著人工智能技術的發(fā)展,深度強化學習已在很多領域取得突破性進展,目前已廣泛應用于游戲[17-18、機器人19-20、對話系統(tǒng)21-22、交通信號燈控制23-24、自動駕駛25-26、無線電27-28等領域。同時,越來越多的研究人員將深度強化學習用于火力規(guī)劃。文獻[29]通過構建基于強化學習的多目標決策架構,利用Q學習算法對協(xié)同攻擊方案進行智能決策,但在目標很多的情況下,查找和存儲Q表都需要消耗大量的時間和空間。文獻[30]利用深度Q學習算法對任務規(guī)劃問題進行初期決策,之后采用進化算法對決策結果進行優(yōu)化,但目標數(shù)量很多時進化算法尋優(yōu)速度難以滿足決策時效性的要求。

    由于反無人機集群作戰(zhàn)對規(guī)劃時間具有很高的要求,當戰(zhàn)場態(tài)勢改變時,需要根據(jù)新態(tài)勢快速生成火力規(guī)劃方案。在上述研究的基礎上,本文利用馬爾可夫決策過程(Markov decision process, MDP)實現(xiàn)對強化學習決策過程的建模,以最大化火力規(guī)劃作戰(zhàn)效能為目標,從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設計強化學習獎勵函數(shù)。在此基礎上構建強化學習交互環(huán)境,以長短期記憶(long short-term memory, LSTM)網(wǎng)絡[31為核心構建深度強化學習智能體。而后使用近端策略優(yōu)化(proximal policy optimization, PPO)算法[32訓練,利用訓練好的智能體進行智能決策。通過離散化連續(xù)的作戰(zhàn)時間,智能體進行序貫決策,根據(jù)多個決策階段的態(tài)勢實時生成一系列連貫火力規(guī)劃方案。在此過程中,對智能體的決策效果進行詳盡的仿真實驗和深入分析。本文創(chuàng)新如下:

    (1) 根據(jù)反無人機作戰(zhàn)特點,從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設計強化學習獎勵函數(shù),使得基于獎勵值訓練的智能體策略更貼近真實作戰(zhàn)場景;

    (2) 通過將目標規(guī)劃動作拆分,目標注意力機制(target attention mechanism, TAM)[33、動作掩碼、偽獎勵的引入及門控線性單元(gated linear unit, GLU)的設計,實現(xiàn)智能體策略的快速收斂。

    (3) 基于Actor-Critic網(wǎng)絡框架,以LSTM網(wǎng)絡為核心構建的智能體網(wǎng)絡,其策略能考慮各決策序列間的聯(lián)系和相互影響作用。相比現(xiàn)有方法,在規(guī)劃結果不差的情況下,規(guī)劃速度大幅提升,適用于大規(guī)模、長時段連續(xù)火力規(guī)劃應用場景。

    1 系統(tǒng)建模

    對反無人機集群作戰(zhàn)作如下假設:① 某次反無人機集群作戰(zhàn)中,反無人機裝備共有h類,裝備總數(shù)為m,并且每個裝備只裝備一種彈藥;來襲無人機集群為混合型無人機集群,有l(wèi)類無人機,無人機總數(shù)為n,決策評估系統(tǒng)使用m個反無人機裝備對n個目標進行分配;② 各作戰(zhàn)裝備部署已經(jīng)確定,且處于戰(zhàn)斗準備狀態(tài),彈藥儲備量有限,各類作戰(zhàn)裝備有效作戰(zhàn)區(qū)域及其對各類無人機的殺傷概率確定;③ 為了保證攔截裝備間的協(xié)同效果,已在適當位置部署多種、多套攔截裝備;④ 決策評估系統(tǒng)基于強化學習智能體進行火力規(guī)劃,智能體每次決策得到單個裝備-目標分配方案,當所有目標均被分配時,單輪規(guī)劃結束,得到火力規(guī)劃方案,而后各裝備依據(jù)規(guī)劃方案執(zhí)行作戰(zhàn)任務。同時,智能體根據(jù)新戰(zhàn)場態(tài)勢再次生成規(guī)劃方案。

    1.1 反無人機系統(tǒng)MDP決策模型

    反無人機集群作戰(zhàn)過程可以認為是一個序貫決策的過程,紅方通常采用的是多批次飽和攻擊模式,防御方需針對連續(xù)決策階段戰(zhàn)場態(tài)勢的變化,考慮對未來戰(zhàn)場局勢的影響,連續(xù)做出最優(yōu)分配決策。

    通過離散化連續(xù)的作戰(zhàn)時間,作戰(zhàn)過程可分為Γ={1,2,…,T}個決策階段,在每個決策階段內(nèi)基于態(tài)勢信息進行一輪火力規(guī)劃。每個決策階段內(nèi)的規(guī)劃可視為靜態(tài)目標分配,是序貫決策中的一個規(guī)劃步,這個規(guī)劃步形成的決策所帶來的態(tài)勢變化將影響后續(xù)規(guī)劃步的決策。

    強化學習是機器學習中熱門領域之一,主要被用來解決序貫決策問題。其目標是使智能體通過與環(huán)境不斷交互來修正自己的策略以最大化累積獎勵。

    如果按照真實的交互過程來建模,當前狀態(tài)轉(zhuǎn)換到下一個狀態(tài)的概率、智能體的策略、價值函數(shù)等不僅與上一個狀態(tài)有關,還與前面一系列狀態(tài)相關,這將導致模型復雜度高,難以建模。假設交互過程轉(zhuǎn)化的馬爾可夫性可以簡化交互模型,即MDP可實現(xiàn)整個強化學習的決策過程建模。

    通常MDP包含4個要素,分別是狀態(tài)、動作、狀態(tài)轉(zhuǎn)移規(guī)則、獎勵,本文的MDP可定義為四元組(S,A,P,R)。S表示環(huán)境狀態(tài),環(huán)境狀態(tài)空間由所有反無人機裝備及無人機目標的信息確定,分別包括裝備編號、類別、彈藥類型、彈藥數(shù)量、彈藥價值、發(fā)射準備時間、單發(fā)彈藥發(fā)射時間、目標編號、作戰(zhàn)價值、期望毀傷概率等屬性。A表示智能體的動作,本文將智能體動作拆分為3個部分:選擇目標編號、根據(jù)所選目標編號的類型選擇合適彈藥類別、最后根據(jù)彈藥類別選擇合適的裝備編號。P表示狀態(tài)間的轉(zhuǎn)移規(guī)則。R表示智能體在狀態(tài)S下執(zhí)行動作A對應的獎勵值。

    智能體決策優(yōu)化過程如圖1所示。根據(jù)戰(zhàn)場態(tài)勢初始化環(huán)境狀態(tài)信息,智能體與環(huán)境交互,通過某種策略將當前狀態(tài)映射為相應的動作,環(huán)境對此動作及戰(zhàn)場態(tài)勢信息做出反應?;贛DP模型更新狀態(tài)信息及獎勵值,并將二者反饋給智能體,通過環(huán)境反饋的獎勵值來修正策略。通過不斷循環(huán)以上過程,最終實現(xiàn)目標策略。

    1.2 決策獎勵設計

    在強化學習任務中,智能體根據(jù)探索過程中來自環(huán)境的反饋信號持續(xù)改進策略,這些反饋信號稱為獎勵值。獎勵值讓任務目標具體化和數(shù)值化,起到人與算法溝通的橋梁作用。

    對于反無人機集群作戰(zhàn),主要考慮彈藥消耗量最少、作戰(zhàn)效果最佳、作戰(zhàn)成本最低和作戰(zhàn)時間最短這4個指標,本節(jié)通過對不同作戰(zhàn)指標及其數(shù)學模型的分析,構建強化學習智能體策略的獎勵函數(shù),引導智能體進行策略的優(yōu)化和修正。

    為方便分析,令xij為決策變量,xij=1表示第i個裝備打擊第j個目標,否則xij=0。根據(jù)軍事戰(zhàn)術基本原則及作戰(zhàn)經(jīng)驗,在火力打擊作戰(zhàn)中單個裝備最多只能打擊一個目標,即

    0≤∑nj=1xij≤1, xij∈{0,1}(1)

    如何在保證完成作戰(zhàn)任務的前提下,使彈藥消耗量最少,是確保反無人集群系統(tǒng)持續(xù)作戰(zhàn)能力的關鍵。

    假設每個裝備對各目標單發(fā)毀傷概率矩陣為

    式中:cij表示第i個裝備對第j個目標的毀傷概率。

    各裝備對各目標射擊達到期望毀傷下界所需的彈藥消耗量如下:

    式中:sij為第i個裝備對第j個目標射擊達到期望毀傷概率所需的彈藥量。

    sij=ceil

    ln(1-h(huán)j)ln(1-cij

    =ln(1-h(huán)j)ln(1-cij)(4)

    式中:ceil表示向上取整; 為向上取整運算;hj為對目標j的期望毀傷概率。彈藥消耗模型可表示為

    f1=∑mi=1∑nj=1sij·xij(5)

    打擊效果指在特定條件下,裝備所能發(fā)揮的最大打擊能力,本文以目標毀傷概率度量射擊效果。若目標j作戰(zhàn)價值為vj,則對目標的作戰(zhàn)效果評估模型可表示為

    f2=∑mi=1∑nj=1xij·vj·[1-(1-cijsij](6)

    如果考慮指揮員的心理因素,認為指揮員不希望在回合結束時該類彈藥剩余數(shù)為0。按彈藥補給時的不補線(消耗量為攜帶量的1/3以內(nèi))、視補線(消耗量為攜帶量的1/3,但不足2/3)、急補線(消耗量大于攜帶量的2/3以上)的要求,如果某種彈藥的消耗數(shù)量達到其攜行量的2/3(以急補線1/3基數(shù)為基本依據(jù))且未得到補充,那么該種彈藥所對應的戰(zhàn)斗力指數(shù)將隨彈藥進一步的消耗而下降。將裝備i能夠發(fā)揮正常作戰(zhàn)效果的剩余彈藥量Fi定為攜行量Xi的1/3,即如果某裝備針對某目標的彈藥剩余量不少于1/3攜行量,則認為該裝備對該目標的等效作戰(zhàn)效果為原值,并隨著剩余彈藥數(shù)的減少而降低,其降低規(guī)律暫時簡單地按指數(shù)規(guī)律判定,則有

    在打擊大量低成本、多載荷小型無人機組成的無人機集群時,不僅要考慮對紅方目標的打擊效果,同時還需考慮對紅方火力打擊的成本,在完成預期目標毀傷的情況下盡可能地降低作戰(zhàn)成本。作戰(zhàn)成本模型可表示為

    f3=∑nj=1∑mi=1cos ti·si,j·xij(8)

    式中:costi為裝備i單發(fā)炮彈的成本。

    作戰(zhàn)時間短的裝備,在相同時間內(nèi)能打擊的目標越多,在陣地上執(zhí)行射擊任務的時間越短,被紅方打擊和毀傷的可能性也就越小。因此,在完成預定打擊任務的前提下,應進行合理規(guī)劃,保證反無人機裝備的作戰(zhàn)時間盡可能短。

    裝備i作戰(zhàn)時間為其從接到攻擊指令到完成攻擊所需時間,由發(fā)射準備時間及發(fā)射sij發(fā)炮彈所需時間組成。二者均為區(qū)間數(shù),利用連續(xù)有序加權平均算子法[34將其轉(zhuǎn)換為精確數(shù)。假設作戰(zhàn)時間為trij=[tLij,tUij],可得

    tij=fρ(trij)=∫10dρ(y)dy[tLij-y(tLij-tUij)]dy(9)

    式中:tij為轉(zhuǎn)換后的精確數(shù);函數(shù)ρ(y)是一個在ρ:[0,1]→[0,1]映射上的基本單位區(qū)間單調(diào)函數(shù),滿足以下性質(zhì):① ρ(y)=0;② ρ(1)=1;③ 如果x≥y,則有ρ(x)≥ρ(y)。通常取ρ(y)=yt。令t=1,則

    tij=fρ(trij)=tUij+tLij2(10)

    于是,作戰(zhàn)時間模型可表示為

    f4=∑mi=1∑nj=1tij·xij·sij(11)

    由于對整體規(guī)劃方案進行優(yōu)化評估,需要將不同類型的量化指標規(guī)范化處理為統(tǒng)一的效率指標:設emaxij,eminij分別為指標eij的最大值與最小值,則指標eij規(guī)范化后值為

    e′ij=eij-eminijemaxij-eminij(12)

    無人集群作戰(zhàn)火力規(guī)劃目標是使彈藥消耗最少、打擊效果最優(yōu)、作戰(zhàn)成本最低、作戰(zhàn)時間最短,因此智能體動作獎勵值可表示為

    R=-ω1f12f′2-ω3f3-ω4f4(13)

    式中:f1、f2、f3、f4各指標均已規(guī)范化,其權值大小ω1、ω2、ω3、ω4可通過詢問多個不同專家得到各目標權重,利用層次分析法和熵權法的組合賦權確定最終權重,分別取0.1、0.75、0.05、0.1。

    同時,智能體每一時刻決策動作需滿足以下約束條件:

    s.t. ∑mi=1∑nj=1xij≤m

    ∑nj=1xij≤1

    2 基于PPO算法的火力規(guī)劃

    本節(jié)通過交互環(huán)境構建、智能體網(wǎng)絡結構設計及訓練方法的選取和優(yōu)化,實現(xiàn)智能體對火力規(guī)劃任務的快速、有效求解。

    2.1 強化學習交互環(huán)境設計

    交互環(huán)境的核心是交互函數(shù)step(),其輸入是當前狀態(tài)St,當前動作At;輸出是下一狀態(tài)St+1,當前動作對應獎勵R,是否結束交互done及調(diào)試項info,該函數(shù)描述了智能體與環(huán)境交互的所有信息。step()函數(shù)主要包括3個部分。

    (1) 獲取環(huán)境下一個狀態(tài)

    系統(tǒng)的狀態(tài)主要是由反無人機裝備數(shù)量,彈藥數(shù)量,無人機目標數(shù)量,各目標作戰(zhàn)價值、期望毀傷程度等組成。

    當需規(guī)劃的目標數(shù)量小于等于裝備數(shù)量時,為滿足約束條件,在單次決策時,裝備及目標編號被選中后,通過動作掩碼避免其編號被再次選中。

    以裝備選擇動作為例,其可選擇動作空間表示為[1,1,…,1],為m維行向量。如果第2個裝備被選中,在動作空間相應位置換成一個絕對值很大的負數(shù)(本文取-108),動作空間變?yōu)椋?,-108,…,1],經(jīng)過分類函數(shù)以后第二個裝備的選擇概率就變成0。

    當需規(guī)劃的目標數(shù)量超過裝備數(shù)量時,分多波次進行規(guī)劃。每一波次規(guī)劃優(yōu)先選擇與裝備數(shù)量相等的作戰(zhàn)價值最高目標進行規(guī)劃,規(guī)劃過程中同樣利用動作掩碼避免重復選擇裝備或目標。但每一波次規(guī)劃結束后,重新初始化裝備編號對應動作掩碼,將所有裝備編號設為可選擇狀態(tài),繼續(xù)選擇高價值目標優(yōu)先規(guī)劃,直至所有目標均被分配。

    智能體單次決策時并不會更新態(tài)勢信息,當所有目標均被分配,單輪規(guī)劃結束,更新態(tài)勢信息。為體現(xiàn)集群對抗的動態(tài)特性,狀態(tài)更新時0~m 個裝備有0.01的概率被擊毀。對反無人機裝備而言,如其被無人機擊毀,則將其從環(huán)境狀態(tài)中移除??紤]到真實作戰(zhàn)場景中難以實現(xiàn)打擊即毀傷的目標,本文假設被打擊無人機有0.4的概率未被毀傷。對無人機而言,若其被選中為打擊目標,其將被從環(huán)境狀態(tài)中移除。同時,以0.1的概率生成1~10個新的反無人機裝備,以0.2的概率對各裝備補充數(shù)量10~100枚單一類型彈藥,彈藥類型為該裝備可使用的彈藥類型,每種彈藥選擇概率相同。同時,以0.5的概率隨機生成1~10個新的無人機目標。

    (2) 獲取動作獎勵

    智能體通過最大化每輪規(guī)劃的累積獎勵為優(yōu)化目標修正策略。訓練時智能體的決策動作(即選擇攜帶第k種彈藥的第i個裝備打擊第j個目標)得到的真實獎勵值R根據(jù)式(13)計算得到。同時,為保證訓練過程中獎勵值大于0,避免訓練初期智能體收到大量負反饋,導致智能體對其策略的不自信,難以確定策略優(yōu)化方向,從而使算法陷入局部最優(yōu)或難以收斂。設置偽獎勵,每一step智能體將獲得值為1的偽獎勵。

    (3) 獲取交互終止信號

    設置最大交互次數(shù),當環(huán)境狀態(tài)中所有目標信息被移除或達到最大交互次數(shù)時,done=True,交互結束。否則,done=False,表示系統(tǒng)繼續(xù)進行訓練,直至達成終止條件。而后,根據(jù)新戰(zhàn)場態(tài)勢重新初始化狀態(tài)信息,進行下一輪交互。

    2.2 網(wǎng)絡設計

    Actor-Critic算法框架被廣泛應用于實際強化學習算法中,該框架集成了值函數(shù)估計算法和策略搜索算法,是解決實際問題時??紤]的框架。Actor-Critic包括兩部分,Actor和Critic。Actor即策略網(wǎng)絡負責生成動作并與環(huán)境交互,Critic即價值網(wǎng)絡負責評估策略網(wǎng)絡的表現(xiàn)并指導策略網(wǎng)絡下一階段的動作。價值網(wǎng)絡通過計算狀態(tài)價值vt,策略網(wǎng)絡利用vt迭代更新策略網(wǎng)絡的參數(shù)θ,進而選擇動作,并得到獎勵和新的狀態(tài),價值網(wǎng)絡基于獎勵值、當前狀態(tài)價值及下一狀態(tài)價值更新網(wǎng)絡參數(shù)。為實現(xiàn)動態(tài)火力規(guī)劃,考慮戰(zhàn)場態(tài)勢的變化對任務分配決策具有重要的影響,且掌握一定程度的戰(zhàn)場態(tài)勢的變化有利于智能體應對“戰(zhàn)爭迷霧”,因此智能體在處理當前戰(zhàn)場態(tài)勢的同時,應能兼顧之前的態(tài)勢。為此,本文基于Actor-Critic網(wǎng)絡框架,以LSTM網(wǎng)絡為核心構建智能體網(wǎng)絡,網(wǎng)絡結構如圖2所示。Softmax用于多分類過程中,它將多個神經(jīng)元的輸出,映射到(0,1)區(qū)間內(nèi),從而實現(xiàn)多分類。

    網(wǎng)絡輸入反無人機裝備及地方無人機對應狀態(tài)信息,輸入狀態(tài)信息維度分別為[batch_size×512×6],[batch_size×512×3],其中batch_size為批處理數(shù)量,為一次訓練所抓取的樣本數(shù)量。512為網(wǎng)絡能處理的最多裝備及目標數(shù)量,當裝備或目標數(shù)量不足512時,其對應狀態(tài)向量填充10-8。裝備狀態(tài)最后一維表示反無人機裝備的6個屬性:裝備類型、其裝備的彈藥類型、彈藥數(shù)量、單發(fā)彈藥價值、發(fā)射準備時間、單發(fā)彈藥發(fā)射時間。無人機目標狀態(tài)最后一維包含3個屬性:目標類型、作戰(zhàn)價值及期望毀傷概率。

    網(wǎng)絡輸出包含4個部分:策略網(wǎng)絡輸出選中的目標對應索引、彈藥類型對應索引、選中裝備對應索引和價值網(wǎng)絡輸出網(wǎng)絡策略對應狀態(tài)價值。

    Transformer編碼器結構如圖3所示。編碼器由N個相同的層組成,每層有兩個子層。第一個是多頭自注意力機制,第二個是簡單的全連接前饋網(wǎng)絡。在兩個子層中使用殘差連接,然后進行層歸一化。Attention可以描述為將查詢和一組鍵值對映射到輸出,輸出為值的加權和,其中規(guī)劃給每個值的權重由查詢與相應健值的相似度確定。Transformer模型使用縮放點積注意力計算單個注意力值,即隨機初始化WQ,WK,WV這3個矩陣,將輸入矩陣X分別與這3個矩陣相乘得到query(Q)、key(K)、value(V)矩陣,根據(jù)下式得到輸出矩陣Z:

    式中:dk表示K矩陣列數(shù)。同時,在Transformer編碼器中利用多頭注意力機制,使得網(wǎng)絡能同時關注來自不同位置的不同表示子空間的信息,有助于網(wǎng)絡捕捉到更豐富的特征信息。

    為有效訓練圖2網(wǎng)絡,提出以下3個策略。① 將目標規(guī)劃動作拆分3個層級。在每次目標規(guī)劃時,依次選擇目標單元、彈藥類型、裝備。② 在網(wǎng)絡中引入TAM實現(xiàn)目標及裝備的選擇。③ 引入動作掩碼,用于指導強化過程中的探索,減少對無效動作的探索,加快網(wǎng)絡收斂。最后,設計一個GLU,基于動作掩碼和Transformer編碼器輸出控制藍方目標的選擇。

    首先,利用獨熱碼對狀態(tài)信息(反無人機裝備信息和無人機目標單元信息)預處理,其中反無人機裝備信息預處理后分成兩部分:表示裝備及彈藥類型信息的獨熱碼rp和so。利用Transformer編碼器提取預處理的反無人機裝備信息rp及無人機目標信息bp的特征信息re、be

    然后,利用TAM選擇目標:分別以LSTM網(wǎng)絡輸出、be為輸入,利用MLP生成Q矩陣和K矩陣。

    目標注意力計算如下:

    P(S|a)=Soft max(K,QT)(15)

    式中:P(S|a)為目標單元的注意力分布,其維度與無人機目標數(shù)量相同,P(S|a)即為各目標單元被選中的概率。紅方裝備及彈藥類型的選擇過程與目標單元選擇類似,但二者Q矩陣生成過程不同。

    GLU生成Q矩陣過程如下:分別以so、re作為GLU的輸入,綜合LSTM網(wǎng)絡輸出和所有先前智能體動作輸出的信息編碼作為GLU門控信號gate,即可得到Q矩陣。

    gate=sigmoid(autogressive_embedding)(16)

    Qs=FC(gate⊙so)(17)

    Qe=FC(gate⊙re)(18)

    式中:⊙表示矩陣哈德瑪乘積。

    2.3 網(wǎng)絡訓練

    PPO算法是一種新型的策略梯度(policy gradient, PG)算法,策略梯度算法對步長十分敏感,但是又難以選擇合適的步長,在訓練過程中新舊策略的變化差異如果過大則不利于學習。而PPO算法可以在多個訓練步驟實現(xiàn)小批量的更新,解決策略梯度算法中步長難以確定的問題,適用于更普遍的環(huán)境,并且具有更好的整體性能。

    PPO算法具有3個網(wǎng)絡,各網(wǎng)絡功能如下。

    (1) 策略網(wǎng)絡副本θold

    與環(huán)境交互采樣批量數(shù)據(jù)用于策略網(wǎng)絡參數(shù)θ的迭代更新。與環(huán)境交互,根據(jù)當前狀態(tài)S選擇動作A,得到獎勵值R;S,A,R存入經(jīng)驗回放池。網(wǎng)絡參數(shù)θold定期從θ復制。

    (2) 策略網(wǎng)絡:根據(jù)經(jīng)驗回放池中的數(shù)據(jù)多次更新網(wǎng)絡參數(shù)θ。

    (3) 價值網(wǎng)絡:評估狀態(tài)價值,估計優(yōu)勢函數(shù)。

    算法損失函數(shù)可表示為

    Lt(θ)=E^t[LCLIPt(θ)-c1LVFt(θ)+c2entropy[πθ](St)](19)

    式中:E^t(·)為均值函數(shù),計算策略網(wǎng)絡所有動作的損失函數(shù)的均值;πθ表示策略網(wǎng)絡參數(shù)為θ的策略,即神經(jīng)網(wǎng)絡參數(shù)為θ時的網(wǎng)絡輸出值,對應于選擇每個目標編號、每類武器類型和每個武器編號的概率分布;entropy[πθ](St)表示狀態(tài)為St時,策略網(wǎng)絡參數(shù)為θ時其策略πθ的熵獎勵。LCLIPt(θ)計算如下:

    式中:γ為表減因子;λ為加權因子。V(St)表示狀態(tài)為St時Critic網(wǎng)絡輸出值。LVFt(θ)計算如下:

    式中:j表示采樣的裝備、彈藥類型或目標編號;probj表示其選擇概率;n為裝備數(shù)量、彈藥類型總數(shù)或目標數(shù)量。

    為了讓策略網(wǎng)絡更新更合適,對值函數(shù)進行裁切,防止更新前后狀態(tài)價值差距過大。

    LVFt(θ)=max[(V(St)-G(t))2

    (clamp(V(St)-V(St-1),-ε,+ε)-G(t))2](26)

    式中:ε為裁減值;clamp表示限制V(St)-V(St-1)取值范圍在(-ε,ε)之間。

    根據(jù)上述內(nèi)容,本文算法總體實現(xiàn)流程如算法1所示。首先,初始化策略網(wǎng)絡和價值網(wǎng)絡及經(jīng)驗回放集合D。采取經(jīng)驗回放的技巧,把智能體與環(huán)境交互的數(shù)據(jù)存儲到經(jīng)驗回放集合D中。隨后,從回放集中采樣數(shù)據(jù)多次更新價值網(wǎng)絡和策略網(wǎng)絡。在參數(shù)更新上,利用價值網(wǎng)絡計算狀態(tài)價值,估計優(yōu)勢函數(shù),構造均方誤差損失函數(shù)對價值網(wǎng)絡進行梯度更新,基于確定性策略梯度更新策略網(wǎng)絡,每更新一定次數(shù)后更新策略網(wǎng)絡副本。

    3 仿真驗證

    3.1 實驗設置

    由于真實戰(zhàn)場數(shù)據(jù)的特殊性,根據(jù)本文的作戰(zhàn)想定設計一個訓練數(shù)據(jù)生成程序來生成不同的訓練數(shù)據(jù)。假設共有5類無人機目標(bt1,bt2,…,bt5),6類反無人機裝備(ω1,ω2,…,ω6),6類彈藥(s1,s2,…,s6),每類裝備可使用至少一類彈藥。各類反無人機裝備可使用的彈藥類型如表1所示。

    第a類裝備使用第k類彈藥對第b類無人機目標的單發(fā)射擊效果pakb、作戰(zhàn)時間takb、裝備各類彈藥數(shù)量、各類無人機目標的威脅度、各類無人機目標期望毀傷下界參數(shù)配置如表2所示。

    不同類型裝備使用不同類型彈藥對不同類型目標的單發(fā)毀傷概率如表3所示。

    3.2 實驗結果比較分析

    為了驗證算法是否收斂,設置一個測試數(shù)據(jù)集,數(shù)據(jù)集中包含12個反無人機裝備和12個無人機目標,涵蓋所有類型的反無人機裝備、彈藥和無人機目標。每輪規(guī)劃最大決策次數(shù)為512,當所有無人機目標規(guī)劃完成時,本輪決策結束。每輪決策利用策略網(wǎng)絡對測試集中的數(shù)據(jù)進行火力規(guī)劃,并記錄規(guī)劃結果的平均獎勵及平均有效規(guī)劃次數(shù)。有效規(guī)劃即策略網(wǎng)絡在火力規(guī)劃時,選擇的裝備及無人機目標均為真實實體,選擇的彈藥類型均為可用。在訓練過程中,當平均獎勵及有效規(guī)劃次數(shù)沒有明顯變化時,可以認為算法收斂。

    為充分評估本文提出算法在反無人機集群火力打擊作戰(zhàn)場景下的規(guī)劃效果,采用數(shù)值仿真的方法對火力規(guī)劃結果進行驗證,設計對比實驗,比較使用LSTM網(wǎng)絡及動作掩碼、偽獎勵的有效性。對比實驗定義如下:

    (1) 基于圖2網(wǎng)絡的火力規(guī)劃網(wǎng)絡模型;

    (2) 基于圖2網(wǎng)絡的火力規(guī)劃網(wǎng)絡模型,但將LSTM網(wǎng)絡換成MLP網(wǎng)絡;

    (3) 基于圖2網(wǎng)絡的火力規(guī)劃網(wǎng)絡模型,不使用動作掩碼;

    (4) 基于圖2網(wǎng)絡的火力規(guī)劃網(wǎng)絡模型,不使用偽獎勵;

    (5) 基于圖2網(wǎng)絡的火力規(guī)劃網(wǎng)絡模型,不使用動作掩碼及偽獎勵。

    上述模型在實驗中使用的超參數(shù)如表4所示。

    實驗結果如圖4所示。使用LSTM和多層感知機(multi-layer perceptron, MLP)網(wǎng)絡平均獎勵及有效動作逐漸收斂,策略網(wǎng)絡策略逐漸穩(wěn)定。但由于MLP網(wǎng)絡缺乏記憶功能,其策略難以考慮各決策序列間的聯(lián)系和相互影響作用,在訓練過程中熵值出現(xiàn)增加的情況,表明策略網(wǎng)絡對習得的決策序列的相互聯(lián)系和影響知識的不自信。但隨著訓練次數(shù)的增加,在足量訓練數(shù)據(jù)的支撐下,智能體逐漸修正其策略,在保持隨機探索的同時其策略逐漸穩(wěn)定,最終其策略逐漸穩(wěn)定,但規(guī)劃效果仍不及LSTM網(wǎng)絡。動作掩碼及偽獎勵對算法收斂有重要的影響,二者缺一不可。

    利用訓練好的策略網(wǎng)絡對測試集進行火力規(guī)劃,得到具體的裝備-彈藥-目標規(guī)劃方案,由于測試集樣本數(shù)量較多,為方便描述,僅從中選取7個裝備和7個目標進行火力規(guī)劃,具體規(guī)劃結果如表5所示。

    此外,為驗證本文方法與其他火力規(guī)劃方法在求解速度及求解質(zhì)量上的差異,設計對比實驗,將本文方法與文獻[29]和文獻[30]方法及拍賣算法進行對比分析。

    本文方法與文獻[29]方法、文獻[30]方法、遺傳算法和拍賣算法執(zhí)行不同數(shù)量火力分配任務時的計算效能如表6所示。使用上述算法的耗時對比如表7所示。

    雖然文獻[29]規(guī)劃時間與本文方法相差不大,但其僅適用固定目標數(shù)量的火力規(guī)劃,當目標數(shù)量改變時需要重新訓練,訓練時間隨目標數(shù)量變化迅速增加,模型泛化性不強。文獻[30]方法將每個裝備視為一個智能體進行規(guī)劃,確定每個裝備能打擊的目標,利用規(guī)劃結果,初始化遺傳算法,其收斂速度比傳統(tǒng)遺傳算法更快。但隨著目標數(shù)量的增加,算法尋優(yōu)時間迅速增加,當目標數(shù)量超過500時,其規(guī)劃時間難以適用于高動態(tài)的戰(zhàn)場環(huán)境。與本文方法相比,文獻[29]、文獻[30]算法及遺傳算法規(guī)劃質(zhì)量更高,但耗時較長,并且任務規(guī)模越大,本文方法求解速度優(yōu)勢越明顯。但本文方法解的質(zhì)量與上述算法相比仍有較大提升空間。與拍賣算法相比,本文算法規(guī)劃質(zhì)量更高,并且規(guī)劃目標數(shù)量超過500時,規(guī)劃速度也有很大的優(yōu)勢。

    4 結束語

    本文針對高動態(tài)作戰(zhàn)態(tài)勢下反無人機集群火力規(guī)劃問題,提出一種基于PPO算法的火力規(guī)劃方法。以最大化火力規(guī)劃作戰(zhàn)效能為目標,從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面建立反無人機集群火力規(guī)劃模型,用于計算強化學習策略的獎勵值??紤]之前決策序列對當前規(guī)劃的影響,以LSTM網(wǎng)絡為核心構建深度強化學習智能體,基于Actor-Critic框架設計智能體網(wǎng)絡。為確保智能體動態(tài)火力規(guī)劃在軍事上的可操作性、應用性,根據(jù)各裝備的作戰(zhàn)反應時間,設定態(tài)勢更新時間間隔,在此時間間隔內(nèi),通過離散化連續(xù)的決策時間,每個決策時刻智能體與環(huán)境交互,使用PPO算法訓練網(wǎng)絡,利用訓練好的智能體進行智能決策,智能體經(jīng)過一系列連續(xù)決策,動態(tài)生成一個可行火力規(guī)劃方案。通過對仿真結果的比較分析,得到以下結論:

    本文提出的方法可以用于解決高動態(tài)戰(zhàn)場態(tài)勢下反無人機集群火力打擊作戰(zhàn)中的火力規(guī)劃問題,可以隨著態(tài)勢的更新快速生成較為合理的動態(tài)規(guī)劃方案。同時,本文也驗證了LSTM模型在序貫決策中的適用性,擴展了深度學習技術的應用范疇。

    基于目前的工作,后續(xù)可以展開進一步研究:比如在不降低規(guī)劃效果的情況下減少網(wǎng)絡層數(shù),降低訓練時間及智能體決策時間;或者從算法性能優(yōu)化入手,提高算法規(guī)劃效果。

    參考文獻

    [1]CHENG X, SHI W P, CAI W L, et al. Communication-efficient coordinated RSS-based distributed passive localization via drone cluster[J]. IEEE Trans.on Vehicular Technology, 2022, 71(1): 1072-1076.

    [2]張陽, 司光亞, 王艷正. 無人機集群網(wǎng)電攻擊行動協(xié)同目標分配建模[J]. 系統(tǒng)工程與電子技術, 2019, 41(9): 2025-2033.

    ZHANG Y, SI G Y, WANG Y Z. Modeling of cooperative target allocation of the UAV swarm cyberspace attack action[J]. Systems Engineering and Electronics, 2019, 41(9): 2025-2033.

    [3]柳強, 何明, 劉錦濤, 等. 無人機“蜂群”的蜂擁涌現(xiàn)行為識別與抑制機理[J]. 電子學報, 2019, 47(2): 374-381.

    LIU Q, HE M, LIU J T, et al. A mechanism for identifying and suppressing the emergent flocking behaviors of UAV swarms[J]. Acta Electonica Sinica, 2019, 47(2): 374-381.

    [4]WANG H C, DING G R, CHEN J, et al. UAV anti-jamming communications with power and mobility control[J]. IEEE Trans.on Wireless Communications, 2023, 22(7): 4729-4744.

    [5]GAO N, QIN Z J, JING X J, et al. Anti-intelligent UAV jamming strategy via deep Q-networks[J]. IEEE Trans.on Communications, 2020, 68(1): 569-581.

    [6]LAYEB A, BENAYAD, ZEYNEB. A novel firefly algorithm based ant colony optimization for solving combinatorial optimization problems[J]. International Journal of Computer Science and Applications, 2014, 11(2): 19-37.

    [7]GHORBANI M K, AFSHAR A, HAMIDIFAR H, et al. A fuzzy multi-objective multiple-pollutant model for rivers using an ant colony algorithm[J]. Proceedings of the Institution of Civil Engineers: Water Management, 2022, 175(4): 190-205.

    [8]ARRAM A, AYOB M. A novel multi-parent order crossover in genetic algorithm for combinatorial optimization problems[J]. Compu-ters and Industrial Engineering, 2019, 133(8): 267-274.

    [9]ZHANG H G, LIU Y A, ZHOU J. Balanced-evolution genetic algorithm for combinatorial optimization problems: the general outline and implementation of balanced-evolution strategy based on linear diversity index[J]. Natural Computing, 2018, 17(3): 611-639.

    [10]KIM J W, KIM S K. Fitness switching genetic algorithm for solving combinatorial optimization problems with rare feasible solutions[J]. Journal of Supercomputing, 2016, 72(9): 235-248.

    [11]HSIEH F S, GUO Y H. A discrete cooperatively coevolving particle swarm optimization algorithm for combinatorial double auctions[J]. Applied Intelligence, 2019, 49(11): 3845-3863.

    [12]GENG R M, JI R X, ZI S J. Research on task allocation of UAV cluster based on particle swarm quantization algorithm[J]. Mathematical Biosciences and Engineering, 2023, 20(1): 18-33.

    [13]汪民樂, 范陽濤. 基于效果的常規(guī)導彈火力規(guī)劃模型智能求解算法[J]. 系統(tǒng)工程與電子技術, 2017, 39(11): 2509-2514.

    WANG M L, FAN Y T. Intelligent solving algorithm for effects-based firepower allocation model of conventional missiles[J]. Systems Engineering and Electronics, 2017, 39(11): 2509-2514.

    [14]孫海文, 謝曉方, 孫濤, 等. 改進型布谷鳥搜索算法的防空火力優(yōu)化規(guī)劃模型求解[J]. 兵工學報, 2019, 40(1): 189-197.

    SUN H W, XIE X F, SUN T, et al. Improved cuckoo search algorithm for solving antiaircraft weapon-target optimal assignment model[J]. Acta Armamentarii, 2019, 40(1): 189-197.

    [15]孫海文, 謝曉方, 龐威, 等. 基于改進火力規(guī)劃模型的綜合防空火力智能優(yōu)化規(guī)劃[J]. 控制與決策, 2020, 35(5): 1102-1112.

    SUN H W, XIE X F, PANG W, et al. Integrated air defense firepower intelligence optimal assignment based on improved firepower assignment model[J]. Control and Decision, 2020, 35(5): 1102-1112.

    [16]KALLESTAD J, HASIBI R, HEMMATI A, et al. A general deep reinforcement learning hyper heuristic framework for solving combinatorial optimization problems[J]. European Journal of Operational Research, 2023, 309(1): 446-468.

    [17]WANG H L, WU H J, LAI G M. WagerWin: an efficient reinforcement learning framework for gambling games[J]. IEEE Trans.on Games, 2023, 15(3): 483-491.

    [18]INSEOK O, SEUNGEUN M, SANGBIN M, et al. Creating pro-level AI for a real-time fighting game using deep reinforcement learning[J]. IEEE Trans.on Games, 2022, 14(2): 212-220.

    [19]LI X J, LIU H S, DONG M H. A general framework of motion planning for redundant robot manipulator based on deep reinforcement learning[J]. IEEE Trans.on Industrial Informa-tics, 2022, 18(8): 5253-5263.

    [20]FAN F, XU G L, FENG N, et al. Spatiotemporal path tracking via deep reinforcement learning of robot for manufacturing internal logistics[J]. Journal of Manufacturing Systems, 2023, 69(31): 150-169.

    [21]DENG Y, LI Y L, DING B L, et al. Leveraging long short-term user preference in conversational recommendation via multi-agent reinforcement learning[J]. IEEE Trans.on Know-ledge and Data Engineering, 2023, 35(11): 11541-11555.

    [22]YANG Y C, CHRN C T, LU T Y, et al. Hierarchical reinforcement learning for conversational recommendation with knowledge graph reasoning and heterogeneous questions[J]. IEEE Trans.on Services Computing, 2023, 16(5): 3439-3452.

    [23]OUNOUGHI C, OUNOUGHI D, BEN Y S. EcoLight+: a novel multi-modal data fusion for enhanced eco-friendly traffic signal control driven by urban traffic noise prediction[J]. Knowledge and Information Systems, 2023, 65(12): 5309-5329.

    [24]HOU Y P, HE H S, JIANG X F, et al. Deep-reinforcement-learning-aided loss-tolerant congestion control for 6LoWPAN networks[J]. IEEE Internet of Things Journal, 2023, 10(21): 19125-19140.

    [25]WU Y Q, LIAO S Q, LIU X, et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network[J]. IEEE Trans.on Neural Networks and Learning Systems, 2023, 34(7): 2680-3690.

    [26]CUI J P, YUAN L, HE L, et al. Multi-input autonomous driving based on deep reinforcement learning with double bias experience replay[J]. IEEE Sensors Journal, 2023, 23(11): 11253-11261.

    [27]LIEN S Y, DENG D J. Intelligent session management for URLLC in 5G open radio access network: a deep reinforcement learning approach[J]. IEEE Trans.on Industrial Informatics, 2023, 19(2):1844-1853.

    [28]ZANGOOEI M, SAHA N, GOLKARIFARD M, et al. Reinforcement learning for radio resource management in RAN slicing: a survey[J]. IEEE Communications Magazine, 2023, 61(2): 118-124.

    [29]朱建文, 趙長見, 李小平, 等. 基于強化學習的集群多目標分配與智能決策方法[J]. 兵工學報, 2021, 42(9): 2040-2048.

    ZHU J W, ZHAO C J, LI X P, et al. Multi-target assignment and intelligent decision based on reinforcement learning[J]. 2021, 42(9): 2040-2048.

    [30]黃亭飛, 程光權, 黃魁華, 等. 基于DQN的多類型攔截裝備復合式反無人機任務分配方法[J]. 控制與決策, 2022, 37(1): 142-150.

    HUANG T F, CHENG G Q, HUANG K H, et al. Task assignment method of compound anti-drone based on DQN for multi type interception equipment[J]. Control and Decision, 2022, 37(1): 142-150.

    [31]SHOAIB M, UMAR M S. Phishing detection model using feline finch optimisation-based LSTM classifier[J]. International Journal of Sensor Networks, 2023, 42(4): 205-220.

    [32]XIE G L, ZHANG W, HU Z, et al. Upper confident bound advantage function proximal policy optimization[J]. Cluster Computing, 2023, 26(3): 2001-2010.

    [33]TAO C Q, LIN K, HUANG Z Q, et al. CRAM: code recommendation with programming context based on self-attention mechanism[J].IEEETrans.onReliability,2023,72(1):302-316.

    [34]LIOU T S, WANG M J. Ranking fuzzy numbers with integral value[J]. Fuzzy Sets and Systems, 1992, 50(3): 247-255.

    作者簡介

    秦湖程(1996—),男,博士研究生,主要研究方向為智能規(guī)劃、決策控制及優(yōu)化。

    黃炎焱(1973—),男,教授,博士,主要研究方向為裝備系統(tǒng)論證與系統(tǒng)效能分析、作戰(zhàn)效能評估、兵棋推演技術、指揮控制信息系統(tǒng)、應急管理、系統(tǒng)建模與仿真。

    陳天德(1994—),男,博士研究生,主要研究方向為智能規(guī)劃、決策控制及優(yōu)化。

    張 寒(1994—),男,博士研究生,主要研究方向為指揮控制、協(xié)同決策、應急服務。

    咕卡用的链子| 97在线人人人人妻| 大码成人一级视频| 天天躁夜夜躁狠狠躁躁| 欧美另类一区| 成年人免费黄色播放视频| 热re99久久国产66热| 亚洲av欧美aⅴ国产| 久久精品国产鲁丝片午夜精品| 黄片播放在线免费| 亚洲av成人精品一二三区| 黑人巨大精品欧美一区二区蜜桃| 亚洲精品乱久久久久久| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 在线亚洲精品国产二区图片欧美| 国产综合精华液| 精品福利永久在线观看| 蜜桃国产av成人99| 亚洲一级一片aⅴ在线观看| 亚洲视频免费观看视频| 精品国产国语对白av| 最黄视频免费看| 少妇的逼水好多| 王馨瑶露胸无遮挡在线观看| 欧美亚洲 丝袜 人妻 在线| 久久婷婷青草| 黄色视频在线播放观看不卡| 欧美日韩成人在线一区二区| 一级爰片在线观看| 国产av国产精品国产| 欧美激情高清一区二区三区 | 国产麻豆69| 亚洲精华国产精华液的使用体验| 亚洲av电影在线观看一区二区三区| 成人毛片60女人毛片免费| 纯流量卡能插随身wifi吗| 亚洲综合色惰| 国产成人精品在线电影| videossex国产| 男女下面插进去视频免费观看| 国产乱人偷精品视频| 高清不卡的av网站| 久久人妻熟女aⅴ| 女人高潮潮喷娇喘18禁视频| 黄色毛片三级朝国网站| 永久免费av网站大全| 国产精品嫩草影院av在线观看| 国产成人午夜福利电影在线观看| 建设人人有责人人尽责人人享有的| 观看美女的网站| 亚洲精品aⅴ在线观看| 秋霞伦理黄片| 欧美人与性动交α欧美软件| 亚洲内射少妇av| 中文字幕另类日韩欧美亚洲嫩草| 国产精品麻豆人妻色哟哟久久| 亚洲欧美清纯卡通| 搡女人真爽免费视频火全软件| 亚洲国产日韩一区二区| 婷婷成人精品国产| 久久97久久精品| 又大又黄又爽视频免费| 久久久久久久久久人人人人人人| 亚洲伊人色综图| 亚洲婷婷狠狠爱综合网| 国产一区亚洲一区在线观看| 男女边摸边吃奶| 精品酒店卫生间| 亚洲欧美日韩另类电影网站| 国产精品人妻久久久影院| 亚洲欧美一区二区三区黑人 | 国产又色又爽无遮挡免| 欧美日韩av久久| 国产精品人妻久久久影院| 亚洲精品日韩在线中文字幕| 亚洲成色77777| 免费黄频网站在线观看国产| 97人妻天天添夜夜摸| 欧美中文综合在线视频| 男人操女人黄网站| 亚洲久久久国产精品| 久久人人97超碰香蕉20202| 大片电影免费在线观看免费| 日韩一本色道免费dvd| 午夜免费观看性视频| 王馨瑶露胸无遮挡在线观看| 日韩制服骚丝袜av| 五月开心婷婷网| 精品亚洲乱码少妇综合久久| 丰满少妇做爰视频| 亚洲精品国产一区二区精华液| 免费大片黄手机在线观看| 亚洲一区中文字幕在线| 国产一区二区 视频在线| 久久精品久久久久久噜噜老黄| 国产在线免费精品| 18禁观看日本| 久久久久网色| 两个人看的免费小视频| 最新中文字幕久久久久| 久久久久国产网址| 日本91视频免费播放| 精品少妇一区二区三区视频日本电影 | 不卡视频在线观看欧美| 午夜精品国产一区二区电影| 9191精品国产免费久久| 熟女少妇亚洲综合色aaa.| 男女边摸边吃奶| 亚洲久久久国产精品| 中文字幕亚洲精品专区| 精品久久蜜臀av无| 大香蕉久久成人网| 亚洲中文av在线| 日韩欧美一区视频在线观看| 9热在线视频观看99| 嫩草影院入口| av又黄又爽大尺度在线免费看| 亚洲一区二区三区欧美精品| 在线观看免费视频网站a站| 国产亚洲一区二区精品| 9色porny在线观看| 国产一区亚洲一区在线观看| 中文欧美无线码| 人人妻人人爽人人添夜夜欢视频| 国产精品久久久久久久久免| 99热国产这里只有精品6| 国产亚洲精品第一综合不卡| 超碰成人久久| 欧美精品国产亚洲| 日产精品乱码卡一卡2卡三| 老熟女久久久| 久久99热这里只频精品6学生| 99香蕉大伊视频| 制服丝袜香蕉在线| 日韩欧美一区视频在线观看| 午夜影院在线不卡| 丝袜喷水一区| av女优亚洲男人天堂| 中文字幕色久视频| 熟女电影av网| 伦精品一区二区三区| 黄色怎么调成土黄色| 久久精品亚洲av国产电影网| 亚洲精品美女久久av网站| 亚洲三级黄色毛片| 99热全是精品| 一二三四在线观看免费中文在| av在线播放精品| 搡女人真爽免费视频火全软件| 在线看a的网站| 午夜免费男女啪啪视频观看| 91在线精品国自产拍蜜月| 免费观看a级毛片全部| 日韩视频在线欧美| 国产在视频线精品| 精品一区在线观看国产| 国产成人91sexporn| 日产精品乱码卡一卡2卡三| 一区福利在线观看| 丁香六月天网| 国产亚洲一区二区精品| 精品少妇内射三级| 国产一区二区在线观看av| 久久精品aⅴ一区二区三区四区 | 久久热在线av| 男女下面插进去视频免费观看| 国产精品不卡视频一区二区| 成年动漫av网址| 亚洲精品国产av蜜桃| 亚洲欧美精品综合一区二区三区 | 女人久久www免费人成看片| videos熟女内射| 欧美 日韩 精品 国产| 少妇熟女欧美另类| 国产视频首页在线观看| 肉色欧美久久久久久久蜜桃| 亚洲经典国产精华液单| 欧美人与善性xxx| 午夜福利在线免费观看网站| 午夜福利网站1000一区二区三区| 国产精品av久久久久免费| 日本-黄色视频高清免费观看| 国产精品av久久久久免费| 香蕉丝袜av| 精品视频人人做人人爽| 老女人水多毛片| 成年av动漫网址| 国产乱人偷精品视频| 人妻系列 视频| 老司机影院成人| 国产免费视频播放在线视频| 久久精品久久精品一区二区三区| 欧美国产精品一级二级三级| 国产精品人妻久久久影院| 观看av在线不卡| 日本色播在线视频| 边亲边吃奶的免费视频| 18禁国产床啪视频网站| 国产爽快片一区二区三区| 久久人人爽人人片av| 9191精品国产免费久久| 熟女少妇亚洲综合色aaa.| 精品一区二区免费观看| 国产高清不卡午夜福利| 18禁国产床啪视频网站| 一个人免费看片子| 自线自在国产av| 毛片一级片免费看久久久久| xxx大片免费视频| 国产av码专区亚洲av| 久久久国产欧美日韩av| 欧美日韩亚洲高清精品| 欧美国产精品va在线观看不卡| 又粗又硬又长又爽又黄的视频| 日本午夜av视频| 制服丝袜香蕉在线| 99re6热这里在线精品视频| 欧美97在线视频| 免费黄频网站在线观看国产| 亚洲伊人色综图| 天堂俺去俺来也www色官网| 免费观看无遮挡的男女| 18禁裸乳无遮挡动漫免费视频| 两性夫妻黄色片| 91aial.com中文字幕在线观看| 夫妻性生交免费视频一级片| 久久久精品免费免费高清| 超碰97精品在线观看| 国产黄色视频一区二区在线观看| 久久午夜福利片| 精品少妇久久久久久888优播| 国产一区亚洲一区在线观看| 国产国语露脸激情在线看| 欧美日韩精品成人综合77777| av免费观看日本| 日韩一卡2卡3卡4卡2021年| 91午夜精品亚洲一区二区三区| 99国产精品免费福利视频| 精品一品国产午夜福利视频| 一区二区三区四区激情视频| 波多野结衣一区麻豆| 999精品在线视频| 国产成人aa在线观看| 美女视频免费永久观看网站| 久久久精品区二区三区| 天天躁日日躁夜夜躁夜夜| 国产成人a∨麻豆精品| 欧美少妇被猛烈插入视频| 欧美中文综合在线视频| 国产亚洲午夜精品一区二区久久| 99热国产这里只有精品6| 免费高清在线观看视频在线观看| 欧美日韩一区二区视频在线观看视频在线| 丝袜喷水一区| 欧美在线黄色| 亚洲第一av免费看| 免费黄频网站在线观看国产| 男女午夜视频在线观看| 亚洲欧美色中文字幕在线| 国产在线一区二区三区精| 久久久久久人人人人人| 少妇熟女欧美另类| 国产日韩欧美视频二区| 精品午夜福利在线看| 一级片'在线观看视频| 久久精品久久久久久噜噜老黄| 亚洲欧美成人综合另类久久久| 免费高清在线观看视频在线观看| 如日韩欧美国产精品一区二区三区| 免费久久久久久久精品成人欧美视频| 日韩欧美精品免费久久| 狂野欧美激情性bbbbbb| 亚洲少妇的诱惑av| 高清视频免费观看一区二区| 电影成人av| 亚洲成国产人片在线观看| 久久热在线av| a 毛片基地| 97在线人人人人妻| 免费大片黄手机在线观看| 欧美激情高清一区二区三区 | 18+在线观看网站| 熟女电影av网| 亚洲色图 男人天堂 中文字幕| 一级毛片电影观看| 女性被躁到高潮视频| 涩涩av久久男人的天堂| 不卡视频在线观看欧美| 亚洲精品视频女| 777米奇影视久久| 卡戴珊不雅视频在线播放| 99热全是精品| 精品人妻在线不人妻| 国产免费福利视频在线观看| 国产黄频视频在线观看| 91久久精品国产一区二区三区| 女性被躁到高潮视频| 九九爱精品视频在线观看| 不卡视频在线观看欧美| av在线观看视频网站免费| 国产精品三级大全| 欧美人与性动交α欧美软件| 涩涩av久久男人的天堂| 久久久久久久久久久免费av| 一区在线观看完整版| 欧美日韩视频高清一区二区三区二| 最近2019中文字幕mv第一页| 午夜福利视频在线观看免费| 大陆偷拍与自拍| 成人手机av| 亚洲av电影在线观看一区二区三区| 欧美激情极品国产一区二区三区| 叶爱在线成人免费视频播放| 久久精品亚洲av国产电影网| 国产97色在线日韩免费| 在线观看免费高清a一片| 18禁观看日本| 欧美最新免费一区二区三区| 亚洲人成电影观看| 少妇的丰满在线观看| 高清不卡的av网站| 最近的中文字幕免费完整| 新久久久久国产一级毛片| 免费大片黄手机在线观看| 婷婷色麻豆天堂久久| 一级片'在线观看视频| 亚洲色图综合在线观看| 国产无遮挡羞羞视频在线观看| 亚洲图色成人| 精品人妻在线不人妻| 国产成人精品在线电影| 国产精品一国产av| 搡老乐熟女国产| 老司机亚洲免费影院| 精品亚洲成国产av| 国产精品.久久久| 街头女战士在线观看网站| 9色porny在线观看| 久久精品夜色国产| av视频免费观看在线观看| 大话2 男鬼变身卡| 2018国产大陆天天弄谢| 五月天丁香电影| 午夜福利乱码中文字幕| 纵有疾风起免费观看全集完整版| 亚洲av.av天堂| 国产成人a∨麻豆精品| 男人舔女人的私密视频| 国产成人精品福利久久| 免费在线观看黄色视频的| 国产精品一区二区在线不卡| 侵犯人妻中文字幕一二三四区| 久久精品国产亚洲av天美| 亚洲精品美女久久久久99蜜臀 | 男人爽女人下面视频在线观看| 国产在线一区二区三区精| 欧美日本中文国产一区发布| 中文字幕人妻熟女乱码| 久久97久久精品| 女的被弄到高潮叫床怎么办| 午夜福利,免费看| freevideosex欧美| 欧美精品国产亚洲| 国产精品熟女久久久久浪| 久久久a久久爽久久v久久| 成人免费观看视频高清| 男人操女人黄网站| 高清av免费在线| 下体分泌物呈黄色| 少妇精品久久久久久久| 久久女婷五月综合色啪小说| 精品国产一区二区久久| 久久国产亚洲av麻豆专区| 欧美成人午夜免费资源| 在线精品无人区一区二区三| 日本色播在线视频| av卡一久久| 日韩视频在线欧美| 天天操日日干夜夜撸| 国产男女内射视频| 老司机影院成人| 久久精品熟女亚洲av麻豆精品| 永久免费av网站大全| 大码成人一级视频| 亚洲国产色片| 1024香蕉在线观看| 国产黄频视频在线观看| 亚洲精品av麻豆狂野| 久久精品国产a三级三级三级| 国产成人精品在线电影| 99热网站在线观看| 我要看黄色一级片免费的| 精品一品国产午夜福利视频| freevideosex欧美| 久久99热这里只频精品6学生| 飞空精品影院首页| 国产成人精品在线电影| av片东京热男人的天堂| 久久国内精品自在自线图片| 欧美av亚洲av综合av国产av | 99精国产麻豆久久婷婷| 精品一区二区免费观看| 久久国内精品自在自线图片| 久久这里有精品视频免费| 18在线观看网站| 久久人人爽av亚洲精品天堂| 三上悠亚av全集在线观看| 免费高清在线观看日韩| 各种免费的搞黄视频| 欧美人与性动交α欧美软件| 久久精品熟女亚洲av麻豆精品| 久久免费观看电影| 欧美精品av麻豆av| 亚洲国产成人一精品久久久| 老司机影院毛片| 777米奇影视久久| 亚洲欧美日韩另类电影网站| 亚洲,欧美,日韩| 色婷婷av一区二区三区视频| 亚洲精品日本国产第一区| 欧美人与善性xxx| 少妇人妻久久综合中文| 99久国产av精品国产电影| 精品人妻在线不人妻| 最黄视频免费看| 国产精品嫩草影院av在线观看| 欧美激情 高清一区二区三区| 婷婷色综合大香蕉| 国语对白做爰xxxⅹ性视频网站| 精品视频人人做人人爽| 最新的欧美精品一区二区| 色视频在线一区二区三区| 乱人伦中国视频| 国产成人精品无人区| 男女国产视频网站| 超碰97精品在线观看| 国产白丝娇喘喷水9色精品| 日韩一卡2卡3卡4卡2021年| 在现免费观看毛片| 国产av一区二区精品久久| av免费观看日本| 国产精品麻豆人妻色哟哟久久| 一级毛片黄色毛片免费观看视频| 91久久精品国产一区二区三区| 如何舔出高潮| 国产有黄有色有爽视频| 亚洲精品国产一区二区精华液| 人妻系列 视频| 亚洲,欧美,日韩| 亚洲综合色惰| 777久久人妻少妇嫩草av网站| 18+在线观看网站| 亚洲国产av新网站| 97人妻天天添夜夜摸| 欧美+日韩+精品| 国产欧美日韩综合在线一区二区| 老司机影院成人| 国产探花极品一区二区| 亚洲国产av影院在线观看| av福利片在线| 一本色道久久久久久精品综合| 中文乱码字字幕精品一区二区三区| 亚洲男人天堂网一区| 亚洲一级一片aⅴ在线观看| 久久精品久久久久久久性| 国产有黄有色有爽视频| 色视频在线一区二区三区| 精品亚洲成a人片在线观看| 男女啪啪激烈高潮av片| 日日摸夜夜添夜夜爱| 久久久精品免费免费高清| 色婷婷av一区二区三区视频| 久久精品夜色国产| 秋霞伦理黄片| 成人黄色视频免费在线看| 91精品伊人久久大香线蕉| 天天躁夜夜躁狠狠躁躁| 一级,二级,三级黄色视频| 王馨瑶露胸无遮挡在线观看| 亚洲人成网站在线观看播放| 观看av在线不卡| 五月天丁香电影| 国产精品.久久久| 一本—道久久a久久精品蜜桃钙片| 蜜桃国产av成人99| 国产免费福利视频在线观看| 国产高清国产精品国产三级| 老熟女久久久| av在线观看视频网站免费| 国产免费视频播放在线视频| 国产又色又爽无遮挡免| 777米奇影视久久| 97在线人人人人妻| 久久99蜜桃精品久久| 99久国产av精品国产电影| 久久久国产精品麻豆| 国产亚洲最大av| 久久久久久久亚洲中文字幕| 中文字幕人妻熟女乱码| 最近的中文字幕免费完整| 成人亚洲欧美一区二区av| 久久人人爽av亚洲精品天堂| 久久国产精品男人的天堂亚洲| 美女主播在线视频| 欧美日韩精品网址| 黑丝袜美女国产一区| 人人妻人人添人人爽欧美一区卜| 国产又爽黄色视频| 亚洲av.av天堂| 男人舔女人的私密视频| 欧美日韩成人在线一区二区| 美女国产高潮福利片在线看| 人体艺术视频欧美日本| 少妇猛男粗大的猛烈进出视频| 伦精品一区二区三区| 日韩av免费高清视频| 久久精品国产a三级三级三级| 免费人妻精品一区二区三区视频| 亚洲国产色片| 天堂中文最新版在线下载| 午夜日韩欧美国产| 久久精品国产亚洲av涩爱| 丰满迷人的少妇在线观看| 精品一品国产午夜福利视频| 最近最新中文字幕免费大全7| 免费黄网站久久成人精品| 制服诱惑二区| 三级国产精品片| freevideosex欧美| 国产精品久久久久久精品电影小说| 黑丝袜美女国产一区| 啦啦啦视频在线资源免费观看| 国产伦理片在线播放av一区| 熟女少妇亚洲综合色aaa.| 十八禁高潮呻吟视频| 少妇被粗大猛烈的视频| 欧美亚洲日本最大视频资源| 只有这里有精品99| 一边摸一边做爽爽视频免费| 欧美精品一区二区大全| 超碰成人久久| 久久国产精品大桥未久av| 久久韩国三级中文字幕| 99re6热这里在线精品视频| 国产一区二区 视频在线| 秋霞伦理黄片| 国产激情久久老熟女| 欧美在线黄色| 女人精品久久久久毛片| 伊人久久大香线蕉亚洲五| 国产欧美日韩综合在线一区二区| 晚上一个人看的免费电影| 只有这里有精品99| 建设人人有责人人尽责人人享有的| 亚洲精品日韩在线中文字幕| 下体分泌物呈黄色| 亚洲国产精品一区二区三区在线| 欧美国产精品va在线观看不卡| 亚洲成人av在线免费| 日韩欧美精品免费久久| 老汉色av国产亚洲站长工具| 成人影院久久| 人妻 亚洲 视频| 亚洲精品国产一区二区精华液| 波多野结衣av一区二区av| 国产成人91sexporn| 黄色 视频免费看| 青草久久国产| 青春草国产在线视频| 亚洲精品视频女| 不卡av一区二区三区| 国产精品一区二区在线观看99| 卡戴珊不雅视频在线播放| 看免费成人av毛片| 天美传媒精品一区二区| 在线天堂中文资源库| 观看美女的网站| 国产精品不卡视频一区二区| 国产亚洲最大av| 1024香蕉在线观看| 亚洲av电影在线观看一区二区三区| 国产成人午夜福利电影在线观看| 国产亚洲最大av| 少妇被粗大的猛进出69影院| 国产精品免费大片| 考比视频在线观看| 大片电影免费在线观看免费| 欧美在线黄色| 高清av免费在线| 80岁老熟妇乱子伦牲交| 国产片内射在线| 亚洲第一青青草原| 青春草亚洲视频在线观看| 欧美激情 高清一区二区三区| 成人影院久久| 亚洲男人天堂网一区| 黑人欧美特级aaaaaa片| av视频免费观看在线观看| 成人18禁高潮啪啪吃奶动态图| 久久av网站| 青春草亚洲视频在线观看| 亚洲男人天堂网一区| 精品少妇久久久久久888优播| 在线天堂中文资源库| 国产成人免费无遮挡视频| 国产成人精品在线电影| 日韩免费高清中文字幕av| 中文字幕另类日韩欧美亚洲嫩草| 免费在线观看视频国产中文字幕亚洲 | 久久韩国三级中文字幕| 国产一区二区激情短视频 | 国产片特级美女逼逼视频| 制服诱惑二区| 男女午夜视频在线观看| 久久午夜综合久久蜜桃|