• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多智能體強(qiáng)化學(xué)習(xí)的協(xié)同目標(biāo)分配

    2023-09-05 00:34:08悅,琳,
    關(guān)鍵詞:分配策略模型

    馬 悅, 吳 琳, 許 霄

    (1. 國防大學(xué)研究生院, 北京 100091; 2. 中國人民解放軍 31002部隊, 北京 100091;3. 國防大學(xué)聯(lián)合作戰(zhàn)學(xué)院, 北京 100091)

    0 引 言

    協(xié)同目標(biāo)分配,決定了兵力運用的科學(xué)性和合理性,是將作戰(zhàn)意圖落地為作戰(zhàn)行動的關(guān)鍵環(huán)節(jié)[1]。在同一時間或空間范圍內(nèi),多個作戰(zhàn)單元為完成同一項作戰(zhàn)任務(wù)或相互之間存在邏輯關(guān)系的多個作戰(zhàn)任務(wù)時,需從時間、空間和效果等角度考慮,進(jìn)行目標(biāo)或火力的合理分配,以最大作戰(zhàn)效費比和最小作戰(zhàn)風(fēng)險獲得最優(yōu)打擊效果。

    協(xié)同目標(biāo)分配是一種典型的非線性多項式完全問題,決策空間隨問題規(guī)模(即作戰(zhàn)單元數(shù)目和作戰(zhàn)目標(biāo)數(shù)目)增大呈指數(shù)級增長,求解結(jié)果的的實時性、準(zhǔn)確性和有效性將直接影響軍事對抗中能否取得最佳作戰(zhàn)效果。在軍事運籌領(lǐng)域,協(xié)同目標(biāo)分配通常被規(guī)約為兵力分配、火力分配或武器目標(biāo)分配(weapon target assignment, WTA)等問題[2-3],常用求解方法可分為傳統(tǒng)規(guī)劃方法[4]、模擬退火(simulated annealing, SA)算法[5-6]、蟻群優(yōu)化(ant colony optimization, ACO)算法[7]、粒子群優(yōu)化(partical swarm optimization, PSO)算法[8-11]、進(jìn)化算法(evolutionary algorithm, EA)[12-15]和合同網(wǎng)協(xié)議(contract net protocol, CNP)[16]?,F(xiàn)有研究雖從不同角度對各種算法進(jìn)行了改進(jìn),并成功應(yīng)用于不同場景,但關(guān)于動態(tài)不確定環(huán)境下的協(xié)同目標(biāo)分配研究較少,且難以保證大規(guī)模目標(biāo)分配問題的求解效率。

    在分布式作戰(zhàn)自同步理論中[17],協(xié)同關(guān)系體現(xiàn)為作戰(zhàn)單元“自底向上組織復(fù)雜戰(zhàn)爭的行為”。將作戰(zhàn)單元構(gòu)建為智能體,協(xié)同目標(biāo)分配問題便轉(zhuǎn)化為多智能體協(xié)作(multi-agent cooperation, MAC)問題,多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)[18]在解決類似協(xié)作問題上有著廣泛應(yīng)用[19-23]。據(jù)此,通過分析協(xié)同目標(biāo)分配的軍事內(nèi)涵,構(gòu)建了基于MARL的協(xié)同目標(biāo)分配模型,采用局部策略評分和集中式策略推理,利用Advantage Actor-Critic算法進(jìn)行策略學(xué)習(xí),以期能夠?qū)崿F(xiàn)簡單場景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場景,從而有效實現(xiàn)大規(guī)模目標(biāo)分配。

    1 協(xié)同目標(biāo)分配數(shù)學(xué)模型

    1.1 相關(guān)概念

    為在統(tǒng)一語義框架下描述協(xié)同目標(biāo)分配問題,定義以下相關(guān)概念。

    作戰(zhàn)單元,指能夠獨立遂行作戰(zhàn)任務(wù)的基本作戰(zhàn)單位,為執(zhí)行作戰(zhàn)任務(wù)提供作戰(zhàn)資源。在協(xié)同目標(biāo)分配中,作戰(zhàn)單元是不可再分割的基本作戰(zhàn)單位或作戰(zhàn)平臺。

    作戰(zhàn)目標(biāo),指戰(zhàn)場上存在且具有一定軍事價值的客觀實體,是作戰(zhàn)單元執(zhí)行作戰(zhàn)任務(wù)時所作用的客觀對象。

    作戰(zhàn)協(xié)同關(guān)系,指多個作戰(zhàn)單元在同一時空范圍內(nèi)執(zhí)行同一作戰(zhàn)任務(wù)或具有邏輯關(guān)系的不同作戰(zhàn)任務(wù)時,在空間部署、時間銜接、目標(biāo)分配、火力分配和效果達(dá)成等方面,所形成的相互照應(yīng)、相互配合和優(yōu)劣互補(bǔ)的關(guān)系。

    1.2 符號定義

    協(xié)同目標(biāo)分配描述過程中,定義以下符號。

    (1) Tg={tg1,tg2,…,tgN}:打擊目標(biāo)清單列表,N為打擊目標(biāo)總數(shù)。

    (2)U={u1,u2,…,uM}:進(jìn)攻方可用作戰(zhàn)單元列表,M為作戰(zhàn)單元總數(shù)。

    (3)W={w1,w2,…,wL}:進(jìn)攻方可用彈藥類型列表,L為彈藥類型總數(shù)。

    (4) Vtg={vtg1,vtg2,…,vtgN}:各作戰(zhàn)目標(biāo)被摧毀后的收益價值列表。vtgi為打擊目標(biāo)tgi被摧毀后的收益價值,i∈{1,2,…,N}。

    (5) Vu={vu1,vu2,…,vuM}:各作戰(zhàn)單元被摧毀后的損失價值列表。vuj為作戰(zhàn)單元uj被摧毀后的損失價值,j∈{1,2,…,M}。

    (6) Vw={vw1,vw2,…,vwL}:各類型彈藥消耗單位數(shù)量后的損失價值列表。vwl為wl類型彈藥消耗單位數(shù)量后的損失價值,l∈{1,2,…,L}。

    (7) Tglt=(tglt,1,tglt,2,…,tglt,N):執(zhí)行第t次分配方案時被摧毀目標(biāo)清單。tglt,i表示目標(biāo)tgi是否被摧毀,tglt,i=1表示被摧毀,否則tglt,i=0。

    (8) Ult=(ult,1,ult,2,…,ult,M):執(zhí)行第t次目標(biāo)分配方案時被摧毀單元清單。ult,j表示單元uj是否被摧毀,ult,j=1表示被摧毀,否則ult,j=0。

    (9) Wlt=(wlt,1,wlt,2,…,wlt,L):執(zhí)行第t次目標(biāo)分配方案時進(jìn)攻方的彈藥消耗清單。wlt,l表示wl類型彈藥的消耗數(shù)量。

    (10) Vlsumt:執(zhí)行第t次目標(biāo)分配方案時防守方的彈藥消耗價值總量。

    (11) Wut,j=(wt,j,1,wt,j,2,…,wt,j,L):執(zhí)行第t次目標(biāo)分配方案時進(jìn)攻方作戰(zhàn)單元uj的掛載。wj,l為作戰(zhàn)單元uj掛載的wl類型彈藥的數(shù)目。

    (12)RPro=[rprol,i]L×N:進(jìn)攻方各類彈藥對不同作戰(zhàn)目標(biāo)的命中毀傷概率矩陣。rprol,i為wl類型彈藥對作戰(zhàn)目標(biāo)tgi的命中毀傷概率。

    (13)BPro=(bpro1,bpro2,…,bproM):防守方一體化聯(lián)合防空反導(dǎo)對進(jìn)攻方各作戰(zhàn)單元的綜合命中毀傷概率矩陣。bproj為對作戰(zhàn)單元uj的綜合命中毀傷概率。

    1.3 數(shù)學(xué)模型

    考慮使命任務(wù)、彈目匹配以及作戰(zhàn)效費比等因素建立數(shù)學(xué)模型,如下所示:

    (1)

    (1) 模型變量

    令變量xi,j,t表示在第t次作戰(zhàn)目標(biāo)分配時,是否指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi。當(dāng)指派單元uj打擊目標(biāo)tgi時,xi,j,t=1,否則xi,j,t=0。因此,模型變量為

    X=[xi,j,t]N×M×T

    (2)

    式中:T為作戰(zhàn)過程中進(jìn)行目標(biāo)分配的總次數(shù);模型變量規(guī)模為N×M×T,在相同問題背景下,隨著決策次數(shù)T的增大呈線性增長。

    (2) 目標(biāo)函數(shù)

    模型目標(biāo)函數(shù),衡量了作戰(zhàn)效果的大小。參數(shù)α和β,用于平衡兩部分計算結(jié)果對目標(biāo)函數(shù)值的影響;F1(X)表示任務(wù)使命完成度,計算方法如下所示:

    (3)

    式中:Rle和Ble分別表示作戰(zhàn)結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。

    F2(X)/F3(X)表示作戰(zhàn)效費比;F2(X)表示作戰(zhàn)過程中摧毀敵方作戰(zhàn)目標(biāo)和消耗敵方彈藥所產(chǎn)生的總收益;F3(X)表示作戰(zhàn)過程中自身作戰(zhàn)單元被摧毀和彈藥消耗所產(chǎn)生的總損失,計算方法如下所示:

    (4)

    (3) 約束條件

    1)Φ(t)表示執(zhí)行第t次目標(biāo)分配方案所產(chǎn)生的結(jié)果。根據(jù)各方彈目匹配關(guān)系及命中毀傷概率(BPro與RPro),執(zhí)行作戰(zhàn)目標(biāo)分配方案Xt,得到進(jìn)攻方作戰(zhàn)單元損失情況Ult和彈藥消耗情況Wlt、敵方作戰(zhàn)目標(biāo)被摧毀情況Tglt和彈藥消耗總價值Vlsumt。

    (5)

    2 協(xié)同目標(biāo)分配求解方法

    MAC問題的聯(lián)合狀態(tài)動作空間,隨著智能體與任務(wù)數(shù)目的增多呈指數(shù)級增長。大規(guī)模作戰(zhàn)場景下的協(xié)同策略訓(xùn)練,對訓(xùn)練時間和計算能力具有更高要求。因此,如何能夠?qū)崿F(xiàn)簡單場景中訓(xùn)練好的模型直接泛化應(yīng)用到復(fù)雜場景,是有效解決大規(guī)模協(xié)同目標(biāo)分配問題的關(guān)鍵。諸多學(xué)者針對上述類似問題,或利用空間近鄰性構(gòu)建獎勵函數(shù)和任務(wù)分配策略以期實現(xiàn)可泛化應(yīng)用模型[24-25],或使用集中式評價方法以期解決分散策略學(xué)習(xí)問題[26-27]。而Carion提出了一種學(xué)習(xí)預(yù)測模型及訓(xùn)練方法[28],為解決本文問題提供了很好的借鑒。

    考慮遠(yuǎn)期決策對當(dāng)前收益影響的衰減,動作價值函數(shù)如下所示:

    qπ(St,At)=E(Rt+1+γqπ(St+1,At+1)|St,At)

    (6)

    式中:St為時刻t作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài);E(·)為求解期望值的函數(shù)。

    問題目標(biāo)是通過學(xué)習(xí)獲取一個最優(yōu)協(xié)同目標(biāo)分配策略,保證所有作戰(zhàn)單元的協(xié)同打擊行動能夠使獎勵函數(shù)在長期內(nèi)達(dá)到最大化,如下所示:

    (7)

    2.1 模型訓(xùn)練及應(yīng)用框架

    在此,構(gòu)建基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練及應(yīng)用框架,如圖1所示,具體流程如下。

    圖1 基于MARL的協(xié)同目標(biāo)分配模型訓(xùn)練與應(yīng)用Fig.1 Training and application of cooperative targets assignment model based on MARL

    步驟 1基于深度強(qiáng)化學(xué)習(xí)優(yōu)化協(xié)同目標(biāo)分配策略。在此,“智能體”是進(jìn)攻方的各作戰(zhàn)單元,“動作”是作戰(zhàn)單元選擇打擊哪個作戰(zhàn)目標(biāo),“環(huán)境”是本文實驗平臺-計算機(jī)兵棋推演系統(tǒng)的模擬仿真環(huán)境,“狀態(tài)”為所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)。在每一步學(xué)習(xí)中,采用“集中式策略推理模型”獲取目標(biāo)分配方案,各作戰(zhàn)單元根據(jù)分配方案和固定行動規(guī)則對作戰(zhàn)目標(biāo)進(jìn)行打擊,兵棋系統(tǒng)會實時返回各棋子狀態(tài)和交戰(zhàn)結(jié)果。而后,依據(jù)系統(tǒng)環(huán)境返回的收益值信息,利用基于多層神經(jīng)網(wǎng)絡(luò)的“評分模型”對該步目標(biāo)分配方案進(jìn)行優(yōu)劣評價,評價值用于優(yōu)化策略。

    步驟 2最優(yōu)協(xié)同目標(biāo)分配策略的模擬執(zhí)行。在利用計算機(jī)兵棋系統(tǒng)對某次聯(lián)合火力打擊進(jìn)行模擬仿真時,每隔一段時間Δt,依據(jù)最優(yōu)協(xié)同目標(biāo)分配策略生成目標(biāo)分配方案,各作戰(zhàn)單元依據(jù)當(dāng)前方案實時調(diào)整打擊對象。當(dāng)完成打擊任務(wù)后,將得到一個隨時間變化的“作戰(zhàn)目標(biāo)分配方案序列”。作戰(zhàn)單元在各目標(biāo)分配方案中分配得到的作戰(zhàn)目標(biāo),組成了該作戰(zhàn)單元的打擊目標(biāo)序列;作戰(zhàn)目標(biāo)在各目標(biāo)分配方案中是否被打擊,形成了不同作戰(zhàn)目標(biāo)之間的先后打擊順序。

    2.1.1 協(xié)同目標(biāo)分配方案表示

    在決策時刻t,一個確定的策略π會根據(jù)所有作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)〈S1,t,S2,t〉,給出能夠獲取最大回報的聯(lián)合動作At=maxπ(S1,t,S2,t,t)。At實質(zhì)就是時刻t的協(xié)同目標(biāo)分配方案,可用分配矩陣Bt等價表示,如下所示:

    (8)

    式中:bi,j表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi,如果打擊則bi,j=1,否則bi,j=0。

    若每隔時間Δt生成一次作戰(zhàn)目標(biāo)分配方案,當(dāng)完成打擊任務(wù)后,將會得到該作戰(zhàn)場景下的一個作戰(zhàn)目標(biāo)分配方案序列,如下所示:

    B=[B1,B2,…,Bt,…,BT]

    (9)

    2.1.2 底層固定行動規(guī)則

    當(dāng)給定分配矩陣Bt后,各作戰(zhàn)單元將會按照固定行動規(guī)則對指派的作戰(zhàn)目標(biāo)進(jìn)行打擊。作戰(zhàn)單元的行動規(guī)則包括:作戰(zhàn)單元自動規(guī)劃打擊目標(biāo)的最短路徑;作戰(zhàn)目標(biāo)進(jìn)入射程范圍后,作戰(zhàn)單元將根據(jù)自身掛載的命中毀傷概率,計算彈藥發(fā)射數(shù)量;作戰(zhàn)單元消耗完自身彈藥或油料后將自動退出作戰(zhàn)。上述行動規(guī)劃均由計算機(jī)兵棋系統(tǒng)自動完成,符合軍事規(guī)范并在長期應(yīng)用中得到驗證。因此,學(xué)習(xí)任務(wù)將聚焦于分配策略π的學(xué)習(xí),而作戰(zhàn)單元對作戰(zhàn)目標(biāo)的具體打擊行為不需要進(jìn)行訓(xùn)練。

    2.1.3 獎勵函數(shù)

    根據(jù)協(xié)同目標(biāo)分配模型的目標(biāo)函數(shù),構(gòu)建強(qiáng)化學(xué)習(xí)的單步獎勵函數(shù),計算方法如下所示:

    (10)

    式中:Rt表示在第t步得到的單步獎勵值;bvs和blst表示防守方作戰(zhàn)目標(biāo)及彈藥的總價值與第t步時被摧毀/消耗后的總收益;rvs和rlst表示進(jìn)攻方作戰(zhàn)單元及彈藥的總價值與第t步時被摧毀/消耗后的總損失;d標(biāo)識作戰(zhàn)過程是否結(jié)束,若結(jié)束則d=1,否則d=0;r_d為作戰(zhàn)結(jié)束時的獎勵值;Rle和Ble分別表示作戰(zhàn)過程結(jié)束后作戰(zhàn)單元和作戰(zhàn)目標(biāo)的剩余率。

    2.2 協(xié)同策略評分模型

    評分模型根據(jù)作戰(zhàn)單元和作戰(zhàn)目標(biāo)的狀態(tài),評價當(dāng)前策略的優(yōu)劣。在此,采用多層神經(jīng)網(wǎng)絡(luò)構(gòu)建局部評分模型,通過不斷學(xué)習(xí)優(yōu)化模型參數(shù)來提高模型評分的精確度,可用h(s1,i,s2,j,θ1)和g(s1,i,s1,k,θ2)表示。其中,h(·)對作戰(zhàn)單元與作戰(zhàn)目標(biāo)的分配關(guān)系進(jìn)行評分,反映了指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣;g(·)對作戰(zhàn)目標(biāo)之間的打擊順序進(jìn)行評分,反映了作戰(zhàn)目標(biāo)tgi與tgk先后打擊順序的優(yōu)劣;s2,j表示作戰(zhàn)單元uj的狀態(tài);s1,i和s1,k分別表示作戰(zhàn)目標(biāo)tgi與tgk的狀態(tài);θ1和θ2分別為兩個神經(jīng)網(wǎng)絡(luò)的參數(shù)。

    在某一決策時刻,經(jīng)過評分后可得到兩個評分矩陣H和G,分別如下所示:

    (11)

    (12)

    式中:hθ1(i,j)表示對作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的評分;gθ2(i,k)表示對作戰(zhàn)目標(biāo)tgi與tgk打擊順序的評分。

    評分模型h(·)和g(·)分別采用結(jié)構(gòu)相同但參數(shù)不同的神經(jīng)網(wǎng)絡(luò),如圖2所示。h(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)單元和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量;g(·)的輸入數(shù)據(jù)為評分對象“作戰(zhàn)目標(biāo)和作戰(zhàn)目標(biāo)”的聯(lián)合狀態(tài)向量。作戰(zhàn)單元和作戰(zhàn)目標(biāo)的特征狀態(tài),包括類型、位置、自身價值、彈藥攜帶量和彈藥單位價值。輸入數(shù)據(jù)經(jīng)過批標(biāo)準(zhǔn)化層和4個全連接層后,輸出評分?jǐn)?shù)值。

    圖2 評分模型神經(jīng)網(wǎng)絡(luò)Fig.2 Scoring model neural network

    2.3 協(xié)同策略推理模型

    協(xié)同策略推理模型主要負(fù)責(zé)根據(jù)評分矩陣H和G確定能夠獲取最大評分總數(shù)的分配矩陣Bt。在協(xié)同目標(biāo)分配策略π為確定性策略時,分配矩陣Bt只與當(dāng)前t時刻各作戰(zhàn)單元和作戰(zhàn)目標(biāo)的聯(lián)合狀態(tài)有關(guān)。在學(xué)習(xí)過程中,分配矩陣Bt還取決于評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。因此,可使用參數(shù)化Bt(S1,S2,θ1,θ2)表示分配矩陣。

    一種貪婪的策略推理,是將作戰(zhàn)單元指派給h(·)分?jǐn)?shù)最高的作戰(zhàn)目標(biāo)。但貪婪地選擇分?jǐn)?shù)最大的作戰(zhàn)單元打擊作戰(zhàn)目標(biāo),實質(zhì)是默認(rèn)打擊目標(biāo)的效益與指派打擊該目標(biāo)的作戰(zhàn)單元數(shù)目呈正比例關(guān)系。然而,當(dāng)作戰(zhàn)單元和作戰(zhàn)目標(biāo)數(shù)目較多時,打擊某一作戰(zhàn)目標(biāo)的總收益,會隨著指派作戰(zhàn)單元的數(shù)目增大而趨于飽和,從而導(dǎo)致嚴(yán)重的資源浪費。因此,需要限制打擊同一作戰(zhàn)目標(biāo)的作戰(zhàn)單元數(shù)量。

    此外,還需要考慮不同作戰(zhàn)目標(biāo)的先后打擊順序。當(dāng)考慮作戰(zhàn)目標(biāo)之間的約束關(guān)系時,可能會出現(xiàn)兩種極端情況:一種情況是作戰(zhàn)目標(biāo)之間的相關(guān)關(guān)系較弱,則作戰(zhàn)單元會被“分散”指派給各個作戰(zhàn)目標(biāo)并同時執(zhí)行打擊任務(wù);另一種情況是作戰(zhàn)目標(biāo)之間存在較強(qiáng)的相關(guān)關(guān)系,則作戰(zhàn)單元會被“集中”指派去打擊重要性較大的作戰(zhàn)目標(biāo),而后按照重要性順序依次打擊其他作戰(zhàn)目標(biāo)。在實際作戰(zhàn)中,作戰(zhàn)目標(biāo)之間的重要性對比關(guān)系,應(yīng)處于上述兩種極端情況之間。

    協(xié)同策略推理過程,可表示為

    (13)

    式中,bi,j為分配矩陣Bt(S1,S2,θ1,θ2)中第i行第j列的元素,表示作戰(zhàn)單元uj是否打擊作戰(zhàn)目標(biāo)tgi;h(i,j,θ1)為評分矩陣H中第i行第j列的元素,表示指派作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的優(yōu)劣程度;g(i,k,θ2)為評分矩陣G中第i行第k列的元素,表示對作戰(zhàn)目標(biāo)tgi與tgk的打擊順序的評分;約束條件∑bi,j≤1,表示指派作戰(zhàn)單元uj打擊的作戰(zhàn)目標(biāo)數(shù)目最多為1;φi(si)表示打擊作戰(zhàn)目標(biāo)tgi的最大彈藥需求量,使用φi,j(si,sj)表示作戰(zhàn)單元uj打擊作戰(zhàn)目標(biāo)tgi的打擊效果;約束條件∑φi,j(si,sj)bi,j≤φi(si)表示指派打擊作戰(zhàn)目標(biāo)tgi的作戰(zhàn)單元的打擊效果之和不能超出該作戰(zhàn)目標(biāo)的打擊需求。

    2.4 協(xié)同策略學(xué)習(xí)算法

    協(xié)同目標(biāo)分配策略的優(yōu)化,需要通過學(xué)習(xí)算法實現(xiàn)。在此,將“評分”視為一個負(fù)責(zé)頂層決策的虛擬中心智能體的“動作”,將“評分模型”作為需要學(xué)習(xí)的“策略”,將協(xié)同策略推理過程和仿真模擬環(huán)境統(tǒng)一看作為學(xué)習(xí)“環(huán)境”,通過A2C (advantage actor-critic)算法[29-30]進(jìn)行策略優(yōu)化。策略網(wǎng)絡(luò)Actor用于逼近“評分模型”,評價網(wǎng)絡(luò)Critic用于逼近整個“環(huán)境”運行產(chǎn)生的累計回報。學(xué)習(xí)優(yōu)化的基本過程,如圖3所示,具體步驟如下。

    圖3 基于A2C算法的學(xué)習(xí)過程Fig.3 Learning process based on A2C

    步驟 1策略網(wǎng)絡(luò)Actor為第2.2節(jié)中所構(gòu)建的評分模型。神經(jīng)網(wǎng)絡(luò)接收當(dāng)前作戰(zhàn)單元和作戰(zhàn)目標(biāo)的空間分布狀態(tài),通過網(wǎng)絡(luò)前向傳播計算評分矩陣H和G。然后,將H和G作為“動作”輸出給協(xié)同策略推理模型。

    步驟 2協(xié)同策略推理模型根據(jù)評分矩陣H和G,通過策略推理制定協(xié)同目標(biāo)分配方案,具體方法如第2.3節(jié)所述。然后,將協(xié)同目標(biāo)分配方案下達(dá)給各作戰(zhàn)單元,各作戰(zhàn)單元按照底層固定的行動策略執(zhí)行目標(biāo)打擊任務(wù)。

    步驟 3評價網(wǎng)絡(luò)Critic接收目標(biāo)分配方案單步執(zhí)行后產(chǎn)生的獎勵值,單步獎勵值的計算方法如式(11)所示。然后,通過神經(jīng)網(wǎng)絡(luò)的前向傳播計算執(zhí)行“動作”H和G所產(chǎn)生的評價值,并更新優(yōu)化網(wǎng)絡(luò)參數(shù)。最后,將計算得到的關(guān)于收益的TD-error輸出給策略網(wǎng)絡(luò)Actor。

    步驟 4策略網(wǎng)絡(luò)Actor接收TD-error后,更新優(yōu)化評分模型的網(wǎng)絡(luò)參數(shù)θ1和θ2。

    步驟 5迭代上述過程,直至學(xué)習(xí)結(jié)束。

    3 實驗驗證

    在某型計算機(jī)兵棋系統(tǒng)上,以聯(lián)合火力打擊為例,驗證本文協(xié)同目標(biāo)分配方法。

    (1) 實驗設(shè)計與數(shù)據(jù)

    實驗背景:為保證聯(lián)合任務(wù)部隊能夠順利渡海登陸,現(xiàn)對敵沿岸雷達(dá)陣地、防空陣地、機(jī)場和指揮所進(jìn)行聯(lián)合火力打擊。

    實驗思路:構(gòu)建兩個不同復(fù)雜度的實驗場景,如表1所示;在小場景中進(jìn)行模型訓(xùn)練,而后在相同場景下,應(yīng)用訓(xùn)練好的模型進(jìn)行仿真模擬,驗證模型構(gòu)建和訓(xùn)練的合理性;最后,將訓(xùn)練好的模型直接泛化應(yīng)用的大場景中,驗證解決大規(guī)模問題的有效性。實驗數(shù)據(jù):敵我雙方武器平臺、作戰(zhàn)目標(biāo)及彈藥的價值系數(shù),是綜合造價和影響己方作戰(zhàn)程度而計算的評價值。敵方一體化防空反導(dǎo),彈藥類型以W表示,其價值系數(shù)為0.05。綜合考慮武器平臺性能及掛載類型、作戰(zhàn)目標(biāo)性質(zhì)以及彈目匹配關(guān)系,敵我雙方的“武器-目標(biāo)”命中毀傷概率,如表2所示。

    表1 武器平臺和作戰(zhàn)目標(biāo)信息Table 1 The data of platform and operational targets

    表2 武器-目標(biāo)命中毀傷概率Table 2 Hit and kill probability of weapon-target

    (2) 小場景下模型訓(xùn)練與驗證

    由于“武器-目標(biāo)”命中毀傷概率小于1,即便訓(xùn)練得到的策略最優(yōu),也會出現(xiàn)收益值很差的情況。在此,將每一輪訓(xùn)練的總回報,設(shè)置為本次訓(xùn)練總回報與前一輪訓(xùn)練總回報的綜合值,計算方法如下所示:

    (14)

    根據(jù)本文方法構(gòu)建評分模型、推理模型和學(xué)習(xí)模型,利用計算機(jī)兵棋系統(tǒng)進(jìn)行1 050輪學(xué)習(xí)訓(xùn)練。訓(xùn)練過程中,綜合回報值隨訓(xùn)練次數(shù)的變化曲線,如圖4所示??梢?基于A2C算法的策略優(yōu)化方法能夠保證策略回報值趨于收斂,從而得到最優(yōu)協(xié)同目標(biāo)分配策略。

    圖4 仿真實驗結(jié)果Fig.4 Results of simulation experiment

    在相同場景下,使用訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真驗證,統(tǒng)計以下信息:模擬仿真回報值,如圖5(a)所示;任務(wù)完成度(作戰(zhàn)目標(biāo)的摧毀數(shù)目與初始數(shù)目之比)和進(jìn)攻方作戰(zhàn)單元剩余率,如圖5(b)所示。

    圖5 小場景下模型驗證結(jié)果Fig.5 Results of model verification in small scenes

    (3) 大場景下模型泛化應(yīng)用

    在大場景下,不進(jìn)行任何學(xué)習(xí)訓(xùn)練,直接使用小場景中訓(xùn)練好的模型和策略,進(jìn)行70次模擬仿真泛化應(yīng)用驗證,統(tǒng)計信息如圖6所示。

    圖6 大場景下模型泛化應(yīng)用結(jié)果Fig.6 Results of model generalization application in large scenes

    (4) 實驗結(jié)果分析

    1)在小場景驗證實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的77%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的78.6%,而能夠保證自身損失不超過50%的模擬次數(shù)占總次數(shù)的48.6%。雖然存在我方損失很大而敵方損失較小的情況,但非協(xié)同分配策略導(dǎo)致,而是由于敵我雙方命中毀傷概率小于1產(chǎn)生的小概率隨機(jī)結(jié)果。因此,訓(xùn)練優(yōu)化的策略能夠保證進(jìn)攻方以較小損失完成聯(lián)合火力打擊任務(wù)。

    2) 在大場景泛化應(yīng)用實驗中,綜合回報值落在區(qū)間[50,200]的模擬次數(shù)占總次數(shù)的62.9%;能夠百分之百完成打擊任務(wù)的模擬次數(shù)占總次數(shù)的71.4%。相比小場景實驗,進(jìn)攻方的作戰(zhàn)單元損失較大且收益平均值較小。主要原因是大場景下作戰(zhàn)目標(biāo)是小場景的2.75倍,而武器平臺只是小場景的1.9倍,因此進(jìn)攻方會產(chǎn)生更大的損失。但訓(xùn)練優(yōu)化的策略,依舊能夠保證進(jìn)攻方以較大概率完成聯(lián)合火力打擊任務(wù)。

    4 結(jié) 論

    本文針對傳統(tǒng)方法難以實現(xiàn)動態(tài)不確定環(huán)境下的大規(guī)模協(xié)同目標(biāo)分配問題,提出了基于MARL的協(xié)同目標(biāo)分配方法。通過策略分層將學(xué)習(xí)任務(wù)聚焦于頂層分配策略的學(xué)習(xí),構(gòu)建了策略評分模型和策略推理模型,并基于A2C算法進(jìn)行策略的優(yōu)化學(xué)習(xí)。實驗結(jié)果表明,基于多智能體系統(tǒng)對作戰(zhàn)單元協(xié)同作戰(zhàn)行為進(jìn)行建模,能夠形象地刻畫協(xié)同作戰(zhàn)的演化內(nèi)因;基于A2C算法的策略優(yōu)化方法,能夠確保最優(yōu)協(xié)同目標(biāo)分配策略的有效生成;而生成的最優(yōu)目標(biāo)分配策略,能夠在執(zhí)行時以較好的效果完成聯(lián)合火力打擊任務(wù)。

    猜你喜歡
    分配策略模型
    一半模型
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    例談未知角三角函數(shù)值的求解策略
    應(yīng)答器THR和TFFR分配及SIL等級探討
    我說你做講策略
    遺產(chǎn)的分配
    一種分配十分不均的財富
    績效考核分配的實踐與思考
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    亚洲片人在线观看| 12—13女人毛片做爰片一| 午夜免费成人在线视频| 少妇的逼好多水| 亚洲aⅴ乱码一区二区在线播放| 亚洲aⅴ乱码一区二区在线播放| 99精品久久久久人妻精品| 亚洲avbb在线观看| 亚洲国产精品合色在线| 亚洲自拍偷在线| av在线蜜桃| 蜜桃亚洲精品一区二区三区| 国产亚洲av嫩草精品影院| 成人特级av手机在线观看| 亚洲自偷自拍三级| av中文乱码字幕在线| 国产免费一级a男人的天堂| 成人精品一区二区免费| 免费av观看视频| 9191精品国产免费久久| 看黄色毛片网站| 9191精品国产免费久久| 欧美激情久久久久久爽电影| 国产一级毛片七仙女欲春2| 91久久精品电影网| 婷婷精品国产亚洲av| 亚洲一区二区三区色噜噜| 12—13女人毛片做爰片一| 动漫黄色视频在线观看| 亚洲无线观看免费| 国产毛片a区久久久久| 国产老妇女一区| 久久精品人妻少妇| 在线观看一区二区三区| 国产成人福利小说| 日本 欧美在线| 国产亚洲av嫩草精品影院| 国产v大片淫在线免费观看| 中文字幕久久专区| 天天一区二区日本电影三级| 夜夜看夜夜爽夜夜摸| 国内精品美女久久久久久| 波多野结衣高清无吗| 在线观看一区二区三区| 亚洲自偷自拍三级| 69人妻影院| 99久久无色码亚洲精品果冻| 熟女人妻精品中文字幕| 亚洲avbb在线观看| 国产欧美日韩精品一区二区| 日韩精品中文字幕看吧| 日韩欧美国产一区二区入口| 婷婷六月久久综合丁香| 久久久久久大精品| 99国产综合亚洲精品| 午夜福利在线观看吧| 亚洲成人久久爱视频| 国产成人aa在线观看| 日本一二三区视频观看| 精品一区二区三区视频在线| 亚洲人成伊人成综合网2020| 又爽又黄a免费视频| 国产伦一二天堂av在线观看| .国产精品久久| 一夜夜www| 亚洲av成人不卡在线观看播放网| 欧美日本视频| 老熟妇乱子伦视频在线观看| 全区人妻精品视频| 夜夜看夜夜爽夜夜摸| 人妻制服诱惑在线中文字幕| 欧美绝顶高潮抽搐喷水| 成人欧美大片| 757午夜福利合集在线观看| 日本熟妇午夜| 亚洲国产高清在线一区二区三| 国产精品一区二区三区四区免费观看 | 亚洲国产欧洲综合997久久,| 五月玫瑰六月丁香| 99在线人妻在线中文字幕| 少妇的逼好多水| 午夜福利在线观看吧| 国内精品久久久久久久电影| 国产av一区在线观看免费| 久久久久久久亚洲中文字幕 | 久久精品国产亚洲av香蕉五月| 亚洲熟妇中文字幕五十中出| 欧美成人性av电影在线观看| 午夜免费激情av| 亚洲最大成人手机在线| 热99re8久久精品国产| 亚洲avbb在线观看| 小蜜桃在线观看免费完整版高清| 国产午夜精品论理片| 久久久精品大字幕| 日韩欧美在线乱码| 日本成人三级电影网站| 在线a可以看的网站| 亚洲精品亚洲一区二区| 国产三级在线视频| av欧美777| 国产精品爽爽va在线观看网站| 亚洲精品粉嫩美女一区| 男女之事视频高清在线观看| 亚洲aⅴ乱码一区二区在线播放| 嫩草影院入口| 99精品久久久久人妻精品| 国产精品久久久久久久久免 | 亚洲男人的天堂狠狠| 亚洲av电影不卡..在线观看| 波多野结衣巨乳人妻| h日本视频在线播放| 12—13女人毛片做爰片一| 亚洲国产精品999在线| 日韩欧美三级三区| 51午夜福利影视在线观看| 欧美黑人巨大hd| 色播亚洲综合网| 国产真实乱freesex| 欧洲精品卡2卡3卡4卡5卡区| 99久久99久久久精品蜜桃| 在线a可以看的网站| 日本免费一区二区三区高清不卡| 欧美三级亚洲精品| www日本黄色视频网| 久久久久久久久久黄片| 两个人视频免费观看高清| 老司机午夜福利在线观看视频| 精品99又大又爽又粗少妇毛片 | 亚洲最大成人av| 最近最新免费中文字幕在线| 非洲黑人性xxxx精品又粗又长| 欧美国产日韩亚洲一区| 亚洲中文日韩欧美视频| 国产免费一级a男人的天堂| 色综合亚洲欧美另类图片| 观看美女的网站| 69av精品久久久久久| 亚洲真实伦在线观看| 草草在线视频免费看| 亚洲自偷自拍三级| 欧美激情在线99| 日韩 亚洲 欧美在线| 尤物成人国产欧美一区二区三区| 国产伦精品一区二区三区四那| 婷婷亚洲欧美| 哪里可以看免费的av片| 特大巨黑吊av在线直播| 在线天堂最新版资源| 精品久久国产蜜桃| 欧洲精品卡2卡3卡4卡5卡区| 欧美又色又爽又黄视频| a在线观看视频网站| 日韩大尺度精品在线看网址| 亚洲自拍偷在线| 久久天躁狠狠躁夜夜2o2o| 久久久久久久亚洲中文字幕 | 长腿黑丝高跟| 最近最新免费中文字幕在线| 一级作爱视频免费观看| 国产亚洲欧美在线一区二区| 99精品久久久久人妻精品| 午夜免费男女啪啪视频观看 | 午夜精品一区二区三区免费看| 99riav亚洲国产免费| 人妻久久中文字幕网| netflix在线观看网站| 午夜两性在线视频| 天堂动漫精品| 99riav亚洲国产免费| 亚洲一区高清亚洲精品| 欧美激情国产日韩精品一区| 久久热精品热| 亚洲av日韩精品久久久久久密| 99在线视频只有这里精品首页| 国产又黄又爽又无遮挡在线| 一级黄色大片毛片| 2021天堂中文幕一二区在线观| 日韩成人在线观看一区二区三区| 亚州av有码| 国产精品久久视频播放| 日韩欧美在线二视频| 亚洲最大成人中文| 色噜噜av男人的天堂激情| 久久6这里有精品| 蜜桃亚洲精品一区二区三区| 欧美潮喷喷水| 国产真实乱freesex| 蜜桃久久精品国产亚洲av| 国产精品乱码一区二三区的特点| 欧美区成人在线视频| 18禁黄网站禁片免费观看直播| 天堂动漫精品| 亚洲五月婷婷丁香| 国产av一区在线观看免费| 欧美区成人在线视频| 国产成人福利小说| 又爽又黄a免费视频| 国产精品影院久久| 亚洲av免费高清在线观看| 国产成+人综合+亚洲专区| 免费av毛片视频| 亚洲欧美激情综合另类| 成人特级黄色片久久久久久久| 亚洲国产欧美人成| 精品久久久久久久久久久久久| 国产高潮美女av| 国产黄色小视频在线观看| 乱码一卡2卡4卡精品| 人人妻人人澡欧美一区二区| 男人和女人高潮做爰伦理| 99国产精品一区二区三区| 亚洲av美国av| 欧美另类亚洲清纯唯美| 亚洲自拍偷在线| 男人的好看免费观看在线视频| 成人欧美大片| 99热只有精品国产| 欧美高清性xxxxhd video| 日韩人妻高清精品专区| 国产成人影院久久av| 91九色精品人成在线观看| 国产精品,欧美在线| 欧美黄色淫秽网站| 精品人妻偷拍中文字幕| 午夜精品在线福利| 免费av不卡在线播放| 90打野战视频偷拍视频| 高潮久久久久久久久久久不卡| av天堂在线播放| 久久久久九九精品影院| 黄色配什么色好看| 乱人视频在线观看| a级一级毛片免费在线观看| 99久久精品热视频| 极品教师在线视频| 日本五十路高清| 91在线精品国自产拍蜜月| 中文字幕免费在线视频6| 免费无遮挡裸体视频| 国产不卡一卡二| 国模一区二区三区四区视频| 99久久成人亚洲精品观看| 夜夜看夜夜爽夜夜摸| 国产国拍精品亚洲av在线观看| 国产精品嫩草影院av在线观看 | 亚洲三级黄色毛片| 国产伦精品一区二区三区视频9| 麻豆国产av国片精品| 欧美激情久久久久久爽电影| 日韩欧美免费精品| 成人精品一区二区免费| 国产精品一区二区三区四区久久| 99久国产av精品| 我的老师免费观看完整版| 天天躁日日操中文字幕| 老司机深夜福利视频在线观看| 久久久久久久久久黄片| 黄色丝袜av网址大全| 午夜福利18| 青草久久国产| 国语自产精品视频在线第100页| АⅤ资源中文在线天堂| 国产成人a区在线观看| 日韩中字成人| 国产精品久久久久久久久免 | 一区二区三区免费毛片| 白带黄色成豆腐渣| 国产高清有码在线观看视频| 搞女人的毛片| 日韩欧美免费精品| 赤兔流量卡办理| 国产主播在线观看一区二区| 久久精品国产99精品国产亚洲性色| 亚洲中文字幕日韩| 中国美女看黄片| 欧美日韩国产亚洲二区| 国产精品三级大全| 免费观看精品视频网站| 亚洲精品色激情综合| 精品久久久久久成人av| 精华霜和精华液先用哪个| 国产精品美女特级片免费视频播放器| 久久精品91蜜桃| 日日干狠狠操夜夜爽| 9191精品国产免费久久| 亚洲av日韩精品久久久久久密| 别揉我奶头 嗯啊视频| 色在线成人网| 亚洲人成伊人成综合网2020| 亚洲成人久久性| 中国美女看黄片| 人妻制服诱惑在线中文字幕| 一个人免费在线观看电影| 久久久久久久久中文| 欧美精品国产亚洲| 精品久久久久久久久久久久久| 亚洲成人精品中文字幕电影| 美女高潮的动态| 两个人的视频大全免费| 麻豆成人午夜福利视频| 国产高潮美女av| 国产亚洲av嫩草精品影院| 波野结衣二区三区在线| 久久亚洲真实| 亚洲经典国产精华液单 | 日本成人三级电影网站| 夜夜爽天天搞| 精品福利观看| 性插视频无遮挡在线免费观看| 欧美日韩国产亚洲二区| 日韩欧美免费精品| 久久久久久久久久成人| 观看美女的网站| 亚洲国产日韩欧美精品在线观看| 变态另类丝袜制服| 97超视频在线观看视频| 人妻久久中文字幕网| 人人妻人人澡欧美一区二区| 色视频www国产| 国产高清视频在线播放一区| 精品欧美国产一区二区三| 99视频精品全部免费 在线| 免费大片18禁| 欧美激情国产日韩精品一区| 搡老妇女老女人老熟妇| 91九色精品人成在线观看| 色综合站精品国产| 中文字幕av在线有码专区| 变态另类丝袜制服| 免费一级毛片在线播放高清视频| 久久精品影院6| 国产精品永久免费网站| 久久这里只有精品中国| 尤物成人国产欧美一区二区三区| 国内揄拍国产精品人妻在线| 欧美国产日韩亚洲一区| 日韩欧美一区二区三区在线观看| 免费黄网站久久成人精品 | 久99久视频精品免费| 欧美高清成人免费视频www| 久久精品国产亚洲av香蕉五月| 性色avwww在线观看| 亚洲久久久久久中文字幕| 国产一区二区三区视频了| 亚洲av一区综合| 精品人妻一区二区三区麻豆 | 别揉我奶头~嗯~啊~动态视频| 欧美最黄视频在线播放免费| 中文字幕人成人乱码亚洲影| 国产真实乱freesex| av天堂中文字幕网| 亚洲av电影在线进入| 久久久国产成人精品二区| 不卡一级毛片| 免费人成视频x8x8入口观看| 精品一区二区三区av网在线观看| 精品人妻1区二区| 69人妻影院| 国产色婷婷99| 欧美一区二区精品小视频在线| 岛国在线免费视频观看| 亚洲av中文字字幕乱码综合| 91av网一区二区| 99精品久久久久人妻精品| 伦理电影大哥的女人| 久久精品综合一区二区三区| 日本三级黄在线观看| 日本熟妇午夜| 久久精品综合一区二区三区| 国产精品永久免费网站| av在线观看视频网站免费| 国模一区二区三区四区视频| 99久久精品一区二区三区| 九九久久精品国产亚洲av麻豆| 91麻豆av在线| 久久这里只有精品中国| 最近最新中文字幕大全电影3| 久久婷婷人人爽人人干人人爱| 一进一出抽搐动态| 亚洲精品在线观看二区| 成年女人毛片免费观看观看9| 在线a可以看的网站| 久久久久国内视频| 国产午夜福利久久久久久| 在现免费观看毛片| 中文亚洲av片在线观看爽| 18禁裸乳无遮挡免费网站照片| 亚洲av二区三区四区| 久久午夜福利片| 国产精品亚洲一级av第二区| 麻豆国产97在线/欧美| 国产在线男女| 久久久久久国产a免费观看| 中文字幕高清在线视频| 欧美一区二区国产精品久久精品| 在线国产一区二区在线| 欧美日韩乱码在线| 婷婷精品国产亚洲av| 99riav亚洲国产免费| 在线天堂最新版资源| 男人和女人高潮做爰伦理| 一区二区三区高清视频在线| 国产成人aa在线观看| 99国产极品粉嫩在线观看| 欧美3d第一页| 午夜a级毛片| 国产av一区在线观看免费| 久久精品国产亚洲av香蕉五月| 国产视频内射| 91av网一区二区| 可以在线观看的亚洲视频| 又紧又爽又黄一区二区| 午夜免费激情av| 精品不卡国产一区二区三区| 丝袜美腿在线中文| 亚洲国产精品合色在线| 高清毛片免费观看视频网站| 每晚都被弄得嗷嗷叫到高潮| 国产视频内射| 精品国产三级普通话版| 99热这里只有是精品50| 国产精品日韩av在线免费观看| 国产探花在线观看一区二区| 亚洲性夜色夜夜综合| 欧美日韩国产亚洲二区| 老鸭窝网址在线观看| 熟女电影av网| 美女cb高潮喷水在线观看| 国产高清视频在线播放一区| 最新在线观看一区二区三区| 3wmmmm亚洲av在线观看| 国产aⅴ精品一区二区三区波| 搡女人真爽免费视频火全软件 | 搡老妇女老女人老熟妇| 三级男女做爰猛烈吃奶摸视频| 日本 欧美在线| 国产精品亚洲一级av第二区| 简卡轻食公司| 精品人妻视频免费看| 人妻久久中文字幕网| 久久久久久久久大av| 成人美女网站在线观看视频| 一个人免费在线观看的高清视频| 成人一区二区视频在线观看| 日韩欧美免费精品| 日日夜夜操网爽| 美女xxoo啪啪120秒动态图 | 色精品久久人妻99蜜桃| 麻豆久久精品国产亚洲av| 可以在线观看的亚洲视频| 国产av在哪里看| 成年免费大片在线观看| 国产真实伦视频高清在线观看 | 天天一区二区日本电影三级| 18禁裸乳无遮挡免费网站照片| 成年女人看的毛片在线观看| 国产麻豆成人av免费视频| 亚洲欧美日韩无卡精品| 国产精品永久免费网站| 女生性感内裤真人,穿戴方法视频| 亚洲中文日韩欧美视频| 国产高清有码在线观看视频| 久久精品91蜜桃| 午夜激情福利司机影院| avwww免费| 亚洲在线观看片| or卡值多少钱| 国产成人影院久久av| 少妇的逼水好多| 亚洲七黄色美女视频| 99视频精品全部免费 在线| 能在线免费观看的黄片| 成人毛片a级毛片在线播放| 国产日本99.免费观看| 午夜a级毛片| 久久久精品大字幕| 超碰av人人做人人爽久久| .国产精品久久| 别揉我奶头~嗯~啊~动态视频| 神马国产精品三级电影在线观看| 男人狂女人下面高潮的视频| 亚洲欧美日韩高清专用| 亚洲精品一区av在线观看| 亚洲国产精品久久男人天堂| 欧美精品国产亚洲| 搞女人的毛片| 久久午夜福利片| 我的老师免费观看完整版| 成年免费大片在线观看| 久久精品国产清高在天天线| 赤兔流量卡办理| 欧美激情在线99| 亚洲中文字幕一区二区三区有码在线看| 国产成人影院久久av| 亚洲 国产 在线| 久久草成人影院| 香蕉av资源在线| 赤兔流量卡办理| 免费人成视频x8x8入口观看| 99久久久亚洲精品蜜臀av| 一级av片app| 在线免费观看的www视频| 少妇的逼水好多| 99久久无色码亚洲精品果冻| 欧美一区二区精品小视频在线| 99久久精品国产亚洲精品| 精品国产三级普通话版| 99久久精品一区二区三区| 成人午夜高清在线视频| 日本成人三级电影网站| 色精品久久人妻99蜜桃| av福利片在线观看| av视频在线观看入口| 婷婷亚洲欧美| 啪啪无遮挡十八禁网站| 在线十欧美十亚洲十日本专区| 欧美性感艳星| 91在线观看av| 国产精品自产拍在线观看55亚洲| 国产精品野战在线观看| 亚洲国产欧美人成| 欧美高清成人免费视频www| 亚洲性夜色夜夜综合| 国产亚洲精品av在线| 黄色视频,在线免费观看| 国产伦在线观看视频一区| 一级毛片久久久久久久久女| 一个人看视频在线观看www免费| 免费看美女性在线毛片视频| 搞女人的毛片| 免费搜索国产男女视频| 一级黄色大片毛片| 久久久久九九精品影院| 欧美日韩黄片免| 欧美日韩福利视频一区二区| 亚洲精品亚洲一区二区| 成年免费大片在线观看| 精华霜和精华液先用哪个| 欧洲精品卡2卡3卡4卡5卡区| 国产精品一及| 国产色婷婷99| 欧美一区二区国产精品久久精品| 成人高潮视频无遮挡免费网站| 午夜免费激情av| 色在线成人网| 久久久精品大字幕| 一区二区三区四区激情视频 | 国产视频内射| 国产成年人精品一区二区| 欧美绝顶高潮抽搐喷水| 麻豆国产av国片精品| 3wmmmm亚洲av在线观看| 日日摸夜夜添夜夜添小说| 男女之事视频高清在线观看| 每晚都被弄得嗷嗷叫到高潮| 欧洲精品卡2卡3卡4卡5卡区| 亚洲av电影在线进入| 在线天堂最新版资源| 又爽又黄无遮挡网站| 亚洲国产欧洲综合997久久,| 成人国产综合亚洲| 在线免费观看不下载黄p国产 | 国模一区二区三区四区视频| 自拍偷自拍亚洲精品老妇| 久久久久久久亚洲中文字幕 | 在线观看免费视频日本深夜| 午夜激情福利司机影院| 色吧在线观看| 日本熟妇午夜| 国产美女午夜福利| 香蕉av资源在线| 成人永久免费在线观看视频| 毛片女人毛片| 丁香欧美五月| 欧美潮喷喷水| 国模一区二区三区四区视频| 亚洲成人精品中文字幕电影| 脱女人内裤的视频| 中亚洲国语对白在线视频| 99国产极品粉嫩在线观看| 国产精品一区二区免费欧美| 一夜夜www| 在线观看av片永久免费下载| 中文字幕人妻熟人妻熟丝袜美| 嫩草影院精品99| 精品国产亚洲在线| 一级av片app| 成年女人永久免费观看视频| 国产精品1区2区在线观看.| 国产亚洲欧美98| 天堂√8在线中文| 白带黄色成豆腐渣| xxxwww97欧美| 天堂√8在线中文| av福利片在线观看| 男人狂女人下面高潮的视频| 亚洲国产欧美人成| 亚洲中文字幕日韩| 亚洲av电影不卡..在线观看| 国产一区二区三区在线臀色熟女| 国产精品亚洲一级av第二区| 国产单亲对白刺激| 欧美一区二区国产精品久久精品| .国产精品久久| 首页视频小说图片口味搜索| 变态另类丝袜制服| 国产精品亚洲一级av第二区| 如何舔出高潮| or卡值多少钱| 麻豆久久精品国产亚洲av| 丰满人妻熟妇乱又伦精品不卡| 亚洲性夜色夜夜综合| 国产免费一级a男人的天堂| 高清在线国产一区|