• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    陸戰(zhàn)對抗中的智能體博弈策略生成方法

    2022-02-17 02:55:52王玉賓孫怡峰張玉臣
    指揮與控制學(xué)報(bào) 2022年4期
    關(guān)鍵詞:陸戰(zhàn)點(diǎn)位射擊

    王玉賓 孫怡峰 吳 疆 李 智 張玉臣

    1.中國人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 河南 鄭州 450001

    智能體是人工智能的一個(gè)基本術(shù)語, 廣義的智能體包括人類、機(jī)器人、軟件程序等[1]. 狹義的智能體是能感知環(huán)境, 根據(jù)環(huán)境變化作出合理判斷和行動, 從而實(shí)現(xiàn)某些目標(biāo)的計(jì)算機(jī)程序. 從感知序列集合到執(zhí)行動作集合的映射也稱為智能體的策略[2]. 智能體策略的研究對實(shí)現(xiàn)無人系統(tǒng)自主能力[3]和人機(jī)混合智能[4]具有重要意義.

    決策指根據(jù)一定目標(biāo)選擇備選方案或動作的過程. 傳統(tǒng)使用腳本規(guī)則[5]、有限狀態(tài)機(jī)[6]、行為樹[7]等方法進(jìn)行智能體決策行為建模, 決策模型對應(yīng)了智能體的策略. 這類智能體的策略具有較強(qiáng)的可解釋性, 但是其需要大量的領(lǐng)域?qū)<抑R. 另一方面上述智能體通常使用基于專家知識的純策略, 其行為模式是固定的, 在復(fù)雜對抗場景中存在適應(yīng)性不強(qiáng)和靈活度不夠的問題. 近年, 深度強(qiáng)化學(xué)習(xí)成為智能體策略生成的重要方法, 在Atari 游戲[8]、圍棋[9-11]、德州撲克[12]、無人駕駛[13]等領(lǐng)域取得了突破進(jìn)展, 部分場景中已經(jīng)達(dá)到或超越了人類專家水平. 然而基于強(qiáng)化學(xué)習(xí)的智能體在更為復(fù)雜的場景中面臨著感知狀態(tài)空間巨大、獎勵稀疏、長程決策動作組合空間爆炸等難題[14].

    戰(zhàn)爭對抗作為一種復(fù)雜對抗場景, 一直是智能體策略生成研究的重點(diǎn), 并越來越受到關(guān)注[15-17], 但當(dāng)前研究還缺少實(shí)質(zhì)性的進(jìn)展, 特別是在人機(jī)對抗中[18], 人類對手策略變化造成的環(huán)境非靜態(tài)性會使智能體顯得呆板、缺少應(yīng)變能力.

    針對陸軍戰(zhàn)術(shù)級對抗場景中智能體狀態(tài)動作空間復(fù)雜和行為模式固定的問題, 以中科院“廟算·智勝即時(shí)策略人機(jī)對抗平臺”陸軍戰(zhàn)術(shù)對抗兵棋(以下簡稱“廟算”陸戰(zhàn)對抗兵棋)為實(shí)驗(yàn)平臺, 提出了基于博弈混合策略的智能體對抗策略生成方法. 本文工作主要有3 個(gè)方面:

    1)對陸戰(zhàn)對抗中實(shí)體動作進(jìn)行抽象、分層, 建立智能體任務(wù)分層框架, 降低問題求解的復(fù)雜度.

    2)對陸戰(zhàn)對抗實(shí)體任務(wù)中關(guān)鍵要素進(jìn)行分析,構(gòu)建對抗問題博弈模型, 并給出收益矩陣的計(jì)算方法.

    3)給出陸戰(zhàn)對抗兵棋推演場景中智能體混合策略均衡的求解方法, 對本文所提方法的可行性進(jìn)行了驗(yàn)證.

    1 陸戰(zhàn)對抗智能體框架設(shè)計(jì)

    針對復(fù)雜人機(jī)對抗問題, 通常使用分層任務(wù)分解與任務(wù)協(xié)同機(jī)制對決策空間進(jìn)行維度約減[18]. 本節(jié)使用任務(wù)分層的方法對陸戰(zhàn)對抗問題進(jìn)行形式化, 構(gòu)建陸戰(zhàn)對抗場景中基于任務(wù)分層的智能體行為模型.

    1.1 智能體框架

    在陸戰(zhàn)對抗場景中, 智能體通常用于指揮紅方或藍(lán)方的所有兵力實(shí)體, 與人類指揮的另一方兵力實(shí)體進(jìn)行對抗, 完成戰(zhàn)斗消耗和目標(biāo)奪控的任務(wù). 圖1 為“廟算”陸戰(zhàn)對抗兵棋平臺中一個(gè)戰(zhàn)術(shù)級對抗想定, 其中戰(zhàn)斗實(shí)體類型主要有步兵、坦克、戰(zhàn)車、無人車、巡飛彈等.

    圖1 陸戰(zhàn)對抗兵棋戰(zhàn)術(shù)級想定示意圖Fig.1 Schematic diagram of a tactical-level war game scenario of land warfare confrontation

    對抗過程中, 智能體需要根據(jù)環(huán)境的狀態(tài)和己方實(shí)體之間的協(xié)同關(guān)系, 決策各個(gè)實(shí)體的機(jī)動、射擊、掩蔽等原子動作, 由此構(gòu)成智能體的基本策略框架如圖2 所示. 本文重點(diǎn)研究單個(gè)任務(wù)執(zhí)行策略生成方法, 多個(gè)實(shí)體之間的協(xié)同策略在2.3 節(jié)給出.

    圖2 陸戰(zhàn)對抗場景中智能體框架Fig.2 The agent framework in land warfare confrontation scenario

    馬爾可夫決策過程(Markov decision process,MDP)給出了智能體決策的基本模型, 用四元組描述, 其中, S 是的狀態(tài)集合;A 是可選動作集合;P 是狀態(tài)轉(zhuǎn)移概率, P(st+1|st, at)表示在狀態(tài)st下采取動作at后到達(dá)狀態(tài)st+1的概率, 狀態(tài)轉(zhuǎn)移具有馬爾可夫特性, 即環(huán)境下一個(gè)狀態(tài)st+1只與當(dāng)前的狀態(tài)st和動作at有關(guān), 即P(st+1|s0, a0, s1, a1, …, st, at)=P(st+1|st, at);R 是獎勵函數(shù), P(st+1|st, at)表示在狀態(tài)st下采取動作at后狀態(tài)轉(zhuǎn)移到st+1時(shí)獲得的收益. 在部分可觀察環(huán)境下, 智能體只能觀察到環(huán)境的部分狀態(tài)ot?st, 并根據(jù)其選擇動作at, 用π 表示動作選擇策略, 則at=π(ot).

    在“廟算”陸戰(zhàn)對抗兵棋中, 某一時(shí)刻的環(huán)境狀態(tài)包含戰(zhàn)斗實(shí)體類型、位置、班(車)數(shù)、機(jī)動狀態(tài)、對抗區(qū)域的地形等信息, 對于對抗一方來說, 觀察狀態(tài)只包含己方實(shí)體能看到的信息. 實(shí)體可選動作集合包括機(jī)動、射擊、引導(dǎo)射擊、奪控、下車、掩蔽等動作. 狀態(tài)轉(zhuǎn)移概率由推演規(guī)則決定. 動作回報(bào)主要通過奪控得分和兵力損失情況進(jìn)行量化.

    陸戰(zhàn)對抗中地形復(fù)雜性、實(shí)體類型和動作多樣性、狀態(tài)轉(zhuǎn)移的高隨機(jī)性、回報(bào)的稀疏性等造成了智能體決策問題的復(fù)雜性[19], 構(gòu)建觀察狀態(tài)到原子動作的映射是十分瑣碎和困難的. 人類在完成復(fù)雜任務(wù)時(shí), 通常將其抽象分解為更加具體的子任務(wù), 任務(wù)的完成由下一級子任務(wù)或動作組合實(shí)現(xiàn), 分層任務(wù)網(wǎng)、分層強(qiáng)化學(xué)習(xí)等方法都使用了任務(wù)分層的思想[20-21]. 作戰(zhàn)任務(wù)通常采用任務(wù)層次化方法建模[22], 在陸戰(zhàn)對抗場景中, 可將復(fù)雜任務(wù)分解為若干子任務(wù)進(jìn)行策略求解.

    任務(wù)是為實(shí)現(xiàn)特定意圖而從事的有目的的活動,可用三元組Mi=描述, 其中i 指任務(wù)種類的編號, 本文中M0特指包含智能體活動整體過程的總?cè)蝿?wù). Ti是第i 種任務(wù)Mi終止時(shí)的觀察狀態(tài)集合.在任務(wù)Mi執(zhí)行過程中, 如果任意時(shí)刻t 觀察狀態(tài)ot∈Ti, 則當(dāng)前任務(wù)Mi結(jié)束. Ti也可表達(dá)為若干個(gè)命題的析取成立, 或若干個(gè)命題組成的集合, 這將在下一小節(jié)給出實(shí)例. Ai表示完成任務(wù)Mi的可選動作集合, 通常由原子動作組成, 當(dāng)任務(wù)比較復(fù)雜時(shí), 任務(wù)Mi可進(jìn)一步分解為更加具體的子任務(wù), 此時(shí)可選動作可以是一個(gè)子任務(wù). Ri是偽獎勵函數(shù), 從觀察狀態(tài)ot?Ti到達(dá)終止?fàn)顟B(tài)ot+1∈Ti時(shí), 任務(wù)目標(biāo)的完成程度用Ri(ot+1|ot, a)表示, 通常根據(jù)Ri求解任務(wù)Mi的最優(yōu)策略πi. 圖3 給出了陸戰(zhàn)對抗場景中單個(gè)實(shí)體的分層動作架構(gòu).

    圖3 基于任務(wù)分層的單個(gè)實(shí)體動作架構(gòu)Fig.3 The single entity action architecture based on task hierarchy

    1.2 單個(gè)實(shí)體行為建模

    陸戰(zhàn)對抗中單個(gè)實(shí)體任務(wù)是通過射擊、引導(dǎo)射擊、奪控等動作實(shí)現(xiàn)的, 而這些動作執(zhí)行要受到其所在點(diǎn)位的通視情況、與目標(biāo)距離和高差等條件約束,在實(shí)施這些動作之前戰(zhàn)斗實(shí)體需要先機(jī)動到合適的點(diǎn)位, 而后才能通過實(shí)施相應(yīng)動作達(dá)到收益最大化的目的. 由上, 陸戰(zhàn)對抗中實(shí)體任務(wù)可定義為:實(shí)體以實(shí)施觀察、射擊、奪控等動作和阻止對手實(shí)施觀察、射擊、奪控等動作為目的, 而采取的從當(dāng)前點(diǎn)位機(jī)動到滿足動作實(shí)施條件的點(diǎn)位直到完成相應(yīng)動作的活動.

    根據(jù)陸戰(zhàn)對抗中動作目的不同, 戰(zhàn)斗實(shí)體任務(wù)可被抽象為偵察、攻擊、躲避、奪控、兵力投送等任務(wù), 可用1.1 節(jié)所述三元組形式化. 在所有類型戰(zhàn)斗實(shí)體中, 無人車具有以下特點(diǎn):1)相對其他車輛棋子來說任務(wù)更加豐富;2)偵察結(jié)果對戰(zhàn)場態(tài)勢分析十分重要;3)被發(fā)現(xiàn)后容易毀傷, 需要更加機(jī)動靈活的控制方式;4)現(xiàn)實(shí)對抗中迫切需要具備自主協(xié)同能力. 因此, 本文以無人車為例給出戰(zhàn)斗實(shí)體常見任務(wù)的形式化方法, 并求解最優(yōu)策略, 其他類型棋子可參照無人車.

    陸戰(zhàn)對抗中, 無人車用于協(xié)同坦克、戰(zhàn)車等完成火力消耗和奪控任務(wù), 主要任務(wù)是發(fā)現(xiàn)對手位置和引導(dǎo)射擊. 用U 代表無人車, 無人車子總?cè)蝿?wù)為MU,0,對應(yīng)的終止?fàn)顟B(tài)集合TU,0={無人車被消滅, 達(dá)到最大推演時(shí)間tmax}. 任務(wù)目標(biāo)完成度RU,0通過對手戰(zhàn)損值和己方戰(zhàn)損值差值衡量, 差值越大RU,0值越高. 如圖4 所示, 本文將無人車子任務(wù)分為偵察、攻擊、躲避、奪控4 種, 分別用MU,R、MU,S、MU,H、MU,C表示, 則無人車總?cè)蝿?wù)MU,0所包含的動作集合可表示為AU,0={MU,R, MU,S, MU,H, MU,C}.

    圖4 無人車任務(wù)分層架構(gòu)Fig.4 The task hierarchical architecture of unmanned vehicle

    無人車偵察任務(wù)MU,R定義為無人車以觀察到對手為目的, 而采取的從當(dāng)前點(diǎn)位機(jī)動到滿足觀察條件的點(diǎn)位直到觀察到對手的活動. 其對應(yīng)的終止?fàn)顟B(tài)集合TU,R={沒有符合完成偵察任務(wù)的點(diǎn)位;戰(zhàn)車可用于引導(dǎo)射擊的彈藥消耗完畢;對手車輛全被消滅導(dǎo)致沒有引導(dǎo)射擊任務(wù);己方奪控棋子被消滅導(dǎo)致無人車需要執(zhí)行奪控任務(wù)}. AU,R={機(jī)動, 掩蔽, 引導(dǎo)射擊,奪控, 等待}. 任務(wù)目標(biāo)完成度RU,R通過觀察到對手機(jī)動路徑中點(diǎn)位數(shù)量進(jìn)行衡量, 觀察到的點(diǎn)位越多RU,R值越高.

    無人車攻擊任務(wù)MU,S定義為無人車以實(shí)施射擊動作為目的, 而采取的從當(dāng)前點(diǎn)位機(jī)動到射擊收益最大的點(diǎn)位直到完成射擊動作的活動. 其對應(yīng)的終止?fàn)顟B(tài)集合TU,S={沒有符合完成射擊任務(wù)的點(diǎn)位;武器冷卻時(shí)間大于對手射擊到無人車的時(shí)間;己方奪控棋子被消滅導(dǎo)致無人車需要執(zhí)行奪控任務(wù)}. AU,S={機(jī)動, 掩蔽, 射擊, 引導(dǎo)射擊, 奪控, 等待}. 任務(wù)目標(biāo)完成度RU,S通過對手戰(zhàn)損值和己方戰(zhàn)損值差值衡量,差值越大RU,S值越高.

    無人車躲避任務(wù)MU,H定義為無人車以不被對手射擊為目的, 而采取的從當(dāng)前點(diǎn)位機(jī)動到對手射擊收益最小點(diǎn)位的活動. 其對應(yīng)的終止?fàn)顟B(tài)集合TU,H={沒有符合完成躲避任務(wù)的點(diǎn)位;武器冷卻時(shí)間小于對手射擊到無人車的時(shí)間;己方奪控棋子被消滅導(dǎo)致無人車需要執(zhí)行奪控任務(wù)}. AU,H={機(jī)動, 掩蔽, 奪控,等待}. 任務(wù)目標(biāo)完成度RU,H通過己方戰(zhàn)損值衡量,己方戰(zhàn)損值越小RU,H值越高.

    無人車奪控任務(wù)MU,C定義為無人車以獲得指定點(diǎn)位控制權(quán)為目的, 而采取的從當(dāng)前點(diǎn)位機(jī)動到指定奪控點(diǎn)位并取得控制權(quán)的活動. 其對應(yīng)的終止?fàn)顟B(tài)集合TU,C={沒有符合到達(dá)奪控點(diǎn)的路徑;奪控點(diǎn)或相鄰單元格有對手棋子不能進(jìn)行奪控}. AU,C={機(jī)動,掩蔽, 奪控, 等待}. 任務(wù)目標(biāo)完成度RU,C通過己方奪控得分和戰(zhàn)損值差值衡量, 差值越大RU,C值越高.

    無人車任務(wù)執(zhí)行算法如下.

    1 初始化:高層任務(wù)MU,0、高層終止?fàn)顟B(tài)集合TU,0、高層任務(wù)策略πU, 0.子任務(wù)集合{MU, R, MU, S, MU, H, MU, C},各子任務(wù)對應(yīng)的終止?fàn)顟B(tài)集合分別為TU, R、TU, S、TU, H、TU, C,執(zhí)行策略

    分別為πU,R、πU,S、πU,H、πU,C 2 根據(jù)高層任務(wù)策略πU,0 和初始狀態(tài)o0 選擇當(dāng)前的子任務(wù)M=πU,0(o0)∈{MU,R, MU,S, MU,H, MU,C},子任務(wù)M 對應(yīng)的終止?fàn)顟B(tài)集合記為T,子任務(wù)對應(yīng)策略記為π 3 從時(shí)間步t=0 到最大時(shí)間tmax:4 如果當(dāng)前觀察狀態(tài)ot∈TU,0,轉(zhuǎn)到步驟8 5 如果當(dāng)前觀察狀態(tài)ot∈T,轉(zhuǎn)到步驟6,否則轉(zhuǎn)到步驟7 6 根據(jù)觀察狀態(tài)ot 選擇新的子任務(wù)M=πU,0(o0),更新對應(yīng)的終止?fàn)顟B(tài)集合T 和策略π 7 根據(jù)觀察狀態(tài)ot 選擇并輸出原子動作at=π(ot)8 終止任務(wù)MU,0

    其中, πU,0代表高層任務(wù)策略, πU,R、πU,S、πU,H、πU,C代表偵察、攻擊、躲避、奪控4 種子任務(wù)的策略. 各個(gè)策略可通過貝葉斯網(wǎng)絡(luò)(Bayesian networks)[23]、湯普森采樣(Thompson sampling)[24]等方式進(jìn)行環(huán)境建模和策略求解, 也可采用深度強(qiáng)化學(xué)習(xí)方式求解. 本文高層策略通過使用有限狀態(tài)機(jī)進(jìn)行控制, 重點(diǎn)研究子任務(wù)的策略生成方法, 主要通過構(gòu)建策略式博弈模型求解混合策略, 將在第2 節(jié)中詳述.

    2 對抗任務(wù)博弈策略生成算法

    通過分析, 任務(wù)Mi執(zhí)行過程可以看作由三元組定義的馬爾可夫決策過程, 其中, Ai給出了可選動作類型, Ti給出了該馬爾可夫過程的終止命題, Ri給出任務(wù)目標(biāo)完成情況的評價(jià)方法, 由此得到任務(wù)的動作策略πi. 在陸戰(zhàn)對抗場景中任務(wù)目標(biāo)通常是比較抽象的, 因此, 偽獎勵函數(shù)Ri很難進(jìn)行準(zhǔn)確定義, 傳統(tǒng)基于專家經(jīng)驗(yàn)直接定義動作腳本或者將Ri轉(zhuǎn)化為目標(biāo)函數(shù)求極值解的方法容易受到專家經(jīng)驗(yàn)局限性的影響;而使用深度強(qiáng)化學(xué)習(xí)方法進(jìn)行策略優(yōu)化面臨著神經(jīng)網(wǎng)絡(luò)模型初值不易確定(冷啟動)的問題. 本節(jié)使用策略式博弈模型對陸戰(zhàn)對抗問題進(jìn)行分析建模,并給出基于混合策略的對抗任務(wù)執(zhí)行方法.

    2.1 策略式博弈模型和博弈解

    陸戰(zhàn)對抗問題是對抗雙方之間的博弈問題. 策略式博弈(strategic-form game)是博弈問題中最基本的形式, 用三元組表示, 其中N={1, 2, …, n}表示所有參與者構(gòu)成的有限集合;Ai表示參與者i∈N 的動作集合, 所有參與者的聯(lián)合動作空間用表示, 其中一個(gè)聯(lián)合動作向量用表示;表示參與者的收益(獎勵)函數(shù), Ri(a)表示在聯(lián)合動作a 下參與者i的收益. 策略式博弈又稱矩陣博弈, 可以用一個(gè)n 維張量表示動作和收益的關(guān)系, 多數(shù)博弈問題都可以轉(zhuǎn)化成策略式博弈問題進(jìn)行求解. 陸戰(zhàn)對抗通常是紅藍(lán)雙方對抗(n=2), 假設(shè)雙方收益函數(shù)取相反值,即, 此時(shí)對抗問題建模為二人零和博弈問題.

    在陸戰(zhàn)對抗場景中, 狀態(tài)通常是部分可觀察的,同一觀察狀態(tài)可能對應(yīng)著不同的對手狀態(tài), 此時(shí)選擇某一動作通常只能在部分對手狀態(tài)下取得正收益,不存在嚴(yán)格優(yōu)勢的純策略. 在人機(jī)對抗中, 如果智能體采用純策略, 人類對手經(jīng)過重復(fù)對抗會掌握智能體策略, 并在后續(xù)對抗中采取反制策略. 因此, 在陸戰(zhàn)對抗場景中, 當(dāng)不存在嚴(yán)格優(yōu)勢的純策略時(shí), 智能體采用混合策略要嚴(yán)格優(yōu)勢于純策略. 下面以陸戰(zhàn)對抗兵棋推演中戰(zhàn)斗實(shí)體子任務(wù)為例給出混合策略求解方法.

    2.2 陸戰(zhàn)對抗博弈模型和策略生成算法

    在陸戰(zhàn)對抗中, 用(x1, x2, …, xj)表示智能體子任務(wù)Mi執(zhí)行過程中的位置序列, 引導(dǎo)射擊、射擊、奪控等動作通常發(fā)生在最后一個(gè)點(diǎn)位xj(以下稱為目標(biāo)點(diǎn)位), 因此, 任務(wù)完成效果Ri與最后一個(gè)點(diǎn)位xj的關(guān)聯(lián)性較強(qiáng), 與前j-1 個(gè)點(diǎn)位關(guān)聯(lián)性較弱. 基于上述分析, 本文重點(diǎn)研究目標(biāo)點(diǎn)位的決策方法, 對于從任務(wù)出發(fā)點(diǎn)x1到目標(biāo)點(diǎn)xj之間的機(jī)動路徑可使用Dijkstra、A*等算法得到[25], 不作重點(diǎn)研究. 智能體到達(dá)目標(biāo)點(diǎn)位后的觀察、射擊、奪控等其他動作按照收益最大原則滿足條件即可執(zhí)行, 本文使用腳本規(guī)則控制.

    在陸戰(zhàn)對抗中, 任務(wù)Mi目標(biāo)點(diǎn)位的選擇主要受到兩類條件約束:1)任務(wù)時(shí)效性, 即子任務(wù)是根據(jù)當(dāng)前態(tài)勢選擇的, 通常只在一段時(shí)間內(nèi)有效, 如果在有限時(shí)間內(nèi)無法安全到達(dá)目標(biāo)點(diǎn)位, 或者到達(dá)后態(tài)勢改變導(dǎo)致任務(wù)無法執(zhí)行, 此類點(diǎn)位不應(yīng)作為目標(biāo)點(diǎn)位;2)任務(wù)完成度, 即受到目標(biāo)點(diǎn)位坐標(biāo)、高程等因素影響, 到達(dá)目標(biāo)點(diǎn)位后實(shí)施目標(biāo)動作, 能否得到高的收益. 在兵棋推演場景中多數(shù)點(diǎn)位是不能滿足時(shí)效性要求的, 是嚴(yán)格劣勢策略. 因此, 可先根據(jù)時(shí)效性要求對敵我雙方目標(biāo)點(diǎn)位空間進(jìn)行壓縮, 得到敵我雙方候選目標(biāo)點(diǎn)位集合, 再通過建立收益矩陣進(jìn)行混合策略求解. 下面以紅方無人車偵察任務(wù)MU,R為例給出混合策略的求解方法, 其他任務(wù)混合策略求解方法可參考此方法.

    無人車偵察任務(wù)MU,R通常在對抗開始階段執(zhí)行,目的是在對手奪控或威脅到紅方戰(zhàn)車等實(shí)體前, 完成觀察和引導(dǎo)射擊任務(wù), 同時(shí)避免被對手攻擊, 相關(guān)要素如圖5 所示. 其中六角格不同的背景顏色表示點(diǎn)位高程不同, 白色背景點(diǎn)位高程最低. 綠色小旗所在點(diǎn)位為奪控目標(biāo). 紅色正方形點(diǎn)位代表紅方戰(zhàn)車選取的兵力投送點(diǎn)位, 橫線陰影區(qū)域代表能通視戰(zhàn)車的區(qū)域. 藍(lán)色三角形代表藍(lán)方坦克出發(fā)點(diǎn)位, 藍(lán)色實(shí)線代表其中一條可選的攻擊紅方戰(zhàn)車路徑, 藍(lán)色虛線代表一條可選的奪控路徑. 紅色菱形代表一個(gè)無人車偵察任務(wù)候選目標(biāo)點(diǎn)位, 綠色虛線代表其對對手坦克機(jī)動路徑上某一條點(diǎn)位的觀察通路. 紅方無人車執(zhí)行偵察任務(wù)時(shí), 需要根據(jù)戰(zhàn)車兵力投送點(diǎn)位和奪控點(diǎn)周圍地形, 選擇合適的點(diǎn)位實(shí)現(xiàn)對藍(lán)方坦克的通視, 同時(shí)避免被對手攻擊.

    用函數(shù)see(x1, x2)表示點(diǎn)位x1對x2的通視情況,能通視則see(x1, x2)=1, 否則see(x1, x2)=0, xchariot表紅方戰(zhàn)車的停車點(diǎn),對戰(zhàn)車構(gòu)成威脅的點(diǎn)位集合為Xchariot={x|see(x, xchariot)=1}, 對應(yīng)圖5 中橫線陰影區(qū)域. 用E表示對手棋子集合, xe表示對手棋子e 當(dāng)前點(diǎn)位, xt表示無人車當(dāng)前點(diǎn)位, xmain表示主要奪控點(diǎn), time(x1, x2)表示從x1機(jī)動到x2需要的時(shí)間, timestop表示無人車從機(jī)動狀態(tài)轉(zhuǎn)到可引導(dǎo)射擊狀態(tài)的時(shí)間. 則紅方無人車偵察任務(wù)目標(biāo)點(diǎn)位xtarget的候選集合為

    其含義為無人車要在對手奪控和能夠攻擊到紅方戰(zhàn)車之前到達(dá)偵察點(diǎn)位, 設(shè)無人車偵察任務(wù)候選點(diǎn)位集合為.

    根據(jù)對手意圖, 對手動作集合YE為對手奪控目標(biāo)點(diǎn)位集合YE,C和進(jìn)攻目標(biāo)點(diǎn)位集合YE,S的并集.由于偵察效果是通過對手機(jī)動路徑上點(diǎn)位的通視情況體現(xiàn)的, 這里使用對手到達(dá)目標(biāo)點(diǎn)位的機(jī)動路徑代替對應(yīng)的目標(biāo)點(diǎn)位進(jìn)行收益計(jì)算, 用route(x1, x2)表示從點(diǎn)位x1機(jī)動到x2路徑包含的點(diǎn)位序列. XE,Hist表示紅方最后一次觀察到的對手所有棋子點(diǎn)位集合.Xcities表示所有的奪控點(diǎn)位集合. 則對手奪控動作集合為

    進(jìn)攻動作集合為

    對YE,C、YE,S求并集, 得到對手棋子動作集合,表示為.

    對于無人車偵察任務(wù)MU,R, 其完成效果RU,R是通過是否觀察到對手評價(jià)的. 假設(shè)無人車出現(xiàn)在點(diǎn)xU,i, 對手出現(xiàn)在點(diǎn)xE,j, 無人車收益計(jì)算方式為:

    其中, is(·)為條件判斷函數(shù), 滿足取1, 否則取0;xU,i表示無人車當(dāng)前點(diǎn)位;xchariot,i表示戰(zhàn)車當(dāng)前點(diǎn)位;xE,t表示對手棋子當(dāng)前點(diǎn)位;hide(xU,i)表示無人車在xU,i處保持掩蔽狀態(tài). 式(4)的含義為無人車收益為引導(dǎo)射擊收益和被攻擊收益之和:如果能夠在對手到達(dá)點(diǎn)位xE,j之前完成對xE,j的觀察和引導(dǎo)射擊準(zhǔn)備, 則引導(dǎo)射擊收益為正值(設(shè)單次收益值為k1), 否則引導(dǎo)射擊收益為0;如果被對手看到且被對手射擊, 則收益為負(fù)值(設(shè)單次收益值為k2). 構(gòu)建收益矩陣時(shí), 紅方動作為點(diǎn)位xU,i、對手動作為路徑y(tǒng)E,j時(shí), 無人車收益為:

    通過上述計(jì)算方式得到無人車偵察任務(wù)收益矩陣如下.

    該矩陣對應(yīng)的的最優(yōu)解稱為混合策略均衡, 可先剔除嚴(yán)格劣勢策略(對應(yīng)的選擇概率為0), 而后使用線性規(guī)劃方法求解[26]. 用p(xU,i)表示點(diǎn)位xU,i的選擇概率, 對應(yīng)的線性規(guī)劃問題為

    以上是無人車偵察任務(wù)的混合策略求解方法,其他任務(wù)求解方法類似. 奪控任務(wù)不需要選擇目標(biāo)點(diǎn), 只是單純的路徑規(guī)劃問題, 本文不進(jìn)行研究, 只給出躲避任務(wù)和射擊任務(wù)收益函數(shù)構(gòu)建方法.

    無人車躲避任務(wù)只考慮對手對我方的通視, 不考慮我方對對手的通視, 收益函數(shù)表示為:

    無人車射擊任務(wù)收益通過攻擊等級進(jìn)行評價(jià),用式(7)表示,其含義為:當(dāng)雙方互相通視時(shí),先進(jìn)入射擊狀態(tài)一方收益為正;當(dāng)單方通視時(shí),通視一方收益為正;當(dāng)互不通視時(shí), 收益為0. 其中, level(x1, x2)表示點(diǎn)位x1處棋子對x2處棋子射擊的攻擊等級,timeshoot(x1,x2)表示棋子從點(diǎn)位x1處機(jī)動到x2處并進(jìn)入準(zhǔn)備射擊狀態(tài)的時(shí)間.

    2.3 多實(shí)體任務(wù)策略協(xié)同

    假設(shè)陸戰(zhàn)對抗中己方有Z 個(gè)戰(zhàn)斗實(shí)體, 實(shí)體集合用Entity={entity1, entity2, …, entityz}表示. 當(dāng)同一時(shí)刻有多個(gè)實(shí)體需要決策時(shí), 如果直接求解聯(lián)合策略,其動作空間是十分巨大的, 同時(shí)也不利于不同場景策略的遷移. 而采用分布式?jīng)Q策時(shí)實(shí)體之間通常會因?yàn)樽非蟾髯允找孀畲蠡a(chǎn)生競爭關(guān)系. 針對上述問題, 可將多實(shí)體任務(wù)并行決策問題轉(zhuǎn)化為順序決策問題, 將實(shí)體任務(wù)劃分為不同的層級(優(yōu)先級), 先決策層級高的實(shí)體任務(wù), 后決策層級低的實(shí)體任務(wù).

    不同實(shí)體任務(wù)之間層級高低通過風(fēng)險(xiǎn)度D 評價(jià),其計(jì)算方法為, 其中分別表示實(shí)體entityi執(zhí)行當(dāng)前子任務(wù)Mi,t可能得到的最大收益和最小收益. D 越大對于整體收益的影響越大, 在所有實(shí)體中主導(dǎo)性越強(qiáng), 在順序決策中的層級越高, 反之D 越小層級越低. 假設(shè)Entity 中實(shí)體之間的風(fēng)險(xiǎn)度滿足,則實(shí)體決策順序如圖6 所示.

    圖6 多實(shí)體順序決策流程Fig.6 The multi entity sequential decision-making process

    在陸戰(zhàn)對抗兵棋推演中, 令Rmax(Mi,t)=奪控分+對手戰(zhàn)損分,Rmin(Mi,t)=-己方戰(zhàn)損分.由于戰(zhàn)車戰(zhàn)損會影響到步兵、無人車和巡飛彈, 任務(wù)風(fēng)險(xiǎn)度最大. 無人車沒有裝甲, 在與對手交火時(shí)戰(zhàn)損值最大, 風(fēng)險(xiǎn)度次之. 坦克具有機(jī)動靈活的射擊能力和較強(qiáng)的裝甲防護(hù), 任務(wù)風(fēng)險(xiǎn)度小于無人車. 步兵在交火過程中受到射擊時(shí)通常損失較小. 巡飛彈不會受到攻擊. 因此,本文按照戰(zhàn)車、無人車、坦克、步兵、巡飛彈的順序進(jìn)行決策.

    3 實(shí)驗(yàn)與分析

    本文以“廟算”陸戰(zhàn)對抗兵棋中分隊(duì)級對抗想定為場景進(jìn)行仿真實(shí)驗(yàn), 其中紅方戰(zhàn)斗實(shí)體包括步兵、坦克、戰(zhàn)車、無人車、巡飛彈等類型, 藍(lán)方戰(zhàn)斗實(shí)體包括步兵、坦克、戰(zhàn)車等類型, 奪控目標(biāo)通常包含主要奪控目標(biāo)和次要奪控目標(biāo).

    3.1 智能體實(shí)現(xiàn)

    智能體采用集中控制的方式控制各個(gè)棋子, 觀察狀態(tài)為己方所有棋子觀察狀態(tài)的并集(不考慮通信問題). 每個(gè)時(shí)間步, 智能體按照戰(zhàn)車、無人車、坦克、步兵、巡飛彈的順序依次決策己方棋子動作. 其中步兵和巡飛彈由于其任務(wù)風(fēng)險(xiǎn)度小、規(guī)律性強(qiáng), 直接使用腳本規(guī)則控制. 步兵主要執(zhí)行奪控和守控任務(wù), 按照最近奪控點(diǎn)、主要奪控點(diǎn)、守控的順序動作.巡飛彈主要執(zhí)行偵察任務(wù), 根據(jù)對手棋子機(jī)動速度和射擊準(zhǔn)備所需的時(shí)間, 采取不同的偵察頻率, 機(jī)動速度越快、射擊準(zhǔn)備所需時(shí)間越短偵察頻率越高, 坦克最高、戰(zhàn)車次之、步兵最低. 戰(zhàn)車、無人車、坦克使用第1 節(jié)所述分層動作架構(gòu), 高層任務(wù)使用有限狀態(tài)機(jī)控制子任務(wù)切換, 子任務(wù)使用博弈模型進(jìn)行目標(biāo)點(diǎn)位決策, 基于混合策略的智能體決策流程如圖7 所示.

    圖7 基于混合策略的智能體決策流程Fig.7 The agent decision-making process based on hybrid strategies

    為了提高計(jì)算效率, 在構(gòu)建收益矩陣前, 根據(jù)規(guī)則對雙方候選點(diǎn)位進(jìn)行篩選. 由于觀察距離最大為25, 射擊距離最大為20, 將棋子偵察任務(wù)候選區(qū)域限制在主要奪控點(diǎn)距離25 范圍之內(nèi), 將棋子攻擊任務(wù)候選區(qū)域限制在主要奪控點(diǎn)距離20 范圍之內(nèi). 因此,計(jì)算式(1)中威脅區(qū)域時(shí), 實(shí)際候選點(diǎn)位集合是滿足戰(zhàn)車射擊范圍、奪控點(diǎn)射擊范圍和最短路徑要求的點(diǎn)位, 滿足式(8).

    得到收益矩陣后, 矩陣中存在己方收益或?qū)κ质找嫒珵樨?fù)值的點(diǎn)位, 這些點(diǎn)位是嚴(yán)格劣勢策略, 應(yīng)當(dāng)去除. 本文通過求解帕累托前沿的方法反復(fù)剔除己方和對手的嚴(yán)格劣勢策略, 進(jìn)一步壓縮收益矩陣,算法流程如算法2 所示.

    算法2:基于帕累托前沿的目標(biāo)候選集合壓縮算法1 初始化:己方候選動作集合images/BZ_87_1797_1943_2165_1988.png, 對手選動作集合images/BZ_87_1555_2004_1906_2048.png, 己方收益計(jì)算函數(shù)images/BZ_87_1341_2064_1407_2117.png,Xtarget={XU,1}2 從i=2 到N1:3 遍歷所有x*∈Xtarget:4 如果images/BZ_87_1485_2239_2101_2294.png, 將x* 從Xtarget 中剔除5 如果images/BZ_87_1472_2363_2092_2421.png,跳轉(zhuǎn)到步驟2 6 將xU,i 加入到Xtarget 中

    在使用上述算法對于目標(biāo)點(diǎn)位候選集合進(jìn)行壓縮過程中, 以下兩種特殊情況需單獨(dú)處理:

    1)己方多個(gè)候選動作收益相同時(shí), 其選擇概率相同. 在計(jì)算過程中, 只保第1 個(gè)動作對應(yīng)的行, 最終求得的選擇概率為與其收益相同的所有可選動作的概率之和. 對于對手收益相同的動作, 對己方最終策略生成沒有影響, 只保留一個(gè)即可.

    2)如果對手有嚴(yán)格優(yōu)勢策略, 并且其對應(yīng)的己方所有動作收益值相等時(shí), 己方在這些動作中進(jìn)行等概率選擇的意義并不大. 針對上述情況, 考慮到實(shí)際對抗中對手不總是完全理性的, 此時(shí)選擇剔除對手的嚴(yán)格優(yōu)勢策略, 即選擇在對手不是完全理性的情況下求解最優(yōu)策略.

    通過使用上述方法對己方和對手可選動作集合進(jìn)行壓縮后, 使用Python 調(diào)用線性規(guī)劃函數(shù)scipy.optimize.linprog 求解各目標(biāo)點(diǎn)位選擇概率. 而后根據(jù)動作概率選擇目標(biāo)點(diǎn)位, 并根據(jù)目標(biāo)點(diǎn)產(chǎn)生機(jī)動路徑和其他動作.

    本文實(shí)驗(yàn)中路徑規(guī)劃直接使用A*算法搜索代價(jià)最小的路徑. 其中從任意坐標(biāo)x1機(jī)動到相鄰坐標(biāo)x2的代價(jià)cost(x1, x2)計(jì)算方式為:

    cost(x1, x2)=time(x1,x2)+α·seen_num(x2) (11)其中,time(x1,x2)指從x1機(jī)動x2的時(shí)間, seen_num(x2)指可能觀察到x2點(diǎn)位的對手棋子數(shù)量, 系數(shù)α 取遠(yuǎn)大于time(x1, x2)的常數(shù).

    3.2 實(shí)驗(yàn)結(jié)果與分析

    使用“廟算”陸戰(zhàn)對抗兵棋中水網(wǎng)稻田地(201043 1153)和高原通道(2010211129)作戰(zhàn)想定, 通過機(jī)機(jī)對抗和人機(jī)對抗兩種方式對智能體策略進(jìn)行測試.機(jī)機(jī)對抗使用“廟算”陸戰(zhàn)對抗平臺開源的DEMO、WargameAILib_1.0 中的級別2 的智能體(不使用兵力聚合、解聚動作)進(jìn)行測試.

    圖8 為水網(wǎng)稻田地想定中紅方棋子部署后的觀察視圖, 由于各個(gè)棋子采用博弈策略進(jìn)行部署, 其點(diǎn)位較為合理, 能夠?qū)κ止袈窂胶蛫Z控路徑形成較好的火力封鎖效果.

    圖8 紅方棋子采用博弈策略部署后觀察視圖Fig.8 The observation views of red chess pieces after deployment with game strategies

    智能體與不同對手對抗勝率統(tǒng)計(jì)如表1 所示,凈勝分分布如圖9 所示. 兩種不同想定測試結(jié)果證明該方法得到的智能體能直接適用不同的對抗想定,而不需要人類專家知識根據(jù)想定預(yù)先指定智能體任務(wù)目標(biāo)點(diǎn)位.

    表1 智能體測試勝率統(tǒng)計(jì)Table 1 The statistics of winning rate of agent test

    圖9 對抗成績分布Fig.9 The box-plot of confrontation results

    在與開源的AI 庫中的智能體進(jìn)行對抗過程中,由于本文智能體的策略是通過博弈矩陣求解得到的,具有較強(qiáng)的可解釋性, 勝率較高. 另一方面對于當(dāng)前AI 庫中智能體的策略來說, 本文所提出的智能體的混合策略中的部分候選動作是優(yōu)勢策略, 部分是劣勢策略, 同時(shí)需要考慮到兵棋推演系統(tǒng)裁決規(guī)則的高隨機(jī)性, 對抗成績存在負(fù)成績.

    由于本文所提出的智能體使用混合策略進(jìn)行目標(biāo)點(diǎn)位選擇的, 相同態(tài)勢下智能體可能會采取不同的目標(biāo)點(diǎn)位, 因此, 在與人類重復(fù)對抗中, 能夠有效避免因?yàn)槭褂眉儾呗詫?dǎo)致行為模式固定的問題, 不容易被人類對手發(fā)現(xiàn)動作規(guī)律和找到反制策略, 具有較高的勝率.

    綜上, 實(shí)驗(yàn)證明本文提出的陸戰(zhàn)對抗智能體博弈策略具有較強(qiáng)的可解釋性和靈活性, 與現(xiàn)有開源AI 和人類進(jìn)行對抗都具有較高的勝率. 混合策略的運(yùn)用使智能體行為模式更加多樣, 能夠有效避免因?yàn)樾袨槟J焦潭ū蝗祟悓κ轴槍Φ膯栴}.

    4 結(jié)論

    針對陸戰(zhàn)對抗中智能體策略求解困難和行為模式固定的問題, 以陸軍戰(zhàn)術(shù)對抗兵棋推演為場景, 給出博弈矩陣構(gòu)建和混合策略求解的方法, 并通過離線機(jī)機(jī)測試和在線人機(jī)測試對智能體性能進(jìn)行了測試. 實(shí)驗(yàn)證明該方法得到的智能體策略能夠適用于不同的對抗想定, 同時(shí)能夠有效克服智能體行為模式固定的問題. 該方法得到的智能體策略, 可以直接作為復(fù)雜對抗場景中智能體子任務(wù)執(zhí)行方法, 也可用于為基于強(qiáng)化學(xué)習(xí)、遺傳算法等算法的學(xué)習(xí)型智能體初始策略學(xué)習(xí)提供樣本, 有效解決復(fù)雜對抗場景中神經(jīng)網(wǎng)絡(luò)模型冷啟動的問題. 由于該方法得到的智能體策略是通過問題抽象簡化得到的, 其收益矩陣是針對子任務(wù)執(zhí)行得到的近似最優(yōu)解, 在收益矩陣構(gòu)建和計(jì)算過程難免會存在要素遺漏, 在下一步工作中, 可與貝葉斯網(wǎng)、遺傳算法、強(qiáng)化學(xué)習(xí)等相結(jié)合, 對智能體對抗策略進(jìn)行進(jìn)一步優(yōu)化.

    猜你喜歡
    陸戰(zhàn)點(diǎn)位射擊
    1年期國債收益率跌至1%
    銀行家(2025年1期)2025-02-08 00:00:00
    畫與理
    為什么射擊最高的成績是10.9環(huán),而不是11環(huán)
    機(jī)槍射擊十八式
    陸戰(zhàn)群雄,聯(lián)合出擊
    機(jī)器人快速示教方法及示教點(diǎn)位姿變換的研究
    “陸戰(zhàn)一哥”99A
    鋼鐵洪流之現(xiàn)役“陸戰(zhàn)王”
    實(shí)戰(zhàn)化近距離快速射擊方法初探
    垂直面內(nèi)建立基線的特殊點(diǎn)位高程測量法
    成年女人永久免费观看视频| 美女内射精品一级片tv| 最近中文字幕高清免费大全6| 91久久精品国产一区二区成人| 亚洲av熟女| 97热精品久久久久久| 1024手机看黄色片| 久久久久性生活片| 亚洲美女搞黄在线观看 | 村上凉子中文字幕在线| 久久精品国产亚洲av香蕉五月| 亚洲av美国av| 精品午夜福利在线看| 久久久久久久午夜电影| 偷拍熟女少妇极品色| 欧美成人a在线观看| 国产人妻一区二区三区在| 欧美3d第一页| 国产av一区在线观看免费| 中文字幕久久专区| 国产伦一二天堂av在线观看| 在线观看66精品国产| 99久久久亚洲精品蜜臀av| 国产三级在线视频| 精品国产三级普通话版| 床上黄色一级片| 午夜亚洲福利在线播放| 性插视频无遮挡在线免费观看| 久久午夜亚洲精品久久| 久久精品夜色国产| 精品午夜福利视频在线观看一区| 亚洲图色成人| 99热精品在线国产| 中国美白少妇内射xxxbb| 亚洲av五月六月丁香网| 精品一区二区三区人妻视频| 日本与韩国留学比较| 菩萨蛮人人尽说江南好唐韦庄 | 免费黄网站久久成人精品| 久久久精品大字幕| 尾随美女入室| 婷婷精品国产亚洲av| 日韩欧美 国产精品| 黄片wwwwww| 床上黄色一级片| 日韩av在线大香蕉| 国产欧美日韩一区二区精品| 女人被狂操c到高潮| 日本一本二区三区精品| 成人永久免费在线观看视频| 国产高清不卡午夜福利| 中文字幕av成人在线电影| 最新中文字幕久久久久| 国产欧美日韩精品亚洲av| 听说在线观看完整版免费高清| 日韩欧美免费精品| 嫩草影院新地址| 久久久久九九精品影院| 非洲黑人性xxxx精品又粗又长| 久久精品国产亚洲av天美| 99久久精品一区二区三区| 国产成人freesex在线 | 春色校园在线视频观看| 最近2019中文字幕mv第一页| 免费黄网站久久成人精品| 少妇的逼水好多| av天堂中文字幕网| 天天躁夜夜躁狠狠久久av| 一a级毛片在线观看| 天堂√8在线中文| 校园人妻丝袜中文字幕| 男人和女人高潮做爰伦理| 免费看av在线观看网站| 精品一区二区三区av网在线观看| av在线亚洲专区| 搡女人真爽免费视频火全软件 | 卡戴珊不雅视频在线播放| 亚洲欧美中文字幕日韩二区| 亚洲av不卡在线观看| 国产探花在线观看一区二区| 国产成人freesex在线 | 国产精华一区二区三区| 亚洲成a人片在线一区二区| 日本一本二区三区精品| 国产精品乱码一区二三区的特点| 国产精品一区二区性色av| 色噜噜av男人的天堂激情| 国产精品日韩av在线免费观看| 久久午夜福利片| 99热这里只有是精品在线观看| 天堂影院成人在线观看| 午夜日韩欧美国产| 国产毛片a区久久久久| 我的老师免费观看完整版| 久久国产乱子免费精品| 天堂动漫精品| av视频在线观看入口| 亚洲人与动物交配视频| 中文字幕人妻熟人妻熟丝袜美| 搡老熟女国产l中国老女人| av在线蜜桃| 婷婷六月久久综合丁香| or卡值多少钱| 日韩亚洲欧美综合| 亚洲美女搞黄在线观看 | 九九热线精品视视频播放| 18禁裸乳无遮挡免费网站照片| 亚洲精品456在线播放app| av专区在线播放| 三级男女做爰猛烈吃奶摸视频| 国产男靠女视频免费网站| 国产私拍福利视频在线观看| 欧美性感艳星| 欧美色视频一区免费| 亚洲精品乱码久久久v下载方式| 亚洲精华国产精华液的使用体验 | 国产极品精品免费视频能看的| 亚洲精品成人久久久久久| 97在线视频观看| 亚洲精品国产av成人精品 | 五月伊人婷婷丁香| 亚洲精品粉嫩美女一区| 夜夜爽天天搞| 欧美丝袜亚洲另类| 国产色婷婷99| 欧美最新免费一区二区三区| 亚洲自拍偷在线| 少妇的逼好多水| 18禁在线无遮挡免费观看视频 | 午夜福利18| 亚洲自偷自拍三级| 一边摸一边抽搐一进一小说| 国产69精品久久久久777片| 成人精品一区二区免费| 日本黄色视频三级网站网址| avwww免费| av在线天堂中文字幕| 国产黄色视频一区二区在线观看 | 久久综合国产亚洲精品| 亚洲国产精品成人久久小说 | 国产高清三级在线| 看免费成人av毛片| 在线观看av片永久免费下载| 丰满人妻一区二区三区视频av| 色播亚洲综合网| 亚洲精品456在线播放app| 97超碰精品成人国产| 国内精品美女久久久久久| 草草在线视频免费看| 国产黄色小视频在线观看| 一级黄片播放器| 亚洲丝袜综合中文字幕| 成人特级黄色片久久久久久久| 男人舔女人下体高潮全视频| 综合色丁香网| 韩国av在线不卡| 日韩一区二区视频免费看| 夜夜看夜夜爽夜夜摸| 国产伦精品一区二区三区视频9| 欧美日韩乱码在线| 非洲黑人性xxxx精品又粗又长| 精品国内亚洲2022精品成人| 日本黄色视频三级网站网址| 久久精品国产亚洲av香蕉五月| 久久韩国三级中文字幕| 成年女人毛片免费观看观看9| 国产亚洲精品av在线| 国产乱人视频| 成年女人永久免费观看视频| 国产人妻一区二区三区在| 真实男女啪啪啪动态图| 亚洲专区国产一区二区| 国产不卡一卡二| 91久久精品国产一区二区三区| av视频在线观看入口| 午夜激情福利司机影院| 免费一级毛片在线播放高清视频| 日本-黄色视频高清免费观看| 国产伦精品一区二区三区视频9| 99久久无色码亚洲精品果冻| 99久国产av精品国产电影| 久久人人爽人人片av| 免费黄网站久久成人精品| 国产探花在线观看一区二区| 你懂的网址亚洲精品在线观看 | 午夜视频国产福利| 久久热精品热| 精品久久国产蜜桃| 国产又黄又爽又无遮挡在线| 色综合色国产| 男人舔女人下体高潮全视频| 一区二区三区四区激情视频 | 蜜桃久久精品国产亚洲av| 亚洲最大成人中文| 欧美bdsm另类| 69人妻影院| 老司机福利观看| 亚洲欧美日韩东京热| 成人三级黄色视频| 深爱激情五月婷婷| 麻豆av噜噜一区二区三区| 国产欧美日韩精品一区二区| 国产极品精品免费视频能看的| 国产精品国产三级国产av玫瑰| 春色校园在线视频观看| 日韩大尺度精品在线看网址| 精品一区二区三区视频在线观看免费| 免费电影在线观看免费观看| 午夜免费激情av| 久久久a久久爽久久v久久| 欧美日韩综合久久久久久| 黄片wwwwww| 国国产精品蜜臀av免费| 麻豆国产av国片精品| 国内精品久久久久精免费| 我的老师免费观看完整版| АⅤ资源中文在线天堂| 亚洲欧美日韩高清专用| 联通29元200g的流量卡| 成人av一区二区三区在线看| 色哟哟·www| 国产美女午夜福利| 免费av观看视频| 人人妻,人人澡人人爽秒播| 亚洲最大成人av| 中文字幕精品亚洲无线码一区| 亚洲人成网站在线观看播放| 欧美一区二区精品小视频在线| 一级毛片电影观看 | .国产精品久久| 看非洲黑人一级黄片| 国产高清有码在线观看视频| 老司机午夜福利在线观看视频| 欧美人与善性xxx| 久久人人精品亚洲av| 国产黄色小视频在线观看| 欧美极品一区二区三区四区| 国产精品国产高清国产av| 菩萨蛮人人尽说江南好唐韦庄 | 成年版毛片免费区| 亚洲精品成人久久久久久| 色播亚洲综合网| 日韩欧美国产在线观看| 午夜福利在线观看免费完整高清在 | 在线a可以看的网站| 我的女老师完整版在线观看| 国产成人影院久久av| 日韩欧美国产在线观看| 亚洲电影在线观看av| 十八禁网站免费在线| 国产麻豆成人av免费视频| 亚洲中文日韩欧美视频| 国产 一区精品| 岛国在线免费视频观看| 一卡2卡三卡四卡精品乱码亚洲| 人人妻人人澡人人爽人人夜夜 | 草草在线视频免费看| 春色校园在线视频观看| 国产探花在线观看一区二区| 一区二区三区高清视频在线| a级毛片免费高清观看在线播放| 在线免费观看不下载黄p国产| 欧美日本视频| 少妇被粗大猛烈的视频| 欧美成人a在线观看| 丝袜喷水一区| 91久久精品电影网| 美女xxoo啪啪120秒动态图| 精品久久久久久成人av| 亚洲中文字幕日韩| 国产一区二区在线av高清观看| 久久人人爽人人片av| 免费看光身美女| 99久久精品热视频| 国产亚洲av嫩草精品影院| 色尼玛亚洲综合影院| 久久久久免费精品人妻一区二区| av国产免费在线观看| 欧美xxxx黑人xx丫x性爽| 久久人妻av系列| 中文字幕av成人在线电影| 一个人免费在线观看电影| 亚洲第一电影网av| 国产精品综合久久久久久久免费| 国产成人福利小说| 在线看三级毛片| 老熟妇乱子伦视频在线观看| 天堂动漫精品| 国产日本99.免费观看| 又黄又爽又免费观看的视频| av免费在线看不卡| 国产人妻一区二区三区在| 国产精品亚洲美女久久久| 男女做爰动态图高潮gif福利片| 亚洲欧美日韩高清专用| 91狼人影院| 日韩精品有码人妻一区| 在现免费观看毛片| 在线播放无遮挡| 亚洲美女视频黄频| 国产真实乱freesex| 欧美绝顶高潮抽搐喷水| 精品一区二区免费观看| 成人性生交大片免费视频hd| 欧美日本视频| 3wmmmm亚洲av在线观看| 99riav亚洲国产免费| 免费人成在线观看视频色| 国产乱人视频| 少妇裸体淫交视频免费看高清| a级毛色黄片| 亚洲国产精品合色在线| 久久精品国产亚洲av香蕉五月| 国产亚洲av嫩草精品影院| 91狼人影院| 久久久久久伊人网av| 男女视频在线观看网站免费| 久久久午夜欧美精品| 搡老妇女老女人老熟妇| 久久久精品大字幕| 久久国产乱子免费精品| 国产成人a∨麻豆精品| 日韩大尺度精品在线看网址| 亚洲成人精品中文字幕电影| 日韩欧美精品免费久久| 欧美人与善性xxx| 国产男人的电影天堂91| 色视频www国产| 99视频精品全部免费 在线| 久久人人爽人人爽人人片va| 可以在线观看的亚洲视频| 特级一级黄色大片| 国产精品一及| 一级黄片播放器| 在线a可以看的网站| 国产一区二区激情短视频| 国产v大片淫在线免费观看| 欧美三级亚洲精品| 日本免费a在线| av在线老鸭窝| 日本与韩国留学比较| 免费观看的影片在线观看| 熟妇人妻久久中文字幕3abv| 国产精品免费一区二区三区在线| 在线免费观看不下载黄p国产| 人人妻人人澡人人爽人人夜夜 | 日日撸夜夜添| 三级毛片av免费| 人人妻人人澡人人爽人人夜夜 | 国产精品精品国产色婷婷| 久久久国产成人精品二区| 白带黄色成豆腐渣| 日本精品一区二区三区蜜桃| 一级黄片播放器| 99久久九九国产精品国产免费| 亚洲av免费在线观看| 最近2019中文字幕mv第一页| 免费看光身美女| 在线免费观看的www视频| 三级毛片av免费| 日韩精品中文字幕看吧| 国产一区亚洲一区在线观看| 日本撒尿小便嘘嘘汇集6| 国产毛片a区久久久久| 国产精品人妻久久久影院| aaaaa片日本免费| 在线观看66精品国产| 国产国拍精品亚洲av在线观看| 人妻少妇偷人精品九色| 三级男女做爰猛烈吃奶摸视频| 淫秽高清视频在线观看| 亚洲不卡免费看| 麻豆久久精品国产亚洲av| av卡一久久| 天堂av国产一区二区熟女人妻| 国产 一区精品| 亚洲国产精品成人久久小说 | 一a级毛片在线观看| 亚洲av不卡在线观看| eeuss影院久久| 中文字幕免费在线视频6| 久久精品夜夜夜夜夜久久蜜豆| 亚洲av不卡在线观看| 男人舔女人下体高潮全视频| av黄色大香蕉| 免费高清视频大片| 一级毛片aaaaaa免费看小| 亚洲国产欧美人成| 尾随美女入室| 女人十人毛片免费观看3o分钟| 国产精品一区二区三区四区免费观看 | 午夜福利视频1000在线观看| 麻豆一二三区av精品| 搡女人真爽免费视频火全软件 | 又爽又黄a免费视频| 午夜福利18| 亚洲欧美清纯卡通| 老熟妇乱子伦视频在线观看| 天堂动漫精品| 亚洲av电影不卡..在线观看| 精品一区二区三区视频在线观看免费| 久久久精品94久久精品| 中文字幕人妻熟人妻熟丝袜美| 亚洲第一区二区三区不卡| 亚洲七黄色美女视频| 亚洲,欧美,日韩| 91在线精品国自产拍蜜月| 伦理电影大哥的女人| 亚洲婷婷狠狠爱综合网| 成人特级黄色片久久久久久久| 精品欧美国产一区二区三| 成人av一区二区三区在线看| 欧美色欧美亚洲另类二区| 欧美日本亚洲视频在线播放| 校园春色视频在线观看| 精品乱码久久久久久99久播| 99久久精品一区二区三区| 99在线人妻在线中文字幕| 国产av麻豆久久久久久久| 变态另类丝袜制服| 亚洲无线观看免费| 99久久无色码亚洲精品果冻| 亚洲第一区二区三区不卡| 亚洲欧美中文字幕日韩二区| 午夜影院日韩av| 亚洲av不卡在线观看| 日韩欧美一区二区三区在线观看| 日韩大尺度精品在线看网址| 中国国产av一级| 不卡视频在线观看欧美| 一边摸一边抽搐一进一小说| 国产女主播在线喷水免费视频网站 | 白带黄色成豆腐渣| 99久久精品国产国产毛片| av在线蜜桃| 午夜爱爱视频在线播放| 国产真实伦视频高清在线观看| 精品久久久久久成人av| 国产精品人妻久久久影院| 亚洲av中文字字幕乱码综合| 一夜夜www| .国产精品久久| 午夜精品在线福利| av中文乱码字幕在线| 欧美成人精品欧美一级黄| 菩萨蛮人人尽说江南好唐韦庄 | 春色校园在线视频观看| 亚洲国产精品sss在线观看| 日本黄色片子视频| avwww免费| 最近最新中文字幕大全电影3| 波多野结衣高清作品| 看黄色毛片网站| 一个人免费在线观看电影| 大香蕉久久网| 一本一本综合久久| 99国产极品粉嫩在线观看| 女的被弄到高潮叫床怎么办| 美女黄网站色视频| 午夜免费男女啪啪视频观看 | 在线天堂最新版资源| 成人性生交大片免费视频hd| 深夜a级毛片| 久久精品国产鲁丝片午夜精品| 波多野结衣高清作品| 国产亚洲精品综合一区在线观看| 色播亚洲综合网| 国产一级毛片七仙女欲春2| 国产中年淑女户外野战色| www日本黄色视频网| 别揉我奶头 嗯啊视频| 国产欧美日韩精品亚洲av| 亚洲国产日韩欧美精品在线观看| 国产精品久久久久久av不卡| 1000部很黄的大片| 男人狂女人下面高潮的视频| 国产精品,欧美在线| 国产在线男女| 尾随美女入室| 18禁在线播放成人免费| 一级黄色大片毛片| 狂野欧美白嫩少妇大欣赏| av国产免费在线观看| 最近最新中文字幕大全电影3| 久久久久久久午夜电影| 欧美不卡视频在线免费观看| 欧美色视频一区免费| 午夜影院日韩av| 久久精品国产亚洲av天美| 国产国拍精品亚洲av在线观看| 国产午夜精品论理片| videossex国产| 精品人妻偷拍中文字幕| 一卡2卡三卡四卡精品乱码亚洲| 99久久精品热视频| 亚洲av中文字字幕乱码综合| 日韩av在线大香蕉| 日韩欧美 国产精品| 久久草成人影院| 97超视频在线观看视频| 亚洲无线观看免费| 插阴视频在线观看视频| av中文乱码字幕在线| 亚洲国产精品久久男人天堂| 亚洲国产欧美人成| 白带黄色成豆腐渣| 乱系列少妇在线播放| 少妇被粗大猛烈的视频| 联通29元200g的流量卡| 两个人视频免费观看高清| 国产一级毛片七仙女欲春2| 欧美丝袜亚洲另类| 高清日韩中文字幕在线| 国产亚洲精品av在线| videossex国产| 又粗又爽又猛毛片免费看| 亚洲久久久久久中文字幕| 亚洲内射少妇av| 人妻制服诱惑在线中文字幕| 国产欧美日韩一区二区精品| av国产免费在线观看| 午夜精品一区二区三区免费看| 在线观看美女被高潮喷水网站| 成人亚洲欧美一区二区av| 午夜激情福利司机影院| 菩萨蛮人人尽说江南好唐韦庄 | a级毛色黄片| 99热网站在线观看| 久久久欧美国产精品| 一区二区三区免费毛片| 99国产极品粉嫩在线观看| 精品久久久久久久久久久久久| a级毛片a级免费在线| 国产精品1区2区在线观看.| 欧美xxxx性猛交bbbb| 草草在线视频免费看| 精品久久久久久久人妻蜜臀av| 久久韩国三级中文字幕| 又粗又爽又猛毛片免费看| 亚洲不卡免费看| a级毛片免费高清观看在线播放| 亚洲av二区三区四区| 美女 人体艺术 gogo| 久久久成人免费电影| 97超碰精品成人国产| 一级毛片我不卡| 国产三级在线视频| 亚洲av成人精品一区久久| 一夜夜www| 悠悠久久av| 欧美另类亚洲清纯唯美| 欧美一区二区国产精品久久精品| 免费av不卡在线播放| 老司机影院成人| 黄片wwwwww| 99久久精品一区二区三区| 性插视频无遮挡在线免费观看| 国产三级中文精品| 亚洲天堂国产精品一区在线| 我要搜黄色片| 亚洲成人久久性| 欧美高清性xxxxhd video| 综合色av麻豆| 你懂的网址亚洲精品在线观看 | 午夜激情欧美在线| 日韩欧美一区二区三区在线观看| 中国美白少妇内射xxxbb| 99久久精品国产国产毛片| 一级a爱片免费观看的视频| 成人一区二区视频在线观看| 嫩草影院入口| 欧美日本亚洲视频在线播放| 国内精品久久久久精免费| 卡戴珊不雅视频在线播放| 国产精品久久久久久亚洲av鲁大| 国产aⅴ精品一区二区三区波| 在线观看美女被高潮喷水网站| 国产精品一区二区性色av| 亚洲人成网站在线播| 久久精品综合一区二区三区| 欧美日韩综合久久久久久| 女人被狂操c到高潮| 少妇的逼好多水| 波野结衣二区三区在线| 最新在线观看一区二区三区| 亚洲自偷自拍三级| 伦理电影大哥的女人| 久久久久性生活片| 精品午夜福利在线看| 成年版毛片免费区| 麻豆精品久久久久久蜜桃| 精品午夜福利在线看| 国产白丝娇喘喷水9色精品| 日本撒尿小便嘘嘘汇集6| 精品午夜福利在线看| 亚洲色图av天堂| 亚洲成a人片在线一区二区| 深夜精品福利| 免费无遮挡裸体视频| 国产视频内射| АⅤ资源中文在线天堂| av福利片在线观看| 女人被狂操c到高潮| 国产一区二区激情短视频| 九九在线视频观看精品| 99久国产av精品| 综合色av麻豆| 寂寞人妻少妇视频99o| 高清毛片免费看| 欧美日韩乱码在线| 中文字幕av成人在线电影| av在线老鸭窝| 一个人观看的视频www高清免费观看| 最好的美女福利视频网| 国产精品电影一区二区三区|