• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    強化學習在軍事上的應用

    2024-01-18 10:23:42宋泠澳趙冬梅董宏揚
    火力與指揮控制 2023年12期
    關鍵詞:空戰(zhàn)無人軍事

    宋泠澳,劉 濤,趙冬梅,董宏揚

    (西南科技大學計算機科學與技術學院,四川 綿陽 621010)

    0 引言

    隨著科學技術的發(fā)展和軍事理論的不斷創(chuàng)新,軍事輔助決策系統(tǒng)經(jīng)過多年建設,取得了長足進步,在數(shù)據(jù)采集、傳輸、存儲、處理等方面有了不少成果。然而,多場地、無人化、復雜化的現(xiàn)代軍事博弈場景,需要高精度、多角度、多層面的全局或者局部決策,單純依靠人力進行指揮調度與作戰(zhàn)決策正變得愈發(fā)困難[1],這導致在現(xiàn)代戰(zhàn)爭高烈度、快節(jié)奏的博弈環(huán)境下,在有限時間內進行決策分析十分困難。且現(xiàn)有的決策支持系統(tǒng)在情報處理、態(tài)勢認知、文書生成和方案評估等方面,距離實戰(zhàn)要求還有很大的距離,與現(xiàn)代智能化戰(zhàn)爭的發(fā)展趨勢不相適應,亟待人工智能技術的介入。

    近幾年,強化學習(reinforcement learning,RL)被廣泛應用于交通、自動駕駛、自然語言處理等多個領域[2-9],其基本思想是通過將智能體(agent)從環(huán)境(environment)中獲得的累計獎賞值最大化,以學習完成目標的最優(yōu)策略,因此,RL 方法更加側重于學習解決問題的策略[10]。

    本文主要就強化學習技術在軍事領域的應用進行分析與總結,包含軍事領域的5 種強化學習算法?;谝陨? 種算法,介紹了13 種強化學習在軍事方面應用。通過以上6 種強化學習算法與13 種強化學習在軍事方面的應用,分析強化學習在軍事領域的可能應用領域以及未來發(fā)展趨勢。本文分別列舉了強化學習在海、陸、空領域的應用,并分析強化學習對軍事智能決策系統(tǒng)搭建以及智能裝備發(fā)展的作用。

    1 Q-learning

    Q-learning 是一種無模型強化學習算法[11],它的目標是學習一種策略,告訴agent 在什么情況下要采取什么行動。Q-learning 不需要智能體直接與環(huán)境互動(off-policy),不需要環(huán)境模型;可以處理隨機轉換和獎勵的問題,無需進行調整;每次更新狀態(tài)時都可以使用在訓練期間內任意時間點收集的數(shù)據(jù),而不管獲取數(shù)據(jù)時智能體的選擇。下面3 個例子說明了Q-learning 的軍事應用可行性。

    1.1 空戰(zhàn)目標分配

    目標分配是空戰(zhàn)中一個重要而又困難的問題[12-13],大多數(shù)目標分配算法都被證明過于緩慢或不穩(wěn)定,無法收斂到全局最優(yōu)[14-15]。2004 年,HONG等利用Q-learning 建立制造環(huán)境動態(tài)變化模型,進行多目標調度決策[16];2005 年,WANG 等將Q-learning 算法應用于機器調度規(guī)則的選擇,檢驗了將Q-learning 算法應用于單機調度規(guī)則選擇問題的效果,證實了具有Q-learning 算法的機器代理能夠為不同的系統(tǒng)目標學習最佳規(guī)則[17]。2006 年,JUNE等在設計一種二維移動機器人時采用了Q-learning,該機器人在學習未知環(huán)境后能夠獨立移動,提出了一種基于Q-learning 的空戰(zhàn)目標分配算法[17]。

    2016 年,國防科技大學驗證了Q-learning 是一種適用于空戰(zhàn)目標分配的強化學習算法,可以用來尋找最優(yōu)的行動選擇策略[18]:首先,對空戰(zhàn)智能體的屬性、結構和動作進行建模;其次,定義了狀態(tài)-動作對的判據(jù),給出了基于Q-learning 的目標分配算法,當學習到設計的動作-價值函數(shù)時,可以通過選擇每個狀態(tài)中值最高的動作來構造目標分配最優(yōu)策略,實例分析表明,該算法不需要大量的訓練集,避免了對先驗知識的依賴,而且具有很好的尋優(yōu)能力,能夠很好地擺脫局部最優(yōu)[19]。

    1.2 動態(tài)目標防御

    2019 年,有學者從系統(tǒng)角度分析了動態(tài)目標防御技術中不同參數(shù)對系統(tǒng)的影響,建立了系統(tǒng)正常服務與重配置過程模型,在馬爾可夫決策過程的動態(tài)目標防御(moving target defense,MTD)策略優(yōu)化方法基礎上,引入Q-learning 算法生成了優(yōu)化策略集合,來保證在一定時間內生成最優(yōu)策略,解決了多層次多變化參數(shù)集合的動態(tài)防御技術的策略優(yōu)化問題[20]。其基本思想是對每個狀態(tài)s 和該狀態(tài)上可以采用的行動aI0=ω1I1+ω2I2+…+ω3I3直接估計其回報因子Q(s,a),s∈S,a∈A,并在選擇行動時按照式(1)進行:

    該方法既不需要計算數(shù)學期望,也不需要估計轉移狀態(tài)的信息,可以計算出優(yōu)化后的動態(tài)目標防御重配置策略,并且能夠較好地平衡系統(tǒng)的可用性和安全性,指導動態(tài)目標防御技術實際部署問題[21]。

    1.3 空戰(zhàn)系統(tǒng)的數(shù)據(jù)融合

    隨著科學技術的飛速發(fā)展和信息技術的廣泛應用,大量先進的傳感器應用于空戰(zhàn)信息系統(tǒng)中,空戰(zhàn)的復雜性和對信息處理的要求越來越高,導致數(shù)據(jù)融合技術在現(xiàn)代信息空戰(zhàn)中發(fā)揮著越來越重要的作用,研究空戰(zhàn)系統(tǒng)中的數(shù)據(jù)融合技術具有重要意義[13]。

    2019 年,為提高現(xiàn)代空戰(zhàn)數(shù)據(jù)融合系統(tǒng)的精度,南京航空航天大學提出了一種基于Q-learning的改進方法,在不需要適應環(huán)境的情況下,處理隨機過渡和獎勵問題[22]:在空戰(zhàn)中,傳感器系統(tǒng)由多個不同的傳感器組成,為了獲得最優(yōu)信息,假設傳感器的個數(shù)為n,每個傳感器都有相應的權值ω1。輸出融合數(shù)據(jù)I0可以按式(2)計算:

    該方法融合數(shù)據(jù)I1,I2,…,In對傳感器1,傳感器2,…,傳感器n 進行監(jiān)控,對于每一個輸出數(shù)據(jù),數(shù)據(jù)融合系統(tǒng)對ω1,ω2,…,ωn有最佳的權重選擇,并采用強化學習方法進行權值更新。該系統(tǒng)可以根據(jù)每個觀測值調整權重,通過觀測值與實際值之間的誤差來實現(xiàn)融合精度的增強。實例仿真結果表明,該方法可以解決不同傳感器的數(shù)據(jù)處理問題[23]。

    上述研究工作展示了Q-learning 在軍事領域中的實際應用,表明Q-learning 可以在數(shù)據(jù)相對較少的情況下得到策略,因為其只需要在一個以state 為行、action 為列的Q-table 中找出最優(yōu)解。但在大多數(shù)情況下,由于State 過多導致Q-table 大于預期估計,使得該模型不能在規(guī)定時間內得出解或者無法得到解,這一點對于其在軍事應用方面是致命的。針對這種情況,通過引入深度學習代替Q-table 去處理Q 值,可以有效避免Q-table 的低效問題[24]。

    2 deep Q-network(DQN)

    Deepmind 團隊在2013 年提出了deep Q-network(DQN)算法[24],實現(xiàn)了卷積神經(jīng)網(wǎng)絡(CNN)與Q-learning 的結合,將強化學習的決策能力和深度學習的交互能力相結合,能在復雜軍事環(huán)境中通過智能體與環(huán)境交互得到的數(shù)據(jù),不斷更新網(wǎng)絡參數(shù),使得神經(jīng)網(wǎng)絡可以較好地逼近動作狀態(tài)值函數(shù),更好地作出適合相應狀態(tài)的動作,達到軍事決策的時間和精度要求。

    2.1 無人作戰(zhàn)飛機

    無人戰(zhàn)斗機(unmanned combat air vehicles,UCAV)是一種多用途的新型空中武器,可以執(zhí)行空中偵察,地面目標攻擊以及空中作戰(zhàn)[25]。早在1933年,無人機就作為“靶機”出現(xiàn)。到了2001 年,美國“捕食者”無人機在阿富汗戰(zhàn)場上首次作為攻擊者執(zhí)行了精確打擊任務;2003 年,“捕食者”再次作為攻擊者實施了“斬首行動”,擊斃了“911”主犯阿布-阿里;其后的伊拉克戰(zhàn)爭中,美國共計投入了高達60 架無人機參與戰(zhàn)爭。

    2019 年,YANG 等提出了一種基于強化學習的無人機近程空戰(zhàn)自主機動決策模型,主要包括空戰(zhàn)運動模型,一對一近程空戰(zhàn)評估模型和基于深度網(wǎng)絡(DQN)的需求決策模型[26]。該作者認為面對空戰(zhàn)環(huán)境等高維連續(xù)狀態(tài)動作空間,應該選擇DQN 算法作為強化學習的算法框架,利用深度神經(jīng)網(wǎng)絡來逼近價值函數(shù),使用分階段訓練方法對DQN 進行訓練,稱為“基本對抗”,這種基本對抗是基于人類從簡單認知逐漸過渡到復雜知識的學習過程,這種基于DQN 的決策模型能夠實現(xiàn)自學習和策略更新,直至目標被擊敗。

    2.2 水下無人車輛的路徑規(guī)劃

    水下無人車(unmanned surface vehicles,USV)可作為一個單位部署執(zhí)行水下任務,路徑規(guī)劃是這些任務完成前提條件的核心。

    2016 年,周新源等提出了基于深度DQN 的路徑規(guī)劃算法,用在USV 編隊路徑規(guī)劃中[27]。認為將DQN 訓練方法用于高維狀態(tài)和動作場景,不需要Q表格,不需要人類知識與設定規(guī)則,通過從以前的狀態(tài)轉換中隨機訓練,來克服相關數(shù)據(jù)和經(jīng)驗數(shù)據(jù)非平穩(wěn)分布的問題,還可以通過DQN 的目標網(wǎng)絡和Q 網(wǎng)絡實現(xiàn)訓練的穩(wěn)定性。該算法能夠計算編隊的合適路徑,并在必要時魯棒地保持編隊形狀或改變形狀,可在具有復雜障礙物的環(huán)境中輔助導航。

    無人機與無人車輛領域對于DQN 的應用展示了強化學習在智能裝備方面有著重要作用。由于DQN 引入了深度學習,其在交互能力上有較大的優(yōu)勢,但在樣本標定上也如同深度學習一般較為費時。DQN 在訓練時,存在收斂速度慢的缺點,解決思路為更改目標函數(shù)來加快收斂速度[28]。

    3 actor-critic(AC)

    AC 算法框架被廣泛應用于強化學習算法的實際應用中,該框架集成了值函數(shù)(value function)估計算法和策略評估(policy evaluation)算法,是解決實際問題時最常考慮的框架。其帶有對抗性的網(wǎng)絡結構,對于軍事領域的決策與評估有著較高的適應性。

    3.1 自動態(tài)勢估計研究

    2018 年6 月,吳志強等提出了態(tài)勢預測,并與深度強化學習相結合,利用A3C(asynchronous advantage actor-critic)方法,在預測的基礎上,作出的戰(zhàn)術行動達到最優(yōu)效果[29]。

    自動態(tài)勢分析屬于認知智能的范疇,基于深度強化學習技術的指揮員agent 可以具備自主認識戰(zhàn)場態(tài)勢,并根據(jù)態(tài)勢演變作出預測的能力。在智能決策系統(tǒng)中,指揮員agent 可引入actor-critic 模型用于自動態(tài)勢分析,如下頁圖1 所示。

    圖1 Actor-Critic 自動態(tài)勢估計模型Fig.1 Actor-Critic automatic situation estimation model

    態(tài)勢估計可分為態(tài)勢分析、態(tài)勢理解和態(tài)勢預測3 個階段。態(tài)勢預測是態(tài)勢估計問題的難點,利用actor-critic 模型進行強化學習,使得在預測的基礎上作出的戰(zhàn)術行動達到最優(yōu)效果。

    3.2 導彈目標態(tài)勢評估模型

    2001 年,周銳等討論了強化學習在導彈制導領域的應用[30];2020 年將強化學習(RL)中的actor-critic(AC)算法引入導彈的目標態(tài)勢評估模型中,建立導彈-目標模擬作戰(zhàn)訓練模型,通過仿真和對比實驗表明,該模型能有效估計當前形勢下導彈攻擊的預期效果,得到飛機躲避導彈的最優(yōu)決策模型。AC 算法結合神經(jīng)網(wǎng)絡模型,可以預測飛機在受到導彈攻擊時的狀態(tài),并估計可能出現(xiàn)的最壞結果,從而實現(xiàn)導彈對目標攻擊效果的評估和預測[31]。

    導彈的目標態(tài)勢評估模型中主要發(fā)展是利用強化學習(RL)算法設計空戰(zhàn)場景,為人工智能神經(jīng)網(wǎng)絡提供訓練數(shù)據(jù)和反饋獎勵。具體做法為:將態(tài)勢評估定義為對未來收益的估計,并建立導彈-目標作戰(zhàn)模型。采用行動者-批評(AC)算法,得到飛機躲避導彈的最優(yōu)決策模型。AC 算法得到的神經(jīng)網(wǎng)絡模型,可以預測飛機在受到導彈攻擊時的狀態(tài),并估計可能出現(xiàn)的最壞結果,從而實現(xiàn)導彈對目標攻擊效果的評估和預測。

    3.3 戰(zhàn)爭機器人混合動態(tài)控制算法

    2007 年NAKAMUR 等改進了AC 算法,并引入到兩足機器人的控制算法中[32]。將機器人最早應用于軍事行業(yè)始于二戰(zhàn)時期的美國,為了減少人員的傷亡,作戰(zhàn)任務執(zhí)行前都會先派出偵察無人機到前方打探敵情。文獻[32]提出了一種基于強化學習方法中的AC 算法框架的CPG-actor-critic 方法,并將此方法應用于TAGA 等所使用的兩足機器人模擬器[33]中。得到的計算機仿真結果表明,采用強化學習方法中的AC 算法可以成功地訓練CPG,使兩足機器人在矢狀面(the sagittal plane)穩(wěn)定行走,能適應環(huán)境的變化,并使控制器能夠產(chǎn)生穩(wěn)定的節(jié)奏進行運動。

    該方法采用自然政策梯度法,其梯度的估計接近于最陡下降的梯度。對于戰(zhàn)爭機器人來講,其在戰(zhàn)場上的動作連續(xù)性是其作戰(zhàn)的根本保障,CPG-actor-critic 體系結構和自然梯度方法相結合,實現(xiàn)了一個高效的RL 系統(tǒng)。該算法具有大量的自由度,使兩足機器人能夠像人一樣面對復雜的戰(zhàn)場環(huán)境。

    3.4 空戰(zhàn)環(huán)境導彈規(guī)避

    空空導彈(air-to-air missile)是殲擊機的主要武器之一,它屬于典型的精確制導武器。在2020 年,我國航空工業(yè)集團公司洛陽電光設備研究所提出了一種基于DDPG 算法的深度強化學習模型[34],其訓練仿真測試分析表明能夠有效地實現(xiàn)對來襲導彈的規(guī)避決策。該模型將DDPG 的策略網(wǎng)絡作為決策控制器,完成了對戰(zhàn)場態(tài)勢到?jīng)Q策輸出的映射,使策略網(wǎng)絡向累計回報更大的方向收斂,并將累計期望獎勵值最大的策略網(wǎng)絡作為規(guī)避導彈的最佳策略。

    在空戰(zhàn)導彈規(guī)避問題上,基于DDPG 的深度強化學習算法,能夠得到比較好的訓練和仿真結果,在高度、速度保持中有很好的表現(xiàn)。該算法需要不間斷保持對于距離、高度、接近速度等關鍵參數(shù)的獲取,為其連續(xù)動作提供支持,以達到規(guī)避導彈的目的。

    3.5 無人機自主決策

    無人機在未來的空戰(zhàn)中將發(fā)揮巨大的作用,能夠壓制和摧毀敵人的防空,并打擊高價值目標。使用DDPG 算法,可以使無人機在復雜的空戰(zhàn)環(huán)境中擁有更好的適應性,進行自主優(yōu)化決策[35]。

    空戰(zhàn)領域中的學習策略,一般會經(jīng)歷以下步驟:首先,將在攻擊區(qū)域收集大量的模擬數(shù)據(jù),并構建深度學習可使用的網(wǎng)絡;然后通過新環(huán)境中的真實值來修正網(wǎng)絡的模擬值;最后,通過強化學習的方法使無人機自主修正攻擊區(qū)域。因此,無人機需要在作戰(zhàn)中獨立地識別周邊環(huán)境,并使用正確的優(yōu)化方法來解決神經(jīng)網(wǎng)絡的適應性問題。深度學習是一種在無人機數(shù)據(jù)處理中廣泛應用的方法,而強化學習能夠賦予無人機自主決策的能力,兩者的結合將使無人機在空戰(zhàn)環(huán)境中表現(xiàn)更加優(yōu)秀[26]。

    DDPG 相較于其他深度強化學習領域的方法,擁有經(jīng)驗池機制和雙網(wǎng)絡結構,使得學習過程更加穩(wěn)定,收斂速度更快。2020 年,LI 等提出了一種有效解決無人機自主決策問題的DDPG 算法[36]。DDPG 算法可以很好地滿足無人機在復雜空戰(zhàn)環(huán)境中的需求,且擁有傳統(tǒng)神經(jīng)網(wǎng)絡算法沒有的自主學習能力和連續(xù)動作域來解決連續(xù)問題,對于快速變化的空戰(zhàn)環(huán)境具有強大的適應性。

    態(tài)勢評估是指揮決策的重要部分,在智能作戰(zhàn)指揮上有著重要作用。上述例子中展示了強化學習在態(tài)勢評估上的適用性,actor-critic 網(wǎng)絡可以通過評估網(wǎng)絡(critic 網(wǎng)絡)對預測網(wǎng)絡(actor 網(wǎng)絡)進行評判更新,這種具有對抗性的評估網(wǎng)絡,可以在指揮決策的對抗博弈中提供優(yōu)良決策。

    4 多智能體強化學習

    多智能體技術(multi-agent technology)的應用研究起源于20 世紀80 年代,并在90 年代中期獲得了廣泛的認可[37],現(xiàn)今已經(jīng)成為了人工智能領域中的研究熱點,在感知、學習、規(guī)劃、推理以及決策等方面具有較好的優(yōu)勢[38]。

    多智能體系統(tǒng)(multi-agent system,MAS)是在同一個環(huán)境里,由多個智能體組成的系統(tǒng)[39],常用于解決單一智能體或單層系統(tǒng)難以解決的問題,其中的智能可以由方法、函數(shù)、過程、算法或強化學習來實現(xiàn)[40]。在軍事領域中由于所面對場景的復雜性,作戰(zhàn)單位的部署往往是多元化的,與單智能體強化學習相比,多智能體強化學習能更好地協(xié)調不同作戰(zhàn)單位之間的協(xié)同性,提高不同作戰(zhàn)單位之間的聯(lián)系,更好地達到作戰(zhàn)目標。下面將以無人集群協(xié)同以及戰(zhàn)時備件供應保障動態(tài)協(xié)調為例子,分析多智能體強化學習在軍事領域的應用性。

    4.1 無人集群協(xié)同

    無人作戰(zhàn)已經(jīng)是現(xiàn)代化戰(zhàn)爭的主流,采用多智能體強化學習算法的無人集群協(xié)同作戰(zhàn)已經(jīng)有良好的效果。無人集群系統(tǒng)的協(xié)同控制(guided deep reinforcement learning for swarm systems,GDRLSS)包含協(xié)調和合作兩個方面。協(xié)調的目的是為了避免無人集群在執(zhí)行任務的過程中內部之間發(fā)生沖突,即無人集群中的動作控制。合作的目的是讓無人集群互相協(xié)作,共同完成任務,即組織和決策機制問題[41]。

    運用強化學習等技術能夠使無人集群平臺的自主控制有更好的適應性和靈活性,能夠增強無人集群的協(xié)調協(xié)作,提升無人集群系統(tǒng)的整體性能。在無人平臺系統(tǒng)中,單個無人平臺感知的環(huán)境信息是局部的,因而傳統(tǒng)單智能體強化學習算法的策略不具有普適性。為了解決該問題,多智能體強化學習在此基礎上增加了系統(tǒng)中智能體的數(shù)量,并通過引入分布式協(xié)同策略機制,使每個智能體具有自主性、目的性和協(xié)調性。

    采用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[42]算法框架進行學習。無人集群強化學習框架如圖2所示。

    圖2 無人集群強化學習框架Fig.2 Reinforcement learning framework for unmanned swarm

    當前軍事無人集群系統(tǒng)的作戰(zhàn)研究中,采用了多智能體強化學習方法實現(xiàn)無人集群系統(tǒng)的分布式協(xié)同控制[22]。隨著武器裝備體系智能化升級與現(xiàn)代戰(zhàn)爭節(jié)奏不斷加快,以及無人集群作戰(zhàn)平臺及其新技術的發(fā)展與應用,未來戰(zhàn)爭要求無人集群具備快速、自動和自主決策能力,因此,采用強化學習算法不斷優(yōu)化模型,提升無人集群協(xié)同作戰(zhàn)能力,已成為當前主要研究思路。

    4.2 戰(zhàn)時備件供應保障動態(tài)協(xié)調

    戰(zhàn)時備件供應保障系統(tǒng)(wartime spares support system,WSSS)是為滿足戰(zhàn)場環(huán)境條件下航空裝備對備件的需求,戰(zhàn)時備件供應保障的特征主要是自治性、分布性等。而多agent 系統(tǒng)符合這些特征,采用仿真技術對戰(zhàn)時備件供應保障進行模擬和研究,運用多agent 強化學習建模仿真技術,來模擬研究目前戰(zhàn)爭任務中各個階段供應保障過程中的協(xié)調效果,由仿真結果可以得出結論,強化學習策略明顯優(yōu)于平均隨機分配策略[43]。

    與單智能體強化學習相比,多智能體強化學習在環(huán)境適用性上有著較強的適用性,與一般的應用場景不同,強化學習在軍事上的應用面臨著多場地、高緯度、復雜化的軍事博弈場景,要求高精度、多角度、全域性的作戰(zhàn)指揮決策,環(huán)境的復雜性使得單一智能體的泛化能力受到嚴重的挑戰(zhàn),面臨著精度不足、魯棒性不夠和難以設計的特點。多智能體強化學習遵從的是隨機博弈過程,它更關注合作型智能體之間互相配合,能夠完成高復雜度的任務;競爭型智能體之間也可以通過博弈,互相學習對手的策略,這在軍事博弈方面多智能體強化學習更是考慮到局部最優(yōu)與全局最優(yōu)之間的“協(xié)調”,在作出全局最優(yōu)決策的情況下,保障了局部策略的權益。

    5 逆強化學習——艦載機甲板調度

    強化學習的獎勵函數(shù)是人為給定的,而且對學習結果有著重要的影響,但在很多復雜的環(huán)境之中,獎賞函數(shù)通常難以確定,所以就有了逆向強化學習[44]。逆向強化學習的目標就是找到一個合適的獎賞函數(shù),思想是專家在完成某個任務時,所作出的決策一般是最優(yōu)的、或者接近最優(yōu)的,所以可以通過專家的決策來學習找到合適的獎賞函數(shù)。本章以艦載機甲板調度問題舉例,說明逆強化學習在軍事方面的應用。

    艦載機甲板調度是影響航空母艦戰(zhàn)斗力的重要因素,早在1966 年就已經(jīng)出現(xiàn)了計算機輔助調度系統(tǒng)-艦載機甲板操作控制系統(tǒng)(carrier aircraft deck operation control system,CADOCS)[45];1974 年GIARDINA 和JOHNSON 完善了CADOCS[46-47],但是沒能得到充分的應用;2002 年,TIMOTHY 提出了基于智能agent 調度系統(tǒng)的需求分析[48],得出數(shù)字化甲板調度系統(tǒng)是必然趨勢的結論;2009 年,JEFFREY 等設計了一種能夠提供危險預警和艦載機的路徑規(guī)劃的甲板持續(xù)監(jiān)控系統(tǒng)[49],同年美國海軍開發(fā)出了艦船綜合信息系統(tǒng)(integrated shipboard information system,ISIS)[50];2011 年,RYAN 等為美國海軍自動項目研究所設計開發(fā)了一個為甲板指控人員提供艦載機作業(yè)流程和輔助調度方案的航空母艦甲板行動規(guī)劃軟件(aircraft carrier deck course of action planner,DCAP)[51];2013 年,李耀宇等提出了基于逆向強化學習的艦載機甲板調度優(yōu)化方案生成方法[52]。

    李耀宇等以“尼米茲”級航母作為研究對象,建立基于MDP 的艦載機狀態(tài)轉移模型,通過逆向強化學習,該文章為模擬指揮人員的調度演示學習并確定優(yōu)化后的回報函數(shù),再通過強化學習生成優(yōu)化過后的艦載機甲板調度方案[52]。

    實驗證明該方法具有較好的擬合效果,所生成的優(yōu)化策略方案是可行并符合實際需求的。該方法有助于我國航母的甲板調度工作優(yōu)化,提高航母戰(zhàn)斗力。

    6 面臨的挑戰(zhàn)

    綜上所述,強化學習在軍事應用的諸多應用中均可提供強有力的自主/輔助決策能力,在不涉及先驗模型或者數(shù)據(jù)的前提下,獲得比較準確的結果。但是,強化學習發(fā)展至今,依然存在一些問題,在其與軍事應用相結合前提下,鑒于軍事應用往往對于時間、效率、精度等要求與常規(guī)問題很大區(qū)別,強化學習的效率問題、獎勵問題,局部最優(yōu)與全局最優(yōu)等問題則凸顯出來,成為當前強化學習在軍事應用中進一步開展的挑戰(zhàn),下面一一說明。

    6.1 樣本效率問題

    提升樣本效率可以減少訓練時間,節(jié)約軍事資源,提高決策和反應速度。解決該問題有3 種思路:第1 種可以通過重復利用數(shù)據(jù)樣本來提高效率;第2 種思路是簡化狀態(tài)表示和行動表示,使其在運行過程中加速迭代以達到提升樣本效率;第3 種思路是利用先導經(jīng)驗示例數(shù)據(jù)來提升樣本效率[53]。

    6.2 稀疏獎勵問題

    在訓練過程中,智能體采用隨機策略,而獎勵的獲取則需要一系列復雜的操作,由于智能體在軍事場景中初始化策略下很難獲得獎勵,使得強化學習算法迭代緩慢,甚至難以收斂,從而導致學習成本高昂,相關應用難以落地實施。改進獎勵函數(shù)[28]以及增加獎勵估計模塊,可以在一定程度上避免稀疏獎勵的問題。

    例如作戰(zhàn)無人機群在開始訓練時,設定擊毀某個目標或者到達某個區(qū)域會獲取到一定的獎勵值,但在無人機起飛到得到獎勵值這一階段之間還有著若干動作和狀態(tài),在這些狀態(tài)下并不會獲取到獎勵值,這將導致作戰(zhàn)無人機訓練過程迭代次數(shù)增加,加大訓練成本。通過對獎勵函數(shù)的改進,使得無人機在無獎勵值階段減少迭代次數(shù)或者增加獎勵估計模塊,來引導無人機獲得獎勵可以減少訓練成本,加快相關應用的實施。

    6.3 獎勵函數(shù)定義問題

    在軍事應用多變、復雜的環(huán)境中,設計一個合理的獎勵函數(shù)并不容易,尤其當涉及到的agent 動作較為復雜、場景范圍較大時,獎勵函數(shù)的合理定義依然存在很大困難。在軍事領域獎勵函數(shù)設計時,可以考慮使用多智能體強化學習由局部獎勵函數(shù)到整體獎勵函數(shù)這一過度途徑,以及逆強化學習人為給定獎勵函數(shù),來降低獎勵函數(shù)難以定義的問題[54]。

    以稀疏獎勵中的作戰(zhàn)無人機群來講,改進的獎勵函數(shù)能夠減少稀疏獎勵的問題,但是設定無人機群獲得獎勵的函數(shù)定義是比較困難的,這時增加智能體如將無人機群中每一個無人機設定為智能體,單獨設定單個無人機的獎勵函數(shù),最終達到一個總的獎勵函數(shù)值,達到簡化獎勵函數(shù)的目的。

    6.4 強化學習容易陷入局部最優(yōu)

    強化學習本質上是智能體與環(huán)境之間不斷探索和交互的過程,在智能體取得一定的獎勵之后,單純從獎勵層面看,其可能會陷入到局部最優(yōu)陷阱中,從而導致無法得到全局最優(yōu)結果。該問題可以通過增加好奇心驅動機制來解決[55],避免陷入局部最優(yōu),這就要求設計網(wǎng)絡時將好奇心機制加入網(wǎng)絡。

    該問題會影響相關強化學習應用的落地實施,更好地解決以上4 點挑戰(zhàn), 將使得強化學習應用在軍事領域發(fā)揮更大的作用。

    7 未來發(fā)展趨勢

    強化學習的大力發(fā)展得益于計算能力的大幅提升和相關算法的研究,其并不具備如人類一般在戰(zhàn)場上進行主管決策的能力,如上文的例子,強化學習需要結合場景與狀態(tài),為軍事指揮人員提供當前狀態(tài)下的決策支持?;趶娀瘜W習本身特點與優(yōu)勢,以及當前軍事應用的特點,強化學習應注重在以下幾個領域的發(fā)展:

    7.1 基于模型的強化學習

    基于模型方法能根據(jù)歷史經(jīng)驗生成環(huán)境模型,通過使用內部模型來推理未來。雖然需要先驗學習模型,但基于模型的方法具有更好的泛化能力,且能夠利用額外的無監(jiān)督學習信號,在面對多場地、多維度、復雜化的軍事博弈場景,能夠有效的提高數(shù)據(jù)效率。

    7.2 強化學習相與遷移學習、深度學習、協(xié)同學習等人工智能技術結合

    強化學習在表達能力以及反饋機制上有所不足,與其他人工智能技術相結合可以彌補強化學習的不足。深度學習在特征提取上有著較大的優(yōu)勢,前面DQN 就是深度強化學習的代表[24]。在一些陌生或者小樣本軍事應用場景中,數(shù)據(jù)樣本并不足以完成強化學習的訓練,強化學習與遷移學習相結合,可以有效解決小樣本數(shù)據(jù)以及個性化問題。而多智能體強化學習中,智能體之間的協(xié)同學習將加速模型收斂、提高智能體之間的協(xié)作性。

    7.3 強化學習與真實軍事應用場景建模與融合技術

    強化學習的本質決定了其運行環(huán)境的質量好壞,它將直接決定結果的質量,然而在實際的軍事應用場景中,往往呈現(xiàn)不完全透明/單向透明、場景復雜、范圍廣、參與單位層次多,以及存在隨機問題等諸多制約因素,且相互之間存在一定的耦合影響。因此,對軍事應用場景的快速準確建模、不確定因素的量化考量,以及強化學習與構建場景的相互融合,將成為一個重要的支撐技術。

    此外,強化學習被認為是通往通用人工智能的關鍵技術,強化學習不同于其他機器學習技術,它的核心是決策,這也是強化學習與軍事領域有著較高適應性的原因,但是解決在一定算力的情況下達到既定效果,也是強化學習未來發(fā)展的趨勢。

    8 結論

    隨著現(xiàn)代軍事博弈過程和環(huán)境的越發(fā)復雜化,強化學習側重于學習解決問題的策略特性在軍事領域凸顯出了其特殊性。強化學習在諸多軍事應用領域中正在發(fā)揮著越來越重要的作用,目前已經(jīng)在無人裝備的自主決策領域得到了有效利用,同時在目標分配與防御、復雜數(shù)據(jù)融合、供應保障動態(tài)協(xié)同,以及航母的甲板調度問題等復雜軍事應用得到了應用,并顯示出良好的應用勢頭和優(yōu)勢。隨著相關技術和計算機技術的不斷發(fā)展,在博弈論思想基礎上,強化學習亦可在軍事戰(zhàn)略布局、作戰(zhàn)指揮決策等領域,為多層次和非線性、行為多樣性和信息不完備的復雜問題分析和決策提供有力的支撐。

    猜你喜歡
    空戰(zhàn)無人軍事
    最強空戰(zhàn)王
    無人戰(zhàn)士無人車
    反擊無人機
    空戰(zhàn)之城
    詩到無人愛處工
    岷峨詩稿(2017年4期)2017-04-20 06:26:43
    無人超市會流行起來嗎?
    “85:0”的敘以空戰(zhàn)
    軍事幽默:局
    軍事文摘(2009年9期)2009-07-30 09:40:44
    軍事
    軍事幽默
    軍事文摘(2009年5期)2009-06-30 01:01:04
    在线免费观看不下载黄p国产| 亚洲国产高清在线一区二区三| 又爽又黄a免费视频| 水蜜桃什么品种好| 久久久久久伊人网av| 小蜜桃在线观看免费完整版高清| 国产乱来视频区| 亚洲精品成人av观看孕妇| 日本爱情动作片www.在线观看| 搡女人真爽免费视频火全软件| 久久人妻熟女aⅴ| 中文在线观看免费www的网站| 国产精品久久久久久精品古装| 久久97久久精品| 少妇熟女欧美另类| 色5月婷婷丁香| 在线观看av片永久免费下载| av国产免费在线观看| 我的老师免费观看完整版| h视频一区二区三区| 内地一区二区视频在线| 最近手机中文字幕大全| 偷拍熟女少妇极品色| 少妇人妻 视频| 天堂8中文在线网| 国产人妻一区二区三区在| 免费黄色在线免费观看| 久久青草综合色| 国产精品爽爽va在线观看网站| 一级毛片电影观看| 日日摸夜夜添夜夜爱| 日韩亚洲欧美综合| 国产精品欧美亚洲77777| 有码 亚洲区| 久久久午夜欧美精品| 日日撸夜夜添| 国产极品天堂在线| 男女啪啪激烈高潮av片| 男人舔奶头视频| 国产av码专区亚洲av| 日本黄色日本黄色录像| 欧美人与善性xxx| 久久av网站| 男人添女人高潮全过程视频| 最近最新中文字幕大全电影3| 国产 精品1| 色婷婷久久久亚洲欧美| 美女中出高潮动态图| av在线蜜桃| 亚洲av福利一区| av国产久精品久网站免费入址| 狂野欧美激情性bbbbbb| 内地一区二区视频在线| 久热久热在线精品观看| 亚洲av免费高清在线观看| 午夜福利影视在线免费观看| 亚洲国产色片| 国产成人aa在线观看| 国产欧美日韩精品一区二区| 这个男人来自地球电影免费观看 | 亚洲成人手机| 国产精品久久久久成人av| 亚洲色图综合在线观看| 亚洲av男天堂| 视频区图区小说| 国产精品秋霞免费鲁丝片| 久久久午夜欧美精品| 亚洲一区二区三区欧美精品| 亚洲av欧美aⅴ国产| 日日撸夜夜添| 久久人人爽av亚洲精品天堂 | 国产免费视频播放在线视频| 99热网站在线观看| 亚洲熟女精品中文字幕| 亚洲熟女精品中文字幕| 网址你懂的国产日韩在线| 一级毛片黄色毛片免费观看视频| 亚洲欧美一区二区三区黑人 | 亚洲欧美成人综合另类久久久| 亚洲美女视频黄频| 只有这里有精品99| 97在线人人人人妻| 国产一级毛片在线| 最近手机中文字幕大全| 亚洲av电影在线观看一区二区三区| 亚洲av男天堂| 草草在线视频免费看| av免费观看日本| av网站免费在线观看视频| 国产精品一区二区在线观看99| 亚洲av国产av综合av卡| 国产 一区精品| 少妇人妻久久综合中文| 精华霜和精华液先用哪个| 在线观看免费日韩欧美大片 | 国产精品精品国产色婷婷| av一本久久久久| 久久影院123| 亚洲综合精品二区| 国模一区二区三区四区视频| 啦啦啦中文免费视频观看日本| 视频中文字幕在线观看| 少妇裸体淫交视频免费看高清| 多毛熟女@视频| 免费不卡的大黄色大毛片视频在线观看| 少妇人妻久久综合中文| 在线观看一区二区三区| 亚洲av成人精品一二三区| 精品久久久久久电影网| 插逼视频在线观看| 三级国产精品欧美在线观看| 人体艺术视频欧美日本| 免费观看在线日韩| 久久国产精品大桥未久av | 在线观看一区二区三区激情| 少妇精品久久久久久久| 免费看av在线观看网站| 韩国高清视频一区二区三区| 女性被躁到高潮视频| 亚洲综合精品二区| 天天躁日日操中文字幕| 男的添女的下面高潮视频| 日本黄大片高清| av播播在线观看一区| 欧美日韩在线观看h| 91久久精品电影网| 久久精品人妻少妇| 国产永久视频网站| 男人舔奶头视频| 视频区图区小说| 欧美国产精品一级二级三级 | 中国国产av一级| 免费久久久久久久精品成人欧美视频 | 亚洲综合色惰| 日本wwww免费看| 99九九线精品视频在线观看视频| 亚洲精品国产av蜜桃| 黑丝袜美女国产一区| 色吧在线观看| av女优亚洲男人天堂| 精品亚洲成a人片在线观看 | 草草在线视频免费看| 我的女老师完整版在线观看| 日韩大片免费观看网站| 青春草亚洲视频在线观看| 亚洲精品久久午夜乱码| 午夜老司机福利剧场| 男男h啪啪无遮挡| 久久久久网色| 老熟女久久久| 亚洲无线观看免费| 欧美xxⅹ黑人| 蜜臀久久99精品久久宅男| 日日啪夜夜撸| 亚洲美女黄色视频免费看| 日产精品乱码卡一卡2卡三| 久久精品久久久久久噜噜老黄| 日韩制服骚丝袜av| 国产一区亚洲一区在线观看| 高清欧美精品videossex| 一级黄片播放器| 又黄又爽又刺激的免费视频.| 成人午夜精彩视频在线观看| 中国美白少妇内射xxxbb| 国产熟女欧美一区二区| 国产黄色免费在线视频| 国产一区二区在线观看日韩| 亚洲自偷自拍三级| 丰满迷人的少妇在线观看| 插阴视频在线观看视频| 国产欧美日韩精品一区二区| 国产伦精品一区二区三区视频9| av在线播放精品| 秋霞在线观看毛片| 欧美极品一区二区三区四区| 免费少妇av软件| 亚洲欧美成人精品一区二区| 国产探花极品一区二区| 夫妻性生交免费视频一级片| 91久久精品电影网| 这个男人来自地球电影免费观看 | 久久精品久久久久久噜噜老黄| 日韩不卡一区二区三区视频在线| 一区二区av电影网| 黑人猛操日本美女一级片| 国产精品一区二区在线不卡| 免费观看的影片在线观看| 九九爱精品视频在线观看| 国产av一区二区精品久久 | 亚洲最大成人中文| 久久国产精品大桥未久av | 国产精品99久久久久久久久| 国产免费一级a男人的天堂| 欧美日韩视频精品一区| 大码成人一级视频| 亚洲欧美清纯卡通| 精品99又大又爽又粗少妇毛片| 午夜视频国产福利| 免费av不卡在线播放| 免费高清在线观看视频在线观看| 亚洲一级一片aⅴ在线观看| 国产老妇伦熟女老妇高清| 久久av网站| 国产成人免费观看mmmm| 啦啦啦啦在线视频资源| 插逼视频在线观看| 十分钟在线观看高清视频www | 日本黄色日本黄色录像| 老司机影院毛片| 日韩伦理黄色片| 国产高清国产精品国产三级 | 久久久久久久久久久免费av| 国产精品无大码| 91久久精品国产一区二区成人| 狠狠精品人妻久久久久久综合| 99久久精品一区二区三区| 国产精品久久久久久久电影| 亚洲欧美成人综合另类久久久| 欧美性感艳星| 日本av手机在线免费观看| 亚洲人与动物交配视频| 精品亚洲成a人片在线观看 | 欧美日本视频| 亚洲精品亚洲一区二区| 色哟哟·www| 亚洲欧美一区二区三区国产| 久久精品熟女亚洲av麻豆精品| 国产成人精品福利久久| 三级国产精品欧美在线观看| 国产亚洲欧美精品永久| av不卡在线播放| 久久精品国产a三级三级三级| 人人妻人人爽人人添夜夜欢视频 | 香蕉精品网在线| 小蜜桃在线观看免费完整版高清| 国产免费福利视频在线观看| 成人国产av品久久久| 久久久久人妻精品一区果冻| 国产精品久久久久成人av| 涩涩av久久男人的天堂| 国产一区二区三区综合在线观看 | 免费观看在线日韩| 在线观看免费日韩欧美大片 | 欧美+日韩+精品| 免费不卡的大黄色大毛片视频在线观看| 成人二区视频| 日本免费在线观看一区| 菩萨蛮人人尽说江南好唐韦庄| 欧美日韩视频高清一区二区三区二| 久久久久国产精品人妻一区二区| 男人添女人高潮全过程视频| 亚洲性久久影院| 国产精品无大码| 亚洲色图综合在线观看| 青春草视频在线免费观看| 国内揄拍国产精品人妻在线| 韩国av在线不卡| 国产探花极品一区二区| 亚洲欧美成人综合另类久久久| 嫩草影院新地址| 免费在线观看成人毛片| 亚洲丝袜综合中文字幕| 高清黄色对白视频在线免费看 | 黄色配什么色好看| 日日啪夜夜撸| 丰满迷人的少妇在线观看| 日本黄色片子视频| 久热这里只有精品99| 交换朋友夫妻互换小说| 亚洲欧洲日产国产| 国产精品一区www在线观看| 国产亚洲av片在线观看秒播厂| 欧美人与善性xxx| 国产精品无大码| 精品一区在线观看国产| 韩国高清视频一区二区三区| 亚洲性久久影院| 国产亚洲5aaaaa淫片| 18禁在线播放成人免费| 亚洲欧美一区二区三区国产| 欧美高清成人免费视频www| 中文天堂在线官网| 亚洲国产欧美在线一区| 亚洲av免费高清在线观看| 干丝袜人妻中文字幕| 久久婷婷青草| av网站免费在线观看视频| 又粗又硬又长又爽又黄的视频| 91久久精品国产一区二区成人| 亚洲不卡免费看| 久久久久久久久久久免费av| 九九久久精品国产亚洲av麻豆| 在线免费观看不下载黄p国产| 欧美人与善性xxx| 亚洲av成人精品一二三区| videossex国产| 熟妇人妻不卡中文字幕| 人体艺术视频欧美日本| 草草在线视频免费看| 日本一二三区视频观看| av在线app专区| 国产白丝娇喘喷水9色精品| 亚洲天堂av无毛| 观看美女的网站| 久久久久久人妻| 黑丝袜美女国产一区| 深夜a级毛片| 国产高清有码在线观看视频| 99热这里只有精品一区| 夫妻性生交免费视频一级片| 中国三级夫妇交换| 亚洲国产最新在线播放| 久久人人爽人人片av| 国产在线男女| av网站免费在线观看视频| 一本—道久久a久久精品蜜桃钙片| 人人妻人人添人人爽欧美一区卜 | av在线播放精品| 九九爱精品视频在线观看| 一级毛片黄色毛片免费观看视频| 好男人视频免费观看在线| 国产精品不卡视频一区二区| 菩萨蛮人人尽说江南好唐韦庄| 日韩亚洲欧美综合| 成年女人在线观看亚洲视频| 国产乱人视频| 国产精品爽爽va在线观看网站| 国产中年淑女户外野战色| 直男gayav资源| 亚洲色图av天堂| 精品久久久久久久久亚洲| 成人漫画全彩无遮挡| 久久精品久久久久久久性| 久久婷婷青草| 亚洲一区二区三区欧美精品| 18禁在线播放成人免费| 亚洲精品456在线播放app| 女人久久www免费人成看片| 3wmmmm亚洲av在线观看| 精品久久国产蜜桃| 亚洲国产精品一区三区| 在线免费观看不下载黄p国产| h视频一区二区三区| 一级毛片黄色毛片免费观看视频| 国产欧美另类精品又又久久亚洲欧美| 日韩欧美精品免费久久| 99久久人妻综合| 国产欧美亚洲国产| www.色视频.com| 国产成人a∨麻豆精品| 欧美高清性xxxxhd video| 男女无遮挡免费网站观看| 精品国产露脸久久av麻豆| 丰满人妻一区二区三区视频av| 一本久久精品| 色5月婷婷丁香| 国国产精品蜜臀av免费| 老女人水多毛片| 亚洲美女黄色视频免费看| 亚洲国产最新在线播放| 国产午夜精品一二区理论片| 久久国产乱子免费精品| 国产免费视频播放在线视频| 国产淫语在线视频| 在线观看一区二区三区| 亚洲婷婷狠狠爱综合网| 亚洲av成人精品一区久久| 精品人妻偷拍中文字幕| 国产av国产精品国产| 如何舔出高潮| 欧美xxⅹ黑人| 免费大片18禁| 99热这里只有是精品50| 欧美bdsm另类| 99久国产av精品国产电影| 国产一区二区三区综合在线观看 | 国产精品国产三级专区第一集| 国产精品精品国产色婷婷| 三级国产精品片| 亚洲经典国产精华液单| 一级a做视频免费观看| 香蕉精品网在线| 91久久精品电影网| 亚洲高清免费不卡视频| 成人综合一区亚洲| 国产精品福利在线免费观看| 精品少妇久久久久久888优播| 久久久久久久久久久丰满| 久久久久久久久久久免费av| 国产精品秋霞免费鲁丝片| 亚洲va在线va天堂va国产| 国产午夜精品一二区理论片| 一区二区av电影网| 国内精品宾馆在线| 中国美白少妇内射xxxbb| 一本色道久久久久久精品综合| 精品人妻一区二区三区麻豆| 欧美精品国产亚洲| 80岁老熟妇乱子伦牲交| 青青草视频在线视频观看| 国产av一区二区精品久久 | 黄色怎么调成土黄色| 中文字幕久久专区| 久久99精品国语久久久| 91在线精品国自产拍蜜月| 国产一区二区在线观看日韩| 在线观看三级黄色| h视频一区二区三区| a级毛片免费高清观看在线播放| 男女无遮挡免费网站观看| 久久99热这里只有精品18| 日韩一区二区三区影片| 久久人妻熟女aⅴ| 多毛熟女@视频| 亚洲人成网站在线播| 日本免费在线观看一区| a级毛片免费高清观看在线播放| 老熟女久久久| 在线观看av片永久免费下载| 91在线精品国自产拍蜜月| 日本欧美视频一区| 男女下面进入的视频免费午夜| 色婷婷久久久亚洲欧美| 亚洲精品视频女| 日韩 亚洲 欧美在线| 欧美区成人在线视频| 色视频在线一区二区三区| 超碰97精品在线观看| 一个人看的www免费观看视频| 亚洲av福利一区| 丝瓜视频免费看黄片| 在线观看av片永久免费下载| 好男人视频免费观看在线| 国产精品一区二区在线观看99| 美女cb高潮喷水在线观看| 中文天堂在线官网| 国产在视频线精品| 91精品一卡2卡3卡4卡| 精品午夜福利在线看| 中文字幕人妻熟人妻熟丝袜美| 街头女战士在线观看网站| 日韩欧美精品免费久久| 夜夜爽夜夜爽视频| 熟女电影av网| 一边亲一边摸免费视频| 国产精品国产三级国产专区5o| 日韩成人伦理影院| 国产 一区精品| 国产免费视频播放在线视频| 国产在线男女| 国产成人免费观看mmmm| 中文字幕制服av| 日韩不卡一区二区三区视频在线| 欧美3d第一页| 国产永久视频网站| 午夜福利影视在线免费观看| 亚洲,欧美,日韩| 精品午夜福利在线看| 久久久久久久国产电影| 大话2 男鬼变身卡| 好男人视频免费观看在线| 十八禁网站网址无遮挡 | 亚洲欧美日韩卡通动漫| 成年美女黄网站色视频大全免费 | 久久久久网色| 日本av免费视频播放| 亚洲av在线观看美女高潮| 又粗又硬又长又爽又黄的视频| 久久99精品国语久久久| 亚洲精品视频女| 性色av一级| 草草在线视频免费看| 久久国产精品男人的天堂亚洲 | 久久久久久久亚洲中文字幕| 色婷婷av一区二区三区视频| 亚洲人成网站在线播| 国产精品成人在线| 午夜激情福利司机影院| 欧美精品人与动牲交sv欧美| 最近手机中文字幕大全| 日日摸夜夜添夜夜添av毛片| 91久久精品国产一区二区三区| 99热这里只有是精品50| 最近最新中文字幕免费大全7| 国产日韩欧美亚洲二区| 亚洲国产欧美人成| 岛国毛片在线播放| 国产亚洲精品久久久com| 亚洲精品乱码久久久久久按摩| 男人狂女人下面高潮的视频| 成人国产av品久久久| 人妻系列 视频| 成人毛片a级毛片在线播放| 日韩欧美精品免费久久| 波野结衣二区三区在线| 中文字幕精品免费在线观看视频 | 成年av动漫网址| 大片电影免费在线观看免费| 精品一品国产午夜福利视频| 国产精品免费大片| tube8黄色片| 午夜日本视频在线| 国产人妻一区二区三区在| 精品国产露脸久久av麻豆| 超碰av人人做人人爽久久| 国产91av在线免费观看| 免费人妻精品一区二区三区视频| 水蜜桃什么品种好| 亚洲av欧美aⅴ国产| 亚洲精品456在线播放app| 丰满人妻一区二区三区视频av| 亚洲精华国产精华液的使用体验| 欧美xxxx黑人xx丫x性爽| 中文天堂在线官网| 啦啦啦啦在线视频资源| 爱豆传媒免费全集在线观看| 国产精品99久久久久久久久| 国产亚洲精品久久久com| 国产女主播在线喷水免费视频网站| 国产精品久久久久久精品电影小说 | 在线天堂最新版资源| 嫩草影院入口| 国产成人精品福利久久| 国产精品一区二区在线不卡| 久久久久久久亚洲中文字幕| 亚洲自偷自拍三级| 国产 一区 欧美 日韩| 国产精品秋霞免费鲁丝片| 国产在线一区二区三区精| 亚洲国产欧美人成| 黄色日韩在线| 精品一区二区三区视频在线| 日韩伦理黄色片| 精品一品国产午夜福利视频| 久久韩国三级中文字幕| 91午夜精品亚洲一区二区三区| 亚洲美女搞黄在线观看| 成人特级av手机在线观看| 人人妻人人澡人人爽人人夜夜| 亚洲人与动物交配视频| www.色视频.com| 国产精品麻豆人妻色哟哟久久| 中文精品一卡2卡3卡4更新| 观看免费一级毛片| 亚洲av成人精品一二三区| 国产深夜福利视频在线观看| 街头女战士在线观看网站| 男人狂女人下面高潮的视频| 亚洲精品日韩av片在线观看| 久久久久国产精品人妻一区二区| 高清黄色对白视频在线免费看 | 亚洲欧美清纯卡通| av福利片在线观看| 免费观看性生交大片5| 亚洲国产精品999| 亚洲av电影在线观看一区二区三区| 国产精品99久久久久久久久| 久久综合国产亚洲精品| 99国产精品免费福利视频| 国产精品一区二区在线不卡| 免费人成在线观看视频色| 亚洲精品乱码久久久久久按摩| 亚洲精品第二区| 91午夜精品亚洲一区二区三区| 99热全是精品| 国产精品偷伦视频观看了| 久久精品久久久久久久性| 最黄视频免费看| 亚洲国产精品国产精品| 中文精品一卡2卡3卡4更新| 18+在线观看网站| 午夜免费鲁丝| 亚洲,欧美,日韩| 国产精品女同一区二区软件| 国产伦在线观看视频一区| 免费大片18禁| 亚洲最大成人中文| 91在线精品国自产拍蜜月| 亚洲国产日韩一区二区| 啦啦啦中文免费视频观看日本| 国产欧美亚洲国产| 国产免费视频播放在线视频| 国产欧美亚洲国产| 亚洲婷婷狠狠爱综合网| 九九在线视频观看精品| 最近手机中文字幕大全| 免费人妻精品一区二区三区视频| 亚洲美女搞黄在线观看| 日韩中文字幕视频在线看片 | av又黄又爽大尺度在线免费看| 美女中出高潮动态图| 色哟哟·www| 中文资源天堂在线| 校园人妻丝袜中文字幕| 岛国毛片在线播放| 中文字幕精品免费在线观看视频 | 老司机影院毛片| 婷婷色综合www| 亚洲av中文av极速乱| 国产无遮挡羞羞视频在线观看| 五月伊人婷婷丁香| 最近最新中文字幕大全电影3| 精品久久国产蜜桃| 高清视频免费观看一区二区| 精品少妇久久久久久888优播| 国产精品一区二区三区四区免费观看| 欧美成人一区二区免费高清观看| 亚洲国产高清在线一区二区三| 久久国内精品自在自线图片| 亚洲激情五月婷婷啪啪| 99热这里只有是精品在线观看| 欧美bdsm另类| 国产一区有黄有色的免费视频| 精品久久久久久久久av| 亚洲av中文字字幕乱码综合|