• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度強(qiáng)化學(xué)習(xí)及其在軍事領(lǐng)域中的應(yīng)用綜述

    2024-03-27 12:58:10張夢(mèng)鈺豆亞杰陳子夷楊克巍葛冰峰
    關(guān)鍵詞:智能策略方法

    張夢(mèng)鈺, 豆亞杰, 陳子夷, 姜 江, 楊克巍, 葛冰峰

    (國(guó)防科技大學(xué)系統(tǒng)工程學(xué)院, 湖南 長(zhǎng)沙 410003)

    0 引 言

    近年來(lái),隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等一系列新興技術(shù)的大量涌現(xiàn),人工智能技術(shù)不斷取得突破性進(jìn)展。作為21世紀(jì)的頂尖技術(shù)之一,人工智能給各個(gè)領(lǐng)域的發(fā)展都帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn),在軍事領(lǐng)域也不例外。文獻(xiàn)[1]對(duì)大數(shù)據(jù)時(shí)代的軍事信息體系與發(fā)展戰(zhàn)略進(jìn)行了重點(diǎn)研究[1],軍事智能化已不再是一個(gè)陌生的概念,其正在全面影響著軍隊(duì)建設(shè)和未來(lái)戰(zhàn)爭(zhēng)形態(tài)[2]。從應(yīng)用角度來(lái)看,軍事智能化主要體現(xiàn)在以下5個(gè)層次[3]:以無(wú)人機(jī)、無(wú)人車等仿生智能為主的單裝智能;以人機(jī)融合、集群、協(xié)同等概念為核心的協(xié)同智能;以智能感知、決策、打擊、防御等多要素作戰(zhàn)力量綜合運(yùn)用的體系智能;以通信、網(wǎng)絡(luò)、電子、輿情等專業(yè)領(lǐng)域管控的專項(xiàng)智能;以作戰(zhàn)體系基于數(shù)據(jù)、模型、算法獲取涌現(xiàn)效應(yīng)為目標(biāo)的進(jìn)化智能。人工智能技術(shù)為這些應(yīng)用的落地提供了堅(jiān)實(shí)的基礎(chǔ)。

    深度學(xué)習(xí)(deep learning, DL)和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)作為實(shí)現(xiàn)人工智能的先進(jìn)技術(shù),分別在信息感知和認(rèn)知決策領(lǐng)域有著出色的表現(xiàn)[4-5]。深度RL(deep RL, DRL)[6]則是近幾年提出的新興概念,其結(jié)合了DL與RL的優(yōu)勢(shì),是人工智能的最新成果之一,在機(jī)器人控制、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、博弈論等領(lǐng)域中都取得了重要研究進(jìn)展。在軍事領(lǐng)域中,針對(duì)作戰(zhàn)任務(wù)規(guī)劃、智能軍事決策與智能博弈對(duì)抗等問(wèn)題的解決,DRL也有著巨大的應(yīng)用潛力,引起了研究人員的廣泛關(guān)注。

    目前,關(guān)于DRL的研究已經(jīng)取得了較大進(jìn)展,有一些關(guān)于DRL的綜述性文獻(xiàn)陸續(xù)發(fā)表[6-7],但其更加偏向于對(duì)DRL算法的總結(jié)。除此之外,也有一些關(guān)于DRL在領(lǐng)域應(yīng)用中的綜述,如無(wú)人機(jī)[8]、通信與網(wǎng)絡(luò)[9]、智能制造[10]等領(lǐng)域,然而關(guān)于DRL在軍事領(lǐng)域中的應(yīng)用,并沒(méi)有專門的綜述性文獻(xiàn)對(duì)其進(jìn)行深入梳理和總結(jié)?;诖?本文首先回顧了DRL的理論發(fā)展歷程;然后對(duì)DRL的基本算法及改進(jìn)算法進(jìn)行了歸納總結(jié);最后對(duì)前人研究中DRL在軍事領(lǐng)域武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈等問(wèn)題的應(yīng)用現(xiàn)狀進(jìn)行了系統(tǒng)性的梳理和總結(jié),并展望了其發(fā)展方向和前景。

    1 DRL的基本原理

    1.1 DL

    DL是機(jī)器學(xué)習(xí)(machine learning, ML)領(lǐng)域中的一個(gè)研究方向,致力于自動(dòng)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在特征與規(guī)律,完成數(shù)據(jù)信息的提取工作,使機(jī)器能夠像人類一樣具有分類和識(shí)別等能力。大多數(shù)DL的模型都以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)為基礎(chǔ)[11-12],其結(jié)構(gòu)如圖1所示。人工神經(jīng)元支撐著整個(gè)神經(jīng)網(wǎng)絡(luò)的工作,組成相互連接的輸入層、隱藏層和輸出層。其中,信息通過(guò)輸入層進(jìn)行獲取,在隱藏層進(jìn)行特征提取后,再通過(guò)輸出層輸出結(jié)果。兩個(gè)神經(jīng)元間的連接稱之為權(quán)重θ,每個(gè)神經(jīng)元接受來(lái)自其他幾個(gè)相連接的神經(jīng)元的輸入,這些輸入被乘以分配的權(quán)重θ后相加,接著將總和傳遞給一個(gè)或多個(gè)神經(jīng)元。一些神經(jīng)元可能在將輸出傳遞給下一個(gè)變量之前將激活函數(shù)應(yīng)用于輸出。需要注意的是,這里的輸入值和輸出值是相對(duì)的,較低層的輸出將作為更高一層的輸入。通過(guò)這種多層非線性運(yùn)算,最終實(shí)現(xiàn)DL從訓(xùn)練數(shù)據(jù)中提取特征的目的。

    圖1 ANN的結(jié)構(gòu)Fig.1 ANN’s structure

    深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)被定義為具有多個(gè)隱藏層的ANN。前饋神經(jīng)網(wǎng)絡(luò)和反饋神經(jīng)網(wǎng)絡(luò)是兩種DNN模型。前饋神經(jīng)網(wǎng)絡(luò)中各個(gè)神經(jīng)元分層排列,每個(gè)神經(jīng)元的輸出僅由當(dāng)前的輸入和權(quán)重θ決定,各層之間無(wú)反饋。而反饋神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的輸出不僅與當(dāng)前的輸入和權(quán)重θ有關(guān),而且與之前的網(wǎng)絡(luò)輸入也密切相關(guān)。與此同時(shí),每個(gè)神經(jīng)元還將自己的輸出作為輸入反饋給其他神經(jīng)元,因此反饋神經(jīng)網(wǎng)絡(luò)需要經(jīng)歷一段時(shí)間的工作后才能實(shí)現(xiàn)穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)分別是前饋神經(jīng)網(wǎng)絡(luò)模型和反饋神經(jīng)網(wǎng)絡(luò)模型的典型代表。在DRL中,將CNN和RNN與RL相結(jié)合的算法較多。

    CNN是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在隱藏層中通過(guò)卷積、激活和池化的操作實(shí)現(xiàn)圖像特征提取的功能,近年來(lái)在數(shù)字圖像處理領(lǐng)域應(yīng)用廣泛。目前,常用的CNN包括AlexNet[13]、視覺(jué)幾何組(visual geometry group,VGG)-Net[14]、NIN[15]、深度殘差學(xué)習(xí)[16]等。

    RNN的神經(jīng)元之間的連接形成有向循環(huán),隱藏層的值既受當(dāng)前時(shí)刻輸入值的影響,也受上一時(shí)刻隱藏層值的影響,這使得RNN非常適合處理具有時(shí)間組件的應(yīng)用問(wèn)題,例如時(shí)間序列數(shù)據(jù)和自然語(yǔ)言處理。然而,隨著網(wǎng)絡(luò)層數(shù)的加深,RNN常常會(huì)出現(xiàn)梯度消失或梯度爆炸的問(wèn)題[17],因此有學(xué)者提出使用長(zhǎng)短期記憶(long short-term memory, LSTM)[18-19]來(lái)解決這個(gè)問(wèn)題。LSTM通過(guò)合并內(nèi)存單元,能夠使網(wǎng)絡(luò)學(xué)習(xí)在某時(shí)刻“遺忘”先前的隱藏狀態(tài),以及在某時(shí)刻給定新信息的情況下更新隱藏狀態(tài),所以LSTM能夠?qū)W習(xí)RNN無(wú)法完成的長(zhǎng)期復(fù)雜時(shí)間動(dòng)態(tài)。

    1.2 RL

    1.2.1 RL基本過(guò)程

    RL又稱為增強(qiáng)學(xué)習(xí)[20],其核心思想是試錯(cuò)機(jī)制,即讓智能體在與環(huán)境的交互過(guò)程中不斷學(xué)習(xí)和反饋,以獲得最大的累計(jì)獎(jiǎng)勵(lì)。通常可以使用馬爾可夫決策過(guò)程(Markov decision process,MDP)對(duì)RL問(wèn)題進(jìn)行建模,表示為一個(gè)五元組(S,A,P,R,γ),其中S代表一個(gè)有限的狀態(tài)集合,A代表一個(gè)動(dòng)作集合,P代表一個(gè)狀態(tài)轉(zhuǎn)移概率矩陣,R代表一個(gè)回報(bào)函數(shù),γ代表一個(gè)折扣因子,具體的學(xué)習(xí)過(guò)程如圖2所示。

    圖2 RL基本過(guò)程Fig.2 Basic process of RL

    智能體根據(jù)環(huán)境的即時(shí)狀態(tài)st,為了獲得環(huán)境反饋給智能體的最大獎(jiǎng)勵(lì),選擇并執(zhí)行其所認(rèn)為的最優(yōu)動(dòng)作at。環(huán)境接受動(dòng)作at后,以一定概率轉(zhuǎn)移到下一狀態(tài)st+1,并把一個(gè)獎(jiǎng)勵(lì)rt反饋給智能體,智能體根據(jù)獎(jiǎng)勵(lì)rt和當(dāng)前狀態(tài)st+1選擇下一個(gè)動(dòng)作。而t時(shí)刻的累計(jì)獎(jiǎng)勵(lì)Rt就是即時(shí)獎(jiǎng)勵(lì)rt與后續(xù)所有可能采取的動(dòng)作和導(dǎo)致的環(huán)境狀態(tài)的價(jià)值之和。由于距離當(dāng)前狀態(tài)越遠(yuǎn),不確定性越高,需要乘以一個(gè)折扣因子γ,來(lái)調(diào)整未來(lái)的每個(gè)即時(shí)獎(jiǎng)勵(lì)對(duì)于累計(jì)獎(jiǎng)勵(lì)的影響。累計(jì)獎(jiǎng)勵(lì)Rt的公式可表示如下:

    (1)

    RL算法根據(jù)環(huán)境模型是否已知可以分為兩大類,分別是基于模型的方法和無(wú)模型的方法?;谀P偷腞L指創(chuàng)立環(huán)境模型,讓智能體在虛擬環(huán)境中進(jìn)行學(xué)習(xí)和訓(xùn)練。當(dāng)建立的環(huán)境模型可以精準(zhǔn)描述真實(shí)世界,那么就可以直接基于模型進(jìn)行預(yù)測(cè),而不需要與真實(shí)的環(huán)境進(jìn)行交互,可以大大提高問(wèn)題求解速度?;谀P偷腞L方法可以分為學(xué)習(xí)模型和給定模型兩類。學(xué)習(xí)模型中比較典型的方法是World Models[21]和I2A[22]。給定模型中比較典型的方法是AlphaGo[23]、AlphaZero[24]和Expert Iteration[8]。由于學(xué)習(xí)模型的方法對(duì)模型的精確性要求較高,在實(shí)際應(yīng)用中很難達(dá)到,因而有學(xué)者提出將無(wú)模型的方法與基于模型的方法相結(jié)合[7]。但是,很多實(shí)際問(wèn)題的環(huán)境都是復(fù)雜未知的,這導(dǎo)致建模困難,因此無(wú)模型的方法在實(shí)際中應(yīng)用更加廣泛。對(duì)于無(wú)模型的方法,又可以分為基于價(jià)值的RL、基于策略的RL,以及兩者的結(jié)合。

    1.2.2 基于價(jià)值的RL

    基于價(jià)值函數(shù)的RL通過(guò)構(gòu)建具有適當(dāng)參數(shù)的函數(shù),來(lái)近似計(jì)算狀態(tài)或行為的價(jià)值,而不必存儲(chǔ)每一個(gè)狀態(tài)和行為的價(jià)值,大大提高了算法效率?;趦r(jià)值函數(shù)的RL方法可以分為在線策略和離線策略兩類。兩者的區(qū)別在于在線策略一般直接使用學(xué)習(xí)獲得的當(dāng)前最優(yōu)策略(目標(biāo)策略)作為行為策略,即只有一個(gè)策略進(jìn)行價(jià)值迭代。因此,在線策略可以對(duì)策略進(jìn)行實(shí)時(shí)評(píng)估,在應(yīng)用場(chǎng)景中邊訓(xùn)練邊使用。而離線策略一般有兩個(gè)策略,目標(biāo)策略與行為策略不同,可以進(jìn)行更充分的探索,在產(chǎn)生豐富樣本的同時(shí)并不會(huì)影響目標(biāo)策略。

    文獻(xiàn)[25]的算法基于在線策略的典型算法,迭代公式如下:

    Q(st,at)←Q(st,at)+
    α[rt+1+γQ(st+1,at+1)-Q(st,at)]

    (2)

    Q-Learning算法[26]是基于離線策略的典型算法,并且被大量應(yīng)用于軍事決策過(guò)程中[27-28]。Q-Learning算法通過(guò)Q值表對(duì)“狀態(tài)-動(dòng)作對(duì)”的值進(jìn)行記錄,并且通過(guò)公式迭代對(duì)Q值表進(jìn)行更新,迭代公式如下:

    (3)

    式中:Q(st,at)表示t時(shí)刻的狀態(tài)動(dòng)作價(jià)值,α為學(xué)習(xí)率;r為獎(jiǎng)勵(lì),γ為折扣因子。兩個(gè)公式的區(qū)別在于:式(2)用t+1時(shí)刻的狀態(tài)和動(dòng)作共同決定的Q值來(lái)更新Q(st,at),而式(3)用Q值最大的動(dòng)作來(lái)更新價(jià)值函數(shù)Q(st,at)。

    1.2.3 基于策略的RL

    基于策略函數(shù)的RL和基于價(jià)值函數(shù)的RL在處理具有連續(xù)行為和龐大空間的問(wèn)題時(shí)能力不足,難以求解隨機(jī)策略的問(wèn)題。通過(guò)將策略看作是關(guān)于狀態(tài)和行為的帶參數(shù)的策略函數(shù)π(a|s,θ),不同于對(duì)價(jià)值函數(shù)進(jìn)行迭代計(jì)算,而是通過(guò)迭代的方式直接更新參數(shù)值θ。當(dāng)累積回報(bào)期望最大時(shí),θ對(duì)應(yīng)的策略就是最優(yōu)策略。通常使用基于策略梯度的算法[29]求解,首先通過(guò)逼近器函數(shù)π(a|s,θ)逼近策略,然后對(duì)策略參數(shù)進(jìn)行梯度下降求解,當(dāng)梯度收斂時(shí)得到最優(yōu)策略?;诓呗院瘮?shù)的RL省去了對(duì)狀態(tài)價(jià)值的學(xué)習(xí)過(guò)程,而是直接輸出具體的行為值,策略梯度可以在連續(xù)分布上選取行為,因而可以處理具有連續(xù)行為的問(wèn)題,但是在一些復(fù)雜問(wèn)題的求解中,基于策略函數(shù)的RL計(jì)算難度較大,迭代時(shí)間過(guò)長(zhǎng)。

    1.2.4 基于價(jià)值策略結(jié)合的RL

    Sutton等[30]綜合基于價(jià)值函數(shù)的RL和基于策略函數(shù)的RL,提出了一種新的RL算法——行動(dòng)者-評(píng)論家(actor-critic, AC)算法。其中,行動(dòng)者表示基于策略函數(shù)的網(wǎng)絡(luò),在與環(huán)境交互過(guò)程中根據(jù)狀態(tài)選擇策略,而評(píng)論家表示基于價(jià)值函數(shù)的網(wǎng)絡(luò),對(duì)行動(dòng)者選擇的策略進(jìn)行評(píng)價(jià),并指導(dǎo)行動(dòng)者進(jìn)行策略的改進(jìn)。AC算法可以綜合多種價(jià)值函數(shù)方法和策略函數(shù)方法,汲取二者優(yōu)點(diǎn),收斂速度更快。

    2 DRL主要算法

    DRL是近幾年提出的新興概念,其將DL與RL的優(yōu)勢(shì)結(jié)合,是人工智能的最新成果之一。DRL主要有兩種類型:基于值函數(shù)的DRL和基于策略梯度的DRL。

    2.1 基于值函數(shù)的DRL

    在基于價(jià)值函數(shù)的RL方法中,針對(duì)狀態(tài)和動(dòng)作空間較小的問(wèn)題,Q-Learning算法較容易獲得最優(yōu)策略。但是,當(dāng)狀態(tài)空間或者動(dòng)作空間變得龐大時(shí),繼續(xù)使用Q值表對(duì)狀態(tài)-動(dòng)作對(duì)進(jìn)行存儲(chǔ)給內(nèi)存和時(shí)間都帶來(lái)極大壓力,使算法很難達(dá)到預(yù)期的效果。因此,引出了深度Q網(wǎng)絡(luò)[31](deep Q-networks, DQN)算法來(lái)克服這一缺點(diǎn)。DQN將DNN與Q-Learning相結(jié)合,本質(zhì)上是利用DNN逼近值函數(shù),通過(guò)擬合一個(gè)函數(shù),代替Q值表對(duì)Q值進(jìn)行更新。除此之外,DQN還對(duì)傳統(tǒng)的Q-Learning算法進(jìn)行了如下兩處改進(jìn)。

    (1) 經(jīng)驗(yàn)回放:算法首先初始化一個(gè)回放內(nèi)存池,收集樣本并存儲(chǔ)。每次從回放內(nèi)存池中隨機(jī)采集小批量樣本訓(xùn)練DNN,使用梯度下降法更新參數(shù)θ后得到新的值函數(shù),再獲取新的樣本并存入池中。由于每次訓(xùn)練的樣本通常來(lái)自于多次交互序列,大大降低了樣本之間的關(guān)聯(lián)性,進(jìn)一步提升了算法的穩(wěn)定性。

    (2)目標(biāo)網(wǎng)絡(luò):在Q-Learning算法訓(xùn)練過(guò)程中,Q值是通過(guò)當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)和下一時(shí)刻的價(jià)值估計(jì)進(jìn)行更新的。由于每一輪迭代都會(huì)產(chǎn)生價(jià)值偏移,偏移影響會(huì)繼續(xù)傳遞給下一輪的迭代計(jì)算,很容易造成算法的不穩(wěn)定。為了解決這個(gè)問(wèn)題,DQN另外設(shè)置了目標(biāo)網(wǎng)絡(luò)來(lái)產(chǎn)生目標(biāo)Q值,通過(guò)行為網(wǎng)絡(luò)和與環(huán)境交互獲取估計(jì)Q值,將估計(jì)Q值與目標(biāo)Q值進(jìn)行比較后得出目標(biāo)值并更新行為網(wǎng)絡(luò)。每經(jīng)過(guò)一定輪數(shù)的迭代,把行為網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),再進(jìn)行下一階段的學(xué)習(xí)。通過(guò)這種方式,減輕了模型的波動(dòng)。

    在DQN的基礎(chǔ)之上,人們又做了許多研究工作,先后提出了Narure DQN[32]、Double DQN[33]、Dueling DQN[34]、Double Dueling DQN(D3QN)[35]、Rainbow DQN[36]等一系列改進(jìn)算法?;谥岛瘮?shù)的DRL主要算法如表1所示,本文對(duì)其提出時(shí)間、改進(jìn)和優(yōu)勢(shì)做了簡(jiǎn)單闡述。

    表1 基于值函數(shù)的DRL主要算法Table 1 Main algorithms of DRL based on value function

    2.2 基于策略梯度的DRL

    盡管DQN及其改進(jìn)算法在許多領(lǐng)域都取得了不錯(cuò)的應(yīng)用效果,但是對(duì)于連續(xù)動(dòng)作空間的問(wèn)題還是無(wú)計(jì)可施。Lillicrap等[37]提出了深度確定性策略梯度(deep determi-nistic policy gradient,DDPG)算法。DDPG算法集成了DL、DQN以及AC算法,采用DNN建立AC的近似價(jià)值函數(shù),行動(dòng)者網(wǎng)絡(luò)生成確定的行為,評(píng)論家網(wǎng)絡(luò)評(píng)估策略的優(yōu)劣,同時(shí)采取經(jīng)驗(yàn)回放機(jī)制以避免振蕩??梢哉f(shuō),DDPG算法是目前應(yīng)用于復(fù)雜、連續(xù)控制的重要算法,在機(jī)器人控制和無(wú)人機(jī)編隊(duì)等領(lǐng)域都有廣泛應(yīng)用。為解決DDPG算法Critic對(duì)行為Q值過(guò)估計(jì)的問(wèn)題,Haarnoja等[38]提出雙延遲DDPG(twin delayed DDPG,TD3)算法。針對(duì)策略梯度方法中存在的無(wú)法保證步長(zhǎng)而影響訓(xùn)練效果的問(wèn)題,Schulman等[39]提出一種信任域策略優(yōu)化(trust region policy optimization, TRPO)方法。TRPO以優(yōu)勢(shì)函數(shù)為核心,通過(guò)計(jì)算舊策略與更新后策略之間的差值,保證策略始終朝著好的方向持續(xù)更新。由于TRPO算法計(jì)算復(fù)雜,近端策略優(yōu)化(proximal policy optimization, PPO)[40]和分布式DPPO(distributed PPO)[41]等改進(jìn)算法被先后提出,用以改進(jìn)訓(xùn)練效率。

    此外,基于AC算法、優(yōu)勢(shì)函數(shù)和異步算法,Mnih等[42]又提出一種異步優(yōu)勢(shì)的AC(asynchronous advantage AC, A3C)算法,在AC算法基礎(chǔ)上,采用優(yōu)勢(shì)函數(shù)判斷行為的優(yōu)劣,讓多個(gè)智能體同時(shí)對(duì)環(huán)境進(jìn)行探索,單個(gè)智能體獨(dú)立工作并在線更新整體的策略參數(shù)。通過(guò)這樣的方式縮短學(xué)習(xí)訓(xùn)練的時(shí)間,提升訓(xùn)練效果。優(yōu)勢(shì)AC(advantage AC, A2C)算法[43]去除了A3C算法的異步,中間過(guò)程采用同步控制,解決了A3C中不同智能體使用策略的累計(jì)更新效果可能不是最優(yōu)的問(wèn)題?;诓呗蕴荻鹊腄RL主要算法及部分改進(jìn)算法如表2所示。

    表2 基于策略梯度的DRL主要算法Table 2 Main algorithms of DRL based on policy gradient

    3 DRL在軍事領(lǐng)域的應(yīng)用現(xiàn)狀

    隨著現(xiàn)代科技的飛速發(fā)展,越來(lái)越多的人工智能技術(shù)被引入軍事領(lǐng)域以解決復(fù)雜問(wèn)題,DRL作為人工智能的最新成果之一,與軍事領(lǐng)域的聯(lián)系也日益緊密。為了進(jìn)一步明確DRL技術(shù)對(duì)軍隊(duì)建設(shè)和未來(lái)作戰(zhàn)模式的影響,以及在軍事領(lǐng)域中的應(yīng)用點(diǎn),本文在知網(wǎng)和web of science上選取了近15年來(lái)相關(guān)的參考文獻(xiàn),并使用citespace進(jìn)行處理。由于直接以“DRL”和“軍事”為關(guān)鍵詞對(duì)文獻(xiàn)進(jìn)行檢索獲取的文獻(xiàn)數(shù)量較少,難以進(jìn)行深入分析,本文擴(kuò)大了搜索范圍,以“人工智能”和“軍事”為關(guān)鍵詞進(jìn)行了檢索和分析,最終檢索和分析結(jié)果如圖3所示。另外,由于分析得出的英文關(guān)鍵詞圖譜基本與中文關(guān)鍵詞圖譜一致,本文不再重復(fù)展示。

    圖3 人工智能技術(shù)與軍事領(lǐng)域結(jié)合應(yīng)用圖譜Fig.3 Application map of artificial intelligence technology combined with military field

    從圖3中可以明顯看出,智能的概念已經(jīng)深入到軍事領(lǐng)域的各個(gè)方面,尤其是武器裝備、無(wú)人機(jī)編隊(duì)、網(wǎng)絡(luò)安全、指揮控制、智能博弈與決策等與人工智能結(jié)合得最為緊密。除此之外,當(dāng)前對(duì)于軍事訓(xùn)練、情報(bào)偵察、自主無(wú)人系統(tǒng)等問(wèn)題的研究也與智能化不可分割。從圖3中還可以觀察到,“機(jī)器學(xué)習(xí)、DL、RL、大數(shù)據(jù)、云計(jì)算、虛擬現(xiàn)實(shí)”等關(guān)鍵詞語(yǔ)所代表的新興技術(shù)為軍事智能化的應(yīng)用落地提供了強(qiáng)有力的技術(shù)支撐。

    DRL是DL和RL相結(jié)合的產(chǎn)物,集成了DL的感知能力和RL的決策能力,對(duì)于解決復(fù)雜問(wèn)題具有巨大潛力?;诖?本文對(duì)上述提及的軍事領(lǐng)域中與人工智能結(jié)合最為緊密的幾大問(wèn)題進(jìn)行了討論,分別就DRL在這幾大問(wèn)題中的應(yīng)用研究現(xiàn)狀進(jìn)行了梳理和總結(jié)。

    3.1 DRL在武器裝備組合選擇問(wèn)題中的應(yīng)用

    武器裝備組合選擇問(wèn)題是軍事領(lǐng)域中的一個(gè)研究熱點(diǎn)。組合選擇與運(yùn)用是武器裝備發(fā)揮體系效能的核心,也是武器裝備體系頂層發(fā)展規(guī)劃中的關(guān)鍵問(wèn)題[44]。不同學(xué)者對(duì)此進(jìn)行了大量的探索和嘗試,分別提出了異質(zhì)網(wǎng)絡(luò)模型[45]、差分進(jìn)化算法[46]、遺傳算法[47]、代理模型[48]等理論方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行優(yōu)化??萍歼M(jìn)步促使武器裝備持續(xù)更新發(fā)展,由于武器裝備組合選擇涉及到多個(gè)階段和多個(gè)周期,并且受到不同的作戰(zhàn)意圖和作戰(zhàn)環(huán)境的影響,具有不同屬性武器裝備的組合維度爆炸,大大增加了武器裝備組合選擇問(wèn)題求解的復(fù)雜性。張驍雄等[49]將Q-Learning方法用于求解多階段的裝備組合選擇與規(guī)劃問(wèn)題,雖然相比傳統(tǒng)的多目標(biāo)決策方法在方案選擇中效果更優(yōu),但是對(duì)回報(bào)函數(shù)的設(shè)置僅考慮了裝備組合效能和成本,而實(shí)際武器裝備組合選擇問(wèn)題還涉及到目標(biāo)狀態(tài)、戰(zhàn)場(chǎng)環(huán)境等多方面因素,數(shù)據(jù)維度不斷提升,采用Q值表存儲(chǔ)運(yùn)動(dòng)狀態(tài)值無(wú)法解決維度爆炸的問(wèn)題。除此之外,軍事領(lǐng)域具有特殊性,很多數(shù)據(jù)無(wú)法獲取,戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,大量信息無(wú)法被完全觀測(cè)也給武器裝備的組合選擇帶來(lái)困難,如何在環(huán)境復(fù)雜和數(shù)據(jù)信息不完備條件下快速生成武器裝備組合選擇方案成為未來(lái)研究的重點(diǎn)。DRL是在傳統(tǒng)的RL算法中加入DNN形成的,對(duì)于解決高維輸入問(wèn)題具有良好效果。同時(shí),DRL具有無(wú)需數(shù)據(jù)樣本、無(wú)需環(huán)境模型、無(wú)需提取特征等優(yōu)勢(shì),解決了數(shù)據(jù)信息依賴問(wèn)題。因此,越來(lái)越多的學(xué)者考慮結(jié)合DRL的方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行求解。文東日等[50]將裝備組合運(yùn)用問(wèn)題視為在離散動(dòng)作空間的RL問(wèn)題,提出了基于PPO的裝備組合運(yùn)用方法的模型及仿真框架。在武器裝備的動(dòng)態(tài)目標(biāo)分配問(wèn)題中,黃亭飛等[51]考慮到完成目標(biāo)摧毀任務(wù)之后不具有下一狀態(tài),使用當(dāng)前狀態(tài)的Q值替換公式中下一狀態(tài)的Q值對(duì)DQN算法進(jìn)行了改進(jìn),同時(shí)結(jié)合不同類型攔截裝備的屬性特征,提出了基于DQN的多類型攔截裝備復(fù)合式反無(wú)人機(jī)任務(wù)分配方法。

    總體而言,目前,將DRL技術(shù)用于解決武器裝備組合選擇問(wèn)題的研究才剛剛起步,許多問(wèn)題都是在想定的作戰(zhàn)環(huán)境和作戰(zhàn)意圖之下進(jìn)行討論研究,而現(xiàn)代戰(zhàn)場(chǎng)態(tài)勢(shì)會(huì)隨時(shí)變化,無(wú)法完全框定在給定的模型之中。因此,在動(dòng)態(tài)條件下實(shí)時(shí)進(jìn)行武器裝備的組合選擇是未來(lái)進(jìn)一步研究的重點(diǎn)。

    3.2 DRL在軍事網(wǎng)絡(luò)安全問(wèn)題中的應(yīng)用

    新時(shí)代下戰(zhàn)爭(zhēng)觀念發(fā)生轉(zhuǎn)變,傳統(tǒng)的以武器為核心的作戰(zhàn)方式漸漸向以網(wǎng)絡(luò)為中心的信息化作戰(zhàn)方式發(fā)生轉(zhuǎn)變。當(dāng)前的網(wǎng)絡(luò)化戰(zhàn)爭(zhēng)已經(jīng)將情報(bào)偵察、指揮決策、武器控制、通信聯(lián)絡(luò)等信息系統(tǒng)通過(guò)計(jì)算機(jī)連接成通信網(wǎng)絡(luò),向著體系作戰(zhàn)的方向發(fā)展[52]。隨著復(fù)雜網(wǎng)絡(luò)理論的發(fā)展和成熟,許多學(xué)者選擇將軍事通信網(wǎng)絡(luò)系統(tǒng)抽象為復(fù)雜網(wǎng)絡(luò)進(jìn)行研究,即將各系統(tǒng)以及各系統(tǒng)中的實(shí)體視為節(jié)點(diǎn),將關(guān)系視為邊,建立軍事通信網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型[53-55],并基于模型進(jìn)行網(wǎng)絡(luò)安全性、可生存性和可恢復(fù)性的研究。基于抽象的網(wǎng)絡(luò)識(shí)別出關(guān)鍵節(jié)點(diǎn),對(duì)其進(jìn)行保護(hù)(或破壞)將最大限度地增強(qiáng)(或降低)網(wǎng)絡(luò)的功能。近期蓬勃發(fā)展的圖網(wǎng)絡(luò)是一個(gè)將網(wǎng)絡(luò)科學(xué)與DL相結(jié)合的領(lǐng)域,正被大量應(yīng)用于復(fù)雜系統(tǒng)建模工作。目前,已有學(xué)者使用DRL和圖神經(jīng)網(wǎng)絡(luò)結(jié)合的方法對(duì)網(wǎng)絡(luò)安全問(wèn)題進(jìn)行處理,并取得了良好的效果。Fan等[56]使用歸納式圖表示學(xué)習(xí)技術(shù)從鄰域迭代聚合節(jié)點(diǎn)嵌入向量,這些向量被初始化為節(jié)點(diǎn)特征,用以描述狀態(tài)與動(dòng)作,使用連通性度量代替獎(jiǎng)勵(lì),并利用DQN自動(dòng)學(xué)習(xí)優(yōu)化目標(biāo),綜合上述方法提出了一個(gè)DRL框架FINDER。FINDER的提出也為復(fù)雜網(wǎng)絡(luò)問(wèn)題的解決開(kāi)辟了新的研究方向。Xu等[57]在使用FINDER框架識(shí)別出軍用通信網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)后,通過(guò)改進(jìn)遺傳算法的編碼規(guī)則和交叉變異算子,對(duì)軍用通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行了優(yōu)化。在網(wǎng)絡(luò)威脅檢測(cè)問(wèn)題中,Praveena等[58]首先利用黑寡婦優(yōu)化(black widow optimization, BWO)算法對(duì)深度信念網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,在此基礎(chǔ)上將深度強(qiáng)化學(xué)習(xí)-BWO(deep reinforcement learning-BWO, DRL-BWO)算法用于無(wú)人機(jī)網(wǎng)絡(luò)入侵檢測(cè)。

    總體而言,當(dāng)前使用DRL的方法對(duì)軍事網(wǎng)絡(luò)系統(tǒng)進(jìn)行優(yōu)化,大多是與復(fù)雜網(wǎng)絡(luò)理論相結(jié)合。除此之外,在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域中,還有許多文獻(xiàn)對(duì)使用DRL算法解決資源調(diào)度的問(wèn)題進(jìn)行了研究[59],如路由選擇、任務(wù)調(diào)度和傳輸控制協(xié)議擁塞控制等,未來(lái)可以考慮通過(guò)遷移學(xué)習(xí)的方式將上述研究提出的解決方法遷移到軍事網(wǎng)絡(luò)中,對(duì)相關(guān)問(wèn)題進(jìn)行優(yōu)化改進(jìn)。

    3.3 DRL在無(wú)人機(jī)編隊(duì)問(wèn)題中的應(yīng)用

    隨著智能化控制技術(shù)和空中武器裝備的迅速發(fā)展,空中力量在對(duì)抗程度和對(duì)抗節(jié)奏上都實(shí)現(xiàn)了升級(jí),編隊(duì)智能空戰(zhàn)模式將成為奪取制空權(quán)的關(guān)鍵手段。當(dāng)前,常用的編隊(duì)控制方法主要有領(lǐng)導(dǎo)者-跟隨者方法、虛擬結(jié)構(gòu)方法和基于行為的方法3種[60]。但是,由于編隊(duì)控制問(wèn)題涉及的作戰(zhàn)環(huán)境復(fù)雜多變,影響因素眾多,使得狀態(tài)空間龐大,這些方法或多或少出現(xiàn)了應(yīng)用上的短板。DRL算法可以將作戰(zhàn)過(guò)程中的態(tài)勢(shì)信息直接映射到機(jī)動(dòng)動(dòng)作中,而無(wú)需構(gòu)建模型,無(wú)需考慮眾多影響因素之間錯(cuò)綜復(fù)雜的關(guān)系,針對(duì)狀態(tài)空間龐大的問(wèn)題也可以有效解決[61],因此被逐漸應(yīng)用于解決編隊(duì)智能體機(jī)動(dòng)控制和協(xié)同決策問(wèn)題。針對(duì)無(wú)人機(jī)協(xié)同控制,Zhao等[62]基于PPO算法提出多智能體聯(lián)合PPO(multi-agent joint PPO, MAJPPO)算法,對(duì)不同智能體的狀態(tài)價(jià)值函數(shù)進(jìn)行滑動(dòng)窗口平均,計(jì)算出集中的狀態(tài)價(jià)值函數(shù)并分配給每個(gè)智能體,解決了由智能體策略變化導(dǎo)致的非平穩(wěn)環(huán)境問(wèn)題。Hu等[63]提出一種雙無(wú)人機(jī)協(xié)同自主機(jī)動(dòng)控制方法,針對(duì)狀態(tài)空間維度爆炸問(wèn)題,首先對(duì)連續(xù)空戰(zhàn)狀態(tài)空間進(jìn)行降維和量化描述,接著基于態(tài)勢(shì)評(píng)估結(jié)果設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并提出了一種優(yōu)先采樣策略,以解決傳統(tǒng)DQN算法訓(xùn)練時(shí)收斂速度慢的問(wèn)題。實(shí)驗(yàn)表明,該方法顯著提高了無(wú)人機(jī)的避障、編隊(duì)和對(duì)抗能力。張耀中等[64]通過(guò)引入基于滑動(dòng)平均值的軟更新策略,降低了DDPG算法的參數(shù)震蕩,提高了無(wú)人機(jī)集群協(xié)同執(zhí)行追擊任務(wù)的成功率。

    總體而言,當(dāng)前研究主要從多智能體DRL算法優(yōu)化的角度對(duì)無(wú)人機(jī)編隊(duì)控制問(wèn)題進(jìn)行改進(jìn),但是,大多數(shù)研究都弱化了多智能體間的交流協(xié)作,更加注重任務(wù)的完成速度。實(shí)際作戰(zhàn)過(guò)程往往涉及多個(gè)主體,各主體之間的有效溝通對(duì)于提高任務(wù)的成功率有重要影響,這也是未來(lái)需要進(jìn)一步著重研究的問(wèn)題之一。

    3.4 DRL在智能決策與博弈問(wèn)題中的應(yīng)用

    2016年,AlphaGo[65]擊敗李世石成為DRL領(lǐng)域中一項(xiàng)里程碑式的研究成果,表明DRL方法能夠有效解決完全信息博弈問(wèn)題。2017年,AlphaGo Zero[66]的問(wèn)世再一次刷新了人們對(duì)DRL方法的認(rèn)知,AlphaGo Zero不再需要人類的經(jīng)驗(yàn)作為先驗(yàn)知識(shí),將原先獨(dú)立的策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)合并后大大降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,實(shí)驗(yàn)表明AlphaGo Zero的能力完勝AlphaGo,展現(xiàn)出DRL方法在智能決策與博弈領(lǐng)域中應(yīng)用的強(qiáng)大潛力。在軍事領(lǐng)域中,基于DRL的的智能決策與博弈是通過(guò)數(shù)據(jù)信息、專家知識(shí)和一定規(guī)則,建立博弈對(duì)抗過(guò)程中各類行動(dòng)實(shí)體的模型,針對(duì)復(fù)雜戰(zhàn)場(chǎng)環(huán)境下動(dòng)態(tài)不確定性的智能決策問(wèn)題,利用模型進(jìn)行決策分析,為指揮控制方案的確定提供了數(shù)據(jù)支撐[67]。Wang等[68]考慮到對(duì)手機(jī)動(dòng)策略同樣具有不確定性,使用DQN訓(xùn)練了用于雙方飛機(jī)引導(dǎo)的機(jī)動(dòng)策略智能體,同時(shí)通過(guò)獎(jiǎng)勵(lì)塑造的方法對(duì)算法進(jìn)行優(yōu)化,提高了訓(xùn)練收斂速度。智能體和對(duì)手通過(guò)交替凍結(jié)策略的方式進(jìn)行訓(xùn)練,具備了更好的對(duì)抗能力。Zhang等[69]針對(duì)源自無(wú)人機(jī)作戰(zhàn)場(chǎng)景的多智能體作戰(zhàn)問(wèn)題提出了3種訓(xùn)練技術(shù),并分別將其與多智能體深度Q學(xué)習(xí)和多智能體深度確定性策略梯度相結(jié)合,提高了兩種算法的收斂速度和性能。除了博弈對(duì)抗,DRL在智能決策問(wèn)題中也有很大的應(yīng)用價(jià)值,有學(xué)者利用DRL訓(xùn)練模型或改進(jìn)算法,實(shí)現(xiàn)了作戰(zhàn)過(guò)程中智能體的自主決策。Bai等[70]利用TD3算法對(duì)無(wú)人機(jī)自主機(jī)動(dòng)模型進(jìn)行訓(xùn)練,使無(wú)人機(jī)能夠根據(jù)位置、速度、相對(duì)方位角等態(tài)勢(shì)信息自主做出機(jī)動(dòng)決策。Kong等[71]對(duì)DDPG算法做出了兩個(gè)改進(jìn),一方面考慮到飛機(jī)傳感器的誤差可能會(huì)影響智能體的決策,在策略梯度中引入正則化器來(lái)加強(qiáng)策略網(wǎng)絡(luò)的魯棒性;另一方面利用最大熵逆RL算法對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行規(guī)劃,以加速算法的收斂。況立群等[72]分別采用優(yōu)先級(jí)經(jīng)驗(yàn)重放機(jī)制提升價(jià)值經(jīng)驗(yàn)的學(xué)習(xí)率、采取奧恩斯坦-烏倫貝克噪聲和高斯噪聲相結(jié)合的探索策略加速算法收斂、采用多智能體單訓(xùn)練模式提升算法收斂速度和穩(wěn)定性對(duì)DDPG算法進(jìn)行改進(jìn),在解決復(fù)雜連續(xù)的軍事決策控制問(wèn)題中表現(xiàn)突出。

    總體而言,雖然DRL在解決智能決策與博弈問(wèn)題時(shí)具有很大潛力,但是目前針對(duì)軍事領(lǐng)域博弈問(wèn)題的研究仍然存在一些不可避免的問(wèn)題。一方面,真實(shí)戰(zhàn)場(chǎng)環(huán)境中大量信息是復(fù)雜未知的,屬于不完備信息博弈,這是其與棋盤博弈最大的差別所在,給DRL解決戰(zhàn)場(chǎng)博弈問(wèn)題帶來(lái)極大挑戰(zhàn);另一方面,不同智能體協(xié)同合作時(shí)可能會(huì)出現(xiàn)目標(biāo)沖突的問(wèn)題,如何權(quán)衡決策也是一大難題。針對(duì)這一問(wèn)題,在2021年“決策智能與計(jì)算前沿”論壇上,有學(xué)者指出未來(lái)可以采用全局DRL、局部博弈論的方式進(jìn)行優(yōu)化處理,該設(shè)想有待進(jìn)一步加強(qiáng)研究。

    3.5 DRL在其他軍事領(lǐng)域問(wèn)題中的應(yīng)用

    除了上述問(wèn)題,DRL在軍事領(lǐng)域的其他問(wèn)題上也有大量應(yīng)用。情報(bào)偵察是軍事博弈中關(guān)鍵的一環(huán),掌握更多的情報(bào)信息是取得戰(zhàn)爭(zhēng)勝利的籌碼,Ghadermazi等[73]站在攻擊者的立場(chǎng),通過(guò)建立對(duì)抗性的DRL模型使智能體做出重要的順序決策,實(shí)現(xiàn)具有破壞性的目標(biāo)任務(wù),并基于訓(xùn)練的模型構(gòu)建威脅檢測(cè)器,通過(guò)分析具有不完整軌跡信息的對(duì)手的可疑活動(dòng)來(lái)識(shí)別威脅信號(hào)。人是生成戰(zhàn)斗力最具決定性的能動(dòng)要素,軍事訓(xùn)練有助于提高軍人素質(zhì),Kallstrom等[74]使用多智能體DRL方法設(shè)計(jì)了具有高質(zhì)量行為模型的合成對(duì)手,幫助人類飛行員進(jìn)行訓(xùn)練,可以應(yīng)用于復(fù)雜場(chǎng)景下的訓(xùn)練任務(wù)。在智能調(diào)度問(wèn)題中,Feng[75]用圖像表示資源利用狀態(tài),基于A2C算法為艦載機(jī)保障作戰(zhàn)過(guò)程中的多種資源有效協(xié)調(diào)和調(diào)度問(wèn)題提供了一種解決方案。除此之外,在路徑規(guī)劃問(wèn)題中,文獻(xiàn)[76-78]分別基于DQN、Double DQN和D3QN算法對(duì)機(jī)器人或無(wú)人機(jī)路徑規(guī)劃問(wèn)題進(jìn)行了求解。

    雖然DRL算法在其他領(lǐng)域中已經(jīng)取得了不錯(cuò)的應(yīng)用成效,但是針對(duì)軍事領(lǐng)域,許多問(wèn)題的研究才剛剛起步。就上述提及的軍事領(lǐng)域中的幾大關(guān)鍵問(wèn)題,結(jié)合DRL的研究程度也存在較大差異,有的問(wèn)題才剛剛開(kāi)始探索,有的問(wèn)題已經(jīng)有了較為成熟的算法,既無(wú)法一概而論,又很難針對(duì)軍事領(lǐng)域下的每個(gè)子問(wèn)題都展開(kāi)方法的演化分析。

    因此,本文從軍事領(lǐng)域整體的角度出發(fā),對(duì)目前重點(diǎn)關(guān)注的幾大類問(wèn)題進(jìn)行方法關(guān)系和演化過(guò)程的梳理。為了更加清晰明了地呈現(xiàn)出問(wèn)題與方法以及方法與方法之間的關(guān)系,本文一方面從問(wèn)題視角切入,采用表格的形式分類介紹了不同問(wèn)題使用的DRL方法,如表3所示;另一方面從方法視角切入,以演化圖的形式介紹了各類DRL方法的發(fā)展過(guò)程以及相互之間的關(guān)系,同時(shí)對(duì)該方法目前可以解決的具體問(wèn)題進(jìn)行了標(biāo)注,如圖4所示。

    表3 DRL在軍事領(lǐng)域中的應(yīng)用Table 3 Application of DRL in military field

    圖4 DRL方法演化圖Fig.4 Method evolution diagram of DRL

    3.6 DRL算法適應(yīng)性分析

    DRL發(fā)展至今,已經(jīng)提出了許多算法,其中最基本的就是DQN。由于DQN提出時(shí)間最早,同時(shí)也最簡(jiǎn)單,大量算法都在DQN的基礎(chǔ)之上進(jìn)行改進(jìn)。目前,應(yīng)用比較廣泛的算法都是以DQN、DDPG、PPO為基礎(chǔ)的改進(jìn)算法。其中,DQN主要應(yīng)用于離散動(dòng)作空間,DDPG主要應(yīng)用于連續(xù)動(dòng)作空間,而PPO既可以應(yīng)用于離散動(dòng)作空間,又可以應(yīng)用于連續(xù)動(dòng)作空間。

    在這些算法的實(shí)際應(yīng)用過(guò)程中,受到重點(diǎn)關(guān)注的問(wèn)題之一就是模型的訓(xùn)練時(shí)長(zhǎng)?,F(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,才能夠?qū)崿F(xiàn)自主決策。時(shí)間復(fù)雜度決定了模型的訓(xùn)練時(shí)間,若以一個(gè)episode表示智能體從開(kāi)始執(zhí)行任務(wù)到任務(wù)結(jié)束,以nm表示episode的數(shù)量,以nt表示一個(gè)episode中的時(shí)間步數(shù)量,當(dāng)episode和nt的值非常大時(shí),算法的時(shí)間復(fù)雜度取決于episode的數(shù)量和每個(gè)episode中的時(shí)間步數(shù)量,表示為O(ntnm)。

    如果要將算法落地于實(shí)際工作,必須根據(jù)任務(wù)的特點(diǎn)選擇合適的算法,并不是每種算法都適用于解決某一類問(wèn)題。對(duì)于前文提及的軍事領(lǐng)域中的不同問(wèn)題,在依據(jù)動(dòng)作空間的類型對(duì)問(wèn)題進(jìn)行分析后,再進(jìn)行選擇。對(duì)于武器裝備組合選擇問(wèn)題,動(dòng)作空間主要由單元、目標(biāo)、離散化后的時(shí)間、任務(wù)和條令構(gòu)成,屬于離散動(dòng)作空間,因此DQN系列算法和PPO算法在此類問(wèn)題中較為適于應(yīng)用。對(duì)于軍事網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問(wèn)題,動(dòng)作空間主要由網(wǎng)絡(luò)中的節(jié)點(diǎn)組成,同樣屬于離散動(dòng)作空間,目前大多采用DQN系列算法識(shí)別關(guān)鍵節(jié)點(diǎn)后進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。對(duì)于無(wú)人機(jī)編隊(duì)控制和無(wú)人機(jī)機(jī)動(dòng)決策這類問(wèn)題,無(wú)人機(jī)的運(yùn)動(dòng)過(guò)程是連續(xù)的,目前主要有兩種處理方式,一種是采用任務(wù)環(huán)境網(wǎng)格化的離散處理方式,采用DQN系列算法進(jìn)行處理。這種處理方式雖然在一定程度上可以獲得相應(yīng)的解決方案,但是DQN系列算法只能處理小規(guī)模的問(wèn)題,在大規(guī)模問(wèn)題上適應(yīng)性并不好,而且采用網(wǎng)格化處理之后,問(wèn)題過(guò)于簡(jiǎn)單,不能完全模擬實(shí)際環(huán)境;另一種處理方式是采用連續(xù)的任務(wù)環(huán)境,用連續(xù)的空間位置坐標(biāo)表示無(wú)人機(jī)的位置,采用DDPG算法進(jìn)行處理。由于DDPG算法對(duì)于狀態(tài)空間和行為空間的大小沒(méi)有限制,因此算法的適應(yīng)性更好,研究前景更加光明。除此之外,在調(diào)度、訓(xùn)練、路徑規(guī)劃這類離散動(dòng)作空間問(wèn)題中,DQN系列算法的適應(yīng)性更好。

    但是,無(wú)論是DQN系列算法還是DDPG算法,都存在一個(gè)共性的問(wèn)題,即模型訓(xùn)練時(shí)間過(guò)長(zhǎng),特別是當(dāng)問(wèn)題由單智能體轉(zhuǎn)向多智能體,動(dòng)作空間和狀態(tài)空間更加龐大,訓(xùn)練耗時(shí)大幅上升。針對(duì)這一問(wèn)題,現(xiàn)有研究主要通過(guò)改進(jìn)DRL算法進(jìn)行改善,例如TD3和PPO等,但是也不能完全解決訓(xùn)練時(shí)長(zhǎng)的問(wèn)題。因此,未來(lái)需要就這一問(wèn)題繼續(xù)改進(jìn),這也是提高各類DRL算法適應(yīng)性的關(guān)鍵所在。

    4 結(jié)束語(yǔ)

    DRL技術(shù)為解決軍事領(lǐng)域的問(wèn)題開(kāi)辟了一條嶄新的道路。本文在回顧了DRL基本原理和主要算法的基礎(chǔ)上,對(duì)當(dāng)前DRL方法在武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈、情報(bào)、訓(xùn)練、調(diào)度和路徑規(guī)劃等問(wèn)題中的應(yīng)用現(xiàn)狀進(jìn)行了梳理與總結(jié)。

    可以發(fā)現(xiàn),雖然DRL技術(shù)在軍事領(lǐng)域的應(yīng)用日益廣泛,但仍然處于剛剛起步和不斷完善的階段。需要注意的是,理論研究可行并不意味著實(shí)踐一定會(huì)成功,考慮到人力、物力、財(cái)力與安全等因素,軍事領(lǐng)域中的許多問(wèn)題都難以在現(xiàn)實(shí)中進(jìn)行方法的效果驗(yàn)證。除此之外,由于現(xiàn)實(shí)戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,實(shí)驗(yàn)中建立的問(wèn)題模型可能無(wú)法與實(shí)際情況完全一致,進(jìn)而影響問(wèn)題的求解和方法的應(yīng)用效果。因此,在實(shí)際推進(jìn)DRL技術(shù)在軍事領(lǐng)域的應(yīng)用落地與具體實(shí)現(xiàn)中仍然面臨著諸多挑戰(zhàn)。

    除了應(yīng)用方面,在DRL的理論研究中也可以發(fā)現(xiàn),當(dāng)前仍然存在許多局限:軍事領(lǐng)域部分問(wèn)題的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難,不合理的獎(jiǎng)勵(lì)函數(shù)難以實(shí)現(xiàn)預(yù)期的學(xué)習(xí)目標(biāo),例如軍事領(lǐng)域中的無(wú)人機(jī)編隊(duì)機(jī)動(dòng)控制問(wèn)題。每一架飛機(jī)的動(dòng)作都受偏航、俯仰、滾動(dòng)和推力等因素的影響,但是由于無(wú)人機(jī)在執(zhí)行任務(wù)的過(guò)程中很難設(shè)定中間每步的獎(jiǎng)勵(lì),只能使用全局獎(jiǎng)勵(lì),引發(fā)獎(jiǎng)勵(lì)稀疏且滯后的問(wèn)題,致使訓(xùn)練困難;基于DRL的端到端方法可以對(duì)具有相同分布特性的所有問(wèn)題實(shí)例進(jìn)行求解,但是現(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,當(dāng)面對(duì)需要即時(shí)決策而戰(zhàn)場(chǎng)態(tài)勢(shì)信息變化超出訓(xùn)練模型的預(yù)期設(shè)定等問(wèn)題時(shí),很難在短時(shí)間內(nèi)完成模型的訓(xùn)練,嚴(yán)重時(shí)可能貽誤戰(zhàn)機(jī);目前在軍事領(lǐng)域中基于DRL算法所設(shè)計(jì)的多智能體協(xié)同模型很少考慮多智能體間的溝通協(xié)作,而真實(shí)的戰(zhàn)場(chǎng)環(huán)境往往要求具有不同屬性特征的作戰(zhàn)主體協(xié)同配合,僅僅依靠單個(gè)主體很難完成目標(biāo)任務(wù)等等。這些問(wèn)題是否能夠得到有效解決,是目前影響DRL技術(shù)在軍事領(lǐng)域是否能被廣泛應(yīng)用的關(guān)鍵問(wèn)題。

    總之,在軍事領(lǐng)域中,當(dāng)前DRL技術(shù)應(yīng)用的難點(diǎn)主要來(lái)自于方法的實(shí)際實(shí)現(xiàn),以及軍事領(lǐng)域特殊性導(dǎo)致的方法的應(yīng)用缺陷,下面提出一些可以進(jìn)行改進(jìn)的思路和方向。

    (1) 為了在軍事復(fù)雜環(huán)境中建立更加真實(shí)的模型,可以借助一系列新興的仿真技術(shù)來(lái)構(gòu)建高逼真度、細(xì)粒度的仿真平臺(tái),如數(shù)字孿生和虛擬現(xiàn)實(shí)等技術(shù),進(jìn)一步開(kāi)展DRL方法的效果驗(yàn)證。

    (2) 考慮到真實(shí)作戰(zhàn)要求不同能力的主體相互配合,為了加強(qiáng)基于DRL的多智能體間的協(xié)同合作,一方面可以加強(qiáng)對(duì)多智能體之間的通信算法的研究力度,另一方面可以充分利用多智能體協(xié)同研究的現(xiàn)有成果,與DRL進(jìn)行充分結(jié)合。

    (3) 對(duì)軍事領(lǐng)域部分問(wèn)題難以設(shè)置獎(jiǎng)勵(lì)函數(shù)的問(wèn)題,除了繼續(xù)對(duì)DL和RL的方法進(jìn)行探索,還可以結(jié)合博弈論、統(tǒng)計(jì)學(xué)、復(fù)雜網(wǎng)絡(luò)、信息論等理論進(jìn)行獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)和改進(jìn)。此外,既然人為設(shè)置獎(jiǎng)勵(lì)函數(shù)十分困難,那么讓系統(tǒng)通過(guò)學(xué)習(xí)和訓(xùn)練自行設(shè)置獎(jiǎng)勵(lì)函數(shù)也許是一個(gè)可行的辦法。

    (4) 最后,針對(duì)軍事領(lǐng)域中的即時(shí)決策問(wèn)題,基于DRL的端到端方法前期訓(xùn)練耗費(fèi)時(shí)間長(zhǎng),很難立刻被用于解決現(xiàn)時(shí)問(wèn)題,如果暫時(shí)無(wú)法通過(guò)算法的改進(jìn)來(lái)縮短訓(xùn)練時(shí)長(zhǎng),可以嘗試從硬件的角度出發(fā)進(jìn)行技術(shù)的突破。

    猜你喜歡
    智能策略方法
    例談未知角三角函數(shù)值的求解策略
    我說(shuō)你做講策略
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    可能是方法不對(duì)
    用對(duì)方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    亚洲精品中文字幕在线视频 | 亚洲欧洲日产国产| 亚洲综合精品二区| videos熟女内射| 人妻制服诱惑在线中文字幕| 欧美日韩在线观看h| 亚洲av男天堂| 最近手机中文字幕大全| 中文字幕制服av| av在线亚洲专区| 国产午夜福利久久久久久| 亚洲精品成人久久久久久| 丰满乱子伦码专区| 日本黄色片子视频| 欧美高清成人免费视频www| 日韩欧美 国产精品| 少妇人妻一区二区三区视频| 久久人人爽av亚洲精品天堂 | 免费看不卡的av| 国产爱豆传媒在线观看| 男女国产视频网站| 国产亚洲一区二区精品| 一个人看视频在线观看www免费| 午夜日本视频在线| 一级二级三级毛片免费看| 久久精品夜色国产| 国产成人一区二区在线| 国产一区二区在线观看日韩| 好男人视频免费观看在线| 午夜精品国产一区二区电影 | 国产一区二区亚洲精品在线观看| 午夜激情福利司机影院| av在线亚洲专区| 免费看a级黄色片| 国产亚洲午夜精品一区二区久久 | 亚洲欧美精品专区久久| 午夜免费鲁丝| 热re99久久精品国产66热6| kizo精华| 91aial.com中文字幕在线观看| 中国国产av一级| 久久精品国产亚洲网站| 色5月婷婷丁香| 2022亚洲国产成人精品| 最近中文字幕高清免费大全6| 女人被狂操c到高潮| 中文资源天堂在线| 亚洲av中文av极速乱| 欧美国产精品一级二级三级 | 亚洲综合精品二区| 可以在线观看毛片的网站| 麻豆久久精品国产亚洲av| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 欧美人与善性xxx| 亚洲真实伦在线观看| 国产视频首页在线观看| 丰满少妇做爰视频| 如何舔出高潮| 99久久人妻综合| 精华霜和精华液先用哪个| xxx大片免费视频| 亚洲,一卡二卡三卡| 简卡轻食公司| 别揉我奶头 嗯啊视频| 精品少妇黑人巨大在线播放| 交换朋友夫妻互换小说| 久久国产乱子免费精品| 欧美日韩精品成人综合77777| 国产精品人妻久久久影院| 欧美性猛交╳xxx乱大交人| 好男人视频免费观看在线| 丝袜脚勾引网站| 国产一级毛片在线| 免费黄频网站在线观看国产| 亚洲精华国产精华液的使用体验| 亚洲国产日韩一区二区| 免费观看av网站的网址| 国产精品国产三级专区第一集| 国产伦精品一区二区三区视频9| 少妇的逼好多水| 精品少妇久久久久久888优播| 一本久久精品| 欧美日韩亚洲高清精品| 久久久久久久久久久丰满| 亚洲av成人精品一区久久| 午夜免费观看性视频| 国产成人精品福利久久| 亚洲av日韩在线播放| 少妇丰满av| 国产高清国产精品国产三级 | 亚洲精品亚洲一区二区| 3wmmmm亚洲av在线观看| 日本av手机在线免费观看| 99热6这里只有精品| 联通29元200g的流量卡| 欧美最新免费一区二区三区| 午夜福利高清视频| 纵有疾风起免费观看全集完整版| eeuss影院久久| 国国产精品蜜臀av免费| 免费观看无遮挡的男女| 亚洲四区av| 国产v大片淫在线免费观看| 最近最新中文字幕大全电影3| 国产欧美日韩精品一区二区| 天天一区二区日本电影三级| 三级经典国产精品| av网站免费在线观看视频| 自拍欧美九色日韩亚洲蝌蚪91 | 国内精品美女久久久久久| 色吧在线观看| 国产成人a∨麻豆精品| 人妻系列 视频| 免费黄频网站在线观看国产| 伦理电影大哥的女人| 免费高清在线观看视频在线观看| 中国三级夫妇交换| 午夜福利视频精品| 人妻系列 视频| 日本一本二区三区精品| 尾随美女入室| 成人毛片a级毛片在线播放| 少妇人妻 视频| 亚洲av免费在线观看| 久久综合国产亚洲精品| 亚洲aⅴ乱码一区二区在线播放| 天天躁日日操中文字幕| 国产精品久久久久久精品古装| videos熟女内射| 欧美日本视频| 你懂的网址亚洲精品在线观看| 国产真实伦视频高清在线观看| av又黄又爽大尺度在线免费看| 91在线精品国自产拍蜜月| 乱系列少妇在线播放| 新久久久久国产一级毛片| 国产一区二区三区综合在线观看 | 日韩欧美一区视频在线观看 | 91久久精品电影网| 午夜免费鲁丝| 又爽又黄a免费视频| 国产高潮美女av| 国产精品爽爽va在线观看网站| 免费看av在线观看网站| 全区人妻精品视频| 综合色丁香网| 国产日韩欧美在线精品| 欧美日韩在线观看h| 天天躁日日操中文字幕| 免费av观看视频| 婷婷色综合大香蕉| 插阴视频在线观看视频| 亚洲在久久综合| 亚洲av.av天堂| 国产精品一区www在线观看| 国产伦在线观看视频一区| 亚洲欧美成人综合另类久久久| 一本一本综合久久| www.av在线官网国产| 中国三级夫妇交换| 成人二区视频| 寂寞人妻少妇视频99o| 狂野欧美激情性xxxx在线观看| 国产精品蜜桃在线观看| 制服丝袜香蕉在线| 女人十人毛片免费观看3o分钟| 男女那种视频在线观看| 免费高清在线观看视频在线观看| 99久久精品国产国产毛片| 国产成人午夜福利电影在线观看| 亚洲av.av天堂| 少妇人妻精品综合一区二区| 人体艺术视频欧美日本| 亚洲精品久久午夜乱码| 亚洲丝袜综合中文字幕| 日本wwww免费看| 好男人在线观看高清免费视频| av在线亚洲专区| 99久久精品热视频| 久久久久性生活片| 亚洲电影在线观看av| 91久久精品国产一区二区三区| 国产爽快片一区二区三区| 大话2 男鬼变身卡| 毛片一级片免费看久久久久| 尾随美女入室| 少妇的逼好多水| 欧美成人精品欧美一级黄| 欧美日韩一区二区视频在线观看视频在线 | 777米奇影视久久| 日本黄色片子视频| av.在线天堂| 欧美性感艳星| av专区在线播放| 亚洲精品成人久久久久久| 久久久色成人| 免费av不卡在线播放| 欧美另类一区| 久久久久久久久久久丰满| 日韩av不卡免费在线播放| 卡戴珊不雅视频在线播放| 可以在线观看毛片的网站| 99热国产这里只有精品6| 久久久久网色| 久久鲁丝午夜福利片| 久久人人爽人人爽人人片va| av线在线观看网站| 亚洲自拍偷在线| 99久久精品国产国产毛片| 高清视频免费观看一区二区| 一边亲一边摸免费视频| 中文字幕人妻熟人妻熟丝袜美| 汤姆久久久久久久影院中文字幕| 在线 av 中文字幕| 国产白丝娇喘喷水9色精品| 日韩av免费高清视频| 极品教师在线视频| 亚洲精品aⅴ在线观看| 91在线精品国自产拍蜜月| 大又大粗又爽又黄少妇毛片口| 97人妻精品一区二区三区麻豆| 亚洲精品日本国产第一区| 久久鲁丝午夜福利片| 国产国拍精品亚洲av在线观看| 欧美日韩亚洲高清精品| 午夜日本视频在线| 一本一本综合久久| 精品国产一区二区三区久久久樱花 | 亚洲av.av天堂| 日本黄色片子视频| 日韩av在线免费看完整版不卡| 欧美成人a在线观看| a级一级毛片免费在线观看| 黄片wwwwww| 国产美女午夜福利| 精品熟女少妇av免费看| 久久久久久久精品精品| 亚洲精华国产精华液的使用体验| 国产国拍精品亚洲av在线观看| 国产爽快片一区二区三区| 男人舔奶头视频| 久久久久九九精品影院| 亚洲av二区三区四区| 日韩强制内射视频| 亚洲三级黄色毛片| 精品一区二区免费观看| 久久久久久久国产电影| 亚洲欧美精品专区久久| 肉色欧美久久久久久久蜜桃 | 亚洲经典国产精华液单| 91在线精品国自产拍蜜月| a级一级毛片免费在线观看| 亚洲av.av天堂| 免费看日本二区| 中文天堂在线官网| 97热精品久久久久久| 欧美老熟妇乱子伦牲交| 久久久精品94久久精品| 新久久久久国产一级毛片| 国产真实伦视频高清在线观看| 亚洲国产精品成人久久小说| 国产高清不卡午夜福利| 毛片一级片免费看久久久久| 亚洲欧美日韩东京热| 亚洲国产欧美人成| 黄色欧美视频在线观看| 爱豆传媒免费全集在线观看| 新久久久久国产一级毛片| 亚洲精品日韩av片在线观看| 色视频www国产| 在线看a的网站| 国产成人a∨麻豆精品| 人妻一区二区av| 久久人人爽人人爽人人片va| 乱码一卡2卡4卡精品| 哪个播放器可以免费观看大片| 国产人妻一区二区三区在| 久久久久久久久久人人人人人人| 免费观看无遮挡的男女| 97超碰精品成人国产| 自拍欧美九色日韩亚洲蝌蚪91 | 嘟嘟电影网在线观看| 欧美精品一区二区大全| 最后的刺客免费高清国语| 日韩,欧美,国产一区二区三区| 国产一区二区亚洲精品在线观看| 男女无遮挡免费网站观看| 少妇人妻久久综合中文| 欧美高清性xxxxhd video| 一区二区三区精品91| 亚洲国产色片| 日本黄大片高清| 欧美成人一区二区免费高清观看| 国产成人精品福利久久| 久久综合国产亚洲精品| 国产伦在线观看视频一区| 色哟哟·www| 国产一区有黄有色的免费视频| 99热国产这里只有精品6| 欧美丝袜亚洲另类| 精品人妻偷拍中文字幕| 精品人妻熟女av久视频| 亚洲第一区二区三区不卡| 色播亚洲综合网| 精品少妇黑人巨大在线播放| 观看美女的网站| kizo精华| 国产精品精品国产色婷婷| 精品视频人人做人人爽| 免费不卡的大黄色大毛片视频在线观看| 欧美成人午夜免费资源| 一区二区av电影网| 别揉我奶头 嗯啊视频| av国产免费在线观看| 久久人人爽人人片av| 欧美精品一区二区大全| 午夜爱爱视频在线播放| 中文天堂在线官网| 精品人妻熟女av久视频| 日韩人妻高清精品专区| 国产美女午夜福利| 亚洲精品亚洲一区二区| 少妇熟女欧美另类| 国产极品天堂在线| 成年免费大片在线观看| 日韩欧美精品v在线| 秋霞在线观看毛片| 国产亚洲5aaaaa淫片| 国产美女午夜福利| 国产高潮美女av| 亚洲av免费高清在线观看| 国产老妇女一区| 天天躁日日操中文字幕| 成人亚洲欧美一区二区av| 在线观看免费高清a一片| 国产成人freesex在线| 99九九线精品视频在线观看视频| 看黄色毛片网站| 九色成人免费人妻av| 国产成人精品一,二区| 七月丁香在线播放| 国产一区有黄有色的免费视频| 久久久久久久久大av| 久久精品国产亚洲av天美| 在线观看一区二区三区| 亚洲不卡免费看| 3wmmmm亚洲av在线观看| 久久久久久久大尺度免费视频| 亚洲熟女精品中文字幕| 天堂俺去俺来也www色官网| 2022亚洲国产成人精品| 欧美3d第一页| 亚洲欧美精品专区久久| 久热久热在线精品观看| 久久国产乱子免费精品| 久久久久久久国产电影| 久久精品久久久久久噜噜老黄| 极品教师在线视频| av国产免费在线观看| 91精品国产九色| 亚洲精品日韩av片在线观看| 在线亚洲精品国产二区图片欧美 | 国产成人精品一,二区| 97超视频在线观看视频| 最近最新中文字幕大全电影3| 日日撸夜夜添| 老师上课跳d突然被开到最大视频| 久久久久久伊人网av| 伊人久久国产一区二区| 高清日韩中文字幕在线| 欧美一级a爱片免费观看看| 国产精品人妻久久久影院| 一级爰片在线观看| 日本猛色少妇xxxxx猛交久久| 精品视频人人做人人爽| 亚洲精品国产色婷婷电影| 午夜免费男女啪啪视频观看| 偷拍熟女少妇极品色| 尾随美女入室| 国精品久久久久久国模美| 亚洲,欧美,日韩| 一级毛片久久久久久久久女| 久久久久久久久久成人| av国产精品久久久久影院| 日韩国内少妇激情av| 综合色丁香网| 网址你懂的国产日韩在线| 天天躁日日操中文字幕| 欧美日韩一区二区视频在线观看视频在线 | 丝瓜视频免费看黄片| 少妇人妻 视频| 欧美高清性xxxxhd video| 美女主播在线视频| 高清在线视频一区二区三区| www.色视频.com| 尤物成人国产欧美一区二区三区| 亚洲国产欧美在线一区| 少妇的逼水好多| 欧美性猛交╳xxx乱大交人| 欧美+日韩+精品| 亚洲色图综合在线观看| 色网站视频免费| 丰满少妇做爰视频| 国产精品一区二区性色av| 丝袜脚勾引网站| 亚洲激情五月婷婷啪啪| 亚洲精品中文字幕在线视频 | 亚洲成色77777| 日韩欧美精品免费久久| 在线看a的网站| 亚洲欧美一区二区三区国产| 亚洲欧美精品专区久久| 99热这里只有精品一区| 最近最新中文字幕免费大全7| 男女那种视频在线观看| 丰满乱子伦码专区| 不卡视频在线观看欧美| 成人无遮挡网站| 日本-黄色视频高清免费观看| 国产淫片久久久久久久久| 精品人妻偷拍中文字幕| 亚洲成人一二三区av| 日韩中字成人| 亚洲天堂国产精品一区在线| 日韩av免费高清视频| 人人妻人人看人人澡| 久久综合国产亚洲精品| 亚洲经典国产精华液单| 国产精品嫩草影院av在线观看| 中文字幕av成人在线电影| 韩国高清视频一区二区三区| 男女下面进入的视频免费午夜| 高清在线视频一区二区三区| 一边亲一边摸免费视频| 91狼人影院| 日日摸夜夜添夜夜爱| 国产老妇女一区| 中文乱码字字幕精品一区二区三区| 五月伊人婷婷丁香| 蜜桃久久精品国产亚洲av| 亚洲av.av天堂| 大又大粗又爽又黄少妇毛片口| 亚洲精品国产成人久久av| 国产精品99久久久久久久久| 精品久久久久久久末码| 纵有疾风起免费观看全集完整版| 国产亚洲一区二区精品| 久久99热这里只有精品18| 国产日韩欧美在线精品| 中国国产av一级| 九草在线视频观看| 99久久精品国产国产毛片| 成年女人看的毛片在线观看| 最近的中文字幕免费完整| 亚洲欧美日韩无卡精品| videos熟女内射| 麻豆国产97在线/欧美| 国产伦在线观看视频一区| 国产成人aa在线观看| 在线看a的网站| 久久久久性生活片| 精品国产三级普通话版| tube8黄色片| 精品久久国产蜜桃| 国产一区二区三区综合在线观看 | 国产一区有黄有色的免费视频| 亚洲国产欧美人成| 日韩,欧美,国产一区二区三区| 能在线免费看毛片的网站| 永久免费av网站大全| 日本黄色片子视频| 亚洲av.av天堂| 99久久精品一区二区三区| 免费大片18禁| 成人亚洲欧美一区二区av| 久久久久精品性色| 97人妻精品一区二区三区麻豆| 国产日韩欧美亚洲二区| 精品久久国产蜜桃| 九草在线视频观看| 久久久久网色| 日本色播在线视频| 男女那种视频在线观看| 一级二级三级毛片免费看| 久久女婷五月综合色啪小说 | 国产有黄有色有爽视频| 秋霞在线观看毛片| 国产精品av视频在线免费观看| 成人美女网站在线观看视频| av在线天堂中文字幕| 成人亚洲精品一区在线观看 | 欧美成人精品欧美一级黄| 免费电影在线观看免费观看| 欧美变态另类bdsm刘玥| 91精品伊人久久大香线蕉| 国内精品美女久久久久久| 成年免费大片在线观看| av免费在线看不卡| 熟女av电影| 亚洲婷婷狠狠爱综合网| 久久精品人妻少妇| 内地一区二区视频在线| 男女边吃奶边做爰视频| 国产精品.久久久| 精品一区二区三区视频在线| 日本色播在线视频| 精品久久久噜噜| 欧美日韩视频高清一区二区三区二| 国产老妇女一区| 在线免费观看不下载黄p国产| 男女下面进入的视频免费午夜| 精品一区二区三卡| 国产av国产精品国产| 欧美区成人在线视频| 国产中年淑女户外野战色| 国产精品av视频在线免费观看| 一级毛片aaaaaa免费看小| 亚洲精品久久午夜乱码| 国内精品美女久久久久久| 成人二区视频| 爱豆传媒免费全集在线观看| 久久久久久久久久成人| 99久国产av精品国产电影| 国产精品福利在线免费观看| tube8黄色片| 国产精品女同一区二区软件| 精品国产露脸久久av麻豆| 日韩一区二区三区影片| 免费电影在线观看免费观看| 国产成人一区二区在线| 国内精品宾馆在线| 亚洲天堂av无毛| 精品久久久噜噜| 亚洲精品久久午夜乱码| 1000部很黄的大片| 国产欧美日韩一区二区三区在线 | 黄色配什么色好看| 久久久久精品性色| 日韩不卡一区二区三区视频在线| 精品久久久久久久人妻蜜臀av| 天天躁日日操中文字幕| freevideosex欧美| 国产日韩欧美亚洲二区| 免费大片18禁| 亚洲av日韩在线播放| 国产精品蜜桃在线观看| 国产成人福利小说| 成人免费观看视频高清| 国产中年淑女户外野战色| 久久久久久久久大av| 国产伦理片在线播放av一区| 婷婷色综合www| 国产 一区精品| 涩涩av久久男人的天堂| 欧美日韩视频高清一区二区三区二| 亚洲欧美精品自产自拍| 在线亚洲精品国产二区图片欧美 | 亚洲最大成人中文| 亚洲综合精品二区| 国产真实伦视频高清在线观看| 亚洲av成人精品一区久久| 国产黄片视频在线免费观看| av网站免费在线观看视频| 丝瓜视频免费看黄片| 国产高清国产精品国产三级 | 国产精品国产三级国产av玫瑰| 欧美人与善性xxx| 亚洲精品日本国产第一区| 久久精品久久久久久噜噜老黄| 亚洲av中文字字幕乱码综合| 能在线免费看毛片的网站| 街头女战士在线观看网站| 真实男女啪啪啪动态图| 久久精品久久精品一区二区三区| 午夜福利高清视频| 别揉我奶头 嗯啊视频| 91久久精品国产一区二区三区| 99视频精品全部免费 在线| 最近2019中文字幕mv第一页| 国产成人免费观看mmmm| 亚洲,欧美,日韩| 亚洲国产色片| 精品一区二区免费观看| 日韩成人伦理影院| 色婷婷久久久亚洲欧美| 在线观看一区二区三区| 亚洲欧美成人精品一区二区| 2021少妇久久久久久久久久久| 久久国产乱子免费精品| 日韩欧美一区视频在线观看 | av在线观看视频网站免费| 国产成人精品一,二区| 最近中文字幕高清免费大全6| 精品国产露脸久久av麻豆| 国产精品久久久久久久久免| 亚洲内射少妇av| av天堂中文字幕网| 成人二区视频| 久久人人爽人人爽人人片va| 波野结衣二区三区在线| 少妇 在线观看| 看非洲黑人一级黄片| 80岁老熟妇乱子伦牲交| 久久久久九九精品影院| 国产爱豆传媒在线观看| 美女视频免费永久观看网站| 日韩不卡一区二区三区视频在线| 老女人水多毛片| 久久99热这里只有精品18| 亚洲av成人精品一区久久| 丰满乱子伦码专区| 高清视频免费观看一区二区| 久久午夜福利片| 永久免费av网站大全| 午夜爱爱视频在线播放|