深度強(qiáng)化學(xué)習(xí)及其在軍事領(lǐng)域中的應(yīng)用綜述

2024-03-27 12:58:10張夢(mèng)鈺豆亞杰陳子夷楊克巍葛冰峰

系統(tǒng)工程與電子技術(shù) 2024年4期

張夢(mèng)鈺, 豆亞杰, 陳子夷, 姜江, 楊克巍, 葛冰峰

(國(guó)防科技大學(xué)系統(tǒng)工程學(xué)院, 湖南長(zhǎng)沙 410003)

0 引言

近年來(lái),隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等一系列新興技術(shù)的大量涌現(xiàn),人工智能技術(shù)不斷取得突破性進(jìn)展。作為21世紀(jì)的頂尖技術(shù)之一,人工智能給各個(gè)領(lǐng)域的發(fā)展都帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn),在軍事領(lǐng)域也不例外。文獻(xiàn)[1]對(duì)大數(shù)據(jù)時(shí)代的軍事信息體系與發(fā)展戰(zhàn)略進(jìn)行了重點(diǎn)研究[1],軍事智能化已不再是一個(gè)陌生的概念,其正在全面影響著軍隊(duì)建設(shè)和未來(lái)戰(zhàn)爭(zhēng)形態(tài)[2]。從應(yīng)用角度來(lái)看,軍事智能化主要體現(xiàn)在以下5個(gè)層次[3]:以無(wú)人機(jī)、無(wú)人車等仿生智能為主的單裝智能;以人機(jī)融合、集群、協(xié)同等概念為核心的協(xié)同智能;以智能感知、決策、打擊、防御等多要素作戰(zhàn)力量綜合運(yùn)用的體系智能;以通信、網(wǎng)絡(luò)、電子、輿情等專業(yè)領(lǐng)域管控的專項(xiàng)智能;以作戰(zhàn)體系基于數(shù)據(jù)、模型、算法獲取涌現(xiàn)效應(yīng)為目標(biāo)的進(jìn)化智能。人工智能技術(shù)為這些應(yīng)用的落地提供了堅(jiān)實(shí)的基礎(chǔ)。

深度學(xué)習(xí)(deep learning, DL)和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)作為實(shí)現(xiàn)人工智能的先進(jìn)技術(shù),分別在信息感知和認(rèn)知決策領(lǐng)域有著出色的表現(xiàn)[4-5]。深度RL(deep RL, DRL)[6]則是近幾年提出的新興概念,其結(jié)合了DL與RL的優(yōu)勢(shì),是人工智能的最新成果之一,在機(jī)器人控制、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、博弈論等領(lǐng)域中都取得了重要研究進(jìn)展。在軍事領(lǐng)域中,針對(duì)作戰(zhàn)任務(wù)規(guī)劃、智能軍事決策與智能博弈對(duì)抗等問(wèn)題的解決,DRL也有著巨大的應(yīng)用潛力,引起了研究人員的廣泛關(guān)注。

目前,關(guān)于DRL的研究已經(jīng)取得了較大進(jìn)展,有一些關(guān)于DRL的綜述性文獻(xiàn)陸續(xù)發(fā)表[6-7],但其更加偏向于對(duì)DRL算法的總結(jié)。除此之外,也有一些關(guān)于DRL在領(lǐng)域應(yīng)用中的綜述,如無(wú)人機(jī)[8]、通信與網(wǎng)絡(luò)[9]、智能制造[10]等領(lǐng)域,然而關(guān)于DRL在軍事領(lǐng)域中的應(yīng)用,并沒(méi)有專門的綜述性文獻(xiàn)對(duì)其進(jìn)行深入梳理和總結(jié)?；诖?本文首先回顧了DRL的理論發(fā)展歷程;然后對(duì)DRL的基本算法及改進(jìn)算法進(jìn)行了歸納總結(jié);最后對(duì)前人研究中DRL在軍事領(lǐng)域武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈等問(wèn)題的應(yīng)用現(xiàn)狀進(jìn)行了系統(tǒng)性的梳理和總結(jié),并展望了其發(fā)展方向和前景。

1 DRL的基本原理

1.1 DL

DL是機(jī)器學(xué)習(xí)(machine learning, ML)領(lǐng)域中的一個(gè)研究方向,致力于自動(dòng)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在特征與規(guī)律,完成數(shù)據(jù)信息的提取工作,使機(jī)器能夠像人類一樣具有分類和識(shí)別等能力。大多數(shù)DL的模型都以人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)為基礎(chǔ)[11-12],其結(jié)構(gòu)如圖1所示。人工神經(jīng)元支撐著整個(gè)神經(jīng)網(wǎng)絡(luò)的工作,組成相互連接的輸入層、隱藏層和輸出層。其中,信息通過(guò)輸入層進(jìn)行獲取,在隱藏層進(jìn)行特征提取后,再通過(guò)輸出層輸出結(jié)果。兩個(gè)神經(jīng)元間的連接稱之為權(quán)重θ,每個(gè)神經(jīng)元接受來(lái)自其他幾個(gè)相連接的神經(jīng)元的輸入,這些輸入被乘以分配的權(quán)重θ后相加,接著將總和傳遞給一個(gè)或多個(gè)神經(jīng)元。一些神經(jīng)元可能在將輸出傳遞給下一個(gè)變量之前將激活函數(shù)應(yīng)用于輸出。需要注意的是,這里的輸入值和輸出值是相對(duì)的,較低層的輸出將作為更高一層的輸入。通過(guò)這種多層非線性運(yùn)算,最終實(shí)現(xiàn)DL從訓(xùn)練數(shù)據(jù)中提取特征的目的。

圖1 ANN的結(jié)構(gòu)Fig.1 ANN’s structure

深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)被定義為具有多個(gè)隱藏層的ANN。前饋神經(jīng)網(wǎng)絡(luò)和反饋神經(jīng)網(wǎng)絡(luò)是兩種DNN模型。前饋神經(jīng)網(wǎng)絡(luò)中各個(gè)神經(jīng)元分層排列,每個(gè)神經(jīng)元的輸出僅由當(dāng)前的輸入和權(quán)重θ決定,各層之間無(wú)反饋。而反饋神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的輸出不僅與當(dāng)前的輸入和權(quán)重θ有關(guān),而且與之前的網(wǎng)絡(luò)輸入也密切相關(guān)。與此同時(shí),每個(gè)神經(jīng)元還將自己的輸出作為輸入反饋給其他神經(jīng)元,因此反饋神經(jīng)網(wǎng)絡(luò)需要經(jīng)歷一段時(shí)間的工作后才能實(shí)現(xiàn)穩(wěn)定。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)分別是前饋神經(jīng)網(wǎng)絡(luò)模型和反饋神經(jīng)網(wǎng)絡(luò)模型的典型代表。在DRL中,將CNN和RNN與RL相結(jié)合的算法較多。

CNN是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),在隱藏層中通過(guò)卷積、激活和池化的操作實(shí)現(xiàn)圖像特征提取的功能,近年來(lái)在數(shù)字圖像處理領(lǐng)域應(yīng)用廣泛。目前,常用的CNN包括AlexNet[13]、視覺(jué)幾何組(visual geometry group,VGG)-Net[14]、NIN[15]、深度殘差學(xué)習(xí)[16]等。

RNN的神經(jīng)元之間的連接形成有向循環(huán),隱藏層的值既受當(dāng)前時(shí)刻輸入值的影響,也受上一時(shí)刻隱藏層值的影響,這使得RNN非常適合處理具有時(shí)間組件的應(yīng)用問(wèn)題,例如時(shí)間序列數(shù)據(jù)和自然語(yǔ)言處理。然而,隨著網(wǎng)絡(luò)層數(shù)的加深,RNN常常會(huì)出現(xiàn)梯度消失或梯度爆炸的問(wèn)題[17],因此有學(xué)者提出使用長(zhǎng)短期記憶(long short-term memory, LSTM)[18-19]來(lái)解決這個(gè)問(wèn)題。LSTM通過(guò)合并內(nèi)存單元,能夠使網(wǎng)絡(luò)學(xué)習(xí)在某時(shí)刻“遺忘”先前的隱藏狀態(tài),以及在某時(shí)刻給定新信息的情況下更新隱藏狀態(tài),所以LSTM能夠?qū)W習(xí)RNN無(wú)法完成的長(zhǎng)期復(fù)雜時(shí)間動(dòng)態(tài)。

1.2 RL

1.2.1 RL基本過(guò)程

RL又稱為增強(qiáng)學(xué)習(xí)[20],其核心思想是試錯(cuò)機(jī)制,即讓智能體在與環(huán)境的交互過(guò)程中不斷學(xué)習(xí)和反饋,以獲得最大的累計(jì)獎(jiǎng)勵(lì)。通常可以使用馬爾可夫決策過(guò)程(Markov decision process,MDP)對(duì)RL問(wèn)題進(jìn)行建模,表示為一個(gè)五元組(S,A,P,R,γ),其中S代表一個(gè)有限的狀態(tài)集合,A代表一個(gè)動(dòng)作集合,P代表一個(gè)狀態(tài)轉(zhuǎn)移概率矩陣,R代表一個(gè)回報(bào)函數(shù),γ代表一個(gè)折扣因子,具體的學(xué)習(xí)過(guò)程如圖2所示。

圖2 RL基本過(guò)程Fig.2 Basic process of RL

智能體根據(jù)環(huán)境的即時(shí)狀態(tài)st,為了獲得環(huán)境反饋給智能體的最大獎(jiǎng)勵(lì),選擇并執(zhí)行其所認(rèn)為的最優(yōu)動(dòng)作at。環(huán)境接受動(dòng)作at后,以一定概率轉(zhuǎn)移到下一狀態(tài)st+1,并把一個(gè)獎(jiǎng)勵(lì)rt反饋給智能體,智能體根據(jù)獎(jiǎng)勵(lì)rt和當(dāng)前狀態(tài)st+1選擇下一個(gè)動(dòng)作。而t時(shí)刻的累計(jì)獎(jiǎng)勵(lì)Rt就是即時(shí)獎(jiǎng)勵(lì)rt與后續(xù)所有可能采取的動(dòng)作和導(dǎo)致的環(huán)境狀態(tài)的價(jià)值之和。由于距離當(dāng)前狀態(tài)越遠(yuǎn),不確定性越高,需要乘以一個(gè)折扣因子γ,來(lái)調(diào)整未來(lái)的每個(gè)即時(shí)獎(jiǎng)勵(lì)對(duì)于累計(jì)獎(jiǎng)勵(lì)的影響。累計(jì)獎(jiǎng)勵(lì)Rt的公式可表示如下:

(1)

RL算法根據(jù)環(huán)境模型是否已知可以分為兩大類,分別是基于模型的方法和無(wú)模型的方法?；谀Ｐ偷腞L指創(chuàng)立環(huán)境模型,讓智能體在虛擬環(huán)境中進(jìn)行學(xué)習(xí)和訓(xùn)練。當(dāng)建立的環(huán)境模型可以精準(zhǔn)描述真實(shí)世界,那么就可以直接基于模型進(jìn)行預(yù)測(cè),而不需要與真實(shí)的環(huán)境進(jìn)行交互,可以大大提高問(wèn)題求解速度?；谀Ｐ偷腞L方法可以分為學(xué)習(xí)模型和給定模型兩類。學(xué)習(xí)模型中比較典型的方法是World Models[21]和I2A[22]。給定模型中比較典型的方法是AlphaGo[23]、AlphaZero[24]和Expert Iteration[8]。由于學(xué)習(xí)模型的方法對(duì)模型的精確性要求較高,在實(shí)際應(yīng)用中很難達(dá)到,因而有學(xué)者提出將無(wú)模型的方法與基于模型的方法相結(jié)合[7]。但是,很多實(shí)際問(wèn)題的環(huán)境都是復(fù)雜未知的,這導(dǎo)致建模困難,因此無(wú)模型的方法在實(shí)際中應(yīng)用更加廣泛。對(duì)于無(wú)模型的方法,又可以分為基于價(jià)值的RL、基于策略的RL,以及兩者的結(jié)合。

1.2.2 基于價(jià)值的RL

基于價(jià)值函數(shù)的RL通過(guò)構(gòu)建具有適當(dāng)參數(shù)的函數(shù),來(lái)近似計(jì)算狀態(tài)或行為的價(jià)值,而不必存儲(chǔ)每一個(gè)狀態(tài)和行為的價(jià)值,大大提高了算法效率?；趦r(jià)值函數(shù)的RL方法可以分為在線策略和離線策略兩類。兩者的區(qū)別在于在線策略一般直接使用學(xué)習(xí)獲得的當(dāng)前最優(yōu)策略(目標(biāo)策略)作為行為策略,即只有一個(gè)策略進(jìn)行價(jià)值迭代。因此,在線策略可以對(duì)策略進(jìn)行實(shí)時(shí)評(píng)估,在應(yīng)用場(chǎng)景中邊訓(xùn)練邊使用。而離線策略一般有兩個(gè)策略,目標(biāo)策略與行為策略不同,可以進(jìn)行更充分的探索,在產(chǎn)生豐富樣本的同時(shí)并不會(huì)影響目標(biāo)策略。

文獻(xiàn)[25]的算法基于在線策略的典型算法,迭代公式如下:

Q(st,at)←Q(st,at)+
α[rt+1+γQ(st+1,at+1)-Q(st,at)]

(2)

Q-Learning算法[26]是基于離線策略的典型算法,并且被大量應(yīng)用于軍事決策過(guò)程中[27-28]。Q-Learning算法通過(guò)Q值表對(duì)“狀態(tài)-動(dòng)作對(duì)”的值進(jìn)行記錄,并且通過(guò)公式迭代對(duì)Q值表進(jìn)行更新,迭代公式如下:

(3)

式中:Q(st,at)表示t時(shí)刻的狀態(tài)動(dòng)作價(jià)值,α為學(xué)習(xí)率;r為獎(jiǎng)勵(lì),γ為折扣因子。兩個(gè)公式的區(qū)別在于:式(2)用t+1時(shí)刻的狀態(tài)和動(dòng)作共同決定的Q值來(lái)更新Q(st,at),而式(3)用Q值最大的動(dòng)作來(lái)更新價(jià)值函數(shù)Q(st,at)。

1.2.3 基于策略的RL

基于策略函數(shù)的RL和基于價(jià)值函數(shù)的RL在處理具有連續(xù)行為和龐大空間的問(wèn)題時(shí)能力不足,難以求解隨機(jī)策略的問(wèn)題。通過(guò)將策略看作是關(guān)于狀態(tài)和行為的帶參數(shù)的策略函數(shù)π(a|s,θ),不同于對(duì)價(jià)值函數(shù)進(jìn)行迭代計(jì)算,而是通過(guò)迭代的方式直接更新參數(shù)值θ。當(dāng)累積回報(bào)期望最大時(shí),θ對(duì)應(yīng)的策略就是最優(yōu)策略。通常使用基于策略梯度的算法[29]求解,首先通過(guò)逼近器函數(shù)π(a|s,θ)逼近策略,然后對(duì)策略參數(shù)進(jìn)行梯度下降求解,當(dāng)梯度收斂時(shí)得到最優(yōu)策略?；诓呗院瘮?shù)的RL省去了對(duì)狀態(tài)價(jià)值的學(xué)習(xí)過(guò)程,而是直接輸出具體的行為值,策略梯度可以在連續(xù)分布上選取行為,因而可以處理具有連續(xù)行為的問(wèn)題,但是在一些復(fù)雜問(wèn)題的求解中,基于策略函數(shù)的RL計(jì)算難度較大,迭代時(shí)間過(guò)長(zhǎng)。

1.2.4 基于價(jià)值策略結(jié)合的RL

Sutton等[30]綜合基于價(jià)值函數(shù)的RL和基于策略函數(shù)的RL,提出了一種新的RL算法——行動(dòng)者-評(píng)論家(actor-critic, AC)算法。其中,行動(dòng)者表示基于策略函數(shù)的網(wǎng)絡(luò),在與環(huán)境交互過(guò)程中根據(jù)狀態(tài)選擇策略,而評(píng)論家表示基于價(jià)值函數(shù)的網(wǎng)絡(luò),對(duì)行動(dòng)者選擇的策略進(jìn)行評(píng)價(jià),并指導(dǎo)行動(dòng)者進(jìn)行策略的改進(jìn)。AC算法可以綜合多種價(jià)值函數(shù)方法和策略函數(shù)方法,汲取二者優(yōu)點(diǎn),收斂速度更快。

2 DRL主要算法

DRL是近幾年提出的新興概念,其將DL與RL的優(yōu)勢(shì)結(jié)合,是人工智能的最新成果之一。DRL主要有兩種類型:基于值函數(shù)的DRL和基于策略梯度的DRL。

2.1 基于值函數(shù)的DRL

在基于價(jià)值函數(shù)的RL方法中,針對(duì)狀態(tài)和動(dòng)作空間較小的問(wèn)題,Q-Learning算法較容易獲得最優(yōu)策略。但是,當(dāng)狀態(tài)空間或者動(dòng)作空間變得龐大時(shí),繼續(xù)使用Q值表對(duì)狀態(tài)-動(dòng)作對(duì)進(jìn)行存儲(chǔ)給內(nèi)存和時(shí)間都帶來(lái)極大壓力,使算法很難達(dá)到預(yù)期的效果。因此,引出了深度Q網(wǎng)絡(luò)[31](deep Q-networks, DQN)算法來(lái)克服這一缺點(diǎn)。DQN將DNN與Q-Learning相結(jié)合,本質(zhì)上是利用DNN逼近值函數(shù),通過(guò)擬合一個(gè)函數(shù),代替Q值表對(duì)Q值進(jìn)行更新。除此之外,DQN還對(duì)傳統(tǒng)的Q-Learning算法進(jìn)行了如下兩處改進(jìn)。

(1) 經(jīng)驗(yàn)回放:算法首先初始化一個(gè)回放內(nèi)存池,收集樣本并存儲(chǔ)。每次從回放內(nèi)存池中隨機(jī)采集小批量樣本訓(xùn)練DNN,使用梯度下降法更新參數(shù)θ后得到新的值函數(shù),再獲取新的樣本并存入池中。由于每次訓(xùn)練的樣本通常來(lái)自于多次交互序列,大大降低了樣本之間的關(guān)聯(lián)性,進(jìn)一步提升了算法的穩(wěn)定性。

(2)目標(biāo)網(wǎng)絡(luò):在Q-Learning算法訓(xùn)練過(guò)程中,Q值是通過(guò)當(dāng)前時(shí)刻的獎(jiǎng)勵(lì)和下一時(shí)刻的價(jià)值估計(jì)進(jìn)行更新的。由于每一輪迭代都會(huì)產(chǎn)生價(jià)值偏移,偏移影響會(huì)繼續(xù)傳遞給下一輪的迭代計(jì)算,很容易造成算法的不穩(wěn)定。為了解決這個(gè)問(wèn)題,DQN另外設(shè)置了目標(biāo)網(wǎng)絡(luò)來(lái)產(chǎn)生目標(biāo)Q值,通過(guò)行為網(wǎng)絡(luò)和與環(huán)境交互獲取估計(jì)Q值,將估計(jì)Q值與目標(biāo)Q值進(jìn)行比較后得出目標(biāo)值并更新行為網(wǎng)絡(luò)。每經(jīng)過(guò)一定輪數(shù)的迭代,把行為網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),再進(jìn)行下一階段的學(xué)習(xí)。通過(guò)這種方式,減輕了模型的波動(dòng)。

在DQN的基礎(chǔ)之上,人們又做了許多研究工作,先后提出了Narure DQN[32]、Double DQN[33]、Dueling DQN[34]、Double Dueling DQN(D3QN)[35]、Rainbow DQN[36]等一系列改進(jìn)算法?；谥岛瘮?shù)的DRL主要算法如表1所示,本文對(duì)其提出時(shí)間、改進(jìn)和優(yōu)勢(shì)做了簡(jiǎn)單闡述。

表1 基于值函數(shù)的DRL主要算法Table 1 Main algorithms of DRL based on value function

2.2 基于策略梯度的DRL

盡管DQN及其改進(jìn)算法在許多領(lǐng)域都取得了不錯(cuò)的應(yīng)用效果,但是對(duì)于連續(xù)動(dòng)作空間的問(wèn)題還是無(wú)計(jì)可施。Lillicrap等[37]提出了深度確定性策略梯度(deep determi-nistic policy gradient,DDPG)算法。DDPG算法集成了DL、DQN以及AC算法,采用DNN建立AC的近似價(jià)值函數(shù),行動(dòng)者網(wǎng)絡(luò)生成確定的行為,評(píng)論家網(wǎng)絡(luò)評(píng)估策略的優(yōu)劣,同時(shí)采取經(jīng)驗(yàn)回放機(jī)制以避免振蕩?？梢哉f(shuō),DDPG算法是目前應(yīng)用于復(fù)雜、連續(xù)控制的重要算法,在機(jī)器人控制和無(wú)人機(jī)編隊(duì)等領(lǐng)域都有廣泛應(yīng)用。為解決DDPG算法Critic對(duì)行為Q值過(guò)估計(jì)的問(wèn)題,Haarnoja等[38]提出雙延遲DDPG(twin delayed DDPG,TD3)算法。針對(duì)策略梯度方法中存在的無(wú)法保證步長(zhǎng)而影響訓(xùn)練效果的問(wèn)題,Schulman等[39]提出一種信任域策略優(yōu)化(trust region policy optimization, TRPO)方法。TRPO以優(yōu)勢(shì)函數(shù)為核心,通過(guò)計(jì)算舊策略與更新后策略之間的差值,保證策略始終朝著好的方向持續(xù)更新。由于TRPO算法計(jì)算復(fù)雜,近端策略優(yōu)化(proximal policy optimization, PPO)[40]和分布式DPPO(distributed PPO)[41]等改進(jìn)算法被先后提出,用以改進(jìn)訓(xùn)練效率。

此外,基于AC算法、優(yōu)勢(shì)函數(shù)和異步算法,Mnih等[42]又提出一種異步優(yōu)勢(shì)的AC(asynchronous advantage AC, A3C)算法,在AC算法基礎(chǔ)上,采用優(yōu)勢(shì)函數(shù)判斷行為的優(yōu)劣,讓多個(gè)智能體同時(shí)對(duì)環(huán)境進(jìn)行探索,單個(gè)智能體獨(dú)立工作并在線更新整體的策略參數(shù)。通過(guò)這樣的方式縮短學(xué)習(xí)訓(xùn)練的時(shí)間,提升訓(xùn)練效果。優(yōu)勢(shì)AC(advantage AC, A2C)算法[43]去除了A3C算法的異步,中間過(guò)程采用同步控制,解決了A3C中不同智能體使用策略的累計(jì)更新效果可能不是最優(yōu)的問(wèn)題?；诓呗蕴荻鹊腄RL主要算法及部分改進(jìn)算法如表2所示。

表2 基于策略梯度的DRL主要算法Table 2 Main algorithms of DRL based on policy gradient

3 DRL在軍事領(lǐng)域的應(yīng)用現(xiàn)狀

隨著現(xiàn)代科技的飛速發(fā)展,越來(lái)越多的人工智能技術(shù)被引入軍事領(lǐng)域以解決復(fù)雜問(wèn)題,DRL作為人工智能的最新成果之一,與軍事領(lǐng)域的聯(lián)系也日益緊密。為了進(jìn)一步明確DRL技術(shù)對(duì)軍隊(duì)建設(shè)和未來(lái)作戰(zhàn)模式的影響,以及在軍事領(lǐng)域中的應(yīng)用點(diǎn),本文在知網(wǎng)和web of science上選取了近15年來(lái)相關(guān)的參考文獻(xiàn),并使用citespace進(jìn)行處理。由于直接以“DRL”和“軍事”為關(guān)鍵詞對(duì)文獻(xiàn)進(jìn)行檢索獲取的文獻(xiàn)數(shù)量較少,難以進(jìn)行深入分析,本文擴(kuò)大了搜索范圍,以“人工智能”和“軍事”為關(guān)鍵詞進(jìn)行了檢索和分析,最終檢索和分析結(jié)果如圖3所示。另外,由于分析得出的英文關(guān)鍵詞圖譜基本與中文關(guān)鍵詞圖譜一致,本文不再重復(fù)展示。

圖3 人工智能技術(shù)與軍事領(lǐng)域結(jié)合應(yīng)用圖譜Fig.3 Application map of artificial intelligence technology combined with military field

從圖3中可以明顯看出,智能的概念已經(jīng)深入到軍事領(lǐng)域的各個(gè)方面,尤其是武器裝備、無(wú)人機(jī)編隊(duì)、網(wǎng)絡(luò)安全、指揮控制、智能博弈與決策等與人工智能結(jié)合得最為緊密。除此之外,當(dāng)前對(duì)于軍事訓(xùn)練、情報(bào)偵察、自主無(wú)人系統(tǒng)等問(wèn)題的研究也與智能化不可分割。從圖3中還可以觀察到,“機(jī)器學(xué)習(xí)、DL、RL、大數(shù)據(jù)、云計(jì)算、虛擬現(xiàn)實(shí)”等關(guān)鍵詞語(yǔ)所代表的新興技術(shù)為軍事智能化的應(yīng)用落地提供了強(qiáng)有力的技術(shù)支撐。

DRL是DL和RL相結(jié)合的產(chǎn)物,集成了DL的感知能力和RL的決策能力,對(duì)于解決復(fù)雜問(wèn)題具有巨大潛力?；诖?本文對(duì)上述提及的軍事領(lǐng)域中與人工智能結(jié)合最為緊密的幾大問(wèn)題進(jìn)行了討論,分別就DRL在這幾大問(wèn)題中的應(yīng)用研究現(xiàn)狀進(jìn)行了梳理和總結(jié)。

3.1 DRL在武器裝備組合選擇問(wèn)題中的應(yīng)用

武器裝備組合選擇問(wèn)題是軍事領(lǐng)域中的一個(gè)研究熱點(diǎn)。組合選擇與運(yùn)用是武器裝備發(fā)揮體系效能的核心,也是武器裝備體系頂層發(fā)展規(guī)劃中的關(guān)鍵問(wèn)題[44]。不同學(xué)者對(duì)此進(jìn)行了大量的探索和嘗試,分別提出了異質(zhì)網(wǎng)絡(luò)模型[45]、差分進(jìn)化算法[46]、遺傳算法[47]、代理模型[48]等理論方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行優(yōu)化?？萍歼M(jìn)步促使武器裝備持續(xù)更新發(fā)展,由于武器裝備組合選擇涉及到多個(gè)階段和多個(gè)周期,并且受到不同的作戰(zhàn)意圖和作戰(zhàn)環(huán)境的影響,具有不同屬性武器裝備的組合維度爆炸,大大增加了武器裝備組合選擇問(wèn)題求解的復(fù)雜性。張驍雄等[49]將Q-Learning方法用于求解多階段的裝備組合選擇與規(guī)劃問(wèn)題,雖然相比傳統(tǒng)的多目標(biāo)決策方法在方案選擇中效果更優(yōu),但是對(duì)回報(bào)函數(shù)的設(shè)置僅考慮了裝備組合效能和成本,而實(shí)際武器裝備組合選擇問(wèn)題還涉及到目標(biāo)狀態(tài)、戰(zhàn)場(chǎng)環(huán)境等多方面因素,數(shù)據(jù)維度不斷提升,采用Q值表存儲(chǔ)運(yùn)動(dòng)狀態(tài)值無(wú)法解決維度爆炸的問(wèn)題。除此之外,軍事領(lǐng)域具有特殊性,很多數(shù)據(jù)無(wú)法獲取,戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,大量信息無(wú)法被完全觀測(cè)也給武器裝備的組合選擇帶來(lái)困難,如何在環(huán)境復(fù)雜和數(shù)據(jù)信息不完備條件下快速生成武器裝備組合選擇方案成為未來(lái)研究的重點(diǎn)。DRL是在傳統(tǒng)的RL算法中加入DNN形成的,對(duì)于解決高維輸入問(wèn)題具有良好效果。同時(shí),DRL具有無(wú)需數(shù)據(jù)樣本、無(wú)需環(huán)境模型、無(wú)需提取特征等優(yōu)勢(shì),解決了數(shù)據(jù)信息依賴問(wèn)題。因此,越來(lái)越多的學(xué)者考慮結(jié)合DRL的方法對(duì)武器裝備組合選擇問(wèn)題進(jìn)行求解。文東日等[50]將裝備組合運(yùn)用問(wèn)題視為在離散動(dòng)作空間的RL問(wèn)題,提出了基于PPO的裝備組合運(yùn)用方法的模型及仿真框架。在武器裝備的動(dòng)態(tài)目標(biāo)分配問(wèn)題中,黃亭飛等[51]考慮到完成目標(biāo)摧毀任務(wù)之后不具有下一狀態(tài),使用當(dāng)前狀態(tài)的Q值替換公式中下一狀態(tài)的Q值對(duì)DQN算法進(jìn)行了改進(jìn),同時(shí)結(jié)合不同類型攔截裝備的屬性特征,提出了基于DQN的多類型攔截裝備復(fù)合式反無(wú)人機(jī)任務(wù)分配方法。

總體而言,目前,將DRL技術(shù)用于解決武器裝備組合選擇問(wèn)題的研究才剛剛起步,許多問(wèn)題都是在想定的作戰(zhàn)環(huán)境和作戰(zhàn)意圖之下進(jìn)行討論研究,而現(xiàn)代戰(zhàn)場(chǎng)態(tài)勢(shì)會(huì)隨時(shí)變化,無(wú)法完全框定在給定的模型之中。因此,在動(dòng)態(tài)條件下實(shí)時(shí)進(jìn)行武器裝備的組合選擇是未來(lái)進(jìn)一步研究的重點(diǎn)。

3.2 DRL在軍事網(wǎng)絡(luò)安全問(wèn)題中的應(yīng)用

新時(shí)代下戰(zhàn)爭(zhēng)觀念發(fā)生轉(zhuǎn)變,傳統(tǒng)的以武器為核心的作戰(zhàn)方式漸漸向以網(wǎng)絡(luò)為中心的信息化作戰(zhàn)方式發(fā)生轉(zhuǎn)變。當(dāng)前的網(wǎng)絡(luò)化戰(zhàn)爭(zhēng)已經(jīng)將情報(bào)偵察、指揮決策、武器控制、通信聯(lián)絡(luò)等信息系統(tǒng)通過(guò)計(jì)算機(jī)連接成通信網(wǎng)絡(luò),向著體系作戰(zhàn)的方向發(fā)展[52]。隨著復(fù)雜網(wǎng)絡(luò)理論的發(fā)展和成熟,許多學(xué)者選擇將軍事通信網(wǎng)絡(luò)系統(tǒng)抽象為復(fù)雜網(wǎng)絡(luò)進(jìn)行研究,即將各系統(tǒng)以及各系統(tǒng)中的實(shí)體視為節(jié)點(diǎn),將關(guān)系視為邊,建立軍事通信網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)模型[53-55],并基于模型進(jìn)行網(wǎng)絡(luò)安全性、可生存性和可恢復(fù)性的研究。基于抽象的網(wǎng)絡(luò)識(shí)別出關(guān)鍵節(jié)點(diǎn),對(duì)其進(jìn)行保護(hù)(或破壞)將最大限度地增強(qiáng)(或降低)網(wǎng)絡(luò)的功能。近期蓬勃發(fā)展的圖網(wǎng)絡(luò)是一個(gè)將網(wǎng)絡(luò)科學(xué)與DL相結(jié)合的領(lǐng)域,正被大量應(yīng)用于復(fù)雜系統(tǒng)建模工作。目前,已有學(xué)者使用DRL和圖神經(jīng)網(wǎng)絡(luò)結(jié)合的方法對(duì)網(wǎng)絡(luò)安全問(wèn)題進(jìn)行處理,并取得了良好的效果。Fan等[56]使用歸納式圖表示學(xué)習(xí)技術(shù)從鄰域迭代聚合節(jié)點(diǎn)嵌入向量,這些向量被初始化為節(jié)點(diǎn)特征,用以描述狀態(tài)與動(dòng)作,使用連通性度量代替獎(jiǎng)勵(lì),并利用DQN自動(dòng)學(xué)習(xí)優(yōu)化目標(biāo),綜合上述方法提出了一個(gè)DRL框架FINDER。FINDER的提出也為復(fù)雜網(wǎng)絡(luò)問(wèn)題的解決開(kāi)辟了新的研究方向。Xu等[57]在使用FINDER框架識(shí)別出軍用通信網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)后,通過(guò)改進(jìn)遺傳算法的編碼規(guī)則和交叉變異算子,對(duì)軍用通信網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行了優(yōu)化。在網(wǎng)絡(luò)威脅檢測(cè)問(wèn)題中,Praveena等[58]首先利用黑寡婦優(yōu)化(black widow optimization, BWO)算法對(duì)深度信念網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,在此基礎(chǔ)上將深度強(qiáng)化學(xué)習(xí)-BWO(deep reinforcement learning-BWO, DRL-BWO)算法用于無(wú)人機(jī)網(wǎng)絡(luò)入侵檢測(cè)。

總體而言,當(dāng)前使用DRL的方法對(duì)軍事網(wǎng)絡(luò)系統(tǒng)進(jìn)行優(yōu)化,大多是與復(fù)雜網(wǎng)絡(luò)理論相結(jié)合。除此之外,在計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域中,還有許多文獻(xiàn)對(duì)使用DRL算法解決資源調(diào)度的問(wèn)題進(jìn)行了研究[59],如路由選擇、任務(wù)調(diào)度和傳輸控制協(xié)議擁塞控制等,未來(lái)可以考慮通過(guò)遷移學(xué)習(xí)的方式將上述研究提出的解決方法遷移到軍事網(wǎng)絡(luò)中,對(duì)相關(guān)問(wèn)題進(jìn)行優(yōu)化改進(jìn)。

3.3 DRL在無(wú)人機(jī)編隊(duì)問(wèn)題中的應(yīng)用

隨著智能化控制技術(shù)和空中武器裝備的迅速發(fā)展,空中力量在對(duì)抗程度和對(duì)抗節(jié)奏上都實(shí)現(xiàn)了升級(jí),編隊(duì)智能空戰(zhàn)模式將成為奪取制空權(quán)的關(guān)鍵手段。當(dāng)前,常用的編隊(duì)控制方法主要有領(lǐng)導(dǎo)者-跟隨者方法、虛擬結(jié)構(gòu)方法和基于行為的方法3種[60]。但是,由于編隊(duì)控制問(wèn)題涉及的作戰(zhàn)環(huán)境復(fù)雜多變,影響因素眾多,使得狀態(tài)空間龐大,這些方法或多或少出現(xiàn)了應(yīng)用上的短板。DRL算法可以將作戰(zhàn)過(guò)程中的態(tài)勢(shì)信息直接映射到機(jī)動(dòng)動(dòng)作中,而無(wú)需構(gòu)建模型,無(wú)需考慮眾多影響因素之間錯(cuò)綜復(fù)雜的關(guān)系,針對(duì)狀態(tài)空間龐大的問(wèn)題也可以有效解決[61],因此被逐漸應(yīng)用于解決編隊(duì)智能體機(jī)動(dòng)控制和協(xié)同決策問(wèn)題。針對(duì)無(wú)人機(jī)協(xié)同控制,Zhao等[62]基于PPO算法提出多智能體聯(lián)合PPO(multi-agent joint PPO, MAJPPO)算法,對(duì)不同智能體的狀態(tài)價(jià)值函數(shù)進(jìn)行滑動(dòng)窗口平均,計(jì)算出集中的狀態(tài)價(jià)值函數(shù)并分配給每個(gè)智能體,解決了由智能體策略變化導(dǎo)致的非平穩(wěn)環(huán)境問(wèn)題。Hu等[63]提出一種雙無(wú)人機(jī)協(xié)同自主機(jī)動(dòng)控制方法,針對(duì)狀態(tài)空間維度爆炸問(wèn)題,首先對(duì)連續(xù)空戰(zhàn)狀態(tài)空間進(jìn)行降維和量化描述,接著基于態(tài)勢(shì)評(píng)估結(jié)果設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并提出了一種優(yōu)先采樣策略,以解決傳統(tǒng)DQN算法訓(xùn)練時(shí)收斂速度慢的問(wèn)題。實(shí)驗(yàn)表明,該方法顯著提高了無(wú)人機(jī)的避障、編隊(duì)和對(duì)抗能力。張耀中等[64]通過(guò)引入基于滑動(dòng)平均值的軟更新策略,降低了DDPG算法的參數(shù)震蕩,提高了無(wú)人機(jī)集群協(xié)同執(zhí)行追擊任務(wù)的成功率。

總體而言,當(dāng)前研究主要從多智能體DRL算法優(yōu)化的角度對(duì)無(wú)人機(jī)編隊(duì)控制問(wèn)題進(jìn)行改進(jìn),但是,大多數(shù)研究都弱化了多智能體間的交流協(xié)作,更加注重任務(wù)的完成速度。實(shí)際作戰(zhàn)過(guò)程往往涉及多個(gè)主體,各主體之間的有效溝通對(duì)于提高任務(wù)的成功率有重要影響,這也是未來(lái)需要進(jìn)一步著重研究的問(wèn)題之一。

3.4 DRL在智能決策與博弈問(wèn)題中的應(yīng)用

2016年,AlphaGo[65]擊敗李世石成為DRL領(lǐng)域中一項(xiàng)里程碑式的研究成果,表明DRL方法能夠有效解決完全信息博弈問(wèn)題。2017年,AlphaGo Zero[66]的問(wèn)世再一次刷新了人們對(duì)DRL方法的認(rèn)知,AlphaGo Zero不再需要人類的經(jīng)驗(yàn)作為先驗(yàn)知識(shí),將原先獨(dú)立的策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)合并后大大降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,實(shí)驗(yàn)表明AlphaGo Zero的能力完勝AlphaGo,展現(xiàn)出DRL方法在智能決策與博弈領(lǐng)域中應(yīng)用的強(qiáng)大潛力。在軍事領(lǐng)域中,基于DRL的的智能決策與博弈是通過(guò)數(shù)據(jù)信息、專家知識(shí)和一定規(guī)則,建立博弈對(duì)抗過(guò)程中各類行動(dòng)實(shí)體的模型,針對(duì)復(fù)雜戰(zhàn)場(chǎng)環(huán)境下動(dòng)態(tài)不確定性的智能決策問(wèn)題,利用模型進(jìn)行決策分析,為指揮控制方案的確定提供了數(shù)據(jù)支撐[67]。Wang等[68]考慮到對(duì)手機(jī)動(dòng)策略同樣具有不確定性,使用DQN訓(xùn)練了用于雙方飛機(jī)引導(dǎo)的機(jī)動(dòng)策略智能體,同時(shí)通過(guò)獎(jiǎng)勵(lì)塑造的方法對(duì)算法進(jìn)行優(yōu)化,提高了訓(xùn)練收斂速度。智能體和對(duì)手通過(guò)交替凍結(jié)策略的方式進(jìn)行訓(xùn)練,具備了更好的對(duì)抗能力。Zhang等[69]針對(duì)源自無(wú)人機(jī)作戰(zhàn)場(chǎng)景的多智能體作戰(zhàn)問(wèn)題提出了3種訓(xùn)練技術(shù),并分別將其與多智能體深度Q學(xué)習(xí)和多智能體深度確定性策略梯度相結(jié)合,提高了兩種算法的收斂速度和性能。除了博弈對(duì)抗,DRL在智能決策問(wèn)題中也有很大的應(yīng)用價(jià)值,有學(xué)者利用DRL訓(xùn)練模型或改進(jìn)算法,實(shí)現(xiàn)了作戰(zhàn)過(guò)程中智能體的自主決策。Bai等[70]利用TD3算法對(duì)無(wú)人機(jī)自主機(jī)動(dòng)模型進(jìn)行訓(xùn)練,使無(wú)人機(jī)能夠根據(jù)位置、速度、相對(duì)方位角等態(tài)勢(shì)信息自主做出機(jī)動(dòng)決策。Kong等[71]對(duì)DDPG算法做出了兩個(gè)改進(jìn),一方面考慮到飛機(jī)傳感器的誤差可能會(huì)影響智能體的決策,在策略梯度中引入正則化器來(lái)加強(qiáng)策略網(wǎng)絡(luò)的魯棒性;另一方面利用最大熵逆RL算法對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行規(guī)劃,以加速算法的收斂。況立群等[72]分別采用優(yōu)先級(jí)經(jīng)驗(yàn)重放機(jī)制提升價(jià)值經(jīng)驗(yàn)的學(xué)習(xí)率、采取奧恩斯坦-烏倫貝克噪聲和高斯噪聲相結(jié)合的探索策略加速算法收斂、采用多智能體單訓(xùn)練模式提升算法收斂速度和穩(wěn)定性對(duì)DDPG算法進(jìn)行改進(jìn),在解決復(fù)雜連續(xù)的軍事決策控制問(wèn)題中表現(xiàn)突出。

總體而言,雖然DRL在解決智能決策與博弈問(wèn)題時(shí)具有很大潛力,但是目前針對(duì)軍事領(lǐng)域博弈問(wèn)題的研究仍然存在一些不可避免的問(wèn)題。一方面,真實(shí)戰(zhàn)場(chǎng)環(huán)境中大量信息是復(fù)雜未知的,屬于不完備信息博弈,這是其與棋盤博弈最大的差別所在,給DRL解決戰(zhàn)場(chǎng)博弈問(wèn)題帶來(lái)極大挑戰(zhàn);另一方面,不同智能體協(xié)同合作時(shí)可能會(huì)出現(xiàn)目標(biāo)沖突的問(wèn)題,如何權(quán)衡決策也是一大難題。針對(duì)這一問(wèn)題,在2021年“決策智能與計(jì)算前沿”論壇上,有學(xué)者指出未來(lái)可以采用全局DRL、局部博弈論的方式進(jìn)行優(yōu)化處理,該設(shè)想有待進(jìn)一步加強(qiáng)研究。

3.5 DRL在其他軍事領(lǐng)域問(wèn)題中的應(yīng)用

除了上述問(wèn)題,DRL在軍事領(lǐng)域的其他問(wèn)題上也有大量應(yīng)用。情報(bào)偵察是軍事博弈中關(guān)鍵的一環(huán),掌握更多的情報(bào)信息是取得戰(zhàn)爭(zhēng)勝利的籌碼,Ghadermazi等[73]站在攻擊者的立場(chǎng),通過(guò)建立對(duì)抗性的DRL模型使智能體做出重要的順序決策,實(shí)現(xiàn)具有破壞性的目標(biāo)任務(wù),并基于訓(xùn)練的模型構(gòu)建威脅檢測(cè)器,通過(guò)分析具有不完整軌跡信息的對(duì)手的可疑活動(dòng)來(lái)識(shí)別威脅信號(hào)。人是生成戰(zhàn)斗力最具決定性的能動(dòng)要素,軍事訓(xùn)練有助于提高軍人素質(zhì),Kallstrom等[74]使用多智能體DRL方法設(shè)計(jì)了具有高質(zhì)量行為模型的合成對(duì)手,幫助人類飛行員進(jìn)行訓(xùn)練,可以應(yīng)用于復(fù)雜場(chǎng)景下的訓(xùn)練任務(wù)。在智能調(diào)度問(wèn)題中,Feng[75]用圖像表示資源利用狀態(tài),基于A2C算法為艦載機(jī)保障作戰(zhàn)過(guò)程中的多種資源有效協(xié)調(diào)和調(diào)度問(wèn)題提供了一種解決方案。除此之外,在路徑規(guī)劃問(wèn)題中,文獻(xiàn)[76-78]分別基于DQN、Double DQN和D3QN算法對(duì)機(jī)器人或無(wú)人機(jī)路徑規(guī)劃問(wèn)題進(jìn)行了求解。

雖然DRL算法在其他領(lǐng)域中已經(jīng)取得了不錯(cuò)的應(yīng)用成效,但是針對(duì)軍事領(lǐng)域,許多問(wèn)題的研究才剛剛起步。就上述提及的軍事領(lǐng)域中的幾大關(guān)鍵問(wèn)題,結(jié)合DRL的研究程度也存在較大差異,有的問(wèn)題才剛剛開(kāi)始探索,有的問(wèn)題已經(jīng)有了較為成熟的算法,既無(wú)法一概而論,又很難針對(duì)軍事領(lǐng)域下的每個(gè)子問(wèn)題都展開(kāi)方法的演化分析。

因此,本文從軍事領(lǐng)域整體的角度出發(fā),對(duì)目前重點(diǎn)關(guān)注的幾大類問(wèn)題進(jìn)行方法關(guān)系和演化過(guò)程的梳理。為了更加清晰明了地呈現(xiàn)出問(wèn)題與方法以及方法與方法之間的關(guān)系,本文一方面從問(wèn)題視角切入,采用表格的形式分類介紹了不同問(wèn)題使用的DRL方法,如表3所示;另一方面從方法視角切入,以演化圖的形式介紹了各類DRL方法的發(fā)展過(guò)程以及相互之間的關(guān)系,同時(shí)對(duì)該方法目前可以解決的具體問(wèn)題進(jìn)行了標(biāo)注,如圖4所示。

表3 DRL在軍事領(lǐng)域中的應(yīng)用Table 3 Application of DRL in military field

圖4 DRL方法演化圖Fig.4 Method evolution diagram of DRL

3.6 DRL算法適應(yīng)性分析

DRL發(fā)展至今,已經(jīng)提出了許多算法,其中最基本的就是DQN。由于DQN提出時(shí)間最早,同時(shí)也最簡(jiǎn)單,大量算法都在DQN的基礎(chǔ)之上進(jìn)行改進(jìn)。目前,應(yīng)用比較廣泛的算法都是以DQN、DDPG、PPO為基礎(chǔ)的改進(jìn)算法。其中,DQN主要應(yīng)用于離散動(dòng)作空間,DDPG主要應(yīng)用于連續(xù)動(dòng)作空間,而PPO既可以應(yīng)用于離散動(dòng)作空間,又可以應(yīng)用于連續(xù)動(dòng)作空間。

在這些算法的實(shí)際應(yīng)用過(guò)程中,受到重點(diǎn)關(guān)注的問(wèn)題之一就是模型的訓(xùn)練時(shí)長(zhǎng)?，F(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,才能夠?qū)崿F(xiàn)自主決策。時(shí)間復(fù)雜度決定了模型的訓(xùn)練時(shí)間,若以一個(gè)episode表示智能體從開(kāi)始執(zhí)行任務(wù)到任務(wù)結(jié)束,以nm表示episode的數(shù)量,以nt表示一個(gè)episode中的時(shí)間步數(shù)量,當(dāng)episode和nt的值非常大時(shí),算法的時(shí)間復(fù)雜度取決于episode的數(shù)量和每個(gè)episode中的時(shí)間步數(shù)量,表示為O(ntnm)。

如果要將算法落地于實(shí)際工作,必須根據(jù)任務(wù)的特點(diǎn)選擇合適的算法,并不是每種算法都適用于解決某一類問(wèn)題。對(duì)于前文提及的軍事領(lǐng)域中的不同問(wèn)題,在依據(jù)動(dòng)作空間的類型對(duì)問(wèn)題進(jìn)行分析后,再進(jìn)行選擇。對(duì)于武器裝備組合選擇問(wèn)題,動(dòng)作空間主要由單元、目標(biāo)、離散化后的時(shí)間、任務(wù)和條令構(gòu)成,屬于離散動(dòng)作空間,因此DQN系列算法和PPO算法在此類問(wèn)題中較為適于應(yīng)用。對(duì)于軍事網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問(wèn)題,動(dòng)作空間主要由網(wǎng)絡(luò)中的節(jié)點(diǎn)組成,同樣屬于離散動(dòng)作空間,目前大多采用DQN系列算法識(shí)別關(guān)鍵節(jié)點(diǎn)后進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化。對(duì)于無(wú)人機(jī)編隊(duì)控制和無(wú)人機(jī)機(jī)動(dòng)決策這類問(wèn)題,無(wú)人機(jī)的運(yùn)動(dòng)過(guò)程是連續(xù)的,目前主要有兩種處理方式,一種是采用任務(wù)環(huán)境網(wǎng)格化的離散處理方式,采用DQN系列算法進(jìn)行處理。這種處理方式雖然在一定程度上可以獲得相應(yīng)的解決方案,但是DQN系列算法只能處理小規(guī)模的問(wèn)題,在大規(guī)模問(wèn)題上適應(yīng)性并不好,而且采用網(wǎng)格化處理之后,問(wèn)題過(guò)于簡(jiǎn)單,不能完全模擬實(shí)際環(huán)境;另一種處理方式是采用連續(xù)的任務(wù)環(huán)境,用連續(xù)的空間位置坐標(biāo)表示無(wú)人機(jī)的位置,采用DDPG算法進(jìn)行處理。由于DDPG算法對(duì)于狀態(tài)空間和行為空間的大小沒(méi)有限制,因此算法的適應(yīng)性更好,研究前景更加光明。除此之外,在調(diào)度、訓(xùn)練、路徑規(guī)劃這類離散動(dòng)作空間問(wèn)題中,DQN系列算法的適應(yīng)性更好。

但是,無(wú)論是DQN系列算法還是DDPG算法,都存在一個(gè)共性的問(wèn)題,即模型訓(xùn)練時(shí)間過(guò)長(zhǎng),特別是當(dāng)問(wèn)題由單智能體轉(zhuǎn)向多智能體,動(dòng)作空間和狀態(tài)空間更加龐大,訓(xùn)練耗時(shí)大幅上升。針對(duì)這一問(wèn)題,現(xiàn)有研究主要通過(guò)改進(jìn)DRL算法進(jìn)行改善,例如TD3和PPO等,但是也不能完全解決訓(xùn)練時(shí)長(zhǎng)的問(wèn)題。因此,未來(lái)需要就這一問(wèn)題繼續(xù)改進(jìn),這也是提高各類DRL算法適應(yīng)性的關(guān)鍵所在。

4 結(jié)束語(yǔ)

DRL技術(shù)為解決軍事領(lǐng)域的問(wèn)題開(kāi)辟了一條嶄新的道路。本文在回顧了DRL基本原理和主要算法的基礎(chǔ)上,對(duì)當(dāng)前DRL方法在武器裝備、網(wǎng)絡(luò)安全、無(wú)人機(jī)編隊(duì)、智能決策與博弈、情報(bào)、訓(xùn)練、調(diào)度和路徑規(guī)劃等問(wèn)題中的應(yīng)用現(xiàn)狀進(jìn)行了梳理與總結(jié)。

可以發(fā)現(xiàn),雖然DRL技術(shù)在軍事領(lǐng)域的應(yīng)用日益廣泛,但仍然處于剛剛起步和不斷完善的階段。需要注意的是,理論研究可行并不意味著實(shí)踐一定會(huì)成功,考慮到人力、物力、財(cái)力與安全等因素,軍事領(lǐng)域中的許多問(wèn)題都難以在現(xiàn)實(shí)中進(jìn)行方法的效果驗(yàn)證。除此之外,由于現(xiàn)實(shí)戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,實(shí)驗(yàn)中建立的問(wèn)題模型可能無(wú)法與實(shí)際情況完全一致,進(jìn)而影響問(wèn)題的求解和方法的應(yīng)用效果。因此,在實(shí)際推進(jìn)DRL技術(shù)在軍事領(lǐng)域的應(yīng)用落地與具體實(shí)現(xiàn)中仍然面臨著諸多挑戰(zhàn)。

除了應(yīng)用方面,在DRL的理論研究中也可以發(fā)現(xiàn),當(dāng)前仍然存在許多局限:軍事領(lǐng)域部分問(wèn)題的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難,不合理的獎(jiǎng)勵(lì)函數(shù)難以實(shí)現(xiàn)預(yù)期的學(xué)習(xí)目標(biāo),例如軍事領(lǐng)域中的無(wú)人機(jī)編隊(duì)機(jī)動(dòng)控制問(wèn)題。每一架飛機(jī)的動(dòng)作都受偏航、俯仰、滾動(dòng)和推力等因素的影響,但是由于無(wú)人機(jī)在執(zhí)行任務(wù)的過(guò)程中很難設(shè)定中間每步的獎(jiǎng)勵(lì),只能使用全局獎(jiǎng)勵(lì),引發(fā)獎(jiǎng)勵(lì)稀疏且滯后的問(wèn)題,致使訓(xùn)練困難;基于DRL的端到端方法可以對(duì)具有相同分布特性的所有問(wèn)題實(shí)例進(jìn)行求解,但是現(xiàn)有的DRL模型通常需要消耗大量的時(shí)間進(jìn)行訓(xùn)練,當(dāng)面對(duì)需要即時(shí)決策而戰(zhàn)場(chǎng)態(tài)勢(shì)信息變化超出訓(xùn)練模型的預(yù)期設(shè)定等問(wèn)題時(shí),很難在短時(shí)間內(nèi)完成模型的訓(xùn)練,嚴(yán)重時(shí)可能貽誤戰(zhàn)機(jī);目前在軍事領(lǐng)域中基于DRL算法所設(shè)計(jì)的多智能體協(xié)同模型很少考慮多智能體間的溝通協(xié)作,而真實(shí)的戰(zhàn)場(chǎng)環(huán)境往往要求具有不同屬性特征的作戰(zhàn)主體協(xié)同配合,僅僅依靠單個(gè)主體很難完成目標(biāo)任務(wù)等等。這些問(wèn)題是否能夠得到有效解決,是目前影響DRL技術(shù)在軍事領(lǐng)域是否能被廣泛應(yīng)用的關(guān)鍵問(wèn)題。

總之,在軍事領(lǐng)域中,當(dāng)前DRL技術(shù)應(yīng)用的難點(diǎn)主要來(lái)自于方法的實(shí)際實(shí)現(xiàn),以及軍事領(lǐng)域特殊性導(dǎo)致的方法的應(yīng)用缺陷,下面提出一些可以進(jìn)行改進(jìn)的思路和方向。

(1) 為了在軍事復(fù)雜環(huán)境中建立更加真實(shí)的模型,可以借助一系列新興的仿真技術(shù)來(lái)構(gòu)建高逼真度、細(xì)粒度的仿真平臺(tái),如數(shù)字孿生和虛擬現(xiàn)實(shí)等技術(shù),進(jìn)一步開(kāi)展DRL方法的效果驗(yàn)證。

(2) 考慮到真實(shí)作戰(zhàn)要求不同能力的主體相互配合,為了加強(qiáng)基于DRL的多智能體間的協(xié)同合作,一方面可以加強(qiáng)對(duì)多智能體之間的通信算法的研究力度,另一方面可以充分利用多智能體協(xié)同研究的現(xiàn)有成果,與DRL進(jìn)行充分結(jié)合。

(3) 對(duì)軍事領(lǐng)域部分問(wèn)題難以設(shè)置獎(jiǎng)勵(lì)函數(shù)的問(wèn)題,除了繼續(xù)對(duì)DL和RL的方法進(jìn)行探索,還可以結(jié)合博弈論、統(tǒng)計(jì)學(xué)、復(fù)雜網(wǎng)絡(luò)、信息論等理論進(jìn)行獎(jiǎng)勵(lì)機(jī)制的設(shè)計(jì)和改進(jìn)。此外,既然人為設(shè)置獎(jiǎng)勵(lì)函數(shù)十分困難,那么讓系統(tǒng)通過(guò)學(xué)習(xí)和訓(xùn)練自行設(shè)置獎(jiǎng)勵(lì)函數(shù)也許是一個(gè)可行的辦法。

(4) 最后,針對(duì)軍事領(lǐng)域中的即時(shí)決策問(wèn)題,基于DRL的端到端方法前期訓(xùn)練耗費(fèi)時(shí)間長(zhǎng),很難立刻被用于解決現(xiàn)時(shí)問(wèn)題,如果暫時(shí)無(wú)法通過(guò)算法的改進(jìn)來(lái)縮短訓(xùn)練時(shí)長(zhǎng),可以嘗試從硬件的角度出發(fā)進(jìn)行技術(shù)的突破。

猜你喜歡

智能策略方法

例談未知角三角函數(shù)值的求解策略

中學(xué)生數(shù)理化(高中版.高考理化)(2020年2期)2020-04-21 05:32:50

我說(shuō)你做講策略

小學(xué)生作文(低年級(jí)適用)(2019年9期)2019-10-08 08:37:10

智能前沿

文苑(2018年23期)2018-12-14 01:06:06

智能前沿

文苑(2018年19期)2018-11-09 01:30:14

智能前沿

文苑(2018年17期)2018-11-09 01:29:26

智能前沿

文苑(2018年21期)2018-11-09 01:22:32

高中數(shù)學(xué)復(fù)習(xí)的具體策略

數(shù)學(xué)大世界(2018年1期)2018-04-12 05:39:14

可能是方法不對(duì)

意林原創(chuàng)版(2016年10期)2016-11-25 10:28:30

用對(duì)方法才能瘦

Coco薇(2016年2期)2016-03-22 02:42:52

四大方法教你不再“坐以待病”！

Coco薇(2015年1期)2015-08-13 02:47:34

系統(tǒng)工程與電子技術(shù)2024年4期

系統(tǒng)工程與電子技術(shù)的其它文章: 基于動(dòng)態(tài)估計(jì)反饋的灰色理論航跡關(guān)聯(lián)算法; 地形跟隨中航跡跟蹤模型預(yù)測(cè)控制方案設(shè)計(jì); 帶有神經(jīng)網(wǎng)絡(luò)干擾觀測(cè)器的視線角約束制導(dǎo); 基于連續(xù)路網(wǎng)環(huán)境的實(shí)體化主體路徑規(guī)劃算法; 基于灰色關(guān)聯(lián)協(xié)同效應(yīng)權(quán)重配置的費(fèi)用預(yù)測(cè)模型; 基于自適應(yīng)超螺旋觀測(cè)器的空間機(jī)械臂魯棒故障診斷

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区

深度強(qiáng)化學(xué)習(xí)及其在軍事領(lǐng)域中的應(yīng)用綜述

0 引 言

1 DRL的基本原理

1.1 DL

1.2 RL

2 DRL主要算法

2.1 基于值函數(shù)的DRL

2.2 基于策略梯度的DRL

3 DRL在軍事領(lǐng)域的應(yīng)用現(xiàn)狀

3.1 DRL在武器裝備組合選擇問(wèn)題中的應(yīng)用

3.2 DRL在軍事網(wǎng)絡(luò)安全問(wèn)題中的應(yīng)用

3.3 DRL在無(wú)人機(jī)編隊(duì)問(wèn)題中的應(yīng)用

3.4 DRL在智能決策與博弈問(wèn)題中的應(yīng)用

3.5 DRL在其他軍事領(lǐng)域問(wèn)題中的應(yīng)用

3.6 DRL算法適應(yīng)性分析

4 結(jié)束語(yǔ)

0 引言