• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度強(qiáng)化學(xué)習(xí)算法在智能軍事決策中的應(yīng)用

    2021-10-28 06:01:58況立群李思遠(yuǎn)徐清宇
    關(guān)鍵詞:軍事紅軍經(jīng)驗(yàn)

    況立群,李思遠(yuǎn),馮 利,韓 燮,徐清宇

    1.中北大學(xué) 大數(shù)據(jù)學(xué)院,太原 030051

    2.北方自動(dòng)控制技術(shù)研究所 仿真裝備部,太原 030006

    現(xiàn)代戰(zhàn)爭(zhēng)規(guī)模與復(fù)雜性不斷擴(kuò)大,作戰(zhàn)方式日益復(fù)雜,面對(duì)瞬息萬(wàn)變的戰(zhàn)場(chǎng)環(huán)境,僅靠人類(lèi)決策行動(dòng)已經(jīng)很難確保正確快速的軍事響應(yīng)[1]。深度強(qiáng)化學(xué)習(xí)在解決序貫決策問(wèn)題上做出了許多突出貢獻(xiàn),契合了指揮員的經(jīng)驗(yàn)學(xué)習(xí)與決策思維方式,二者相結(jié)合是現(xiàn)代智能軍事決策的發(fā)展方向。強(qiáng)化學(xué)習(xí)[2]具有魯棒性強(qiáng)[3]、獨(dú)立于環(huán)境模型和先驗(yàn)知識(shí)等優(yōu)點(diǎn),在運(yùn)用于軍事作戰(zhàn)行動(dòng)中常采用試錯(cuò)法尋求最優(yōu)軍事決策序列。Q-Learning[4]是一種典型的強(qiáng)化學(xué)習(xí)方法,已被廣泛地研究并產(chǎn)生了SARSA[5]、深度Q網(wǎng)絡(luò)(DQN)[6]、Double-DQN[7]等改進(jìn)算法。Q-Learning被大量應(yīng)用于軍事決策中的部分環(huán)節(jié)中,如戰(zhàn)機(jī)路徑規(guī)劃[8]以及半自治坦克軍事決策[9]。2015年,DeepMind團(tuán)隊(duì)提出了DQN算法,將深度卷積神經(jīng)網(wǎng)絡(luò)和Q學(xué)習(xí)結(jié)合到一起,在Atari系列游戲上達(dá)到了人類(lèi)專(zhuān)家[10]的決策和控制水平,并且避免了Q表的巨大存儲(chǔ)空間;此外還利用經(jīng)驗(yàn)回放記憶和目標(biāo)網(wǎng)絡(luò)提高了訓(xùn)練過(guò)程的穩(wěn)定性。陸軍工程大學(xué)依據(jù)該算法提出了一種基于DQN的逆向強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策技術(shù)框架[11],在解決戰(zhàn)術(shù)行動(dòng)決策上取得了一定的效果。

    雖然DQN算法在離散行為決策方面取得了一系列成果[12],但是難以實(shí)現(xiàn)高維的連續(xù)動(dòng)作。如果連續(xù)變化的動(dòng)作被無(wú)限分割,那么動(dòng)作數(shù)量會(huì)隨著自由度的增加而成倍增加,這就導(dǎo)致了維度突變的問(wèn)題,網(wǎng)絡(luò)將難以收斂。常見(jiàn)做法是對(duì)真實(shí)的作戰(zhàn)系統(tǒng)進(jìn)行有限的網(wǎng)格化處理,形成若干離散的空間與動(dòng)作,其弊端是大大降低了真實(shí)作戰(zhàn)環(huán)境的復(fù)雜性,丟失了很多環(huán)境與動(dòng)作細(xì)節(jié)。例如,在人員移動(dòng)方面只能產(chǎn)生離散的運(yùn)動(dòng),難以準(zhǔn)確地模擬真實(shí)戰(zhàn)場(chǎng)環(huán)境下的人員決策行為[13]。

    2015年,Lillicrap等人[14]綜合DQN算法、經(jīng)驗(yàn)回放緩沖區(qū)和目標(biāo)網(wǎng)絡(luò)的優(yōu)點(diǎn),提出了深度確定策略梯度(DDPG)算法來(lái)解決連續(xù)狀態(tài)行為空間中的深度強(qiáng)化學(xué)習(xí)問(wèn)題。同時(shí),采用基于確定性策略梯度的演員-評(píng)論家(Actor-Critic)算法使網(wǎng)絡(luò)輸出結(jié)果具有確定的動(dòng)作值,保證了DDPG可以應(yīng)用于連續(xù)動(dòng)作空間領(lǐng)域[15],彌補(bǔ)了DQN算法無(wú)法適用于連續(xù)動(dòng)作空間的缺點(diǎn)。然而,由于DDPG算法中Actor網(wǎng)絡(luò)和Q函數(shù)之間的相互作用,使得算法通常難以達(dá)到穩(wěn)定,因此很難直接將DDPG算法應(yīng)用到復(fù)雜的高維多智能體環(huán)境。在多智能體環(huán)境下,各個(gè)智能體之間會(huì)產(chǎn)生相互影響和制約[16],引起環(huán)境的變化,導(dǎo)致算法難以收斂。陳亮等人[17]在DDPG算法的基礎(chǔ)上提出了一種改進(jìn)DDPG的多智能體強(qiáng)化學(xué)習(xí)算法,該算法雖然構(gòu)建了一個(gè)允許任意數(shù)量智能體的靈活框架,但由于所有智能體共享當(dāng)前環(huán)境的相同狀態(tài),使得環(huán)境狀態(tài)維數(shù)增加,且環(huán)境會(huì)受到所有智能體策略動(dòng)作的影響,導(dǎo)致算法收斂比較困難。趙毓等人[18]在多智能體環(huán)境下的無(wú)人機(jī)避碰計(jì)算制導(dǎo)方法中通過(guò)采用集中訓(xùn)練-分布執(zhí)行來(lái)滿足多智能體算法穩(wěn)定收斂的要求,但是該算法只能局限于少量智能體參與,無(wú)法滿足任意數(shù)量智能體的策略學(xué)習(xí)。

    綜上,為解決深度強(qiáng)化學(xué)習(xí)算法難以運(yùn)用于高度復(fù)雜且連續(xù)決策的現(xiàn)代戰(zhàn)場(chǎng)環(huán)境,同時(shí)多智能體環(huán)境下算法難以收斂的問(wèn)題,本文提出了一個(gè)改進(jìn)的DDPG算法——單訓(xùn)練模式雙噪聲DDPG算法(Single-mode and Double-noise DDPG,SD-DDPG),在經(jīng)驗(yàn)采樣、獎(jiǎng)勵(lì)函數(shù)[19]、探索策略[20]和多智能體框架[21]方面對(duì)DDPG算法進(jìn)行改進(jìn)?;趦?yōu)先級(jí)的經(jīng)驗(yàn)重放技術(shù)[22]更加注重有價(jià)值經(jīng)驗(yàn)的學(xué)習(xí),提高算法的收斂速度;連續(xù)型獎(jiǎng)勵(lì)函數(shù)突破稀疏獎(jiǎng)勵(lì)長(zhǎng)時(shí)間無(wú)法變化的困境;OU噪聲與高斯噪聲相結(jié)合的智能體探索策略,滿足連續(xù)決策與離散決策的探索要求;多智能體框架為每個(gè)作戰(zhàn)單位分配單獨(dú)的深度強(qiáng)化學(xué)習(xí)算法,采用單模式訓(xùn)練策略來(lái)大大提高算法收斂的速率和穩(wěn)定性。

    1 相關(guān)工作

    DDPG是深度強(qiáng)化學(xué)習(xí)中一種可以用來(lái)解決連續(xù)動(dòng)作空間問(wèn)題的典型算法,可以根據(jù)學(xué)習(xí)到的策略直接輸出動(dòng)作。確定性的目的是幫助策略梯度避免隨機(jī)選擇,并輸出特定的動(dòng)作值。目前,DDPG算法在無(wú)人駕駛汽車(chē)和無(wú)人駕駛船舶領(lǐng)域有著較為成熟的應(yīng)用,由于DDPG算法有著很強(qiáng)的序貫決策能力,恰好與軍事決策思維方式有很大的契合,因此將其應(yīng)用在智能軍事決策領(lǐng)域具有重要價(jià)值。圖1為DDPG算法框架。

    圖1 DDPG算法框圖Fig.1 DDPG algorithm block diagram

    DDPG算法以初始狀態(tài)信息S t為輸入,輸出結(jié)果為算法計(jì)算出的動(dòng)作策略μ(S t)。在動(dòng)作策略中加入隨機(jī)噪聲,得到最終的輸出動(dòng)作,這是一種典型的端到端學(xué)習(xí)模式。在啟動(dòng)任務(wù)時(shí),智能體(agent)根據(jù)當(dāng)前狀態(tài)s t輸出一個(gè)動(dòng)作,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)并對(duì)該動(dòng)作進(jìn)行評(píng)價(jià),以驗(yàn)證輸出動(dòng)作的有效性,從而獲得環(huán)境的反饋獎(jiǎng)賞r t。有利于agent實(shí)現(xiàn)目標(biāo)的行為將得到積極獎(jiǎng)勵(lì),相反,給予消極懲罰。然后,將當(dāng)前狀態(tài)信息、動(dòng)作、獎(jiǎng)勵(lì)和下一次的狀態(tài)信息(s t,a t,rt,s t+1)存儲(chǔ)在經(jīng)驗(yàn)緩沖池中。同時(shí),神經(jīng)網(wǎng)絡(luò)通過(guò)從經(jīng)驗(yàn)緩沖池中隨機(jī)抽取樣本數(shù)據(jù),訓(xùn)練經(jīng)驗(yàn),不斷調(diào)整動(dòng)作策略,更新網(wǎng)絡(luò)參數(shù),進(jìn)一步提高算法的穩(wěn)定性和準(zhǔn)確性。

    DDPG是較為先進(jìn)的深度強(qiáng)化學(xué)習(xí)算法,具有處理高維連續(xù)動(dòng)作空間的能力,然而DDPG算法中Actor網(wǎng)絡(luò)和Q函數(shù)之間的相互作用使得算法通常難以達(dá)到穩(wěn)定,且超參數(shù)的選擇也變得非常困難,因此難以直接將DDPG算法應(yīng)用于軍事決策下的多智能體環(huán)境。

    2 軍事決策環(huán)境狀態(tài)定義

    2.1 仿真平臺(tái)設(shè)計(jì)

    軍事決策領(lǐng)域涵蓋內(nèi)容非常廣泛,本文選取了藍(lán)軍步兵進(jìn)攻紅軍軍事基地這一具體軍事作戰(zhàn)行動(dòng)?;赨nity獨(dú)立開(kāi)發(fā)了智能軍事決策仿真訓(xùn)練環(huán)境,將藍(lán)軍步兵進(jìn)攻紅軍軍事基地作戰(zhàn)行動(dòng)映射到基于Unity的模擬環(huán)境中去,實(shí)現(xiàn)了作戰(zhàn)智能體在模擬環(huán)境下進(jìn)行軍事決策行為的訓(xùn)練學(xué)習(xí)。

    為了更加高效地探究基于深度強(qiáng)化學(xué)習(xí)的智能軍事決策能力,本文對(duì)藍(lán)軍步兵進(jìn)攻紅軍基地軍事行動(dòng)定義如下規(guī)則?;赨nity搭建1 000 m×1 000 m作戰(zhàn)環(huán)境,預(yù)設(shè)6名藍(lán)軍步兵作為一個(gè)小隊(duì)進(jìn)攻紅軍基地,作戰(zhàn)智能體可以在360°范圍內(nèi)進(jìn)行移動(dòng)與射擊操作,作戰(zhàn)智能體的個(gè)數(shù)在仿真環(huán)境接口中進(jìn)行設(shè)定。在該模擬環(huán)境中預(yù)先設(shè)置多個(gè)障礙物,作為紅軍軍事基地的保護(hù)屏障,作戰(zhàn)智能體無(wú)法自由穿過(guò)障礙物,紅軍軍事基地坐落在障礙物后方。該軍事作戰(zhàn)模擬環(huán)境具有高度的自由性,障礙物的數(shù)量、位置以及基地的大小位置都可以自由設(shè)定,模擬環(huán)境中還搭建了山體、樹(shù)木、草地等易于作戰(zhàn)智能體隱蔽的區(qū)域,更加符合真實(shí)的作戰(zhàn)場(chǎng)景,滿足多種軍事作戰(zhàn)行動(dòng)環(huán)境的要求。具體模擬環(huán)境如圖2所示。

    圖2 模擬作戰(zhàn)環(huán)境Fig.2 Simulation environment

    2.2 環(huán)境狀態(tài)數(shù)據(jù)提取

    藍(lán)軍步兵進(jìn)攻紅軍基地軍事作戰(zhàn)行動(dòng)中的環(huán)境狀態(tài)信息涉及作戰(zhàn)智能體的位置信息、動(dòng)作信息、障礙物及基地信息等。本文改進(jìn)的DDPG算法中使用的環(huán)境狀態(tài)信息如表1所示。

    表1 輸入變量定義Table 1 Input variable definition

    在真實(shí)的藍(lán)軍步兵進(jìn)攻紅軍基地軍事行動(dòng)中,作戰(zhàn)人員會(huì)依據(jù)環(huán)境的特點(diǎn)選取一條最優(yōu)的行動(dòng)路線,模擬環(huán)境中將作戰(zhàn)智能體與最優(yōu)決策路線的距離歸一化為

    [-1,1],距離越小表明學(xué)習(xí)到的策略越好。

    由于作戰(zhàn)智能體獲得的是多個(gè)不同類(lèi)型的環(huán)境狀態(tài)數(shù)據(jù),信息具有多樣性與復(fù)雜性,因此需要進(jìn)行有效融合與處理,作為環(huán)境的狀態(tài)輸入。具體操作為:

    (1)收集所有不同類(lèi)型的具有價(jià)值的環(huán)境狀態(tài)數(shù)據(jù)。

    (2)對(duì)收集到的環(huán)境狀態(tài)數(shù)據(jù)進(jìn)行分析,篩選特征值,剔除不合理的數(shù)據(jù),合并具有共同描述特征的數(shù)據(jù)。

    (3)歸一化處理狀態(tài)特征值,便于神經(jīng)網(wǎng)絡(luò)的處理與學(xué)習(xí)。

    (4)對(duì)經(jīng)處理后不同目標(biāo)的狀態(tài)值進(jìn)行組合,設(shè)置為Numpy中ndarray對(duì)象格式,作為輸入狀態(tài)。

    2.3 作戰(zhàn)規(guī)則約束

    在真實(shí)戰(zhàn)場(chǎng)環(huán)境下,藍(lán)軍步兵進(jìn)攻紅軍軍事基地,為保證藍(lán)軍步兵的隱蔽性,在距離紅軍軍事基地較遠(yuǎn)距離時(shí)(直線距離大于200 m),不得執(zhí)行射擊動(dòng)作。戰(zhàn)場(chǎng)環(huán)境中,軍事障礙物不可穿越,藍(lán)軍作戰(zhàn)單位應(yīng)當(dāng)繞過(guò)障礙物,占據(jù)優(yōu)勢(shì)位置后對(duì)紅軍基地發(fā)動(dòng)攻擊。為保證軍事決策模擬的真實(shí)性,作戰(zhàn)單位執(zhí)行射擊操作有射程限制,該軍事行動(dòng)中限制為200 m。

    2.4 輸出動(dòng)作控制

    作戰(zhàn)智能體具有高度的靈活性,可以全方位自由運(yùn)動(dòng)與射擊,解決了傳統(tǒng)智能軍事決策算法只能執(zhí)行一定離散動(dòng)作的問(wèn)題,極大提高了軍事決策模擬的真實(shí)性。同時(shí),這也涉及到更為精確的動(dòng)作控制,包括作戰(zhàn)智能體的運(yùn)動(dòng)方向、運(yùn)動(dòng)速度、射擊操作。變量定義如表2所示。

    表2 輸出動(dòng)作變量定義Table 2 Output action variable definition

    3 獎(jiǎng)勵(lì)設(shè)計(jì)

    DDPG算法采用連續(xù)的動(dòng)作空間,一個(gè)任務(wù)回合內(nèi)需要采取的動(dòng)作空間很大,離散的獎(jiǎng)勵(lì)函數(shù)在一定的動(dòng)作范圍內(nèi)只能給出相同的獎(jiǎng)勵(lì)值,無(wú)法對(duì)動(dòng)作的細(xì)微變化進(jìn)行精確有效的評(píng)價(jià),使得模型難以收斂。

    針對(duì)以上問(wèn)題,本文設(shè)計(jì)了具有持續(xù)獎(jiǎng)勵(lì)支持的連續(xù)性獎(jiǎng)勵(lì)函數(shù)。獎(jiǎng)勵(lì)函數(shù)如公式(1)所示:

    式(1)中,(x,y)是作戰(zhàn)智能體的位置坐標(biāo),r是方向弧度值。當(dāng)作戰(zhàn)智能體越過(guò)環(huán)境邊界或者與障礙物相撞時(shí),獎(jiǎng)勵(lì)值設(shè)置為-200,給予懲罰。當(dāng)作戰(zhàn)智能體執(zhí)行射擊動(dòng)作但未擊中目標(biāo),則累加獎(jiǎng)勵(lì)值-100。為了引導(dǎo)作戰(zhàn)智能體更快地學(xué)習(xí)到最優(yōu)軍事決策策略,設(shè)計(jì)連續(xù)性函數(shù)引導(dǎo)作戰(zhàn)智能體到達(dá)預(yù)先設(shè)立的區(qū)域,距離值越小獲得的獎(jiǎng)勵(lì)值越大。到達(dá)指定區(qū)域附近后,將射擊點(diǎn)與紅軍基地的距離設(shè)為獎(jiǎng)勵(lì)函數(shù),引導(dǎo)作戰(zhàn)智能體向紅軍基地位置進(jìn)行射擊。持續(xù)性的獎(jiǎng)勵(lì)刺激可以更加高效地引導(dǎo)智能體快速學(xué)習(xí)到最優(yōu)決策序列。該作戰(zhàn)任務(wù)的最終目標(biāo)是將紅軍基地摧毀,給予獎(jiǎng)勵(lì)值+200。

    4 SD-DDPG算法

    本文提出一個(gè)改進(jìn)的DDPG算法——單模式訓(xùn)練雙噪聲DDPG算法(Single-mode and Double-noise DDPG,SD-DDPG),該算法構(gòu)建一個(gè)允許任意數(shù)量agent的靈活框架,所有agent共享當(dāng)前環(huán)境的相同狀態(tài)空間,且每個(gè)作戰(zhàn)agent具有相同的動(dòng)作空間,采用基于優(yōu)先級(jí)的經(jīng)驗(yàn)重放技術(shù)和混合雙噪聲,以及增加單訓(xùn)練模式來(lái)改進(jìn)DDPG算法。SD-DDPG算法對(duì)比DDPG算法在智能軍事決策模擬環(huán)境中有更快的收斂性和更高的穩(wěn)定性。

    4.1 基于優(yōu)先級(jí)的經(jīng)驗(yàn)重放技術(shù)

    原始的DDPG算法引入了經(jīng)驗(yàn)重放機(jī)制,使用經(jīng)驗(yàn)重放緩沖區(qū)消除輸入經(jīng)驗(yàn)中存在的相關(guān)性,然而,該經(jīng)驗(yàn)重放機(jī)制基于存儲(chǔ)在重放緩沖區(qū)中的所有經(jīng)驗(yàn)都具有同等重要性的設(shè)定,因此隨機(jī)地對(duì)一小批經(jīng)驗(yàn)進(jìn)行采樣來(lái)更新網(wǎng)絡(luò)。這種設(shè)定有違常理,當(dāng)人們學(xué)會(huì)做某事時(shí),獲得巨大回報(bào)的經(jīng)驗(yàn)和非常成功的嘗試或慘痛的教訓(xùn)會(huì)在學(xué)習(xí)的過(guò)程中不斷地出現(xiàn)在他們的記憶中,因此這些經(jīng)驗(yàn)更有價(jià)值。

    在大多數(shù)強(qiáng)化學(xué)習(xí)算法中,TD-error經(jīng)常被用來(lái)矯正Q(s,a)函數(shù)。TD-error的值作為估計(jì)值的修正值反映了agent可以從中學(xué)習(xí)到正確策略的程度。TD-error的值越大,表明對(duì)期望動(dòng)作值的修正越積極,在這種情況下高TD-error的經(jīng)驗(yàn)更有可能具有更高的價(jià)值,并且與非常成功的嘗試緊密聯(lián)系。此外,TD-error為負(fù)的情況與非常失敗的嘗試緊密聯(lián)系,通過(guò)對(duì)非常失敗經(jīng)驗(yàn)的學(xué)習(xí)可以逐步使agent避免再做出錯(cuò)誤的行為,這些不好的經(jīng)驗(yàn)同樣具有很高的價(jià)值。選取TD-error作為評(píng)價(jià)經(jīng)驗(yàn)價(jià)值的標(biāo)準(zhǔn),對(duì)經(jīng)驗(yàn)j計(jì)算TD-error如公式(2)所示:

    式中,Q′(s t+1,a t+1,w)是w參數(shù)化的critic目標(biāo)網(wǎng)絡(luò)。抽樣經(jīng)驗(yàn)的概率定義如公式(3)所示:

    式中,P(j)表示對(duì)經(jīng)驗(yàn)j進(jìn)行抽樣的概率,其中D j=表示第j個(gè)經(jīng)驗(yàn)在經(jīng)驗(yàn)緩沖池中的位置排序。參數(shù)α決定了優(yōu)先級(jí)的使用程度,抽樣概率的定義可以被視為在經(jīng)驗(yàn)選擇過(guò)程中加入隨機(jī)因素的方法,這可以使得TD-error值比較低的樣本仍然有機(jī)會(huì)被重放,從而保證了經(jīng)驗(yàn)抽樣的多樣性,防止神經(jīng)網(wǎng)絡(luò)過(guò)度擬合。但是由于對(duì)具有高TD-error經(jīng)驗(yàn)的頻繁重放,無(wú)疑改變了樣本的分布,這很可能導(dǎo)致模型收斂到不同的值或者訓(xùn)練不收斂,所以需要選擇重要性采樣,這樣可以確保每個(gè)樣本被選到的概率是不同的,且對(duì)梯度下降具有相同的影響。重要性采樣權(quán)重如公式(4)所示:

    式中,S是經(jīng)驗(yàn)緩沖池的大小,P(j)是采樣經(jīng)驗(yàn)j的概率,β是一個(gè)超參數(shù),用來(lái)控制基于優(yōu)先級(jí)經(jīng)驗(yàn)緩沖池重放程度,如果β=1,代表完全抵消優(yōu)先級(jí)經(jīng)驗(yàn)緩沖池對(duì)收斂結(jié)果的影響。

    4.2 基于混合雙噪聲的探索策略

    DDPG算法中添加噪聲的動(dòng)作策略與學(xué)習(xí)策略相互獨(dú)立,即DDPG是確定性策略,而探索噪聲可以自行設(shè)定。

    原始DDPG算法采用OU(Ornstein-Uhlenbeck)噪聲,OU過(guò)程是一種隨機(jī)過(guò)程,其微分形式如公式(5)所示:

    其中,μ是均值,θ表示噪聲趨于平均值的速度,σ表示噪聲的波動(dòng)程度。OU噪聲是時(shí)序相關(guān)的探索噪聲,即前一步的噪聲會(huì)對(duì)后一步的噪聲產(chǎn)生影響,且是馬爾科夫模式的。正是基于OU噪聲時(shí)序相關(guān)的特性,對(duì)于慣性系統(tǒng)的探索效率會(huì)更高。而DDPG作為連續(xù)性算法的代表,非常適用于慣性系統(tǒng)。

    許多強(qiáng)化學(xué)習(xí)算法也經(jīng)常采用高斯噪聲,將強(qiáng)化學(xué)習(xí)算法中策略網(wǎng)絡(luò)的輸出動(dòng)作作為均值,直接疊加高斯分布ε~Ν(0,σ2),作為強(qiáng)化學(xué)習(xí)算法的探索策略。區(qū)別于OU噪聲時(shí)序相關(guān)性,高斯噪聲不會(huì)受到之前動(dòng)作的影響,所以對(duì)于不具備時(shí)序相關(guān)的決策動(dòng)作非常適用于高斯噪聲。

    在基于改進(jìn)DDPG算法的藍(lán)軍步兵進(jìn)攻紅軍軍事基地智能決策行動(dòng)中,作戰(zhàn)智能體具有三個(gè)決策動(dòng)作,其中速度與方向的控制適用于慣性系統(tǒng),采用OU噪聲可以提高作戰(zhàn)智能體在速度控制與方向選擇策略的探索效率,但是針對(duì)作戰(zhàn)智能體的射擊動(dòng)作,由于射擊動(dòng)作的執(zhí)行在時(shí)序上不具備相關(guān)性,即前一步的射擊動(dòng)作不會(huì)對(duì)后一步是否采取射擊動(dòng)作產(chǎn)生影響,因此采用OU噪聲則會(huì)降低射擊決策動(dòng)作的探索效率。由于高斯噪聲具有獨(dú)立噪聲的特點(diǎn),所以在射擊決策上采用高斯噪聲無(wú)疑是最好的選擇。所以本文引入了OU+Gaussian的混合雙噪聲來(lái)改進(jìn)DDPG算法,提高算法在軍事模擬環(huán)境中的探索效率和收斂速度。后續(xù)實(shí)驗(yàn)結(jié)果表明,采用混合雙噪聲的改進(jìn)DDPG算法具有更快的收斂速度和更高的穩(wěn)定性。OU噪聲參數(shù)設(shè)定如表3所示。

    表3 OU噪聲參數(shù)設(shè)定表Table 3 OU noise parameter setting table

    表3中,μ代表噪聲的平均值,θ代表趨于平均值的速度,σ為噪聲的波動(dòng)程度。

    4.3 增加單訓(xùn)練模式下的多智能體框架

    直接將DDPG算法應(yīng)用于具有多智能體的軍事決策環(huán)境中,算法將很難收斂,因此本文設(shè)計(jì)了增加單模式下的多智能體靈活框架。在本文設(shè)計(jì)的多智能體框架中,每個(gè)作戰(zhàn)智能體獨(dú)立分配一個(gè)改進(jìn)型DDPG算法,每個(gè)作戰(zhàn)智能體擁有獨(dú)立的神經(jīng)網(wǎng)絡(luò)和基于優(yōu)先級(jí)的經(jīng)驗(yàn)緩沖池。每個(gè)作戰(zhàn)智能體在與環(huán)境的交互中,接收全局的環(huán)境狀態(tài)信息,即將全局環(huán)境狀態(tài)作為Actor網(wǎng)絡(luò)的輸入,Critic網(wǎng)絡(luò)則獨(dú)立地對(duì)本智能體決策動(dòng)作進(jìn)行評(píng)價(jià)和訓(xùn)練。

    由于環(huán)境中同時(shí)存在多個(gè)作戰(zhàn)智能體,且依據(jù)時(shí)間步循環(huán)對(duì)每一個(gè)作戰(zhàn)智能體進(jìn)行訓(xùn)練,這會(huì)導(dǎo)致環(huán)境的動(dòng)態(tài)變化,降低了算法的收斂速率和穩(wěn)定性,使算法難以收斂。針對(duì)以上問(wèn)題,本文提出了增加單模式下的多智能體框架。即在多智能體框架中加入單模式控制模塊,對(duì)每一個(gè)作戰(zhàn)智能體在特定時(shí)間步內(nèi)增加單訓(xùn)練模式。單訓(xùn)練模式下,算法指定的單作戰(zhàn)智能體獨(dú)立地與環(huán)境交互,學(xué)習(xí)決策策略,其他作戰(zhàn)智能體臨時(shí)進(jìn)入休眠狀態(tài),不會(huì)對(duì)環(huán)境產(chǎn)生影響。退出單訓(xùn)練模式,則多個(gè)智能體同時(shí)對(duì)環(huán)境進(jìn)行探索,學(xué)習(xí)多智能體協(xié)作策略。增加了單模式的多智能體框架,可以大幅提高算法收斂的穩(wěn)定性和速率,既保證了多智能體間可以學(xué)習(xí)到一定的協(xié)作策略,又可以使每個(gè)作戰(zhàn)智能體具有一定的獨(dú)立性。

    在藍(lán)軍步兵進(jìn)攻紅軍基地智能決策行動(dòng)中,SDDDPG算法可以穩(wěn)定且高效的收斂。SD-DDPG框架結(jié)構(gòu)如圖3所示。

    圖3 SD-DDPG框架圖Fig.3 SD-DDPG frame diagram

    5 實(shí)驗(yàn)結(jié)果與仿真

    本文采用自主研發(fā)的基于Unity的智能軍事決策模擬環(huán)境作為訓(xùn)練平臺(tái),該平臺(tái)具有高度的仿真性和靈活性,采用三維模式構(gòu)建,定義了一些通用的接口,通過(guò)這些接口可以自由設(shè)定滿足特定軍事任務(wù)的仿真環(huán)境,并且大部分經(jīng)典算法都可以在該環(huán)境中進(jìn)行測(cè)試。深度強(qiáng)化學(xué)習(xí)中,將累計(jì)獎(jiǎng)勵(lì)值作為評(píng)價(jià)深度強(qiáng)化學(xué)習(xí)算法收斂性與穩(wěn)定的標(biāo)準(zhǔn)。

    5.1 連續(xù)性智能軍事決策

    目前很少有研究將DDPG算法應(yīng)用于智能軍事決策領(lǐng)域。由于DDPG具有強(qiáng)化的深度神經(jīng)網(wǎng)絡(luò)函數(shù)擬合能力和較好的廣義學(xué)習(xí)能力,且其決策動(dòng)作空間具有連續(xù)性特點(diǎn)。本文選擇DDPG算法作為智能軍事決策的基礎(chǔ)算法。

    DQN算法在離散行為方面取得了很大的成功,但是很難實(shí)現(xiàn)高維的連續(xù)動(dòng)作。此外,如果簡(jiǎn)單地將操作離散化會(huì)過(guò)濾掉有關(guān)操作域結(jié)構(gòu)的重要信息,所以離散型的強(qiáng)化學(xué)習(xí)算法無(wú)法用于更為精確的模擬智能軍事決策行為。圖4是DQN算法在智能軍事決策模擬圖。

    圖4 應(yīng)用DQN的離散軍事決策模擬圖Fig.4 Discrete military decision simulation chart based on DQN

    DQN算法在藍(lán)軍步兵進(jìn)攻紅軍基地軍事決策中,只能輸入離散的動(dòng)作來(lái)適應(yīng)網(wǎng)格化的地圖環(huán)境,雖然算法得到了收斂,但是網(wǎng)格化的地圖環(huán)境以及離散的動(dòng)作控制大大降低了軍事決策模擬難度,忽略了真實(shí)軍事環(huán)境下作戰(zhàn)單位執(zhí)行動(dòng)作的高維性?;贒DPG算法的改進(jìn)算法則可以依據(jù)更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)以及連續(xù)的動(dòng)作控制,更加真實(shí)的對(duì)藍(lán)軍步兵智能軍事決策行為進(jìn)行模擬,圖5是基于SD-DDPG算法的連續(xù)型軍事決策模擬圖。

    圖5 基于SD-DDPG算法的連續(xù)型軍事決策模擬圖Fig.5 Continuous military decision simulation chart based on SD-DDPG algorithm

    實(shí)驗(yàn)結(jié)果表明,基于SD-DDPG算法的智能軍事決策能夠穩(wěn)定且高效地執(zhí)行連續(xù)型動(dòng)作控制,每個(gè)作戰(zhàn)智能體在連續(xù)型獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下,快速且穩(wěn)定地繞過(guò)軍事障礙物到達(dá)指定隱蔽區(qū)域,之后智能執(zhí)行射擊動(dòng)作,進(jìn)攻紅軍軍事基地,快速完成藍(lán)軍步兵進(jìn)攻紅軍軍事基地作戰(zhàn)任務(wù)。對(duì)比離散型DQN算法,SD-DDPG算法應(yīng)用于智能軍事決策行為更具真實(shí)性與高效性,克服了目前在軍事決策領(lǐng)域只能網(wǎng)格化作戰(zhàn)環(huán)境與執(zhí)行簡(jiǎn)單離散動(dòng)作的弊端,是連續(xù)性動(dòng)作控制在智能軍事決策領(lǐng)域的一次全新嘗試,為后續(xù)探索智能軍事決策領(lǐng)域提供了全新的視野與方法。

    5.2 SD-DDPG算法的性能測(cè)試

    SD-DDPG算法是DDPG算法的改進(jìn)算法,通過(guò)引入基于優(yōu)先級(jí)的經(jīng)驗(yàn)重放技術(shù),解決了原始經(jīng)驗(yàn)緩沖池中所有經(jīng)驗(yàn)都具有同等重要性的弊端,通過(guò)加入OU與Gaussian混合雙噪聲來(lái)提高算法的探索能力,最后在多智能體框架下增加單訓(xùn)練模式,提高了多智能體與環(huán)境交互的穩(wěn)定性,使算法能夠快速且高效地收斂。

    以DDPG算法作為基準(zhǔn)算法,加入OU+Gaussian混合雙噪聲后,使決策動(dòng)作的探索更加高效,算法收斂的穩(wěn)定性有一定程度的提高。

    圖6在不同噪聲環(huán)境下通過(guò)迭代訓(xùn)練300回合(episode)進(jìn)行對(duì)比,每個(gè)回合最大訓(xùn)練次數(shù)為5 000次。實(shí)驗(yàn)結(jié)果表明,對(duì)速度控制和方向控制疊加OU噪聲,以及對(duì)射擊動(dòng)作控制疊加Gaussian噪聲后,DDPG算法在該軍事決策模擬環(huán)境下具有更高的穩(wěn)定性。

    圖6 OU噪聲與OU+Gaussian混合噪聲的獎(jiǎng)勵(lì)對(duì)比Fig.6 Comparison of OU noise and OU+Gaussian mixed noise

    針對(duì)多智能體框架下,由于環(huán)境的動(dòng)態(tài)變化而導(dǎo)致的算法不穩(wěn)定且難以收斂的問(wèn)題,本文增加了單訓(xùn)練模式,圖7表示了增加單模式下的DDPG(Single-mode DDPG,S-DDPG)算法收斂速度與收斂穩(wěn)定性都明顯提升。

    圖7 增加單模式下DDPG算法與原始算法獎(jiǎng)勵(lì)對(duì)比Fig.7 Comparison of DDPG algorithm and original algorithm in single-mode

    為最終驗(yàn)證SD-DDPG算法的先進(jìn)性,本文選取Actor-Critic(演員-評(píng)論家)[23]、DDPG、PER-DDPG(基于優(yōu)先級(jí)經(jīng)驗(yàn)重放技術(shù)的DDPG)[22]等3種連續(xù)性深度強(qiáng)化學(xué)習(xí)算法與之比較,結(jié)果如圖8所示。

    圖8 SD-DDPG算法與其他算法獎(jiǎng)勵(lì)對(duì)比Fig.8 Comparison between SD-DDPG algorithm and other algorithms

    Actor-Critic算法由actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)兩部分構(gòu)成,可以執(zhí)行連續(xù)的控制操作,也是DDPG算法的基本框架。PER-DDPG算法對(duì)原始算法進(jìn)行了改進(jìn),使其具備了優(yōu)先級(jí)的經(jīng)驗(yàn)回放,能夠更加高效地從經(jīng)驗(yàn)中學(xué)習(xí)策略。圖8中對(duì)比結(jié)果表明,本文采取的SD-DDPG算法比其他連續(xù)性算法具有更高的回合獎(jiǎng)勵(lì)和更快的收斂穩(wěn)定性。

    綜上所述,在藍(lán)軍步兵進(jìn)攻紅軍軍事基地智能軍事決策環(huán)境中,設(shè)定的6名作戰(zhàn)智能體在SD-DDPG算法的指揮控制下,能夠自主規(guī)劃最佳路徑,且在合適的時(shí)機(jī)下對(duì)紅軍基地實(shí)施火力打擊,以最快的速度完美地完成了作戰(zhàn)任務(wù)。SD-DDPG算法的超參數(shù)設(shè)置如表4所示。

    表4 SD-DDPG算法超參數(shù)Table 4 Super parameter of SD-DDPG algorithm

    表4中超參數(shù)數(shù)值的選擇依據(jù)反復(fù)實(shí)驗(yàn)與經(jīng)驗(yàn)所得。批尺寸的大小一般為8、16、32、64等,大的批尺寸能夠使模型更準(zhǔn)確地朝著極值所在的方向更新,但批尺寸的選擇也會(huì)受到計(jì)算機(jī)內(nèi)存大小的限制,通過(guò)實(shí)驗(yàn)并結(jié)合計(jì)算機(jī)硬件實(shí)際條件,選擇批尺寸大小為32。折扣系數(shù)反映了對(duì)未來(lái)獎(jiǎng)勵(lì)的期望程度,藍(lán)軍步兵進(jìn)攻紅軍基地軍事行動(dòng)更關(guān)注于最終的戰(zhàn)果,因此設(shè)置折扣系數(shù)為0.99。圖7中算法在150個(gè)回合后趨于穩(wěn)定,圖6與圖8表明算法在250個(gè)回合后趨于穩(wěn)定,因此選擇回合數(shù)為300以及每回合最大步數(shù)為5 000可以保證算法在最短時(shí)間內(nèi)收斂,且不會(huì)因?yàn)檫^(guò)多的回合訓(xùn)練造成過(guò)擬合現(xiàn)象。噪聲的探索次數(shù)根據(jù)回合數(shù)與每回合最大步數(shù)得出。經(jīng)驗(yàn)緩沖池存儲(chǔ)供網(wǎng)絡(luò)訓(xùn)練的樣本數(shù)據(jù),過(guò)小的緩沖池必然會(huì)使一部分經(jīng)驗(yàn)被丟棄,而過(guò)大的緩沖池又會(huì)受到計(jì)算機(jī)內(nèi)存與性能的限制,通過(guò)多次實(shí)驗(yàn),選擇緩沖池大小為350 000。SD-DDPG算法通過(guò)軟更新來(lái)更新目標(biāo)網(wǎng)絡(luò)參數(shù),通常設(shè)定目標(biāo)網(wǎng)絡(luò)超參數(shù)為0.001。alpha與beta參數(shù)分別控制優(yōu)先級(jí)經(jīng)驗(yàn)重放程度與重要性采樣程度,通過(guò)權(quán)衡攻擊性與魯棒性[24],確定alpha與beta的數(shù)值為0.6與0.4。

    學(xué)習(xí)率的選擇是所有超參數(shù)調(diào)整中最為重要的,它會(huì)對(duì)模型的收斂性與學(xué)習(xí)速率產(chǎn)生重要影響。LRA與LRC的選擇通常為0.01、0.001、0.000 1等。選擇較大學(xué)習(xí)率可能導(dǎo)致模型不收斂,而選擇較小學(xué)習(xí)率雖然會(huì)提高模型收斂的概率,但會(huì)影響模型的收斂速度。SD-DDPG算法中,critic網(wǎng)絡(luò)對(duì)actor網(wǎng)絡(luò)進(jìn)行評(píng)價(jià),通常需要更快的學(xué)習(xí)率。圖9表明,學(xué)習(xí)率參數(shù)選擇0.001數(shù)量級(jí)時(shí),模型難以收斂,而LRA與LRC分別為0.000 1與0.000 2具有更快的收斂速度與穩(wěn)定性。

    圖9 學(xué)習(xí)率參數(shù)對(duì)模型性能影響Fig.9 Influence of learning rate parameters on model performance

    6 結(jié)語(yǔ)

    本文以DDPG算法為基礎(chǔ),提出了SD-DDPG算法并應(yīng)用于解決智能軍事決策問(wèn)題。通過(guò)引入基于優(yōu)先級(jí)的經(jīng)驗(yàn)重放技術(shù)、混合雙噪聲以及增加單訓(xùn)練模式來(lái)提高算法在軍事決策問(wèn)題上的收斂穩(wěn)定性和收斂速度,是連續(xù)性軍事決策智能生成的一次成功探索。實(shí)驗(yàn)結(jié)果表明,SD-DDPG算法具有更高的回合獎(jiǎng)勵(lì)、更快的收斂速度和更好的穩(wěn)定性,可以有效地提升智能軍事決策效率。但SD-DDPG算法弱化了多智能體間的交流協(xié)作,只能實(shí)現(xiàn)一定程度的交流協(xié)作能力,它更注重任務(wù)的快速完成。下一步將拓展研究范圍,加強(qiáng)對(duì)以多智能體之間的通信為基礎(chǔ)的多agent算法研究。

    猜你喜歡
    軍事紅軍經(jīng)驗(yàn)
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2021年20期)2021-11-04 09:39:46
    經(jīng)驗(yàn)
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2018年20期)2018-11-09 08:52:36
    少寨紅軍橋
    十送紅軍
    老友(2017年12期)2018-01-23 06:40:32
    再唱十送紅軍
    倔強(qiáng)的小紅軍
    當(dāng)你遇見(jiàn)了“零經(jīng)驗(yàn)”的他
    都市麗人(2015年4期)2015-03-20 13:33:22
    軍事幽默:局
    軍事文摘(2009年9期)2009-07-30 09:40:44
    軍事
    国产精品不卡视频一区二区| 人妻一区二区av| 亚洲av综合色区一区| 久久久久国产精品人妻一区二区| 日韩欧美精品免费久久| 黄色怎么调成土黄色| 有码 亚洲区| 免费av中文字幕在线| 亚洲精品国产色婷婷电影| 国产黄片视频在线免费观看| 日日摸夜夜添夜夜爱| 一区二区三区四区激情视频| 十分钟在线观看高清视频www | 久久这里有精品视频免费| 中文字幕久久专区| 亚洲国产毛片av蜜桃av| 亚洲国产精品国产精品| 欧美成人精品欧美一级黄| 一级av片app| 天堂俺去俺来也www色官网| 啦啦啦啦在线视频资源| 中文字幕人妻熟人妻熟丝袜美| 国产伦在线观看视频一区| 日韩一本色道免费dvd| 搡女人真爽免费视频火全软件| 日本爱情动作片www.在线观看| 人妻系列 视频| 国产伦精品一区二区三区四那| 欧美xxⅹ黑人| 欧美精品国产亚洲| 男人和女人高潮做爰伦理| 国产大屁股一区二区在线视频| 成人免费观看视频高清| 国产精品一及| 老司机影院成人| 在线观看人妻少妇| 日本免费在线观看一区| 国产男人的电影天堂91| 婷婷色综合www| 亚洲av综合色区一区| 色5月婷婷丁香| 婷婷色麻豆天堂久久| 亚洲国产欧美人成| 99热这里只有是精品在线观看| 久久婷婷青草| 免费高清在线观看视频在线观看| 激情 狠狠 欧美| 久久精品夜色国产| 日韩国内少妇激情av| av播播在线观看一区| 国产精品一区二区在线不卡| 亚洲精品中文字幕在线视频 | 女人久久www免费人成看片| 久久国产乱子免费精品| 国产免费视频播放在线视频| 国产av国产精品国产| 久久久久精品性色| 国产av一区二区精品久久 | 日日摸夜夜添夜夜爱| 中文字幕制服av| 久久鲁丝午夜福利片| 观看av在线不卡| 校园人妻丝袜中文字幕| 内地一区二区视频在线| 免费观看在线日韩| 日韩三级伦理在线观看| 熟女人妻精品中文字幕| 99re6热这里在线精品视频| 国产精品成人在线| 视频中文字幕在线观看| 亚洲精品乱码久久久v下载方式| 亚洲经典国产精华液单| 国内揄拍国产精品人妻在线| 观看美女的网站| 99久久精品国产国产毛片| 亚洲欧美一区二区三区国产| 久久99热6这里只有精品| 欧美高清性xxxxhd video| 人人妻人人看人人澡| 免费av不卡在线播放| 日韩人妻高清精品专区| 深夜a级毛片| 七月丁香在线播放| 少妇裸体淫交视频免费看高清| 国产精品一二三区在线看| 亚洲国产精品999| 亚洲精品,欧美精品| 亚洲精品国产成人久久av| 天堂俺去俺来也www色官网| 99国产精品免费福利视频| 国产 一区精品| 免费观看性生交大片5| 中文字幕亚洲精品专区| 性高湖久久久久久久久免费观看| 国产一区亚洲一区在线观看| 水蜜桃什么品种好| 亚洲欧美成人精品一区二区| 99热国产这里只有精品6| 久久韩国三级中文字幕| 联通29元200g的流量卡| 国产黄色免费在线视频| 国产成人a∨麻豆精品| 欧美成人午夜免费资源| 交换朋友夫妻互换小说| 色视频在线一区二区三区| 91精品国产九色| 少妇高潮的动态图| 在线观看三级黄色| 麻豆精品久久久久久蜜桃| 国产伦理片在线播放av一区| 国内揄拍国产精品人妻在线| 最近手机中文字幕大全| 夜夜爽夜夜爽视频| 男人舔奶头视频| 日韩成人av中文字幕在线观看| 成年av动漫网址| 欧美最新免费一区二区三区| 日本猛色少妇xxxxx猛交久久| 国产美女午夜福利| 欧美老熟妇乱子伦牲交| 亚洲av男天堂| 秋霞在线观看毛片| 十八禁网站网址无遮挡 | 亚洲欧美日韩卡通动漫| 亚洲av成人精品一区久久| 午夜福利网站1000一区二区三区| 少妇裸体淫交视频免费看高清| 国产精品久久久久久久久免| 亚洲电影在线观看av| 免费久久久久久久精品成人欧美视频 | 晚上一个人看的免费电影| 女人久久www免费人成看片| 国产成人免费观看mmmm| 国产精品国产三级国产专区5o| 在线精品无人区一区二区三 | 久久国产精品男人的天堂亚洲 | 18禁动态无遮挡网站| 波野结衣二区三区在线| 国产亚洲91精品色在线| 国产精品蜜桃在线观看| 你懂的网址亚洲精品在线观看| 亚洲国产欧美在线一区| 国产精品久久久久久精品古装| 国产精品一区二区三区四区免费观看| 日日撸夜夜添| 久久精品久久久久久久性| 久久鲁丝午夜福利片| 色吧在线观看| 妹子高潮喷水视频| 人体艺术视频欧美日本| 国产精品欧美亚洲77777| 一级av片app| 亚洲成人av在线免费| 在线观看三级黄色| 国产欧美日韩一区二区三区在线 | 欧美3d第一页| 内射极品少妇av片p| 人妻夜夜爽99麻豆av| 亚洲国产欧美人成| 蜜桃亚洲精品一区二区三区| 黄色一级大片看看| 五月玫瑰六月丁香| 成年免费大片在线观看| 日本黄大片高清| 青春草亚洲视频在线观看| 18禁动态无遮挡网站| 肉色欧美久久久久久久蜜桃| 嫩草影院新地址| 国产大屁股一区二区在线视频| 中文字幕av成人在线电影| 欧美日韩视频高清一区二区三区二| 国产久久久一区二区三区| 两个人的视频大全免费| 啦啦啦视频在线资源免费观看| 中文在线观看免费www的网站| 久久久亚洲精品成人影院| 一级二级三级毛片免费看| 成年av动漫网址| 我的老师免费观看完整版| 视频中文字幕在线观看| 亚洲第一av免费看| 久久精品久久久久久噜噜老黄| 春色校园在线视频观看| 欧美高清成人免费视频www| 又大又黄又爽视频免费| 亚洲av免费高清在线观看| 日韩在线高清观看一区二区三区| 国产成人91sexporn| 最近2019中文字幕mv第一页| 黑丝袜美女国产一区| 色综合色国产| xxx大片免费视频| 欧美3d第一页| 精品人妻偷拍中文字幕| 欧美日韩国产mv在线观看视频 | 国产av国产精品国产| 国产成人a区在线观看| 国产一区二区三区av在线| 成人无遮挡网站| 亚洲av中文字字幕乱码综合| 99热网站在线观看| a级毛色黄片| .国产精品久久| 国产精品欧美亚洲77777| 99热这里只有精品一区| 国产精品福利在线免费观看| 中文乱码字字幕精品一区二区三区| 中国美白少妇内射xxxbb| 日本vs欧美在线观看视频 | 欧美变态另类bdsm刘玥| 亚洲一级一片aⅴ在线观看| 国产亚洲一区二区精品| 国产爱豆传媒在线观看| 久久午夜福利片| 免费看不卡的av| 国产精品av视频在线免费观看| 国产 精品1| 大香蕉久久网| 18禁在线播放成人免费| 亚洲国产精品国产精品| 欧美日韩精品成人综合77777| 成年人午夜在线观看视频| 日本黄色日本黄色录像| 噜噜噜噜噜久久久久久91| 直男gayav资源| 婷婷色麻豆天堂久久| 能在线免费看毛片的网站| av在线app专区| 99久久精品一区二区三区| 日韩国内少妇激情av| 最新中文字幕久久久久| 校园人妻丝袜中文字幕| 精品人妻熟女av久视频| 亚洲av中文字字幕乱码综合| 日产精品乱码卡一卡2卡三| av一本久久久久| 亚洲欧美一区二区三区国产| 成年女人在线观看亚洲视频| av.在线天堂| 97超视频在线观看视频| 国产亚洲精品久久久com| 国产乱人偷精品视频| 免费av不卡在线播放| av免费在线看不卡| 亚洲婷婷狠狠爱综合网| 亚洲精品国产av蜜桃| 亚洲最大成人中文| 日本色播在线视频| 久久6这里有精品| 内地一区二区视频在线| 久久国产精品大桥未久av | 亚洲精品日韩在线中文字幕| 国产精品久久久久成人av| 免费人成在线观看视频色| freevideosex欧美| 国产精品久久久久久精品电影小说 | 黄色日韩在线| 99久久精品热视频| 日韩亚洲欧美综合| av专区在线播放| 两个人的视频大全免费| 成人无遮挡网站| 色5月婷婷丁香| 亚洲美女黄色视频免费看| 最近中文字幕高清免费大全6| 日韩电影二区| av网站免费在线观看视频| 视频中文字幕在线观看| av线在线观看网站| 国产精品一区二区性色av| 国产精品久久久久久av不卡| 久久久欧美国产精品| 久久久久久久久大av| 美女高潮的动态| 中文天堂在线官网| 大香蕉97超碰在线| 99精国产麻豆久久婷婷| 高清不卡的av网站| 欧美高清成人免费视频www| 五月玫瑰六月丁香| 久久久久久人妻| 亚洲欧美精品专区久久| 狂野欧美白嫩少妇大欣赏| av.在线天堂| 午夜福利视频精品| 亚洲中文av在线| 综合色丁香网| 伦精品一区二区三区| 国产亚洲午夜精品一区二区久久| 男女无遮挡免费网站观看| 久久久成人免费电影| 国产无遮挡羞羞视频在线观看| 久久久亚洲精品成人影院| 婷婷色综合www| 女性生殖器流出的白浆| 亚洲欧美日韩卡通动漫| 久久鲁丝午夜福利片| 多毛熟女@视频| 男人狂女人下面高潮的视频| 久久av网站| 日韩不卡一区二区三区视频在线| 亚洲精品456在线播放app| 婷婷色麻豆天堂久久| 中文乱码字字幕精品一区二区三区| 欧美日韩综合久久久久久| 日韩成人av中文字幕在线观看| 少妇的逼水好多| 777米奇影视久久| 久久精品国产a三级三级三级| 国产真实伦视频高清在线观看| 少妇 在线观看| 永久免费av网站大全| 美女cb高潮喷水在线观看| 精品少妇黑人巨大在线播放| 亚洲精品国产成人久久av| 精品一区二区三卡| 国产成人精品婷婷| 成人一区二区视频在线观看| 欧美精品国产亚洲| 日韩电影二区| 国产亚洲午夜精品一区二区久久| 久热这里只有精品99| 中国三级夫妇交换| 国产 一区 欧美 日韩| 日韩精品有码人妻一区| 美女高潮的动态| 日日啪夜夜撸| 麻豆乱淫一区二区| 亚洲精品久久久久久婷婷小说| 日本黄色日本黄色录像| 久久ye,这里只有精品| 男女无遮挡免费网站观看| 免费不卡的大黄色大毛片视频在线观看| 国产深夜福利视频在线观看| 精品一区二区免费观看| 国产深夜福利视频在线观看| 免费高清在线观看视频在线观看| 日韩亚洲欧美综合| 我的老师免费观看完整版| 国产亚洲精品久久久com| 人体艺术视频欧美日本| 婷婷色综合www| 黑丝袜美女国产一区| 欧美成人a在线观看| 久久久精品免费免费高清| 九九久久精品国产亚洲av麻豆| 亚洲欧美日韩另类电影网站 | 国产免费一区二区三区四区乱码| 国产av精品麻豆| 一二三四中文在线观看免费高清| 色综合色国产| 亚洲婷婷狠狠爱综合网| 成人亚洲精品一区在线观看 | 久久av网站| 成人18禁高潮啪啪吃奶动态图 | 免费在线观看成人毛片| 国产精品国产三级专区第一集| 51国产日韩欧美| 91久久精品电影网| 欧美精品亚洲一区二区| 中文字幕av成人在线电影| 下体分泌物呈黄色| 日韩av在线免费看完整版不卡| 水蜜桃什么品种好| 汤姆久久久久久久影院中文字幕| 色视频www国产| 在线观看免费日韩欧美大片 | 亚洲精品日本国产第一区| 亚洲欧美一区二区三区黑人 | 又粗又硬又长又爽又黄的视频| 新久久久久国产一级毛片| 日本vs欧美在线观看视频 | 美女脱内裤让男人舔精品视频| 免费观看在线日韩| 久久午夜福利片| 久久久久久久久久人人人人人人| 精品久久久精品久久久| 亚洲国产高清在线一区二区三| 亚洲欧美清纯卡通| 国产高潮美女av| 日韩亚洲欧美综合| 久久久亚洲精品成人影院| 国产精品99久久99久久久不卡 | 国产有黄有色有爽视频| 能在线免费看毛片的网站| 九九在线视频观看精品| 日韩亚洲欧美综合| 亚洲精品乱码久久久久久按摩| 亚洲人与动物交配视频| av播播在线观看一区| 亚洲av综合色区一区| 精华霜和精华液先用哪个| 女的被弄到高潮叫床怎么办| 精品一区二区免费观看| 国产成人a区在线观看| 久久人人爽人人爽人人片va| 国产成人午夜福利电影在线观看| 日韩成人av中文字幕在线观看| 国产欧美亚洲国产| 亚洲国产最新在线播放| 亚洲欧美一区二区三区黑人 | 久久国内精品自在自线图片| 久久久久国产网址| 日本猛色少妇xxxxx猛交久久| 亚洲国产精品国产精品| 国产精品国产三级国产av玫瑰| 久久久久久久亚洲中文字幕| 久久久国产一区二区| 日韩欧美一区视频在线观看 | 最近的中文字幕免费完整| 天天躁夜夜躁狠狠久久av| 在现免费观看毛片| 亚洲色图av天堂| 成人国产av品久久久| 亚洲国产最新在线播放| 国产色婷婷99| 国产 一区精品| 简卡轻食公司| 成人亚洲欧美一区二区av| 国产亚洲欧美精品永久| 嘟嘟电影网在线观看| 亚洲精品自拍成人| 一级毛片我不卡| 亚洲欧美成人精品一区二区| 2018国产大陆天天弄谢| 国产精品蜜桃在线观看| 亚洲av国产av综合av卡| 国语对白做爰xxxⅹ性视频网站| 欧美激情国产日韩精品一区| 精品久久久久久久久av| 丝袜喷水一区| 亚洲熟女精品中文字幕| 国产精品99久久99久久久不卡 | 国产精品三级大全| 一级毛片我不卡| 国产高清不卡午夜福利| 国产高清有码在线观看视频| 97在线人人人人妻| 国产男女超爽视频在线观看| av在线播放精品| 精品一区二区三卡| 一本—道久久a久久精品蜜桃钙片| 亚洲人成网站在线播| 少妇人妻一区二区三区视频| 天堂俺去俺来也www色官网| 国产女主播在线喷水免费视频网站| 国产成人a∨麻豆精品| 亚洲,欧美,日韩| 久久久亚洲精品成人影院| 777米奇影视久久| 国产在线一区二区三区精| 精华霜和精华液先用哪个| 久久99热6这里只有精品| 国产精品偷伦视频观看了| 国产精品国产三级国产专区5o| av.在线天堂| 在线观看国产h片| 欧美日韩亚洲高清精品| 精品国产一区二区三区久久久樱花 | 国产一区二区三区av在线| 国产精品一二三区在线看| 免费高清在线观看视频在线观看| 成年免费大片在线观看| 国产精品福利在线免费观看| 国产一级毛片在线| 亚洲天堂av无毛| 亚洲精品成人av观看孕妇| 中文天堂在线官网| 在线 av 中文字幕| 高清午夜精品一区二区三区| 欧美xxxx黑人xx丫x性爽| 黄色一级大片看看| 91在线精品国自产拍蜜月| 久久久久久久久久成人| 国产高清国产精品国产三级 | 亚洲精品色激情综合| 中文字幕亚洲精品专区| 亚洲欧洲国产日韩| 欧美极品一区二区三区四区| 国产午夜精品久久久久久一区二区三区| 欧美精品亚洲一区二区| 日韩av在线免费看完整版不卡| 黄色视频在线播放观看不卡| 男女免费视频国产| 少妇裸体淫交视频免费看高清| 久久精品熟女亚洲av麻豆精品| 亚洲欧美一区二区三区黑人 | 日本黄色日本黄色录像| 亚洲,一卡二卡三卡| 麻豆成人av视频| 一级二级三级毛片免费看| 99久久精品一区二区三区| 日本色播在线视频| 美女内射精品一级片tv| 新久久久久国产一级毛片| 亚洲第一区二区三区不卡| 有码 亚洲区| 99热这里只有是精品在线观看| 精品少妇黑人巨大在线播放| 人妻夜夜爽99麻豆av| 欧美少妇被猛烈插入视频| 日韩一区二区三区影片| 在线播放无遮挡| 中国三级夫妇交换| 国产成人a区在线观看| 婷婷色麻豆天堂久久| 天美传媒精品一区二区| 伊人久久国产一区二区| 高清日韩中文字幕在线| 国产黄片视频在线免费观看| 人妻制服诱惑在线中文字幕| 久久 成人 亚洲| 在线观看免费视频网站a站| 精品午夜福利在线看| 日韩亚洲欧美综合| 午夜免费观看性视频| 欧美亚洲 丝袜 人妻 在线| 天美传媒精品一区二区| 国产91av在线免费观看| 欧美区成人在线视频| 中国三级夫妇交换| 久久精品夜色国产| 亚洲久久久国产精品| 国内揄拍国产精品人妻在线| 久久国内精品自在自线图片| 日韩一区二区视频免费看| 日本与韩国留学比较| 亚洲,一卡二卡三卡| 又黄又爽又刺激的免费视频.| 亚洲欧美一区二区三区黑人 | 欧美成人一区二区免费高清观看| 少妇精品久久久久久久| 亚洲精品乱码久久久久久按摩| 青青草视频在线视频观看| 99热这里只有精品一区| 少妇被粗大猛烈的视频| 亚洲欧美中文字幕日韩二区| 欧美老熟妇乱子伦牲交| 日韩制服骚丝袜av| 国内精品宾馆在线| 青春草视频在线免费观看| 两个人的视频大全免费| 99九九线精品视频在线观看视频| 伦精品一区二区三区| 美女xxoo啪啪120秒动态图| 亚洲在久久综合| 亚洲色图综合在线观看| 伦理电影大哥的女人| 亚洲av.av天堂| 国产精品熟女久久久久浪| 国产伦在线观看视频一区| 亚洲真实伦在线观看| 国产成人免费无遮挡视频| 日韩电影二区| 久久国产乱子免费精品| 最近手机中文字幕大全| 久久av网站| 十分钟在线观看高清视频www | 久久99蜜桃精品久久| 97热精品久久久久久| 免费黄频网站在线观看国产| 亚洲真实伦在线观看| 在线观看美女被高潮喷水网站| 成年av动漫网址| 亚洲精品亚洲一区二区| 国产精品久久久久久av不卡| 国产精品麻豆人妻色哟哟久久| 亚洲激情五月婷婷啪啪| 97热精品久久久久久| 97超碰精品成人国产| 国产精品欧美亚洲77777| 夜夜爽夜夜爽视频| 免费观看a级毛片全部| 国产老妇伦熟女老妇高清| 国产一区二区三区综合在线观看 | 欧美日韩综合久久久久久| 偷拍熟女少妇极品色| 国产一区有黄有色的免费视频| 久久99蜜桃精品久久| 成年人午夜在线观看视频| 国产乱人视频| 亚洲aⅴ乱码一区二区在线播放| 国产淫语在线视频| 一区二区av电影网| 久久精品国产亚洲网站| 国产有黄有色有爽视频| 日本av手机在线免费观看| 夜夜爽夜夜爽视频| 成人国产麻豆网| 日韩一区二区三区影片| 亚洲电影在线观看av| av国产精品久久久久影院| 欧美高清成人免费视频www| 精品久久久久久电影网| 久久久久国产精品人妻一区二区| 精品国产一区二区三区久久久樱花 | 久久久午夜欧美精品| 2021少妇久久久久久久久久久| 久久鲁丝午夜福利片| 精品一区在线观看国产| 夜夜爽夜夜爽视频| 国产精品免费大片| 日韩国内少妇激情av| 91精品伊人久久大香线蕉| 成年女人在线观看亚洲视频| 色吧在线观看| 熟妇人妻不卡中文字幕| 黄片无遮挡物在线观看| 亚洲欧美日韩另类电影网站 | 国产亚洲5aaaaa淫片| av女优亚洲男人天堂| 免费观看在线日韩| 99久久综合免费| 伦精品一区二区三区| 久久影院123|