• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    復(fù)雜任務(wù)下的多智能體協(xié)同進(jìn)化算法

    2021-04-13 08:43:38劉家義岳韶華姚小強(qiáng)
    關(guān)鍵詞:全局協(xié)同狀態(tài)

    劉家義, 岳韶華, 王 剛, 姚小強(qiáng), 張 杰,*

    (1.空軍工程大學(xué)防空反導(dǎo)學(xué)院, 陜西 西安 710054; 2.空軍工程大學(xué)研究生院, 陜西 西安 710054)

    0 引 言

    多智能體系統(tǒng)建模以圖論相關(guān)知識(shí)為基礎(chǔ),利用點(diǎn)狀態(tài)與邊狀態(tài)之間的關(guān)系對(duì)多智能體之間的信息關(guān)系與交互博弈進(jìn)行描述,當(dāng)前主要針對(duì)多智能體系統(tǒng)的一致性與降階問題進(jìn)行研究探討[1]。文獻(xiàn)[2]利用基于事件的控制策略,研究了具有時(shí)滯的線性有向多智能體系統(tǒng)的一致性問題。為了避免智能體間通信的連續(xù)性和控制器更新的頻繁性,提出了一種基于事件觸發(fā)函數(shù)的控制策略,該函數(shù)由測(cè)量誤差和基于鄰居離散狀態(tài)的閾值組成。同時(shí),在事件觸發(fā)函數(shù)中引入時(shí)變偏移量,以排除接近一致的潛在吊詭行為與減小的理論閾值。文獻(xiàn)[3]針對(duì)一類高階非線性多智能體系統(tǒng),結(jié)合回溯技術(shù),提出了一種基于觀測(cè)器的自適應(yīng)一致跟蹤控制策略。該方法通過對(duì)每個(gè)跟蹤器建立基于神經(jīng)網(wǎng)絡(luò)的狀態(tài)觀測(cè)器,解決了高階非線性多智能體系統(tǒng)的不可測(cè)狀態(tài)問題。文獻(xiàn)[4]研究了異構(gòu)線性多智能體系統(tǒng)的最優(yōu)一致跟蹤問題。通過引入跟蹤誤差動(dòng)力學(xué),將最優(yōu)跟蹤問題重新表述為求解多智能體博弈的納什均衡解與關(guān)聯(lián)耦合哈密頓-雅可比方程。設(shè)計(jì)了一種基于數(shù)據(jù)的誤差估計(jì)器,用于實(shí)現(xiàn)多智能體系統(tǒng)基于數(shù)據(jù)的控制。利用二次函數(shù)逼近每個(gè)智能體的值函數(shù)以及利用最小二乘意義上的迭代技術(shù),學(xué)習(xí)算法通過輸入-輸出得到最優(yōu)協(xié)同控制。該理論不依賴于多智能體系統(tǒng)的模型,而是利用實(shí)測(cè)的輸入輸出信息來解決多智能體系統(tǒng)的最優(yōu)一致問題。文獻(xiàn)[5]研究了分?jǐn)?shù)階多智能體系統(tǒng)通過采樣數(shù)據(jù)事件觸發(fā)控制的一致性。首先,利用采樣狀態(tài)定義事件觸發(fā)算法,可以避免Zeno行為。在此基礎(chǔ)上,提出了一種分布式控制協(xié)議,保證了分?jǐn)?shù)階多代理系統(tǒng)的一致性,以確保多代理系統(tǒng)中的所有代理都達(dá)到指定的參考狀態(tài)。利用線性矩陣不等式,獲得保證分?jǐn)?shù)階多智能體系統(tǒng)一致性的充分條件。

    本文基于學(xué)者已發(fā)表文獻(xiàn)的基礎(chǔ)上,就已經(jīng)構(gòu)建好的智能體系統(tǒng)內(nèi)部博弈模型與分布式多智能體指揮控制系統(tǒng)的基礎(chǔ)上,討論在多智能體系統(tǒng)處理復(fù)雜任務(wù)時(shí)的協(xié)同算法設(shè)計(jì)。針對(duì)多智能體系統(tǒng)的協(xié)同優(yōu)化問題,提出了復(fù)雜任務(wù)下的多智能體協(xié)同進(jìn)化算法,算法主要應(yīng)用于多智能體協(xié)同處理的復(fù)雜任務(wù)上,從復(fù)雜任務(wù)的角度研究多智能體系統(tǒng)的協(xié)同優(yōu)化問題。

    本文主要研究?jī)?nèi)容有:首先提出復(fù)雜任務(wù)下的多智能體系統(tǒng)協(xié)同優(yōu)化問題并建立數(shù)學(xué)模型,基于問題提出解決方法與基礎(chǔ)算法;接著針對(duì)算法設(shè)計(jì)基本流程,根據(jù)適應(yīng)度函數(shù)選取、確定學(xué)習(xí)步長(zhǎng)、狀態(tài)轉(zhuǎn)移方向確定、智能體狀態(tài)更新、多智能體系統(tǒng)群進(jìn)化操作這些步驟對(duì)算法進(jìn)行具體描述;最后針對(duì)已經(jīng)提出的算法進(jìn)行仿真實(shí)現(xiàn),以全局收益作為分析對(duì)象,分析算法模型的有效性并加以證明。

    1 復(fù)雜任務(wù)下的多智能體系統(tǒng)協(xié)同優(yōu)化問題

    1.1 問題提出

    多智能體系統(tǒng)具有優(yōu)越的自主性和不可預(yù)測(cè)性,在處理復(fù)雜問題方面具有解算能力強(qiáng)、收斂速度快、魯棒性強(qiáng)等優(yōu)勢(shì)[6],但是由于多智能體系統(tǒng)內(nèi)部各智能體的自利性與多智能體系統(tǒng)的能力調(diào)度問題過于復(fù)雜[7],導(dǎo)致該問題至今還沒有一個(gè)合適的算法模型進(jìn)行合適的求解。文獻(xiàn)[8]通過分析飛行器航線規(guī)劃的技術(shù)特點(diǎn),結(jié)合多智能體系統(tǒng)的分布式背景,引入?yún)f(xié)同進(jìn)化機(jī)制,提出了基于多智能體協(xié)同進(jìn)化的飛行器航路規(guī)劃算法。文獻(xiàn)[9]提出當(dāng)前Markov決策存在隨機(jī)不確定性與態(tài)勢(shì)信息不完全,通過模仿生物間共生互利的特點(diǎn)為多智能體協(xié)同提出了新的思路,用一個(gè)神經(jīng)網(wǎng)絡(luò)表示一個(gè)智能體獲得的態(tài)勢(shì)信息映射,通過協(xié)同進(jìn)化神經(jīng)元方法進(jìn)化單個(gè)智能體,為多智能體系統(tǒng)的協(xié)同機(jī)制提供了新的思路。

    由于戰(zhàn)場(chǎng)態(tài)勢(shì)變化復(fù)雜且信息量巨大,本文將基于現(xiàn)有的理論基礎(chǔ),針對(duì)該特點(diǎn)設(shè)計(jì)了復(fù)雜任務(wù)下的多智能體協(xié)同進(jìn)化算法,目的是提高多智能體系統(tǒng)解決復(fù)雜任務(wù)的速率并降低系統(tǒng)復(fù)雜度,消除多智能體系統(tǒng)在處理復(fù)雜問題的短板。算法期望是在一定時(shí)間內(nèi),利用計(jì)算能力較強(qiáng)的多智能體系統(tǒng)快速獲取全局最優(yōu)解,實(shí)現(xiàn)戰(zhàn)術(shù)目標(biāo)。以多智能體系統(tǒng)的損失值為對(duì)象,通過分析損失值的迭代遞減特性,證明了算法的有效性。針對(duì)防空反導(dǎo)領(lǐng)域的分布式協(xié)同作戰(zhàn)指控問題,結(jié)合強(qiáng)化學(xué)習(xí)開發(fā)架構(gòu),設(shè)計(jì)開發(fā)了多智能體指控系統(tǒng),并針對(duì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行具體分析,對(duì)系統(tǒng)進(jìn)行體系架構(gòu)分析,并對(duì)迭代訓(xùn)練后的多智能體指控系統(tǒng)進(jìn)行數(shù)據(jù)演示。

    1.2 數(shù)學(xué)方法與模型

    1.2.1 智能體狀態(tài)轉(zhuǎn)移模型

    在本節(jié)中,將對(duì)多智能體系統(tǒng)處理復(fù)雜任務(wù)過程中通過智能體的狀態(tài)轉(zhuǎn)移進(jìn)行模型構(gòu)建,研究利用多個(gè)智能體的協(xié)同狀態(tài)轉(zhuǎn)移問題。

    (1)

    (2)

    式中,假設(shè)ηi j(t)滿足sup|η(k)(t)|≤ρk,ρk(k=0,1,2,…)為正實(shí)數(shù)序列。

    1.2.2 多目標(biāo)優(yōu)化方法

    由于各個(gè)目標(biāo)之間可能存在沖突或者制約關(guān)系,且多目標(biāo)優(yōu)化問題不存在唯一解,而是存在最優(yōu)解集,多智能體系統(tǒng)中的多目標(biāo)問題主要求解方法如下[11]。

    (1)線性權(quán)重加和法

    該問題的求解難度在于權(quán)重如何分配,具體如下:

    (3)

    (2)獎(jiǎng)懲函數(shù)方法

    使用獎(jiǎng)懲函數(shù)作為優(yōu)化問題的求解方法,其設(shè)計(jì)思想來源于單智能體系統(tǒng)與桿平衡系統(tǒng),桿平衡系統(tǒng)的獎(jiǎng)懲函數(shù)設(shè)計(jì)方式過于單一,主要為在智能體轉(zhuǎn)移狀態(tài)后,失敗的獎(jiǎng)罰值為-1,成果的獎(jiǎng)罰值為0。該系統(tǒng)存在幾個(gè)明顯的缺陷:① 智能體執(zhí)行任務(wù)過程中無法定義其狀態(tài)轉(zhuǎn)移是否為最終的收益做出貢獻(xiàn),且無法確定具體的貢獻(xiàn)有多大。② 獎(jiǎng)懲函數(shù)的基本設(shè)計(jì)原則是智能體在最大化收益的同時(shí)完成任務(wù)目標(biāo),設(shè)計(jì)獎(jiǎng)懲函數(shù)是給定任務(wù)目標(biāo),而不是指揮智能體一步步完成任務(wù)目標(biāo),如果按照狀態(tài)轉(zhuǎn)移的步驟給予獎(jiǎng)賞,則智能體很有可能偏離方向,片面地朝著獎(jiǎng)賞方向發(fā)展,不利于任務(wù)目標(biāo)的實(shí)現(xiàn)。修改后的獎(jiǎng)懲函數(shù)具體如下:

    (4)

    本文將基于原有的獎(jiǎng)懲函數(shù)進(jìn)行優(yōu)化設(shè)計(jì),增大全局收益最大化對(duì)于智能體收益影響的效果,盡可能減弱智能體的自利性[13]。

    2 多智能體協(xié)同進(jìn)化算法

    2.1 算法基本原理

    本文基于差分進(jìn)化(differential evolution, DE)算法進(jìn)行算法[14-16]優(yōu)化,設(shè)計(jì)出多智能體協(xié)同進(jìn)化算法(multi-agent co-evolutionary algorithm,MCA),主要分為兩個(gè)階段。

    第一個(gè)階段借鑒了人類在全局搜索中的學(xué)習(xí)行為,結(jié)合啟發(fā)式搜索算法[17-18]的理念,在優(yōu)化問題求解中融入智能搜索行為,其主要思想為:以一個(gè)優(yōu)化解為基礎(chǔ),在該解的附近領(lǐng)域內(nèi)可能存在更優(yōu)解,所以當(dāng)搜索到更優(yōu)解的時(shí)候,則進(jìn)行迭代繼續(xù)搜索更優(yōu)解,當(dāng)不存在更優(yōu)解的時(shí)候,則停止搜索,完成狀態(tài)更新,獲得優(yōu)化問題的第一階段求解[19-20]。

    MCA算法第一階段基于模擬人類的搜索行為,主要由自利行為、全局收益最大化、不確定性推理等組成:① 自利行為[21]。智能體系統(tǒng)通過協(xié)同機(jī)制完成復(fù)雜任務(wù),其協(xié)同方式是基于自身利益進(jìn)行狀態(tài)的改變,根據(jù)歷史經(jīng)驗(yàn)向最佳位置移動(dòng)。② 全局收益最大化。全局收益最大化可以促進(jìn)個(gè)體與全局之間的協(xié)同,通過態(tài)勢(shì)共享、信息交互、歷史經(jīng)驗(yàn)交互、基于一個(gè)共同的全局收益不斷優(yōu)化自身的行動(dòng)[22]。③ 未知行為推理。針對(duì)最優(yōu)解獲取問題,常采取集中搜索,即縮小較優(yōu)鄰域,繼而采用自適應(yīng)機(jī)制搜索領(lǐng)域內(nèi)的最優(yōu)解。在這種不確定性問題求解中,一般人類的思維是構(gòu)建模糊系統(tǒng),基于這一特點(diǎn),利用人類對(duì)于行為控制和語言描述的模糊性特點(diǎn)構(gòu)建模糊系統(tǒng),同時(shí)制定模糊推理規(guī)則[23-24]。

    MCA算法第二階段基于第一階段對(duì)多智能體系統(tǒng)進(jìn)行迭代優(yōu)化后,進(jìn)一步提升優(yōu)化效果。對(duì)系統(tǒng)內(nèi)智能體參數(shù)進(jìn)行比較,適當(dāng)修改智能體的個(gè)別或者部分參數(shù),對(duì)智能體采取變異操作,觀測(cè)變異后的智能體能力是否有所提高,如果有所提高則保留修改,反之能更換參數(shù)進(jìn)行修改,繼而增強(qiáng)全局搜索能力。當(dāng)智能體系統(tǒng)能力趨于收斂時(shí),則將智能體系統(tǒng)重新迭代會(huì)至第一階段,如此反復(fù),直至智能體系統(tǒng)能力趨于平穩(wěn),從而獲得多智能體協(xié)同優(yōu)化問題的全局最優(yōu)解[25-26]。

    接下來將對(duì)MCA算法進(jìn)行基本流程的表述,進(jìn)一步清晰地構(gòu)建算法模型。

    2.2 算法基本流程

    MCA[27]以自身為中心采取全局利益最大化行為,必要時(shí)犧牲自身利益,從而確定下一狀態(tài)。當(dāng)獲取局部最優(yōu)狀態(tài)后,以此時(shí)的多智能體系統(tǒng)作為初代群,按照一定的概率對(duì)智能體內(nèi)部的參數(shù)進(jìn)行修改,完成變異操作,根據(jù)貪婪準(zhǔn)則進(jìn)行淘汰與保留,實(shí)現(xiàn)群進(jìn)化。進(jìn)化后重新進(jìn)行狀態(tài)轉(zhuǎn)移,如此反復(fù)趨于收斂,直至獲得全局最優(yōu)解。

    2.2.1 適應(yīng)度函數(shù)的選取

    MCA算法在搜索進(jìn)化過程中僅僅以適應(yīng)度作為指標(biāo)參數(shù)評(píng)價(jià)智能體個(gè)體的能力強(qiáng)弱,并作為智能體狀態(tài)轉(zhuǎn)移的重要依據(jù)之一,使得解逐步靠近最優(yōu)解。定義誤差的絕對(duì)值作為最小目標(biāo)函數(shù),引入控制變量防止解空間過大導(dǎo)致過擬合,則目標(biāo)函數(shù)為

    (5)

    式中,e(t)為誤差項(xiàng);w1、和w2分別為權(quán)值常數(shù),取值范圍為[0,1];u(t)為輸出項(xiàng)。

    2.2.2 學(xué)習(xí)步長(zhǎng)確定

    MCA的不確定推理采用正態(tài)分布表示學(xué)習(xí)步長(zhǎng)的模糊變量:

    uA=e-(x-u)/2δ2xuδ

    (6)

    式中,uA為基于高斯的隸屬函數(shù)度;x為輸入變量;u和δ為隸屬函數(shù)參數(shù)。根據(jù)線性隸屬函數(shù),使隸屬度與目標(biāo)函數(shù)值成正比,定義umax=1;umin=0.003,則當(dāng)u<1時(shí),其不確定推理可表示為

    ui j=rand(ui, 1)

    (7)

    式中,ui j是j維空間基于目標(biāo)函數(shù)值i的隸屬度;ui是基于目標(biāo)函數(shù)值i的隸屬度。根據(jù)行為預(yù)測(cè)推理可得步長(zhǎng):

    (8)

    式中,ai j是j維學(xué)習(xí)空間的學(xué)習(xí)步長(zhǎng),此時(shí)求解δi j高斯隸屬函數(shù)參數(shù)如下:

    (9)

    式中, iter和itermax分別是當(dāng)前迭代次數(shù)和最大迭代次數(shù);xmax、xmin分別是多智能體系統(tǒng)中的極大極小函數(shù)值;w是慣性權(quán)值。

    2.2.3 狀態(tài)轉(zhuǎn)移方向確定

    通過對(duì)智能體的自利行為、全局收益最大化、不確定性推理的分析與建模,可以得到第i個(gè)智能體的自利方向di,ego(t)、全局收益最大化方向di,alt(t)和不確定性推理方向di,pro(t),具體表示如下:

    (10)

    對(duì)上述3個(gè)因素進(jìn)行隨機(jī)加權(quán),最終可得狀態(tài)轉(zhuǎn)移方向:

    di, j(t)=sign(ωdi,ego(t)+φ1di,alt(t)+φ2di,pro(t))

    (11)

    式中,xi(t1)和xi(t2)分別是{xi(t-2),xi(t-1),xi(t)}中的最優(yōu)狀態(tài)函數(shù)值。

    2.2.4 智能體狀態(tài)更新

    確定學(xué)習(xí)步長(zhǎng)與狀態(tài)轉(zhuǎn)移方向后,對(duì)智能體進(jìn)行狀態(tài)更新:

    (12)

    2.2.5 多智能體系統(tǒng)群進(jìn)化

    (1)變異

    (13)

    (2)交叉

    即利用交叉算子生成新的智能體作為候選項(xiàng)與初代進(jìn)行比較,其二項(xiàng)式表達(dá)為

    (14)

    (3)選擇

    本章的選擇操作基于貪婪準(zhǔn)則,根據(jù)目標(biāo)函數(shù)的適應(yīng)度作為參考指標(biāo),并將適應(yīng)度更優(yōu)的智能體替換原有的智能體并迭代到新的智能體系統(tǒng)中。具體數(shù)學(xué)表示如下:

    (15)

    式中,f(·)為適應(yīng)度函數(shù),一般將所要優(yōu)化的目標(biāo)函數(shù)為適應(yīng)度函數(shù)。

    2.3 MCA算法流程設(shè)計(jì)

    MCA算法通過獲取社會(huì)經(jīng)驗(yàn)和個(gè)體認(rèn)知經(jīng)驗(yàn),并結(jié)合群智能體的自組織行為將分布式協(xié)同作戰(zhàn)環(huán)境下的多智能體系統(tǒng)[28]作為初代群,計(jì)算群內(nèi)每個(gè)個(gè)體的適應(yīng)度函數(shù),確定其學(xué)習(xí)步長(zhǎng),通過對(duì)智能體的自利行為、全局收益最大化、不確定性推理的分析與建模確定其轉(zhuǎn)移方向之后再更新智能體狀態(tài),再對(duì)初代群進(jìn)行變異操作之后,將多個(gè)初代智能體按照一定的規(guī)則進(jìn)行交叉重組生成新的智能體,實(shí)現(xiàn)群進(jìn)化。再如此反復(fù)循環(huán),直至獲得全局最優(yōu)解。具體流程圖如圖1所示。

    圖1 MAC算法流程圖

    MAC算法的基本步驟如下。

    步驟 1根據(jù)數(shù)學(xué)模型,確定智能體系統(tǒng)的適應(yīng)度函數(shù),即目標(biāo)函數(shù)。

    步驟 2初始化MAC算法的基本參數(shù),即智能體系統(tǒng)中智能體的個(gè)數(shù)、角色、能力、約束限制、空間維數(shù)、群規(guī)模NP、縮放因子F、變異因子CR、空間維數(shù)N等。

    步驟 3令t=0初始種群,隨機(jī)定義s個(gè)初始坐標(biāo):

    {xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

    (16)

    式中,i=1,2,…,s;j=1,2,…,M;M是解的維數(shù)。

    步驟 4評(píng)估并確定狀態(tài)轉(zhuǎn)移策略:計(jì)算每個(gè)智能體i的目標(biāo)函數(shù)值與其在維度j的狀態(tài)轉(zhuǎn)移方向di, j(t)及學(xué)習(xí)步長(zhǎng)αi, j(t)值。

    步驟 5狀態(tài)轉(zhuǎn)移:令t=t+1,按照公式計(jì)算更新智能體狀態(tài)。

    步驟 6根據(jù)適應(yīng)度函數(shù)判斷是否停止智能體狀態(tài)更新,當(dāng)適應(yīng)度函數(shù)趨于平穩(wěn)時(shí),則對(duì)多智能體系統(tǒng)進(jìn)行進(jìn)化操作。

    步驟 9終止算法判定:當(dāng)進(jìn)化后的多智能體系統(tǒng)適應(yīng)度函數(shù)值達(dá)到最優(yōu)且趨于平穩(wěn)則轉(zhuǎn)至步驟3,直至全局適應(yīng)度趨于平穩(wěn),停止算法,輸出結(jié)果。

    其中,每次狀態(tài)轉(zhuǎn)移的步長(zhǎng)t分別計(jì)算每個(gè)智能體i在j的轉(zhuǎn)移方向di j(t)和學(xué)習(xí)步長(zhǎng)αi j(t),且αi j(t)≥0,di j(t)∈{1,0,-1},i=1,2,…,s;j=1,2,…,M。按照公式進(jìn)行狀態(tài)更新,通過不斷更新智能體狀態(tài),獲得更好的狀態(tài)函數(shù)值。接著對(duì)智能體系統(tǒng)采取變異進(jìn)化操作,如此反復(fù)迭代,直到達(dá)到算法終止條件,得到較好的結(jié)果。

    2.4 MCA算法實(shí)現(xiàn)

    基于前文對(duì)算法原理的分析,本論文采用MCA算法對(duì)指揮控制系統(tǒng)進(jìn)行多智能體協(xié)同優(yōu)化模型進(jìn)行求解。在對(duì)多平臺(tái)協(xié)同問題進(jìn)行求解的基礎(chǔ)上,通過對(duì)每個(gè)目標(biāo)進(jìn)行優(yōu)化、變異、交叉、選擇等步驟建立最優(yōu)解集,最后生成決策方案。

    MCA流程如圖2所示,將每一個(gè)作戰(zhàn)單元視為一個(gè)智能體,通過計(jì)算個(gè)體自利行為、全局收益最大化等更新計(jì)算個(gè)體,使得種群最優(yōu)個(gè)體隨著迭代次數(shù)更新保存下來。具體求解步驟如下。

    圖2 算法實(shí)現(xiàn)過程

    步驟 1初始化算法參數(shù)。即智能體系統(tǒng)中智能體的個(gè)數(shù)、角色、能力、約束限制等。

    步驟 2計(jì)算每個(gè)智能體個(gè)體在每個(gè)維度的搜索方向與學(xué)習(xí)步長(zhǎng)。

    步驟 3個(gè)體更新。

    步驟 4初始化種群。在可行解域內(nèi)隨機(jī)產(chǎn)生s個(gè)初始位置,每個(gè)智能體種群個(gè)體為

    {xi(t)|xi(t)=(xi1,xi2,…,xi j,…,xiM)}

    (17)

    步驟 5變異操作。對(duì)初始化智能體種群進(jìn)行變異操作,得到變異智能體與候選智能體。

    步驟 6交叉操作。對(duì)變異智能體進(jìn)行交叉,從父代智能體與變異智能體中選出最優(yōu)的遺傳到下一代的基因。

    步驟 7選擇操作。對(duì)當(dāng)代個(gè)體的適應(yīng)度進(jìn)行選擇。

    步驟 8當(dāng)進(jìn)化后的多智能體系統(tǒng)適應(yīng)度函數(shù)值直至全局適應(yīng)度趨于平穩(wěn),停止算法,否則返回步驟3。

    步驟 9生成并判斷選擇最優(yōu)解集合。

    3 多智能體指控系統(tǒng)的訓(xùn)練網(wǎng)絡(luò)

    3.1 訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)

    本節(jié)將介紹多智能體指控系統(tǒng)的強(qiáng)化學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)設(shè)計(jì),主要分為對(duì)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)與其中部分重點(diǎn)問題的解析,以及對(duì)多智能體系統(tǒng)的協(xié)同演化訓(xùn)練算法的設(shè)計(jì)。針對(duì)其中的博弈決策、協(xié)同進(jìn)化算法進(jìn)行介紹,后文將對(duì)該部分內(nèi)容進(jìn)行優(yōu)化與深入研究,使本文設(shè)計(jì)的多智能體指控系統(tǒng)可以更符合分布式協(xié)同作戰(zhàn)環(huán)境。

    其中多智能體指控模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)結(jié)構(gòu)可以劃分為3部分:態(tài)勢(shì)輸入,決策計(jì)算,決策輸出。態(tài)勢(shì)輸入數(shù)據(jù)分為4類:第一類為紅方要地的狀態(tài),包括要地基本信息,要地正在受攻擊的狀況;第二類為紅方防空營(yíng)的狀態(tài),包括防空營(yíng)當(dāng)前的配置情況,雷達(dá)的工作狀態(tài),發(fā)射車的工作狀態(tài),雷達(dá)受攻擊的狀況,防空營(yíng)能夠打擊的敵方單位信息;第三類為敵方單位的狀態(tài),包括敵方單位基本信息,被紅方導(dǎo)彈攻擊的狀況;第四類為可被攻擊的敵方單位的狀態(tài),包括可被紅方防空營(yíng)打擊的狀況。每類數(shù)據(jù)的單位數(shù)量不固定,隨著戰(zhàn)場(chǎng)形勢(shì)而變化。決策計(jì)算部分:每類態(tài)勢(shì)數(shù)據(jù)各自經(jīng)過兩層全連接網(wǎng)絡(luò)提取出態(tài)勢(shì)特征,然后全部組合連接起來組成全局態(tài)勢(shì)特征,再經(jīng)過一層全連接網(wǎng)絡(luò)進(jìn)行決策推理,再經(jīng)過一個(gè)門控循環(huán)單元(gated recurrent unit, GRU)層保留需要記憶的數(shù)據(jù)。

    圖3 訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)

    決策輸出部分:GRU層一方面輸出動(dòng)作謂語,另一方面與備選敵方單位計(jì)算attention分?jǐn)?shù),輸出動(dòng)作賓語。

    3.1.1 門控循環(huán)單元網(wǎng)絡(luò)

    門控循環(huán)單元網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)中的一種。在原有基礎(chǔ)上,引入門機(jī)制作為信息更新的方式。在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中,輸入門和遺忘門是互補(bǔ)關(guān)系,用兩個(gè)門的比值作為冗余。GRU將輸入門與和遺忘門結(jié)合生成新的門機(jī)制:更新門。同時(shí),GRU直接定義當(dāng)前狀態(tài)ht和歷史狀態(tài)ht-1之間存在線性依賴關(guān)系。

    (18)

    GRU網(wǎng)絡(luò)的隱狀態(tài)ht更新方式為

    (19)

    式中,z∈[0,1],定義為更新門,用來判斷當(dāng)前狀態(tài)是否保留上一狀態(tài)的部分信息,以及是否更新候選狀態(tài)信息,且Zt=σ(Wzxt+Uzht-1+bz)。

    當(dāng)zt=0時(shí),當(dāng)前狀態(tài)ht和上一狀態(tài)ht-1之間不存在線性關(guān)系。若同時(shí)存在zt=0,r=1時(shí),GRU網(wǎng)絡(luò)退化為普通的循環(huán)網(wǎng)絡(luò);若同時(shí)存在zt=0,r=0時(shí),當(dāng)前狀態(tài)ht只和當(dāng)前輸入xt相關(guān),和上一狀態(tài)ht-1無關(guān)。圖4是GRU循環(huán)單元結(jié)構(gòu)。

    圖4 GRU單元

    3.1.2 狀態(tài)數(shù)據(jù)的標(biāo)準(zhǔn)化與過濾

    狀態(tài)數(shù)據(jù)標(biāo)準(zhǔn)化是輸入網(wǎng)絡(luò)之前的一個(gè)必要步驟。狀態(tài)的原始數(shù)據(jù)包含各類數(shù)據(jù):例如雷達(dá)車位置、飛機(jī)速度、飛機(jī)載彈量、敵方單位的威脅度等。此類數(shù)據(jù)的單位和量級(jí)各不相同,在輸入神經(jīng)網(wǎng)絡(luò)之前,必須進(jìn)行歸一化處理。戰(zhàn)斗過程中,某些作戰(zhàn)單位后來加入戰(zhàn)局中,某些單位被打掉,其數(shù)據(jù)就沒有了,神經(jīng)網(wǎng)絡(luò)需要兼容這些情況。

    不同單位在不同時(shí)間點(diǎn)有不同的狀態(tài),因此決策選擇某些單位執(zhí)行某項(xiàng)任務(wù)時(shí),需要剔除那些在此時(shí)間點(diǎn)上不能執(zhí)行此項(xiàng)任務(wù)的參戰(zhàn)單元。例如,導(dǎo)彈發(fā)射車兩次發(fā)射導(dǎo)彈之間必須有一定的時(shí)間間隔,導(dǎo)彈車必須連接上雷達(dá)車才能發(fā)射導(dǎo)彈。

    3.1.3 偏好度機(jī)制與目標(biāo)選擇

    偏好度機(jī)制是一種讓智能體在某個(gè)時(shí)間點(diǎn)重點(diǎn)關(guān)注某些信息,忽略其他信息的機(jī)制,它能夠讓智能體在局部區(qū)域更快速更精確的做出更優(yōu)的決策。

    當(dāng)神經(jīng)網(wǎng)絡(luò)面臨大量輸入的態(tài)勢(shì)信息時(shí),也可以借鑒人類的注意力機(jī)制,只選擇一些關(guān)鍵的信息進(jìn)行處理,偏好度機(jī)制也可稱為注意力網(wǎng)絡(luò)。模型中,我們可以將最大匯聚、門控機(jī)制來近似地模擬,看作是自下而上的基于顯著性的注意力機(jī)制。除此之外,自上而下的會(huì)聚式注意力也是一種有效的信息選擇方式。以輸入大篇文字為例,給定一篇文章,然后對(duì)其內(nèi)容進(jìn)行提取并假設(shè)一定數(shù)量的問題,提出的問題只和文中部分內(nèi)容相關(guān),與其余部分無關(guān)。為降低解算壓力,僅需要把挑選相關(guān)內(nèi)容讓神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。

    定義X=[x1,x2,…,xN]為N個(gè)輸入信息,首先計(jì)算在給定q和X下,選擇第i個(gè)輸入信息的概率ai,則定義ai為

    (20)

    式中,ai為注意力分布;s(xi,q)為注意力打分函數(shù),計(jì)算模型如下:

    (1)加性模型:s(xi,q)=vTtanh(Wxi+Uq);

    (21)

    此公式稱為軟性注意力機(jī)制,圖5給出軟性注意力機(jī)制的示例。在防空反導(dǎo)紅藍(lán)對(duì)抗的場(chǎng)景下,計(jì)算動(dòng)作中的主語和賓語均可以采用注意力機(jī)制。例如在計(jì)算賓語時(shí),輸入數(shù)據(jù)x為當(dāng)前可選的所有敵方目標(biāo),而q為網(wǎng)絡(luò)前面部分輸出的查詢向量。

    圖5 偏好度機(jī)制

    3.2 多智能體指控系統(tǒng)的協(xié)同訓(xùn)練算法

    3.2.1 就近策略優(yōu)化算法

    就近策略優(yōu)化(proximal policy optimization,PPO)屬于Actor-Critic強(qiáng)化學(xué)習(xí)優(yōu)化算法中的一類[29],其與Q-Learning等value-based方法不同,它是直接通過優(yōu)化策略函數(shù),計(jì)算累積期望回報(bào)的策略梯度,從而求解出使得回報(bào)整體最大化的策略參數(shù)。

    定義PPO的累積期望回報(bào)的目標(biāo)函數(shù)為

    (22)

    式中,

    (23)

    At為優(yōu)勢(shì)估計(jì)函數(shù):

    s.t.δt=rt+γV(st+1)-V(st)

    (24)

    算法1 PPO算法描述初始化策略參數(shù)θ,θold重復(fù)每輪更新重復(fù)每個(gè)Actor重復(fù)T步每步使用舊的策略參數(shù)θold產(chǎn)生決策計(jì)算每一步中的優(yōu)勢(shì)估計(jì)A迭代K步求解累積期望回報(bào)函數(shù)的策略梯度,每次使用小批量數(shù)據(jù)用策略梯度更新θ策略參數(shù)更新新的策略參數(shù)至θold

    算法1中的θold與θ分別指的是策略近似函數(shù)的舊參數(shù)與新參數(shù),也可描述為更新前的策略函數(shù)與當(dāng)前新的策略函數(shù),PPO的主要思想是在舊策略函數(shù)的基礎(chǔ)上進(jìn)行多次更新,但又不讓更新后的策略偏離原來的策略函數(shù)過大。

    在每次迭代中,算法并行運(yùn)行N個(gè)Actor,每個(gè)Actor運(yùn)行T步,共收集NT步的數(shù)據(jù),在每一步中會(huì)計(jì)算優(yōu)勢(shì)估計(jì)A1…AT。在完成數(shù)據(jù)的獲取后,將會(huì)用來更新策略參數(shù),其中累積期望回報(bào)的目標(biāo)函數(shù)如上面的L(θ)。在每輪中更新時(shí)迭代K次,每次選擇小批量的數(shù)據(jù)集,M≤NT。

    3.2.2 協(xié)同行為的馬爾可夫決策過程

    傳統(tǒng)的多智能體協(xié)同決策研究[30]主要集中在基于模型的研究上,即理性智能體研究。傳統(tǒng)的研究存在過于依賴背后模型準(zhǔn)確度等缺點(diǎn),只關(guān)注從模型到執(zhí)行器的設(shè)計(jì),而不關(guān)注模型的產(chǎn)生過程。智能對(duì)抗環(huán)境中,智能體種類多樣,對(duì)于多智能體難以獲得精準(zhǔn)的決策模型,且復(fù)雜的任務(wù)環(huán)境和態(tài)勢(shì)擾動(dòng),環(huán)境模型呈現(xiàn)一定的隨機(jī)性和時(shí)變性,這些都需要研究智能體模型在信息缺失下的控制方法(見圖6)。

    圖6 多智能體協(xié)同行為決策模型研究框架

    此研究框架中,其實(shí)質(zhì)是在轉(zhuǎn)移概率模型未知的條件下求解馬爾可夫決策過程(Markov decision process, MDP)[31]問題。

    設(shè)MDP四元素(S,A,r,p):狀態(tài)(S),動(dòng)作(A),獎(jiǎng)勵(lì)函數(shù)(r),轉(zhuǎn)移概率(p);馬爾可夫性:p(st+1|s0,a0,…,st,at)=p(st+1|st,at);策略函數(shù)π:S→A或π:S×A→[0,1];

    優(yōu)化目標(biāo):求解最優(yōu)的策略函數(shù)π*,最大化期望累積獎(jiǎng)勵(lì)值:

    s.t.st+1~p(·|st,at),at~π(·|st),t=0,…,T-1

    (25)

    其方法是利用強(qiáng)化學(xué)習(xí)算法在p(st+1|st,at)未知情況下求解MDP,核心思路是采用時(shí)間差分算法估計(jì)動(dòng)作-值函數(shù):

    (26)

    Qπ(st,at)←Qπ(st,at)+

    α[r(st,at)+γmaxaQπ(st+1,a)-Qπ(st,at)]

    (27)

    π′(s)=argmaxaQπ(s,a)

    (28)

    在該研究框架下,對(duì)于智能體狀態(tài)進(jìn)行了設(shè)計(jì),滿足合理性、完整性等條件。合理性要求物理意義相近的狀態(tài)在數(shù)值上差異也較小,以發(fā)射車的發(fā)射角度θ為例,由于θ是周期性變量,直接將θ作為狀態(tài)的一部分存在數(shù)值不合理性,應(yīng)將發(fā)射角θ→[cosθ,sinθ]。

    完整性要求狀態(tài)包含了智能體決策需要的所有信息,比如智能體的軌跡追蹤問題中,需要加入目標(biāo)軌跡的趨勢(shì)信息,但是如果這一信息無法觀測(cè),則需要擴(kuò)充狀態(tài)包含歷史的觀測(cè)值,如艦船的觀測(cè)尾跡。

    對(duì)于智能體行為決策的獎(jiǎng)勵(lì)函數(shù)進(jìn)行了設(shè)計(jì),根據(jù)實(shí)際任務(wù)中不同的控制目標(biāo)進(jìn)行設(shè)計(jì),如最高精度、最小損傷、最短反應(yīng)時(shí)間、攔截與條件限制等。

    如某智能體獎(jiǎng)勵(lì)函數(shù):

    ρ3w2(攔截概率限制)+ρ4q2(其他條件約束)+

    uTRu(最大生存概率)]

    (29)

    對(duì)于智能體的動(dòng)作進(jìn)行了設(shè)計(jì),根據(jù)施加控制量的數(shù)值特點(diǎn)設(shè)計(jì)離散或連續(xù)的動(dòng)作值。

    3.2.3 協(xié)同行為決策中的策略梯度

    建立協(xié)同行為MDP決策模型,定義了MDP中的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)之后,多智能體的控制問題就轉(zhuǎn)化成求解一個(gè)MDP過程,即尋找最優(yōu)的策略π*。

    由于智能體的運(yùn)動(dòng)通常采用連續(xù)的物理變量描述,因此建模的MDP也是狀態(tài)連續(xù),動(dòng)作連續(xù)的,此類問題適合采用策略梯度求解。

    連續(xù)動(dòng)作空間情況下,假設(shè)一個(gè)參數(shù)化的策略函數(shù)πθ(a|s),沿著優(yōu)化目標(biāo)的梯度更新θ,保證每步迭代獲得一個(gè)“更好”的策略,傳統(tǒng)的策略提升步驟效率很低。

    隨機(jī)策略梯度理論中策略函數(shù)形式滿足隨機(jī)分布的形式πθ(a|s),其優(yōu)點(diǎn)是采用隨機(jī)的策略函數(shù)形式自帶探索機(jī)制,不容易陷入局部最優(yōu),但是策略函數(shù)的形式一般受限。確定策略梯度理論的策略函數(shù)形式為確定的函數(shù)a=μθ(s),其優(yōu)點(diǎn)是策略梯度形式簡(jiǎn)單,確定的函數(shù)形式更靈活,易與神經(jīng)網(wǎng)絡(luò)結(jié)合,缺點(diǎn)是需要人工添加噪聲來提供探索機(jī)制。

    兩種策略函數(shù)形式的策略梯度均滿足某個(gè)分布的期望形式—隨機(jī)逼近。策略梯度轉(zhuǎn)化為如何沿著實(shí)驗(yàn)軌跡采樣獲得{s_1,a_1,s_2,a_2,…s_N,a_N}的問題。采樣過程中,樣本不獨(dú)立,存在時(shí)序相關(guān)性。采用不獨(dú)立樣本估計(jì)的期望可能不是無偏的。可以設(shè)計(jì)一個(gè)經(jīng)驗(yàn)池R存儲(chǔ)每次實(shí)驗(yàn)采集的轉(zhuǎn)移數(shù)據(jù),計(jì)算策略梯度時(shí)從經(jīng)驗(yàn)池中隨機(jī)抽取N組樣本。

    當(dāng)前深度強(qiáng)化學(xué)習(xí)算法基于actor-critic策略,構(gòu)建迭代更新的(環(huán)境、動(dòng)作、反饋、策略),重點(diǎn)解決反饋函數(shù)的構(gòu)建、策略更新機(jī)制。當(dāng)前滿足實(shí)踐檢驗(yàn)的智能體策略演進(jìn)機(jī)理分為多智能體深度Q值網(wǎng)絡(luò)(multi-agent deep Q network, MADQN)、智能體深度確定策略梯度(multi-agent deep deterministic policy gradient, MADDPG)以及智能體近似策略優(yōu)化(multi-agent proximal policy optimization, MAPPO)3類算法。

    4 算法一體化應(yīng)用

    4.1 測(cè)試函數(shù)與參數(shù)設(shè)定

    本章選定RosenBrock函數(shù)作為測(cè)試MCA的標(biāo)準(zhǔn)測(cè)試函數(shù),函數(shù)如表1所示。

    表1 無約束優(yōu)化測(cè)試函數(shù)

    4.2 結(jié)果分析

    本文選取的實(shí)驗(yàn)數(shù)據(jù)是公共數(shù)據(jù)集中的部分算例,參數(shù)設(shè)定為:初始種群個(gè)數(shù)為500,交叉概率為0.8,變異概率為0.1。圖7是MCA算法的收斂趨勢(shì)函數(shù)。從圖7可以看出,當(dāng)?shù)?×103左右時(shí),種群多樣性短暫平穩(wěn),迭代到10×103左右時(shí),多樣性函數(shù)進(jìn)行平穩(wěn)狀態(tài),迭代10×103~30×103,函數(shù)值存在短暫振蕩,但是大體平穩(wěn),但是當(dāng)?shù)?0×103時(shí),算法函數(shù)值下降至7.7左右,并趨向于平穩(wěn)。MCA算法能夠有效的維持種群的多樣性,避免了算法早熟收斂,極大程度提高了算法的搜索性能。接下來將以損失值作為研究對(duì)象,通過分析損失值的變化特性驗(yàn)證算法的可靠性,具體如圖8所示。

    圖7 MCA收斂趨勢(shì)

    圖8 算法損失值迭代分析

    通過分析可知:隨著迭代次數(shù)增加,損失值呈跌宕遞減,但是總體平均值呈遞減趨勢(shì),當(dāng)?shù)? 500×103左右時(shí),損失值開始趨于平穩(wěn)。由此可以證明算法的可靠性,提高了原有多智能體系統(tǒng)處理復(fù)雜任務(wù)的效率。

    5 指控系統(tǒng)仿真

    5.1 仿真戰(zhàn)場(chǎng)環(huán)境

    智能體在訓(xùn)練過程中需要與環(huán)境交互,這也是限制軍事智能發(fā)展的主要原因。因此,必須將物理環(huán)境較好地映射到虛擬環(huán)境中,針對(duì)性的打造數(shù)字戰(zhàn)場(chǎng),提供仿真訓(xùn)練的基礎(chǔ)保障,本文空地對(duì)抗數(shù)字戰(zhàn)場(chǎng)要素設(shè)置如下。

    5.1.1 紅方兵力設(shè)置及能力指標(biāo)

    (1)保衛(wèi)要地2個(gè):指揮所、機(jī)場(chǎng);

    (2)預(yù)警機(jī)1架:探測(cè)范圍400 km;

    (3)遠(yuǎn)程火力單元組成:1輛遠(yuǎn)程火控雷達(dá)車(可同時(shí)跟蹤8個(gè)藍(lán)方目標(biāo),制導(dǎo)16枚防空導(dǎo)彈,最大探測(cè)距離200 km,扇區(qū)120°)、8輛遠(yuǎn)程導(dǎo)彈發(fā)射車(可兼容遠(yuǎn)程/進(jìn)程防空導(dǎo)彈,每輛發(fā)射車裝載3枚遠(yuǎn)程防空導(dǎo)彈和4枚近程防空導(dǎo)彈);

    (4)近程火力單元組成:1輛近程火控雷達(dá)車(可同時(shí)跟蹤4個(gè)敵方目標(biāo),制導(dǎo)8枚防空導(dǎo)彈,最大探測(cè)距離60 km,扇區(qū)360°)、3輛近程導(dǎo)彈發(fā)射車(每輛發(fā)射車裝載4枚近程防空導(dǎo)彈)。

    若火控雷達(dá)被摧毀,該火力單元失去作戰(zhàn)能力;制導(dǎo)過程雷達(dá)需要全程開機(jī);開機(jī)時(shí)會(huì)輻射電磁波,從而被對(duì)手捕捉,暴露自身位置;火控雷達(dá)受地球曲率及地物遮蔽等物理限制,存在盲區(qū)。

    防空導(dǎo)彈飛行軌跡為最佳能量彈道,攔截遠(yuǎn)界為160 km(遠(yuǎn)程)、40 km(近程)。針對(duì)無人機(jī)、戰(zhàn)斗機(jī)、轟炸機(jī)、反輻射導(dǎo)彈、空對(duì)地導(dǎo)彈在殺傷區(qū)的高殺傷概率為75%,低殺傷概率為55%,針對(duì)巡航導(dǎo)彈在殺傷區(qū)的高殺傷概率為45%,低殺傷概率為35%。

    由4個(gè)遠(yuǎn)程火力單元加3個(gè)近程火力單元扇形部署保衛(wèi)紅方指揮所,由2個(gè)遠(yuǎn)程火力單元加3個(gè)近程火力單元扇形部署保衛(wèi)紅方機(jī)場(chǎng)。共12個(gè)火力單元,144枚遠(yuǎn)程導(dǎo)彈,264枚近程導(dǎo)彈。

    5.1.2 藍(lán)方兵力設(shè)置及能力指標(biāo)

    (1)巡航導(dǎo)彈:18枚;

    (2)無人機(jī):20架,每架攜帶2枚反輻射導(dǎo)彈和1枚空對(duì)地導(dǎo)彈;

    (3)戰(zhàn)斗機(jī):12架,每架攜帶6枚反輻射導(dǎo)彈和2枚空對(duì)地導(dǎo)彈;

    (4)轟炸機(jī):4架;

    (5)反輻射導(dǎo)彈射程110 km,命中率80%;空對(duì)地導(dǎo)彈射程60 km,命中率80%;

    (6)干擾機(jī):2架,進(jìn)行防區(qū)外遠(yuǎn)距離支援干擾,干擾扇區(qū)15°,紅方雷達(dá)受到干擾后,降低一半殺傷概率。

    5.1.3 對(duì)抗過程

    藍(lán)方共展開3個(gè)波次的進(jìn)攻,第一個(gè)波次由18枚巡航導(dǎo)彈分為兩條突防路線攻擊指揮所及機(jī)場(chǎng),巡航彈飛行高度100 m進(jìn)行超低空突防,受地球曲率影響,紅方火控雷達(dá)截獲目標(biāo)的距離僅有40 km左右。因此,需要紅方合理規(guī)劃資源,在保證攔截的同時(shí),盡可能減小彈藥消耗。巡航導(dǎo)彈超低空突防如圖9所示。

    圖9 巡航導(dǎo)彈超低空突防

    第二波次為20架無人機(jī)掩護(hù)下12架戰(zhàn)斗機(jī)超低空突防攻擊要地,同時(shí)摧毀暴露的防空陣地。如圖10和圖11所示。

    圖10 無人機(jī)突防

    圖11 發(fā)射反輻射導(dǎo)彈

    對(duì)于更具有對(duì)抗性第二個(gè)波次進(jìn)攻,將增強(qiáng)藍(lán)方的對(duì)抗性。如圖11所示,戰(zhàn)斗機(jī)在無人機(jī)的掩護(hù)下突防。無人機(jī)飛行高度在2 000~3 000 m之間,誘使紅方火控雷達(dá)開機(jī),戰(zhàn)斗機(jī)在100~150 m的超低空突防(受地球曲率保護(hù),在火控雷達(dá)盲區(qū)安全飛行)。如圖12所示,當(dāng)紅方火控雷達(dá)開機(jī)后,戰(zhàn)斗機(jī)爬升到達(dá)擊區(qū)域,與紅方火控雷達(dá)形成通視,發(fā)射反輻射彈攻擊;攻擊之后下降高度機(jī)動(dòng)逃逸,進(jìn)入游獵狀態(tài),組織再次攻擊。對(duì)于紅方而言,防御壓力很大,既要攔截?zé)o人機(jī)和戰(zhàn)斗機(jī),也要攔截所有作戰(zhàn)飛機(jī)發(fā)射的大量空對(duì)地導(dǎo)彈和反輻射彈。由于紅方火控雷達(dá)跟蹤目標(biāo)數(shù)量及制導(dǎo)導(dǎo)彈數(shù)量受限制,資源很容易進(jìn)入飽和狀態(tài)。這時(shí),第三波次的4架轟炸機(jī)緊隨其后,突防轟炸保衛(wèi)要地。如圖13所示。

    圖12 機(jī)動(dòng)逃逸

    圖13 轟炸機(jī)突防

    5.2 系統(tǒng)訓(xùn)練數(shù)據(jù)演示

    本節(jié)將從強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)、全局收益函數(shù)、全局損失函數(shù)3個(gè)方面對(duì)系統(tǒng)進(jìn)行演示分析,當(dāng)?shù)螖?shù)為2 500~3 000×103之間,基本達(dá)到全局收益最大值,并趨于平穩(wěn)。由圖14可得出結(jié)論,隨著訓(xùn)練迭代進(jìn)行,全局收益由一個(gè)低水平持續(xù)一段時(shí)間后逐漸遞增,期間存在小范圍的跌宕,最后達(dá)到全局收益最優(yōu)點(diǎn),并趨于收斂。具體如圖14所示。

    圖14 全局收益函數(shù)

    圖15為強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的圖形化展示,對(duì)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行三維的坐標(biāo)系建立,圖中每個(gè)點(diǎn)都代表智能體的一個(gè)性能指標(biāo),所處位置則代表該指標(biāo)的具體參數(shù)值,代表此時(shí)智能體的狀態(tài)函數(shù)。隨著迭代次數(shù)增加,智能體進(jìn)行狀態(tài)轉(zhuǎn)移,點(diǎn)的坐標(biāo)信息也會(huì)隨之發(fā)生變化,本文指控系統(tǒng)中針對(duì)多智能體系統(tǒng)共定義兩千余參數(shù),具體由圖15所示。

    圖15 訓(xùn)練學(xué)習(xí)網(wǎng)絡(luò)

    隨著迭代次數(shù)增加,全局收益增加,隨著對(duì)應(yīng)的全局損失值逐漸減小,當(dāng)算法趨于全局最優(yōu)時(shí),損失函數(shù)趨于平穩(wěn),存在小范圍浮動(dòng),函數(shù)變化軌跡與圖14相對(duì)應(yīng),以保證戰(zhàn)場(chǎng)態(tài)勢(shì)總量不變。具體損失值函數(shù)如圖16所示。

    圖16 全局損失函數(shù)

    由圖16可以得出,迭代初始,損失值呈快速下降的趨勢(shì),當(dāng)?shù)?00~1 000×103時(shí),損失值開始小幅度跌宕,但是平均值緩速下降,當(dāng)?shù)? 500×103左右時(shí),損失值開始趨于平穩(wěn),達(dá)到全局損失函數(shù)最小值。

    6 結(jié) 論

    本文基于分布式協(xié)同作戰(zhàn)的復(fù)雜任務(wù)處理過程中效率過低的問題,對(duì)多智能體系統(tǒng)設(shè)計(jì)了協(xié)同進(jìn)化算法,構(gòu)建了對(duì)應(yīng)的狀態(tài)轉(zhuǎn)移方程并確定了學(xué)習(xí)步長(zhǎng),最后對(duì)算法模型進(jìn)行了損失值的仿真實(shí)驗(yàn),證明了算法的可靠性,并將此算法作為指控模型仿真中的核心算法之一。

    猜你喜歡
    全局協(xié)同狀態(tài)
    Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
    量子Navier-Stokes方程弱解的全局存在性
    蜀道難:車與路的協(xié)同進(jìn)化
    狀態(tài)聯(lián)想
    “四化”協(xié)同才有出路
    汽車觀察(2019年2期)2019-03-15 06:00:50
    落子山東,意在全局
    金橋(2018年4期)2018-09-26 02:24:54
    生命的另一種狀態(tài)
    三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
    熱圖
    家庭百事通(2016年3期)2016-03-14 08:07:17
    堅(jiān)持是成功前的狀態(tài)
    山東青年(2016年3期)2016-02-28 14:25:52
    亚洲成av人片在线播放无| 中国美女看黄片| 国产三级在线视频| 成人国产一区最新在线观看| 麻豆久久精品国产亚洲av| 小说图片视频综合网站| .国产精品久久| 国产高清不卡午夜福利| 国产高潮美女av| 91久久精品电影网| 日日啪夜夜撸| 国产男靠女视频免费网站| 久久人人精品亚洲av| 日韩精品有码人妻一区| 国产精品,欧美在线| 国产黄a三级三级三级人| 乱人视频在线观看| 毛片一级片免费看久久久久 | 最后的刺客免费高清国语| 久久国内精品自在自线图片| 给我免费播放毛片高清在线观看| 久久亚洲真实| 亚洲黑人精品在线| 美女cb高潮喷水在线观看| 国产欧美日韩一区二区精品| 亚洲国产精品sss在线观看| av国产免费在线观看| 久久精品国产清高在天天线| 国产欧美日韩精品亚洲av| 听说在线观看完整版免费高清| 成人午夜高清在线视频| 最近在线观看免费完整版| 给我免费播放毛片高清在线观看| 国产视频一区二区在线看| 两性午夜刺激爽爽歪歪视频在线观看| 国产黄片美女视频| 人妻夜夜爽99麻豆av| 国产一区二区三区视频了| 1000部很黄的大片| 精品乱码久久久久久99久播| 精品人妻熟女av久视频| 国产伦一二天堂av在线观看| 国产三级中文精品| 热99在线观看视频| 国产不卡一卡二| 一区福利在线观看| 黄片wwwwww| 日韩欧美精品v在线| 久久99热这里只有精品18| 深夜精品福利| 天美传媒精品一区二区| 校园春色视频在线观看| 91狼人影院| 亚洲精品一区av在线观看| 亚洲精品国产成人久久av| 51国产日韩欧美| 真人做人爱边吃奶动态| 色在线成人网| 免费大片18禁| 久久精品国产99精品国产亚洲性色| 国产精品不卡视频一区二区| 精品久久久久久,| 精品免费久久久久久久清纯| 亚洲欧美精品综合久久99| 欧美精品啪啪一区二区三区| 一进一出好大好爽视频| 麻豆国产av国片精品| 大又大粗又爽又黄少妇毛片口| 人妻夜夜爽99麻豆av| 亚洲熟妇熟女久久| 成人av在线播放网站| 窝窝影院91人妻| 91午夜精品亚洲一区二区三区 | 在线播放国产精品三级| 国产精品98久久久久久宅男小说| 国产私拍福利视频在线观看| 午夜激情欧美在线| 亚洲最大成人中文| 99久久中文字幕三级久久日本| 午夜免费激情av| 久久久久久久亚洲中文字幕| 日韩中文字幕欧美一区二区| 国产 一区精品| 男女之事视频高清在线观看| 成人亚洲精品av一区二区| 精品福利观看| 五月玫瑰六月丁香| 桃色一区二区三区在线观看| 网址你懂的国产日韩在线| 日韩欧美一区二区三区在线观看| 精品欧美国产一区二区三| 亚洲人成网站高清观看| 亚洲精品在线观看二区| 久久亚洲真实| 99热这里只有是精品50| 免费看a级黄色片| 美女xxoo啪啪120秒动态图| 免费看av在线观看网站| 亚洲色图av天堂| 国产91精品成人一区二区三区| 亚洲av免费高清在线观看| av专区在线播放| 人人妻,人人澡人人爽秒播| 国产精品女同一区二区软件 | 日韩欧美一区二区三区在线观看| 国产精品一区www在线观看 | 最近最新免费中文字幕在线| 一进一出抽搐动态| 亚洲成人中文字幕在线播放| 午夜免费成人在线视频| 亚洲自拍偷在线| 天堂动漫精品| 女人十人毛片免费观看3o分钟| 亚洲欧美日韩高清专用| 午夜久久久久精精品| 久久久久久久久久成人| 99热只有精品国产| 国产视频内射| 又黄又爽又免费观看的视频| 亚洲18禁久久av| 国产成人aa在线观看| 中国美白少妇内射xxxbb| 亚洲自拍偷在线| 色播亚洲综合网| 久久久久久久久久久丰满 | 国产欧美日韩精品亚洲av| 99热6这里只有精品| 欧美激情国产日韩精品一区| 男女做爰动态图高潮gif福利片| 中国美女看黄片| 啦啦啦观看免费观看视频高清| 久久欧美精品欧美久久欧美| 丝袜美腿在线中文| 国产欧美日韩精品一区二区| 少妇被粗大猛烈的视频| 国产精品久久视频播放| 久久草成人影院| 日日夜夜操网爽| 999久久久精品免费观看国产| 一区福利在线观看| 一进一出抽搐动态| 婷婷亚洲欧美| 欧美日韩中文字幕国产精品一区二区三区| 免费黄网站久久成人精品| 成人特级黄色片久久久久久久| 国产一区二区在线av高清观看| 桃色一区二区三区在线观看| 日本黄色视频三级网站网址| 18禁在线播放成人免费| 精品99又大又爽又粗少妇毛片 | 国产欧美日韩精品一区二区| 人人妻,人人澡人人爽秒播| av视频在线观看入口| 久久人妻av系列| 日本免费一区二区三区高清不卡| 我的女老师完整版在线观看| 一个人观看的视频www高清免费观看| 美女高潮的动态| 国产黄片美女视频| 最近视频中文字幕2019在线8| 欧美成人免费av一区二区三区| 三级男女做爰猛烈吃奶摸视频| 十八禁网站免费在线| 欧美色欧美亚洲另类二区| 伦理电影大哥的女人| 美女黄网站色视频| 免费看av在线观看网站| 欧美日韩综合久久久久久 | 日韩欧美在线二视频| 免费在线观看影片大全网站| 夜夜爽天天搞| 18+在线观看网站| 国产精品无大码| 最后的刺客免费高清国语| 99精品在免费线老司机午夜| 国产真实伦视频高清在线观看 | 久久精品人妻少妇| 97热精品久久久久久| 美女被艹到高潮喷水动态| 日本与韩国留学比较| 毛片一级片免费看久久久久 | 草草在线视频免费看| 好男人在线观看高清免费视频| 尾随美女入室| 欧美精品国产亚洲| 欧美极品一区二区三区四区| 91午夜精品亚洲一区二区三区 | 成年女人看的毛片在线观看| 免费观看人在逋| 最近最新中文字幕大全电影3| 中文字幕av成人在线电影| av视频在线观看入口| 特大巨黑吊av在线直播| 亚洲无线观看免费| 国产精品综合久久久久久久免费| 免费高清视频大片| 精品欧美国产一区二区三| 伦精品一区二区三区| 丰满的人妻完整版| 国产日本99.免费观看| 欧美不卡视频在线免费观看| 嫩草影院精品99| 亚洲第一电影网av| 久久人人精品亚洲av| 嫁个100分男人电影在线观看| 成人精品一区二区免费| 国产免费av片在线观看野外av| 欧美xxxx性猛交bbbb| 少妇高潮的动态图| 亚洲精品亚洲一区二区| 成人欧美大片| 亚洲国产精品合色在线| 国内精品一区二区在线观看| 欧美日本亚洲视频在线播放| 十八禁网站免费在线| 久久久色成人| 午夜精品一区二区三区免费看| 日本成人三级电影网站| 国产真实伦视频高清在线观看 | 男女视频在线观看网站免费| 亚洲男人的天堂狠狠| 在线观看66精品国产| 色哟哟·www| 美女cb高潮喷水在线观看| 欧美另类亚洲清纯唯美| 看免费成人av毛片| 最新中文字幕久久久久| 午夜亚洲福利在线播放| 久久精品国产99精品国产亚洲性色| 欧美绝顶高潮抽搐喷水| 91麻豆精品激情在线观看国产| 国产人妻一区二区三区在| 国产精品电影一区二区三区| 欧美一区二区精品小视频在线| 一个人免费在线观看电影| 亚洲国产精品久久男人天堂| 麻豆久久精品国产亚洲av| 午夜亚洲福利在线播放| 国产精品久久电影中文字幕| 亚洲色图av天堂| 欧美精品国产亚洲| 国内精品久久久久久久电影| 国产在线男女| 日韩欧美国产一区二区入口| 91久久精品国产一区二区成人| 亚洲在线观看片| 日韩欧美国产一区二区入口| 免费人成视频x8x8入口观看| 亚洲不卡免费看| 欧美区成人在线视频| 亚洲一级一片aⅴ在线观看| 麻豆精品久久久久久蜜桃| 在线观看免费视频日本深夜| 亚洲无线在线观看| 蜜桃久久精品国产亚洲av| 国产爱豆传媒在线观看| 免费人成视频x8x8入口观看| 日韩一区二区视频免费看| 午夜福利欧美成人| 久久久色成人| 少妇熟女aⅴ在线视频| АⅤ资源中文在线天堂| 色视频www国产| 在线a可以看的网站| 五月玫瑰六月丁香| 亚洲精品456在线播放app | 久久久久久国产a免费观看| 三级毛片av免费| 亚洲av中文字字幕乱码综合| 搡女人真爽免费视频火全软件 | 欧美性猛交╳xxx乱大交人| 国产精品久久久久久久久免| 小说图片视频综合网站| 波多野结衣高清作品| 成年免费大片在线观看| 国产亚洲精品久久久久久毛片| 久久久久久久午夜电影| 在线看三级毛片| 久久国产精品人妻蜜桃| 欧美成人a在线观看| 欧美另类亚洲清纯唯美| 亚洲av二区三区四区| 九九久久精品国产亚洲av麻豆| 精品欧美国产一区二区三| 日日摸夜夜添夜夜添av毛片 | 91狼人影院| 免费不卡的大黄色大毛片视频在线观看 | 人人妻,人人澡人人爽秒播| 国模一区二区三区四区视频| 国产精品人妻久久久久久| 精品一区二区免费观看| 毛片一级片免费看久久久久 | 国产亚洲精品综合一区在线观看| 在线观看av片永久免费下载| 99九九线精品视频在线观看视频| 内地一区二区视频在线| 国产高清视频在线播放一区| 久久精品影院6| 美女黄网站色视频| 亚州av有码| 久久久久久久午夜电影| 亚洲男人的天堂狠狠| 三级男女做爰猛烈吃奶摸视频| 亚州av有码| 免费看日本二区| 亚洲三级黄色毛片| 亚洲在线观看片| 日韩精品青青久久久久久| 一夜夜www| 精品久久久久久成人av| 国产精品一区二区性色av| 亚洲七黄色美女视频| 久久久久久久久久久丰满 | 无遮挡黄片免费观看| 18禁裸乳无遮挡免费网站照片| 天堂av国产一区二区熟女人妻| 美女大奶头视频| 99riav亚洲国产免费| 欧美潮喷喷水| 色在线成人网| www.www免费av| 国产精品人妻久久久久久| 99久久精品热视频| a在线观看视频网站| 亚洲av中文字字幕乱码综合| 欧美bdsm另类| 麻豆国产av国片精品| 伦精品一区二区三区| 国产91精品成人一区二区三区| 狂野欧美白嫩少妇大欣赏| 国产免费一级a男人的天堂| 日韩高清综合在线| 全区人妻精品视频| 国产亚洲精品久久久com| 女同久久另类99精品国产91| 一边摸一边抽搐一进一小说| 黄色日韩在线| 欧美成人一区二区免费高清观看| 国产老妇女一区| 亚洲精品影视一区二区三区av| 又黄又爽又免费观看的视频| 久久亚洲真实| 99视频精品全部免费 在线| 欧美xxxx黑人xx丫x性爽| 国产白丝娇喘喷水9色精品| 99国产精品一区二区蜜桃av| 色综合色国产| 亚洲五月天丁香| 亚洲色图av天堂| 欧美在线一区亚洲| 黄色日韩在线| 嫁个100分男人电影在线观看| 欧美日韩综合久久久久久 | 免费看光身美女| 超碰av人人做人人爽久久| 国产亚洲精品av在线| 中文字幕熟女人妻在线| 国产伦一二天堂av在线观看| 99在线人妻在线中文字幕| 如何舔出高潮| 人人妻人人看人人澡| 国产伦在线观看视频一区| 97超视频在线观看视频| 亚洲久久久久久中文字幕| 日日啪夜夜撸| 真人一进一出gif抽搐免费| 欧美日韩国产亚洲二区| 国产黄a三级三级三级人| 99久久成人亚洲精品观看| 亚洲精品一区av在线观看| 成人av在线播放网站| 夜夜看夜夜爽夜夜摸| 精品免费久久久久久久清纯| 波多野结衣巨乳人妻| 国产精品人妻久久久影院| 亚洲av电影不卡..在线观看| 婷婷精品国产亚洲av在线| 人妻少妇偷人精品九色| 亚洲人成网站在线播放欧美日韩| 免费看美女性在线毛片视频| 成人美女网站在线观看视频| 亚洲av中文av极速乱 | 搞女人的毛片| 少妇的逼好多水| 真实男女啪啪啪动态图| 欧美日韩精品成人综合77777| 97超级碰碰碰精品色视频在线观看| 欧美日韩综合久久久久久 | 一卡2卡三卡四卡精品乱码亚洲| 日本黄大片高清| 欧美黑人巨大hd| 少妇的逼水好多| 亚洲内射少妇av| 精品人妻一区二区三区麻豆 | av福利片在线观看| 噜噜噜噜噜久久久久久91| 又黄又爽又刺激的免费视频.| 精华霜和精华液先用哪个| 成人av在线播放网站| 黄色一级大片看看| 欧美成人一区二区免费高清观看| 精品一区二区三区视频在线观看免费| 简卡轻食公司| 日本与韩国留学比较| 蜜桃亚洲精品一区二区三区| 一区福利在线观看| 观看免费一级毛片| 99在线人妻在线中文字幕| 午夜视频国产福利| 一夜夜www| 国语自产精品视频在线第100页| 成人无遮挡网站| 999久久久精品免费观看国产| 别揉我奶头~嗯~啊~动态视频| 亚洲精品亚洲一区二区| 极品教师在线视频| 国产精品一及| 美女被艹到高潮喷水动态| or卡值多少钱| 日本熟妇午夜| 性色avwww在线观看| 国产一区二区三区视频了| 国产美女午夜福利| 亚洲精品日韩av片在线观看| 久久久久久久久久久丰满 | 日本在线视频免费播放| 亚洲国产欧洲综合997久久,| 午夜日韩欧美国产| 亚洲av熟女| 三级男女做爰猛烈吃奶摸视频| 国产亚洲精品久久久com| 日本免费一区二区三区高清不卡| 免费看av在线观看网站| 精品一区二区免费观看| 啦啦啦韩国在线观看视频| 淫秽高清视频在线观看| 黄色一级大片看看| 美女cb高潮喷水在线观看| 国产爱豆传媒在线观看| 亚洲精品456在线播放app | 国产激情偷乱视频一区二区| 偷拍熟女少妇极品色| 伦理电影大哥的女人| 桃红色精品国产亚洲av| 日韩大尺度精品在线看网址| 国产伦在线观看视频一区| 国产精品自产拍在线观看55亚洲| 在线播放无遮挡| 狠狠狠狠99中文字幕| 三级男女做爰猛烈吃奶摸视频| 男人和女人高潮做爰伦理| 男人舔奶头视频| 老司机午夜福利在线观看视频| 99久久精品热视频| av专区在线播放| 亚洲av一区综合| 一个人看的www免费观看视频| 午夜福利视频1000在线观看| 国产精品久久久久久亚洲av鲁大| 人妻久久中文字幕网| 色吧在线观看| 18+在线观看网站| 久久6这里有精品| 亚洲中文字幕日韩| 午夜爱爱视频在线播放| 亚洲精品日韩av片在线观看| 国产 一区 欧美 日韩| 成年女人永久免费观看视频| 不卡视频在线观看欧美| 日本一二三区视频观看| 国产精品久久久久久亚洲av鲁大| 蜜桃久久精品国产亚洲av| 五月玫瑰六月丁香| 伦精品一区二区三区| 亚洲精华国产精华精| 免费在线观看影片大全网站| 久久久国产成人精品二区| 国产免费av片在线观看野外av| 免费在线观看日本一区| 一个人免费在线观看电影| 在线观看66精品国产| 国产人妻一区二区三区在| 国产 一区精品| 日韩欧美国产在线观看| 日韩强制内射视频| 亚洲av五月六月丁香网| 久9热在线精品视频| 午夜影院日韩av| 国内久久婷婷六月综合欲色啪| 九色成人免费人妻av| 国产探花极品一区二区| 亚洲va在线va天堂va国产| 嫩草影视91久久| 亚洲av电影不卡..在线观看| 国产国拍精品亚洲av在线观看| 伦精品一区二区三区| 日韩高清综合在线| 精品人妻1区二区| 九九爱精品视频在线观看| 久久人人爽人人爽人人片va| 久久精品国产亚洲av涩爱 | 欧美成人a在线观看| 成人av一区二区三区在线看| 精品午夜福利视频在线观看一区| 精品午夜福利在线看| 亚洲无线观看免费| 桃红色精品国产亚洲av| 欧美日本亚洲视频在线播放| 国产aⅴ精品一区二区三区波| or卡值多少钱| 小说图片视频综合网站| 免费在线观看成人毛片| 久久久久久伊人网av| 日韩欧美在线乱码| 在线观看午夜福利视频| 人人妻,人人澡人人爽秒播| 直男gayav资源| 国产精品日韩av在线免费观看| 国产精品一区二区三区四区免费观看 | av女优亚洲男人天堂| 18禁黄网站禁片免费观看直播| 国产高清三级在线| 日本免费a在线| 国产极品精品免费视频能看的| 久久99热6这里只有精品| www.色视频.com| 麻豆一二三区av精品| 亚洲黑人精品在线| 成人国产一区最新在线观看| 色尼玛亚洲综合影院| 久久久久久大精品| 国产老妇女一区| xxxwww97欧美| 亚洲av免费在线观看| 亚洲性久久影院| 免费观看的影片在线观看| 欧美日本亚洲视频在线播放| 国产精品一区二区免费欧美| 校园人妻丝袜中文字幕| 色哟哟哟哟哟哟| 国产精品久久久久久久久免| 天堂√8在线中文| 欧美激情久久久久久爽电影| 亚洲成人久久爱视频| 亚洲美女视频黄频| 午夜日韩欧美国产| 高清毛片免费观看视频网站| 国产午夜精品久久久久久一区二区三区 | 久久久国产成人精品二区| 国产精品人妻久久久影院| 不卡视频在线观看欧美| 午夜精品久久久久久毛片777| 在线观看一区二区三区| 午夜免费男女啪啪视频观看 | 国产精品一区二区免费欧美| 校园人妻丝袜中文字幕| 日韩欧美 国产精品| 内地一区二区视频在线| 日韩强制内射视频| 成人特级黄色片久久久久久久| 久久久国产成人精品二区| 十八禁网站免费在线| 色综合色国产| x7x7x7水蜜桃| 美女高潮喷水抽搐中文字幕| 欧美日韩瑟瑟在线播放| bbb黄色大片| 日日撸夜夜添| 一个人看视频在线观看www免费| 麻豆国产av国片精品| 日本 av在线| 欧美日本视频| 精品欧美国产一区二区三| 国产不卡一卡二| 色综合婷婷激情| 禁无遮挡网站| 3wmmmm亚洲av在线观看| 成人精品一区二区免费| 嫁个100分男人电影在线观看| 91av网一区二区| 日日夜夜操网爽| 欧美成人一区二区免费高清观看| 村上凉子中文字幕在线| 国产探花在线观看一区二区| 欧美成人a在线观看| 国产男靠女视频免费网站| 午夜精品一区二区三区免费看| 少妇猛男粗大的猛烈进出视频 | 国产高清视频在线播放一区| 久久久久久久久久久丰满 | 看黄色毛片网站| 日本一二三区视频观看| 色噜噜av男人的天堂激情| 看黄色毛片网站| 亚洲最大成人手机在线| 一区福利在线观看| av在线亚洲专区| 午夜精品久久久久久毛片777| 精品一区二区免费观看| 搞女人的毛片| 狂野欧美白嫩少妇大欣赏| 国产精品国产三级国产av玫瑰| 久久久久国产精品人妻aⅴ院| 午夜激情福利司机影院| 深夜精品福利| 精品福利观看| 久久久国产成人精品二区| 亚洲国产欧美人成| 成人特级黄色片久久久久久久| 亚洲av电影不卡..在线观看| 嫩草影院精品99| 99久久久亚洲精品蜜臀av| 国产在视频线在精品| 一区二区三区四区激情视频 | 国产爱豆传媒在线观看|