何 旭,景小寧,馮 超
(空軍工程大學(xué)航空航天工程學(xué)院,西安 710038)
空戰(zhàn)機(jī)動(dòng)決策是指空戰(zhàn)過(guò)程中對(duì)作戰(zhàn)態(tài)勢(shì)分析,選擇消滅對(duì)方保存自己的攻防策略[1]??諔?zhàn)機(jī)動(dòng)決策具有強(qiáng)烈的對(duì)抗性,應(yīng)用空戰(zhàn)決策技術(shù)可以顯著減輕駕駛員負(fù)擔(dān)、提高空戰(zhàn)效能,因此,對(duì)空戰(zhàn)機(jī)動(dòng)決策的研究成為世界各國(guó)軍事研究的熱點(diǎn)之一[2]。
空戰(zhàn)機(jī)動(dòng)決策主要是近距機(jī)動(dòng)決策,因?yàn)橄噍^于超視距機(jī)動(dòng)決策,近距機(jī)動(dòng)過(guò)程劇烈且頻繁,正確的機(jī)動(dòng)決策可以有效規(guī)避敵方,搶占優(yōu)勢(shì)位置,從而在空戰(zhàn)中取得先機(jī)。因此,研究近距空戰(zhàn)機(jī)動(dòng)決策更具有實(shí)戰(zhàn)意義。
目前,求解空戰(zhàn)機(jī)動(dòng)決策的方法有很多:模糊推理[3]、智能微分對(duì)策[4]、混合算法[5]、影響圖[6-7]、Memetic算法[8]等,但模糊推理對(duì)控制量操作不靈活,微分對(duì)策求解困難,矩陣對(duì)策法與實(shí)際空戰(zhàn)有較大差距,影響圖法等計(jì)算時(shí)間長(zhǎng)不滿足實(shí)時(shí)性要求。本文采用蒙特卡洛樹(shù)搜索(Monte Carlo tree search,MCTS[9-10])方法來(lái)進(jìn)行求解,將作戰(zhàn)飛機(jī)的機(jī)動(dòng)過(guò)程劃分為若干基本機(jī)動(dòng)動(dòng)作,建立作戰(zhàn)飛機(jī)運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)方程,選取控制量,通過(guò)方程求解出作戰(zhàn)飛機(jī)的狀態(tài)量。構(gòu)建合適的空戰(zhàn)優(yōu)勢(shì)函數(shù),通過(guò)蒙特卡洛樹(shù)搜索方法,不斷試探敵我雙方未來(lái)可能采取的機(jī)動(dòng)動(dòng)作,估計(jì)相應(yīng)的空戰(zhàn)優(yōu)勢(shì),選取空戰(zhàn)優(yōu)勢(shì)最大的機(jī)動(dòng)動(dòng)作進(jìn)行機(jī)動(dòng),從而完成空戰(zhàn)機(jī)動(dòng)決策,并通過(guò)仿真驗(yàn)證了決策的實(shí)時(shí)性、有效性和可行性。
研究空戰(zhàn)機(jī)動(dòng)決策,首先需要對(duì)空戰(zhàn)機(jī)動(dòng)動(dòng)作進(jìn)行建模。大量的空戰(zhàn)訓(xùn)練分析表明,空戰(zhàn)過(guò)程中飛機(jī)復(fù)雜的機(jī)動(dòng)過(guò)程可以當(dāng)作一系列基本機(jī)動(dòng)動(dòng)作的組合。
空戰(zhàn)機(jī)動(dòng)決策集合主要分為兩類(lèi):一類(lèi)是“典型戰(zhàn)術(shù)動(dòng)作決策集模型(典型戰(zhàn)術(shù)動(dòng)作庫(kù))”,另一類(lèi)是“基本機(jī)動(dòng)動(dòng)作決策集模型(基本機(jī)動(dòng)動(dòng)作庫(kù)[11])”。本文主要使用“基本機(jī)動(dòng)動(dòng)作庫(kù)”作為空戰(zhàn)決策的機(jī)動(dòng)動(dòng)作集合。圖1是“基本機(jī)動(dòng)動(dòng)作庫(kù)”中7種基本機(jī)動(dòng)動(dòng)作。
圖1描述在決策控制的執(zhí)行時(shí)間Δt內(nèi)7種基本飛行動(dòng)作為:
使用這7種基本動(dòng)作描述機(jī)動(dòng)動(dòng)作決策空間,不僅減少運(yùn)算量,而且可以靈活地產(chǎn)生實(shí)際飛行姿態(tài)??諔?zhàn)機(jī)動(dòng)動(dòng)作決策的實(shí)質(zhì)就是在當(dāng)前戰(zhàn)場(chǎng)環(huán)境下,選擇合適的基本機(jī)動(dòng)動(dòng)作組合,使得空戰(zhàn)優(yōu)勢(shì)函數(shù)達(dá)到最大。
由于空戰(zhàn)過(guò)程是實(shí)時(shí)的,空戰(zhàn)決策也必須實(shí)時(shí),故每進(jìn)行一次空戰(zhàn)決策,就必須及時(shí)更新雙方的空戰(zhàn)態(tài)勢(shì)。而整個(gè)空戰(zhàn)過(guò)程,就是沿著空戰(zhàn)機(jī)動(dòng)動(dòng)作多叉樹(shù)圖依次向下選擇節(jié)點(diǎn)。
選擇相應(yīng)的機(jī)動(dòng)動(dòng)作之后,需要根據(jù)機(jī)動(dòng)動(dòng)作對(duì)應(yīng)的控制量求解出作戰(zhàn)飛機(jī)的狀態(tài)量,即根據(jù)控制量得到狀態(tài)量,其中x、y、z表示飛機(jī)的空間坐標(biāo),v 表示速度,γ、ψ 表示航跡傾角和航跡偏角。
假設(shè)作戰(zhàn)飛機(jī)在運(yùn)動(dòng)過(guò)程中:1)忽略地球曲率的影響;2)忽略作戰(zhàn)飛機(jī)高度變化對(duì)于重力加速度g的影響;3)戰(zhàn)機(jī)質(zhì)量不變。基于以上假設(shè),作戰(zhàn)飛機(jī)在航跡坐標(biāo)系上的質(zhì)點(diǎn)運(yùn)動(dòng)學(xué)方程為[12]
在選擇作戰(zhàn)飛機(jī)機(jī)動(dòng)動(dòng)作時(shí),需要根據(jù)當(dāng)前空戰(zhàn)態(tài)勢(shì),構(gòu)建相應(yīng)的空戰(zhàn)優(yōu)勢(shì)函數(shù),從而做出選擇,使我機(jī)對(duì)敵機(jī)的空戰(zhàn)優(yōu)勢(shì)達(dá)到最大??諔?zhàn)優(yōu)勢(shì)函數(shù)主要由4部分組成:角度優(yōu)勢(shì)函數(shù)、距離優(yōu)勢(shì)函數(shù)、速度變化優(yōu)勢(shì)函數(shù)、高度優(yōu)勢(shì)函數(shù),將這4種函數(shù)值加權(quán)求和得到空戰(zhàn)優(yōu)勢(shì)函數(shù)。
角度優(yōu)勢(shì)函數(shù)使用Simpson公式定量描述,在已知進(jìn)入角AOT和目標(biāo)角度ATA的情況下,使用下式定量的描述空戰(zhàn)對(duì)抗雙方的角度優(yōu)勢(shì)關(guān)系
武器發(fā)射站位相當(dāng)于延長(zhǎng)了戰(zhàn)機(jī)攻擊距離。在計(jì)算距離優(yōu)勢(shì)函數(shù)時(shí),需要建立機(jī)載武器攻擊包線的索引表,包括最大攻擊距離rmax,最佳攻擊距離(不可逃逸區(qū))ropt和最小攻擊距離rmin。假設(shè)我方作戰(zhàn)飛機(jī)距離敵機(jī)為r,當(dāng)本機(jī)與敵機(jī)之間的距離滿足r<rmin或r>rmax時(shí),敵機(jī)處于本機(jī)攻擊距離之外,此時(shí)相對(duì)距離優(yōu)勢(shì)為0;當(dāng)本機(jī)與敵機(jī)之間的距離滿足rmin≤r≤rmax時(shí),使用下式計(jì)算我機(jī)的相對(duì)距離優(yōu)勢(shì)
當(dāng)本機(jī)被敵機(jī)攻擊時(shí),Sr=-1;當(dāng)敵機(jī)處于本機(jī)最佳攻擊距離內(nèi),Sr=1。其余具有優(yōu)勢(shì)處于范圍[-1,1]之間。
速度變化越激烈的戰(zhàn)機(jī)越不容易被敵方瞄準(zhǔn)打擊,所以使用過(guò)載n作為速度變化優(yōu)勢(shì)。
其中,eg為預(yù)設(shè)常數(shù),ηrange為最大范圍(令其為1),n為作戰(zhàn)飛機(jī)的過(guò)載。
兩機(jī)之間的高低位置將決定導(dǎo)彈射程的大?。簲y帶有同型導(dǎo)彈的飛機(jī),位于高位的飛機(jī),導(dǎo)彈的最大發(fā)射距離要大于位于低位的飛機(jī)。同時(shí),位于高位的飛機(jī)可以利用高度優(yōu)勢(shì)進(jìn)行俯沖,快速地進(jìn)入攻擊區(qū)和更快地退出戰(zhàn)斗。這里對(duì)高度差有一定限制,如果高度差太大,導(dǎo)彈命中概率下降,給出高度優(yōu)勢(shì)函數(shù)為
其中,h表示我機(jī)相對(duì)于敵機(jī)的高度差。
綜上,得到了空戰(zhàn)決策過(guò)程的優(yōu)勢(shì)函數(shù)為
根據(jù)空戰(zhàn)優(yōu)勢(shì)函數(shù),空戰(zhàn)態(tài)勢(shì)與進(jìn)入角(AOT)、視線角(ATA)、相對(duì)距離(r)、過(guò)載(n)、相對(duì)高度(h)有關(guān)。若當(dāng)前時(shí)刻為t決策時(shí)刻,則t決策時(shí)刻對(duì)應(yīng)的空戰(zhàn)態(tài)勢(shì)為;相應(yīng)的,根據(jù)空戰(zhàn)態(tài)勢(shì)x(t),可以得到此空戰(zhàn)態(tài)勢(shì)下的空戰(zhàn)優(yōu)勢(shì)S(t);機(jī)動(dòng)動(dòng)作的狀態(tài)空間為,使用 a(t)表示在第 t決策選擇的機(jī)動(dòng)動(dòng)作。
假設(shè)已知t-1決策時(shí)刻的空戰(zhàn)態(tài)勢(shì)x(t-1)以及機(jī)動(dòng)動(dòng)作a(t-1),現(xiàn)在需要對(duì)t決策時(shí)刻的機(jī)動(dòng)動(dòng)作進(jìn)行決策。傳統(tǒng)方法主要以試探法為主,在t決策時(shí)刻分別選取不同的機(jī)動(dòng)動(dòng)作,估計(jì)相應(yīng)的空戰(zhàn)態(tài)勢(shì),得到t決策時(shí)刻空戰(zhàn)優(yōu)勢(shì)S(t),選擇使得空戰(zhàn)優(yōu)勢(shì)S(t)最大的機(jī)動(dòng)動(dòng)作ci作為t決策時(shí)刻的機(jī)動(dòng)動(dòng)作。本文設(shè)計(jì)一種新的機(jī)動(dòng)動(dòng)作決策方法,假設(shè)在t決策時(shí)刻選擇機(jī)動(dòng)動(dòng)作ci,求解在機(jī)動(dòng)動(dòng)作ci的前提下,未來(lái)k步?jīng)Q策過(guò)程所有情況中,我方作戰(zhàn)飛機(jī)與敵方作戰(zhàn)飛機(jī)所有機(jī)動(dòng)情況的空戰(zhàn)優(yōu)勢(shì)期望,然后選擇期望最大對(duì)應(yīng)的機(jī)動(dòng)動(dòng)作ci作為我機(jī)的機(jī)動(dòng)動(dòng)作。
設(shè)需要決策的時(shí)刻為t,假如作戰(zhàn)飛機(jī)在t時(shí)刻選擇機(jī)動(dòng)動(dòng)作ci,則作戰(zhàn)飛機(jī)在t時(shí)刻的空戰(zhàn)優(yōu)勢(shì)為。設(shè)定正整數(shù)k,在t時(shí)刻選擇機(jī)動(dòng)動(dòng)作ci的條件下,作戰(zhàn)飛機(jī)在t+k時(shí)刻選擇機(jī)動(dòng)動(dòng)作cj的空戰(zhàn)優(yōu)勢(shì)為,對(duì)于任意動(dòng)作cj,在時(shí)刻選擇機(jī)動(dòng)動(dòng)作ci的前提下,未來(lái)k步?jīng)Q策過(guò)程所有決策過(guò)程的空戰(zhàn)優(yōu)勢(shì)期望為
得到時(shí)刻t最大空戰(zhàn)優(yōu)勢(shì)期望對(duì)應(yīng)的機(jī)動(dòng)動(dòng)作。
由于求解未來(lái)k步所有決策過(guò)程的空戰(zhàn)優(yōu)勢(shì)期望計(jì)算量較大,使用窮舉方法不現(xiàn)實(shí),故本文使用蒙特卡洛樹(shù)搜索的方式求解未來(lái)k步所有決策過(guò)程的空戰(zhàn)優(yōu)勢(shì)期望。
空戰(zhàn)機(jī)動(dòng)動(dòng)作選擇是通過(guò)試探未來(lái)機(jī)動(dòng)動(dòng)作來(lái)確定下一步?jīng)Q策的空戰(zhàn)優(yōu)勢(shì)概率。蒙特卡洛樹(shù)搜索(Monte Carlo tree search,MCTS)是一種平衡歷史收益和未來(lái)開(kāi)發(fā)的樹(shù)搜索策略。其基本原理是:首先隨機(jī)選擇機(jī)動(dòng)動(dòng)作策略,然后通過(guò)預(yù)期收益來(lái)更新原來(lái)選擇策略的價(jià)值,設(shè)定隨機(jī)策略選擇的概率,與先前計(jì)算出的策略?xún)r(jià)值成正比,通過(guò)大量反復(fù)隨機(jī)模擬,讓最好策略出現(xiàn)。簡(jiǎn)單地說(shuō),MCTS分為4個(gè)部分[13],其原理如圖4所示。
本文基于蒙特卡洛樹(shù)搜索來(lái)進(jìn)行空戰(zhàn)機(jī)動(dòng)動(dòng)作決策。具體決策流程如下:
步驟1選擇部分。假設(shè)當(dāng)前為第t-1決策時(shí)刻,其空戰(zhàn)態(tài)勢(shì)為 x(t-1),機(jī)動(dòng)動(dòng)作為 a(t-1),需要對(duì)第t決策時(shí)刻的機(jī)動(dòng)動(dòng)作進(jìn)行決策。首先在第t決策時(shí)刻依次選擇其中基本動(dòng)作,分別計(jì)算選擇不同基本機(jī)動(dòng)動(dòng)作之后得到的空戰(zhàn)優(yōu)勢(shì)。將選取不同機(jī)動(dòng)動(dòng)作得到的空戰(zhàn)優(yōu)勢(shì)作為每個(gè)機(jī)動(dòng)動(dòng)作節(jié)點(diǎn)的值;若蒙特卡洛算法沒(méi)有達(dá)到終止條件且有未探索的節(jié)點(diǎn)時(shí),該節(jié)點(diǎn)就是可以擴(kuò)展的;否則終止算法,轉(zhuǎn)步驟4;
步驟2擴(kuò)展部分。若蒙特卡洛搜索算法沒(méi)有達(dá)到終止條件,則可以繼續(xù)向下選擇機(jī)動(dòng)動(dòng)作,將新的機(jī)動(dòng)動(dòng)作添入蒙特卡洛樹(shù)中;
步驟3仿真部分。在新得到的機(jī)動(dòng)動(dòng)作節(jié)點(diǎn)上,計(jì)算當(dāng)前的空戰(zhàn)態(tài)勢(shì);
步驟4反饋更新。將更新得到的節(jié)點(diǎn)的值反饋回根節(jié)點(diǎn),沿途更新節(jié)點(diǎn)的統(tǒng)計(jì)評(píng)估值。
蒙特卡洛搜索框架使用UCT搜索策略對(duì)空戰(zhàn)機(jī)動(dòng)動(dòng)作節(jié)點(diǎn)進(jìn)行搜索。從根節(jié)點(diǎn)出發(fā),記前非葉子節(jié)點(diǎn)為n,節(jié)點(diǎn)n的空戰(zhàn)優(yōu)勢(shì)值為S(n)。對(duì)于每一個(gè)節(jié)點(diǎn)n的孩子,采用選擇策略得到節(jié)點(diǎn)的一個(gè)評(píng)估值ri,根據(jù)評(píng)估值對(duì)節(jié)點(diǎn)的下一步進(jìn)行選擇,這個(gè)過(guò)程不斷重復(fù),直到滿足終止條件(當(dāng)向下搜索超過(guò)5步或整體沒(méi)有未探索節(jié)點(diǎn)時(shí))。如果當(dāng)前節(jié)點(diǎn)為評(píng)估值最大節(jié)點(diǎn)時(shí)(由于采用極大極小搜索,所以選擇的點(diǎn)只可能是最大節(jié)點(diǎn)或最小節(jié)點(diǎn)),則評(píng)估值計(jì)算公式使用正號(hào),并進(jìn)行下一次選擇;如果當(dāng)前節(jié)點(diǎn)為評(píng)估值最小節(jié)點(diǎn)時(shí),則評(píng)估值計(jì)算公式用負(fù)號(hào),在整個(gè)機(jī)動(dòng)決策樹(shù)中使用下式選擇評(píng)估值ri最小的值進(jìn)行搜索。評(píng)估值ri的計(jì)算公式如下:
其中,vi是以節(jié)點(diǎn)ni為根節(jié)點(diǎn)所有已經(jīng)計(jì)算出結(jié)果的節(jié)點(diǎn)的態(tài)勢(shì)優(yōu)勢(shì)值S(ni)的平均數(shù),反映了觀測(cè)節(jié)點(diǎn)ni能夠提供的回報(bào)值的期望。而Ti是節(jié)點(diǎn)ni的訪問(wèn)次數(shù),而是節(jié)點(diǎn)n的訪問(wèn)次數(shù),ωC是一個(gè)人工給定的常數(shù),用于調(diào)節(jié)回報(bào)值和未探索節(jié)點(diǎn)的平衡性,σ為一較大正數(shù),用來(lái)保證評(píng)估值非負(fù)。而最后節(jié)點(diǎn)n的每一個(gè)節(jié)點(diǎn)n的孩子的評(píng)估值ri就是下一步節(jié)點(diǎn)的平均優(yōu)勢(shì)期望。這里需要對(duì)獲勝概率歸一化。則第t決策時(shí)刻選擇不同機(jī)動(dòng)動(dòng)作的未來(lái)空戰(zhàn)優(yōu)勢(shì)的平均期望為
由于機(jī)動(dòng)動(dòng)作決策樹(shù)僅僅選擇了一步,即選擇了我方的機(jī)動(dòng)動(dòng)作,所以這時(shí)空戰(zhàn)態(tài)勢(shì)表示的是我方下一步?jīng)Q策時(shí)刻和敵方當(dāng)前決策時(shí)刻的空戰(zhàn)態(tài)勢(shì),當(dāng)再向下搜索一次時(shí),更新敵方的空戰(zhàn)態(tài)勢(shì),這是滿足空戰(zhàn)實(shí)際的。因?yàn)槊看嗡阉饔脮r(shí)極短,可認(rèn)定為其是同步的,且由于MCTS中具體的搜索策略采用的是極大極小搜索算法,本質(zhì)在于盡可能提高我方空戰(zhàn)優(yōu)勢(shì)而減少敵方空戰(zhàn)優(yōu)勢(shì),故這是一種可行的決策方法。
本文的仿真主要分析兩個(gè)問(wèn)題:1)使用本文提出的空戰(zhàn)機(jī)動(dòng)決策方法的有效性,討論能否使用本文的機(jī)動(dòng)決策方法來(lái)對(duì)空戰(zhàn)進(jìn)行決策;2)分析算法的實(shí)時(shí)性,確定算法是否可以實(shí)時(shí)進(jìn)行解算,以滿足實(shí)際空戰(zhàn)過(guò)程對(duì)于算法實(shí)時(shí)性的要求。
實(shí)驗(yàn)仿真1討論機(jī)動(dòng)決策方法的有效性
作戰(zhàn)想定如下:以敵我雙方一對(duì)一空戰(zhàn)對(duì)抗為背景,目標(biāo)機(jī)依照設(shè)定路徑進(jìn)入空戰(zhàn),我方作戰(zhàn)飛機(jī)依據(jù)本文確定的機(jī)動(dòng)動(dòng)作決策方法進(jìn)行機(jī)動(dòng)。空戰(zhàn)過(guò)程設(shè)定的決策步長(zhǎng)為0.2 s。我機(jī)初始位置為[10 000,10 000,5 000],初始速度為 180 m/s,航向角為 300°,俯仰角為 -30°,滾轉(zhuǎn)角為 -50°;敵機(jī)初始位置為[8 000,7 000,5 000],初始速度為170 m/s,航向角為110°,俯仰角為0°,滾轉(zhuǎn)角為-90°。雙方空戰(zhàn)態(tài)勢(shì)如圖5所示,其中紅方表示我機(jī),藍(lán)方表示敵機(jī)。
圖6給出整個(gè)空戰(zhàn)過(guò)程中敵我雙方的空戰(zhàn)態(tài)勢(shì)變化曲線(紅方使用虛線表示,藍(lán)方使用實(shí)線表示)。
根據(jù)本文給出的空戰(zhàn)優(yōu)勢(shì)函數(shù),圖7給出整個(gè)空戰(zhàn)過(guò)程中,紅藍(lán)雙方的空戰(zhàn)優(yōu)勢(shì)指數(shù)的變化曲線。
從空戰(zhàn)優(yōu)勢(shì)變化曲線可以看出,我機(jī)在整個(gè)空戰(zhàn)過(guò)程中絕大部分是處于優(yōu)勢(shì)地位的。驗(yàn)證了使用蒙特卡洛樹(shù)搜索方法進(jìn)行空戰(zhàn)機(jī)動(dòng)決策的可行性。
實(shí)驗(yàn)仿真2討論算法是否滿足實(shí)時(shí)性要求
實(shí)驗(yàn)仿真1驗(yàn)證了使用蒙特卡洛樹(shù)搜索方法的可行性,但如果算法運(yùn)行計(jì)算時(shí)間過(guò)長(zhǎng),算法就失去了實(shí)戰(zhàn)價(jià)值。故進(jìn)行實(shí)驗(yàn)仿真2,討論算法是否滿足空戰(zhàn)過(guò)程實(shí)時(shí)性的要求。在實(shí)驗(yàn)仿真1中,紅方一共決策330次,用時(shí)為66 s。本實(shí)驗(yàn)仿真對(duì)這330次決策過(guò)程中每次決策所用的時(shí)間進(jìn)行統(tǒng)計(jì),做出其統(tǒng)計(jì)頻數(shù)圖。
從圖8可以看出,算法計(jì)算機(jī)動(dòng)動(dòng)作所用時(shí)間眾數(shù)及中位數(shù)位于50 ms~100 ms區(qū)間,判定算法是滿足實(shí)時(shí)性要求的。
本文主要給出一種基于蒙特卡洛樹(shù)搜索算法的空戰(zhàn)機(jī)動(dòng)動(dòng)作決策方法。本文將作戰(zhàn)飛機(jī)的機(jī)動(dòng)過(guò)程劃分為若干基本機(jī)動(dòng)動(dòng)作,建立飛機(jī)運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)方程,根據(jù)控制量求解作戰(zhàn)飛機(jī)在空戰(zhàn)過(guò)程中的狀態(tài)量。構(gòu)建了合適的空戰(zhàn)優(yōu)勢(shì)函數(shù),基于蒙特卡洛樹(shù)搜索的方法進(jìn)行空戰(zhàn)決策。仿真實(shí)驗(yàn)表明,基于蒙特卡洛樹(shù)搜索的空戰(zhàn)機(jī)動(dòng)動(dòng)作決策方法是有效的。
相較于傳統(tǒng)試探下一步機(jī)動(dòng)動(dòng)作,估計(jì)下一時(shí)刻的空戰(zhàn)優(yōu)勢(shì)來(lái)選擇最優(yōu)機(jī)動(dòng)動(dòng)作的方法,本文采用蒙特卡洛樹(shù)搜索方法,不僅可以估計(jì)未來(lái)一步的機(jī)動(dòng)動(dòng)作,而且可以估計(jì)未來(lái)若干步的機(jī)動(dòng)動(dòng)作,從而選擇使得空戰(zhàn)優(yōu)勢(shì)期望最大的機(jī)動(dòng)動(dòng)作。
參考文獻(xiàn):
[1]阮鋮巍,寇英信,徐安,等.基于二元模糊比較法的單步空戰(zhàn)機(jī)動(dòng)決策研究 [J]. 指揮控制與仿真,2012,34(5):10-13.
[2]JAMES S,JONATHAN P,BRIAN W,et al.Air-combat stratrgy using approximate dynamic programming[J].Journal ofGuidance, Control, and Dynamics,2010,33 (5):1641-1654.
[3]張立鵬,魏瑞軒,李霞.無(wú)人作戰(zhàn)飛機(jī)空戰(zhàn)自主戰(zhàn)術(shù)決策方法研究[J].電光與控制,2012,19(2):92-96.
[4]NUSYIRWAN I F,BILL C.Factorial analysis of a real time optimization for pursuit-evasion problem [C]//Proc.of the 46th AIAA Aerospace Sciences Meeting and Exhibit,2008:195-198.
[5]張濤,于雷,周中良,等.基于混合算法的空戰(zhàn)機(jī)動(dòng)決策[J].系統(tǒng)工程與電子技術(shù),2013,35(7):1445-1450.
[6]KAI V,JANNE K,TUOMAS R.Modeling air combat by a moving horizon influence diagram game [J].Journal of Guidance,Control,andDynamics,2006,29(5):1080-1091.
[7]萬(wàn)偉,姜長(zhǎng)生,吳慶憲.單步預(yù)測(cè)影響圖法在空戰(zhàn)機(jī)動(dòng)決策中的應(yīng)用[J].電光與控制,2009,16(7):13-17.
[8]顧佼佼,趙建軍,劉衛(wèi)華.基于博弈論及Memetic算法求解的空戰(zhàn)機(jī)動(dòng)決策框架 [J]. 電光與控制,2015,22(1):20-23.
[9]COULOM R.Effcient selectivity and backup operators in Monte-Carlo tree search[C]//In 5th International Conference on Computers and Games.Turin,Italy:Springer Berlin Heidelberg,2006:72-83.
[10]TESAURO G,GALPERING G.On-line policy improvement using Monte-Carlo search[C]//Denver,CO,USA:In Advances in Neural Information Processing(NIPS),1996:1068-1074.
[11]周思宇,吳文海,李翔,等.空戰(zhàn)機(jī)動(dòng)決策集模型分析[J].飛機(jī)設(shè)計(jì),2012,32(3):42-45.
[12]VIRTANENK,EHTAMOH,RAIVIOT,et al.Visual interavtive aircraft trajectory optimization[J].IEEE transactions on systems,Man,and cybernetics-part C:Applications And Reviews,1999,29(3):2280-2285.
[13]陶九陽(yáng),吳琳,胡曉峰.AlphaGo技術(shù)原理分析及人工智能軍事應(yīng)用展望 [J]. 指揮與控制學(xué)報(bào),2016,2(2):114-120.
[14]馮超,景小寧,李秋妮,等.基于網(wǎng)絡(luò)對(duì)抗火力分配的改進(jìn)量子免疫克隆算法[J].空軍工程大學(xué)學(xué)報(bào),2016,17(4):29-34.