• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度神經(jīng)網(wǎng)絡(luò)的航天器反交會(huì)逃逸方法

      2022-11-02 06:33:14陸鵬飛
      關(guān)鍵詞:交會(huì)航天器消耗

      陸鵬飛,王 悅*,石 恒,湯 亮

      1.北京航空航天大學(xué)宇航學(xué)院,北京 102206

      2.北京控制工程研究所,北京 100094

      3.空間智能控制技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100094

      0 引 言

      隨著人類航天科學(xué)與技術(shù)的發(fā)展,近地軌道上的航天器數(shù)量越來(lái)越多,這給在軌航天器的正常運(yùn)行帶來(lái)了諸多潛在威脅.一方面,軌道上大量的空間碎片容易與正常運(yùn)行的航天器發(fā)生碰撞,造成航天器的損壞;而另一方面,有些航天器具有主動(dòng)變軌能力,可以接近其它航天器并進(jìn)行非合作交會(huì)等操作.因此,有必要針對(duì)在軌航天器的反交會(huì)逃逸技術(shù)進(jìn)行研究,以提高航天器的生存能力.

      很多學(xué)者對(duì)追逃博弈進(jìn)行了研究,文獻(xiàn)[1-3]分別采用直接法、間接法、半直接法等數(shù)值方法求解得到雙方均為最優(yōu)的追逃策略.其中直接法將微分對(duì)策問(wèn)題中的狀態(tài)量或控制量離散化,將原問(wèn)題轉(zhuǎn)化為數(shù)學(xué)規(guī)劃問(wèn)題求解,有直接打靶法(也稱為直接控制量參數(shù)化方法)和直接配點(diǎn)法等方法;間接法指利用微分對(duì)策問(wèn)題的必要條件,將原問(wèn)題轉(zhuǎn)化為邊值問(wèn)題來(lái)求解;在半直接法中,追逃博弈雙方中一方的最優(yōu)策略采用必要條件求解,而另一方的最優(yōu)策略使用直接法求解.文獻(xiàn)[4]基于狀態(tài)依賴Riccati方程推導(dǎo)出Hill坐標(biāo)系下追逃問(wèn)題的非線性控制律,文獻(xiàn)[5]通過(guò)無(wú)跡卡爾曼濾波估計(jì)參數(shù),對(duì)信息獲取不完全時(shí)的追逃進(jìn)行策略求解.追逃博弈數(shù)學(xué)理論嚴(yán)密,但也有一定的局限性:當(dāng)追蹤方不采用鞍點(diǎn)解時(shí),對(duì)于逃逸方鞍點(diǎn)解也不再是最優(yōu);此外,這些研究里都用到復(fù)雜的數(shù)值方法,求解速度慢,無(wú)法在軌快速得出結(jié)果.反交會(huì)規(guī)避技術(shù)從空間碎片碰撞規(guī)避相關(guān)的研究發(fā)展而來(lái)[6-7],在對(duì)追蹤航天器的狀態(tài)測(cè)量與接近策略的合理假設(shè)下,優(yōu)化逃逸機(jī)動(dòng)脈沖,使得既定的指標(biāo)最優(yōu)[8-9].文獻(xiàn)[8]定義潛在威脅區(qū)為指標(biāo),采用遺傳算法優(yōu)化逃逸脈沖,以減小被交會(huì)的可能.此類方法的核心是求解優(yōu)化問(wèn)題,目前普遍使用啟發(fā)式算法等全局優(yōu)化算法以避免陷入局部極值,計(jì)算量大,難以在軌實(shí)時(shí)快速實(shí)現(xiàn),可能造成面對(duì)非合作交會(huì)威脅時(shí),航天器無(wú)法及時(shí)逃逸的后果.

      為提高航天器智能化能力[10],近些年不少研究將機(jī)器學(xué)習(xí)應(yīng)用于制導(dǎo)控制律求解[11].文獻(xiàn)[12-13]將深度神經(jīng)網(wǎng)絡(luò)用于著陸過(guò)程最優(yōu)制導(dǎo)律的求解,而文獻(xiàn)[14]和[15]分別使用強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)解決軟著陸中的制導(dǎo)問(wèn)題.另一些研究中深度學(xué)習(xí)技術(shù)被用于優(yōu)化小推力轉(zhuǎn)移軌道[16-18].這類研究通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以建立系統(tǒng)狀態(tài)與最優(yōu)控制量之間的對(duì)應(yīng)關(guān)系,從而根據(jù)當(dāng)前狀態(tài)量快速生成近似的最優(yōu)控制量.該方面的研究為航天器反交會(huì)逃逸的智能化與實(shí)時(shí)化提供了新思路.

      本文針對(duì)目前逃逸機(jī)動(dòng)計(jì)算復(fù)雜,無(wú)法在軌快速實(shí)時(shí)生成的問(wèn)題,提出使用深度神經(jīng)網(wǎng)絡(luò)線下學(xué)習(xí)最優(yōu)逃逸脈沖的生成規(guī)律,以實(shí)現(xiàn)航天器在軌快速實(shí)時(shí)生成最優(yōu)的逃逸脈沖.首先,構(gòu)造了描述逃逸脈沖的雙層數(shù)學(xué)規(guī)劃問(wèn)題模型;然后確定神經(jīng)網(wǎng)絡(luò)的輸入與輸出,使用粒子群優(yōu)化算法計(jì)算兩航天器不同相對(duì)狀態(tài)下的逃逸脈沖,構(gòu)建數(shù)據(jù)集;最后,設(shè)計(jì)并訓(xùn)練神經(jīng)網(wǎng)絡(luò),并研究了網(wǎng)絡(luò)超參數(shù)對(duì)學(xué)習(xí)效果的影響和網(wǎng)絡(luò)的泛化能力,通過(guò)仿真驗(yàn)證了所提出方法的有效性.

      1 場(chǎng)景描述與相對(duì)運(yùn)動(dòng)動(dòng)力學(xué)建模

      1.1 近距離反交會(huì)逃逸問(wèn)題概述

      考慮以下場(chǎng)景:兩航天器在地球附近軌道上近距離飛行,其中一個(gè)航天器(追蹤航天器)試圖接近并交會(huì)另外一個(gè)航天器(逃逸航天器),逃逸航天器察覺(jué)到追蹤航天器的接近意圖,采取軌道逃逸機(jī)動(dòng)躲避追蹤航天器的交會(huì),使得自己不被交會(huì)的可能性提高.為了與工程中常用的軌道控制方式相符合,設(shè)追逃雙方航天器的軌道機(jī)動(dòng)方式都為脈沖機(jī)動(dòng).

      我們的研究中,只考慮逃逸航天器的逃逸機(jī)動(dòng)策略求解,對(duì)于追蹤航天器追蹤策略的設(shè)計(jì)不在本文考慮范圍內(nèi).但是,逃逸航天器的逃逸策略設(shè)計(jì)往往需要根據(jù)追蹤航天器的狀態(tài)與實(shí)際接近策略進(jìn)行考慮,故需要對(duì)追蹤航天器的接近策略進(jìn)行合理假設(shè).因此,本文中涉及的追蹤航天器接近與交會(huì)策略,都是站在逃逸航天器角度的“假想”,以服務(wù)于逃逸策略的設(shè)計(jì).實(shí)際中為了節(jié)省燃料以完成后續(xù)任務(wù),追蹤航天器往往會(huì)規(guī)劃自身的交會(huì)策略,在一定時(shí)間內(nèi)以最小的脈沖消耗代價(jià)完成交會(huì).所以我們合理地假設(shè)追蹤方是“理性人”,其可以規(guī)劃交會(huì)導(dǎo)引的方式,優(yōu)化變軌脈沖消耗完成非合作交會(huì),以節(jié)省燃料進(jìn)行后續(xù)在軌操作.因此,本文后續(xù)的研究中,追蹤航天器的交會(huì)導(dǎo)引方式以最小燃料消耗的多脈沖接近方式進(jìn)行.在該假設(shè)中,一個(gè)重要的參數(shù)是交會(huì)時(shí)間上限的選取,該值會(huì)較大地影響交會(huì)燃料消耗,在實(shí)際中需要根據(jù)多方面的信息,如兩個(gè)航天器的相對(duì)位置與相對(duì)速度、追蹤航天器的發(fā)動(dòng)機(jī)推力信息、對(duì)方的戰(zhàn)術(shù)意圖等合理設(shè)置.

      實(shí)際中當(dāng)?shù)孛鏈y(cè)控系統(tǒng)或天基預(yù)警系統(tǒng)檢測(cè)到追蹤航天器近距離靠近逃逸航天器時(shí),測(cè)控系統(tǒng)將雙方的相對(duì)狀態(tài)信息提供給逃逸航天器,逃逸航天器星載計(jì)算機(jī)需立刻計(jì)算出逃逸脈沖.本文提供了根據(jù)兩航天器的相對(duì)狀態(tài),快速計(jì)算出近似最優(yōu)逃逸脈沖的方法.最優(yōu)的評(píng)判原則為:考慮到航天器攜帶的燃料是有限的,燃料的上限決定了其最終的可機(jī)動(dòng)能力,而追逃雙方的空間對(duì)抗往往會(huì)持續(xù)一段時(shí)間,逃逸航天器若用有限的消耗保持自身安全的同時(shí)讓對(duì)方燃料消耗最大,會(huì)讓自己在對(duì)抗中占據(jù)優(yōu)勢(shì).故本文中采取的指標(biāo)是追蹤航天器交會(huì)逃逸航天器的燃料消耗,即逃逸航天器最優(yōu)的逃逸脈沖應(yīng)當(dāng)使得追蹤航天器完成交會(huì)任務(wù)的燃料消耗最多,也即是讓追蹤航天器非合作交會(huì)的代價(jià)最大.

      傳統(tǒng)的追逃博弈理論中最終得到的是開(kāi)環(huán)的、依賴于時(shí)間的逃逸策略,本文的方法相比其更有優(yōu)勢(shì).在本文中,逃逸脈沖的計(jì)算只依賴于計(jì)算時(shí)刻測(cè)得的兩航天器的相對(duì)狀態(tài),而不依賴于時(shí)間.逃逸航天器可以根據(jù)監(jiān)測(cè)到的相對(duì)狀態(tài)間隔一定時(shí)間多次進(jìn)行逃逸變軌,形成閉環(huán),以規(guī)避追蹤航天器的持續(xù)接近.本文中我們只對(duì)逃逸航天器單次逃逸脈沖的生成方法進(jìn)行研究,當(dāng)航天器需要多次逃逸時(shí),每次脈沖的計(jì)算方法都是相同的,只需改變屆時(shí)的狀態(tài)參數(shù).

      1.2 相對(duì)運(yùn)動(dòng)動(dòng)力學(xué)建模

      設(shè)地球引力場(chǎng)為完全中心引力場(chǎng),逃逸航天器以近圓軌道飛行,追蹤航天器在其附近.追蹤航天器用質(zhì)點(diǎn)P表示,逃逸航天器用質(zhì)點(diǎn)E表示,如圖1所示.設(shè)想在P與E附近有一虛擬動(dòng)點(diǎn)O以圓軌道運(yùn)動(dòng),稱其軌道角速率ω為參考軌道角速率.建立以O(shè)為原點(diǎn)的軌道坐標(biāo)系OXYZ,稱為參考軌道坐標(biāo)系,其中Z軸指向地心,X軸在軌道平面內(nèi)垂直于Z軸,指向與參考點(diǎn)運(yùn)動(dòng)方向一致,Y軸由右手定則確定.則P與E相對(duì)O點(diǎn)的運(yùn)動(dòng)可用坐標(biāo)系OXYZ下的CW方程描述為

      (1)

      式中:i=P,E分別代表追蹤航天器與逃逸航天器;xi,yi,zi為P或E相對(duì)O的位置矢量在OXYZ中的3個(gè)分量;fix,fiy,fiz表示施加在航天器上的控制加速度在OXYZ中的分量.用追蹤航天器相對(duì)O點(diǎn)的運(yùn)動(dòng)方程減去逃逸航天器相對(duì)O點(diǎn)的運(yùn)動(dòng)方程,可得追蹤航天器相對(duì)逃逸航天器的運(yùn)動(dòng)方程

      圖1 近距離相對(duì)運(yùn)動(dòng)示意圖Fig.1 Schematic diagram of close-proximity relative motion

      (2)

      式中,x,y,z表示追蹤航天器相對(duì)逃逸航天器位置矢量Δr在OXYZ中的3個(gè)分量.

      (3)

      式中,A和B為常系數(shù)矩陣,其表達(dá)可參考文獻(xiàn)[19].

      進(jìn)一步,常系數(shù)常微分方程組(3)的解可表示為

      (4)

      式中,t0為初始時(shí)刻,X0為狀態(tài)變量在初始時(shí)刻的值,Φ(t,t0)為狀態(tài)轉(zhuǎn)移矩陣,其表達(dá)式為

      (5)

      式中,υ=ω(t-t0).

      在雙方航天器軌道控制都以脈沖方式進(jìn)行時(shí),式(4)變?yōu)?/p>

      (6)

      式中:ti,tj分別是追蹤航天器和逃逸航天器脈沖機(jī)動(dòng)的時(shí)刻;M,N是兩航天器在時(shí)刻t之前脈沖機(jī)動(dòng)的總次數(shù);ΔvPi,ΔvEj分別是兩航天器在ti,tj時(shí)刻的脈沖機(jī)動(dòng)速度增量矢量.該式描述了兩航天器相對(duì)狀態(tài)與各自速度脈沖的關(guān)系.

      2 最優(yōu)逃逸脈沖求解的雙層數(shù)學(xué)規(guī)劃模型

      2.1 逃逸脈沖設(shè)計(jì)思路

      當(dāng)感知到追蹤航天器的接近威脅時(shí),無(wú)論追蹤航天器實(shí)際是否去實(shí)施非合作交會(huì)操作,逃逸航天器都“假想”追蹤航天器將會(huì)以最小消耗多脈沖變軌的方式,在某個(gè)時(shí)間上限T內(nèi)對(duì)自己進(jìn)行交會(huì),并據(jù)此制定逃逸策略,即求解出逃逸脈沖的大小與方向.

      逃逸航天器制定逃逸策略的依據(jù)是:自己變軌逃逸后,追蹤航天器即使能夠完全測(cè)得自己變軌后的狀態(tài),并且作為“理性人”去以此優(yōu)化多脈沖交會(huì)的軌跡的情況下,仍然需要消耗最多的燃料(最大的機(jī)動(dòng)脈沖代價(jià))來(lái)完成交會(huì).

      由于逃逸策略的制定建立在“假想”追蹤航天器將會(huì)規(guī)劃變軌機(jī)動(dòng)并對(duì)自己進(jìn)行交會(huì)的基礎(chǔ)上,所以逃逸脈沖優(yōu)化中需要調(diào)用最小消耗多脈沖交會(huì)優(yōu)化模型,形成一種雙層結(jié)構(gòu),我們稱之為雙層數(shù)學(xué)規(guī)劃模型.逃逸脈沖的計(jì)算通過(guò)求解雙層數(shù)學(xué)規(guī)劃模型實(shí)現(xiàn).按照上述思路,首先我們需構(gòu)建追蹤航天器近距離最小消耗多脈沖交會(huì)的優(yōu)化模型,其次構(gòu)建逃逸航天器逃逸脈沖的優(yōu)化模型.

      2.2 近距離最小消耗多脈沖交會(huì)問(wèn)題

      最小消耗多脈沖交會(huì)的優(yōu)化,是逃逸航天器“假想”自身按某種方式變軌后,追蹤航天器完成非合作交會(huì)的方式優(yōu)化,具體需要優(yōu)化的量為追蹤航天器變軌脈沖各次的時(shí)刻與對(duì)應(yīng)的脈沖方向及大小,使得在給定時(shí)間上限T內(nèi)與逃逸航天器交會(huì),并且消耗的總速度增量最小.兩航天器相對(duì)狀態(tài)可由式(6)忽略逃逸航天器的脈沖后得到:

      (7)

      設(shè)初始時(shí)刻為t0,初始時(shí)刻追蹤航天器在參考軌道坐標(biāo)系下的狀態(tài)X0,追蹤航天器共采取N次速度脈沖,脈沖時(shí)刻分別為t1,t2,…tN,最后一次脈沖實(shí)現(xiàn)與逃逸航天器的交會(huì).

      以脈沖時(shí)刻和前N-2次速度增量矢量為優(yōu)化變量,表示為[t1,…,tN,Δv1,…,ΔvN-2]T,共計(jì)4N-6個(gè)優(yōu)化變量.以N次脈沖速度增量之和為優(yōu)化目標(biāo),表達(dá)式為

      (8)

      考慮追蹤航天器第N-1次脈沖后至第N次脈沖前的這一段自然飛行,其狀態(tài)轉(zhuǎn)移可表述為

      X(tN)=Φ(tN,tN-1)X(tN-1)

      (9)

      寫為分塊矩陣相乘的形式

      (10)

      符號(hào)“-”與“+”分別表示脈沖前與脈沖后.

      (11)

      (12)

      這樣只需將前N-2次脈沖以及所有的脈沖時(shí)刻作為優(yōu)化變量,便可以將目標(biāo)函數(shù)中最后兩次脈沖大小用優(yōu)化變量表出,從而構(gòu)造出不含非線性等式約束的最小消耗多脈沖交會(huì)問(wèn)題優(yōu)化模型,表述如下:

      s.t.

      根據(jù)表1中的數(shù)據(jù),并按照公式(1)對(duì)lgtind與lgs進(jìn)行線性擬合計(jì)算,可得到兩者的關(guān)系式,結(jié)果如圖8所示。

      (13)

      其中,|Δvi|為第i次脈沖的模值,αi和βi是第i次脈沖的方位角和高低角,定義與圖2中一致;目標(biāo)函數(shù)中第N-1次和第N次脈沖大小按下述式(14)~式(18)給出.

      (14)

      (15)

      (16)

      (17)

      (18)

      由于式(14)~式(18)中狀態(tài)轉(zhuǎn)移矩陣Φ的各分塊中都含有非線性項(xiàng)(三角函數(shù)),故該目標(biāo)函數(shù)是復(fù)雜的非線性函數(shù),優(yōu)化問(wèn)題無(wú)法用解析方法獲得其最優(yōu)解,需通過(guò)數(shù)值方法求解.

      2.3 逃逸脈沖優(yōu)化

      逃逸航天器以脈沖ΔvE進(jìn)行逃逸機(jī)動(dòng),我們將其速度脈沖大小|ΔvE|,速度脈沖方位角αE和高低角βE(在參考軌道坐標(biāo)系下定義,示意圖如圖2)作為優(yōu)化變量.由于本文中只考慮單次變軌逃逸,并旨在建立逃逸脈沖與兩航天器相對(duì)狀態(tài)之間的對(duì)應(yīng)關(guān)系,解出的逃逸策略不依賴于時(shí)間,故逃逸脈沖執(zhí)行時(shí)刻不參與優(yōu)化.

      當(dāng)逃逸航天器執(zhí)行大小為|ΔvE|,方向角為αE、βE的逃逸脈沖后,兩航天器之間的相對(duì)狀態(tài)會(huì)發(fā)生改變,則可用2.2中的模型(13)求解出對(duì)應(yīng)該逃逸脈沖被執(zhí)行后追蹤航天器最小交會(huì)消耗JE.因此,這個(gè)過(guò)程建立了|ΔvE|、αE、βE三個(gè)描述逃逸脈沖的變量與JE的映射關(guān)系,將映射關(guān)系記為f(·),有

      JE=f(|ΔvE|,αE,βE)

      (19)

      以該函數(shù)的最大化為目標(biāo),我們構(gòu)建出求解逃逸航天器最優(yōu)逃逸脈沖的優(yōu)化模型

      maxJE=f(|ΔvE|,αE,βE)

      s.t.

      (20)

      圖2 脈沖方位角和高低角的定義Fig.2 Definition of azimuth and elevation of impulses

      根據(jù)前文所述的設(shè)計(jì)思路,逃逸脈沖優(yōu)化中需要調(diào)用最小消耗多脈沖交會(huì)優(yōu)化模型,形成一種雙層數(shù)學(xué)規(guī)劃模型.如圖3所示,問(wèn)題求解的整體結(jié)構(gòu)為:逃逸脈沖優(yōu)化(上層優(yōu)化)過(guò)程針對(duì)可行域中的逃逸脈沖大小與方向,生成對(duì)應(yīng)的未來(lái)相對(duì)狀態(tài),再分別調(diào)用多脈沖交會(huì)優(yōu)化(底層優(yōu)化)問(wèn)題,以求解在未來(lái)各相對(duì)狀態(tài)下假想的對(duì)方交會(huì)最小脈沖消耗值,并將其作為當(dāng)前可行解對(duì)應(yīng)的目標(biāo)函數(shù)值反饋,最終將交會(huì)最小消耗的最大值對(duì)應(yīng)的解作為最優(yōu)解.該問(wèn)題的求解較為復(fù)雜,需要先使用優(yōu)化算法求解底層優(yōu)化問(wèn)題,建立上層優(yōu)化變量與底層最優(yōu)值之間的對(duì)應(yīng),然后再次使用優(yōu)化算法求解上層優(yōu)化問(wèn)題,得到最優(yōu)逃逸脈沖.

      需要注意的是,無(wú)論是底層優(yōu)化問(wèn)題還是上層優(yōu)化問(wèn)題都有很多局部解,且上層優(yōu)化問(wèn)題并沒(méi)有解析的目標(biāo)函數(shù),若用傳統(tǒng)的優(yōu)化方法,如序列二次規(guī)劃(SQP)等求解很容易陷入局部極值點(diǎn),所以要選擇能夠跳出局部解的啟發(fā)式算法,如遺傳算法(GA)、粒子群算法(PSO)等[20].而這些算法雖然能夠?qū)ふ胰纸?,但是?jì)算量非常大,尤其是在解決本文中的雙層數(shù)學(xué)規(guī)劃問(wèn)題時(shí),需要很長(zhǎng)的求解時(shí)間,無(wú)法在星載計(jì)算機(jī)上快速得到結(jié)果,導(dǎo)致在對(duì)抗中不能實(shí)時(shí)生成當(dāng)前形勢(shì)下的最優(yōu)逃逸脈沖.所以,本文接下來(lái)提出使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)最優(yōu)逃逸脈沖的計(jì)算規(guī)律,以實(shí)現(xiàn)逃逸脈沖的在軌實(shí)時(shí)快速生成.

      圖3 雙層數(shù)學(xué)規(guī)劃模型結(jié)構(gòu)Fig.3 Structure of double-layer mathematical programming model

      3 基于深度神經(jīng)網(wǎng)絡(luò)的逃逸脈沖求解

      3.1 樣本集的構(gòu)建

      式(7)中狀態(tài)轉(zhuǎn)移矩陣只依賴參考軌道角速率ω,再根據(jù)(13)、(20)可知,在參考軌道角速率ω、假定的追蹤航天器交會(huì)時(shí)間上限T以及兩航天器當(dāng)前相對(duì)狀態(tài)X給定后,便可以通過(guò)求解雙層數(shù)學(xué)規(guī)劃問(wèn)題唯一確定出最優(yōu)的逃逸脈沖方向.對(duì)于特定的航天器,其軌道高度是一定的,故參考圓軌道角速率ω可作為背景參數(shù)給出.交會(huì)時(shí)間上限T與實(shí)際對(duì)抗場(chǎng)景中追蹤航天器參數(shù)有關(guān),我們也將其作為背景參數(shù).這樣由兩航天器當(dāng)前相對(duì)狀態(tài)X便可唯一地確定逃逸航天器最優(yōu)的逃逸脈沖方向,即

      (21)

      故我們將訓(xùn)練樣本的特征選定為當(dāng)前相對(duì)狀態(tài)X的6個(gè)分量,也即網(wǎng)絡(luò)的輸入.

      綜上,確定神經(jīng)網(wǎng)絡(luò)的輸入為一個(gè)6維向量[xyzvxvyvz]T,輸出為一個(gè)2維向量[αEβE]T.

      確定神經(jīng)網(wǎng)絡(luò)的輸入與輸出后,便可以構(gòu)建樣本集用于訓(xùn)練、驗(yàn)證與測(cè)試.樣本集中的每一條樣本由樣本特征與樣本標(biāo)簽值構(gòu)成,樣本特征對(duì)應(yīng)網(wǎng)絡(luò)的輸入,樣本標(biāo)簽值對(duì)應(yīng)網(wǎng)絡(luò)的輸出.選擇大量的初始相對(duì)狀態(tài),計(jì)算它們對(duì)應(yīng)的最優(yōu)逃逸脈沖方向,可以得到一系列樣本,構(gòu)成樣本集.

      3.2 深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)

      在特定的問(wèn)題中,神經(jīng)網(wǎng)絡(luò)的類型、神經(jīng)元的種類(激活函數(shù)的種類)和網(wǎng)絡(luò)的隱藏層數(shù)以及每層神經(jīng)元個(gè)數(shù)在很大程度上決定了其學(xué)習(xí)能力,需要合理地選擇.

      根據(jù)式(21),網(wǎng)絡(luò)的輸出僅依賴于當(dāng)前的兩航天器相對(duì)狀態(tài),與歷史狀態(tài)無(wú)關(guān),這表示前饋神經(jīng)網(wǎng)絡(luò)類型較適合于該問(wèn)題.在前饋神經(jīng)網(wǎng)絡(luò)中,第一層為輸入層,最后一層為輸出層,中間層為隱藏層.每一層的神經(jīng)元接受前一層神經(jīng)元的信號(hào),并產(chǎn)生信號(hào)輸出到下一層.信息在網(wǎng)絡(luò)中傳播的迭代公式為

      (22)

      式中:z(l)表示第l層神經(jīng)元的凈輸入,a(l)表示第l層神經(jīng)元的輸出;W(l)∈RMl×Ml-1是第l-1層到第l層的權(quán)重矩陣,其中Ml表示第l層神經(jīng)元個(gè)數(shù);b(l)∈RMl是第l-1層到第l層的偏置量;fl(·)表示激活函數(shù).

      激活函數(shù)是一個(gè)非線性函數(shù),決定神經(jīng)元的類型.常用的激活函數(shù)有Logistic函數(shù)、雙曲正切(Tanh)函數(shù)、修正線性單元(ReLU)函數(shù)等.對(duì)于隱藏層神經(jīng)元激活函數(shù)的選擇,考慮到ReLU函數(shù)可以有效解決深度網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失問(wèn)題,提升網(wǎng)絡(luò)的學(xué)習(xí)能力與訓(xùn)練效果,所以我們選擇其作為隱藏層神經(jīng)元的激活函數(shù).為說(shuō)明優(yōu)勢(shì),在后文仿真結(jié)果中也給出ReLU函數(shù)與Logistic函數(shù)分別用于隱藏層神經(jīng)元的效果對(duì)比;對(duì)于輸出層,我們把所有訓(xùn)練數(shù)據(jù)歸一化到[-1,1]之間,所以選擇值域?yàn)?-1,1)的Tanh函數(shù)作為激活函數(shù).為了比較效果,我們也用線性(Linear)層作為輸出層,在數(shù)值實(shí)例中與Tanh函數(shù)作對(duì)比.設(shè)計(jì)不同的隱藏層與輸出層神經(jīng)元種類的組合如表1所示.

      表1 不同的隱藏層與輸出層神經(jīng)元組合Tab.1 Combinations of different types of neurons for hidden and output layers

      對(duì)于神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù)和每層神經(jīng)元的個(gè)數(shù)選擇,文獻(xiàn)[12,16]中證明多個(gè)隱藏層的深度神經(jīng)網(wǎng)絡(luò)才能夠很好地學(xué)習(xí)到最優(yōu)控制律.這里我們?cè)O(shè)計(jì)的網(wǎng)絡(luò)中,既包含只有一層隱藏層的淺網(wǎng)絡(luò),也包含具備多個(gè)隱藏層的深度網(wǎng)絡(luò),網(wǎng)絡(luò)隱藏層數(shù)與每層神經(jīng)元的個(gè)數(shù)如表2所示,在后文數(shù)值實(shí)例中比較它們的學(xué)習(xí)效果.

      4 數(shù)值實(shí)例

      4.1 PSO算法求解最優(yōu)逃逸脈沖

      相關(guān)參數(shù)設(shè)定為:參考點(diǎn)圓軌道高度為300 km,初始時(shí)刻t0=0,初始時(shí)刻逃逸航天器與追蹤航天器的軌道6要素如表3所示.可以求得在參考軌道坐標(biāo)系中追蹤航天器相對(duì)逃逸航天器的位置為r0=[-13.15,0.32,-12.18]Tkm,相對(duì)速度為v0=[-23.02,-5.44,1.18]Tm/s.假設(shè)的追蹤航天器接近策略為三脈沖最小消耗交會(huì),交會(huì)時(shí)間上限T=1800 s.這里選擇脈沖數(shù)為3是參考了文獻(xiàn)[21].使用PSO算法對(duì)問(wèn)題(20)進(jìn)行求解,其中求解底層優(yōu)化時(shí),粒子個(gè)數(shù)取20,迭代次數(shù)為1000;求解上層優(yōu)化時(shí),粒子個(gè)數(shù)取10,迭代次數(shù)為100.取不同的逃逸脈沖允許上限值Δvmax,所得到的最優(yōu)的逃逸脈沖方位角、高低角以及最優(yōu)脈沖大小結(jié)果見(jiàn)表4,表中結(jié)果驗(yàn)證了上文中所說(shuō)的逃逸脈沖方向是反映逃逸脈沖優(yōu)劣的屬性.

      表2 不同隱藏層數(shù)與單層神經(jīng)元個(gè)數(shù)的組合Tab.2 Combinations of different numbers of hidden layers and units per layer

      表3 初始軌道要素取值Tab.3 Values of initial orbit elements

      圖4 追蹤航天器交會(huì)最小消耗與逃逸脈沖方向的關(guān)系Fig.4 The minimum fuel consumption for pursuer in relation to the direction of impulsive evasion

      表4 逃逸脈沖優(yōu)化結(jié)果Tab.4 Optimal solutions of evasive impulses

      4.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練與結(jié)果分析

      設(shè)參考點(diǎn)圓軌道高度為300 km,假定的追蹤航天器交會(huì)時(shí)間上限T=1800 s.取不同的兩航天器相對(duì)狀態(tài)求解最優(yōu)逃逸脈沖以構(gòu)建樣本集,其中相對(duì)距離在10~50 km內(nèi)間隔10 km選取,相對(duì)速度大小在11~35 m/s內(nèi)間隔3 m/s選取,相對(duì)位置和相對(duì)速度的方位角與高低角分別在0~2π和-π/2~π/2等間隔選取.共計(jì)得到1393920對(duì)相對(duì)狀態(tài)與最優(yōu)逃逸脈沖,我們將80%的數(shù)據(jù)(1115136對(duì))用于訓(xùn)練,10%的數(shù)據(jù)(139392對(duì))用于訓(xùn)練過(guò)程中的驗(yàn)證,10%的數(shù)據(jù)用于訓(xùn)練完成后泛化性能的測(cè)試.為了消除因數(shù)據(jù)尺度不同而造成的訓(xùn)練難度,將所有的數(shù)據(jù)都進(jìn)行歸一化處理,歸一化的原則見(jiàn)式(23),歸一化后的數(shù)據(jù)在[-1,1]之間.

      (23)

      對(duì)表1中的4種隱藏層與輸出層神經(jīng)元種類的組合,我們訓(xùn)練4個(gè)前饋神經(jīng)網(wǎng)絡(luò)分別對(duì)應(yīng),這些網(wǎng)絡(luò)都具備8層隱藏層,每個(gè)隱藏層包含64個(gè)神經(jīng)元.利用均方誤差(MSE)作為損失函數(shù),訓(xùn)練過(guò)程使用Adam算法對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行優(yōu)化,Adam算法中學(xué)習(xí)率取為lr=0.005,梯度一階矩估計(jì)和二階矩估計(jì)的指數(shù)衰減率設(shè)為β1=0.9,β2=0.999,訓(xùn)練集分為小批量參與訓(xùn)練,每批包含1000個(gè)樣本,對(duì)整個(gè)樣本集的最大訓(xùn)練輪數(shù)為50,取在驗(yàn)證集上表現(xiàn)最好的權(quán)重為訓(xùn)練完成后的最終權(quán)重.訓(xùn)練結(jié)束后的神經(jīng)網(wǎng)絡(luò)在驗(yàn)證集上和測(cè)試集上的均方誤差如表5所示.將神經(jīng)網(wǎng)絡(luò)輸出的脈沖方向和優(yōu)化算法計(jì)算出的脈沖方向在三維空間中的夾角(角度制)定為神經(jīng)網(wǎng)絡(luò)的輸出誤差,圖5給出了這些網(wǎng)絡(luò)在測(cè)試集上的輸出誤差小于特定值的樣本所占比例(準(zhǔn)確率)隨誤差變化的曲線.從結(jié)果中可以看出,用ReLU函數(shù)作為隱藏層神經(jīng)元的激活函數(shù),Tanh函數(shù)作為輸出層神經(jīng)元的激活函數(shù),所訓(xùn)練出的網(wǎng)絡(luò),訓(xùn)練時(shí)的誤差和測(cè)試時(shí)的泛化誤差均最小,輸出的脈沖方向準(zhǔn)確率最高,測(cè)試集中的樣本有接近90%的比例都輸出誤差在5°以下.而Logistic函數(shù)作為隱藏層神經(jīng)元激活函數(shù),效果遠(yuǎn)不如ReLU函數(shù),證明了前文所說(shuō)的ReLU函數(shù)的優(yōu)勢(shì).

      對(duì)表2中的5組隱藏層數(shù)與每層神經(jīng)元個(gè)數(shù)的組合,我們訓(xùn)練出5個(gè)神經(jīng)網(wǎng)絡(luò)分別對(duì)應(yīng),每個(gè)網(wǎng)絡(luò)隱藏層神經(jīng)元激活函數(shù)都使用ReLU函數(shù),輸出層神經(jīng)元激活函數(shù)使用Tanh函數(shù),訓(xùn)練過(guò)程的其他參數(shù)與上文中相同,訓(xùn)練完成后的這些網(wǎng)絡(luò)在驗(yàn)證集和測(cè)試集上的均方誤差見(jiàn)表6,圖6給出了測(cè)試集上樣本輸出誤差小于特定值所占的比例隨輸出誤差的變化.對(duì)比序號(hào)1、2、3的結(jié)果可以發(fā)現(xiàn),在神經(jīng)元總數(shù)目相同時(shí),網(wǎng)絡(luò)深度的增加可以極大地提高學(xué)習(xí)能力,單層網(wǎng)絡(luò)即使神經(jīng)元數(shù)很多也不能夠很好地掌握所要學(xué)習(xí)的規(guī)律,這與文獻(xiàn)[12,16]中的結(jié)論保持一致;對(duì)比序號(hào)3、4、5可以發(fā)現(xiàn),一定程度上,隨著網(wǎng)絡(luò)的隱藏層數(shù)和每層神經(jīng)元個(gè)數(shù)增多,其輸出的均方誤差更小,準(zhǔn)確率更高,學(xué)習(xí)最優(yōu)逃逸脈沖生成規(guī)律的效果更好.但是這種增益效果隨著網(wǎng)絡(luò)大小的增加而衰減.

      表5 不同神經(jīng)元類型的深度神經(jīng)網(wǎng)絡(luò)均方誤差Tab.5 MSE of DNNs with different types of neurons

      圖5 不同神經(jīng)元類型的深度神經(jīng)網(wǎng)絡(luò)輸出脈沖方向準(zhǔn)確率Fig.5 The accuracy of outputs of DNNs with different neurons

      表6 不同規(guī)模的神經(jīng)網(wǎng)絡(luò)均方誤差Tab.6 MSE of ANNs with different sizes

      圖6 不同規(guī)模的神經(jīng)網(wǎng)絡(luò)輸出脈沖方向準(zhǔn)確率Fig.6 The accuracy of outputs of NNs with different size

      4.3 深度神經(jīng)網(wǎng)絡(luò)方法準(zhǔn)確度分析

      以4.1中的參數(shù)為例,讓逃逸航天器的實(shí)際逃逸方向與優(yōu)化算法求出的最優(yōu)方向產(chǎn)生不大的偏差,則對(duì)應(yīng)的追蹤方完成交會(huì)過(guò)程的最優(yōu)消耗與原最大值也會(huì)產(chǎn)生一定偏差,偏差的具體情況在圖7中給出,圖中極角0°~360°表示與優(yōu)化算法求出的最優(yōu)方向成固定偏差角的方向集合(空間中一個(gè)圓錐面),極徑表示導(dǎo)致追蹤方最優(yōu)消耗偏差的大小.可以看出,當(dāng)逃逸脈沖方向偏差為5°和10°時(shí),造成追蹤方最優(yōu)消耗的偏差不超過(guò)0.2 m/s,當(dāng)逃逸脈沖方向偏差為20°時(shí),造成追蹤方最優(yōu)消耗的偏差不超過(guò)1 m/s,這表明追蹤方的最優(yōu)消耗在逃逸方最優(yōu)逃逸方向附近變化是平緩的,這一點(diǎn)在圖4中也可以體現(xiàn)出來(lái).在大量的仿真結(jié)果中,均得到了同樣的結(jié)論.所以我們可以斷定,只要生成的逃逸脈沖方向與最優(yōu)的方向相差不大,那么逃逸是完全有效的,且是近似最優(yōu)的.

      從神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果來(lái)看,如圖6中表現(xiàn)最好的10個(gè)隱藏層、每層256個(gè)神經(jīng)元的網(wǎng)絡(luò),在測(cè)試集上的輸出誤差小于5°的準(zhǔn)確率為91.87%,小于10°的準(zhǔn)確率為97.45%,小于20°的準(zhǔn)確率為99.27%,由前述偏差分析可知網(wǎng)絡(luò)生成的逃逸脈沖方向是對(duì)應(yīng)相對(duì)狀態(tài)下的近似最優(yōu),并且準(zhǔn)確度很高.

      圖7 追蹤方最優(yōu)消耗偏差與逃逸方向偏差的關(guān)系Fig.7 The deviation of optimum fuel consumption for pursuer in relation to that of the direction of evasive impulse

      4.4 可推廣能力分析

      需考察所訓(xùn)練出神經(jīng)網(wǎng)絡(luò)的可推廣性,考慮到構(gòu)建訓(xùn)練樣本集時(shí),樣本的相對(duì)距離與相對(duì)速度大小分別是由在10~50 km內(nèi)與10~35 m/s內(nèi),等間隔選取特定值所獲得的,選取范圍以外的值構(gòu)建新的測(cè)試樣本,對(duì)訓(xùn)練出的10個(gè)隱藏層、每層256個(gè)神經(jīng)元,隱藏層神經(jīng)元為ReLU函數(shù),輸出層神經(jīng)元為Tanh函數(shù)的網(wǎng)絡(luò)進(jìn)行再測(cè)試,以檢驗(yàn)所訓(xùn)練出神經(jīng)網(wǎng)絡(luò)的泛化能力,測(cè)試結(jié)果見(jiàn)表7與表8,表中每一行的結(jié)果由2000個(gè)新樣本測(cè)試所得.

      表7 新樣本測(cè)試結(jié)果ITab.7 Test results of new samples (I)

      表8 新樣本測(cè)試結(jié)果IITab.8 Test results of new samples (II)

      可以看到,對(duì)于訓(xùn)練樣本選取范圍以外的新樣本,充分訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)依然表現(xiàn)出較好的測(cè)試效果,這表明本文中所提方法訓(xùn)練出的深度神經(jīng)網(wǎng)絡(luò),具有較好的泛化性能,在反交會(huì)逃逸脈沖求解方面具有很好的可推廣能力.

      最后,在計(jì)算時(shí)長(zhǎng)消耗方面,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)具有絕對(duì)的優(yōu)勢(shì):10個(gè)隱藏層每層256個(gè)神經(jīng)元的網(wǎng)絡(luò)計(jì)算一次逃逸脈沖只需要0.00021 s,而根據(jù)雙層數(shù)學(xué)規(guī)劃模型用PSO算法求解一次逃逸脈沖需要數(shù)十秒,這表明深度學(xué)習(xí)的方法用于計(jì)算逃逸脈沖速度極快,具備實(shí)時(shí)計(jì)算逃逸策略的能力.

      綜上,經(jīng)充分訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò),可以高精度地輸出近似最優(yōu)的逃逸脈沖方向,并且具有應(yīng)對(duì)未知樣本的泛化能力,計(jì)算效率極高,可以線下訓(xùn)練后加載到星上,實(shí)現(xiàn)在軌逃逸脈沖的實(shí)時(shí)快速計(jì)算.

      5 結(jié) 論

      針對(duì)空間中的近距離非合作交會(huì),提出一種基于深度神經(jīng)網(wǎng)絡(luò)的逃逸機(jī)動(dòng)生成方法.建立了描述逃逸場(chǎng)景的雙層數(shù)學(xué)規(guī)劃模型并使用粒子群優(yōu)化算法求解,構(gòu)建樣本集,設(shè)計(jì)并訓(xùn)練了深度神經(jīng)網(wǎng)絡(luò),研究了網(wǎng)絡(luò)超參數(shù)對(duì)學(xué)習(xí)效果的影響,并分析了網(wǎng)絡(luò)的泛化能力.仿真結(jié)果表明,充分訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)可以很好地掌握逃逸脈沖生成的規(guī)律,具有輸出精度高、計(jì)算速度快和泛化性能好的優(yōu)勢(shì),可用于航天器在軌逃逸脈沖的實(shí)時(shí)生成,給軌道博弈中的反交會(huì)逃逸提供了一種智能化手段.

      猜你喜歡
      交會(huì)航天器消耗
      “織交會(huì)”打造大朗樣板
      如此消耗卡路里
      意林(2023年7期)2023-06-13 14:18:52
      玉鋼燒結(jié)降低固體燃料消耗實(shí)踐
      昆鋼科技(2022年4期)2022-12-30 11:23:46
      2022 年第二季度航天器發(fā)射統(tǒng)計(jì)
      降低鋼鐵料消耗的生產(chǎn)實(shí)踐
      昆鋼科技(2021年6期)2021-03-09 06:10:18
      2019 年第二季度航天器發(fā)射統(tǒng)計(jì)
      2019年,水交會(huì)來(lái)了!
      我們消耗很多能源
      2018 年第三季度航天器發(fā)射統(tǒng)計(jì)
      2018年第二季度航天器發(fā)射統(tǒng)計(jì)
      阳曲县| 嘉黎县| 金秀| 阜宁县| 北川| 仙游县| 金溪县| 昔阳县| 镇雄县| 天全县| 南丰县| 错那县| 九龙县| 溧水县| 宜君县| 临汾市| 宣城市| 手游| 化德县| 邓州市| 庆元县| 东至县| 定西市| 浦城县| 淮滨县| 溧阳市| 广元市| 普兰店市| 铁岭县| 富源县| 五华县| 泸西县| 左权县| 穆棱市| 兴和县| 嘉荫县| 边坝县| 石渠县| 加查县| 巩留县| 交口县|