黃江濤,劉 剛,周 攀,章 勝,杜 昕
(中國(guó)空氣動(dòng)力研究與發(fā)展中心空天技術(shù)研究所,四川 綿陽(yáng) 621000)
艦載機(jī)著艦時(shí)由于大氣湍流、艦尾流、甲板運(yùn)動(dòng)和海浪等隨機(jī)復(fù)雜環(huán)境因素[1-3],對(duì)著艦精度及成功率產(chǎn)生了嚴(yán)重影響,著艦難度極大,因此,艦載機(jī)著艦過(guò)程被稱為“刀尖上的舞蹈”. 艦載無(wú)人機(jī)的著艦難度更大,目前大多數(shù)艦載無(wú)人機(jī)是通過(guò)遙控方式實(shí)現(xiàn)整個(gè)過(guò)程的控制[4-5]. 隨著技術(shù)的不斷進(jìn)步,各海軍強(qiáng)國(guó)要求艦載無(wú)人機(jī)能夠?qū)崿F(xiàn)航母上的自主起降. 因此,對(duì)于先進(jìn)自主著艦技術(shù)的研究顯得十分重要.
隨著人工智能技術(shù)的迅速發(fā)展,無(wú)人作戰(zhàn)飛行器將具備自主決策能力,其決策反應(yīng)時(shí)間遠(yuǎn)超人類飛行員. 基于“試錯(cuò)”訓(xùn)練學(xué)習(xí)的AI技術(shù)能夠?qū)崿F(xiàn)從狀態(tài)觀測(cè)到舵面/推力控制的一體化飛行智能控制決策,可有效消除傳統(tǒng)控制技術(shù)航跡/姿態(tài)控制雙回路帶來(lái)的性能損失,實(shí)現(xiàn)“制導(dǎo)/控制高度一體化”,有望為艦載無(wú)人機(jī)自主著艦提供更為有效的智能決策技術(shù)支撐.
目前,基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)控制大多集中在PID參數(shù)訓(xùn)練上[6],無(wú)模型交互以及基于AI技術(shù)的艦載無(wú)人機(jī)自主著艦控制的研究較少,處于剛起步階段. 余洋[7]基于行動(dòng)者-評(píng)論家模型開(kāi)展了航空母艦理想靜止?fàn)顟B(tài)以及考慮簡(jiǎn)單風(fēng)速環(huán)境的自主著艦研究. 吳昭欣等[8]基于深度強(qiáng)化學(xué)習(xí)進(jìn)行了艦載機(jī)三自由度進(jìn)近引導(dǎo)研究. 現(xiàn)有研究基礎(chǔ)在著艦交互環(huán)境及動(dòng)力學(xué)模型上不夠完善,研究不夠系統(tǒng).
本文基于某型艦載機(jī)六自由度運(yùn)動(dòng)方程/航母運(yùn)動(dòng)模型,綜合考慮風(fēng)場(chǎng)環(huán)境,結(jié)合深度強(qiáng)化學(xué)習(xí)算法構(gòu)建交互訓(xùn)練環(huán)境,對(duì)艦載無(wú)人機(jī)智能著艦進(jìn)行了研究.
本文采用某型無(wú)人機(jī)氣動(dòng)力數(shù)據(jù)庫(kù)進(jìn)行建模. 由于艦載機(jī)著艦過(guò)程中力圖避免劇烈機(jī)動(dòng)動(dòng)作,且對(duì)對(duì)迎角、側(cè)滑角變化范圍進(jìn)行嚴(yán)格限制,因此,完全可以采用傳統(tǒng)多項(xiàng)式方法進(jìn)行無(wú)量綱氣動(dòng)力建模.
升力系數(shù)表達(dá)式:
(1)
阻力系數(shù)表達(dá)式:
(2)
側(cè)向力系數(shù)表達(dá)式:
CY=C0+C1β+(C2α+C3)δa+C4δr.
(3)
滾轉(zhuǎn)力矩系數(shù)表達(dá)式:
(4)
俯仰力矩系數(shù)表達(dá)式:
Cm=E0+E1α+E2δe+E3q.
(5)
偏航力矩系數(shù)表達(dá)式:
(6)
式中,α、β、δe、δa、δr、p、q、r、αL分別為迎角、側(cè)滑角、升降舵舵偏、副翼舵偏、方向舵舵偏、三軸角速度以及臨界迎角角度;A、B、C、D、E、F為多項(xiàng)式系數(shù).
固定翼類無(wú)人飛行器的運(yùn)動(dòng)動(dòng)力學(xué)模型包含質(zhì)心動(dòng)力學(xué)、繞質(zhì)心轉(zhuǎn)動(dòng)運(yùn)動(dòng)學(xué)方程,其模型分別為[9]:
(7)
(8)
為防止歐拉角表示的繞質(zhì)心轉(zhuǎn)動(dòng)運(yùn)動(dòng)學(xué)模型出現(xiàn)奇異,本文采用基于四元數(shù)法來(lái)描述繞質(zhì)心轉(zhuǎn)動(dòng)運(yùn)動(dòng)學(xué)方程.
該型艦載機(jī)所采用的氣動(dòng)力模型假設(shè)發(fā)動(dòng)機(jī)推力通過(guò)重心,無(wú)推矢作用.控制量包括升降舵、副翼、方向舵、發(fā)動(dòng)機(jī)推力共4個(gè)量,控制周期為ΔT.
氣動(dòng)力建模所需的迎角、側(cè)滑角信息可以通過(guò)體系下表示的速度v=[uvw]T求解:
在不同海況中,受海浪的影響,艦船將產(chǎn)生六自由擾動(dòng),即3個(gè)線位移擾動(dòng)和3個(gè)旋轉(zhuǎn)角位移擾動(dòng).本文研究中等海況條件下AI技術(shù)的可行性與效果,主要考慮垂蕩和縱搖.由于側(cè)向著艦精度主要受橫搖和橫蕩運(yùn)動(dòng)的影響,綜合考慮中等海況航母橫蕩幅值與引導(dǎo)控制系統(tǒng)側(cè)向偏差限制,航母的橫側(cè)向運(yùn)動(dòng)并不會(huì)導(dǎo)致著艦的失敗[3],縱搖導(dǎo)致的縱向位移為小量,在上述條件下,可以將不同海況下的沉浮運(yùn)動(dòng)表達(dá)為:
ΔZ=-ΔZb+LDsinθ+YDsinφ,
(9)
式中,ΔZb為航空母艦質(zhì)心沉浮位移;LD是著艦點(diǎn)距質(zhì)心的縱向距離;YD是著艦點(diǎn)距質(zhì)心的側(cè)向距離;θ、φ分別為航空母艦縱搖、橫搖角度.
風(fēng)場(chǎng)建模綜合考慮自由大氣紊流分量、雄雞尾流分量、艦尾流周期性及其隨機(jī)分量.在不同海況中,針對(duì)雄雞尾流,采用對(duì)軍用規(guī)范8785C給出的雄雞尾流圖按X進(jìn)行分段線性化處理后的數(shù)學(xué)模型[10];針對(duì)艦尾流周期性及其隨機(jī)分量,采用文獻(xiàn)[3]提供的建模方式.
本文采用TD3算法[11]進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,其核心基礎(chǔ)是DDPG算法(deep deterministic policy gradient)[12].
DDPG算法采用Actor-Critic架構(gòu),能夠解決“連續(xù)動(dòng)作”類型強(qiáng)化學(xué)習(xí)問(wèn)題,是一種確定性策略梯度算法,其中Critic評(píng)價(jià)、Actor動(dòng)作策略近似表達(dá)均采用前饋型深度神經(jīng)網(wǎng)絡(luò).
TD3算法通過(guò)引入雙延遲目標(biāo)網(wǎng)絡(luò),避免目標(biāo)網(wǎng)絡(luò)預(yù)估過(guò)高引起的強(qiáng)化學(xué)習(xí)劇烈振蕩或發(fā)散,且Actor網(wǎng)絡(luò)的更新要遲滯于Critic網(wǎng)絡(luò),進(jìn)一步提高Critic網(wǎng)絡(luò)的指導(dǎo)能力以及Actor網(wǎng)絡(luò)決策的可靠性.
圖1給出了采用本文建立的訓(xùn)練學(xué)習(xí)系統(tǒng)對(duì)典型的追擊-逃逸問(wèn)題的訓(xùn)練效果,其中紅方飛機(jī)(智能體)訓(xùn)練過(guò)程中采用六自由度運(yùn)動(dòng)學(xué)/動(dòng)力學(xué)方程;為簡(jiǎn)化訓(xùn)練計(jì)算量,藍(lán)方飛機(jī)(目標(biāo)機(jī))采用三自由度運(yùn)動(dòng)方程. 藍(lán)方飛機(jī)在做機(jī)動(dòng)逃逸過(guò)程中,紅方智能體飛機(jī)能夠迅速占據(jù)后向與高度優(yōu)勢(shì),驗(yàn)證了訓(xùn)練系統(tǒng)的可靠性.
圖1 紅藍(lán)追擊-逃逸仿真
深度強(qiáng)化學(xué)習(xí)研究中,采用前饋型深度神經(jīng)網(wǎng)絡(luò)[13]來(lái)表征連續(xù)系統(tǒng)下的狀態(tài)空間到動(dòng)作空間的函數(shù)關(guān)系,解決狀態(tài)量“維度障礙”問(wèn)題[14]. 通過(guò)求解目標(biāo)函數(shù)梯度并進(jìn)行反向傳播[15]來(lái)進(jìn)行訓(xùn)練.
前饋型全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,文中Actor網(wǎng)絡(luò)采用10層隱層結(jié)構(gòu),分別為256、512、1 024…1 024、512、256;Critic網(wǎng)絡(luò)采用相同的隱層結(jié)構(gòu).
圖2 前饋型深度神經(jīng)網(wǎng)絡(luò)
智能體與環(huán)境的交互過(guò)程通常被表達(dá)為馬爾科夫決策過(guò)程(MDP)[15]. MDP模型的構(gòu)建是求解強(qiáng)化學(xué)習(xí)問(wèn)題的重要方式. MDP建模包含狀態(tài)空間、動(dòng)作空間及獎(jiǎng)勵(lì)函數(shù)等重要要素,對(duì)應(yīng)智能艦載無(wú)人機(jī)自主著艦問(wèn)題中的機(jī)艦關(guān)系、操縱面/發(fā)動(dòng)機(jī)油門特性以及適應(yīng)著艦環(huán)境的獎(jiǎng)勵(lì)設(shè)計(jì).
對(duì)于六自由度著艦問(wèn)題,狀態(tài)量基本能夠反映艦機(jī)相對(duì)關(guān)系以及艦載機(jī)的飛行狀態(tài). 因此,狀態(tài)空間選擇機(jī)艦縱向相對(duì)速度、縱向相對(duì)位置、對(duì)中線側(cè)偏距、對(duì)中線下偏距、側(cè)偏移速度、下偏移速度、滾轉(zhuǎn)角、偏航角、俯仰角、三軸角速率、迎角、側(cè)滑角等14個(gè)變量作為狀態(tài)量.
艦載機(jī)動(dòng)作空間包含升降舵、副翼、方向舵、發(fā)動(dòng)機(jī)油門控制4個(gè)要素,本文訓(xùn)練仿真過(guò)程未考慮舵機(jī)延遲特性.
獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)綜合考慮艦載機(jī)的下沉率、俯仰角、下滑道保持、迎角/側(cè)滑角抑制等要素,構(gòu)造以下獎(jiǎng)勵(lì)函數(shù):
(1)下沉率獎(jiǎng)勵(lì)函數(shù)主要考慮起落架承受的垂向觸艦速度限制:
(2)俯仰角獎(jiǎng)勵(lì)函數(shù)主要考慮艦載機(jī)能夠以合理的俯仰姿態(tài)觸艦:
(3)下滑道保持函數(shù)主要考慮艦載機(jī)能夠以正確的相對(duì)航跡著艦,這里從兩方面要素設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),即下滑線偏移距離以及相對(duì)速度矢量與相對(duì)下滑線的一致性:
式中,Zf、ΔX、Γ、yf、D0、?0分別表示艦載機(jī)絕對(duì)高度、相對(duì)距離、相對(duì)下滑角、側(cè)偏距、距離無(wú)量綱參考量、角度無(wú)量綱參考量;Vrx、Vry、Vrz與Rnx、Rny、Rnz分別對(duì)應(yīng)艦載機(jī)相對(duì)航母的速度分量以及相對(duì)下滑線矢量.
(4)側(cè)滑角獎(jiǎng)勵(lì)函數(shù)主要考慮艦載機(jī)避免由于側(cè)滑帶來(lái)荷蘭滾特性而導(dǎo)致的航跡振蕩,β0表示側(cè)滑角度無(wú)量綱參考量:
式中,β0表示側(cè)滑角度無(wú)量綱參考量.
(5)其他獎(jiǎng)勵(lì)設(shè)置.為加速訓(xùn)練過(guò)程,同時(shí)避免極限狀態(tài)的產(chǎn)生,當(dāng)訓(xùn)練過(guò)程中出現(xiàn)迎角/側(cè)滑角、下滑線偏距大于指定閾值等,認(rèn)為訓(xùn)練失敗,提前結(jié)束訓(xùn)練同時(shí)給予以下懲罰:
式中,k、kmax分別表示滿足提前結(jié)束訓(xùn)練條件的仿真步數(shù)以及最大仿真步數(shù).該項(xiàng)設(shè)置能夠加速實(shí)現(xiàn)智能體向正確方向?qū)W習(xí)效果.
綜合以上獎(jiǎng)勵(lì)設(shè)置,最終采用以下獎(jiǎng)勵(lì)函數(shù):
對(duì)艦載機(jī)的初始位置、初始速度以及航空母艦的初始速度隨機(jī)取樣進(jìn)行強(qiáng)化學(xué)習(xí). 圖3、圖4分別給出了強(qiáng)化學(xué)習(xí)歷程平均回報(bào)以及終止步回報(bào),由于引入提前結(jié)束訓(xùn)練懲罰,且懲罰與結(jié)束步長(zhǎng)相關(guān),因而在訓(xùn)練初期階段,回報(bào)函數(shù)呈現(xiàn)不規(guī)則振蕩. 圖5、圖6所示為典型步數(shù)的決策能力測(cè)試,可以看出,在訓(xùn)練前期,智能體不具備正確決策能力,處于漫無(wú)目的的飛行狀態(tài),且飛行過(guò)程中常處于大迎角與側(cè)滑角狀態(tài);經(jīng)過(guò)17萬(wàn)次強(qiáng)化訓(xùn)練學(xué)習(xí),智能體逐漸具備一定自主著艦控制能力,但控制精度較低,呈現(xiàn)明顯的振蕩現(xiàn)象. 經(jīng)過(guò)40萬(wàn)次左右訓(xùn)練,智能體具備自主著艦?zāi)芰?
圖3 強(qiáng)化學(xué)習(xí)過(guò)程平均獎(jiǎng)勵(lì)
圖4 強(qiáng)化學(xué)習(xí)過(guò)程終止條件獎(jiǎng)勵(lì)
圖5 智能體訓(xùn)練初期仿真
圖6 智能體17萬(wàn)次訓(xùn)練仿真
以航空母艦隨機(jī)初始化運(yùn)動(dòng)速度為例,驗(yàn)證強(qiáng)化學(xué)習(xí)結(jié)果的有效性,航母的運(yùn)動(dòng)速度處于15~30 m/s之間. 圖7給出了航母理想運(yùn)動(dòng)條件下的著艦隨機(jī)仿真,所訓(xùn)練的智能體能夠保持與下滑道的一致,實(shí)現(xiàn)成功著艦.
圖7 航母理想運(yùn)動(dòng)條件下的著艦仿真
圖8所示為艦載機(jī)著艦過(guò)程中迎角、側(cè)滑角、側(cè)偏距的變化歷程. 10 s以后艦載機(jī)能夠準(zhǔn)確對(duì)準(zhǔn)著艦點(diǎn),沿下滑道穩(wěn)定飛行,迎角穩(wěn)定,側(cè)滑角接近于0,側(cè)偏距控制誤差低于0.15 m. 圖9給出了3個(gè)姿態(tài)角的變化歷程,著艦過(guò)程中處于艦載機(jī)趨于穩(wěn)定的控制狀態(tài);圖10為舵偏指令,所訓(xùn)練決策機(jī)的舵偏指令歷程光滑合理;圖11給出了艦載機(jī)地速變化情況,可以看到,著艦側(cè)偏速度接近于0,觸艦垂向速度低于7 m/s,滿足著艦需求.
圖8 理想運(yùn)動(dòng)條件下的迎角/側(cè)滑角/側(cè)偏距歷程仿真
圖9 理想運(yùn)動(dòng)條件下的姿態(tài)角變化歷程仿真
圖10 迎角/側(cè)滑角/側(cè)偏距歷程仿真
圖11 地速變化歷程
航母的運(yùn)動(dòng)速度在15~30 m/s之間進(jìn)行隨機(jī)初始化. 圖12給出了風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的仿真結(jié)果,智能體能夠?qū)崿F(xiàn)成功著艦.
圖12 航母擾動(dòng)條件下的著艦仿真
圖13給出了著艦過(guò)程中迎角、側(cè)滑角、側(cè)偏距的變化歷程,由于獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)主要保持俯仰角度盡量控制在5°左右,因此為實(shí)現(xiàn)穩(wěn)定飛行,迎角呈現(xiàn)振蕩,側(cè)滑角小幅度變化,側(cè)偏距誤差小于0.15 m;從圖14姿態(tài)角變化歷程可以看到,俯仰角有小幅度變化,滾轉(zhuǎn)、偏航接近于0;三通道舵偏指令有效抑制了風(fēng)環(huán)境擾動(dòng)對(duì)橫航向的干擾,如圖15所示;圖16、17給出了艦載機(jī)地速變化以及對(duì)甲板跟蹤狀況,著艦側(cè)偏速度振蕩幅值不超過(guò)0.15 m/s,觸艦垂向速度呈現(xiàn)振蕩現(xiàn)象,且低于7 m/s;滿足著艦需求.
圖13 航母擾動(dòng)條件下的迎角/側(cè)滑角/側(cè)偏距歷程仿真
圖14 航母擾動(dòng)條件下的姿態(tài)角變化歷程仿真
圖15 航母擾動(dòng)條件下的舵偏指令
圖16 航母擾動(dòng)條件下的地速變化歷程
圖17 航母擾動(dòng)條件下智能體對(duì)甲板運(yùn)動(dòng)的跟蹤
風(fēng)場(chǎng)擾動(dòng)主要考慮了雄雞尾流以及縱搖誘導(dǎo)尾流的影響,由于隨機(jī)紊流對(duì)系統(tǒng)的影響遠(yuǎn)遠(yuǎn)小于前者,故本文暫不考慮隨機(jī)紊流,這并不影響考核神經(jīng)網(wǎng)絡(luò)決策機(jī)的有效性. 圖18給出了風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下著艦仿真,在風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下,智能體能夠?qū)崿F(xiàn)成功著艦.
圖18 風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的著艦仿真
圖19給出了著艦過(guò)程中迎角、側(cè)滑角、側(cè)偏距的變化歷程,由于獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)主要保持俯仰角度盡量控制在5°左右,因此為實(shí)現(xiàn)穩(wěn)定飛行,迎角呈現(xiàn)振蕩,側(cè)滑角小幅度變化,側(cè)偏距誤差小于0.15 m;從圖20給出的姿態(tài)角變化歷程可以看到,在觸艦前俯仰角有小幅度變化,滾轉(zhuǎn)、偏航接近于0,這是由于三通道舵偏指令有效抑制了風(fēng)環(huán)境擾動(dòng)對(duì)橫航向的干擾,如圖21所示;圖22給出了艦載機(jī)地速變化,著艦側(cè)偏速度振蕩幅值不超過(guò)0.15 m/s,著艦垂向速度呈現(xiàn)振蕩現(xiàn)象,且低于7 m/s;滿足著艦需求.
圖19 風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的迎角/側(cè)滑角/側(cè)偏距歷程仿真
圖20 風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的姿態(tài)角變化歷程仿真
圖21 風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的舵偏指令
圖22 風(fēng)場(chǎng)環(huán)境擾動(dòng)條件下的地速變化歷程
本文針對(duì)不同著艦條件,基于深度強(qiáng)化學(xué)習(xí)開(kāi)展了艦載無(wú)人機(jī)自主著艦控制研究,初步驗(yàn)證了AI技術(shù)在自主著艦控制中的可行性:
(1)建立的智能體自主著艦交互強(qiáng)化學(xué)習(xí)系統(tǒng)具有較好的穩(wěn)定性;
(2)所設(shè)計(jì)的觀測(cè)量能夠?yàn)樯窠?jīng)網(wǎng)絡(luò)決策機(jī)輸出提供較為完備的狀態(tài)信息;所設(shè)置的獎(jiǎng)勵(lì)函數(shù)可為智能體與著艦環(huán)境交互提供有效指導(dǎo),能夠充分評(píng)價(jià)機(jī)艦關(guān)系以及艦載機(jī)姿態(tài);
(3)智能體能夠?qū)崿F(xiàn)自主著艦,完全勝任不同起始位置、相對(duì)速度等條件下的著艦任務(wù),著艦側(cè)偏距誤差滿足著艦要求,具有較好的適應(yīng)性;
(4)在分別考慮航空母艦擾動(dòng)、風(fēng)場(chǎng)環(huán)境下,檢驗(yàn)了智能體在中等海況下自主著艦的有效性,決策機(jī)舵偏指令光滑合理.
本文研究主要針對(duì)智能體對(duì)航母運(yùn)動(dòng)、甲板擾動(dòng)、風(fēng)場(chǎng)環(huán)境等海況因素的適應(yīng)性進(jìn)行獨(dú)立驗(yàn)證,在真實(shí)環(huán)境中,需考慮舵機(jī)延遲特性,且?guī)讉€(gè)要素相互耦合影響,因此,隨機(jī)因素及狀態(tài)量選取將更為復(fù)雜,對(duì)強(qiáng)化學(xué)習(xí)的計(jì)算量、穩(wěn)定性提出了更高要求. 因此,下一步將開(kāi)展更加逼近真實(shí)環(huán)境的艦載無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法改進(jìn)、適應(yīng)性驗(yàn)證等研究工作.