魏連震, 龔建偉, 陳慧巖, 李子睿,3, 龔乘
(1.北京理工大學(xué) 機(jī)械與車輛學(xué)院, 北京 100081; 2.北京理工大學(xué) 長(zhǎng)三角研究院, 浙江 嘉興 314019;3.代爾夫特理工大學(xué) 交通與規(guī)劃系, 荷蘭 代爾夫特 2628 CN)
現(xiàn)代局部戰(zhàn)爭(zhēng)的實(shí)踐反復(fù)證明,高新技術(shù)已經(jīng)成為現(xiàn)代戰(zhàn)爭(zhēng)的制勝因素。隨著自主智能、網(wǎng)絡(luò)協(xié)同、云處理等高新技術(shù)的發(fā)展,作戰(zhàn)模式正在發(fā)生重要轉(zhuǎn)變,以地面無(wú)人戰(zhàn)車為代表的無(wú)人作戰(zhàn)系統(tǒng)能夠執(zhí)行多種特殊任務(wù),是應(yīng)對(duì)未來(lái)不確定形勢(shì)的重要突破口,具有廣泛的應(yīng)用前景。
在執(zhí)行打擊任務(wù)時(shí),地面無(wú)人戰(zhàn)車通常可采取靜態(tài)射擊與行進(jìn)間射擊兩種作戰(zhàn)方式。相比靜態(tài)射擊的作戰(zhàn)方式,行進(jìn)間射擊能夠縮短任務(wù)完成時(shí)間以提升作戰(zhàn)效率,降低被反裝甲武器命中的概率從而提升戰(zhàn)場(chǎng)生存能力,是地面無(wú)人戰(zhàn)車未來(lái)發(fā)展的重要方向。行進(jìn)間射擊的關(guān)鍵技術(shù)之一是跟瞄鏡對(duì)目標(biāo)準(zhǔn)確、穩(wěn)定地跟瞄?,F(xiàn)代坦克主流采用穩(wěn)像式火控系統(tǒng):火炮與瞄準(zhǔn)鏡分別穩(wěn)定,瞄準(zhǔn)鏡對(duì)目標(biāo)實(shí)時(shí)跟瞄并調(diào)動(dòng)火炮,火控計(jì)算機(jī)根據(jù)跟瞄角速度、目標(biāo)距離、炮彈彈種、風(fēng)速等值計(jì)算射擊諸元以實(shí)現(xiàn)射擊。然而,無(wú)論跟瞄系統(tǒng)處于穩(wěn)像狀態(tài)還是自動(dòng)跟蹤狀態(tài),底盤運(yùn)動(dòng)和路面起伏都會(huì)對(duì)瞄準(zhǔn)帶來(lái)平移誤差,這給跟瞄控制系統(tǒng)帶來(lái)了挑戰(zhàn)。
為提升戰(zhàn)車行進(jìn)間跟瞄的準(zhǔn)確性與穩(wěn)定性,不同研究人員提出了各自的技術(shù)方案。如鐘洲等建立了車載防空導(dǎo)彈的行進(jìn)和發(fā)射一體化多柔性體動(dòng)力學(xué)模型,并分析了路面和車速對(duì)防空導(dǎo)彈行進(jìn)間發(fā)射精度的影響,但僅重點(diǎn)關(guān)注動(dòng)力學(xué)模型的創(chuàng)建與分析,并未給出合適的控制方法。慕巍等利用光電跟蹤儀、火炮、載體慣導(dǎo)系統(tǒng)、視頻跟蹤器和激光測(cè)距機(jī)輸出的相關(guān)參數(shù),完成瞄準(zhǔn)線坐標(biāo)系下方位速度環(huán)和俯仰速度環(huán)跟蹤前饋補(bǔ)償參數(shù)的計(jì)算,以提升對(duì)高速目標(biāo)跟瞄控制的準(zhǔn)確性。熊珍凱等針對(duì)機(jī)動(dòng)快速目標(biāo)的跟蹤問題,采用基于當(dāng)前統(tǒng)計(jì)模型的改進(jìn)卡爾曼濾波算法預(yù)測(cè)出目標(biāo)運(yùn)動(dòng)狀態(tài)參數(shù),并采用自適應(yīng)滑模的解算控制方法,實(shí)現(xiàn)伺服系統(tǒng)的位置控制,提升跟瞄精度。這些方法沒有涉及本車運(yùn)動(dòng)狀態(tài)的分析,在動(dòng)對(duì)靜、動(dòng)對(duì)動(dòng)場(chǎng)景受限。郝強(qiáng)等采集目標(biāo)距離、火炮相對(duì)車體角度和車體速度等信息,循環(huán)解算瞄準(zhǔn)線的補(bǔ)償角速度,減小了跟瞄誤差。但是,該方法僅考慮底盤速度影響,忽略了路面起伏影響,在地形復(fù)雜的越野場(chǎng)景中跟瞄補(bǔ)償?shù)男Ч患?。張衛(wèi)民等以自行火炮與敵遭遇時(shí)緊急直瞄場(chǎng)景為研究對(duì)象,提出一種自行火炮自動(dòng)直瞄控制方法,以提高火炮直瞄時(shí)快速反應(yīng)能力和射擊精度。然而,該方法側(cè)重于瞄準(zhǔn)的快速性,沒有充分考慮各種非線性干擾對(duì)瞄準(zhǔn)穩(wěn)定性的影響。朱斌等考慮系統(tǒng)內(nèi)部擾動(dòng)和外部擾動(dòng)對(duì)穩(wěn)瞄系統(tǒng)速度跟蹤精度的影響,提出了采用自抗擾的控制方案。不過,該方法側(cè)重于穩(wěn)定性,仍然沒有有效消除底盤運(yùn)動(dòng)與路面起伏因素帶來(lái)的瞄準(zhǔn)線平移誤差。
針對(duì)跟瞄控制存在的上述問題,本文從整車角度進(jìn)行研究,提出一種基于強(qiáng)化學(xué)習(xí)補(bǔ)償?shù)牡孛鏌o(wú)人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制方法。將感知模塊感知得到的地形信息與規(guī)劃模塊規(guī)劃得到的未來(lái)軌跡傳輸至上裝跟瞄控制模塊,上裝跟瞄控制模塊利用Dueling 深度Q網(wǎng)絡(luò)(DQN)強(qiáng)化學(xué)習(xí)算法對(duì)這些信息處理后得到補(bǔ)償控制量,以削弱底盤運(yùn)動(dòng)與路面起伏對(duì)跟瞄的影響,提升戰(zhàn)車跟瞄的準(zhǔn)確性與穩(wěn)定性。首先建立地面無(wú)人戰(zhàn)車一體化運(yùn)動(dòng)學(xué)模型,之后對(duì)補(bǔ)償控制方法進(jìn)行細(xì)節(jié)性描述,最后利用仿真實(shí)驗(yàn)證明方法的有效性。
針對(duì)地面無(wú)人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制問題,提出問題場(chǎng)景模型、地面無(wú)人戰(zhàn)車一體化運(yùn)動(dòng)學(xué)模型以及強(qiáng)化學(xué)習(xí)模型。
地面無(wú)人戰(zhàn)車行進(jìn)間跟瞄平面示意如圖1所示。無(wú)人戰(zhàn)車接收上級(jí)指揮端下發(fā)的打擊任務(wù),從起點(diǎn)位置規(guī)劃戰(zhàn)車的運(yùn)動(dòng)軌跡,而后自主跟蹤運(yùn)動(dòng)軌跡并且實(shí)時(shí)搜索打擊目標(biāo),跟瞄系統(tǒng)對(duì)可疑目標(biāo)識(shí)別并在自動(dòng)跟蹤狀態(tài)對(duì)其瞄準(zhǔn)。跟瞄控制的目標(biāo)是迅速、準(zhǔn)確、穩(wěn)定地減小跟瞄鏡與打擊目標(biāo)隨動(dòng)角度誤差。
圖1 問題場(chǎng)景描述Fig.1 Problem scenario description
地面無(wú)人戰(zhàn)車采用履帶式移動(dòng)底盤,可通過調(diào)節(jié)左、右兩側(cè)主動(dòng)輪的轉(zhuǎn)速或轉(zhuǎn)矩控制整車航向和速度。戰(zhàn)車配備無(wú)人炮塔,其中升降式搜索鏡用于識(shí)別周圍可疑目標(biāo),跟瞄鏡對(duì)搜索到的敵方目標(biāo)實(shí)時(shí)跟瞄,火炮隨動(dòng),而后火控計(jì)算機(jī)計(jì)算射擊諸元,控制火炮在閾值內(nèi)完成射擊??紤]戰(zhàn)車底盤的平移、俯仰、橫擺、側(cè)傾等會(huì)對(duì)上裝跟瞄與打擊模塊產(chǎn)生影響,基于履帶式無(wú)人車運(yùn)動(dòng)學(xué)模型, 推導(dǎo)出右手坐標(biāo)系的地面無(wú)人戰(zhàn)車底盤與上裝一體化運(yùn)動(dòng)學(xué)模型,如圖2所示。
圖2 地面無(wú)人戰(zhàn)車一體化運(yùn)動(dòng)學(xué)模型Fig.2 Integrated kinematics model of unmanned combat ground vehicle
圖2中,為世界坐標(biāo)系,為底盤坐標(biāo)系,為跟瞄坐標(biāo)系,為火炮坐標(biāo)系。如2(a)中同時(shí)給出了可旋轉(zhuǎn)方向,記代表底盤在世界坐標(biāo)系中的橫擺角速度,代表底盤在世界坐標(biāo)系中的俯仰角速度,代表底盤在世界坐標(biāo)系中的側(cè)傾角速度,代表跟瞄鏡在底盤坐標(biāo)系中的方位角速度,代表跟瞄鏡在底盤坐標(biāo)系中的高低角速度,代表火炮在底盤坐標(biāo)系中的方位角速度,代表火炮在底盤坐標(biāo)系中的高低角速度。圖2(b)中、分別為左、右兩側(cè)履帶或驅(qū)動(dòng)輪的牽連速度,為底盤在世界坐標(biāo)系中的橫擺角,為跟瞄鏡在世界坐標(biāo)系中的方位角,為火炮在世界坐標(biāo)系中的方位角,為戰(zhàn)車底盤履帶中心距,為底盤瞬時(shí)轉(zhuǎn)向中心,為底盤運(yùn)動(dòng)速度。
由于差速轉(zhuǎn)向戰(zhàn)車在轉(zhuǎn)向時(shí),兩側(cè)履帶或驅(qū)動(dòng)輪不可避免地會(huì)發(fā)生滑移滑轉(zhuǎn),定義左右兩側(cè)的滑移滑轉(zhuǎn)系數(shù)分別為
(1)
式中:、分別為左、右兩側(cè)履帶或驅(qū)動(dòng)輪相對(duì)于車體的卷繞縱向線速度??紤]到滑轉(zhuǎn)滑移,底盤的運(yùn)動(dòng)速度、橫擺角速度分別為
(2)
(3)
由上述定義與推導(dǎo),可得地面無(wú)人戰(zhàn)車的數(shù)學(xué)模型為
(4)
式中:、、、分別為底盤在世界坐標(biāo)系中的俯仰角、側(cè)傾角、跟瞄鏡在世界坐標(biāo)系中的高低角以及火炮在世界坐標(biāo)系中的高低角。
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它模擬的是生物學(xué)中的行為主義,即自然界中的生物體在一定的正向或負(fù)向刺激下,通過不斷學(xué)習(xí)形成一套應(yīng)對(duì)刺激的策略,從而實(shí)現(xiàn)自身利益最大化。強(qiáng)化學(xué)習(xí)任務(wù)通常利用馬爾可夫決策過程(MDP)進(jìn)行描述,它滿足馬爾可夫性質(zhì):系統(tǒng)下一時(shí)刻狀態(tài)只與當(dāng)前時(shí)刻狀態(tài)有關(guān),與過往時(shí)刻狀態(tài)無(wú)關(guān)。MDP的基本組成是五元組(,,,,),其中為智能體在交互環(huán)境中的狀態(tài)集,為智能體在交互環(huán)境中對(duì)應(yīng)的動(dòng)作集,為智能體的狀態(tài)轉(zhuǎn)移概率,為獎(jiǎng)勵(lì)的折現(xiàn)因子,為智能體在交互環(huán)境中采取特定動(dòng)作的回報(bào)獎(jiǎng)勵(lì)。強(qiáng)化學(xué)習(xí)過程是智能體從初始狀態(tài)開始,不斷從動(dòng)作集中選取動(dòng)作進(jìn)行狀態(tài)的轉(zhuǎn)移,之后利用獎(jiǎng)賞函數(shù)對(duì)選取的動(dòng)作進(jìn)行評(píng)價(jià)從而更新參數(shù)直到累計(jì)獎(jiǎng)勵(lì)最大化的過程,核心思想是試錯(cuò)與學(xué)習(xí),具體如圖3所示。
圖3 強(qiáng)化學(xué)習(xí)過程Fig.3 Process of reinforcement learning
強(qiáng)化學(xué)習(xí)主體框架包括智能體、環(huán)境、動(dòng)作、獎(jiǎng)勵(lì)4個(gè)內(nèi)容。本文主要涉及地面無(wú)人戰(zhàn)車跟瞄控制方法:由強(qiáng)化學(xué)習(xí)控制的智能體為地面無(wú)人戰(zhàn)車的炮塔;環(huán)境指代的是戰(zhàn)車周圍態(tài)勢(shì);動(dòng)作指代的是炮塔方位角控制量、炮塔高低角控制量;獎(jiǎng)勵(lì)指代的是人為設(shè)定的獎(jiǎng)賞函數(shù)。通過獎(jiǎng)賞函數(shù)的獎(jiǎng)賞值引導(dǎo)智能體進(jìn)行學(xué)習(xí),下面闡述了強(qiáng)化學(xué)習(xí)模型的基本要素:
1)累積獎(jiǎng)勵(lì)。智能體每次執(zhí)行動(dòng)作后系統(tǒng)都會(huì)對(duì)該步操作進(jìn)行評(píng)價(jià),該評(píng)價(jià)值是單步獎(jiǎng)勵(lì),累積獎(jiǎng)勵(lì)是智能體在一個(gè)回合之后所有動(dòng)作單步獎(jiǎng)勵(lì)的折扣加權(quán)和,如(5)式所示:
(5)
式中:代表時(shí)刻后開始的累積獎(jiǎng)勵(lì);+1代表+1時(shí)刻的單步獎(jiǎng)勵(lì)。需要注意的是:累積獎(jiǎng)賞實(shí)際上是一個(gè)隨機(jī)變量,對(duì)它求期望可以得到價(jià)值函數(shù)。
2)策略。策略代表智能體在每種狀態(tài)下執(zhí)行某種動(dòng)作的概率,是狀態(tài)空間到動(dòng)作空間的映射,如(6)式所示:
(|)=[=|=]
(6)
式中:(|)為狀態(tài)時(shí)執(zhí)行動(dòng)作的概率;為時(shí)刻可選動(dòng)作集;為時(shí)刻狀態(tài)集。
3)狀態(tài)價(jià)值函數(shù)。為評(píng)價(jià)智能體所在狀態(tài)的優(yōu)劣,需獲得智能體從當(dāng)前狀態(tài)轉(zhuǎn)移到結(jié)束狀態(tài)的累積獎(jiǎng)勵(lì),在當(dāng)前狀態(tài)下按照一個(gè)固定策略求得的累積獎(jiǎng)勵(lì)期望是狀態(tài)價(jià)值函數(shù),如(7)式所示:
(7)
4)動(dòng)作價(jià)值函數(shù)。在當(dāng)前狀態(tài)下執(zhí)行某個(gè)動(dòng)作后按照某固定策略求得的累積獎(jiǎng)勵(lì)期望即是動(dòng)作價(jià)值函數(shù),如(8)式所示:
(8)
5)貝爾曼方程。貝爾曼方程是將多層決策轉(zhuǎn)化為多個(gè)決策的動(dòng)態(tài)規(guī)劃過程,根據(jù)迭代公式求解狀態(tài)價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù),狀態(tài)價(jià)值函數(shù)與動(dòng)作價(jià)值函數(shù)對(duì)應(yīng)的貝爾曼方程分別為
(9)
(10)
跟瞄控制問題的核心在于跟瞄系統(tǒng)能夠快速、準(zhǔn)確、穩(wěn)定地對(duì)目標(biāo)實(shí)時(shí)瞄準(zhǔn),其難點(diǎn)在于目標(biāo)點(diǎn)運(yùn)動(dòng)、己方戰(zhàn)車運(yùn)動(dòng)、路面起伏等因素帶來(lái)的非線性干擾。針對(duì)此,本文提出一種基于強(qiáng)化學(xué)習(xí)補(bǔ)償?shù)牡孛鏌o(wú)人戰(zhàn)車跟瞄控制方法,以減小跟瞄誤差,提升跟瞄性能。
控制方法架構(gòu)如圖4所示。PID控制器根據(jù)當(dāng)前跟瞄偏差得到主控制量;Dueling DQN控制器將底盤局部規(guī)劃路徑點(diǎn)與目標(biāo)的相對(duì)位置、局部規(guī)劃路徑點(diǎn)附近的起伏梯度、車輛運(yùn)動(dòng)速度、當(dāng)前跟瞄誤差等信息作為輸入,利用神經(jīng)網(wǎng)絡(luò)處理得到補(bǔ)償控制量;主控制量與補(bǔ)償控制量加權(quán)之和為最終控制量,共包括方位控制量與高低控制量?jī)蓚€(gè)輸出。主控制量保證跟瞄的大致方向性,補(bǔ)償控制量用于對(duì)主控制量進(jìn)行修正,從而提升地面無(wú)人戰(zhàn)車行進(jìn)間跟瞄對(duì)底盤速度變化以及路面起伏的自適應(yīng)能力。需要說明的是:該控制方法得到的控制量是跟瞄系統(tǒng)下一時(shí)刻相對(duì)轉(zhuǎn)動(dòng)的角度增量,并非底層的轉(zhuǎn)矩控制量。本文中強(qiáng)化學(xué)習(xí)算法的學(xué)習(xí)機(jī)制與網(wǎng)絡(luò)結(jié)構(gòu)能夠針對(duì)復(fù)雜動(dòng)態(tài)信息分析和處理,并且具備持續(xù)學(xué)習(xí)效果,隨著訓(xùn)練次數(shù)的增多,跟瞄效果的準(zhǔn)確性與穩(wěn)定性可逐步提升。圖4中,、分別為方位角度偏差值與高低角度偏差值,、、、、、分別為方位角和高低角對(duì)應(yīng)的比例、積分、微分權(quán)重系數(shù),是方位角增量,是高低角增量。
圖4 基于強(qiáng)化學(xué)習(xí)的補(bǔ)償控制方法架構(gòu)圖Fig.4 Framework of compensation control method based on reinforcement Learning
戰(zhàn)車對(duì)目標(biāo)的實(shí)時(shí)跟瞄偏差角度值可以由目標(biāo)在跟瞄坐標(biāo)系中位置求解得到,角度計(jì)算如(11)式所示:
(11)
式中:、、代表跟瞄目標(biāo)在世界坐標(biāo)系中坐標(biāo);、、代表車輛跟瞄鏡在世界坐標(biāo)系中坐標(biāo)。
最終的控制量(當(dāng)前控制時(shí)刻相對(duì)于上一控制時(shí)刻,其跟瞄方位角度增量與跟瞄高低角度增量)的數(shù)學(xué)表達(dá)如(12)式所示:
(12)
式中:、分別為方位角和高低角主控制量權(quán)重系數(shù);、分別為方位角和高低角主控制量;、分別為方位角和高低角補(bǔ)償控制量權(quán)重系數(shù);、分別為方位角和高低角補(bǔ)償控制量;代表積分時(shí)間;r()、()分別為強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)擬合的方位角和高低角非線性函數(shù)。
本文采用的強(qiáng)化學(xué)習(xí)算法參考了Dueling DQN算法思路,它屬于值迭代算法的一種,是基于傳統(tǒng)DQN算法的一種改進(jìn)算法,如圖5所示。圖5中,()代表第條數(shù)據(jù)對(duì)應(yīng)的誤差值,代表一次性處理的數(shù)據(jù)條數(shù)。
圖5 強(qiáng)化學(xué)習(xí)算法思路圖Fig.5 Algorithm diagram of reinforcement learning
圖5中,估計(jì)網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)上一致,區(qū)別在于估計(jì)網(wǎng)絡(luò)實(shí)時(shí)更新參數(shù),目標(biāo)網(wǎng)絡(luò)非實(shí)時(shí)更新,算法值計(jì)算如(13)式所示:
(13)
式中:(|,) 為狀態(tài)值函數(shù),用于衡量狀態(tài)價(jià)值,僅與狀態(tài)有關(guān),為公有網(wǎng)絡(luò)參數(shù),為狀態(tài)值函數(shù)特有網(wǎng)絡(luò)參數(shù);(,|,)是動(dòng)作優(yōu)勢(shì)函數(shù),用于衡量不同動(dòng)作相對(duì)于所處狀態(tài)的價(jià)值,同時(shí)與狀態(tài)以及動(dòng)作有關(guān),是動(dòng)作優(yōu)勢(shì)函數(shù)特有網(wǎng)絡(luò)參數(shù);為離散動(dòng)作空間元素個(gè)數(shù)。
本文中使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,其中方位角度補(bǔ)償控制網(wǎng)絡(luò)與高低角度補(bǔ)償控制網(wǎng)絡(luò)類似,區(qū)別在于神經(jīng)網(wǎng)絡(luò)的輸入信息、輸出信息以及神經(jīng)元個(gè)數(shù)。方位角度補(bǔ)償控制網(wǎng)絡(luò)的輸入為底盤局部規(guī)劃路徑點(diǎn)與目標(biāo)的相對(duì)位置、左右履帶速度、方位跟瞄誤差;高低角度補(bǔ)償控制網(wǎng)絡(luò)的輸入為局部規(guī)劃路徑點(diǎn)附近的起伏梯度、左右履帶速度、高低跟瞄誤差。其中,路徑附近起伏梯度指的是“一定數(shù)目的未來(lái)路徑點(diǎn)以及對(duì)應(yīng)的左右偏移路徑點(diǎn)集合”前后相鄰點(diǎn)之間高度差值構(gòu)成的矩陣。輸入信息先經(jīng)過若干層全連接層,之后分為狀態(tài)值網(wǎng)絡(luò)以及動(dòng)作值網(wǎng)絡(luò),最后得到每種動(dòng)作對(duì)應(yīng)的值。此外,本文對(duì)部分全連接層進(jìn)行了處理,即在訓(xùn)練階段隨機(jī)將部分神經(jīng)元丟棄從而削弱訓(xùn)練中的發(fā)生過擬合現(xiàn)象。
圖6 Dueing DQN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Structure of Dueing DQN neural network
程序訓(xùn)練過程:先隨機(jī)探索一定步數(shù)以獲得多組數(shù)據(jù)并將其存儲(chǔ)在經(jīng)驗(yàn)池中,每一次從經(jīng)驗(yàn)池中抽出若干條數(shù)據(jù)并不斷更新網(wǎng)絡(luò)參數(shù)值,直至模型滿足要求或訓(xùn)練次數(shù)達(dá)到閾值。Dueling DQN算法是通過最小化時(shí)序差分誤差實(shí)現(xiàn)網(wǎng)絡(luò)更新,其數(shù)學(xué)表達(dá)如(14)式所示:
=(+max′′(′,′|′,′,′)-
(,|,,))
(14)
式中:′代表下一狀態(tài)的目標(biāo)值。因?qū)嶋H進(jìn)行參數(shù)更新是同時(shí)對(duì)若干條數(shù)據(jù)進(jìn)行處理,平均后的誤差值如(15)式所示:
(15)
利用TD誤差對(duì)網(wǎng)絡(luò)參數(shù)的更新原理是借助梯度下降算法,本文在實(shí)驗(yàn)時(shí)采用了Adam優(yōu)化器實(shí)現(xiàn)參數(shù)梯度下降,相比傳統(tǒng)的隨機(jī)梯度下降算法能夠更快地實(shí)現(xiàn)參數(shù)收斂。
底盤運(yùn)動(dòng)是影響地面無(wú)人戰(zhàn)車行進(jìn)間跟瞄誤差的一個(gè)重要非線性干擾,當(dāng)速度大小或者速度方向發(fā)生變化時(shí)會(huì)對(duì)跟瞄的穩(wěn)定性產(chǎn)生影響,即使戰(zhàn)車保持勻速直線運(yùn)動(dòng),也會(huì)對(duì)戰(zhàn)車跟瞄帶來(lái)瞄準(zhǔn)線的平移。路面起伏是影響地面無(wú)人戰(zhàn)車行進(jìn)間跟瞄誤差的另一個(gè)重要非線性干擾因素?;趩为?dú)PID控制的跟瞄算法不能對(duì)戰(zhàn)車未來(lái)階段的起伏信息進(jìn)行預(yù)判,這種被動(dòng)跟隨控制策略在起伏路面時(shí)跟瞄效果不佳;并且,由于路面起伏的復(fù)雜性,傳統(tǒng)的前饋補(bǔ)償方法難以針對(duì)性開展設(shè)計(jì)。本章基于V-REP動(dòng)力學(xué)仿真軟件進(jìn)行強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)訓(xùn)練與測(cè)試,通過觀察訓(xùn)練過程中獎(jiǎng)賞值的上升和對(duì)比單獨(dú)PID控制方法與補(bǔ)償控制方法跟瞄誤差角數(shù)值來(lái)驗(yàn)證本文提出的補(bǔ)償控制方法有效性,仿真實(shí)驗(yàn)流程如圖7所示,仿真軟硬件環(huán)境如表1所示。
圖7 仿真實(shí)驗(yàn)流程圖Fig.7 Flow chart of simulation
表1 仿真軟硬件環(huán)境
為在V-REP動(dòng)力學(xué)軟件中搭建路面起伏環(huán)境,采用Perlin噪聲算法構(gòu)建近似于自然環(huán)境的起伏路面,并將地形文件、車輛模型、打擊目標(biāo)導(dǎo)入V-REP仿真軟件,再利用ROS接口實(shí)現(xiàn)與程序端的通信,最終完成起伏路面仿真環(huán)境搭建,如圖8所示。仿真中設(shè)定車輛運(yùn)動(dòng)速度為15 km/h,方位角速度閾值為40°/s,高低角速度閾值為40°/s。設(shè)計(jì)兩個(gè)強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)分別對(duì)方位角與高低角進(jìn)行補(bǔ)償控制,強(qiáng)化學(xué)習(xí)的基本信息如表2所示。
圖8 三維仿真環(huán)境搭建過程Fig.8 Construction process of 3D simulation environment
表2 強(qiáng)化學(xué)習(xí)基本設(shè)置
由表2可以看出,獎(jiǎng)賞函數(shù)是關(guān)于目標(biāo)跟瞄角誤差值的二次函數(shù),當(dāng)誤差角越小時(shí)對(duì)應(yīng)的獎(jiǎng)賞值越大,因此可通過觀察訓(xùn)練過程中獎(jiǎng)賞值變化分析跟瞄效果。圖9繪制出了無(wú)人戰(zhàn)車從起始位置自主運(yùn)動(dòng)到目標(biāo)位置的前500次訓(xùn)練過程中高低角網(wǎng)絡(luò)平均獎(jiǎng)賞值的變化情況,為便于觀察進(jìn)行了均值濾波。由圖9看出:隨著訓(xùn)練次數(shù)地增多,平均獎(jiǎng)賞值呈現(xiàn)整體上升的趨勢(shì),這代表Dueling DQN控制器對(duì)于跟瞄誤差補(bǔ)償效果隨著訓(xùn)練增多而提升。
圖9 平均獎(jiǎng)賞值變化圖Fig.9 Variation diagram of average reward values
地面無(wú)人戰(zhàn)車在從起點(diǎn)位置到終點(diǎn)位置的運(yùn)行中,不同跟瞄控制方法對(duì)應(yīng)的跟瞄角度誤差均值能夠反映控制效果的好壞。
將戰(zhàn)車從跟瞄穩(wěn)定位置到終點(diǎn)位置運(yùn)動(dòng)過程中上裝跟瞄角度誤差的變化情況進(jìn)行記錄,并對(duì)比基于PID控制與強(qiáng)化學(xué)習(xí)補(bǔ)償控制兩種方法的跟瞄角度誤差變化情況,對(duì)比結(jié)果如圖10所示,其中圖10(a)為方位角度誤差變化,圖10(b)為高低角度誤差變化。由圖10可知:基于強(qiáng)化學(xué)習(xí)補(bǔ)償?shù)目刂品椒ㄆ骄檎`差明顯更小,控制效果更優(yōu)。
圖10 跟瞄角誤差變化圖Fig.10 Variation diagram of tracking/aiming error
本文提出一種基于強(qiáng)化學(xué)習(xí)補(bǔ)償?shù)牡孛鏌o(wú)人戰(zhàn)車行進(jìn)間跟瞄自適應(yīng)控制方法,有效地提升了地面無(wú)人戰(zhàn)車的動(dòng)態(tài)作戰(zhàn)性能。首先建立地面無(wú)人戰(zhàn)車一體化運(yùn)動(dòng)學(xué)模型以及強(qiáng)化學(xué)習(xí)模型,然后具體介紹了基于強(qiáng)化學(xué)習(xí)補(bǔ)償?shù)母榭刂品椒軜?gòu),最后基于V-REP動(dòng)力學(xué)仿真軟件進(jìn)行了控制方法效果對(duì)比,得出結(jié)論:強(qiáng)化學(xué)習(xí)補(bǔ)償能夠較好地削弱速底盤運(yùn)動(dòng)以及路面起伏對(duì)上裝跟瞄的非線性干擾。不過,目前的工作仍是初步的:1)在跟瞄系統(tǒng)建模方面采用了簡(jiǎn)單運(yùn)動(dòng)學(xué)模型,后續(xù)會(huì)針對(duì)該模型進(jìn)行完善并深入分析底盤運(yùn)動(dòng)與路面起伏對(duì)跟瞄性能的影響特性;2)后續(xù)將補(bǔ)充開展與上裝載荷任務(wù)相協(xié)同的底盤運(yùn)動(dòng)規(guī)劃研究。