康翌婷,張煜,曾日芽
(1.北京科技大學(xué)機(jī)械工程學(xué)院,北京,100083;2.比亞迪汽車(chē)工業(yè)有限公司產(chǎn)品規(guī)劃及汽車(chē)新技術(shù)研究院,廣東深圳,518118)
履帶式車(chē)輛因其較高的通過(guò)性能被廣泛應(yīng)用在復(fù)雜地形環(huán)境中執(zhí)行任務(wù)[1-3]。路徑跟蹤控制是履帶式車(chē)輛自主行駛的相關(guān)研究中的重要內(nèi)容。但是在復(fù)雜環(huán)境下,實(shí)現(xiàn)履帶式車(chē)輛的精確穩(wěn)定的路徑跟蹤控制仍有許多問(wèn)題需要解決。首先,履帶式車(chē)輛是具有非完整約束的復(fù)雜非線性耦合系統(tǒng),其在運(yùn)動(dòng)過(guò)程中還會(huì)不可避免地發(fā)生滑移滑轉(zhuǎn),這部分特性難以精確估計(jì)[4]。其次,在進(jìn)行高精度路徑跟蹤時(shí),還需要充分考慮系統(tǒng)的模型誤差、控制精度等內(nèi)部因素和地形環(huán)境等外部因素的影響[5-7]。因此,在充分考慮履帶式車(chē)輛的滑動(dòng)轉(zhuǎn)向特性的前提下,開(kāi)展地面不平條件下的路徑跟蹤控制方法研究具有重要的參考意義。
在履帶車(chē)動(dòng)力學(xué)建模方面,BEKKER[8-9]提出了履帶與地面壓力分布的理論性研究,并提出了一套半經(jīng)驗(yàn)性的地面-車(chē)輛系統(tǒng)數(shù)學(xué)模型。韓慶玨等[10]通過(guò)模擬深海履帶式采礦車(chē)行駛的海泥特性,分析了車(chē)輛在海底所受的各項(xiàng)阻力,并建立了履帶式采礦車(chē)的動(dòng)力學(xué)模型。李雨譚等[11]提出了一種地面力學(xué)通用數(shù)學(xué)模型,可獲得履帶的最小驅(qū)動(dòng)力矩。李力等[12]基于多剛體理論,采用ADAMS/ATV 軟件建立履帶式車(chē)輛的三維動(dòng)力學(xué)模型并對(duì)其越障性能進(jìn)行仿真研究。上述對(duì)履帶式車(chē)輛動(dòng)力學(xué)特性的研究為建模過(guò)程提供了理論參考。然而,充分考慮履帶與地面接觸特性,尤其是在起伏不平的地面條件下的作用力模型仍然缺乏。
由于履帶式車(chē)輛在運(yùn)動(dòng)過(guò)程中總是伴隨著高速側(cè)履帶的滑轉(zhuǎn)和低速側(cè)履帶的滑移,導(dǎo)致實(shí)際運(yùn)動(dòng)軌跡與理論模型結(jié)果存在較大偏差,因此國(guó)內(nèi)外學(xué)者對(duì)履帶車(chē)的滑動(dòng)轉(zhuǎn)向特性開(kāi)展了很多研究。芮強(qiáng)等[13]開(kāi)展了履帶車(chē)輛轉(zhuǎn)向性能參數(shù)分析與試驗(yàn)研究。熊光明等[7]通過(guò)迭代求解履帶車(chē)的滑動(dòng)參數(shù),實(shí)現(xiàn)了未來(lái)一段時(shí)間內(nèi)的運(yùn)動(dòng)軌跡預(yù)測(cè)。在滑移率的估計(jì)方面,李波[14]用里程計(jì)方法計(jì)算機(jī)器人的移動(dòng)速度,用光電編碼器獲得輪子的轉(zhuǎn)速信息,從而獲取機(jī)器人移動(dòng)時(shí)的滑移率。周波等[15]基于帶有履帶-地面滑動(dòng)效應(yīng)的履帶機(jī)器人模型,利用非線性估計(jì)方法進(jìn)行滑移率估計(jì)。在目前的滑移率估計(jì)方法研究中,雖然復(fù)雜的算法能夠獲取更高精度的結(jié)果,但同時(shí)也需要對(duì)大量數(shù)據(jù)進(jìn)行實(shí)時(shí)運(yùn)算,對(duì)硬件方面提出了更高的要求。因此,需要提出一種實(shí)時(shí)運(yùn)算量較少,同時(shí)能保證精度的滑移率估計(jì)方法,用于對(duì)履帶車(chē)輛滑動(dòng)轉(zhuǎn)向特性進(jìn)行建模。
在履帶式車(chē)輛的路徑跟蹤控制方面,運(yùn)動(dòng)過(guò)程中的打滑、地面條件變化和重心轉(zhuǎn)移等因素會(huì)對(duì)履帶車(chē)的運(yùn)動(dòng)控制造成干擾,因此需要提出一種能夠抵抗擾動(dòng)的控制方法。劉路等[16]基于降維變系數(shù)控制方法實(shí)現(xiàn)了履帶機(jī)器人在三維崎嶇路面的路徑跟蹤。胡家銘等[17]設(shè)計(jì)了基于模型預(yù)測(cè)控制的履帶車(chē)輛軌跡跟蹤控制器,系統(tǒng)處理了建模誤差、環(huán)境約束以及執(zhí)行機(jī)構(gòu)約束。HONG等[18]提出了基于履帶式海底采礦車(chē)運(yùn)動(dòng)學(xué)模型的路徑跟蹤算法,該算法考慮了履帶的側(cè)滑、車(chē)輛的縱向和橫擺模型。盡管上述研究考慮了履帶式車(chē)輛的滑動(dòng)轉(zhuǎn)向特性和環(huán)境約束,然而對(duì)于未知的起伏不平的復(fù)雜地面條件,需要提出一種具有較強(qiáng)自抗擾性的控制方法,以適應(yīng)外界環(huán)境的變化。
本文作者根據(jù)履帶式車(chē)輛的受力特點(diǎn),建立了基于球-面接觸原理的動(dòng)力學(xué)模型;通過(guò)實(shí)車(chē)穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)采集了實(shí)際轉(zhuǎn)向軌跡和履帶車(chē)橫擺角速度,提出了履帶式車(chē)輛的滑移率估計(jì)方法,并結(jié)合履帶車(chē)運(yùn)動(dòng)學(xué)特性進(jìn)行了模型改進(jìn),設(shè)計(jì)了基于深度確定性策略梯度的控制算法,并通過(guò)在平整和不平地面條件下進(jìn)行路徑跟蹤控制對(duì)算法的自適應(yīng)性和自抗擾性進(jìn)行驗(yàn)證。
基于球-面接觸原理,建立履帶式車(chē)輛的動(dòng)力學(xué)模型。由于履帶的質(zhì)量占整車(chē)質(zhì)量比例較小,因此,假設(shè)履帶質(zhì)量可被忽略,則履帶相對(duì)地面運(yùn)動(dòng)時(shí)產(chǎn)生的摩擦力可視為0。簡(jiǎn)化后履帶式車(chē)輛在地面運(yùn)動(dòng)時(shí)的受力如圖1 所示。圖1 中,v為履帶車(chē)的前進(jìn)速度;fn和ff分別為地面對(duì)各輪的法向力和切向力。
圖1 基于球-面接觸原理的履帶式車(chē)輛受力分析Fig.1 Force analysis of a tracked vehicle based on spheresurface contact principle
地面作用于支撐輪、從動(dòng)輪和驅(qū)動(dòng)輪的法向力方向垂直于輪與地面的接觸平面,將輪-地面接觸等效為球-面接觸,用于計(jì)算地面作用力的方向和大小。基于球-面接觸原理,利用MapleSim 軟件建立了履帶式車(chē)輛動(dòng)力學(xué)模型,如圖2所示。履帶車(chē)模型的可視化如圖2(a)所示。履帶部分的模型由機(jī)架、球面接觸模塊以及支撐輪、從動(dòng)輪和驅(qū)動(dòng)輪的可視化模塊組成,如圖2(b)所示。通過(guò)建立球-面接觸模塊(圖2(c))獲取地面接觸信息并計(jì)算各輪受力情況。
圖2 利用MapleSim建立的履帶式車(chē)輛動(dòng)力學(xué)模型Fig.2 Dynamic model of a tracked vehicle built in MapleSim
球-面接觸模塊的球心坐標(biāo)以如下方式確定:如圖2(d)所示,在履帶車(chē)運(yùn)動(dòng)的大地坐標(biāo)系XYZ中定義球心Qb的坐標(biāo)為(xb,yb,zb),以坐標(biāo)系原點(diǎn)為起點(diǎn),Qb為終點(diǎn)的向量為Qb。為了得到接觸平面法向量,在Qb的地面投影坐標(biāo)點(diǎn)Q′b附近,以較小的偏移距j定義3個(gè)點(diǎn)即Qb1,Qb2和Qb3,其坐標(biāo)分別 為(xb,yb+ 2j,zb1),(xb-j,yb-j,zb2) 和(xb+2j,yb- 2j,zb3)。其中,zb1,zb2,zb3是由Qb1,Qb2,Qb3在XY平面的投影位置,結(jié)合對(duì)應(yīng)的環(huán)境模型中地面的高程信息所得。由這3點(diǎn)坐標(biāo)可得接觸平面的法向量P為
于是法向量在三軸上各分量的權(quán)值n為
坐標(biāo)原點(diǎn)到3個(gè)坐標(biāo)點(diǎn)中心的向量Pc為
在球-面接觸模塊中,將球等效為彈簧阻尼系統(tǒng),用以計(jì)算法向力。球心與接觸面的距離d為
距離d即為彈簧的形變量,因此,彈簧力fk為
式中:k和c分別為球-面接觸模塊等效彈簧阻尼系統(tǒng)的彈性系數(shù)和阻尼系數(shù),可根據(jù)履帶車(chē)的懸掛性能和履帶材質(zhì)確定;Rb為球模塊的半徑,與球模塊所在位置的輪的半徑相同。
球與接觸面間的法向力fn為
定義球與地面間的附著系數(shù)為μ,可得切向力ff為
履帶式車(chē)輛在轉(zhuǎn)向時(shí)總是伴隨著履帶相對(duì)于地面的打滑[19],導(dǎo)致實(shí)際轉(zhuǎn)向半徑與理論模型計(jì)算的轉(zhuǎn)向半徑之間、實(shí)際橫擺角速度與理論橫擺角速度之間總是有一定的差距。履帶式車(chē)輛的轉(zhuǎn)向過(guò)程如圖3 所示。其中,L為履帶接地長(zhǎng)度,B為兩側(cè)履帶中心線間距,O為車(chē)輛質(zhì)心,OT和OR分別為車(chē)輛理論轉(zhuǎn)向中心和實(shí)際轉(zhuǎn)向中心,RT和R分別為車(chē)輛理論轉(zhuǎn)向半徑和實(shí)際轉(zhuǎn)向半徑,wT和w分別為車(chē)輛理論橫擺角速度和實(shí)際橫擺角速度,v1和v2分別為低速側(cè)和高速側(cè)履帶的卷繞速度(理論線速度),vr1和vr2分別為低速側(cè)和高速側(cè)履帶的牽連速度(實(shí)際線速度)。
從圖3 可以看出,由于v1<vr1,v2>vr2,因此,實(shí)際轉(zhuǎn)向半徑大于理論轉(zhuǎn)向半徑。通常情況下難以獲取兩側(cè)履帶準(zhǔn)確的牽連速度,但實(shí)際轉(zhuǎn)向半徑和實(shí)際橫擺角速度可通過(guò)采集車(chē)輛軌跡和車(chē)身角速度的方式獲取,因此,可通過(guò)采集實(shí)際轉(zhuǎn)向半徑和實(shí)際橫擺角速度對(duì)轉(zhuǎn)向時(shí)履帶的滑移滑轉(zhuǎn)程度進(jìn)行估計(jì)。
圖3 履帶車(chē)輛轉(zhuǎn)向過(guò)程示意圖Fig.3 Steering process of tracked vehicle
兩側(cè)履帶的卷繞速度表示為
式中:i=1,2,w1和w2分別為低速側(cè)和高速側(cè)履帶驅(qū)動(dòng)輪的輸出轉(zhuǎn)速;r為驅(qū)動(dòng)輪半徑。
由履帶卷繞速度可以得到履帶車(chē)輛的理論橫擺角速度wT和理論轉(zhuǎn)向半徑RT[20]分別為:
低速側(cè)和高速側(cè)履帶的滑移率δi(i=1,2)定義如下:
由履帶牽連速度可計(jì)算實(shí)際橫擺角速度w和實(shí)際轉(zhuǎn)向半徑R分別為:
已知v1,v2,w,R時(shí),可估計(jì)當(dāng)前兩側(cè)履帶的滑移率為
為了獲取履帶式車(chē)輛的滑動(dòng)轉(zhuǎn)向特性,開(kāi)展了穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn),實(shí)驗(yàn)在平坦的鋪設(shè)地面進(jìn)行。通過(guò)給定兩側(cè)履帶驅(qū)動(dòng)電機(jī)固定的轉(zhuǎn)速差,使車(chē)輛進(jìn)行穩(wěn)態(tài)轉(zhuǎn)向運(yùn)動(dòng)。實(shí)驗(yàn)所用的履帶車(chē)參數(shù)如下:左右履帶中心距B為0.67 m,驅(qū)動(dòng)輪半徑r為0.15 m,履帶車(chē)質(zhì)量為80 kg。由工控機(jī)向電機(jī)控制器發(fā)送轉(zhuǎn)速命令,由車(chē)上搭載的差分GPS 系統(tǒng)獲取車(chē)輛運(yùn)動(dòng)軌跡、橫擺角速度等信息,記錄在工控機(jī)中,搭建完成的履帶車(chē)輛實(shí)驗(yàn)系統(tǒng)如圖4(a)所示。按兩側(cè)驅(qū)動(dòng)電機(jī)轉(zhuǎn)速平均值將實(shí)驗(yàn)分為3組,分別為200,400 和600 r/min。每組包含8 個(gè)不同轉(zhuǎn)向半徑的實(shí)驗(yàn),每次將一側(cè)驅(qū)動(dòng)電機(jī)轉(zhuǎn)速?gòu)钠骄翟黾?0 r/min,另一側(cè)減少10 r/min;當(dāng)轉(zhuǎn)速差達(dá)到100 r/min 時(shí),高速側(cè)電機(jī)轉(zhuǎn)速每次增加50 r/min,低速側(cè)每次減少50 r/min,直到兩側(cè)轉(zhuǎn)速差達(dá)到400 r/min。交換兩側(cè)轉(zhuǎn)速進(jìn)行相同實(shí)驗(yàn),得到車(chē)輛在左轉(zhuǎn)和右轉(zhuǎn)時(shí)的穩(wěn)態(tài)轉(zhuǎn)向特性。實(shí)驗(yàn)過(guò)程中電機(jī)轉(zhuǎn)速分組如圖4(b)所示,wH和wL分別為高速側(cè)和低速側(cè)的驅(qū)動(dòng)電機(jī)轉(zhuǎn)速。
圖4 穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)方案Fig.4 Experimental scheme of steady-state turning
采用最小二乘法對(duì)實(shí)驗(yàn)所得的轉(zhuǎn)向軌跡進(jìn)行擬合,獲得履帶車(chē)實(shí)際轉(zhuǎn)向半徑數(shù)據(jù),理論、實(shí)際轉(zhuǎn)向半徑和理論、實(shí)際橫擺角速度的關(guān)系如圖5所示。
由圖5可知,實(shí)際半徑R與理論半徑RT、實(shí)際橫擺角速度w與理論橫擺角速度wT均呈線性關(guān)系,通過(guò)直線擬合的方式可得R=kRRT+bR,w=kwwT+bw。擬合直線的斜率、截距和判定系數(shù)R2如表1 所示,由判定系數(shù)和可知,回歸直線對(duì)實(shí)驗(yàn)結(jié)果的擬合程度較高。
表1 擬合直線的斜率、截距和判定系數(shù)Table 1 Slope,intercept and R2of fitting curves
圖5 理論模型與實(shí)驗(yàn)結(jié)果擬合直線Fig.5 Data fitting of theoretical and experimental results
利用履帶車(chē)穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)數(shù)據(jù)結(jié)果,結(jié)合式(15),可得滑移率計(jì)算方程為
通過(guò)穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)獲得履帶車(chē)輛的滑動(dòng)轉(zhuǎn)向特性后,可實(shí)時(shí)估計(jì)兩側(cè)履帶的滑移率,結(jié)合式(12)可獲得兩側(cè)履帶的牽連速度,將其輸入至基于球-面接觸原理建立的動(dòng)力學(xué)模型(改進(jìn)前),形成考慮滑動(dòng)轉(zhuǎn)向特性的履帶車(chē)輛動(dòng)力學(xué)模型,改進(jìn)后的模型結(jié)構(gòu)如圖6所示。
圖6 考慮滑動(dòng)轉(zhuǎn)向特性的履帶車(chē)輛改進(jìn)模型Fig.6 Improved model of tracked vehicle taking account of skid-steer characteristics
模型的尺寸和質(zhì)量參數(shù)與2.2節(jié)用于穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)的履帶車(chē)的相同。在球-面接觸模塊中,為計(jì)算接觸平面法向量定義的偏移距j取5 mm,等效彈簧阻尼系統(tǒng)的彈性系數(shù)k取1 kN/m,阻尼系數(shù)取c取1 N·s/m。對(duì)改進(jìn)前和改進(jìn)后的模型進(jìn)行穩(wěn)態(tài)轉(zhuǎn)向仿真,采用和實(shí)車(chē)實(shí)驗(yàn)相同的高低速驅(qū)動(dòng)電機(jī)轉(zhuǎn)速輸入(如圖4(b)所示),獲取模型輸出的軌跡和橫擺角速度響應(yīng)。驅(qū)動(dòng)電機(jī)轉(zhuǎn)速為200 r/min 時(shí)改進(jìn)前后模型轉(zhuǎn)向半徑、橫擺角速度與實(shí)際結(jié)果對(duì)比如圖7所示,圖中,轉(zhuǎn)速差為履帶高速側(cè)和低速側(cè)電機(jī)輸入轉(zhuǎn)速之差。
圖7 驅(qū)動(dòng)電機(jī)轉(zhuǎn)速為200 r/min時(shí)改進(jìn)前后模型和實(shí)車(chē)實(shí)驗(yàn)結(jié)果對(duì)比Fig.7 Comparisons of unimproved,improved models and experimental results at 200 r/min
從圖7可知,在驅(qū)動(dòng)電機(jī)轉(zhuǎn)速200 r/min下,由于沒(méi)有考慮履帶車(chē)輛的滑動(dòng)轉(zhuǎn)向特性,改進(jìn)前模型的轉(zhuǎn)向半徑要小于實(shí)車(chē)的轉(zhuǎn)向半徑,而理想的橫擺角速度要大于實(shí)際值,尤其當(dāng)轉(zhuǎn)速差較大時(shí),理想橫擺角速度與實(shí)際值的差距就更加明顯。當(dāng)驅(qū)動(dòng)電機(jī)平均轉(zhuǎn)速分別為400 r/min和600 r/min時(shí),其對(duì)比結(jié)果類(lèi)似。當(dāng)考慮了履帶車(chē)轉(zhuǎn)向過(guò)程中低速側(cè)滑移、高速側(cè)滑轉(zhuǎn)的特性后,改進(jìn)后模型所輸出的軌跡半徑和橫擺角速度與實(shí)車(chē)實(shí)驗(yàn)數(shù)據(jù)基本保持一致,因此,將改進(jìn)后的模型作為被控對(duì)象,開(kāi)發(fā)基于深度強(qiáng)化學(xué)習(xí)的路徑跟蹤控制器具有更實(shí)際的參考意義。
將地面不平度作為外界擾動(dòng),基于深度確定性策略梯度算法設(shè)計(jì)路徑跟蹤控制器,考慮跟蹤誤差、前進(jìn)速度、控制器輸出等多個(gè)控制目標(biāo),在平整地面的仿真環(huán)境中開(kāi)展控制器的訓(xùn)練,利用深度確定性策略梯度算法的自抗擾性能,實(shí)現(xiàn)在不平地面上穩(wěn)定和精確的路徑跟蹤控制。
深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)是結(jié)合了深度卷積網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)的算法,不僅能夠接收高維輸入,還能夠解決連續(xù)動(dòng)作空間問(wèn)題。在DDPG 的訓(xùn)練過(guò)程中,會(huì)隨機(jī)產(chǎn)生噪聲對(duì)其輸出的動(dòng)作產(chǎn)生影響,因此,經(jīng)過(guò)訓(xùn)練的DDPG 算法具備一定的自抗擾性能。DDPG算法的框架如圖8所示[21-22]。
圖8 DDPG算法框架結(jié)構(gòu)Fig.8 Frame of DDPG algorithm
框架中智能體由策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)組成,策略和價(jià)值網(wǎng)絡(luò)又分別由一個(gè)在線網(wǎng)絡(luò)和一個(gè)目標(biāo)網(wǎng)絡(luò)組成,目標(biāo)網(wǎng)絡(luò)的結(jié)構(gòu)和在線網(wǎng)絡(luò)完全相同,以此來(lái)克服單個(gè)網(wǎng)絡(luò)不穩(wěn)定的問(wèn)題[23-24]。在訓(xùn)練過(guò)程中,智能體需要盡可能探索到完整的動(dòng)作空間,尋找潛在的更新策略,因此,引入隨機(jī)噪聲,將動(dòng)作決策時(shí)的確定性過(guò)程變成隨機(jī)過(guò)程,再?gòu)倪@個(gè)隨機(jī)過(guò)程中采樣得到動(dòng)作的值。將Uhlenbeck-Ornstein(UO)隨機(jī)過(guò)程作為被引入的隨機(jī)噪聲,探索得到這個(gè)動(dòng)作策略并不是最終所需要的策略,僅被用于訓(xùn)練過(guò)程。
通過(guò)Actor與環(huán)境之間探索過(guò)程的交互,產(chǎn)生學(xué)習(xí)樣本并存儲(chǔ)到經(jīng)驗(yàn)池中。在更新階段,從經(jīng)驗(yàn)池中獲取小批量訓(xùn)練樣本數(shù)據(jù),先將其中下一步的狀態(tài)量si+1放入目標(biāo)策略網(wǎng)絡(luò)得到目標(biāo)動(dòng)作a′,然后將si+1和a′共同作為目標(biāo)價(jià)值網(wǎng)絡(luò)的輸入并獲得目標(biāo)價(jià)值Q′。得到目標(biāo)回報(bào)值之后,再將si,ai共同作為在線價(jià)值網(wǎng)絡(luò)的輸入,計(jì)算得到實(shí)際價(jià)值Q,經(jīng)由最小化誤差L(Q,Q′)更新在線價(jià)值網(wǎng)絡(luò),再由在線價(jià)值網(wǎng)絡(luò)計(jì)算在線策略網(wǎng)絡(luò)的梯度?θμJ來(lái)確定其更新方向。
路徑跟蹤控制器所需要的車(chē)輛狀態(tài)信息中,最重要的因素就是車(chē)輛當(dāng)前位置坐標(biāo)與參考路徑的目標(biāo)位置坐標(biāo)之間的誤差。在跟蹤的過(guò)程中,車(chē)輛航向角與目標(biāo)航向角之間的誤差能夠指示車(chē)輛修正行進(jìn)方向。在跟蹤的過(guò)程中還應(yīng)保證能實(shí)現(xiàn)目標(biāo)速度,減小實(shí)際速度與目標(biāo)速度之間的誤差。上述誤差定義如圖9所示。圖中:XOY為大地坐標(biāo)系,XbObYb為固定在車(chē)體上的坐標(biāo)系;(xc,yc)為質(zhì)心O點(diǎn)在大地坐標(biāo)系的位置;θ和v分別為實(shí)際航向角和實(shí)際前進(jìn)速度;(xref,yref)為目標(biāo)路徑上當(dāng)前的目標(biāo)位置C′坐標(biāo);θref和vref分別為目標(biāo)航向角和目標(biāo)前進(jìn)速度。
圖9 履帶車(chē)輛路徑跟蹤誤差定義Fig.9 Definition of path tracking errors for a tracked vehicle
各項(xiàng)誤差計(jì)算如下:
式中:Δp為位置誤差;Δθ為航向角誤差;Δv為質(zhì)心速度誤差;λ為位置誤差方向系數(shù),當(dāng)目標(biāo)路徑位于車(chē)輛左側(cè)時(shí),取λ= 1,當(dāng)目標(biāo)路徑位于車(chē)輛右側(cè)時(shí),取λ= -1。
為了提高智能體對(duì)位置、航向角和速度的調(diào)節(jié)能力,將上述3個(gè)誤差及其一階微分作為DDPG算法的狀態(tài)EState:
將左右兩側(cè)履帶的卷繞速度(理論線速度)變化量作為控制器輸出,由此定義算法中動(dòng)作VAction:
路徑跟蹤的目標(biāo)是令車(chē)輛的實(shí)際運(yùn)動(dòng)軌跡與目標(biāo)路徑之間的誤差最小,因此將位置誤差作為首要控制目標(biāo),航向角誤差作為次要目標(biāo),同時(shí)考慮跟蹤速度誤差和控制輸出的變化。綜合以上目標(biāo),本文設(shè)計(jì)履帶車(chē)輛路徑跟蹤控制的四級(jí)獎(jiǎng)勵(lì):1級(jí):位置誤差;2級(jí):航向角誤差;3級(jí):質(zhì)心前進(jìn)速度誤差;4 級(jí):履帶卷繞速度的變化量。根據(jù)獎(jiǎng)勵(lì)等級(jí)分配權(quán)重,位置誤差、航向角誤差、質(zhì)心前進(jìn)速度誤差的權(quán)重系數(shù)分別為-0.03,-0.02,-0.01。當(dāng)上述的各項(xiàng)誤差越小,則獎(jiǎng)勵(lì)越高。履帶卷繞速度的變化量這一目標(biāo)具有穩(wěn)定輸出的作用,履帶卷繞速度的變化量越小,獎(jiǎng)勵(lì)越高,但如果過(guò)度約束會(huì)影響控制效果,故其權(quán)重系數(shù)為-0.001。四級(jí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)中以各項(xiàng)誤差和控制器輸出的二次函數(shù)反映各項(xiàng)獎(jiǎng)勵(lì)的變化率。另外,總體獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)中考慮了對(duì)仿真提前終止的懲罰,當(dāng)位置誤差和航向角誤差控制在較小范圍內(nèi)的額外獎(jiǎng)勵(lì),以及對(duì)履帶車(chē)有效行駛路徑長(zhǎng)度的獎(jiǎng)勵(lì)??傮w獎(jiǎng)勵(lì)函數(shù)如下:
式中:fdone為仿真提前終止懲罰項(xiàng),當(dāng)仿真提前終止時(shí),fdone為1,反之為0;fp為位置誤差額外獎(jiǎng)勵(lì)項(xiàng),當(dāng)整段仿真內(nèi)| Δp|的最大值小于0.01 m時(shí),fp為1,反之為0;fh為航向角誤差額外獎(jiǎng)勵(lì)項(xiàng),當(dāng)整段仿真內(nèi)| |Δθ的最大值小于0.1 rad 時(shí),fh為1,反之為0;s為履帶車(chē)質(zhì)心軌跡在XY平面投影的長(zhǎng)度。
以改進(jìn)后的履帶式車(chē)輛動(dòng)力學(xué)模型為被控對(duì)象,在仿真環(huán)境開(kāi)展平整地面上典型路徑的跟蹤控制訓(xùn)練。改進(jìn)后的模型考慮了實(shí)車(chē)的滑動(dòng)轉(zhuǎn)向特性,結(jié)果與實(shí)車(chē)實(shí)驗(yàn)數(shù)據(jù)更為接近,用于強(qiáng)化學(xué)習(xí)訓(xùn)練更具有實(shí)際意義。
為驗(yàn)證本文所提出的基于DDPG 算法的路徑跟蹤控制器的有效性和自抗擾性,先令控制器在平整地面條件下進(jìn)行典型路徑的跟蹤訓(xùn)練,再將其應(yīng)用于不平地面并對(duì)相應(yīng)的目標(biāo)路徑進(jìn)行跟蹤控制。平整地面上以正弦曲線y= sin(0.7x)作為目標(biāo)路徑進(jìn)行訓(xùn)練,考察控制器對(duì)于變曲率目標(biāo)路徑的跟蹤能力。目標(biāo)前進(jìn)速度vref設(shè)為1 m/s,訓(xùn)練的目標(biāo)獎(jiǎng)勵(lì)值為10 000,實(shí)際達(dá)到的獎(jiǎng)勵(lì)值為10 622.69,訓(xùn)練次數(shù)為2 164 次,訓(xùn)練結(jié)束時(shí)的平均獎(jiǎng)勵(lì)值為4 853.11,訓(xùn)練總時(shí)長(zhǎng)為15 344 s。
訓(xùn)練后的控制器在不平地面上跟蹤目標(biāo)路徑,測(cè)試其自抗擾性。根據(jù)國(guó)標(biāo)GB/T 7031—2005[25]中C 級(jí)地面不平度標(biāo)準(zhǔn),在MapleSim 仿真環(huán)境中設(shè)計(jì)了一個(gè)邊長(zhǎng)為60 m 的正方形不平地面模型,此模型的Z方向長(zhǎng)度變化范圍在±0.03 m 之間,如圖10所示。履帶車(chē)的動(dòng)力學(xué)模型中的球-面接觸模塊可通過(guò)查表函數(shù)獲取接觸位置相應(yīng)的高程信息,并用以計(jì)算法向力和切向力。
圖10 MapleSim仿真環(huán)境中的不平地面模型Fig.10 Uneven terrain in MapleSim simulation environment
本文所提出的基于DDPG 算法的路徑跟蹤控制器在平整地面和不平地面下的跟蹤效果如圖11所示??梢?jiàn):在實(shí)際獎(jiǎng)勵(lì)值為10 622.69 的訓(xùn)練結(jié)果下,平整地面上跟蹤的位置誤差絕對(duì)值小于0.02 m,航向角誤差絕對(duì)值小于0.05 rad,跟蹤速度在一段時(shí)間后逐漸趨近于參考速度1 m/s,左右履帶的卷繞速度在穩(wěn)定后變化較為平穩(wěn)。將該控制器應(yīng)用于不平地面上跟蹤目標(biāo)路徑時(shí),位置誤差絕對(duì)值小于0.06 m,絕對(duì)航向角誤差小于0.25 rad,跟蹤速度和控制量的振蕩較平整地面要更為明顯,其質(zhì)心的Z向位移變化如圖11(e)所示。從圖11(e)可以看出:在不平地面的影響下,車(chē)輛質(zhì)心的垂向位置也產(chǎn)生相應(yīng)的起伏。從以上路徑跟蹤效果對(duì)比可以看出,在平整地面工況下訓(xùn)練的控制器在不平地面上仍然能夠?qū)ο鄳?yīng)的目標(biāo)路徑進(jìn)行跟蹤,盡管控制效果相較于平整地面時(shí)有所降低,但其在不平地面上無(wú)須調(diào)整參數(shù)或重新訓(xùn)練,控制器的可行性和自抗擾性得到驗(yàn)證。
圖11 經(jīng)過(guò)訓(xùn)練后的正弦曲線路徑跟蹤結(jié)果Fig.11 Results of tracking a sinusoid path after training
1)基于球-面接觸原理,提出了履帶式車(chē)輛動(dòng)力學(xué)建模方法。基于穩(wěn)態(tài)轉(zhuǎn)向?qū)嶒?yàn)數(shù)據(jù)提出了履帶式車(chē)輛的滑移率估計(jì)方法,綜合基于球-面接觸原理建立的動(dòng)力學(xué)模型提出了反映履帶車(chē)輛滑動(dòng)轉(zhuǎn)向特性的改進(jìn)模型。經(jīng)驗(yàn)證,在相同的輸入轉(zhuǎn)速下,改進(jìn)模型的轉(zhuǎn)向半徑和橫擺角速度響應(yīng)與實(shí)驗(yàn)數(shù)據(jù)更為吻合,作為被控對(duì)象用于強(qiáng)化學(xué)習(xí)訓(xùn)練更具有實(shí)際的參考意義。
2)基于深度確定性策略梯度方法,將路徑跟蹤的位置誤差、航向角誤差和跟蹤速度誤差及三者的變化率作為強(qiáng)化學(xué)習(xí)中的狀態(tài),并利用四級(jí)獎(jiǎng)勵(lì)函數(shù),設(shè)計(jì)了路徑跟蹤控制器。在平整地面上開(kāi)展控制器的訓(xùn)練,并應(yīng)用于不平地面條件下跟蹤相應(yīng)的目標(biāo)路徑。仿真結(jié)果證明,無(wú)需整定參數(shù)或重新訓(xùn)練,在平整地面工況下訓(xùn)練的控制器在不平地面上仍然能夠?qū)ο鄳?yīng)的目標(biāo)路徑進(jìn)行跟蹤,控制器的可行性和自抗擾性得到驗(yàn)證。