鄭陽俊,賀 帥,帥志斌,*,李建秋,蓋江濤,李 勇,張 穎,李國輝
(1.中國北方車輛研究所,北京100072,中國;2.汽車安全與節(jié)能國家重點實驗室(清華大學(xué)),北京100084,中國)
車輛關(guān)鍵運(yùn)動狀態(tài)的測量和估計一直是車輛動力學(xué)領(lǐng)域的研究熱點[1]。在車輛的平面運(yùn)動狀態(tài)中,縱向車速、側(cè)向車速、橫擺角速度是影響車輛操控性能和行駛穩(wěn)定性的關(guān)鍵。量產(chǎn)車上安裝的慣性測量單元(inertial measurement unit, IMU)等傳感器能夠?qū)v向加速度、側(cè)向加速度、橫擺角速度等進(jìn)行較為精確的測量,縱向車速也可通過車輪轉(zhuǎn)速進(jìn)行估計,而側(cè)向車速的測量難度較大,難以通過量產(chǎn)車上安裝的傳感器進(jìn)行準(zhǔn)確的實時測量[2]。雖然車載GPS (全球定位系統(tǒng),global positioning system)模塊能對縱向車速、側(cè)向車速等運(yùn)動狀態(tài)進(jìn)行測量,但受限于地形、天氣等因素,通常難以保證持續(xù)良好的GPS 衛(wèi)星信號質(zhì)量,存在不穩(wěn)定因素,并且量產(chǎn)車的GPS 模塊數(shù)據(jù)更新速率較低,獲取的車速難以用于車輛動力學(xué)相關(guān)的強(qiáng)實時控制。因此,通過傳感器獲取的有限的車輛狀態(tài)信息,對車輛側(cè)向車速或質(zhì)心側(cè)偏角進(jìn)行估計,是汽車行業(yè)一直以來廣泛關(guān)注的研究和應(yīng)用領(lǐng)域。
已有許多圍繞車輛側(cè)向車速和質(zhì)心側(cè)偏角精確估計的研究工作,并形成了行之有效的估計方法[3],包括:Kalman 濾波器(Kalman filter, KF)及其變種(擴(kuò)展KF、無跡KF、容積KF、聯(lián)邦KF 等)、模糊邏輯觀測器、神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等方法。金賢建提出了一種基于雙容積KF 的車輛質(zhì)心速度和質(zhì)心側(cè)偏角觀測方法[4]。樊東升基于聯(lián)邦KF 實現(xiàn)對車輛速度和路面附著系數(shù)的聯(lián)合估計[5]。肖峰設(shè)計了基于無跡KF 的車輛橫擺角速度和質(zhì)心側(cè)偏角估計方法[6]。施樹明提出了一種基于模糊邏輯的車輛質(zhì)心側(cè)偏角估計方法[7]。
除了廣泛采用的KF 算法以外,神經(jīng)網(wǎng)絡(luò)也被嘗試應(yīng)用于車輛運(yùn)動狀態(tài)的實時估計上。張鳳嬌提出了一種基于深度學(xué)習(xí)的極限工況下車輛狀態(tài)估計方法[8]。汪?提出了一種基于深度學(xué)習(xí)的車輛關(guān)鍵狀態(tài)平行估計方法[9]。Ribeiro 采用時延神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對輪胎—路面附著情況的實時估計[10]。
近年來,在車輛控制領(lǐng)域,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)技術(shù)也得到了應(yīng)用。目前針對DRL 的應(yīng)用研究主要集中在混合動力車輛的能量管理、自動駕駛車輛的路徑規(guī)劃等領(lǐng)域。HAN Xuefeng 采用double DQN 算法進(jìn)行混合動力履帶車輛的能量管理[11]。李文禮采用深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法實現(xiàn)了車輛自主避撞決策控制[12]。
也有學(xué)者利用強(qiáng)化學(xué)習(xí)方法進(jìn)行車輛系統(tǒng)的狀態(tài)估計和參數(shù)辨識。高洪森將DRL 與KF 算法相結(jié)合,提出了一種鋰離子電池SOC(荷電狀態(tài),state of charge)估計方法[13]。Kim T. 利用基于模型的強(qiáng)化學(xué)習(xí)算法進(jìn)行輪胎參數(shù)的辨識,并在此基礎(chǔ)上進(jìn)行路徑跟蹤控制[14]。WANG Pengyue 利用分布式強(qiáng)化學(xué)習(xí)算法對智能交通系統(tǒng)中車輛的不確定性進(jìn)行估計[15]。
本文基于DRL 的范式,結(jié)合深度神經(jīng)網(wǎng)絡(luò),設(shè)計了一種基于DDPG 算法的四輪獨(dú)立電驅(qū)動車輛側(cè)向車速估計方法。通過對神經(jīng)網(wǎng)絡(luò)、獎勵函數(shù)、訓(xùn)練場景等的合理設(shè)計,所訓(xùn)練得到的智能體,可望對車輛側(cè)向車速進(jìn)行準(zhǔn)確的估計。
車輛的側(cè)向車速需要基于車載傳感器易于測量的狀態(tài)量,通過設(shè)計專門的狀態(tài)觀測器或估計算法進(jìn)行計算得到。目前的估計方法主要包括2 類:
1)基于模型的估計方法。如圖1a 所示。常規(guī)車載傳感器易于測量的狀態(tài)量包括:車輛的縱向加速度ax、側(cè)向加速度ay、橫擺角速度γ,各車輪轉(zhuǎn)速ni,方向盤轉(zhuǎn)角δ等。大多數(shù)估計方法都是基于上述測量信號,并結(jié)合車輛動力學(xué)模型設(shè)計觀測器(如Kalman 濾波器),進(jìn)行車輛狀態(tài)的估計。
2)數(shù)據(jù)驅(qū)動的估計方法。即本文所采用的方法,如圖1b 所示。基于四輪獨(dú)立電驅(qū)動車輛中易于獲取的可測量狀態(tài)量,在狀態(tài)量中增加了各車輪轉(zhuǎn)矩Ti,結(jié)合深度神經(jīng)網(wǎng)絡(luò)的非線性擬合能力和強(qiáng)化學(xué)習(xí)的高效訓(xùn)練模式,設(shè)計并訓(xùn)練出能夠?qū)囕v側(cè)向車速進(jìn)行準(zhǔn)確估計的策略。
圖1 2 種車輛狀態(tài)估計算法比較
對于四輪獨(dú)立電驅(qū)動車輛,由于其各車輪的輸出轉(zhuǎn)矩Ti可以獨(dú)立、精確地控制,帶來了2 方面的影響:
1) 各個車輪的輸出轉(zhuǎn)矩能夠用來作為狀態(tài)觀測器的輸入,更多的可測量信號為狀態(tài)估計提供了更多的信息和數(shù)據(jù)源,同時也為估計算法的設(shè)計提供了更大的自由度[16];
2) 由于各車輪轉(zhuǎn)矩的獨(dú)立控制,導(dǎo)致行駛工況的多樣性、復(fù)雜性、非線性等特征更加顯著,容易超出傳統(tǒng)觀測模型的適用范圍,給基于模型的估計方法帶來了新的挑戰(zhàn)。
因此,基于數(shù)據(jù)驅(qū)動的估計方法在估計效果上更具潛力。
深度強(qiáng)化學(xué)習(xí)(DRL)是機(jī)器學(xué)習(xí)的一個分支,它一方面基于深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)復(fù)雜非線性數(shù)據(jù)關(guān)系的擬合,另一方面又采用強(qiáng)化學(xué)習(xí)的范式對其中的若干個深度神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行訓(xùn)練;因此可以認(rèn)為是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。DRL 的優(yōu)勢在于,其通過探索試錯和獎勵函數(shù)的機(jī)制,能夠快速地實現(xiàn)神經(jīng)網(wǎng)絡(luò)超參數(shù)的高效學(xué)習(xí)和訓(xùn)練優(yōu)化。
DRL 的基本架構(gòu)如圖2 所示。
圖2 深度強(qiáng)化學(xué)習(xí)的基本架構(gòu)
本研究基于DRL 的范式對四輪獨(dú)立電驅(qū)動車輛側(cè)向車速進(jìn)行估計,其總體架構(gòu)如圖3 所示,主要包括智能體(Agent)和環(huán)境(Environment)2 部分。智能體從環(huán)境中獲得的狀態(tài)量包括:車輛縱向加速度ax、車輛側(cè)向加速度ay、方向盤轉(zhuǎn)角δ、車輛橫擺角速度γ、各車輪轉(zhuǎn)速ni、各車輪的驅(qū)動轉(zhuǎn)矩Ti。
圖3 基于深度強(qiáng)化學(xué)習(xí)范式的側(cè)向車速估計架構(gòu)
上述車輛狀態(tài)量也即DRL 中的狀態(tài)空間,即
狀態(tài)的選取主要考慮2 方面因素:能夠表征車輛行駛過程中的關(guān)鍵動力學(xué)狀態(tài);在量產(chǎn)車中通過常規(guī)的車載傳感器和控制器容易進(jìn)行測量或直接計算。
“智能體”是用于對側(cè)向車速進(jìn)行估計的主體,其內(nèi)部包含估計策略,基于傳感器可測量的車輛狀態(tài)量,通過深度神經(jīng)網(wǎng)絡(luò)對車輛的側(cè)向車速進(jìn)行估計。同時,其內(nèi)部的深度強(qiáng)化學(xué)習(xí)算法又能根據(jù)輸入的可測量狀態(tài)量、輸出的車速估計值、估計誤差評價函數(shù)所反饋的獎勵值對估計策略進(jìn)行訓(xùn)練和更新,使其估計精度得到不斷提高。
“環(huán)境”的主體是用于提供數(shù)據(jù)驅(qū)動的車輛動力學(xué)模型(或裝有專業(yè)測量設(shè)備的試驗樣車),其主要作用是通過大量的行駛場景(模型仿真或?qū)嵻嚋y試)為智能體提供足夠的訓(xùn)練數(shù)據(jù)來源,并將其輸出的車速估計值與仿真模型內(nèi)部輸出的(或?qū)I(yè)設(shè)備測量得到的)車速真實值進(jìn)行對比,生成獎勵值反饋給智能體,供其進(jìn)行策略的學(xué)習(xí)和更新。
“動作”(action)在深度強(qiáng)化學(xué)習(xí)的控制應(yīng)用中是指智能體根據(jù)輸入狀態(tài)和內(nèi)部策略,對外界環(huán)境做出的反應(yīng)。對于本研究中的狀態(tài)估計問題,智能體的對外輸出動作則是其對車輛側(cè)向車速的估計值v?v,因此對動作的定義為
近年來,已衍生出一些適合不同應(yīng)用場景需求的DRL算法,如:深度Q網(wǎng)絡(luò) (deepQnetwork,DQN)算法、近端策略優(yōu)化(proximal policy optimization,PPO)算法、深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法等。本研究中的狀態(tài)和動作都是連續(xù)變量,因此選取DDPG 算法作為DRL 智能體的算法。
DDPG 算法的核心是Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)[17]。Actor 網(wǎng)絡(luò)負(fù)責(zé)基于當(dāng)前的狀態(tài)空間輸入計算出當(dāng)前的動作,并輸出至環(huán)境;Critic 網(wǎng)絡(luò)根據(jù)狀態(tài)和動作進(jìn)行Q值的計算;基于Critic 網(wǎng)絡(luò)計算的Q值和環(huán)境反饋的獎勵值,對Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的參數(shù)進(jìn)行調(diào)整和更新。DDPG 算法的主體架構(gòu)如圖4 所示。
圖4 DDPG 算法的主體架構(gòu)框圖
在實際應(yīng)用的DDPG 算法中,Actor 網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)各有2 個,分別為當(dāng)前網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò),此外,DDPG 算法還借鑒了DQN 算法的經(jīng)驗回放功能,通過使用經(jīng)驗池可以提高訓(xùn)練效果。
深度神經(jīng)網(wǎng)絡(luò)的設(shè)計是決定深度強(qiáng)化學(xué)習(xí)效果的關(guān)鍵。本研究采用DDPG 算法構(gòu)建深度強(qiáng)化學(xué)習(xí)智能體,需要對其中的Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)進(jìn)行設(shè)計,如圖5 所示。
圖5 Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)設(shè)計
輸入層:在Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的輸入層,首先需要對輸入的變量值進(jìn)行歸一化處理,以提高網(wǎng)絡(luò)的計算精度和訓(xùn)練效率。由于網(wǎng)絡(luò)的輸入都是車輛行駛過程中的狀態(tài)量,其取值范圍都是能夠根據(jù)車輛的行駛極限進(jìn)行預(yù)先估算的,因此基于各變量的合理取值上下限對其進(jìn)行歸一化處理。Actor 網(wǎng)絡(luò)的輸入為可通過常規(guī)車載傳感器觀測的行駛狀態(tài)量,Critic 網(wǎng)絡(luò)的輸入包含兩部分,第一部分是觀測的行駛狀態(tài)量,第二部分是Actor 網(wǎng)絡(luò)輸出的動作量,也即其對側(cè)向車速的估計值。
全連接層:神經(jīng)網(wǎng)絡(luò)的主體部分是全連接層(包含激活函數(shù)層),在Actor 網(wǎng)絡(luò)的設(shè)計中共采用了4 個全連接層,每個全連接層內(nèi)含有48 個節(jié)點。在Critic 網(wǎng)絡(luò)的設(shè)計中,狀態(tài)量和動作量的路徑中各采用了2 個全連接層,在通過加法層的整合運(yùn)算后,又加入了2 個全連接層,每個全連接層也都含有48 個節(jié)點。
循環(huán)神經(jīng)網(wǎng)絡(luò)層:循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是以序列數(shù)據(jù)為輸入,在序列的演進(jìn)方向進(jìn)行遞歸的神經(jīng)網(wǎng)絡(luò)。RNN 的記憶性使其在對序列的非線性特征進(jìn)行學(xué)習(xí)時能獲得較好的效果,因此適用于本研究中采用非線性狀態(tài)方程進(jìn)行描述的車輛動力學(xué)特性?;赗NN 的上述優(yōu)勢,在Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)中分別加入一個循環(huán)神經(jīng)網(wǎng)絡(luò)層,每個層中含有100 個節(jié)點。
縮放層:在Actor 網(wǎng)絡(luò)的最后需要加入一個縮放層,根據(jù)側(cè)向車速的實際可能取值范圍對神經(jīng)網(wǎng)絡(luò)的輸出值進(jìn)行縮放,其主要參數(shù)包括縮放層的增益和偏置。
獎勵函數(shù)的作用是對智能體輸出動作的作用效果進(jìn)行評估,計算出獎勵值反饋至智能體,指導(dǎo)其內(nèi)部的策略更新和各個深度神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)節(jié)。獎勵函數(shù)的設(shè)計對智能體的訓(xùn)練效果影響很大,結(jié)合不同應(yīng)用需求的具體情況,對獎勵函數(shù)進(jìn)行合理的選取設(shè)置,是充分發(fā)揮深度強(qiáng)化學(xué)習(xí)優(yōu)勢和提升學(xué)習(xí)效果的關(guān)鍵。在本研究所針對的應(yīng)用中,獎勵函數(shù)的目的是評估智能體對側(cè)向車速估計的準(zhǔn)確度,所設(shè)計的獎勵函數(shù)為
其中:v?y是智能體對側(cè)向車速的估計值,vy是訓(xùn)練過程中獲取的側(cè)向車速的真實值。vy可以來自于車輛動力學(xué)仿真模型,也可以來自試驗樣車上的專業(yè)測試儀器。
在完成上述架構(gòu)搭建、算法選取、神經(jīng)網(wǎng)絡(luò)設(shè)計、獎勵函數(shù)設(shè)計之后,即可按照所選取的算法流程進(jìn)行訓(xùn)練,本文DDPG 算法的核心訓(xùn)練流程如下。
首先,采用一組隨機(jī)參數(shù)Φ對Critic 網(wǎng)絡(luò)Q進(jìn)行初始化,并用同樣的參數(shù)Φt=Φ對Target Critic 網(wǎng)絡(luò)Qt進(jìn)行初始化;其次,采用一組隨機(jī)參數(shù)θ對Actor網(wǎng)絡(luò)π進(jìn)行初始化,并用同樣的參數(shù)θt=θ對Target Actor 網(wǎng)絡(luò)πt進(jìn)行初始化;
開始訓(xùn)練,在每一個訓(xùn)練時間步長中重復(fù)如下步驟1—8,直至訓(xùn)練結(jié)束:
步驟1:對于當(dāng)前的觀測S,利用Actor 網(wǎng)絡(luò)π計算出對vy的估計值v?y=π(S)+N,其中N是噪聲模型生成的隨機(jī)噪聲;
步驟2:輸出估計值v?y,觀察計算的獎勵值R和下一個觀測值S’;
步驟3:將經(jīng)驗(S,v?y,R,S’)存入經(jīng)驗池Buffer;
步驟4:從經(jīng)驗池Buffer 中隨機(jī)選取出M個經(jīng)驗(Si,v?yi,Ri,Si’),i= 1, 2, …,M;
步驟5:對選取出的每個經(jīng)驗(Si,v?yi,Ri,Si’),計算其價值函數(shù)yi=Ri+γ Qt(Si’,πt(Si’|θt)|Φt);
步驟6:通過最小化來更新Critic 網(wǎng)絡(luò)Q的參數(shù);
步驟7:通過采用策略梯度(policy gradient)算法,來更新Actor 網(wǎng)絡(luò)π的參數(shù);
步驟8:采用平滑更新算法,來分別更新Target Critic 網(wǎng)絡(luò)Qt的參數(shù)Φt和Target Actor 網(wǎng)絡(luò)πt的參數(shù)θt。
為了驗證本研究所提出的上述方法的有效性,在Matlab/Simulink 軟件中搭建了仿真環(huán)境和深度強(qiáng)化學(xué)習(xí)算法。車輛模型基于Matlab/Simulink 中Vehicle Dynamics Blockset 工具箱所提供的Muscle Car 模型進(jìn)行搭建,車輛在無限大的水平地面上進(jìn)行多個片段的反復(fù)訓(xùn)練。車輛模型和仿真場景如圖6 所示,車輛的主要參數(shù)如表1 所示。
圖6 用于訓(xùn)練的車輛模型和仿真場景
表1 車輛模型的主要參數(shù)
在訓(xùn)練學(xué)習(xí)階段中,每個訓(xùn)練片段持續(xù)10 s,車輛從靜止開始加速,采用不同的駕駛員方向盤轉(zhuǎn)角δ和車輪輸出轉(zhuǎn)矩的組合作為車輛模型的輸入,對智能體進(jìn)行訓(xùn)練。δ的輸入包括150°的δ恒定值輸入、斜率為30 (°)/s 且最大值為150°的δ斜坡輸入、以及不同幅值和頻率的δ正弦波輸入,δ正弦波輸入信號的幅值和頻率特征如表2 所示,從δ到前輪轉(zhuǎn)角的傳動比為20。4 個車輪的輸出轉(zhuǎn)矩Ti分別在{50, 100, 150, 200 } Nm這4 個值中進(jìn)行選取并隨機(jī)組合。在本研究的訓(xùn)練中,受限于訓(xùn)練樣本變量維度和仿真算力的約束,將不考慮整車質(zhì)量的變化,而將其視為一個定值。
表2 訓(xùn)練過程中的方向盤轉(zhuǎn)角輸入信號
訓(xùn)練過程中的主要參數(shù)設(shè)置如表3 所示。
表3 訓(xùn)練過程的主要參數(shù)
訓(xùn)練的結(jié)束條件設(shè)置為:最近100 次訓(xùn)練片段得到的累計獎勵平均值不小于閾值-100,即認(rèn)為此時對側(cè)向車速估計的準(zhǔn)確度達(dá)到了要求。該閾值的選取基于式(3)中對獎勵值的計算公式:將能夠容忍的最大估計誤差值所對應(yīng)的獎勵值,乘以單個訓(xùn)練片段中設(shè)置的最大步長數(shù),即作為用于判斷訓(xùn)練過程是否結(jié)束的累計獎勵平均值的閾值。
某個訓(xùn)練過程的獎勵值(reward)隨訓(xùn)練片段次數(shù)(N)變化關(guān)系如圖7 所示。在經(jīng)過630 次訓(xùn)練之后,累計獎勵平均值達(dá)到了設(shè)置閾值,此時認(rèn)為訓(xùn)練過程完成。
圖7 仿真訓(xùn)練過程中獎勵值的變化趨勢
完成訓(xùn)練之后,智能體中的Actor 網(wǎng)絡(luò)(或稱之為估計策略網(wǎng)絡(luò))即可用于對側(cè)向車速進(jìn)行實時估計。采用不在訓(xùn)練場景數(shù)據(jù)庫中的全新的仿真場景驗證其對側(cè)向車速的估計效果,選用的是Vehicle Dynamics Blockset 工具箱中的雙車道變換場景,如圖8 所示。
圖8 用于驗證估計效果的雙車道變換仿真場景
車輛以40 km/h 的初速度向前加速,當(dāng)車速達(dá)到60 km/h 時開始進(jìn)行雙車道變換操作。
采用擴(kuò)展Kalman 濾波(extended Kalman filtering,EKF)算法作為對照組。EKF 是在車輛狀態(tài)觀測中廣泛應(yīng)用的估計方法,可處理車輛模型中的輪胎非線性等因素。
在雙車道變換場景中的側(cè)向車速(vy)估計結(jié)果對比如圖9 所示。
圖9 雙車道變換下的側(cè)向車速估計效果驗證
由圖9 可知:智能體(Agent)在經(jīng)過訓(xùn)練之后,其估計策略網(wǎng)絡(luò)能夠?qū)囕v行駛過程中的側(cè)向車速進(jìn)行較為準(zhǔn)確的估計。在車輛加速行駛和雙車道變換的大部分過程中,估計值和真實值均較為接近,只在車道變換過程的后半部分存在一定的估計誤差,且總體估計精度優(yōu)于EKF 方法的估計值。
圖9中2 種算法的估計誤差的最大值和均方根(RMS)值如表4 所示。
由表4 可知:深度強(qiáng)化學(xué)習(xí)算法的最大估計誤差比EKF 算法減小了40%,估計誤差的RMS 比EKF 算法減小了58%。
表4 仿真工況中2 種算法的估計誤差比較
如前所述,在完成了訓(xùn)練過程之后,只需將智能體中的Actor 網(wǎng)絡(luò)部署到實車控制器中,即可實現(xiàn)對側(cè)向車速的估計。因此,影響算法實時性的主要是Actor網(wǎng)絡(luò)在控制器中的運(yùn)算時長。以本文研究中設(shè)計的Actor 網(wǎng)絡(luò)為例,其主要的運(yùn)算量集中在4 個全連接層(每個全連接層包含48 個神經(jīng)元節(jié)點)和1 個循環(huán)神經(jīng)網(wǎng)絡(luò)層(包含100 個節(jié)點)。
以全連接層的計算為例,一個全連接層中每個節(jié)點的輸出值y=σ(wx+b),其中:σ(·)是激活函數(shù),x是上一層所有節(jié)點的輸出值組成的向量(維度為48×1),w是權(quán)重系數(shù)向量,b是偏置值。因此完成單個節(jié)點的計算輸出需要進(jìn)行48 次浮點乘法運(yùn)算和48 次浮點加法運(yùn)算,以及1 次激活函數(shù)的運(yùn)算;完成4 個全連接層中的所有節(jié)點的計算輸出大約需要進(jìn)行4×48×48 次乘法運(yùn)算,4×48×48 次加法運(yùn)算,以及4×48 次激活函數(shù)的運(yùn)算。而循環(huán)神經(jīng)網(wǎng)絡(luò)層的計算量通常比普通的全連接層更大。
因此,對于傳統(tǒng)的嵌入式控制器和單片機(jī)來說,進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的實時計算是存在難度的,需要具有并行運(yùn)算能力的高算力平臺(如GPU 和FPGA),才能較好地實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的估計算法的實時運(yùn)行,這也是未來研究工作的方向之一。此外,從降低計算量的角度考慮,增加全連接層的層數(shù)比增加每個全連接層中的節(jié)點數(shù)更具性價比。
本文基于深度強(qiáng)化學(xué)習(xí)的范式,設(shè)計了四輪獨(dú)立電驅(qū)動車輛的側(cè)向車速估計方法。結(jié)合深度神經(jīng)網(wǎng)絡(luò)的非線性擬合能力和強(qiáng)化學(xué)習(xí)的訓(xùn)練模式,以易于測量的車輛行駛狀態(tài)量為輸入,通過對獎勵函數(shù)、神經(jīng)網(wǎng)絡(luò)、訓(xùn)練場景的合理設(shè)計,實現(xiàn)了對車輛側(cè)向車速的估計功能。
仿真結(jié)果表明:在經(jīng)過充分的行駛場景訓(xùn)練之后,與擴(kuò)展Kalman 濾波方法比較,本文智能體中的估計策略網(wǎng)絡(luò)的估計誤差降低了40%,誤差的均方根降低了58%。因而,本方法提高了四輪獨(dú)立電驅(qū)動車輛側(cè)向車速的估計精度,不僅能夠?qū)崿F(xiàn)對車輛側(cè)向車速的準(zhǔn)確估計,還可以應(yīng)用于對其他車輛動力學(xué)狀態(tài)的實時估計。