【摘要】針對(duì)自動(dòng)駕駛車輛各橫向控制因素存在強(qiáng)耦合性,依賴?yán)硐肽P偷目刂品椒y以實(shí)現(xiàn)完全解耦且難以從仿真環(huán)境遷移到實(shí)際車輛,以及強(qiáng)化學(xué)習(xí)方法在自動(dòng)駕駛橫向控制中收斂速度慢的問題,利用模糊推理器和模仿強(qiáng)化學(xué)習(xí)在車輛橫向控制中的共性,以模糊推理器作為模仿強(qiáng)化學(xué)習(xí)初始化條件,并進(jìn)行學(xué)習(xí)過程指導(dǎo),從而實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)過程的快速收斂。利用MATLAB/Carla仿真以及實(shí)車試驗(yàn)對(duì)該控制方法進(jìn)行了驗(yàn)證,結(jié)果表明,該方法在不依賴?yán)硐霐?shù)學(xué)模型、不對(duì)模糊推理器進(jìn)行深度優(yōu)化的基礎(chǔ)上,實(shí)現(xiàn)了模仿強(qiáng)化學(xué)習(xí)迭代次數(shù)的大幅減少,在500次的全路徑迭代過程中完成了更優(yōu)的車輛橫向控制,在仿真和現(xiàn)實(shí)環(huán)境中均可獲得很好的控制效果。
主題詞:自動(dòng)駕駛 橫向控制 模仿學(xué)習(xí) 強(qiáng)化學(xué)習(xí) 模糊推理
中圖分類號(hào):U471.1 " 文獻(xiàn)標(biāo)志碼:A " DOI: 10.19620/j.cnki.1000-3703.20230009
A Lateral Control Method of Autonomous Driving Based on Fuzzy Convergence and Imitative Reinforcement Learning
Zheng Chuan, Du Yu, Liu Zijian
(Beijing Key Laboratory of Information Service Engineering, Beijing Union University, Beijing 100101)
【Abstract】In view of the strong coupling of each control factor in the lateral control of autonomous vehicles, it is difficult for the control method relying on the ideal model to completely decouple and migrate from the simulation environment to the actual vehicle, and the problem that the convergence speed of the reinforcement learning method in the lateral control of autonomous vehicles is not ideal, the fuzzy inference machine and the similarity of the simulation reinforcement learning in the lateral control factors of vehicles are used to combine the two. A fuzzy inference machine is used as the initialization condition for simulated reinforcement learning, and provide guidance for the learning process, thus achieving rapid convergence of the learning process. The MATLAB/Carla simulation and vehicle test are applied to verify the control method. The results show that the method can significantly reduce the number of simulation reinforcement learning iterations, achieve better vehicle lateral control performance in 500 full path iterations, and achieve good control effect in both simulation and real environment on the basis of not relying on the ideal mathematical model and not having to carry out in-depth optimization of the fuzzy inference device.
Key words: Autonomous driving, Lateral control, Imitative learning, Reinforcement learning, Fuzzy inference
【引用格式】 鄭川, 杜煜, 劉子健. 基于模糊收斂和模仿強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛橫向控制方法[J]. 汽車技術(shù), 2024(7): 29-36.
ZHENG C, DU Y, LIU Z J. A Lateral Control Method of Autonomous Driving Based on Fuzzy Convergence and Imitative Reinforcement Learning[J]. Automobile Technology, 2024(7): 29-36.
1 前言
為確保自動(dòng)駕駛車輛在路徑規(guī)劃[1]的基礎(chǔ)上實(shí)現(xiàn)精準(zhǔn)、安全與穩(wěn)定的橫向控制,研究人員根據(jù)自動(dòng)駕駛汽車的橫向運(yùn)動(dòng)模型[2-4]提出了多種橫向控制方法。文獻(xiàn)[5]基于合適的預(yù)瞄距離,采用純跟蹤(Pure Pursuit)算法對(duì)斯坦利(Stanley)算法進(jìn)行改進(jìn),提出了一種新的融合控制算法。文獻(xiàn)[6]提出了一種基于無模型自適應(yīng)控制的無人駕駛汽車橫向控制方案。文獻(xiàn)[7]、文獻(xiàn)[8]設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的無人駕駛車輛橫向控制策略。文獻(xiàn)[9]將模型預(yù)測(cè)控制(Model Predictive Control,MPC)算法和車輛動(dòng)力學(xué)模型相結(jié)合并通過仿真驗(yàn)證了MPC算法在車輛橫向控制上的準(zhǔn)確性和可行性。文獻(xiàn)[10]在車輛動(dòng)力學(xué)模型的基礎(chǔ)上設(shè)計(jì)了有前饋補(bǔ)償?shù)木€性二次型調(diào)節(jié)器(Linear Quadratic Regulator,LQR)算法。文獻(xiàn)[11]對(duì)基于MPC的智能駕駛汽車橫向運(yùn)動(dòng)控制進(jìn)行了研究及仿真驗(yàn)證。然而,這些方法均對(duì)模型進(jìn)行了理想化的假設(shè),如在車輛動(dòng)力學(xué)模型中忽略了車輛橫向偏差在距離偏差和方向偏差上的非耦合關(guān)系。另外,深度強(qiáng)化學(xué)習(xí)的方法需要進(jìn)行基于大量樣本的訓(xùn)練,對(duì)于以MPC為代表的控制算法,其精度較高的模型往往具有較高的計(jì)算代價(jià),難以保證實(shí)時(shí)性[7]。由于各控制因素之間具有強(qiáng)耦合性,只考慮部分控制因素并不能實(shí)現(xiàn)車輛的精確控制。
建立自動(dòng)駕駛汽車橫向控制模型時(shí),模糊推理[12]與強(qiáng)化學(xué)習(xí)[13-17]的方法有其內(nèi)在的共性。模糊推理器需尋求輸入前件和輸出后件語(yǔ)義化并滿足特定映射條件。實(shí)際上,無模型的強(qiáng)化學(xué)習(xí)方法在確立其狀態(tài)空間和行為空間過程中,也在尋求從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的可能性,并利用這種可能性得到最優(yōu)映射關(guān)系。
基于以上分析,本文提出基于模糊推理和模仿強(qiáng)化學(xué)習(xí)的橫向控制方法(A lateral control method based on Fuzzy Inference and Reinforcement Learning,F(xiàn)IRL),在初始的自動(dòng)駕駛汽車模糊推理器(橫向控制收斂)基礎(chǔ)上進(jìn)行強(qiáng)化學(xué)習(xí)迭代,并在學(xué)習(xí)過程中以模糊推理器作為強(qiáng)化學(xué)習(xí)的隨機(jī)因素,“指導(dǎo)”車輛的學(xué)習(xí)過程,以大幅減少學(xué)習(xí)過程中強(qiáng)化學(xué)習(xí)的迭代次數(shù)。
2 模糊推理器設(shè)計(jì)
圖1所示為基于軌跡點(diǎn)的車輛運(yùn)動(dòng)模型。其中,x-y為車輛坐標(biāo)系,y軸正方向?yàn)檐囕v前進(jìn)方向,TH為軌跡點(diǎn)的航向(軌跡點(diǎn)的切線方向),與y軸所成夾角φ為方向偏差(Heading),D為軌跡點(diǎn)與車輛坐標(biāo)系原點(diǎn)的橫向偏差(Devation)。
從圖1中可以看出,車輛沿軌跡行駛時(shí),橫向偏差和方向偏差越小,與軌跡的重合度就越高。當(dāng)車輛由模糊推理器進(jìn)行橫向控制時(shí),在前件的模糊集合中,如果橫向偏差和方向偏差處于某個(gè)狀態(tài),轉(zhuǎn)向盤將對(duì)應(yīng)一個(gè)合適的轉(zhuǎn)角。輸入這2個(gè)變量時(shí),最終通過模糊規(guī)則輸出轉(zhuǎn)向盤轉(zhuǎn)角實(shí)現(xiàn)車輛的橫向控制。
以車輛橫向偏差和方向偏差作為模糊推理器的輸入前件,以轉(zhuǎn)向盤的目標(biāo)轉(zhuǎn)角(Steering)作為輸出后件,在部分專家經(jīng)驗(yàn)指導(dǎo)下生成模糊邏輯規(guī)則,初步建立一個(gè)基于部分專家規(guī)則庫(kù)的模糊推理系統(tǒng)(Fuzzy Inference System,F(xiàn)IS),該系統(tǒng)框架如圖2所示。
2.1 前、后件的語(yǔ)義劃分
車輛定位點(diǎn)與軌跡點(diǎn)的橫向偏差的語(yǔ)義設(shè)置為偏左很遠(yuǎn)(LDFar)、偏左較遠(yuǎn)(LDNear)、偏左較?。―Zero)、偏右較遠(yuǎn)(RDNear)、偏右很遠(yuǎn)(RDFar);車輛行駛方向與軌跡點(diǎn)切線方向的方向偏差的語(yǔ)義設(shè)置為偏左很多(LHFar)、偏左較多(LHNear)、偏左較?。℉Zero)、偏右較多(RHNear)、偏右很多(RHFar);車輛轉(zhuǎn)向盤的目標(biāo)轉(zhuǎn)角的語(yǔ)義設(shè)置為向左轉(zhuǎn)角很大(LSBig)、向左轉(zhuǎn)角較大(LSSmall)、轉(zhuǎn)角較?。⊿Zero)、向右轉(zhuǎn)角較大(RSSmall)、向右轉(zhuǎn)角很大(RSBig)。
2.2 隸屬度函數(shù)的選取
本文以設(shè)計(jì)的模糊推理系統(tǒng)作為強(qiáng)化學(xué)習(xí)的初始解和學(xué)習(xí)過程的隨機(jī)因素來源。對(duì)整個(gè)模糊推理系統(tǒng)的設(shè)計(jì)要求無需過于嚴(yán)格,只要保證在車輛全路徑跟蹤時(shí)滿足收斂條件即可。對(duì)前件和后件統(tǒng)一采用三角隸屬度函數(shù)表述:
[fx,a,b,c=0, " " " " " x≤ax-ab-a, alt;x≤bc-xc-b, "blt;x≤c0, " " " " " xgt;c] " " " " " " " " (1)
式中:x為自變量,a為控制函數(shù)開始增加的點(diǎn),b為控制函數(shù)達(dá)到最大值1的點(diǎn),c為控制函數(shù)開始減少的點(diǎn)。
2.3 專家規(guī)則庫(kù)的映射
通過部分專家經(jīng)驗(yàn)建立的25條專家規(guī)則如表1所示,將其映射到規(guī)則矩陣(RuleMatrix),其中每一行代表一條規(guī)則,前2列分別是車輛定位點(diǎn)與軌跡點(diǎn)的橫向偏差D和車輛行駛方向與軌跡點(diǎn)切線方向的方向偏差H(夾角φ)的數(shù)值映射,第3列是車輛轉(zhuǎn)向盤轉(zhuǎn)角S的數(shù)值映射,第4列是該規(guī)則的權(quán)重,是前件D和H的邏輯運(yùn)算關(guān)系“與”邏輯。采用重心法(Centroid)進(jìn)行解模糊,最終得到目標(biāo)轉(zhuǎn)角輸出,將該解作為后續(xù)強(qiáng)化學(xué)習(xí)的一個(gè)初始解和收斂條件。
3 無模型強(qiáng)化學(xué)習(xí)器設(shè)計(jì)
3.1 強(qiáng)化學(xué)習(xí)因素
根據(jù)智能體的狀態(tài)、行為與回報(bào)等因素設(shè)計(jì)強(qiáng)化學(xué)習(xí)過程,在如圖1所示的車輛橫向控制模型中,將車輛視為智能體,在一段已知的軌跡中要求其以最小的橫向偏差和方向偏差進(jìn)行尋跡行駛。以已知軌跡點(diǎn)的狀態(tài)集合(坐標(biāo)點(diǎn)和點(diǎn)的方向)作為狀態(tài)空間:
[Sn=px0,y0,hx0,y0,···,pxn,yn,hxn,yn] " (2)
式中:Si(i=0,1,2,…,n)為目標(biāo)軌跡點(diǎn)的狀態(tài)集合,p(xi,yi)為軌跡點(diǎn)坐標(biāo),h(xi,yi)為軌跡點(diǎn)的方向,n為軌跡點(diǎn)數(shù)量。
模糊推理器的前、后件輸出結(jié)果映射為:
FSn(h,D)→FAn(s) " " " " " " " " " " " " " " (3)
式中:FSn(h,D)為輸入前件,F(xiàn)An(s)為輸出后件,h為方向偏差,s為狀態(tài)集合子集。
將模糊推理作為獎(jiǎng)勵(lì)函數(shù)(γ因子)設(shè)為強(qiáng)化學(xué)習(xí)的隨機(jī)因素,貪婪策略作為θ因子設(shè)為強(qiáng)化學(xué)習(xí)的隨機(jī)因素,車輛的轉(zhuǎn)向盤轉(zhuǎn)角集合作為行為空間:
[An=RAn(Sn)θ+FAn(s)γ] " " " " " " " " "(4)
式中:RAn(Sn)為貪婪法則因子下的行為空間,F(xiàn)An(s)為模糊推理器的輸出行為空間,γ=1-θ為強(qiáng)化學(xué)習(xí)的隨機(jī)因子。
根據(jù)車輛橫向偏差和方向偏差設(shè)定智能體車輛在當(dāng)前軌跡狀態(tài)下的回報(bào)。車輛在不斷試錯(cuò)學(xué)習(xí)的迭代過程中,最終利用貪婪法實(shí)現(xiàn)在誤差范圍內(nèi)的尋跡行駛。
3.2 強(qiáng)化學(xué)習(xí)方法選擇
對(duì)于自動(dòng)駕駛車輛,橫向控制系統(tǒng)設(shè)計(jì)時(shí)需要考慮如何在盡量少的學(xué)習(xí)環(huán)節(jié)中實(shí)現(xiàn)最佳橫向控制,在同等或者更優(yōu)的強(qiáng)化學(xué)習(xí)效果條件下,學(xué)習(xí)的次數(shù)越少,強(qiáng)化學(xué)習(xí)的收斂越快,在整個(gè)操作層面上就越接近實(shí)現(xiàn)最優(yōu)控制。在一些強(qiáng)化學(xué)習(xí)的方法中:蒙特卡洛(Monre Carlo,MC)方法在完整的軌跡上進(jìn)行學(xué)習(xí),但是學(xué)習(xí)效率低、收斂速度慢;時(shí)序差分(Temporal Difference,TD)法利用樣本值估計(jì)值函數(shù),屬于有方差的學(xué)習(xí)方法;動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)方法無偏差,也無樣本估計(jì)的方差。如需在建立的模型上針對(duì)狀態(tài)轉(zhuǎn)移概率、回報(bào)以及折扣因子進(jìn)行適當(dāng)?shù)哪P徒馕?,通過與理想軌跡和模糊控制初始解相結(jié)合的方式求解,在基于無模型強(qiáng)化學(xué)習(xí)的方法中,Q學(xué)習(xí)(Q-learning)較為理想,其將問題歸納到馬爾可夫決策過程(Markov Decision Process,MDP),利用貝爾曼方程實(shí)現(xiàn)模型的求解[18-19]。
3.3 自動(dòng)駕駛車輛橫向控制的馬爾可夫決策過程
在基于專家經(jīng)驗(yàn)的模糊推理器上,將車輛控制模型抽象化,根據(jù)橫向偏差和方向偏差劃分車輛狀態(tài),形成駕駛環(huán)境(狀態(tài)空間)Sn。根據(jù)車輛的轉(zhuǎn)角輸出對(duì)其進(jìn)行劃分,形成智能體(行為空間)An。在Q學(xué)習(xí)中,對(duì)于四元組的MDP,M=lt;S,A,R,γgt;,其中M代表一個(gè)馬爾可夫決策,S為狀態(tài)空間,A為行動(dòng)空間,R為即時(shí)回報(bào),γ為強(qiáng)化學(xué)習(xí)的隨機(jī)因子,即回報(bào)因子。在回報(bào)函數(shù)確定的情況下,利用貝爾曼方程對(duì)其建立的MDP進(jìn)行求解,經(jīng)策略迭代,可得到所有狀態(tài)下的最優(yōu)策略和最優(yōu)動(dòng)作。
3.3.1 回報(bào)函數(shù)設(shè)計(jì)
根據(jù)車輛偏離已知軌跡預(yù)設(shè)點(diǎn)的橫向偏差和方向偏差,設(shè)計(jì)回報(bào)函數(shù)為:
[R=1fac1|Δd| + fac2|Δh|] " " " " " " " " " " " (5)
式中:fac1為距離偏差影響因子,fac2為方向偏差影響因子,Δd為即時(shí)橫向偏差,Δh為即時(shí)方向偏差。
3.3.2 最優(yōu)策略求解
在狀態(tài)空間、行為空間和回報(bào)函數(shù)確定后,用行為回報(bào)最大的值更新原有的值。值迭代算法為:
[Qs,a=Qs,a+α{r+βqmax-Q(s,a)}] " " " (6)
式中:Q(s′,a′)為下一狀態(tài)的Q值,q′max為下一狀態(tài)下所有行為Q值的最大值,Q(s,a)為當(dāng)前狀態(tài)的Q值,α、β為迭代因子,r′為下一狀態(tài)的回報(bào)。
以基于部分專家規(guī)則庫(kù)的模糊推理器對(duì)應(yīng)的模糊解作為強(qiáng)化學(xué)習(xí)的初始解,進(jìn)行針對(duì)該模糊推理器的強(qiáng)化學(xué)習(xí),在此基礎(chǔ)上進(jìn)行數(shù)值迭代,找到每個(gè)狀態(tài)對(duì)應(yīng)的最優(yōu)解。算法設(shè)計(jì)流程如圖3所示。
3.4 模糊推理器作為智能體的模仿學(xué)習(xí)
在模糊推理器及強(qiáng)化學(xué)習(xí)狀態(tài)、行為、回報(bào)因素的設(shè)計(jì)中,模糊推理器實(shí)現(xiàn)了橫向偏差和方向偏差到轉(zhuǎn)向盤轉(zhuǎn)角的映射。Q-learning以橫向偏差和方向偏差作為Q值迭代的回報(bào)因素,在某個(gè)特定的軌跡狀態(tài)中,模糊推理器輸出的行為與強(qiáng)化學(xué)習(xí)在隨機(jī)或者貪婪迭代過程中選擇的行為空間子集一致,因此可以將模糊推理器作為一個(gè)單獨(dú)的智能體加入到該Q-learning中,通過有限次迭代可以得出基于初步設(shè)計(jì)的模糊推理器的Q-learning結(jié)果。該結(jié)果基于模糊推理器的先驗(yàn)經(jīng)驗(yàn)(部分專家經(jīng)驗(yàn)庫(kù)),將模糊推理器的控制結(jié)果作為強(qiáng)化學(xué)習(xí)的初始解,實(shí)際上是基于部分專家經(jīng)驗(yàn)庫(kù)指導(dǎo)的Q-learning模仿學(xué)習(xí)過程,后續(xù)強(qiáng)化學(xué)習(xí)基于此結(jié)果進(jìn)行,以大幅減少學(xué)習(xí)所需的迭代次數(shù)。
3.5 模糊推理器指導(dǎo)車輛行為選擇
在強(qiáng)化學(xué)習(xí)過程中無指導(dǎo)地選擇隨機(jī)動(dòng)作無疑會(huì)增加車輛學(xué)習(xí)的負(fù)擔(dān),在車輛對(duì)已知軌跡尋跡的探索中,很多錯(cuò)誤的動(dòng)作在無指導(dǎo)的情況下都會(huì)被選擇并進(jìn)行試錯(cuò)學(xué)習(xí)。模糊推理器在車輛學(xué)習(xí)的過程中為車輛提供先驗(yàn)經(jīng)驗(yàn),并根據(jù)車輛的實(shí)時(shí)學(xué)習(xí)狀態(tài)給予車輛隨機(jī)選取動(dòng)作進(jìn)行試錯(cuò)學(xué)習(xí)的機(jī)會(huì)。通過模糊推理器的行為指導(dǎo),將再次減少學(xué)習(xí)迭代次數(shù)。
4 仿真測(cè)試與結(jié)果分析
本文在MATLAB[20]中搭建并仿真實(shí)現(xiàn)模糊推理器,在Carla[21]仿真環(huán)境中實(shí)現(xiàn)模糊推理器的強(qiáng)化學(xué)習(xí)。
4.1 模糊推理器搭建與仿真
通過MATLAB實(shí)現(xiàn)第2節(jié)中所設(shè)計(jì)的模糊推理器,以距離偏差和方向偏差作為輸入前件,如圖4所示,以轉(zhuǎn)向盤轉(zhuǎn)角作為輸出后件,如圖5所示。通過部分專家經(jīng)驗(yàn)以及解模糊函數(shù)實(shí)現(xiàn)前、后件映射,結(jié)果如圖6所示。
圖6仿真結(jié)果表明,距離偏差為-33.5 cm、方向偏差為-117°時(shí),轉(zhuǎn)向盤輸出轉(zhuǎn)角為263°。前件輸入范圍內(nèi)的距離偏差和方向偏差均可映射到轉(zhuǎn)向盤轉(zhuǎn)角輸出。通過Python編程可實(shí)現(xiàn)第2節(jié)中的模糊控制器。
4.2 基于模糊推理器和強(qiáng)化學(xué)習(xí)的車輛橫向控制仿真
Carla基于虛幻引擎(Unreal Engine)進(jìn)行模擬,并使用OpenDRIVE標(biāo)準(zhǔn)定義道路和城市環(huán)境。通過使用Python和C++處理的應(yīng)用程序編程接口(Application Programming Interface,API)授予對(duì)模擬的控制權(quán)。仿真環(huán)境界面如圖7所示。該仿真環(huán)境擁有強(qiáng)大的物理引擎,可模擬車輛的機(jī)械特性,真實(shí)地模擬現(xiàn)實(shí)世界。
利用Carla的內(nèi)置地圖,在虛幻引擎中運(yùn)行并搭建如圖8所示的自動(dòng)駕駛汽車運(yùn)行環(huán)境。在地圖環(huán)境中選擇環(huán)島場(chǎng)景構(gòu)成的S彎道,道路是由單向雙車道組成,環(huán)島場(chǎng)景被分割為4個(gè)部分,自動(dòng)駕駛車輛從第1入口進(jìn)入環(huán)島并從第3出口駛出環(huán)島,在地圖中顯示出利用A*算法規(guī)劃獲得的車輛行駛的路徑點(diǎn),并通過Python API構(gòu)建具備物理特性的自動(dòng)駕駛車輛。
該場(chǎng)景下的目標(biāo)軌跡具備入彎道和出彎道的特點(diǎn),采用軌跡跟蹤時(shí)真實(shí)軌跡與目標(biāo)軌跡的重合度來考查模糊推理器和模糊推理的無模型自適應(yīng)強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛車輛橫向控制上的性能優(yōu)劣。
為了與本文提出的FIRL進(jìn)行對(duì)比,利用純跟蹤算法[22]、斯坦利算法[5]、第2節(jié)中構(gòu)建的模糊推理器以及第3節(jié)中構(gòu)建的Q-learning(經(jīng)過500次迭代)進(jìn)行控制效果對(duì)比分析。其中,在Carla仿真環(huán)境中采用Python編程可實(shí)現(xiàn)單純的Q-learning對(duì)車輛的控制。各方法在全路徑的軌跡跟蹤中獲取軌跡跟蹤重合度、橫向偏差、方向偏差如圖9所示,其中X、Y分別為地圖橫、縱坐標(biāo)。
由圖9a可知:?jiǎn)渭兊膹?qiáng)化學(xué)習(xí)方法在500次迭代學(xué)習(xí)后,車輛并不能完成全軌跡跟蹤,仍然需要更多的學(xué)習(xí)次數(shù)進(jìn)行迭代;采用FIRL時(shí)在500次迭代后已經(jīng)能夠很好地進(jìn)行全路徑的軌跡跟蹤,說明FIRL能夠大幅縮短學(xué)習(xí)過程。
從圖9b中可以看出:斯坦利和純跟蹤方法均能實(shí)現(xiàn)較好的橫向控制,進(jìn)而實(shí)現(xiàn)車輛的軌跡跟蹤,并且斯坦利算法性能更為優(yōu)越;FIRL相比較這2種控制方法性能均有所提升,軌跡跟蹤的重合度更高。在該仿真中,F(xiàn)IRL僅通過500次的全路徑迭代學(xué)習(xí)即可超越斯坦利算法實(shí)現(xiàn)車輛控制。
由圖9c可知,模糊控制算法實(shí)現(xiàn)了全路徑軌跡跟蹤的收斂,但是在控制過程中,特別是在進(jìn)入彎道和出彎道時(shí)方向偏差出現(xiàn)了大幅振蕩。
將模糊控制、純跟蹤、斯坦利以及FIRL進(jìn)行500次迭代學(xué)習(xí)(FIRL-500),軌跡跟蹤結(jié)果如表2、表3所示。
由表2、表3可知,相較于模糊控制、純跟蹤、斯坦利算法,F(xiàn)IRL-500使車輛在整個(gè)路徑的軌跡跟蹤過程中控制軌跡偏離的效果和運(yùn)行的平滑度得到了提升。
5 實(shí)車驗(yàn)證
5.1 自動(dòng)駕駛車輛平臺(tái)
強(qiáng)化學(xué)習(xí)結(jié)果實(shí)車遷移平臺(tái)使用如圖10所示的北京聯(lián)合大學(xué)“京龍”號(hào)無人駕駛車,該平臺(tái)基于長(zhǎng)城VV6的基礎(chǔ)車輛底盤進(jìn)行線控改制,使其具備線控制動(dòng)、線控轉(zhuǎn)向、線控油門、線控?fù)跷坏墓δ?,并增加組合導(dǎo)航、32線激光雷達(dá)、毫米波雷達(dá)、攝像頭等傳感器,通過CAN總線和用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol,UDP)的通信方式實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)與各線控執(zhí)行層的通信控制與反饋。
5.2 環(huán)島場(chǎng)景的控制方法遷移
車輛加裝組合導(dǎo)航設(shè)備對(duì)某環(huán)島區(qū)域地圖進(jìn)行高精度采集,并繪制可行駛道路的軌跡(道路中心線或車道中心線)。環(huán)島場(chǎng)景對(duì)自動(dòng)駕駛橫向控制的要求很高,該場(chǎng)景涉及入彎道、出彎道與彎道行駛等具體場(chǎng)景,如圖11所示。車輛從第4出口進(jìn)入環(huán)島,從第2出口駛出環(huán)島。在仿真場(chǎng)景中構(gòu)建相同的環(huán)島場(chǎng)景,如圖12所示。
5.3 仿真車輛與實(shí)際車輛關(guān)鍵參數(shù)標(biāo)定
Carla仿真環(huán)境擁有精確的車輛體積和真實(shí)的核心物理特性,基于虛幻引擎4(Unreal Engine 4)的框架,開啟物理特性后,能夠很好地模擬車輛在現(xiàn)實(shí)環(huán)境中的駕駛特性,如車輪摩擦、懸架、質(zhì)心和車輛起動(dòng)速度等。本文的控制方法首先在模擬環(huán)境中學(xué)習(xí)得到最優(yōu)控制結(jié)果,在仿真學(xué)習(xí)過程中需要對(duì)仿真場(chǎng)景和真實(shí)車輛進(jìn)行基礎(chǔ)設(shè)定,標(biāo)定的關(guān)鍵參數(shù)如表4所示。
車輛一致性標(biāo)定步驟如下:
a. 最大速度參數(shù)設(shè)定。將車輛最高速度參數(shù)設(shè)定為真實(shí)場(chǎng)景下的環(huán)島最高限速。實(shí)際車輛在環(huán)島場(chǎng)景下,其縱向控制由PID算法對(duì)油門的驅(qū)動(dòng)加上速度反饋閉環(huán)控制實(shí)現(xiàn),能夠?qū)崿F(xiàn)速度控制精度在±1%范圍內(nèi)。在車輛基礎(chǔ)物理特性一致的情況下,仿真車輛與實(shí)際車輛具有相似的速度特性。
b. 加、減速特性。仿真車輛和實(shí)際車輛均可通過發(fā)送加、減速指令對(duì)車輛實(shí)施加速和減速控制,可忽略整車質(zhì)量、道路摩擦力的影響,在保證加、減速度范圍一致的情況下確保車輛縱向控制的一致性。
c. 轉(zhuǎn)向特性。FIRL對(duì)仿真車輛和實(shí)際車輛的一致性要求較高,直接決定了橫向控制的一致性。在仿真環(huán)境中,車輛的轉(zhuǎn)向不是通過控制轉(zhuǎn)向盤轉(zhuǎn)角實(shí)現(xiàn)的,而是直接將車輪轉(zhuǎn)角的范圍映射到[-1,1]范圍內(nèi)。對(duì)實(shí)際車輛的轉(zhuǎn)向控制通過控制轉(zhuǎn)向盤轉(zhuǎn)角實(shí)現(xiàn)。然而,實(shí)際車輪轉(zhuǎn)角與轉(zhuǎn)向盤轉(zhuǎn)角并非線性關(guān)系,如圖13所示。
由圖13可知,設(shè)轉(zhuǎn)向盤轉(zhuǎn)角為Φ時(shí),車輪轉(zhuǎn)角為β,前軸橫向行程為d,轉(zhuǎn)向節(jié)長(zhǎng)度為L(zhǎng),行程d與車輪轉(zhuǎn)角的關(guān)系為:
β=arcsin(d/L) " " " " " " " " " " " " " " "(7)
前軸橫向行程l與轉(zhuǎn)向盤轉(zhuǎn)角Φ的關(guān)系為:
l=Φ·Φmax/Lmax " " " " " " " " " " " " " " "(8)
式中:Φmax為轉(zhuǎn)向盤最大轉(zhuǎn)角,Lmax為車輛在執(zhí)行最大轉(zhuǎn)向盤轉(zhuǎn)角時(shí)的前軸最大橫向行程。
可得轉(zhuǎn)向盤轉(zhuǎn)角Φ與車輪轉(zhuǎn)角β的關(guān)系為:
[β=arcsin(Lmax·dΦmax·Φ)] " " " " " " " " " " " " " (9)
通過與仿真車輛的轉(zhuǎn)向映射進(jìn)行對(duì)比,最終將轉(zhuǎn)向盤轉(zhuǎn)角映射到[-1,1]的范圍內(nèi),與仿真車輛保持一致。
按照前文在仿真環(huán)境中搭建FIRL的方法對(duì)車輛進(jìn)行訓(xùn)練學(xué)習(xí),并將最終的學(xué)習(xí)數(shù)據(jù)應(yīng)用于實(shí)車橫向控制,實(shí)現(xiàn)環(huán)島場(chǎng)景下自動(dòng)駕駛車輛的橫向控制,車輛平順地通過了環(huán)島,表明算法具有良好的控制效果,實(shí)車運(yùn)行可視化界面如圖14所示。
6 結(jié)束語(yǔ)
本文提出了基于模糊推理和模仿強(qiáng)化學(xué)習(xí)的橫向控制方法(FIRL),以模糊推理器作為模仿強(qiáng)化學(xué)習(xí)的初始解和過程“指導(dǎo)”進(jìn)行自動(dòng)駕駛汽車橫向控制,并進(jìn)行了仿真測(cè)試驗(yàn)證以及實(shí)車試驗(yàn)。通過對(duì)模糊控制、純跟蹤、斯坦利、無模仿學(xué)習(xí)的Q-learning方法以及進(jìn)行500次迭代學(xué)習(xí)的FIRL在自動(dòng)駕駛車輛橫向控制方面的控制效果進(jìn)行對(duì)比,得出如下結(jié)論:
a. 在無需準(zhǔn)確數(shù)學(xué)模型的前提下,僅通過對(duì)系統(tǒng)的輸入、輸出數(shù)據(jù)進(jìn)行系統(tǒng)性分析即可實(shí)現(xiàn)車輛橫向控制。
b. 通過模仿強(qiáng)化學(xué)習(xí)的方式對(duì)該模型進(jìn)行優(yōu)化,基于模糊推理器的自動(dòng)駕駛汽車橫向控制模型可實(shí)現(xiàn)更優(yōu)的橫向控制性能。
c. 利用模糊推理器的結(jié)果作為強(qiáng)化學(xué)習(xí)初始解,可大幅縮短學(xué)習(xí)迭代的過程,同時(shí)提高自動(dòng)駕駛車輛軌跡跟蹤的能力。
d. 不依賴?yán)硐霐?shù)學(xué)模型、不需要設(shè)計(jì)復(fù)雜的模糊推理器和使用復(fù)雜的強(qiáng)化學(xué)習(xí)方法可實(shí)現(xiàn)自動(dòng)駕駛汽車橫向控制。
e. FIRL可以在真實(shí)環(huán)境中實(shí)現(xiàn)自動(dòng)駕駛汽車的軌跡跟蹤,證明了其在真實(shí)駕駛場(chǎng)景中的有效性。
參 考 文 獻(xiàn)
[1] 李梓欣, 李軍. 自動(dòng)駕駛汽車路徑規(guī)劃算法研究[J]. 汽車工程師, 2021(8): 11-14.
LI Z X, LI J. Research on Path Planning Algorithm for Autonomous Vehicles[J]. Automotive Engineer, 2021(8): 11-14.
[2] 狄桓宇, 張亞輝, 王博, 等. 自動(dòng)駕駛橫向控制模型及方法研究綜述[J]. 重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)), 2021, 35(7): 71-81.
DI H Y, ZHANG Y H, WANG B, et al. Review on the " " Method and Model of Intelligent Vehicle Lateral Control[J]. Journal of Chongqing University of Technology (Natural " " Science), 2021, 35(7): 71-81.
[3] YANAKIEV D, KANELLAKOPOULOS I. Longitudinal " "Control of Automated CHVs with Significant Actuator Delays[J]. IEEE Transactions on Vehicular Technology, 2001, 50(5): 1289-1297.
[4] XIA Y Q, PU F, LI S F, et al. Lateral Path Tracking Control of Autonomous Land Vehicle Based on ADRC and " " " " " "Differential Flatness[J]. IEEE Transactions on Industrial Electronics, 2016, 63(5): 3091-3099.
[5] 王鑫, 凌銘, 饒啟鵬, 等. 基于改進(jìn)Stanley算法的無人車路徑跟蹤融合算法研究[J]. 汽車技術(shù), 2022(7): 25-31.
WANG X, LING M, RAO Q P, et al. Research on Fusion " "Algorithm of Unmanned Vehicle Path Tracking Based on " Improved Stanley Algorithm[J]. Automobile Technology, 2022(7): 25-31.
[6] 田濤濤, 侯忠生, 劉世達(dá), 等. 基于無模型自適應(yīng)控制的無人駕駛汽車橫向控制方法[J]. 自動(dòng)化學(xué)報(bào), 2017, 43(11): 1931-1940.
TIAN T T, HOU Z S, LIU S D, et al. Model-Free Adaptive Control Based Lateral Control of Self-Driving Car[J]. Acta Automatica Sinica, 2017, 43(11): 1931-1940.
[7] 潘峰. 基于駕駛員行為特性的無人駕駛汽車控制方法研究[D]. 北京: 北京化工大學(xué), 2021.
PAN F. Research on the Control Method of Autonomous " " Vehicle Based on the Characteristics of Human Drivers[D]. Beijing: Beijing University of Chemical Technology, 2021.
[8] 羅瑞. 基于強(qiáng)化學(xué)習(xí)的無人駕駛車輛橫向控制[D]. 北京: 華北電力大學(xué), 2020.
LUO R. Horizontal Control of Driverless Vehicles Based on Reinforcement Learning[D]. Beijing: North China Electric Power University, 2020.
[9] 邢斯琦, 馮凱, 薛玲玲. 基于模型預(yù)測(cè)的自動(dòng)駕駛橫向控制算法研究[J]. 汽車實(shí)用技術(shù), 2021, 46(15): 45-47+50.
XING S Q, FENG K, XUE L L. Research on Lateral Control Algorithm of Automatic Driving Based on Model Prediction[J]. Automotive Practical Technology, 2021, 46(15): 45-47+50.
[10] 武金龍, 謝凡, 尤麗剛, 等. 自動(dòng)駕駛攪拌車橫向控制設(shè)計(jì)及試驗(yàn)研究[J]. 智能計(jì)算機(jī)與應(yīng)用, 2021, 11(9): 184-188.
WU J L, XIE F, YOU L G, et al. Horizontal Control Design and Experimental Research of Automatic Driving Mixer[J]. Intelligent Computer and Application, 2021, 11(9): 184-188.
[11] 張效宇, 程昆朋, 趙祥磊. 基于MPC的智能駕駛汽車橫向運(yùn)動(dòng)控制研究[C]// 2018中國(guó)汽車工程學(xué)會(huì)年會(huì)論文集. 上海: 機(jī)械工業(yè)出版社, 2018: 85-90.
ZHANG X Y, CHENG K M, ZHAO X L. Research on " " " "Lateral Motion Control of Intelligent Driving Vehicles Based on MPC[C]// Proceedings of the 2018 Annual " " "Meeting of the Society of Automotive Engineers of China. Shanghai: China Machine Press, 2018: 85-90.
[12] 曹艷玲, 張琦. 自適應(yīng)神經(jīng)模糊推理的四輪轉(zhuǎn)向車輛轉(zhuǎn)向控制研究[J]. 機(jī)械設(shè)計(jì)與制造, 2021(3): 224-228+233.
CAO Y L, ZHENG Q. Research on Steering Control of Four-Wheel Steering Vehicle Based on Adaptive Neuro Fuzzy Inference[J]. Mechanical Design and Manufacturing, 2021(3): 224-228+233.
[13] VALLON C, ERCAN Z, CARVALHO A, et al. A Machine Learning Approach for Personalized Autonomous Lane Change Initiation and Control[C]// 2017 IEEE Intelligent Vehicles Symposium (IV). USA: IEEE, 2017: 1590-1595.
[14] SUTTON R S. Learning to Predict by the Methods of nbsp; " Temporal Differences[J]. Machine Learning, 1988, 3(1): 9-44.
[15] 李遠(yuǎn)哲, 胡紀(jì)濱. 強(qiáng)化學(xué)習(xí)在無人車領(lǐng)域的應(yīng)用與展望[J]. 信息與控制, 2022, 51(2): 129-141.
LI Y Z, HU J B. Application and Prospect of Reinforcement Learning in the Field of Unmanned Vehicles[J].Information and Control, 2022, 51(2): 129-141.
[16] 鄒偉, 鬲玲, 劉昱杓. 強(qiáng)化學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2020.
ZOU W, GE L, LIU Y S. Reinforcement Learning[M]. " " Beijing: Tsinghua University Press, 2020.
[17] SUTTON R S, BARTO A G, et al. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 2018.
[18] GAO Z, SUN T, XIAO H, et al. Decision-Making Method for Vehicle Longitudinal Automatic Driving Based on " " " Reinforcement Q-Learning[J]. International Journal of " " " "Advanced Robotic Systems, 2019, 16(3): 141-172.
[19] WATKINS C J C H, DAYAN P. Q-Learning[J]. Machine Learning, 1992, 8(3/4): 279-292.
[20] 張森, 張正亮. MATLAB仿真技術(shù)與實(shí)例應(yīng)用教程[M]. 北京: 機(jī)械工業(yè)出版社, 2004.
ZHANG S, ZHANG Z L. MATLAB Simulation Technology and Example Application Tutorial[M]. Beijing: China " " "Machine Press, 2004.
[21] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: An Open Urban Driving Simulator[EB/OL]. (2017-11-10)[2023-01-30]. https://arxiv.org/abs/1711.03938.
[22] 段建民, 夏天, 宋志雪. 基于聯(lián)合仿真的智能車路徑跟蹤控制研究[J]. 計(jì)算機(jī)仿真, 2017, 34(6): 129-134+151.
DUAN J M, XIA T, SONG Z X. Research on Intelligent " Vehicle Path Tracking Control Based on Joint Simulation[J]. Computer Simulation, 2017, 34(6): 129-134+151.
(責(zé)任編輯 斛 畔)
修改稿收到日期為2023年1月30日。