摘要:為提高自動駕駛的安全性,實現(xiàn)端到端自動駕駛高精度決策規(guī)劃,文章對地圖語義信息融合在端到端自動駕駛決策規(guī)劃進行了研究。獲取主流自動駕駛的基本數(shù)據(jù),引入卷積操作,提取圖像特征。結(jié)合地圖語義信息融合,建立端到端決策模型,實現(xiàn)多模態(tài)多任務(wù)端到端決策規(guī)劃。通過實例證明,新的決策規(guī)劃方法可以為自動駕駛提供高精度運行速度、轉(zhuǎn)向角等決策,促進自動駕駛運行安全性的提升。
關(guān)鍵詞:地圖語義信息融合;自動駕駛;規(guī)劃;決策;端到端
中圖分類號:U461.1" 文獻標志碼:A
0 引言
自動駕駛技術(shù)已逐漸成為汽車行業(yè)的研究熱點和未來趨勢。在自動駕駛系統(tǒng)中,決策規(guī)劃模塊扮演著至關(guān)重要的角色,它基于感知模塊提供的環(huán)境信息,進行行為決策和軌跡生成,從而確保車輛安全、高效地行駛。然而,隨著自動駕駛系統(tǒng)復雜性的提升,決策規(guī)劃模塊面臨著諸多挑戰(zhàn),特別是在如何準確、高效地融合多源信息以支持決策規(guī)劃方面?,F(xiàn)有的自動駕駛決策規(guī)劃方法主要依賴于學習算法和模型。其中,于士杰等[1]利用學習算法,提出一種新的自動駕駛換道決策方法。該方法在實際應(yīng)用中獲取到的信息多為具體的物理信息。陳潔娜等[2]結(jié)合貝葉斯網(wǎng)絡(luò)構(gòu)建RoboSim模型,提出了自動駕駛行為決策方法。該方法獲取到的信息多為抽象的語義信息。這些信息源之間存在較大的差異性,不利于在駕駛決策中應(yīng)用。如何有效地融合這些地圖語義信息和傳感器數(shù)據(jù),以提供更加全面、準確的環(huán)境感知,成了自動駕駛決策規(guī)劃領(lǐng)域亟待解決的問題。同時由于不同信息源的數(shù)據(jù)格式、精度和更新頻率存在差異,導致信息融合過程復雜且容易出錯,且往往只關(guān)注單一信息源的優(yōu)勢,而忽略了多源信息之間的互補性。因此,本文旨在探討地圖語義信息融合在端到端自動駕駛決策規(guī)劃中的應(yīng)用。
1 自動駕駛數(shù)據(jù)采集
在進行端到端的自動駕駛決策規(guī)劃之前,需要綜合考量所獲取的自動駕駛數(shù)據(jù),并將其作為決策基礎(chǔ),以確保規(guī)劃的合理性[3]。如表1所示記錄了主流自動駕駛的基本數(shù)據(jù)集。
將上述主流自動駕駛基本數(shù)據(jù)集作為目標,進行數(shù)據(jù)采集。在進行圖像處理中,引入二值化操作方法將圖像轉(zhuǎn)化為只有黑白2種顏色,以此簡化圖像,減少后續(xù)決策規(guī)劃時的計算量。二值化操作的計算公式為:
I(x,y)=255" if I(x,y)≥Threshold
0else(1)
其中,I(x,y)為圖像在點(x,y) 的像素值;Threshold為設(shè)定閾值。
對于彩色圖像,有時需要將其轉(zhuǎn)化為灰度圖像。這通常是通過計算每個像素的紅色、綠色和藍色分量的加權(quán)和來實現(xiàn)的:
X=0.30R+0.59G+0.11B(2)
其中,X為灰度值;R、G、B分別為紅色、綠色和藍色的分量值。
針對圖像中特征的提取,引入卷積操作。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積操作可寫作:
FeatureMap(x,y)=∑n2i=-n2∑n2j=-n2Kernel(i,j)×Image(x+i,y+j)(3)
其中,F(xiàn)eatureMap(x,y)為特征圖在點(x,y)的值;Kernel為卷積核;Image為輸入圖像。運用上述公式,完成對自動駕駛數(shù)據(jù)的采集和對圖像特征的提取,為后續(xù)地圖語義信息融合提供條件。
2 基于地圖語義信息融合的端到端決策模型建立
在構(gòu)建基于地圖語義信息融合的端到端決策模型時,綜合考慮地圖數(shù)據(jù)的幾何和語義信息以及通過融合這些信息來支持機器人的決策過程[4]。將不同來源的語義信息(如對象識別、場景理解等)進行融合,以形成統(tǒng)一的語義地圖。假設(shè)有2種語義信息來源,分別表示為S1和S2,融合后的語義信息可以表示為Sfused。使用簡單的加權(quán)平均融合策略,融合公式可以表示為:
Sfused=w1S1+w2S2(4)
其中,w1和w2為2種語義信息的權(quán)重,可以根據(jù)實際情況進行調(diào)整?;谌诤虾蟮恼Z義地圖,構(gòu)建端到端的決策模型[5]。假設(shè)決策模型是一個函數(shù)f,根據(jù)當前的語義地圖Msemantic、機器人的狀態(tài)Rstate和目標位置Ttarget生成決策指令D。這一過程的表達式為:
D=f(Msemantic,Rstate,Ttarget)(5)
該模型能夠根據(jù)當前的環(huán)境狀態(tài)、目標位置以及機器人的動態(tài)特性,生成最優(yōu)的決策指令[6]。同時,為確保決策模型構(gòu)建合理,設(shè)置相應(yīng)的約束條件。首先需要確保車輛的速度位于安全速度范圍內(nèi):
vmin≤v≤vmax(6)
其中,vmin為車速下限;v為車輛行駛速度;vmax為車速上限。其次,車輛的轉(zhuǎn)向角應(yīng)位于可能的轉(zhuǎn)向角范圍內(nèi):
θmin≤θ≤θmax(7)
其中,θmin為轉(zhuǎn)向角下限;θ為車輛轉(zhuǎn)向角;θmax為轉(zhuǎn)向角上限?;谏鲜黾s束條件,在訓練決策模型時,需要定義一個損失函數(shù)L,用于衡量模型生成的決策指令與真實情況之間的差異。通過最小化損失函數(shù),優(yōu)化模型的參數(shù)。損失函數(shù)的具體形式取決于所使用的模型和任務(wù)需求[7]??山Y(jié)合均方誤差,預(yù)測車輛連續(xù)速度或轉(zhuǎn)向角,其公式為:
LMSE=1N∑Ni=1(yi-y^i)2(8)
其中,LMSE為均方誤差;N為樣本數(shù)量;yi為真實值;y^i為模型預(yù)測值。預(yù)測車輛的行駛軌跡或行為意圖時,可選用交叉熵損失函數(shù),其表達式為:
LCE=-1N∑Ni=1[yilog(y^i)+(1-yi)log(1-y^i)](9)
其中,LCE為交叉熵損失值;yi為真實標簽(0或1);y^i為模型預(yù)測概率值。利用上述損失函數(shù)對模型進行優(yōu)化,提高模型預(yù)測精度。
3 多模態(tài)多任務(wù)端到端決策規(guī)劃
應(yīng)用上述構(gòu)建的基于地圖語義信息融合的端到端決策模型完成自動駕駛中多模態(tài)多任務(wù)端到端的決策規(guī)劃[8]。這種方法允許自動駕駛系統(tǒng)同時處理多個任務(wù),如道路識別、障礙物檢測、車輛動態(tài)預(yù)測等,通過一個統(tǒng)一的決策模型來生成車輛的行駛速度和轉(zhuǎn)向角。
為了實現(xiàn)這一功能,可以設(shè)計一個多任務(wù)預(yù)測子網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠處理并融合地圖的語義信息。這些信息可能包括道路類型、交通標志、車道線、車輛和行人等對象的檢測與分類[9]。多任務(wù)預(yù)測子網(wǎng)絡(luò)利用深度學習技術(shù),特別是卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)或其變體(如長短期記憶網(wǎng)絡(luò)),來提取這些信息的特征并進行分類。假設(shè)有多個地圖語義信息源,每個源都可以表示為一個特征圖Fi,其中i表示不同的信息源,如道路類型、交通標志等。這些特征圖通過CNN神經(jīng)網(wǎng)絡(luò)進行提取[10]。在CNN神經(jīng)網(wǎng)絡(luò)的卷積層中按照如表2所示的內(nèi)容完成參數(shù)的設(shè)置。
為了有效整合駕駛場景中不同區(qū)域的上下文信息,進而深入挖掘全局上下文特征,實現(xiàn)對車輛交通環(huán)境的精準感知,采用基于PSPNet(Pyramid Scene Parsing Network)的架構(gòu)來提取場景語義信息。該方法的核心在于特征提取器和金字塔池化模塊的聯(lián)合使用。具體而言,輸入的駕駛場景圖片首先通過ResNet-18網(wǎng)絡(luò)進行特征提取,得到包含豐富層次信息的特征圖,其公式為:
F=ResNet-18(I)(10)
其中,F(xiàn)為經(jīng)過ResNet-18網(wǎng)絡(luò)后得到的特征圖;I為輸入的駕駛場景圖片。這些特征圖被送入金字塔池化模塊,該模塊通過不同尺度的池化操作捕獲不同區(qū)域的全局上下文信息并進行有效融合。假設(shè)有M個不同尺度的池化操作,每個尺度si都會生成一個特征圖Pi這個過程可以表示為:
Pi=Poolingsi(F)(11)
其中,Poolingsi為尺度為si的池化操作。這一步驟旨在確保模型能夠充分理解場景中的局部細節(jié)與整體結(jié)構(gòu)。在得到融合的全局上下文信息后,模型進一步通過卷積層進行特征整合,并通過2個池化層對特征圖進行降維處理,最終生成與原始RGB特征圖和深度特征圖尺寸相匹配的語義分割圖。語義分割圖詳細標明場景中各個區(qū)域的語義類別,為自動駕駛系統(tǒng)提供了關(guān)鍵的環(huán)境感知信息。根據(jù)得到的信息,為自動駕駛預(yù)測運行速度以及方向盤轉(zhuǎn)向角度,保持行駛過程中不會受到周圍環(huán)境的影響,確保車輛和人員的安全性。
4 實例應(yīng)用分析
使用的自動駕駛汽車為比亞迪速銳車型改造搭建而成,為該車輛配備攝像頭、三維激光雷達、毫米波雷達和GPS等傳感器。實驗場景結(jié)構(gòu)如圖1所示。
實驗場地中包含一個2.5 km高速環(huán)道、1.1 km長直道以及模擬城市道路和交叉口等道路,具備理想的自動駕駛封閉測試環(huán)境條件。將本文提出的決策規(guī)劃方法應(yīng)用到該實驗場地的自動駕駛汽車上,車輛行駛過程中在道路兩側(cè)設(shè)置障礙物以及設(shè)置同方向行駛的其他車輛。通過本文決策規(guī)劃方法給出車輛在遇到障礙物時的行駛速度以及轉(zhuǎn)向角度。通過對決策規(guī)劃方法給出的預(yù)測結(jié)果與實際結(jié)果對比,驗證該方法的預(yù)測性能。決策規(guī)劃性能分析如表3所示。
從表3得出,決策規(guī)劃預(yù)測結(jié)果與真實情況相比,速度誤差不超過±0.1 km/h,轉(zhuǎn)向角誤差不超過±0.01 rad。由此可以看出,本文提出的決策規(guī)劃方法具備較高的預(yù)測精度,可以為自動駕駛車輛提供準確的行駛決策信息,提高自動駕駛汽車的運行安全性。
5 結(jié)語
隨著自動駕駛技術(shù)的不斷發(fā)展和應(yīng)用,對于更加準確、高效的環(huán)境感知和決策規(guī)劃能力的需求日益迫切。地圖語義信息作為自動駕駛系統(tǒng)中的一種重要信息源,具有獨特的優(yōu)勢和應(yīng)用前景。未來,期待更多的研究者能夠關(guān)注地圖語義信息融合在自動駕駛決策規(guī)劃中的應(yīng)用,不斷探索新的融合方法和算法,以進一步提升自動駕駛系統(tǒng)的性能和安全性。同時,也希望自動駕駛技術(shù)能夠早日實現(xiàn)商業(yè)化應(yīng)用,為人類出行帶來更加便捷、安全的體驗。
參考文獻
[1]于士杰,馬沖,陳見哲.基于學習的自動駕駛換道決策算法研究進展[J].汽車實用技術(shù),2023(24):189-194.
[2]陳潔娜,張銘茁,杜德慧,等.基于貝葉斯網(wǎng)絡(luò)構(gòu)建RoboSim模型的自動駕駛行為決策[J].軟件學報,2023(8):3836-3852.
[3]張可琨,曲大義,宋慧,等.自動駕駛汽車換道決策行為分析及分子相互作用勢建模[J].青島理工大學學報,2023(5):150-159.
[4]程學曉.新能源汽車自動駕駛高精度視覺檢測技術(shù)的研究及應(yīng)用[J].時代汽車,2024(5):104-106.
[5]徐燦,趙萬忠,李琳,等.考慮交互博弈的無信號交叉路口自動駕駛車輛決策規(guī)劃研究[J].機械工程學報,2023(14):202-212.
[6]李佳麗.考慮燃油消耗量的自動駕駛汽車交叉路口生態(tài)駕駛行為決策研究[J].汽車工程師,2023(8):10-20.
[7]裴玉龍,傅博涵,王子奇,等.引力理論框架下基于綜合競爭力的自動駕駛擬人換道決策模型[J].交通運輸系統(tǒng)工程與信息,2024(1):66-80.
[8]陳潔娜,張銘茁,杜德慧,等.基于貝葉斯網(wǎng)絡(luò)構(gòu)建RoboSim模型的自動駕駛行為決策[J].軟件學報,2023(8):3836-3852.
[9]尹騁宇,劉怡良,彭海霞.基于生成式人工智能的網(wǎng)聯(lián)自動駕駛:通感融合決策技術(shù)[J].移動通信,2023(12):60-65.
[10]韓磊,張輪,郭為安.混合交通流環(huán)境下基于MSIF-DRL的網(wǎng)聯(lián)自動駕駛車輛換道決策模型[J].北京交通大學學報,2023(5):148-161.
(編輯 沈 強編輯)
Application of map semantic information fusion in end-to-end autonomous driving decision planning
ZHU" Haoze
(Beijing Chehejia Information Technology Co., Ltd., Beijing 101300, China)
Abstract:" In order to improve the safety of autonomous driving and realize the high-precision decision planning of end-to-end autonomous driving, this article studies the fusion of map semantic information integration in end-to-end autonomous driving decision-making planning. The basic data of the mainstream autonomous driving is obtained, and the convolution operation is introduced to extract the image features. Combined with map semantic information fusion, end-to-end decision model is established to realize multi-modal multi-task end-to-end decision planning. Through examples, it is proved that the new decision planning method can provide high precision running speed and steering corner for autonomous driving, and promote the improvement of operation safety of autonomous driving.
Key words: map semantic information fusion; autonomous driving; planning; decision-making; end-to-end