摘 要:自動(dòng)駕駛車輛廣泛依賴感知系統(tǒng)來進(jìn)行城市導(dǎo)航和環(huán)境理解,然而現(xiàn)有研究大多局限于良好的城市駕駛環(huán)境,在惡劣天氣以及外部干擾下導(dǎo)致的傳感器故障和感知失靈等嚴(yán)重影響現(xiàn)有自動(dòng)駕駛系統(tǒng)的實(shí)際落地。為此提出了一種基于神經(jīng)先驗(yàn)的自動(dòng)駕駛信息重建算法,通過對大范圍自動(dòng)駕駛場景的隱式建模密集地存儲場景幾何先驗(yàn),并基于注意力機(jī)制結(jié)合隱式神經(jīng)先驗(yàn)進(jìn)行自動(dòng)駕駛感知信息的魯棒重建,最終提出一個(gè)通用的自動(dòng)駕駛導(dǎo)航魯棒性增強(qiáng)框架。在CARLA自動(dòng)駕駛模擬器仿真實(shí)驗(yàn)中,該算法顯著提升了多個(gè)現(xiàn)有自動(dòng)駕駛模型在外部干擾下的導(dǎo)航性能,使自動(dòng)駕駛模型在攻擊和干擾下的性能衰減率從82.74%下降到了8.84%,證明了所提方法的通用性和有效性。
關(guān)鍵詞:自動(dòng)駕駛;魯棒性;神經(jīng)輻射場
中圖分類號:TP183"" 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2025)01-016-0111-06
doi: 10.19734/j.issn.1001-3695.2024.06.0185
Neural prior based reconstruction for robust autonomous navigation against various disturbances
Abstract:Autonomous vehicles heavily rely on perception systems for urban navigation and environmental understanding. Despite extensive researches about driving in favorable urban conditions, sensor failures and perception impairments under adverse weather and external interferences significantly impact the practical deployment of current autonomous driving systems. This paper proposed a neural prior-based autonomous driving information reconstruction algorithm for robust end-to-end navigation. This algorithm densely stored scene geometry priors through implicit representation of driving scenarios and designed a reconstruction algorithm for perception based on the attention mechanism. In addition, it proposed a general framework to enhance the robustness of self-driving performance. Extensive experiments in the CARLA simulator demonstrate the generality and effectiveness of the proposed method, and the performance degradation rate of current self-driving models under external disturbances is reduced from 82.74% to 8.84%, which largely improves the driving performance of multiple existing self-driving models under external interferences.
Key words:autonomous driving; robustness; neural radiance field
0 引言
自動(dòng)駕駛是指通過車輛內(nèi)部的計(jì)算機(jī)系統(tǒng)和傳感器,以及先進(jìn)的控制系統(tǒng),使汽車能夠在無須人類駕駛員操控的情況下,實(shí)現(xiàn)自主地感知、分析環(huán)境、作出決策,并執(zhí)行相應(yīng)操作的技術(shù)。通??梢苑譃槟K化方法以及端到端方法兩類[1]。模塊化方法將自動(dòng)駕駛功能拆解為傳感器、感知、決策和控制等多個(gè)相對獨(dú)立的模塊;而端到端方法更類似于人類駕駛過程,直接利用感知信息進(jìn)行導(dǎo)航?jīng)Q策,避免了模塊化導(dǎo)致的無效冗余[2]。然而,要將自動(dòng)駕駛技術(shù)成功地應(yīng)用到現(xiàn)實(shí)世界的駕駛場景仍然面臨著許多挑戰(zhàn),駕駛環(huán)境中揚(yáng)沙揚(yáng)塵、雨雪霧等多變天氣和不同路況要求自動(dòng)駕駛系統(tǒng)在傳感器故障、失靈等各種攻擊和干擾下穩(wěn)定運(yùn)行。針對自動(dòng)駕駛過程中的魯棒性挑戰(zhàn),一種顯而易見的做法是通過在深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中引入模擬惡劣天氣數(shù)據(jù)或直接在異常天氣下采集數(shù)據(jù)來訓(xùn)練模型[3],然而這種數(shù)據(jù)增強(qiáng)方法產(chǎn)生的數(shù)據(jù)缺乏真實(shí)性,且在實(shí)際惡劣天氣等場景下的真實(shí)數(shù)據(jù)難以采集。更具有普適性的做法則是類似文獻(xiàn)[4,5]等利用相機(jī)、激光雷達(dá)以及毫米波雷達(dá)等多模態(tài)傳感器的不同特性,通過Transformer或注意力機(jī)制等進(jìn)行多模態(tài)融合,從而基于冗余信息提升自動(dòng)駕駛系統(tǒng)對應(yīng)環(huán)境的適應(yīng)能力。這類方法具有較好的泛化性,但是將面臨高昂的多模態(tài)傳感器價(jià)格以及異構(gòu)傳感器間的模態(tài)不平衡問題。此外,還有部分研究利用計(jì)算機(jī)視覺中諸如擴(kuò)散模型或者對抗網(wǎng)絡(luò)等方式先對輸入到自動(dòng)駕駛導(dǎo)航模型中的圖像等數(shù)據(jù)進(jìn)行重建[6,7],以提升在感知受到干擾時(shí)車輛的導(dǎo)航性能,但是這種方法難以處理多視角多類型的干擾。實(shí)際上,人類駕駛者在遇到困難的駕駛環(huán)境時(shí)往往能依據(jù)自己的駕駛經(jīng)驗(yàn)進(jìn)行應(yīng)對,特別是在較為熟悉的地區(qū)或城市中進(jìn)行駕駛時(shí),人們能憑借對城市環(huán)境的記憶提升駕駛表現(xiàn)?;谶@種思想,文獻(xiàn)[8]利用高精度地圖作為場景先驗(yàn)以提升駕駛性能表現(xiàn),地圖中的拓?fù)湫畔⒛茱@著提高模型在一般場景下的最終性能,但由于缺乏場景幾何先驗(yàn),難以應(yīng)對更復(fù)雜的駕駛場景。
近年來,神經(jīng)輻射場(neural radiance field, NeRF)技術(shù)因其強(qiáng)大的照片級圖像渲染以及隱式表征能力在自動(dòng)駕駛領(lǐng)域受到了廣泛關(guān)注[9]。利用神經(jīng)輻射場對自動(dòng)駕駛場景紋理以及幾何等信息的緊湊隱式表達(dá),可以在不大幅增加環(huán)境信息存儲壓力的前提下,有效改善高精度地圖中場景幾何信息不足的難題,進(jìn)一步加強(qiáng)自動(dòng)駕駛系統(tǒng)對歷史經(jīng)驗(yàn)以及城市環(huán)境的記憶能力。然而,自動(dòng)駕駛場景具有變化光照、存在動(dòng)態(tài)物體以及無邊界場景特性,傳統(tǒng)的NeRF無法滿足室外場景的需求。針對戶外光照變化的問題,Martin-Brualla等人[10]提出的NeRF-W為神經(jīng)輻射場引入額外的光照編碼以學(xué)習(xí)場景亮點(diǎn)光照。文獻(xiàn)[11]則是在其基礎(chǔ)上進(jìn)行大場景分塊來對城市級別的大范圍場景進(jìn)行建模。這些方法都需要人工在整個(gè)場景的大規(guī)模數(shù)據(jù)采集基礎(chǔ)上進(jìn)行手動(dòng)分塊,大大提高了人工成本,并且預(yù)先確定的環(huán)境邊界導(dǎo)致這些方法的拓展性較弱。針對自動(dòng)駕駛過程中存在的感知失靈以及環(huán)境干擾等問題,現(xiàn)有工作不能很好地學(xué)習(xí)和利用駕駛場景中豐富的幾何與紋理等的環(huán)境先驗(yàn)信息,難以在外部干擾的情況下具有穩(wěn)定的駕駛表現(xiàn)。本文充分利用NeRF的隱式場景表征優(yōu)勢,利用通過先前收集的歷史遍歷數(shù)據(jù)自動(dòng)生成靜態(tài)先驗(yàn),無須手動(dòng)注釋工作,最終利用無監(jiān)督且?guī)缀呜S富的先驗(yàn)顯著提升自動(dòng)駕駛模型在干擾和攻擊下的性能表現(xiàn)。具體地,本文貢獻(xiàn)如下:
a)提出自適應(yīng)的神經(jīng)輻射場構(gòu)建方法,實(shí)現(xiàn)對自動(dòng)駕駛場景的靜態(tài)先驗(yàn)提??;
b)設(shè)計(jì)基于神經(jīng)先驗(yàn)的自動(dòng)駕駛感知信息重建框架,能夠在線地重建異常感知信息;
c)通過仿真實(shí)驗(yàn)驗(yàn)證本文算法的信息重建效果,實(shí)驗(yàn)結(jié)果表明,本文方法可以提升自動(dòng)駕駛導(dǎo)航的魯棒性。
1 大范圍自動(dòng)駕駛神經(jīng)輻射場構(gòu)建
1.1 神經(jīng)輻射場
NeRF的核心思想是通過一個(gè)多層感知機(jī)(multi layer perception network, MLP)網(wǎng)絡(luò)來建立包含相機(jī)位姿的5D信息與場景中顏色c以及空間體積密度σ的可微映射關(guān)系,這個(gè)過程對應(yīng)的公式如下:
c,σ=Φr(x(x,y,z),d(θ,φ))(1)
其中:x(x,y,z)為空間中點(diǎn)的坐標(biāo);d(θ,φ)代表視線方向。通過從相機(jī)中心o向圖像中像素點(diǎn)沿d方向發(fā)射一條射線r(t)=o+td(t為點(diǎn)到相機(jī)的距離),可以在NeRF中沿光線采樣一系列點(diǎn),并利用如下的經(jīng)典體積渲染方法[11]來獲得該像素點(diǎn)的預(yù)估顏色C(r):
其中:δi為第i個(gè)采樣點(diǎn)與第i+1個(gè)采樣點(diǎn)間的距離;N代表采樣點(diǎn)個(gè)數(shù)。一般地,可以通過在物體表面附近進(jìn)行密集采樣的方式提升渲染精度[12],最終,整個(gè)神經(jīng)輻射場在訓(xùn)練的過程中最小化預(yù)估顏色與真實(shí)顏色間的差距,進(jìn)行梯度回傳:
從而實(shí)現(xiàn)對場景的照片級渲染。
1.2 大范圍自動(dòng)駕駛場景先驗(yàn)構(gòu)建
受限于單MLP容量以及體渲染過程本身的密集采樣方式,傳統(tǒng)的NeRF場景重建方法無法處理室外無邊界場景以及變化的環(huán)境光照條件,難以直接應(yīng)用于大范圍的自動(dòng)駕駛場景中。同時(shí),現(xiàn)有的大范圍自動(dòng)駕駛場景神經(jīng)輻射場構(gòu)建方法需要預(yù)先對整個(gè)自動(dòng)駕駛場景進(jìn)行手動(dòng)分割處理,不能自動(dòng)根據(jù)采集的數(shù)據(jù)進(jìn)行劃分。針對實(shí)際自動(dòng)駕駛室外環(huán)境中的這些問題,本文設(shè)計(jì)了自動(dòng)分塊的大范圍場景先驗(yàn)構(gòu)建方法以應(yīng)對大范圍自動(dòng)駕駛場景,引入圖像光照編碼來平衡不同時(shí)刻、不同視角的光照差異。受Tancik等人[11]提出的分塊輻射場以及Meuleman等人[13]的漸進(jìn)式優(yōu)化輻射場的啟發(fā),本文在此基礎(chǔ)上提出自適應(yīng)的分塊神經(jīng)輻射場構(gòu)筑方法,針對自動(dòng)駕駛場景的實(shí)際需求,利用數(shù)據(jù)軌跡構(gòu)建自適應(yīng)的分塊神經(jīng)輻射場。
1.2.1 自適應(yīng)的神經(jīng)輻射場構(gòu)建
給定自動(dòng)駕駛場景采集的視頻數(shù)據(jù)集、對應(yīng)的相機(jī)位姿P以及采集車輛的自車軌跡信息Tego,如圖1所示。首先根據(jù)自車軌跡和相機(jī)位姿對整個(gè)場景自動(dòng)劃分為M個(gè)神經(jīng)輻射場,記為{Fi},在車輛當(dāng)前位置超出閾值或相機(jī)位姿超出前一個(gè)輻射場的bounding box時(shí)添加新輻射場。首先選取前q幀的相機(jī)位姿{(lán)P1:q}以及車輛軌跡{Tego1:q},計(jì)算能容納對應(yīng)軌跡的最小bounding box大小,并利用{P1:q}訓(xùn)練該子輻射場F0。隨后逐幀處理新相機(jī)位姿及圖像幀,并判斷當(dāng)前位姿Pi及軌跡Tegoi是否在當(dāng)前輻射場中,若當(dāng)前幀的位置超出了現(xiàn)有子輻射場Fj的邊界,則增加新的子輻射場Fj+1,并利用之前幀對輻射場Fj進(jìn)行訓(xùn)練。重復(fù)上述步驟直到最終所有的相機(jī)位姿以及車輛軌跡被所有子輻射場bounding box的并集覆蓋。其對應(yīng)偽代碼如下。
算法1 自適應(yīng)自動(dòng)駕駛神經(jīng)輻射場構(gòu)建方法
對于每個(gè)子輻射場Fi,在Instance-NGP的基礎(chǔ)上[14]構(gòu)建天空遠(yuǎn)景與近景分離的靜態(tài)場景表示,以提升每段場景的渲染精細(xì)度。該方法通過多分辨率的哈希網(wǎng)格Euclid Math OneHAp和對應(yīng)的輕量級MLP g對隱式空間特征進(jìn)行編碼,其核心思路為將式(1)中的輸入坐標(biāo)x映射到可訓(xùn)練的多維特征向量中。為了解決戶外環(huán)境光照條件變化的難題,本文進(jìn)一步對每幀輸入引入了光照編碼la以及方向編碼如下:
(c,σ)=Fi(Euclid Math OneHAp(x),γ(d),la)(5)
其中:γ(d)表示對方向d通過式(6)進(jìn)行位置編碼,通過不同頻率的正弦函數(shù)幫助模型捕獲方向間的高維位置關(guān)系。
此外,由于室外場景中天空背景難以定義其深度,本文采用獨(dú)立的預(yù)測網(wǎng)絡(luò)通過編碼后的視圖方向γ(d),得到全局天空背景顏色csky,使其獨(dú)立于子輻射場集合之外,從而進(jìn)一步平衡不同F(xiàn)i間的背景光照,避免亮度差異過大導(dǎo)致的渲染失真問題。具體地,類似于Mip-NeRF 360對無邊界場景進(jìn)行逆球體投影的方法[15],本文針對自動(dòng)駕駛場景采用逆立方體投影,通過自動(dòng)設(shè)定的bounding box對外界點(diǎn)進(jìn)行逆投影處理,設(shè)一界外點(diǎn)坐標(biāo)為x(x,y,z),首先計(jì)算點(diǎn)與原點(diǎn)O的距離r=x∞,則其經(jīng)過投影公式后的坐標(biāo)如下:
其中:x′=x/r,y′=y/r,z′=z/r。其具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,對于每個(gè)子輻射場Fi,其輸入由經(jīng)過哈希編碼的3D坐標(biāo)、位置編碼以及光照編碼組成。
1.2.2 自動(dòng)駕駛車輛位姿獲取與場景渲染
與上文提到的傳統(tǒng)神經(jīng)渲染方式相比,本文提出的分層輻射場還需要考慮多個(gè)子輻射場以及天空場的相互關(guān)系,同時(shí)需要解決車輛行駛過程中的位姿獲取問題。具體地,對自動(dòng)駕駛車輛上的相機(jī)傳感器而言,想要得到當(dāng)前位置的圖片渲染結(jié)果,首先要獲取當(dāng)前的準(zhǔn)確位姿pt=(xt,dt)。本文通過車輛位置twv=(xv,yv,zv)以及對應(yīng)的當(dāng)前旋轉(zhuǎn)矩陣Rwv來得到相應(yīng)坐標(biāo),并進(jìn)一步得到車輛坐標(biāo)系到世界坐標(biāo)系的變換矩陣Twv和相機(jī)坐標(biāo)系到車輛坐標(biāo)系的變換矩陣Tvc,如下式所示。
其中:Rvc和tvc分別代表相機(jī)在車輛安裝位置的旋轉(zhuǎn)矩陣以及相對于車輛的平移向量。最終便可以通過兩者乘積得到當(dāng)前的相機(jī)位姿矩陣Twc=Twv·Tvc,該矩陣展開表示為
從而得到相對應(yīng)的位姿pt=(xt,dt)。從輻射場Fi中獲取對應(yīng)5D位姿的顏色c以及透過率σ后,在對應(yīng)射線r(t)路徑中采樣K個(gè)樣本點(diǎn),引入天空背景顏色csky后,為了便于描述,這里將式(2)進(jìn)一步改寫如下:
其中:μi=1-exp(-σiδi);δi為第i個(gè)采樣點(diǎn)與第i+1個(gè)采樣點(diǎn)間的距離。
2 基于神經(jīng)先驗(yàn)的信息重建
實(shí)現(xiàn)自動(dòng)駕駛魯棒性的一種想法便是通過重建異常信息來提升自動(dòng)駕駛導(dǎo)航的魯棒性,由第1章得到自動(dòng)駕駛場景的神經(jīng)先驗(yàn)后,本章提出了一種基于神經(jīng)先驗(yàn)和注意力機(jī)制的自動(dòng)駕駛感知信息重建方法。該方法以可能受到干擾的多視角圖像數(shù)據(jù)作為輸入,目標(biāo)為生成對應(yīng)的恢復(fù)數(shù)據(jù),主要的流程包括從自動(dòng)駕駛場景的神經(jīng)先驗(yàn)中提取場景先驗(yàn)信息,通過構(gòu)建變分自編碼器(variational auto encoder,VAE)提取當(dāng)前觀測的空間特征,并通過注意力機(jī)制將場景先驗(yàn)與當(dāng)前觀測進(jìn)行深度融合,最后通過預(yù)訓(xùn)練的VAE解碼器得到恢復(fù)后的圖像。本過程的完整流程如圖3所示。
2.1 先驗(yàn)信息提取
利用自動(dòng)駕駛場景采集的數(shù)據(jù)對第1章中提出的大范圍場景NeRF進(jìn)行訓(xùn)練后,參數(shù)迭代完成的神經(jīng)輻射場集合{Fi}以及對應(yīng)的哈希網(wǎng)格集合{Euclid Math OneHApi}中封裝了豐富的非結(jié)構(gòu)化場景信息。然而,NeRF中固有的稠密非結(jié)構(gòu)化信息難以直接用于在線感知模型,因此本節(jié)利用光線步進(jìn)算法(ray matching)識別并存儲體素化hash網(wǎng)格中的占用信息和特征信息。與原始NeRF訓(xùn)練中數(shù)據(jù)處理過程類似,首先從相機(jī)中心向圖像發(fā)射多條射線,在每條射線上步進(jìn)地采樣N個(gè)點(diǎn){xi},將定位累積透射率和不透明度超過閾值的第一個(gè)點(diǎn)作為體素的關(guān)鍵點(diǎn)如式(11)所示。
其中:Ti、μi分別為式(3)(9)定義的參數(shù)。聚合得到所有視圖的關(guān)鍵點(diǎn)xu以及其在hash網(wǎng)格中對應(yīng)的特征Euclid Math OneHAp(xu)后,通過均值化每個(gè)體素網(wǎng)格中的關(guān)鍵點(diǎn)來進(jìn)行基于體素的下采樣,最終得到結(jié)構(gòu)化的體素網(wǎng)格用于后續(xù)的先驗(yàn)特征提取。
2.2 多視角圖像特征提取
對于自動(dòng)駕駛過程中的車輛感知數(shù)據(jù),本文選取了左前-前-右前三個(gè)通用視角的車載相機(jī)圖像集合作為感知輸入,為了后續(xù)討論方便,記為{ofli},{ofi},{ofri},其中i代表整個(gè)駕駛過程中某個(gè)幀的時(shí)間戳。本文使用卷積神經(jīng)網(wǎng)絡(luò)(convolutio-nal neural network, CNN)預(yù)訓(xùn)練多視圖VAE模型,從輸入的干凈圖像中提取緊湊的隱空間特征,學(xué)習(xí)和生成與輸入數(shù)據(jù)相似的新數(shù)據(jù)點(diǎn)[15]。作為一種生成模型,VAE結(jié)合了自編碼器(autoencoder)和變分推斷(variational inference),在深度學(xué)習(xí)和概率圖模型領(lǐng)域中得到了廣泛的應(yīng)用,關(guān)鍵思想是學(xué)習(xí)輸入數(shù)據(jù)的低維潛在編碼,學(xué)習(xí)到的模型將用于初始化后續(xù)特征重建模塊中的編碼。其核心結(jié)構(gòu)如圖4所示。其中,自編碼器是一種無監(jiān)督學(xué)習(xí)模型,由編碼器和解碼器兩部分組成,目標(biāo)是學(xué)習(xí)數(shù)據(jù)的緊湊表示,前者將輸入數(shù)據(jù)映射到低維隱空間,從而得到服從多維高斯分布的均值編碼m以及方差編碼σ,并為標(biāo)準(zhǔn)分布生成的噪聲編碼分配權(quán)重,構(gòu)建變量的近似分布以模擬概率模型,通過變分推斷得到未觀測變量特征,記為ffl:f:fri,最終形成低維空間中的隱編碼并通過解碼器恢復(fù)為近似圖像。對于多視角圖像,本文將每張圖像都通過CNN卷積后生成不同的隱編碼,第t幀多個(gè)視角觀測的高維特征分別記為ffli、ffi、ffri,分別參與變分推斷過程。
2.3 基于注意力的特征融合
得到連續(xù)時(shí)刻的隱空間觀測特征ffl:f:frt以及對應(yīng)位置的場景神經(jīng)先驗(yàn)特征fpt后,本文提出了基于注意力機(jī)制的特征融合模塊用于進(jìn)一步聚合先驗(yàn)和當(dāng)前觀測信息,從而得到重建后的融合特征。在Vaswani等人[16]提出Transformer后,因其允許模型動(dòng)態(tài)調(diào)整對于不同輸入的權(quán)重,注意力機(jī)制在深度學(xué)習(xí)領(lǐng)域得到了更廣泛的關(guān)注。本文在該方法的基礎(chǔ)上進(jìn)一步改進(jìn),使其能夠隱式地分辨出異常數(shù)據(jù),并在特征融合過程中動(dòng)態(tài)地降低對于異常數(shù)據(jù)的注意力。如圖5所示,將2.1和2.2節(jié)中獲得的維度相同的觀測特征fvi與先驗(yàn)特征fpi一同輸入到特征融合模塊中,通過N層自注意力層(self-attention layer,SAL)進(jìn)行深度融合,并最終通過MLP網(wǎng)絡(luò)生成聚合后的重建特征freci。通常來說,注意力機(jī)制可以被描述為查詢query與一組鍵值對(key,value)以及輸出之間的映射。設(shè)輸入特征序列為Fin,通過一系列權(quán)重矩陣的線性變換即可獲得當(dāng)前輸入的query、key和value,簡記為K、Q、V,即
K=FinMK,Q=FinMQ,V=FinMV(12)
其中:MK、MQ、MV為對應(yīng)的權(quán)重矩陣。在這個(gè)過程中,它們與輸出間的關(guān)系可由式(13)表示。
其中:dk為鍵K的維度;Q的維度也為dk。隨后通過一個(gè)非線性變換得到最終的輸出結(jié)果如下:
Fout=MLP(Attention)+Fin(14)
在基于注意力的特征融合模型訓(xùn)練過程中,查詢Q和鍵K可以隱式地區(qū)分異常信息,并對異常數(shù)據(jù)給予更低的注意力權(quán)重,從而在特征融合過程中保留更多的先驗(yàn)信息。與傳統(tǒng)的語言處理任務(wù)不同,本文直接在特征層對先驗(yàn)特征fpt以及當(dāng)前觀測特征fvt,這些特征同時(shí)輸入到SAL層中,利用先驗(yàn)知識彌補(bǔ)當(dāng)前觀測中的受損信息,并利用注意力機(jī)制對當(dāng)前觀測中的靜態(tài)信息進(jìn)行補(bǔ)全,如此反復(fù)迭代N次后,可以使網(wǎng)絡(luò)充分學(xué)習(xí)到所需信息,最終得到相同維度的輸出,記為fout_vt和fout_pt。在最終融合兩部分信息之前,為了防止未處理前的重要信息在多層注意力層傳遞過程中被損耗,本文額外將原始特征與最終結(jié)果進(jìn)行拼接,最后一起輸入到MLP中進(jìn)行融合,對應(yīng)公式如下:
最終,得到重建特征后的frec,通過2.2節(jié)中的VAE 解碼器將特征向量恢復(fù)為對應(yīng)的RGB圖像,得到恢復(fù)后的感知圖像oreci。
3 基于信息重建的端到端導(dǎo)航魯棒性增強(qiáng)算法
在第2章提出的信息重建算法的基礎(chǔ)上,本章進(jìn)一步提出了基于該算法的導(dǎo)航魯棒性增強(qiáng)框架,可直接用于現(xiàn)有基于視覺的自動(dòng)駕駛導(dǎo)航模型中以提升其在干擾和攻擊下的導(dǎo)航魯棒性。具體地,對于一個(gè)基于視覺的端到端自動(dòng)駕駛導(dǎo)航模型Mnav,其連續(xù)的感知輸入為{oi},則t時(shí)刻對應(yīng)導(dǎo)航指令的推理過程如下式所示。
ct=Mnav(ot)(16)
為了提升導(dǎo)航模型Mnav的魯棒性,本文利用第2章提出的信息重建模型R對可能受到干擾的感知信息進(jìn)行恢復(fù),從而利用歷史先驗(yàn)濾除不良信息的干擾,使自動(dòng)駕駛模型在攻擊和干擾下仍具有穩(wěn)定的駕駛表現(xiàn),因此式(16)可以重寫為
O(WH)的線性復(fù)雜度效率很快地得到編碼結(jié)果;在特征融合部分,注意力融合機(jī)制的時(shí)間復(fù)雜度主要由查詢(queries)、鍵(keys)和值(values)的數(shù)量以及嵌入維度(embedding dimension)決定,為O(n2d)。其中n為序列長度,d為嵌入維度,在本算法中為一定值??梢钥闯?,最終算法的計(jì)算效率主要取決于序列長度,而對于自動(dòng)駕駛導(dǎo)航系統(tǒng),每次僅輸入當(dāng)前觀測,因此序列長度為1,所以本算法計(jì)算效率高,可以在有限的計(jì)算資源下快速運(yùn)行。
4 實(shí)驗(yàn)結(jié)果與分析
本文選擇CARLA模擬器進(jìn)行訓(xùn)練數(shù)據(jù)集采集以及仿真實(shí)驗(yàn)[17],該模擬器基于虛幻4引擎,采用OpengDRIVE1.4標(biāo)準(zhǔn)定義道路和城市環(huán)境,并通過Server-Client架構(gòu)使車輛與虛擬世界進(jìn)行交互[18]。對于神經(jīng)先驗(yàn)?zāi)P?,本文在CARLA模擬器的Town05下進(jìn)行數(shù)據(jù)采集,并利用模擬器自帶的專家模型以4 fps的頻率采集訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)包括左前、前、右前視角的400×400圖像以及對應(yīng)位姿信息。對于信息重建模型,首先利用Town01和Town02中采集的數(shù)據(jù)訓(xùn)練VAE模型,隨后在采集自Town05的數(shù)據(jù)集下和訓(xùn)練好的神經(jīng)先驗(yàn)?zāi)P徒Y(jié)合進(jìn)行信息重建模型的訓(xùn)練。需要注意的是,NeRF的訓(xùn)練數(shù)據(jù)集中僅含有靜態(tài)場景,VAE和信息重建模型的訓(xùn)練數(shù)據(jù)集則包含其他車輛等動(dòng)態(tài)成分。最終,本文還利用訓(xùn)練好的信息重建模型測試了其在Town05環(huán)境中對自動(dòng)駕駛導(dǎo)航魯棒性的性能提升表現(xiàn)。
4.1 自動(dòng)駕駛場景重建性能
其中:Imax代表原圖中的最大像素值。SSIM則用于評判兩圖像間的結(jié)構(gòu)相似性,用于在圖像重建時(shí)評判兩圖像的相似度,其對應(yīng)公式如下:
在硬件方面,本次訓(xùn)練采用了2塊RTX 3080用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,顯存總?cè)萘繛?4 GB,訓(xùn)練時(shí)的光線batch size設(shè)置為4 096。同時(shí),在訓(xùn)練過程中設(shè)置學(xué)習(xí)率按照迭代次數(shù)進(jìn)行衰減,對應(yīng)情況如圖6所示。在訓(xùn)練初始階段逐步增大學(xué)習(xí)率,到達(dá)設(shè)定的最大值0.01后開始根據(jù)不同的時(shí)間步衰減,在模型收斂的最后階段降低到0.000 1。
其訓(xùn)練曲線如圖7所示??梢钥闯?,本文模型在5 000次迭代時(shí)已接近收斂,loss和PSNR曲線都達(dá)到較好的程度。為了進(jìn)一步比較本文提出的自動(dòng)駕駛場景下的NeRF模型的性能表現(xiàn),本文還將現(xiàn)有模型的效果與經(jīng)典NeRF[9]以及針對戶外無邊界場景的Mip-NeRF 360[19]進(jìn)行對比,其重建可視化結(jié)果以及對應(yīng)量化結(jié)果如圖8、表1所示。
從場景重建結(jié)果可以看出,由于原版NeRF僅針對室內(nèi)小場景物體,同時(shí)也沒有考慮到室外場景不同位置光照變化對神經(jīng)輻射場的影響,所以對于戶外大范圍自動(dòng)駕駛場景重建性能極差,并且對路徑無限遠(yuǎn)的天空區(qū)域沒有相應(yīng)的解決方法,難以捕捉到正常顏色變化,基本無法成功重建。從表1中也可看出,其PSNR低于15。而Mip-NeRF 360則是在場景光照編碼的基礎(chǔ)上針對戶外無邊界場景進(jìn)一步優(yōu)化,利用逆球體建模將范圍外的點(diǎn)投影到球體表面,從而實(shí)現(xiàn)對無邊界場景的建模,然而該方法的設(shè)計(jì)初衷仍以小型物體為中心,沒有考慮模型容量對大場景的影響,因此其重建結(jié)果仍較為模糊。本文方法在PSNR以及SSIM兩個(gè)指標(biāo)上都顯著優(yōu)于這些算法,表明該方法對于自動(dòng)駕駛場景的良好適應(yīng)性。
4.2 信息重建模型性能測試
為了展示第2章提出的基于神經(jīng)先驗(yàn)的信息重建模塊的有效性,本文首先預(yù)訓(xùn)練VAE編碼器和解碼器,以在后續(xù)模塊中進(jìn)行特征提取和重構(gòu)。如上文所提,在CARLA模擬器中采集Town01和Town02的共計(jì)38 000張圖像作為訓(xùn)練集,8 400張不同路徑下采集的圖像作為測試集,以此訓(xùn)練基于CNN的VAE模型。對于信息重建模型,為了模擬實(shí)際自動(dòng)駕駛過程中存在的干擾,本文選擇了傳感器遮擋、噪聲攻擊、亮度干擾以及感知丟失來作為自動(dòng)駕駛中常見的干擾類型。其中傳感器遮擋通過在輸入圖像進(jìn)行遮蔽來模仿真實(shí)駕駛環(huán)境中可能存在的樹葉等遮蔽傳感器情況;噪聲攻擊則是增加隨機(jī)噪聲以模擬駕駛過程中因電磁干擾等原因?qū)е碌母兄獢?shù)據(jù)噪點(diǎn);亮度干擾通過增強(qiáng)圖像的亮度以及對比度,以此來模擬真實(shí)駕駛過程中車輛駛離隧道或迎著太陽開車時(shí)圖像亮度過強(qiáng)的問題;感知丟失則代表了自動(dòng)駕駛過程中因傳感器損壞或顛簸,導(dǎo)致當(dāng)前時(shí)刻丟失感知信息的情況。在模型訓(xùn)練過程中以3/5的概率在左前、前、右前三個(gè)視角中隨機(jī)攻擊。
圖9中展示了在干擾條件下與標(biāo)準(zhǔn)VAE編碼結(jié)果相比的干凈和異常數(shù)據(jù)的重構(gòu)圖像,該圖共分為4列,每一列的意義如小標(biāo)題所示,并且每一行從上到下分別為噪聲干擾、遮擋攻擊、亮度干擾以及感知丟失。結(jié)果表明VAE將異常視為正常數(shù)據(jù)并平等地對待所有數(shù)據(jù),在缺失先驗(yàn)信息的前提下VAE重構(gòu)的信息大量丟失,輸入的異常信息直接影響其最終的重構(gòu)性能,對于噪聲、遮擋、亮度干擾以及感知丟失均沒有有效的抵抗能力。相反,通過注意力機(jī)制融合先驗(yàn),本文的信息重建模塊能從先驗(yàn)中學(xué)習(xí)到缺失的幾何信息,從而實(shí)現(xiàn)異常信息的恢復(fù)。此外,對于感知丟失導(dǎo)致當(dāng)前某個(gè)視角整體信息缺失的情況,本文提出的注意力融合模塊能隱含地從當(dāng)前其他未受影響的視角中學(xué)習(xí)到受干擾的視角信息,重建出較好的結(jié)果。
4.3 導(dǎo)航魯棒性提升對比
為了測試第3章中所提的自動(dòng)駕駛駕魯棒性增強(qiáng)框架的性能,本文在CARLA模擬器中測試典型的端到端自動(dòng)駕駛導(dǎo)航模型在正常情況以及外部干擾下的導(dǎo)航表現(xiàn)。這里選擇Cilrs[20]、LateFusion[21]以及NEAT[22]作為測試的三個(gè)導(dǎo)航網(wǎng)絡(luò),其中Cilrs為基于模仿學(xué)習(xí)的單視角輸入端到端導(dǎo)航模型;LateFusion則為單視角的相機(jī)雷達(dá)多模態(tài)輸入模型;NEAT是基于神經(jīng)注意場的完全端到端導(dǎo)航方法,將左前、前、右前三個(gè)視角的圖像作為輸入。最終在CARLA的Town05下測試其在未受到干擾、受到干擾以及干擾下信息重建框架的導(dǎo)航性能表現(xiàn),其結(jié)果如表2所示,這里采用自動(dòng)駕駛領(lǐng)域常見的性能指標(biāo)RC和DS來進(jìn)行量化評估。其中RC(route completion)表示路線完成率,可以表示為
其中:Ri代表第i條路線的完成率,共有N條路線。DS(driving score)則是結(jié)合了碰撞率以及違規(guī)率等的綜合駕駛性能分?jǐn)?shù)。
其中:Pi用于評估第i條路徑的整體駕駛表現(xiàn),包括碰撞、違規(guī)以及駕駛時(shí)間等信息。RC與DS兩個(gè)值越高則代表性能越好。
由表2的實(shí)驗(yàn)結(jié)果可知,盡管在現(xiàn)有導(dǎo)航模型在未受攻擊的情況下具有較好的性能表現(xiàn),在真實(shí)駕駛中常見的影響因素下其性能都產(chǎn)生了明顯的衰減。其中原始模型NEAT在外部干擾下性能衰減最為嚴(yán)重,表明如果在真實(shí)駕駛場景中遇到干擾,可能具有較差的表現(xiàn),甚至可能在短距離駕駛中遇到困難,在實(shí)際應(yīng)用過程中將造成災(zāi)難性后果,說明自動(dòng)駕駛導(dǎo)航模型的魯棒性對實(shí)際駕駛的重要意義。相反,LateFusion模型的性能下降幅度明顯小于其他僅采用相機(jī)輸入的模型,證明了多模態(tài)融合對于提升自動(dòng)駕駛導(dǎo)航魯棒性的積極影響。此外,相比未受攻擊時(shí)的導(dǎo)航性能,基于信息重建模塊的模型性能同樣出現(xiàn)了部分衰減,可能的原因是圖9中表明的當(dāng)前基于CNN的VAE解碼器在生成的重建圖像存在模糊和部分信息丟失,從而影響導(dǎo)航模型對圖像細(xì)節(jié)的學(xué)習(xí),后續(xù)使用ResNet 等更有效的VAE骨干網(wǎng)絡(luò)可能會進(jìn)一步提高當(dāng)前模型的駕駛性能和魯棒性。
5 結(jié)束語
本文提出了一種基于神經(jīng)先驗(yàn)的自動(dòng)駕駛感知信息重建算法。首先設(shè)計(jì)自適應(yīng)的大范圍自動(dòng)駕駛場景隱式表征方法,對自動(dòng)駕駛導(dǎo)航場景進(jìn)行先驗(yàn)信息采集與提取,從而緊湊地保存整個(gè)場景的幾何先驗(yàn)信息。其次,本文在神經(jīng)先驗(yàn)的基礎(chǔ)上設(shè)計(jì)了對應(yīng)的先驗(yàn)提取、先驗(yàn)信息融合與異常信息重建方法,將非結(jié)構(gòu)化隱式表征轉(zhuǎn)變?yōu)橐子诳焖僭L問的體素化表達(dá),并利用注意力機(jī)制對自動(dòng)駕駛感知數(shù)據(jù)進(jìn)行當(dāng)前觀測與歷史先驗(yàn)的特征融合,實(shí)現(xiàn)對異常數(shù)據(jù)的重建。最后,本文在信息重建模型的基礎(chǔ)上針對現(xiàn)有導(dǎo)航模型對外界攻擊與干擾魯棒性不足的問題進(jìn)一步提出了基于信息重建的自動(dòng)駕駛導(dǎo)航魯棒性增強(qiáng)框架,實(shí)驗(yàn)結(jié)果表明該算法顯著提升了現(xiàn)有模型在干擾環(huán)境下的駕駛表現(xiàn)。
參考文獻(xiàn):
[1]Tampuu A, Matiisen T, Semikin M, et al. A survey of end-to-end driving: architectures and training methods [J]. IEEE Trans on Neural Networks and Learning Systems, 2020, 33 (4): 1364-1384.
[2]劉旖菲, 胡學(xué)敏, 陳國文, 等. 視覺感知的端到端自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃綜述 [J]. 中國圖象圖形學(xué)報(bào), 2021, 26 (1): 49-66. (Liu Yifei, Hu Xuemin, Chen Guowen, et al. Review of end-to-end motion planning for autonomous driving with visual perception[J]. Journal of Image and Graphics, 2021, 26 (1): 49-66.)
[3]Lee Y, Kim Y, Yu J, et al. Learning to remove bad weather: towards robust visual perception for self-driving [J/OL]. IEEE Robotics and Automation Letters.(2022-02-28). https://doi.org/ 10.1109/LRA.2022.3154830.
[4]Liu Ze, Cai Yingfeng, Wang Hai, et al. Robust target recognition and tracking of self-driving cars with radar and camera information fusion under severe weather conditions [J]. IEEE Trans on Intelligent Transportation Systems, 2021, 23 (7): 6640-6653.
[5]Maanp"J, Taher J, Manninen P, et al. Multimodal end-to-end learning for autonomous steering in adverse road and weather conditions [C]// Proc of the 25th International Conference on Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 699-706.
[6]Valanarasu J M J,Yasarla R, Patel V M. TransWeather: Transformer-based restoration of images degraded by adverse weather conditions [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 2353-2363.
[7]Zamir S W, Arora A, Khan S,et al. Multi-stage progressive image restoration [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14821-14831.
[8]Xiong Xuan, Liu Yicheng, Yuan Tianyuan, et al. Neural map prior for autonomous driving [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 17535-17544.
[9]Mildenhall B, Srinivasan P, Tancik M,et al. NeRF: representing scenes as neural radiance fields for view synthesis [C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer, 2020: 405-421.
[10]Martin-Brualla R, Radwan N, Sajjadi M S M,et al. NeRF in the wild: neural radiance fields for unconstrained photo collections [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7210-7219.
[11]Tancik M, Casser V, Yan Xinchen, et al. Block-NeRF: scalable large scene neural view synthesis [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 8248-8258.
[12]Kajiya J T, Von Herzen B P. Ray tracing volume densities [J]. ACM SIGGRAPH Computer Graphics, 1984, 18 (3): 165-174.
[13]Meuleman A, Liu Yulun, Gao Chen, et al. Progressively optimized local radiance fields for robust view synthesis [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2023: 16539-16548.
[14]Müller T, Evans A, Schied C,et al. Instant neural graphics primitives with a multiresolution hash encoding [J]. ACM Trans on Graphics, 2022, 41 (4): 1-15.
[15]Kingma D P, Welling M. An introduction to variational autoencoders [J]. Foundations and Trends in Machine Learning, 2019, 12(4): 307-392.
[16]Vaswani A,Shazeer N, Parmar N, et al. Attention is all you need [C]// Proc of the 31st International Conference on Neural Information Proces-sing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000- 6010.
[17]Dosovitskiy A, Ros G, Codevilla F, et al. CARLA: an open urban dri-ving simulator [EB/OL].(2017-11-10). https://arxiv.org/abs/1711.03938.
[18]戴力源, 楊達(dá), 李凱, 等. 基于圖像與高精定位融合數(shù)據(jù)的封閉場地自動(dòng)駕駛汽車駕駛測試方法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40 (11): 3333-3340, 3347. (Dai Liyuan, Yang Da, Li Kai, et al. Driving test methods of autonomous vehicles in closed field based on image and high precision positioning fusion data [J]. Application Research of Computers, 2023, 40 (11): 3333-3340, 3347.)
[19]Barron J T, Mildenhall B,Verbin D, et al. Mip-NeRF 360: unbounded anti-aliased neural radiance fields [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5470-5479.
[20]Codevilla F, Santana E, López A M, et al. Exploring the limitations of behavior cloning for autonomous driving [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 9329-9338.
[21]Sobh I, Amin L, Abdelkarim S,et al. End-to-end multi-modal sensors fusion system for urban automated driving [EB/OL]. (2018-10-10). https://api.semanticscholar.org/CorpusID:53350266.
[22]Chitta K, Prakash A, Geiger A.NEAT: neural attention fields for end-to-end autonomous driving [C]// Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 15793-15803.
[23] Li Ruilong, Gao Hang, Tancik M, et al. NeRFAcc: efficient sampling accelerates NeRFs [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 18537-18546.