侯志斌,陸 峰,婁靜濤,朱 愿
(1 陸軍軍事交通學(xué)院 學(xué)員五大隊(duì),天津 300161;2 陸軍軍事交通學(xué)院 軍事交通運(yùn)輸研究所,天津 300161)
感知是自動(dòng)駕駛系統(tǒng)的重要組成模塊,而3D目標(biāo)檢測是自動(dòng)駕駛感知模塊的重要內(nèi)容。尤其是對自動(dòng)駕駛下游任務(wù),發(fā)揮著重要作用。由于采用單一傳感器均存在一些缺陷,因此多模態(tài)融合是當(dāng)前研究重點(diǎn)。目前來看,現(xiàn)有傳感器融合方法大多集中在激光雷達(dá)與攝像機(jī)融合上,但在雪、雨、霧霾、沙塵暴等惡劣天氣條件以及遠(yuǎn)距離目標(biāo)下,激光雷達(dá)與相機(jī)融合方案的檢測質(zhì)量會大幅下降。在當(dāng)前技術(shù)水平下,開展相機(jī)與毫米波雷達(dá)融合策略方法研究是一套低成本且應(yīng)對惡劣環(huán)境下目標(biāo)檢測的更魯棒方案。
國內(nèi)外對毫米波雷達(dá)與相機(jī)融合的目標(biāo)檢測方法已經(jīng)做了一定研究。如:Nabati等人提出了RRPN網(wǎng)絡(luò),通過仿照圖像檢測中的RPN網(wǎng)絡(luò),將毫米波雷達(dá)信息投影到圖像坐標(biāo)系中,提出了基于毫米波雷達(dá)點(diǎn)云的預(yù)設(shè),再進(jìn)行檢測,減少了錨框數(shù)量,提升了檢測速度,但整個(gè)過程中并未解決毫米波雷達(dá)信息投影到圖像坐標(biāo)系上存在噪聲及高度誤差問題。Meyer等人提出了將毫米波雷達(dá)點(diǎn)云轉(zhuǎn)為鳥瞰視角,點(diǎn)云直接輸入到CNN網(wǎng)絡(luò)中來進(jìn)行目標(biāo)檢測。而問題在于一幀毫米波雷達(dá)點(diǎn)云過于稀疏,且CNN直接作用于點(diǎn)云會產(chǎn)生較多噪點(diǎn),影響檢測精度。高潔等人在目標(biāo)跟蹤框架中,提出將上一幀圖像檢測結(jié)果與當(dāng)前幀雷達(dá)建立圖像與雷達(dá)點(diǎn)的關(guān)聯(lián),實(shí)現(xiàn)雷達(dá)預(yù)分類;再利用目標(biāo)跟蹤框架來實(shí)現(xiàn)同一雷達(dá)點(diǎn)關(guān)聯(lián),找出屬于上一時(shí)刻目標(biāo)在當(dāng)前時(shí)刻的量測,利用RRPN建立候選區(qū)域,從而得到當(dāng)前目標(biāo)檢測結(jié)果,但同樣未考慮毫米波雷達(dá)高 度 信 息 不 準(zhǔn) 的 問 題。Nabati等 人提 出 了Centerfusion網(wǎng)絡(luò),通過毫米波雷達(dá)與相機(jī)融合進(jìn)行3D目標(biāo)檢測。首先由單目檢測結(jié)果建立3D ROI,然后在特征層運(yùn)用截錐體的毫米波雷達(dá)點(diǎn)云與單目初級檢測結(jié)果建立關(guān)聯(lián),進(jìn)行二次回歸,補(bǔ)充圖像特征,提升檢測水平。而問題是,僅在特征層融合毫米波雷達(dá)點(diǎn)云信息,會使整體網(wǎng)絡(luò)框架比較依賴單目3D目標(biāo)檢測結(jié)果,而單目進(jìn)行目標(biāo)檢測存在固有缺陷,從而影響最終檢測質(zhì)量。
為此,本文在Centerfusion網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),提出了毫米波雷達(dá)相機(jī)兩級融合的3D目標(biāo)檢測網(wǎng)絡(luò),將毫米波雷達(dá)信息和圖像分別在數(shù)據(jù)級、特征級兩級進(jìn)行融合,以彌補(bǔ)毫米波雷達(dá)投影到圖像坐標(biāo)中高度信息不準(zhǔn)以及單模態(tài)目標(biāo)檢測存在的不足,提升3D目標(biāo)檢測精度以及在復(fù)雜天氣條件下或?qū)h(yuǎn)距離小目標(biāo)檢測的魯棒性。
本節(jié)將主要介紹雷達(dá)和相機(jī)傳感器二級融合的3D目標(biāo)檢測框架。首先,在輸入端將毫米波點(diǎn)云信息進(jìn)行預(yù)處理后與相機(jī)建立數(shù)據(jù)層融合,生成三通道圖像附加雷達(dá)信息;采用加入注意力機(jī)制的CenterNet網(wǎng)絡(luò)作為基于中心的目標(biāo)檢測網(wǎng)絡(luò),進(jìn)行初級檢測,回歸出目標(biāo)的屬性、三維位置、方向和尺寸等初級三維檢測結(jié)果,克服了相機(jī)單模態(tài)目標(biāo)檢測存在的固有缺陷,提升了小目標(biāo)、模糊目標(biāo)、以及不利氣候條件下的檢測精度;然后參照文獻(xiàn)[5]中方法再進(jìn)行特征層融合,使用截錐體機(jī)制將雷達(dá)檢測與其對應(yīng)對象的中心點(diǎn)相關(guān)聯(lián),并利用雷達(dá)和圖像特征,進(jìn)一步估計(jì)深度、速度、旋轉(zhuǎn)和屬性來提升初步檢測精度,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 兩級融合的3D目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of 3D object detection network with two-level fusion
毫米波雷達(dá)和相機(jī)對目標(biāo)的檢測是相互獨(dú)立的,各自的測量數(shù)據(jù)也基于不同坐標(biāo)系。因此,在進(jìn)行信息融合前,需將雷達(dá)和相機(jī)測量的目標(biāo)數(shù)據(jù)轉(zhuǎn)換到相同的坐標(biāo)系中,需對不同傳感器的目標(biāo)數(shù)據(jù)進(jìn)行空間配準(zhǔn)。毫米波雷達(dá)與相機(jī)涉及到5個(gè)不同坐標(biāo)系之間的轉(zhuǎn)換,坐標(biāo)系之間的關(guān)系如圖2所示。 本文基于數(shù)據(jù)集開展研究,因此可通過數(shù)據(jù)集中相機(jī)內(nèi)外參數(shù),將毫米波雷達(dá)信息投影到圖像坐標(biāo)系上。為解決毫米波雷達(dá)投影到圖像坐標(biāo)系下高度信息不準(zhǔn)的問題,改進(jìn)使用文獻(xiàn)[7]中方法,將毫米波雷達(dá)信息進(jìn)行條碼化改進(jìn)處理。將其擴(kuò)展為2.5 m紅色線段,以確保在圖像坐標(biāo)系下,將檢測物體(汽車、卡車、摩托車、自行車和行人等)進(jìn)行覆蓋。雷達(dá)數(shù)據(jù)以像素寬度2映射到圖像平面,使相機(jī)像素與毫米波雷達(dá)信息建立基本。雷達(dá)回波的特征作為像素值投影到三通道圖像中,在不存在雷達(dá)回波的圖像像素位置,將投影雷達(dá)通道值設(shè)置為0。輸入圖像轉(zhuǎn)為附加有毫米波雷達(dá)信息的三通道圖像,如圖3所示。同時(shí)為解決毫米波雷達(dá)稀疏的問題,本文將6個(gè)雷達(dá)周期共同融合到本文的數(shù)據(jù)格式中,來增加雷達(dá)數(shù)據(jù)的密度。
圖2 坐標(biāo)系關(guān)系示意圖Fig.2 Diagram of coordinate system relationship
圖3 毫米波雷達(dá)點(diǎn)云條碼化處理示意圖Fig.3 Schematic diagram of barcode processing of millimeter wave radar point cloud
1.2.1 加入空間通道注意力機(jī)制的關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)
初級檢測使用CenterNet框架作為基礎(chǔ)網(wǎng)絡(luò),DLA-34網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)。為提取三通道雷達(dá)圖像信息中雷達(dá)投影信息,本文在骨干網(wǎng)絡(luò)末端加入空間通道注意力模塊CBM和SAM,對卷積特征的通道和空間建立注意力機(jī)制。其中,通道注意力模塊CBM結(jié)構(gòu)如圖4所示。
圖4 CBM通道注意力模塊Fig.4 CBM channel attention module
上述方法的數(shù)學(xué)推導(dǎo)見式(1):
其中,為輸入特征,經(jīng)過并行的平均池化層和最大池化層后,得到2個(gè)多通道1×1維度特征圖后,再將其分別送入一個(gè)2層MLP網(wǎng)絡(luò)中。將MLP輸出的特征進(jìn)行張量內(nèi)對應(yīng)元素(element-wise)相加,再經(jīng)過激活操作,生成通道特征M,最后將M和輸入特征做張量內(nèi)對應(yīng)元素相乘,作為通道注意力模塊。
之后,將CBM注意力模塊輸出作為SAM注意力模塊輸入,建立空間注意力機(jī)制。空間注意力模塊SAM結(jié)構(gòu)如圖5所示。
圖5 SAM通道注意力模塊Fig.5 SAM channel attention module
上述方法的數(shù)學(xué)推導(dǎo)見式(2):
其中,為輸入特征圖。首先做一個(gè)基于通道的全局最大池化和全局平均池化,得到2個(gè)1的特征圖,將這2個(gè)特征圖基于通道做通道拼接,并經(jīng)過一個(gè)7×7卷積操作,降維為1個(gè)通道,即1;再經(jīng)過激活函數(shù)生成空間注意力特征,最后將該特征與模塊輸入做乘法,得到最終生成特征。
將附加有關(guān)聯(lián)條碼化雷達(dá)信息的三通道圖像I∈R作為輸入。為防止雷達(dá)投影到三通道圖像導(dǎo)致完全覆蓋三通道信息,影響網(wǎng)絡(luò)泛化水平,建立投影權(quán)重系數(shù)。 經(jīng)過實(shí)驗(yàn),當(dāng)=0.6時(shí)檢測結(jié)果最佳。作為超參,則三通道圖像為:
關(guān)鍵點(diǎn)熱力圖輸出為:
圖6 輸出熱力圖Fig.6 Output heat map
故熱力圖生成總的損失函數(shù)為:
1.2.2 通過關(guān)鍵點(diǎn)進(jìn)行3D目標(biāo)檢測
其中,d是標(biāo)注信息(g)的絕對深度,以m為單位。
其中,γ是標(biāo)注物體的高、寬、長,以m為單位。
訓(xùn)練時(shí)建立損失函數(shù)為:
經(jīng)過初級檢測網(wǎng)絡(luò),生成了目標(biāo)的熱力圖、2D目標(biāo)尺寸、3D目標(biāo)尺寸、深度、方向、偏差等。為進(jìn)一步提升精度,需在特征層進(jìn)行二次融合。
1.3.1 雷達(dá)關(guān)聯(lián)
參照文獻(xiàn)[4]中截錐體關(guān)聯(lián)方法,在特征層將毫米波雷達(dá)點(diǎn)云擴(kuò)展為垂直柱體,為解決高度不準(zhǔn)確問題,使用初級檢測中生成的邊界框(bboxing)及其回歸的深度和目標(biāo)尺寸來創(chuàng)建一個(gè)3D興趣區(qū)域(3D RoI)截錐體,并忽略截錐體之外的任何點(diǎn)。為消除多檢測關(guān)聯(lián)問題,在此RoI內(nèi)有多個(gè)毫米波雷達(dá)點(diǎn)云,本文將最近的點(diǎn)作為對應(yīng)于這個(gè)對象的雷達(dá)檢測,如圖7所示。其中,圖7(a)為基于對象的3D邊界框生成截錐體的興趣區(qū)域,圖7(b)為鳥瞰視角下的截錐體關(guān)聯(lián)機(jī)制示意圖。
圖7 截錐體關(guān)聯(lián)方法示意圖Fig.7 Schematic diagram of frustum correlation method
1.3.2 雷達(dá)特征提取
在雷達(dá)信號與其對應(yīng)目標(biāo)關(guān)聯(lián)后,使用雷達(dá)信號中的深度和速度為圖像,創(chuàng)建互補(bǔ)特征。其中,對于每一個(gè)與物體相關(guān)的雷達(dá)信號,都會生成(,v,v)三個(gè)以物體的2D邊界框?yàn)橹行牡臒崃D通道。熱力圖的寬度和高度與對象的二維邊界框成比例,熱圖值是標(biāo)準(zhǔn)化的物體深度,也是在自車坐標(biāo)系中徑向速度(V和V)的和分量:
如果2個(gè)對象具有重疊的熱圖區(qū)域,則深度值較小的對象占主導(dǎo)地位,因?yàn)橹挥凶罱膶ο笤趫D像中才完全可見。
生成的熱力圖作為額外通道連接到圖像特征,這些特征作為二次回歸輸入,重新估算對象的三維信息、以及速度和類別。與初級檢測相比,經(jīng)過特征融合后,有助于從雷達(dá)特征中學(xué)習(xí)更高層次的特征,最后將生成值解碼為3D邊界框。3D邊界框從初級檢測器獲得3D尺寸,并從二次回歸中得到估計(jì)的深度、速度、轉(zhuǎn)角和類別。
本文使用nuScenes數(shù)據(jù)集進(jìn)行模型訓(xùn)練及測試。該數(shù)據(jù)集是第一個(gè)攜帶毫米波雷達(dá)信息的自動(dòng)駕駛場景數(shù)據(jù)集,其中涵蓋了在波士頓和新加坡采集的1000個(gè)場景的數(shù)據(jù),是目前最大的具有三維目標(biāo)標(biāo)注信息的自動(dòng)駕駛汽車多傳感器數(shù)據(jù)集。其傳感器配置上含有6個(gè)攝像頭、5個(gè)雷達(dá)和1個(gè)激光雷達(dá),所有這些都具有全360°視野。傳感器參數(shù)見表1。
表1 nuScenes數(shù)據(jù)集傳感器參數(shù)表Tab.1 Sensor parameters of nuScenes dataset
本文采取網(wǎng)絡(luò)骨干為DLA-34的CenterNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練時(shí)采取Centerfusion提供的預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,同時(shí)在不同位置加入注意力機(jī)制進(jìn)行性能對比實(shí)驗(yàn)。實(shí)驗(yàn)平臺的操作系統(tǒng)為ubuntu16.04,并帶有型號為GeForce GTX 1050的GPU。
訓(xùn)練階段共迭代60個(gè),訓(xùn)練批次大小設(shè)置為2,初始學(xué)習(xí)率為2.4e-4,同時(shí)采用學(xué)習(xí)率衰減策略,訓(xùn)練50個(gè)后學(xué)習(xí)率下降10%。三通道圖像輸入到網(wǎng)絡(luò)前進(jìn)行隨機(jī)左右翻轉(zhuǎn)、隨機(jī)移位等數(shù)據(jù)加強(qiáng)。測試階段,采用60個(gè)的訓(xùn)練權(quán)重,來對本文方法進(jìn)行測試。
以下實(shí)驗(yàn)均使用單個(gè)GPU完成。由于完整數(shù)據(jù)集較大,本文仿真主要通過nuScenes的v1.0-mini數(shù)據(jù)集進(jìn)行訓(xùn)練,重點(diǎn)測試改進(jìn)的網(wǎng)絡(luò)檢測精度。v1.0-mini數(shù)據(jù)集是由整個(gè)數(shù)據(jù)集中抽取出的10個(gè)場景組成,其中訓(xùn)練樣本為14065個(gè),測試樣本為6019個(gè),訓(xùn)練收斂曲線如圖8所示。
圖8 訓(xùn)練過程收斂曲線Fig.8 Convergence curve of training process
以Centerfusion作為基準(zhǔn)網(wǎng)絡(luò),為確保訓(xùn)練及測試 數(shù) 據(jù) 相 一 致,用nuScenes v1.0-mini對Centerfusion重新進(jìn)行訓(xùn)練及測試,測試集選用數(shù)據(jù)集中的“scene-0103”、“scene-0916”兩個(gè)場景作為mini-test集,并與本文方法進(jìn)行比較。表2中列出了對Centernet(3d)、Centerfusion和本文方法進(jìn)行3D目標(biāo)檢測性能的比較結(jié)果??梢钥闯觯趍ini集進(jìn)行訓(xùn)練、在mini-test集進(jìn)行測試后,檢測分?jǐn)?shù)()上升了近1.21%。圖9展示了Centerfusion和本文方法的收斂過程。
表2 3D檢測性能對比表Tab.23D detection performance comparison table
圖9 NDS收斂曲線圖Fig.9 NDS convergence curve
由圖9中可見,隨著訓(xùn)練迭代次數(shù)的增多,本文方法與Centerfusion均呈現(xiàn)抖動(dòng)上升趨勢,在訓(xùn)練60個(gè)迭代周期后,本文網(wǎng)絡(luò)指標(biāo)明顯高出約0.03。
nuScenes v1.0-mini數(shù)據(jù)集中7類物體檢測的平均精度結(jié)果見表3。由表3可見,在測試集中,本文方法在巴士、行人、摩托車、自行車等的檢測精度均高于Centerfusion檢測結(jié)果。尤其是對于自行車的檢測精度上,相比提升了近40%。
表3 3D目標(biāo)檢測對象精度對比表Tab.3 Object accuracy comparison table of 3D target detection
本文采取2種注意力機(jī)制CBM、SAM的對比實(shí)驗(yàn),主要對比CBM、SAM加入位置及初始網(wǎng)絡(luò)權(quán)重等在網(wǎng)絡(luò)中發(fā)揮的作用。實(shí)驗(yàn)中,分別在骨干網(wǎng)絡(luò)中的基本模塊和骨干網(wǎng)絡(luò)末端加入空間通道注意力機(jī)制。如圖10所示,在骨干網(wǎng)絡(luò)中加入空間通道注意力機(jī)制,使用預(yù)訓(xùn)練模型,新增注意力機(jī)制模塊默認(rèn)使用kaiming初始化網(wǎng)絡(luò)權(quán)重,在訓(xùn)練180個(gè)迭代周期后,實(shí)驗(yàn)結(jié)果檢測精度()僅為0.2094,效果并不理想。
圖10 骨干網(wǎng)絡(luò)中加入注意力機(jī)制示意圖Fig.10 Schematic diagram of adding attention mechanism to the backbone network
將空間通道注意力機(jī)制加入骨干網(wǎng)絡(luò)末端,如圖11所示。首先,在凍結(jié)改進(jìn)的DLA-34、DLAUP上采樣層、IDAUP融合網(wǎng)絡(luò)層后,訓(xùn)練60個(gè)迭代周期,然后再聯(lián)合訓(xùn)練60個(gè)周期,即上升至0.5274。實(shí)驗(yàn)得出結(jié)論是:注意力機(jī)制在遷移學(xué)習(xí)方法下,加入到骨干網(wǎng)絡(luò)末端和檢測頭相比于骨干網(wǎng)絡(luò)中效果更優(yōu)。
圖11 骨干網(wǎng)絡(luò)末加入注意力機(jī)制示意圖Fig.11 Schematic diagram of adding attention mechanism at the end of backbone network
本文對基礎(chǔ)網(wǎng)絡(luò)模型和毫米波雷達(dá)與相機(jī)兩級融合的網(wǎng)絡(luò)模型的檢測效果的可視化比較結(jié)果如圖12、圖13所示。從可視化效果可以看出:2種方法均能實(shí)現(xiàn)較好的3D目標(biāo)檢測效果,但本文的方法對遠(yuǎn)距離小目標(biāo)漏檢率低,且具有更強(qiáng)的魯棒性;相比來看,本文方法的3D邊界框更加準(zhǔn)確,在一些特定場景中,誤檢率明顯降低。
圖12 Centerfusion可視化效果圖Fig.12 Centerfusion visualization
圖13 兩級融合網(wǎng)絡(luò)可視化效果圖Fig.13 Visual renderings of two-level fused network
本文在毫米波雷達(dá)和相機(jī)特征層融合網(wǎng)絡(luò)Centerfusion的基礎(chǔ)上進(jìn)行改進(jìn),針對原算法在一階段未考慮單目檢測固有缺陷的問題,提出了一種毫米波雷達(dá)與相機(jī)兩級融合的3D目標(biāo)檢測算法,將雷達(dá)點(diǎn)云信息進(jìn)行處理后,在數(shù)據(jù)層和特征層均進(jìn)行融合;同時(shí)在一階段中心點(diǎn)檢測網(wǎng)絡(luò)中加入了注意力機(jī)制。實(shí)驗(yàn)證明,本文方法相比原算法在復(fù)雜惡劣天氣條件下以及對遠(yuǎn)距離小目標(biāo)的檢測效果上均有提升,在大型自動(dòng)駕駛數(shù)據(jù)集nuScenes3D檢測基準(zhǔn)上,評估了本文提出的方法,相比Centerfusion檢測分?jǐn)?shù)()有了一定提升。