摘" 要: 針對3D目標檢測精度低、在復(fù)雜工況下檢測效果差的問題,利用圖像和點云數(shù)據(jù)作為輸入,引入深度補全增加點云前視圖特征,并對MV3D目標檢測模型進行改進,提出混合融合方式,將全局信息較多的圖片特征拼接到融合完成后的點云特征中,最后再進行融合。文中所提出的混合融合方案兼顧了深度融合的特征又增加了全局的特征信息,利用DETR模塊對原模型的非極大值抑制操作進行優(yōu)化,使得模型輕量化。最后在KITTI數(shù)據(jù)集上對文中模型進行了實驗分析,結(jié)果表明,所提出的模型可以實現(xiàn)復(fù)雜工況下的3D目標檢測,且在精度上與原模型相比,在三種不同檢測難度的工況下平均提升了7.19%。
關(guān)鍵詞: 3D目標檢測; MV3D; 模型改進; 深度補全; 混合融合; DETR
中圖分類號: TN911.7?34; TP391.41; U463.6" " " " " " 文獻標識碼: A" " " " " " 文章編號: 1004?373X(2024)19?0175?06
Research on improved MV3D object detection model with hybrid fusion mode
SHA Junliang, CAO Jingsheng, DONG Yining, YUAN Zengqian, LI Gang
(College of Automotive and Traffic Engineering, Liaoning University of Technology, Jinzhou 121001, China)
Abstract: The accuracy of the 3D object detection is low and the detection effect is poor under complex working conditions. In view of this, by taking the image and point cloud data as the input, this paper introduces the deep complement to increase the front view features of point cloud, improves the MV3D object detection model, and proposes a hybrid fusion method. In this method, image features with more global information is spliced into the point cloud features after fusion, and then fusion is carried out. In the hybrid fusion scheme proposed, the features of deep fusion are taken into account and the global feature information is added. The DETR module is used to optimize the non?maximum suppression operation of the original model, so as to make the model lightweight. The experimental analysis of the proposed model is carried out on dataset KITTI. The results show that the proposed model can realize 3D object detection under complex working conditions and its accuracy is improved by 7.19% on average under three working conditions with different levels of detection difficulties in comparison with that of the original model.
Keywords: 3D object detection; MV3D; model improvement; deep complement; hybrid fusion; DETR
0" 引" 言
隨著科技的進步和社會的發(fā)展,智能汽車技術(shù)成為最熱門的研究方向之一,并且可以初步實現(xiàn)L2+的功能[1]。技術(shù)的發(fā)展是為了保障人的安全,不能成為安全的隱患,在智能駕駛中,車輛對外部環(huán)境的感知是保證安全行駛的前提。
目前關(guān)于3D目標檢測可分為如下三類[2?5]。
第一種是基于彩色圖像,如文獻[6]在ROI?10D的模型基礎(chǔ)上得到Pseudo?LiDAR模型,將二維前視圖像生成像素級的深度圖,將深度圖和彩色圖像進行融合得到最終的3D目標檢測。文獻[7]提出了AM3D模型,該模型也是將2D檢測框與圖像生成的偽點云進行融合生成3D檢測框,并且使用PointNet主網(wǎng)絡(luò)進行3D框回歸,最終得到目標3D框。此類使用彩色圖像生成偽點云的方式有一定的可行性,但是在精度和實際位置等方面與激光雷達生成的點云數(shù)據(jù)有很大差別。文獻[8]提出MonoDLE模型,此模型為純視覺領(lǐng)域3D目標檢測的“瓶頸”,解決了絕大部分的問題,丟掉訓(xùn)練過程中兩種框的定位問題,刪掉此類問題以提高檢測器的檢測性能。
第二種是基于點云數(shù)據(jù)的3D目標檢測研究,基于純圖像的3D目標檢測因本身的局限性發(fā)展進入瓶頸期,隨著傳感器硬件的發(fā)展,激光雷達逐漸成為一個重要的研究方向。激光雷達對周圍環(huán)境進行掃描得到密集的點云圖,與車載相機拍攝的彩色圖像相比,點云圖先天具有精確的深度信息,因此點云圖成為3D目標檢測的新途徑。如文獻[9]在前人的研究基礎(chǔ)上提出YOLO?3D模型,該模型在YOLO?v2的基礎(chǔ)上進行改進,使模型的輸出框增加了深度和航向信息。YOLO?3D與PIXOR模型都是將點云轉(zhuǎn)換為俯視圖的形式再用圖像檢測器進行檢測。由于在俯視圖視角中邊界框之間的差異性較小,因此舍棄了YOLO系列模型錨框的概念,取同一類別的框的平均值作為框的大小,故計算量大大減小,檢測速度增加。此方式的缺點也較為明顯,精度較差。文獻[10]提出的HDNET模型在PIXOR模型的基礎(chǔ)上添加了高精度地圖信息。高精地圖對道路方面信息具有精確的標注,可以更好地解決道路障礙物以及地面的起伏問題,結(jié)合道路的實際情況對點云進行精細化處理,減少道路實際客觀情況對檢測結(jié)果的影響。
第三種是基于彩色圖像與點云數(shù)據(jù)融合,如文獻[11]提出的ContFuse模型是深度融合最經(jīng)典的模型。此模型是將點云數(shù)據(jù)與彩色圖像數(shù)據(jù)分別進行處理,將彩色圖像的畫面轉(zhuǎn)換為鳥瞰圖的形式。之后將彩色鳥瞰圖前視圖的特征提取出來,再將不同鳥瞰方位的特征進行提取,最后將所有方位的特征進行融合得到整個鳥瞰圖的特征。文獻[12]提出的MV3D模型是一種典型的決策融合模型。MV3D在多模態(tài)融合中,輸入數(shù)據(jù)為點云俯視圖、點云前視圖和彩色圖像。在點云俯視圖中生成建議框,其他兩種輸入數(shù)據(jù)按照正常的方式通過VGG16網(wǎng)絡(luò)進行特征提取,將建議框與這兩種特征進行映射,得到三組ROI特征。將三組ROI輸入至融合網(wǎng)絡(luò)中得到最終的融合結(jié)果,融合結(jié)果再進行全連接等操作,得到最終的3D目標。
本文利用圖像與點云數(shù)據(jù)融合進行3D目標檢測,改進目前效果較好的MV3D模型,采用混合融合的方式替代原模型的深度融合,混合融合將全局信息較多的圖片特征拼接到融合完成后的點云特征中,最后進行融合,并在目標檢測模塊中引入了DETR模型中的檢測模塊,提升精度的同時使得模型輕量化,最后將本文提出的模型在簡單、中等和復(fù)雜三種不同難度的工況下進行實驗分析,結(jié)果表明,本文的方法與原模型相比在三種不同檢測難度的工況下均有良好的表現(xiàn)。
1" 基礎(chǔ)研究
1.1" MV3D模型
MV3D模型是目前被應(yīng)用于自動駕駛3D目標檢測效果較好的模型,其模型結(jié)構(gòu)如圖1所示。此模型屬于多模態(tài)融合模型,將雷達點云數(shù)據(jù)和圖像的數(shù)據(jù)進行融合,最終確定結(jié)果。
在數(shù)據(jù)的輸入階段采用了點云鳥瞰圖(Bird′s Eye View, BEV),同時模型的輸入還包括點云前視圖和車載相機高清圖像。首先會經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取出輸入圖像數(shù)據(jù)的特征,點云鳥瞰圖中本身具有的優(yōu)勢為遮擋物比較少,因此本模型在點云鳥瞰圖中生成3D建議框。將建議框的信息與其他兩個通道特征進行整合,得到3個角度的特征,再將3個尺寸相同的特征傳輸至融合模塊,最后對融合后的特征進行分類、回歸等操作,得到最終的3D檢測框。
1.2" DETR模型
MV3D模型應(yīng)用了很多非極大值抑制(NMS)操作,此操作具有較大的計算量。因此本文對原MV3D模型中的NMS部分采用DETR模型進行了優(yōu)化。在特征融合方面提出新的融合方案,并利用當下性能最強的Transformer進行目標的檢測和3D框回歸[13?14]。
DETR模型可以解決非極大值抑制(NMS)操作需要計算量較大的問題,直接省去非極大值抑制(NMS)操作,只對特征進行融合,分類和回歸由模型后面的Transformer encoder/decoder決定。對于3D框的回歸和朝向時的損失計算采用匈牙利損失(Hungarian Loss)對比得到最優(yōu)解,DETR模型結(jié)構(gòu)如圖2所示。
1.2.1" Transformer原理
Transformer模型不同于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),更多地應(yīng)用了注意力機制(Attention),尤其是自注意力機制層(self?attention)。同時引入多頭注意力機制,增加特征的全局性。self?attention中最重要的三個參數(shù)為query、key、value,query與key相乘得到的結(jié)果就是相關(guān)度,經(jīng)過softmax后得到權(quán)重表示,之后針對可能的加權(quán)和得到最終的結(jié)果。多頭注意力機制在Transformer中應(yīng)用最多,與self?attention相比,是將value、query、key分裂成多個,然后在自己的頭部即輸入部分做self?attention操作,將得到的結(jié)果連接起來,將連接后的結(jié)果做維度上的處理即可(只需進行矩陣的乘法計算)。多頭注意力機制的優(yōu)勢在于不同的“頭”可以對不同的特征進行學(xué)習(xí),例如有的頭對局部特征進行學(xué)習(xí),有的頭部對全局特征進行學(xué)習(xí)。
1.2.2" 匈牙利算法架構(gòu)
匈牙利算法(Hungarian Algorithm)是一個經(jīng)典的解決兩個部分之間最優(yōu)匹配問題的算法,能得到最優(yōu)匹配結(jié)果。該算法進行匹配的原理示意圖如圖3所示,該算法將每一個物體視為獨立節(jié)點,分別計算當前幀中節(jié)點與上一幀中所有節(jié)點的距離,距離最短的則視為同一物體,完成匹配。
1.3" 深度補全
點云數(shù)據(jù)本身具有稀疏性、分辨率低的問題,在三維機器視覺中,為了提升模型的訓(xùn)練性能,需要大量有效數(shù)據(jù)。為了提高目標檢測的準確度和可靠性,本文引入深度補全算法。使用PF?Net算法對點云數(shù)據(jù)進行處理,此方法是基于深度學(xué)習(xí)的點云補全算法。本文對模型輸入的點云前視圖進行深度補全。通過深度補全可以將稀疏深度圖轉(zhuǎn)換為密集深度圖,將點云數(shù)據(jù)進行預(yù)處理得到密集的深度圖。因此,可以獲得更多的特征,有利于模型訓(xùn)練,如圖4所示,是在KITTI數(shù)據(jù)集中經(jīng)過點云深度補全后的結(jié)果對比。
2" 多模態(tài)融合網(wǎng)絡(luò)
數(shù)據(jù)融合主要是找兩個視圖之間的相關(guān)特征,提取共享成分。MV3D模型在多模態(tài)數(shù)據(jù)融合方面使用的是深度融合方案,如圖5所示。但是深度融合方案缺少了全局的信息,為了充分利用模型輸入的數(shù)據(jù),提取更多的數(shù)據(jù)特征,本文提出了混合融合方案,如圖6所示,本文使用的混合融合方式兼顧了深度融合的特征又增加了全局的信息。該方法主要是對彩色圖像特征的應(yīng)用,圖像特征具有全局特征,并且各部分之間相互關(guān)聯(lián)性大,具有豐富的語義信息,利用圖像的特征來豐富點云信息,與點云信息形成互補。圖6中單斜線部分是激光雷達點云的鳥瞰圖提取到的特征,點狀部分為激光雷達點云前視圖的特征,淺灰色部分為車載相機拍攝的彩色圖像提取的特征。在融合過程中,首先對點云的俯視圖和點云前視圖特征進行逐點的特征融合,圓圈M1、M2、M3的操作為對輸入的特征向量的元素進行取均值操作得到融合后的特征,之后將融合后的特征經(jīng)過M2再次進行融合操作,此次融合后的特征輸出需要加上彩色圖像的特征,類似于特征拼接。彩色圖像的特征不是直接對特征進行“剪切”后拼接到俯視圖與前視圖的特征中,而是根據(jù)M2融合后得到的特征具有的通道數(shù),將彩色圖像特征進行池化和全連接操作,將特征拼接至融合后的點云特征中,經(jīng)過M3操作最終獲得融合后的特征。
本文提出的3D目標檢測模型如圖7所示,是一個端到端的目標檢測模型。首先,將點云的鳥瞰圖經(jīng)過深度補全之后的前視圖以及車載相機的彩色圖片輸入至VGG?16網(wǎng)絡(luò)中,提取各個視圖的特征;然后在點云鳥瞰圖上生成3D建議框,與原MV3D模型不同的是本模型去除了NMS操作,保留大量的先驗框,記錄下先驗框最大的占用尺寸和最大中心點尺寸位置;之后將先驗框位置傳遞給提取好的特征里,生成感興趣區(qū)域(ROI)的特征,將特征傳送至數(shù)據(jù)混合融合模塊,生成融合特征,將融合特征輸入至目標檢測模塊。在實驗時融合特征的尺寸為3×800×1 066,需要經(jīng)過池化操作,使得特征降維為256×25×34的尺寸;同時3D建議框中的位置數(shù)據(jù)需要和融合特征一起輸入至檢測網(wǎng)絡(luò),尺寸同樣為256×25×34。此時輸入的檢測網(wǎng)絡(luò)Transformer encoder/decoder一共是三層,首先需要將輸入的特征進行轉(zhuǎn)換,變?yōu)?50×256,將數(shù)據(jù)輸入至Transformer encoder中,輸出的數(shù)據(jù)尺寸大小也為850×256,再輸入至Transformer decoder中。輸入Transformer decoder中的object queries的大小為100×256,其中100為自定義的框的數(shù)量,可以人為調(diào)整,256為輸入decoder中數(shù)據(jù)的通道數(shù)。decoder的輸出尺寸大小也為100×256,實際訓(xùn)練模型過程中經(jīng)過一層的訓(xùn)練后可以直接將數(shù)據(jù)輸入至FFN全連接層,通過匈牙利算法對是否有目標、目標種類、3D框進行匹配,這樣做的好處是最后得到的結(jié)果會更加精確,并且節(jié)省算力。第一層訓(xùn)練完的decoder輸出數(shù)據(jù)會作為第二層encoder的輸入數(shù)據(jù),重復(fù)上述操作,直至完成三層Transformer encoder/decoder,最后完成對目標3D框的定位。
3" 實驗與結(jié)果分析
本實驗在云服務(wù)器中使用KITTI數(shù)據(jù)集進行訓(xùn)練,數(shù)據(jù)集包括7 481張道路交通圖片及對應(yīng)的點云文件,其中采用70%用于訓(xùn)練,30%用于測試,目標檢測的難度根據(jù)標注框是否被遮擋、遮擋程度和框的高度進行定義,如表1所示。將訓(xùn)練好的模型進行可視化,如圖8所示,沒有出現(xiàn)漏檢和誤檢的情況,在融合方面由于數(shù)據(jù)的融合具有不可解釋性,故不可單獨對多模態(tài)數(shù)據(jù)融合方式進行實驗驗證。在對改進模型進行訓(xùn)練過程中,將原多模態(tài)深度融合方式加入改進后的模型訓(xùn)練,通過減少變量的方式來驗證融合的有效性。模型的檢測結(jié)果如表2所示。
改進后的MV3D模型用原模型深度融合的方式進行訓(xùn)練,與原MV3D模型對比,在簡單、中等和困難模式下的檢測精度均比原模型要高,平均提升了2.76%。改進后的MV3D(混合融合)與原模型相比,在簡單、中等、困難等級下,對車的檢測精度均有很大提高,分別提高了4.1%、10.11%、7.35%,與原模型相比精度平均提高了7.19%。
改進MV3D(深度融合)與改進MV3D(混合融合)兩個模型之間只有多模態(tài)數(shù)據(jù)融合的方式不一致,使用混合融合的模型比使用深度融合的模型的車輛檢測精度都要好。由此可見,本文改進的多模態(tài)混合融合方案比原模型的深度融合方案性能更好。
為了進一步驗證本文模型的泛化性以及在復(fù)雜場景下目標檢測的效果,本文設(shè)計三種復(fù)雜工況,分別為遠距離工況、遮擋工況以及光照過飽和工況,檢測效果如圖9所示。
可以看出改進后的模型在三種工況下仍然有較好的表現(xiàn)。在圖9a)遠距離工況中,兩個場景可以識別出較遠距離的目標并標注出來;圖9b)中可以看出改進后的模型對遮擋場景的目標識別成功率較高;圖9c)中,光照過飽和工況下仍可以識別成功,說明改進后的模型具有較強的魯棒性。
4" 結(jié)" 語
針對3D目標檢測精度低、在復(fù)雜工況下效果差的問題,本文提出了一種采用混合融合方式的改進MV3D目標檢測算法,將全局信息較多的圖片特征拼接到融合完成后的點云特征中。同時,去除非極大值抑制來降低網(wǎng)絡(luò)計算量,使用混合融合網(wǎng)絡(luò)替代原模型中的深度融合網(wǎng)絡(luò)。本文所提出的3D目標檢測模型,在簡單、中等和困難工況下的檢測精度與原MV3D目標檢測模型相比均有提升,特別在中等和困難工況下提升明顯。
注:本文通訊作者為曹景勝。
參考文獻
[1] 蔣拯民,黨少博,李慧云,等.自動駕駛汽車場景測試研究進展綜述[J].汽車技術(shù),2022(8):10?22.
[2] 李艷,沈韜,曾凱.基于毫米波雷達點云和視覺信息差異性特征注意力融合的3D目標檢測[J].光電子·激光,2023,34(1):26?33.
[3] 陶博,顏伏伍,尹智帥,等.基于高精度地圖增強的三維目標檢測算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2023,53(3):802?809.
[4] 甄然,蘇康,周金星,等.改進SSD的無人機目標檢測研究[J].現(xiàn)代電子技術(shù),2022,45(22):33?37.
[5] 張洪濤,田星星,周意入,等.改進型Faster R?CNN的AGV導(dǎo)航圖案目標檢測算法[J].現(xiàn)代電子技術(shù),2022,45(13):51?56.
[6] WANG Y, CHAO W L, GARG D. Pseudo?LiDAR from visual depth estimation: Bridging the gap in 3D object detection for autonomous driving [C]// Proceedings of the IEEE/CVF Con?ference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 8445?8453.
[7] MA X Z, WANG Z H, LI H J. Accurate monocular 3D object detection via color?embedded 3D reconstruction for autonomous driving [C]// Proceedings of the IEEE/CVF International Con?ference on Computer Vision. New York: IEEE, 2019: 6850?6859.
[8] WANG T, PANG J M, LIN D H. Monocular 3D object detection with depth from motion [C]// Proceedings of 17th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 386?403.
[9] TAKAHASHI M, JI Y, UMEDA K, et al. Expandable YOLO: 3D object detection from RGB?D images [C]// 2020 21st International Conference on Research and Education in Mechatronics. New York: IEEE, 2020: 1?5.
[10] YANG B, LIANG M, URTASUN R. HDNET: Exploiting HD maps for 3D object detection [EB/OL]. [2020?12?21]. https://arxiv.org/abs/2012.11704.
[11] LIANG M, YANG B, CHEN Y, et al. Multi?task multi?sensor fusion for 3D object detection [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7345?7353.
[12] CHEN X Z, MA H M, WAN J. Multi?view 3D object detection network for autonomous driving [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 6526?6534.
[13] 康自祥,王升哲,崔雨勇,等.基于Transformer的體素化激光點云目標檢測算法[J].激光與紅外,2023,53(2):202?207.
[14] 王春雷,張建林,李美惠,等.結(jié)合卷積Transformer的目標跟蹤算法[J].計算機工程,2023,49(4):281?288.
作者簡介:沙俊良(1998—),男,回族,吉林吉林人,碩士研究生,研究方向為智能駕駛技術(shù)。
曹景勝(1984—),男,山東陽谷人,副教授,碩士生導(dǎo)師,研究方向為智能汽車關(guān)鍵技術(shù)、新能源汽車驅(qū)動與控制。
收稿日期:2024?03?20" " " " " "修回日期:2024?04?17
基金項目:國家自然科學(xué)基金項目(51675257);國家自然科學(xué)基金青年基金項目(51305190);遼寧省教育廳基本科研項目(面上項目)(LJKMZ20220976);遼寧省自然科學(xué)基金指導(dǎo)計劃項目(20180550020)