中圖分類號:U469.79 文獻(xiàn)標(biāo)志碼:A 文章編號:1000-582X(2025)08-078-08
doi:10.11835/j.issn.1000-582X.2025.08.007
Multi-sensor fusion 3D target detection algorithm based on multi-scale feature fusion and edge enhancement
LIU Jianguo 1,2 ,CHEN Wen12,ZHAO Yifan3,ZHOU Qi12,YAN Fuwul2,YIN Zhishuai12, ZHENG Hao',WU Youhua' (1.Foshan Xianhu Laboratory,F(xiàn)oshan,Guangdong 5282O0,P.R.China; 2.HubeiKey Laboratory ofAdvanced Technology for Automotive Components, Wuhan University of Technology, Wuhan 430070,P.R. China; 3. SAIC-GM-Wuling Automobile Co., Ltd., Liuzhou, Guangxi 545007, P.R. China)
Abstract: BEV (bird’s eye view)-based multi-sensor fusion perception algorithms for autonomous driving have made significant progressin recent years and continue to contribute to the development of autonomous driving. In the research of multi-sensor fusion perception algorithms,multi-view image-to-BEVconversion and multi-modal feature fusion have been the key chalenges in BEV perception algorithms.In this paper,we propose MSEPECRN,a fusion sensing algorithm of camera and millimeter-wave radar for 3D target detection, which utilizes edge featuresand pointclouds to improve theaccuracyof depth prediction,and thenrealizes theaccurate conversionof multi-view images to BEV features.Meanwhile,a multi-scale deformable large kernel attention mechanism is introduced for modal fusion to solve the misalignment problem due to theexcessive diference offeatures from different sensors.Experimental results on the nuScenes open-source dataset show that compared to the baseline network, the proposed algorithm achieves improvements of 2.17% in mAP, 1.93% in NDS, 2.58% in mATE, 8.08% in mAOE,and 2.13% in mAVE.This algorithm can effectively improve the vehicle’s ability to perceive movingobstacles on the road,and has practical value.
Keywords:3D target detection; bird’s eye view; multi-modal fusion; depth prediction
1多傳感器融合的3D檢測算法研究背景與方法概述
實現(xiàn)可靠的3D感知是自動駕駛的關(guān)鍵,是車輛在復(fù)雜多變環(huán)境中正常行駛的前提。當(dāng)前,自動駕駛領(lǐng)域的3D感知算法主要依賴各種傳感器獲取環(huán)境信息,結(jié)合深度學(xué)習(xí)技術(shù)實現(xiàn)目標(biāo)識別與定位,完成 3D目標(biāo)檢測、語義分割和目標(biāo)跟蹤等任務(wù)。相機(jī)和毫米波雷達(dá)作為2種低成本且異構(gòu)的傳感器,受到越來越多關(guān)注,二者相結(jié)合能很好適應(yīng)各種復(fù)雜的環(huán)境,實現(xiàn)車輛信息的收集。如何充分利用多模態(tài)信息的互補(bǔ)特性并以統(tǒng)一方式描述特征至關(guān)重要,將多模態(tài)特征映射到BEV(bird's eye view)是一種高效簡潔的方式。
對于激光雷達(dá)和毫米波雷達(dá),在BEV中表征特征是很自然的,因為他們本身就包含空間位置信息,但是對于相機(jī)而言,這是一個挑戰(zhàn)。相機(jī)捕捉的二維圖像缺乏直接的深度信息,雖然可以借助相機(jī)內(nèi)外參數(shù)進(jìn)行轉(zhuǎn)換,但這種轉(zhuǎn)換往往是不準(zhǔn)確的。LSS(lift splat shoot)提出通過圖像預(yù)測像素的深度分布,將 2D特征抬升為3D特征,完成圖像特征向BEV特征的轉(zhuǎn)化。然而,這種方法依然缺乏可靠的深度信息支持,導(dǎo)致深度估計產(chǎn)生整體性偏差。在多模態(tài)架構(gòu)中,如何利用具有可靠深度的點(diǎn)云信息促進(jìn)相機(jī)特征的視角轉(zhuǎn)換是一個值得探究的方向。研究的 baseline模型CRN[2](camera radar net)嘗試采用RVT(radar-asssted viewtransformation)進(jìn)行雷達(dá)輔助的視圖轉(zhuǎn)換,利用從多視角圖像特征預(yù)測得到的深度分布和上下文信息與雷達(dá)的占據(jù)預(yù)測相結(jié)合完成轉(zhuǎn)換。然而在轉(zhuǎn)換過程中,更重要的是深度估計的準(zhǔn)確性,它與每個圖像像素特征直接關(guān)聯(lián),決定轉(zhuǎn)換后的圖像特征在每個BEV網(wǎng)格的深度,對后續(xù)推理產(chǎn)生長久影響。
充分結(jié)合圖像特點(diǎn)和雷達(dá)點(diǎn)云特點(diǎn)進(jìn)行精確的深度預(yù)測是值得探究的方向。圖像可以提供豐富的語義信息,以及關(guān)鍵的幾何形狀、結(jié)構(gòu)和位置信息,這對于深度預(yù)測至關(guān)重要,從圖像中獲取的物體邊界特征有助于確定物體的位置輪廓和深度變化。另外,雷達(dá)點(diǎn)云深度雖然稀疏,但能反映全局幾何結(jié)構(gòu)信息,對基于圖像的邊緣特征是很好的補(bǔ)充,同時它還具有可靠準(zhǔn)確的深度信息。結(jié)合二者進(jìn)行深度預(yù)測,有助于了解物體的相對位置和空間關(guān)系,這對后續(xù)檢測和定位至關(guān)重要。因此,筆者提出邊緣和點(diǎn)云增強(qiáng)的深度預(yù)測模塊(edge and point enhance module,EPEM),通過增強(qiáng)圖像中的物體邊界特征3,利用雷達(dá)點(diǎn)云的深度信息進(jìn)一步確定相關(guān)特征深度,幫助深度預(yù)測網(wǎng)絡(luò)得到更準(zhǔn)確可靠的深度估計。
多模態(tài)BEV特征的融合也是BEV感知算法的重點(diǎn)。CRN采用了Deformable cross attention進(jìn)行2種模態(tài)的融合,希望能夠自適應(yīng)對齊2種模態(tài)特征。這當(dāng)然是一種很好的方法,但是缺少了重要的多尺度機(jī)制。毫米波雷達(dá)點(diǎn)云特征和圖像特征的差異性較大,圖像特征包含物體幾乎完整的幾何結(jié)構(gòu)信息、紋理和顏色細(xì)節(jié),雷達(dá)點(diǎn)云特征則主要反映物體的邊緣和表面特征(如汽車的邊緣),單一尺度下的多模態(tài)交互融合往往在處理極端形狀或劇烈尺度變化時不夠魯棒。雖然CRN采用了帶有FPN(feature pyramid networks)機(jī)制的backbone試圖引進(jìn)多尺度機(jī)制,但這種多尺度只存在單一模態(tài)內(nèi)部,對多模態(tài)的融合可能不會產(chǎn)生效果。
針對這個問題,筆者提出多尺度可變形大核注意力特征融合模塊(multi-scale deformable large kernelattention fusionmodule,MSD-LKA),希望通過多尺度機(jī)制和可變形大核注意力機(jī)制更好地對齊和融合相機(jī)和雷達(dá)特征,避免因模態(tài)差異過大而導(dǎo)致的融合錯位。
2 相關(guān)工作
2.1基于LSS的視圖轉(zhuǎn)換
自從LSS提出之后,基于深度預(yù)測的視圖轉(zhuǎn)換方法受到很多關(guān)注,通過生成顯式的深度分布和上下文信息進(jìn)行2D圖像特征到BEV特征的轉(zhuǎn)換。BEVDepth4提出一種新的相機(jī)感知深度估計模塊,通過引人相機(jī)內(nèi)參數(shù)進(jìn)行精確深度預(yù)測,利用激光雷達(dá)點(diǎn)云進(jìn)行深度監(jiān)督。EA-LSS利用激光點(diǎn)云的深度圖結(jié)合相機(jī)圖像,通過EADF(edge-aware depth fusion)和FGD(fine-grained depth)模塊緩解深度跳躍實現(xiàn)深度精細(xì)化監(jiān)督、精確預(yù)測。MaGNet則將單視角深度概率與多視角幾何結(jié)合,提高多視角深度估計的精度和效率。
MSEPE-CRN通過提出的EPEMModule對深度估計方法進(jìn)行改進(jìn),該模塊通過增強(qiáng)圖像中的物體邊界特征,利用雷達(dá)點(diǎn)云的深度信息,幫助深度預(yù)測網(wǎng)絡(luò)獲得更準(zhǔn)確和可靠的深度估計。
2.2 BEV下的多模態(tài)特征融合
BEV下可以對交通場景實現(xiàn)精準(zhǔn)而全面的描述,這對大部分下游任務(wù)是適用的。同時,它的統(tǒng)一視角為各種不同傳感器的融合提供便捷方式。BEV下的多模態(tài)融合方法有3種:一種是利用深度信息直接從2D圖像構(gòu)建BEV特征。如 UVRT7](unifying Voxel-based representation with transformer for 3D object detection)根據(jù)預(yù)測的深度分?jǐn)?shù)和幾何約束條件,從2D圖像提取特征,構(gòu)建3D空間特征;第2種是通過提取不同模態(tài)的BEV特征實現(xiàn)后續(xù)融合操作。例如BEVFusion通過將圖像特征轉(zhuǎn)化為BEV特征,直接與激光雷達(dá)特征進(jìn)行級聯(lián)融合;第3種是通過3D參考點(diǎn)生成查詢,從不同模態(tài)中提取的特征進(jìn)行融合。例如CMT(crossmodal transformer)通過位置引導(dǎo)查詢生成器生成3D錨點(diǎn),將其投射到不同模態(tài)實現(xiàn)模態(tài)融合操作[0]。
研究采用基于多模態(tài)BEV特征的融合方法,實施MSD-LKA。MSD-LKA模塊通過多尺度機(jī)制和大核注意力機(jī)制自適應(yīng)對齊圖像特征和雷達(dá)特征,在全局范圍內(nèi)實現(xiàn)準(zhǔn)確的多模態(tài)融合,避免因模態(tài)差異顯著導(dǎo)致特征錯位。
3 3D目標(biāo)檢測算法MSEPE-CRN框架
MSEPE-CRN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,首先,用2個backbone分支分別提取多視角圖像特征和雷達(dá)點(diǎn)云特征。然后,將提取的多視角圖像特征以及雷達(dá)點(diǎn)云特征輸入到基于EPEM的深度預(yù)測網(wǎng)絡(luò),得到多視角語義特征Contextpre和多視角深度預(yù)測 Depthpre ,訓(xùn)練中會使用激光雷達(dá)點(diǎn)云對深度預(yù)測進(jìn)行監(jiān)督。接著通過BEVPooling將多視角特征向BEV特征轉(zhuǎn)換,得到2種模態(tài)的BEV特征。然后,將多模態(tài)BEV特征輸入到MSD-LKAFusion Module中進(jìn)行自適應(yīng)融合,得到融合后的BEV特征,最后使用3DDetection head進(jìn)行目標(biāo)檢測。
圖1MSEPE-CRN的整體網(wǎng)絡(luò)結(jié)構(gòu)
Fig.1 OverallnetworkstructureofMSEPE-CRN
3.1邊緣和點(diǎn)云增強(qiáng)的深度預(yù)測模塊
在邊緣和點(diǎn)云增強(qiáng)的深度預(yù)測模塊(EPEM)中,多視角圖像特征 xI∈PB×N×C×H×W 通過帶有FPN的ResNet50主干提取得到,而雷達(dá)特征 xR∈PB×N×C×D×W 由PointNet和稀疏卷積編碼得到,均作為深度預(yù)測網(wǎng)絡(luò)的輸人。多視角圖像特征 xI 進(jìn)入深度網(wǎng)絡(luò)后首先通過固定卷積核 Sobel,,Sobel,分別提取水平方向上的梯度和垂直方向上的梯度,識別出圖像發(fā)生顯著變化的區(qū)域(即可能的物體邊界),計算梯度幅值最終經(jīng)過Sigmod并與 xI 相乘,強(qiáng)化和突出原輸入圖像中的邊緣特征,得到邊緣特征增強(qiáng)的多視角圖像特征 xIG ,公式如下
圖2邊緣和點(diǎn)云增強(qiáng)的深度預(yù)測網(wǎng)絡(luò) Fig.2Edge and point enhance depth net
再經(jīng)過一系列的卷積操作和殘差連接整合特征,最終得到多視角圖像特征 xI°′ 考慮到基于雷達(dá)的深度信息是可靠的,所以直接采用交叉注意力融合2種模態(tài),在空間中建立對應(yīng)關(guān)系,利用雷達(dá)特征進(jìn)一步增強(qiáng)多視角圖像的邊緣特征信息
xI′′=DepthCrossAttention(xI′,xR)0
另外,考慮到相機(jī)參數(shù)對深度預(yù)測而言是有益的,提供了將圖像坐標(biāo)轉(zhuǎn)換為相機(jī)坐標(biāo)的幾何信息,幫助從二維圖像中恢復(fù)三維深度,通過圖像尺度與實際世界尺度的轉(zhuǎn)換,校正視差圖計算深度,消除圖像畸變的影響。因此,使用KAN[-2]網(wǎng)絡(luò)對相機(jī)參數(shù)矩陣 Pi 進(jìn)行處理得到相機(jī)參數(shù)向量,通過SELayer分別得到初步Contex tpre 和 ΔDepthpre ,通過卷積得到最終的預(yù)測結(jié)果,過程如下
Contextpre=Conv(SEcontext(xI′′|KAN(Pi)))
3.2多尺度可變形大核注意力融合模塊
參考當(dāng)前的基于大核注意力的研究[13-4],筆者提出多尺度可變形大核注意力融合模塊(MSD-LKA fusionmodule),希望通過引進(jìn)多尺度機(jī)制的同時保留可變形注意力,實現(xiàn)多模態(tài)特征的充分融合。
對于得到的多模態(tài)BEV特征 xIbev 、 xRbev ,他們的權(quán)重不應(yīng)該是對等的,所以使用FACMA[15模塊,利用頻域通道注意力和上下文注意力增強(qiáng)2種模態(tài)特征,自適應(yīng)調(diào)整模態(tài)權(quán)重,級聯(lián)2種特征得到 xFbev∈PB×C×H×W 。經(jīng)過通道映射降維后,將級聯(lián)特征輸入到MSD-LKA fusion module中。MSD-LKA fusion module采用Transformer網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示。在MSD-LKA中,首先通過 1×1 卷積將級聯(lián)特征 xFbev 拓展到輸人維度的3倍,得到xgbev ,然后分成3組進(jìn)行大核注意力處理,記每組的輸入為 xgibev ,3組的卷積核分別由不同大小的可變形深度卷積、可變形深度膨脹卷積以及 1×1 逐點(diǎn)卷積構(gòu)成,能夠在多個尺度上進(jìn)行特征提取,全面捕捉不同模態(tài)的差異性特征,調(diào)整形狀適應(yīng)不規(guī)則的特征。另外通過結(jié)合注意力機(jī)制,更有效地關(guān)注到特定特征區(qū)域,提高模型魯棒性,增強(qiáng)關(guān)鍵特征的表達(dá)。通過深度卷積和逐點(diǎn)卷積組合的使用,大幅減少計算復(fù)雜度和模型參數(shù),MSD-LKA整體過程如卜
式中:i代表分組編號; N 為組數(shù)。
圖3多尺度可變形大核注意力融合模塊
Fig.3Multi-scaledeformable largekernel attention fusionmodule
4實驗
4.1 數(shù)據(jù)集
為了驗證算法效果,在nuScenes上進(jìn)行實驗,nuScenes提供了高質(zhì)量的傳感器數(shù)據(jù),包括32線激光雷達(dá)、毫米波雷達(dá)、8個高分辨率攝像頭、IMU和GPS/IMU數(shù)據(jù)。數(shù)據(jù)集包含1000個場景,每場景約40幀,覆蓋新加坡和波士頓的各種駕駛環(huán)境和條件,標(biāo)注信息包括目標(biāo)檢測、目標(biāo)跟蹤和地圖數(shù)據(jù)。使用官方指標(biāo):平均精度(mean average precision,mAP)和 nuScenes綜合檢測分?jǐn)?shù)(nuScenes detection score,NDS)進(jìn)行評估。nuScenes的mAP是利用地平面上的中心距離而不是三維交聯(lián)(intersection over union,IoU)來計算,匹配預(yù)測結(jié)果和地面真實值。nuScenes 度量還包含5種真正度量(true positive,TP),包括ATE(average translationerror)ASE(average scale error)、AOE(average orientation error)、AVE(average velocity error)和 AAE(averageattribute error),分別用于度量平移、尺度、方向、速度和屬性誤差。NDS的定義如下,能夠綜合評價模型的各項指標(biāo)
4.2 實施細(xì)節(jié)
圖像backbone設(shè)置為ResNet50,輸入分辨率為 256×704 ,默認(rèn)情況下,使用1張RTX4090GPU,訓(xùn)練輪數(shù)設(shè)置24epochs,batchsize設(shè)置為4,學(xué)習(xí)率為 1×10-4 ,深度分類為70,支柱和BEV網(wǎng)格尺寸為 0.8m ,得到 128× 128 BEV空間。
4.3 主要結(jié)果
主要針對3D檢測任務(wù),在nuScenes數(shù)據(jù)集上與其他模型進(jìn)行比較。主要的實驗結(jié)果如表1,在相同實驗條件下,與基準(zhǔn)網(wǎng)絡(luò)CRN相比,mAP提升 2.17% 、NDS提升 1.93% 、mATE提升 2.58% 、mAOE提升 8.08% 、mAVE提升 2.13% 。從結(jié)果可以看出,模型在目標(biāo)檢測的精度和綜合性評價指標(biāo)都有提升,特別是mAOE提升較多,說明模型能更精確地預(yù)測目標(biāo)朝向,增強(qiáng)動態(tài)場景中的方向感知能力,這對自動駕駛的運(yùn)動預(yù)測和軌跡規(guī)劃都有較大幫助,在處理復(fù)雜動態(tài)場景時能夠提升安全性。
Table1 3D object detection results onnuScenesval set
注:加粗?jǐn)?shù)據(jù)表示在當(dāng)前同類指標(biāo)中最優(yōu)。
mATE、mASE、mAOE、mAVE、mAAE單項指標(biāo)與其他模型相比并沒有取得最優(yōu)結(jié)果,主要是因為本模型與其他模型的結(jié)構(gòu)和側(cè)重點(diǎn)差異導(dǎo)致。本模型主要考慮圖像模態(tài)和雷達(dá)點(diǎn)云模態(tài)的特征差異,無論是特征轉(zhuǎn)換還是特征融合都針對這種差異進(jìn)行優(yōu)化,整體實現(xiàn)信息的互補(bǔ)融合,得到準(zhǔn)確對齊和充分融合的特征,在此基礎(chǔ)上預(yù)測,使模型具有更可靠的判斷依據(jù),能夠兼顧目標(biāo)位置預(yù)測、速度預(yù)測、方向預(yù)測等指標(biāo)的準(zhǔn)確性,雖然單項不是最優(yōu),但是整體性能更強(qiáng),這在綜合性指標(biāo)NDS的提升上可以體現(xiàn),也與改進(jìn)的出發(fā)點(diǎn)相符。而其他模型例如SparseBEV,一種基于查詢(Query)的檢測模型,每個查詢包含:3D坐標(biāo)、尺寸、旋轉(zhuǎn)角、速度等信息,通過不同時刻的車輛自身位置實現(xiàn)多幀查詢對齊,這種時間融合策略是對單項指標(biāo)的極致優(yōu)化,雖然能有效降低mAOE(方向)和mAVE(速度)的誤差,但在綜合性指標(biāo)NDS上與研究的算法有一定差距。
4.4 消融實驗
為深人研究不同模塊的影響,在nuScenes數(shù)據(jù)集上進(jìn)行消融實驗。實驗結(jié)果顯示,EPEM模塊的引入帶來了 mAP2.05% 的提升,這表明該模塊通過圖像中邊緣信息和雷達(dá)信息的融合,有效提升目標(biāo)定位及物體邊界劃分。同時,mATE降低了 1.82% 表明估計的目標(biāo)位置與真實目標(biāo)位置之間的誤差較小,EPEM有助于模型定位能力的提升。雖然綜合性指標(biāo)NDS僅提升 0.70% ,也顯示該模塊對整體性能有積極影響。
表1nuScenes數(shù)據(jù)集驗證集上3D檢測測試結(jié)果
表2EPEM和MSD-LKA融合模塊在nuScenes數(shù)據(jù)集驗證集上的消融
able2Ablationstudy of EPEM and MSD-LKA fusion module onnuScenesval se
引入MSD-LKA模塊的實驗結(jié)果顯示, mAP 提升了 1.85% ,反映MSD-LKA的多尺度機(jī)制和可變形卷積能較好適應(yīng)物體形狀并精確定位物體位置。NDS提升了 1.70% ,這表明模型整體的魯棒性有所提升,能適應(yīng)復(fù)雜情況。更為重要的是,mAOE降低了 5.91% ,這表明MSD-LKA模塊能減少方向估計誤差,提高方向預(yù)測的精確度,這得益于大核注意力機(jī)制,通過較大的感受野和長距離依賴建模能力,整合全局信息和局部信息,提升對目標(biāo)和整體關(guān)系的理解,使方向估計更準(zhǔn)確。
5結(jié)論
在CRN的基礎(chǔ)上,筆者提出一種新的相機(jī)和毫米波雷達(dá)融合的3D目標(biāo)檢測網(wǎng)絡(luò)MSEPE-CRN。針對原文的深度網(wǎng)絡(luò)沒有充分利用多模態(tài)特征信息,導(dǎo)致目標(biāo)位置預(yù)測精度不足,筆者提出一種結(jié)合點(diǎn)云特征和圖像邊緣特征的深度預(yù)測模塊,通過更精確的深度分布,使多視角圖像特征向BEV特征轉(zhuǎn)化更準(zhǔn)確,有效提升模型對物體邊界和位置的把握度。針對多模態(tài)BEV特征融合過程中缺乏多尺度特征融合機(jī)制,提出基于多尺度可變形大核注意力的多模態(tài)融合模塊,通過多尺度分組大核卷積,充分對齊特征差異性較大的圖像和雷達(dá)點(diǎn)云信息,使其在復(fù)雜的各類場景中具有較好魯棒性。相關(guān)實驗結(jié)果表明,研究提出的方法能有效提升算法的精度和適應(yīng)性。另外,作為一種BEV檢測算法,同樣適用于其他下游任務(wù),可以設(shè)計不同的檢測頭實現(xiàn)分割、追蹤等功能。
參考文獻(xiàn)
[1]PhilionJ,F(xiàn)idlerS.Lift,splat,shoot:encodingimagesfromarbitrarycamerarigsbyimplicitlyunprojectingtodC16th European Conference.Glasgow, UK:Springer International Publishing,202o:194-210.
[2]KimY,inJ,KiS,etal.Cr:camerardanetfoacurate,robust,eficient3dpereptin[CEEE/CVFnteatioal Conference on ComputerVision.Piscataway:IEEE Computer Society,2023:17615-17626.
[3]Zhu Z,HeX,QiG,etal.Brain tumorsegmentationbasedonthefusionofdepsemanticsandedge information inmultimodal MRI[J].Information Fusion,2023,91: 376-387.
[4]LiY,GeZ,YuG,etal.Bevdepth:Acquisitionofreliable depth frmulti-view3dobject detectionC/AAAIconferenceon Artificial Intelligence.Menlo Park,CA:AAAI,2023,37(2):1477-1485.
[5]HuH,WangF,SuJ,etal.Ea-ls:Edge-awarelift-splat-sotframework for3dbevobjectdetection[EB/OL].(2023-0-30) [2024-08-10].https://arxiv.org/abs/2303.17895.
[6]BaeG,BudvytisI,CipollR.Multi-viewdepthestimationbyfusingsingle-viewdepth probabilitywith multi-viewgeometry [C]/IEEE/CVFConference on Computer Visionand Patern Recognition.Piscataway:IEEEComputer Society,2022:2842- 2851.
[7]LiY,ChenYQiX,etal.Unifingvoel-basedrepresentationwithtraforerfordectdetection[C/dvancesural Information Processing Systems.Red Hook,NY: Curran Associates,2022:18442-18455.
[8]Liang T,XieH,Yu K,et al.Bevfusion:a simpleandrobust lidar-camera fusion framework[C]/Advances inNeural Information Processing Systems.Red Hook,NY: Curran Associates,2022: 10421-10434.
[9]YanJ,LiuY,SunJetal.Cross modaltranforer:towardsfasandobust3dojectdetection[C/EEE/CVFtetioal Conference on Computer Vision.Piscataway:IEEE Computer Society,2023:18268-18278.
[10]Ma Y,WangT,BaiX,etal.Vision-centricbevperception:asurvey[J].IEEETransactionsonPater Analysis andMacine Intelligence,2024, 46(12): 10978-10997.
[11]Blealtan.Efient-an:kolmogoo-arldnetwoksipementatio[EB/L].(245-2)2408-10].ps:/iub.com/ Blealtan/efficient-kan.
[12]LiuZ,WangY,VaidyaS,etal.Kan:Kolmogorov-aroldnetworks[EB/OL].(224-06-16)224-08-10].tps:/rxiv.g/ab/ 2404.19756.
[13]Wang Y,LiY, WangG,etal.Multi-sale atentionnetwork forsingleimagesuper-resolution[C]//EEE/CVFConferenceon Computer Vision and Pattern Recognition.Piscataway: IEEE Computer Society, 2024:5950-5960.
[14]AzadR,ggemerLHuttema,talBeondself-att:defoablergeelteonforcaligeta tion[Cl/IEEE/CVFwinterconference onappicationsof computer vision.Piscataway:IEEE Computer Society2024:1287- 1297.
[15]JinX,GuoC,HeZ,etalFCMNet:frequency-awarecros-modalityttentionetwrksforRGB-Dsalientbjectdetetio[J]. Neurocomputing,2022,491: 414-425.
[16]Zhou T,ChenJ,ShiY,etal.Bridgingtheviewdisparitybetweenradarandcamera features formulti-modalfusiondobject detection[J].IEEE Transactions on Intelligent Vehicles,2023,8(2):1523-1535.
[17]KimY,KimS,ChoiJWetal.craft:camera-radardbectdetectionwithsatio-ontextualfusiontranforerC/AA Conference on Artificial Intelligence.Menlo Park,CA:AAAI,2023,37(1):1160-1168.
[18]KlingnerM,BorseS,KumarVR,etal.X3kd:kowledgedistilationacross modalities,tasksandstagesforulti-arad object detection[Cl/IEEE/CVF Conference on Computer Vision and Pattrn Recognition.Piscataway:IEEE Computer Society, 2023:13343-13353.
[19]Liu H,TengY,LuT,etal.Sparsebev:hig-performance sparse3dojectdetectionfrommulti-cameravideosC]EE/CVF International Conference on Computer Vision.Piscataway:IEEE Computer Society,2023:18580-18590.
(編輯 侯湘)