摘 要:對于自動駕駛領(lǐng)域而言,確保在各種天氣和光照條件下精確檢測其他車輛目標是至關(guān)重要的。針對單個傳感器獲取信息的局限性,提出一種基于cross-attention注意力機制的融合方法(AF),用于在特征層面上融合毫米波雷達和相機信息。首先,將毫米波雷達和相機進行空間對齊,并將對齊后的點云信息投影成點云圖像。然后,將點云圖像在高度和寬度方向上進行擴展,以提高相機圖像和點云圖像之間的匹配度。最后,將點云圖像和相機圖像送入包含AF結(jié)構(gòu)的CenterNet目標檢測網(wǎng)絡(luò)中進行訓(xùn)練,并生成一個空間注意力權(quán)重,以增強相機中的關(guān)鍵特征。實驗結(jié)果表明,AF結(jié)構(gòu)可以提高原網(wǎng)絡(luò)檢測各種大小目標的性能,特別是對小目標的檢測提升更為明顯,且對系統(tǒng)的實時性影響不大,是提高車輛在多種場景下檢測精度的理想選擇。
關(guān)鍵詞: 自動駕駛;目標檢測;毫米波雷達;交叉注意力融合
中圖分類號: TP391文獻標志碼:A 文章編號: 1001-3695(2024)04-044-1258-06
doi: 10.19734/j.issn.1001-3695.2023.07.0343
AF-CenterNet: object detection with fusion of millimeter-wave radar and camera using cross-attention mechanism
Che Li Lyu Lianhui Jiang Liubinga,b
Abstract:For the field of autonomous driving, it is crucial to ensure accurate detection of other vehicle targets under various weather and lighting conditions. To address the limitations of the information acquired by a single sensor, this paper proposed a fusion method (AF) based on the cross-attention mechanism for fusing millimeter-wave radar and camera information at the feature level. It first spatially aligned the millimeter-wave radar and camer projecting the aligned point cloud information into a point cloud image. Then, it expanded the point cloud image in the height and width directions to improve the match between the camera image and the point cloud image. Finally, it sent the point cloud image and the camera image into a CenterNet target detection network containing the AF structure for training and generated a spatial attention weight to enhance key features in the camera. The experimental results show that the AF structure can improve the performance of the original network in detecting targets of various sizes, especially for small targets, and has little impact on the real-time performance of the system, which makes it an ideal choice for improving the detection accuracy of vehicles in a variety of scenarios. Key words:autonomous driving; object detection; millimeter-wave radar; cross-attention fusion
0 引言
隨著各類傳感器技術(shù)和計算機視覺技術(shù)的發(fā)展,自動駕駛的實現(xiàn)成為了可能。單一傳感器獲取到的信息難以滿足自動駕駛的需要。因此, 多傳感器融合技術(shù)是實現(xiàn)自動駕駛的核心技術(shù),通過多傳感器融合技術(shù),可以協(xié)同多個同類或異類傳感器,共同采集車輛周圍環(huán)境的數(shù)據(jù)信息,經(jīng)過多傳感器融合結(jié)構(gòu)或算法的處理分析,使車輛能全面地感知周圍環(huán)境,幫助車輛完成自動駕駛等智能決策[1]。
根據(jù)傳感器融合信息所在的層次,將傳感器融合技術(shù)分為數(shù)據(jù)層融合、特征層融合和決策層融合。特征層融合在融合前對信息進行了一定的特征提取處理,在保持目標重要特征的基礎(chǔ)上,對提取的特征進行融合。其相較于數(shù)據(jù)層融合提高了系統(tǒng)的實時性,同時比決策層融合保留了更多的細節(jié)信息[2]。在自動駕駛領(lǐng)域中,常使用到的傳感器有毫米波雷達、激光雷達和相機。相機能夠在光照條件良好的場景下獲取豐富的環(huán)境信息如物體的色彩、紋理和形狀等, 而毫米波雷達能夠探測目標的距離、速度信息,且不受光照條件的影響,同時在雨天、雪天和多霧的天氣條件下也具備一定的抗干擾性,但不能直接反映目標形狀、色彩等信息。激光雷達雖然比毫米波雷達的探測精度更高,但激光雷達在雨雪霧等天氣環(huán)境下會受到較大的影響??紤]到自動駕駛需要在全天候場景下保持穩(wěn)定、精確的探測性能,只有各個傳感器互相配合使用,形成優(yōu)勢互補,再加上信息融合算法的優(yōu)化處理,才能更好地采集處理車輛周圍的數(shù)據(jù),并給出更加準確、魯棒的決策[3]。因此,本文使用毫米波雷達和相機進行傳感器融合來實現(xiàn)優(yōu)勢互補。因為毫米波雷達點云數(shù)據(jù)的稀疏性,使其不能像激光雷達一樣生成密集的點云數(shù)據(jù)與相機圖像進行密切的匹配,所以雷達與相機的融合研究相較于激光雷達和相機融合的發(fā)展較為緩慢。在毫米波雷達與相機融合的初期,融合層次一般停留在決策層融合[4~6],總的來說,首先使用雷達來提取出相機圖像中的感興趣區(qū)域,再對雷達提取到的感興趣區(qū)域單獨進行相機圖像的目標檢測。雖然,感興趣區(qū)域的設(shè)計加快了目標檢測網(wǎng)絡(luò)對圖像的處理速度,但最后檢測的精度還是基于相機圖像的檢測結(jié)果,并沒有很好地結(jié)合毫米波雷達信息和相機信息的優(yōu)勢。對于特征層融合,文獻[7]使用毫米波雷達點云中的距離和速度信息生成點云圖像,再在ResNet18主干特征提取網(wǎng)絡(luò)中加入點云圖像特征提取分支,將提取到的相機和點云的特征圖堆疊進行特征融合,最后使用SSD網(wǎng)絡(luò)作為目標檢測框架進行目標識別。同樣地,RVNet[8]也是將點云信息中的速度和距離信息轉(zhuǎn)換為點云圖像送入到卷積神經(jīng)網(wǎng)絡(luò)中進行特征提取和特征堆疊,不同的是設(shè)計了不同的輸出分支用于不同大小的目標檢測。之后,毫米波雷達和相機的特征層融合網(wǎng)絡(luò)的研究也向著多方面展開。Nobis等人[9]在2019年提出CRF-Net融合框架,CRF-Net也是在特征層中融合相機數(shù)據(jù)和投影稀疏雷達數(shù)據(jù)。CRF-Net為了降低因為毫米波雷達不能提供物體的高度信息所帶來的融合難度,將毫米波雷達點云擴展為具有高度信息的線狀圖。為了綜合不同深度網(wǎng)絡(luò)中的雷達和相機的特征,CRF-Net將這不同層次的雷達和相機特征圖按通道維堆疊起來,送入到網(wǎng)絡(luò)中讓網(wǎng)絡(luò)自行學(xué)習(xí)不同層次的權(quán)重來達到最好的效果。近年來,注意力機制[10,11]的發(fā)現(xiàn)使得神經(jīng)網(wǎng)絡(luò)的性能得到進一步的提高。Chang等人[12]指出目前傳感器融合的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計沒有很好地考慮到毫米波雷達對周圍環(huán)境的狀態(tài)感知信息。于是提出了SAF-FCOS網(wǎng)絡(luò)融合結(jié)構(gòu),對同一層次的雷達特征層進行不同卷積核大小的卷積操作,來得到不同感受野大小的空間注意力矩陣,通過空間注意力機制來實現(xiàn)融合雷達與相機信息。Danapal等人[13]提出一個基于Tiny YOLOv4[14]的主干特征提取網(wǎng)絡(luò)和帶有通道注意力模塊的融合網(wǎng)絡(luò)架構(gòu)在特征級上實現(xiàn)相機和毫米波雷達的融合。MS-YOLO[15]網(wǎng)絡(luò)使用YOLOv5作為主干特征提取網(wǎng)絡(luò),然后使用 FPN[16]和PAN[17]結(jié)構(gòu)接收主干網(wǎng)絡(luò)提取的不同感受野大小的相機和雷達點云特征圖,通過通道堆疊的方式將相機和雷達點云特征圖進行全方位的融合。但是,上述特征層融合的研究對點云信息的利用并不充分或者點云圖像的表現(xiàn)形式較為單一,且在融合毫米波雷達和相機特征的方法上較為簡單。雖然SAF-FCOS和Danapal等人改進的Tiny YOLOv4融合網(wǎng)絡(luò)和在融合機制上使用了注意力機制,但只是使用了雷達特征來獲得不同感受野大小的空間注意力權(quán)重或相機和毫米波雷達點云通道注意力權(quán)重,并沒有充分利用相機特征和相機與毫米波雷達特征間的聯(lián)系。為了提高雷達信息和相機信息間的關(guān)聯(lián)性,本文提出了一種點云擴展方法和cross-attention注意力機制[18]來融合毫米波雷達和相機模態(tài)內(nèi)和模態(tài)間的特征,實現(xiàn)毫米波雷達和相機的優(yōu)勢互補,提高對全尺寸目標的檢測精度。
1 雷達數(shù)據(jù)處理
1.1 雷達相機空間對齊
本文使用nuScenes數(shù)據(jù)集[19]來制作訓(xùn)練集和驗證集。nuScenes數(shù)據(jù)集是在自動駕駛領(lǐng)域中使用非常廣泛的數(shù)據(jù)集,它使用了毫米波雷達、激光雷達和彩色相機等常見的傳感器采集了約15個小時在真實街道上的駕駛數(shù)據(jù)。數(shù)據(jù)采集的場景包含城市和郊區(qū)等各個不同路況和光照條件下的場景。nuScenes數(shù)據(jù)集中所使用的傳感器的安裝示意圖如圖1所示。
因為毫米波雷達和相機是不同類傳感器,相機采集到的是RGB格式的圖片文件,而毫米波雷達采集到的是包含目標的速度、距離和雷達散射截面積等信息的點云文件。為了使卷積神經(jīng)網(wǎng)絡(luò)能夠提取雷達點云的特征信息,需要將毫米波雷達的點云信息轉(zhuǎn)換成圖片中的像素信息。在采集過程中,毫米波雷達和相機的采樣頻率不一致,使用線程同步方法來同步采集相機圖像和毫米波雷達點云數(shù)據(jù),從而實現(xiàn)時間對齊。從圖1中可以看到,相機和毫米波雷達所處的空間位置不同,所以需要對毫米波雷達和相機的坐標系進行轉(zhuǎn)換,使得兩者處于同一坐標系下來實現(xiàn)空間對齊。一般來說,毫米波雷達和相機的空間對齊所涉及到的坐標系有雷達坐標系、世界坐標系、相機坐標系、成像平面坐標系和像素坐標系。通過坐標系間的轉(zhuǎn)換關(guān)系,可以得到像素坐標系到世界坐標系的轉(zhuǎn)換公式:
其中:(xu,yu)是目標在像素坐標系下的坐標;(XW,YW,ZW)是目標在世界坐標系下的坐標; fx=f/dx, fy=f/dy,f是相機的焦距dx和dy表示在像素坐標系下單位像素在x軸和y軸方向下的物理尺寸;(uAO,vAO)表示成像平面中心點在像素坐標系下的坐標; R W和 T W是世界坐標系到相機坐標系的旋轉(zhuǎn)和平移矩陣。通過相機的標定可以得到相機的內(nèi)參矩陣fx/0/uAO/00/fy/vAO/00/0/1/0和外參矩陣 R W/ T WOT/ 再由式(1)可以將一個目標在世界坐標系下的坐標轉(zhuǎn)換到對應(yīng)像素坐標下的坐標。
為了將毫米波雷達坐標系投影到和相機同一的像素坐標系,還需要將毫米波雷達坐標系投影到世界坐標系,再使用式(1)投影到像素坐標系。雷達坐標系是以雷達為坐標原點Or,以汽車中軸線,行駛方向為正方向建立Z軸,Y軸則垂直汽車向上,X軸垂直于YOZ平面,如圖2所示。雷達和相機的空間對齊所涉及到的坐標系轉(zhuǎn)換如圖3所示。
假設(shè)目標被雷達探測到的目標點P的位置信息為(r,θ),那么該目標在世界坐標系中對應(yīng)坐標如式(2)所示。
世界坐標系的位置可以自由設(shè)置,通過測量雷達與世界坐標系的偏差,可以得到偏移向量 e =[ex,ey,ez],則目標在世界坐標系中的坐標(xW,yW,zW)為
通過上面的坐標變換,毫米波雷達和相機采集到的數(shù)據(jù)就可以轉(zhuǎn)換到同一像素坐標系下,毫米波雷達點云投影到圖像上的效果如圖4所示。圖4中毫米波雷達點云的顏色深淺代表目標到雷達的距離近遠。
1.2 雷達點云圖像處理為了更好地使用雷達采集到的信息,本文將雷達采集到的距離、速度和雷達散射截面積信息分別轉(zhuǎn)換為點云圖像中RGB三通道中的像素值。同時為了降低由于毫米波雷達點云的稀疏性給相機圖像和點云圖像融合帶來的困難,本文使用距離和雷達散射截面積信息來對點云的長寬進行擴展。這使得卷積神經(jīng)網(wǎng)絡(luò)更容易將點云圖像和相機圖像的特征聯(lián)系起來。
1.2.1 投影雷達點云圖像
在將毫米波雷達點云信息投影生成點云圖像之前需要根據(jù)實際條件和傳感器性能的差異對點云進行過濾。nuScenes數(shù)據(jù)集中所使用毫米波雷達的最大探測距離depth為250 m,而道路中車輛行駛的速度v一般不超過33 m/s,車輛的雷達散射截面積rcs一般在3~30 dBsm,在投影點云圖像前需要將超出這三個限制范圍的點云數(shù)據(jù)濾除。又因為毫米波雷達和相機的探測角度不同,為了方便后續(xù)卷積神經(jīng)網(wǎng)絡(luò)的處理,需要保持相機圖像和點云圖像的尺寸一致,將點云圖像的尺寸也限制到和相機圖像一樣的1600×900大小。
根據(jù)上面的分析設(shè)計式(4),將符合要求的點云信息轉(zhuǎn)換為RGB三通道中的像素值。
其中:depth、v和rcs 分別代表點云中的距離、速度和雷達散射截面積信息。通過式(4),可以將點云信息轉(zhuǎn)換得到的像素值限定在0~255像素,其中為了使轉(zhuǎn)換得到的點云圖像的顏色較為明顯,將RGB三通道中的像素值限定在顏色較為明亮的128像素值以上。
1.2.2 雷達點云圖像柱狀擴展
考慮到毫米波雷達的點云沒有反映物體的高度信息,這給融合本就稀疏的雷達點云更增加了難度。為了讓雷達點云能夠在一定程度上反映檢測目標的高度信息,以此來提高相機和點云圖像的匹配度。本文根據(jù)雷達點云中包含的距離和雷達散射截面積信息來擴展點云的高度和寬度;同時考慮到“遠大近小”效應(yīng),使得距離遠的點云的高度小,距離近的點云高度大。經(jīng)過多次實驗,通過式(5),將點云的高度和寬度擴展到一個較為合理的尺度。
點云圖像的轉(zhuǎn)換流程如圖5所示。
2 特征融合網(wǎng)絡(luò)架構(gòu)
本章將會詳細介紹使用注意力機制在單階段目標檢測網(wǎng)絡(luò)CenterNet[20]中實現(xiàn)毫米波雷達和相機特征級融合的AF-CenterNet網(wǎng)絡(luò)結(jié)構(gòu),并在后續(xù)做了大量的實驗驗證所提出的融合結(jié)構(gòu)對于提升小目標物體檢測精度的有效性。整個網(wǎng)絡(luò)的結(jié)構(gòu)如圖6所示。整個網(wǎng)絡(luò)框架大致可以分為雷達和相機特征提取結(jié)構(gòu)和cross-attention特征融合結(jié)構(gòu)。
2.1 雷達和相機特征提取結(jié)構(gòu)本文使用ResNet50作為主干特征提取網(wǎng)絡(luò),ResNet50包含5層結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)逐層加深,而實現(xiàn)特征融合首先需要考慮在哪一層進行融合。雖然深層次的卷積神經(jīng)網(wǎng)絡(luò)中提取到一些更抽象和更語義化的特征信息,使網(wǎng)絡(luò)能夠更好地擬合特征,但由于獲得的是對圖像的整體性信息,會損失較多的細節(jié)信息,這對小目標的物體檢測是不利的。而在自動駕駛領(lǐng)域中,對目標檢測系統(tǒng)的實時性要求較高,深層次的網(wǎng)絡(luò)結(jié)構(gòu)的特征融合,意味著需要在主干特征提取網(wǎng)絡(luò)中加入一個能夠提取到同樣深層次特征信息的雷達分支網(wǎng)絡(luò),這無疑會大大增加網(wǎng)絡(luò)的參數(shù)量,導(dǎo)致網(wǎng)絡(luò)運行速度減慢。因此,本文選擇在ResNet第一層后實現(xiàn)特征融合,即圖6中ImgP0層后加入特征融合結(jié)構(gòu)。
雷達點云圖像和相機圖像的初始尺寸都是512×512×3。對于相機特征提取分支,相機圖像在經(jīng)過ResNet網(wǎng)絡(luò)第一層的卷積、標準化、激活函數(shù)和最大池化操作后,得到大小為128×128,通道數(shù)擴張為64的相機特征層。對于雷達特征提取分支,因為雷達點云在一定程度上反映了周圍環(huán)境的物理狀態(tài),所以在相機特征提取分支的基礎(chǔ)上加入了3×3和5×5兩個不同卷積核大小的深度可分離卷積[2 22],來提取點云圖像中不同感受野大小的特征信息,同時深度可分離卷積的使用有利于降低點云圖像特征提取網(wǎng)絡(luò)的參數(shù)量,以提高網(wǎng)絡(luò)的檢測速度,然后將得到的兩個特征層按通道維進行堆疊,得到128×128大小,通道數(shù)128的特征層,如圖6中藍色框中區(qū)域所示(參見電子版)。
2.2 相機和雷達點云特征融合結(jié)構(gòu)
注意力機制的本質(zhì)是由網(wǎng)絡(luò)根據(jù)輸入數(shù)據(jù)對輸出數(shù)據(jù)影響自動調(diào)整輸入數(shù)據(jù)中不同元素的權(quán)重,實現(xiàn)對輸入數(shù)據(jù)加權(quán)分配的過程。在特征融合結(jié)構(gòu)的設(shè)計中,本文使用cross-attention來融合相機和點云的特征信息。融合結(jié)構(gòu)的示意圖如圖6中黃色框中區(qū)域所示(參見電子版)。首先,為了減少融合過程中網(wǎng)絡(luò)的參數(shù)量,通過兩個1×1的卷積,將相機和雷達點云的特征層的通道維調(diào)整為 大小不變。再通過對調(diào)整后的相機和雷達點云的特征層作線性變換,得到相機的 Q I、 K I、 V I特征向量和雷達點云的 Q R與 K R特征向量。如圖6中的紅色和綠色框圖所示。
其中:d是縮放因子,表示輸入信息的維度;maxpool操作是對 K I、K R和 V I特征向量進行卷積核大小為2×2,步長為4的最大池化處理,返回每個卷積核內(nèi)的最大值,該操作可以將原始特征圖的尺寸縮小到1/4,并保留主要特征,從而降低網(wǎng)絡(luò)計算量和內(nèi)存消耗,提高網(wǎng)絡(luò)的性能和泛化能力。
如果不考慮softmax函數(shù)和縮放因子,cross_attention( Q IR, K IR, V II)可以表示為 Q IR K TIR V II, Q IR K TIR V II不僅能得到雷達點云特征和相機特征各自的依賴關(guān)系,還能得到雷達點云特征和相機間的依賴關(guān)系。推導(dǎo)過程如式(8)。
從式(8)可以看出,cross-attention的輸出中融合了雷達點云和相機模態(tài)內(nèi)與模態(tài)間的特征,再使用卷積核為3×3,分組大小為2的分組卷積[24]和sigmoid函數(shù)來分別提取輸出特征層中兩個通道的空間注意力分數(shù)矩陣,然后使用最大池化來保留兩個通道中最大的空間注意力分數(shù)。為了解決訓(xùn)練退化的問題,在原始相機特征層imgP0和融合后的特征層之間使用殘差網(wǎng)絡(luò)中的short-cut機制,并定義一個可學(xué)習(xí)的參數(shù)gamma來縮放融合特征。最后的融合特征output可以表示為
其中:max操作表示提取經(jīng)過特征融合后兩個通道特征層中最大的空間注意力分數(shù)。原始相機特征層imgP0和融合后的特征層output的部分通道的可視化結(jié)果如圖7所示。
3 實驗分析
本章使用nuScenes數(shù)據(jù)集中的雷達和相機數(shù)據(jù)來驗證基于cross-attention注意力機制進行雷達和相機特征融合的優(yōu)越性。實驗數(shù)據(jù)包括了作為訓(xùn)練集的6 000對雷達點云和相機圖像和作為驗證集的400對點云圖像和相機圖像,選取的訓(xùn)練集和驗證集包含了晴天、雨天、白天和夜晚等不同天氣條件和場景下的圖片。網(wǎng)絡(luò)模型的性能指標采用了標準的MS COCO評價指標。
3.1 實驗細節(jié)
本文在PyTorch深度學(xué)習(xí)平臺上搭建了CenterNet目標檢測框架,使用8 GB顯存的NVIDIA RTX 3070 GPU訓(xùn)練模型,包含6 000和400張相機和毫米波雷達點云圖像對,分別作為訓(xùn)練集和驗證集。輸入到網(wǎng)絡(luò)中的圖像會被調(diào)整到512×512大小,使用Adam優(yōu)化器訓(xùn)練CenterNet,初始學(xué)習(xí)率為1.25×10-4,batch_size 設(shè)置為4,訓(xùn)練總輪次為200epoch。
3.2 cross-attention消融實驗
為了驗證融合點云和相機特征的cross-attention結(jié)構(gòu)對提升網(wǎng)絡(luò)性能的有效性,將加入cross-attention融合結(jié)構(gòu)的CenterNet(下面簡稱AF-CenterNet)與僅使用相機圖像訓(xùn)練的CenterNet進行對比,在實驗前設(shè)置相同超參數(shù)進行訓(xùn)練。定性評價結(jié)果如圖8所示。實驗結(jié)果表明,AF-CenterNet在多種環(huán)境下對小目標的檢測效果要優(yōu)于CenterNet。
再使用MS COCO數(shù)據(jù)集的評定標準對實驗結(jié)果進行定量評定,實驗結(jié)果準確率(AP)和召回率(AR)如表1和2所示。表中AP表示網(wǎng)絡(luò)預(yù)測框和真實框的交并比IoU從0.5到0.95的平均準確率,如AP0.5和AP0.75表示IoU在0.5和0.75時的準確率。AR(1)、AR(10)和AR(100)表示每張圖片在檢測1、10和100個目標時得到的召回率。APs、APm和APl表示檢測小、中和大目標時的準確率,召回率AR中也是如此表示,具體的定義如表3所示。
通過表1和2的消融實驗結(jié)果,驗證了本文方法與只使用相機圖像進行目標檢測的網(wǎng)絡(luò)相比,在檢測全尺寸目標的準確率和召回率上都得到了提升,尤其對小目標物體檢測的提升明顯:在準確率上提升了34.93%,在召回率上提升了26.53%。
3.3 cross-attention特征融合對比實驗
目前常見的特征融合方法有特征相乘(mul)、特征相加(add)、特征堆疊(concat)和較新的SAF(spatial attention fusion)[9]。SAF融合方法使用空間注意力機制來提取不同感受野大小毫米波雷達點云空間注意力矩陣,來實現(xiàn)毫米波雷達和相機信息的特征級融合。為了驗證cross-attention特征融合方法與其他特征融合方法相對在提升目標檢測準確率和召回率上更具有優(yōu)越性,進行表4和5的實驗。
如表4和5所示,本文方法相較于其他特征融合方法在檢測各類目標時都具有更好的性能。
3.4 AF-CenterNet實時性分析實驗
在自動駕駛領(lǐng)域中,對于目標檢測網(wǎng)絡(luò)的實時性要求較高,而AF-CenterNet中使用的主干目標檢測網(wǎng)絡(luò)是CenterNet,下面將通過比較AF-CenterNet和CenterNet模型在預(yù)測同一幀場景下所有車輛目標所需的總時間(Tot)、數(shù)據(jù)加載時間(Load)、數(shù)據(jù)預(yù)處理時間(Pre)、模型前向推理時間(Net)、模型后處理時間(Dec)和處理模型輸出時間(Post),來分析融合了毫米波雷達信息的AF-CenterNet在預(yù)測目標時與原網(wǎng)絡(luò)相比,在實時性上的變化。從表6可以得到在同一幀場景下, 僅使用相機圖片作為輸入數(shù)據(jù)的原CenterNet完成對目標預(yù)測所需要的總時間為0.1 s, 而使用毫米波雷達點云圖像和相機圖像作為輸入數(shù)據(jù)的AF-CenterNet所需的總時間為0.135 s??梢钥吹?,增加的0.035 s時間中對額外的毫米波雷達點云數(shù)據(jù)的加載和數(shù)據(jù)預(yù)處理占到了0.017 s,而網(wǎng)絡(luò)的前向推理和后續(xù)處理僅占到0.018 s。這說明AF-CenterNet中提出的融合方法和毫米波雷達點云圖像特征提取的分支網(wǎng)絡(luò)對于網(wǎng)絡(luò)模型預(yù)測目標的實時性影響較小。
為了進一步研究加入cross-attention融合結(jié)構(gòu)的AF-CenterNet在模型參數(shù)量上與原CenterNet的變化,將通道數(shù)為3,寬高為512×512的圖片和毫米波雷達點云數(shù)據(jù)分別輸入到僅使用相機圖片數(shù)據(jù)的原CenterNet和使用相機圖片和點云圖像的AF-CenterNet中,比較模型的總參數(shù)量和最后訓(xùn)練完成的模型大小。最后的結(jié)果如表7所示。
如表7所示,最后訓(xùn)練完成的AF-CenterNet模型相較于原CenterNet模型在模型的總參數(shù)量和模型大小上變化不大,這表明AF-CenterNet模型在預(yù)測速度上與原網(wǎng)絡(luò)相差不大。綜合表6和7的實驗結(jié)果,表明了本文方法所產(chǎn)生的額外參數(shù)量較小,對于網(wǎng)絡(luò)預(yù)測過程中實時性的影響也較小。
3.5 點云擴展的消融實驗為了驗證本文方法對融合效果的影響,將未經(jīng)過點云擴展處理的點云圖像,制作成數(shù)據(jù)集送入到網(wǎng)絡(luò)中進行訓(xùn)練,通過最后的實驗結(jié)果對比來驗證點云擴展處理的有效性。圖9是點云擴展前(左)和點云擴展后(右)的點云圖像。在訓(xùn)練過程中發(fā)現(xiàn),使用未擴展的點云圖像相較于擴展后的點云圖像,容易出現(xiàn)梯度爆炸和訓(xùn)練損失下降慢的問題。推測是未擴展點云圖像的稀疏性使得網(wǎng)絡(luò)難以將相機特征和點云特征聯(lián)系起來,導(dǎo)致訓(xùn)練更新緩慢。
從表8和9可以得出,使用毫米波雷達點云信息中距離和雷達散射截面積信息來擴展點云的長度和寬度得到的點云圖像,與未擴展的點云圖像相比,其在提升融合效果上更具有優(yōu)勢,驗證了本文方法對于提升融合效果的有效性。
4 結(jié)束語本文提出一種基于cross-attention注意力機制的特征融合方法,實現(xiàn)了相機圖像和毫米波雷達點云圖像的特征層融合。因為是將毫米波雷達的點云信息轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)可以處理的圖像形式,且沒有改變原來的網(wǎng)絡(luò)結(jié)構(gòu),所以本文提出的cross-attention特征融合結(jié)構(gòu)是一種在卷積神經(jīng)網(wǎng)絡(luò)中通用的特征融合結(jié)構(gòu),可以在一些為移動端設(shè)計的輕量化網(wǎng)絡(luò)如MobileNet[22]等網(wǎng)絡(luò)中表現(xiàn)出更好的實時性。在實驗驗證環(huán)節(jié),通過消融實驗驗證了cross-attention特征融合結(jié)構(gòu)對于提升網(wǎng)絡(luò)檢測性能的有效性,大量的對比實驗也驗證了cross-attention特征融合結(jié)構(gòu)的優(yōu)越性。同時,在對點云圖像的處理中,提出使用毫米波雷達點云信息中目標的距離和雷達散射截面積信息來擴展點云圖像的方法,使點云圖像能夠更好地匹配相機圖像,有利于雷達特征和相機特征的融合,也通過后續(xù)的消融實驗驗證了該方法的有效性。證明了毫米波雷達作為一種全天候的傳感器受天氣和光照條件的影響較低,在一定程度上能夠彌補相機受光照條件和天氣因素影響大的缺點,對檢測遠處和光照條件不好場景下的小目標效果提升明顯。
參考文獻:
[1]施曉東,楊世坤.多傳感器信息融合研究綜述[J].通信與信息技術(shù),2022(6):34-41.(Shi Xiaodong, Yang Shikun. A review of multi-sensor information fusion research[J].Communications and Information Technology , 2022 (6): 34-41.)
[2]李洋,趙鳴,徐夢瑤,等. 多源信息融合技術(shù)研究綜述[J]. 智能計算機與應(yīng)用,2019(5):186-189.(Li Yang,Zhao Ming,Xu Mengyao,et al. A review of multi-source information fusion technology research[J].Intelligent Computer and Applications ,2019(5):186-189.)
[3]周文鵬,路林,王建明. 多傳感器信息融合在無人駕駛中的研究綜述[J]. 汽車文摘,2022(1): 45-51.(Zhou Wenpeng,Lu Lin,Wang Jianming.A review of multi-sensor information fusion in autono- mous driving[J].Automotive Abstracts ,2022(1): 45-51.)
[4]Ji Zhengping,Prokhorov D. Radar-vision fusion for object classification[C]//Proc of the 11th International Conference on Information Fusion. Piscataway,NJ:IEEE Press,2008: 1-7.
[5]Koci c'J,Jovi i c'N,Drndarevi c'V. Sensors and sensor fusion in auto-nomous vehicles[C]//Proc of the 26th Telecommunications Forum. Piscataway,NJ:IEEE Press,2018: 420-425.
[6]Han Siyang,Wang Xiao,Xu Linhai,et al. Frontal object perception for intelligent vehicles based on radar and camera fusion[C]//Proc of the 35th Chinese Control Conference. Piscataway,NJ:IEEE Press,2016: 4003-4008.
[7]Chadwick S,Maddern W,Newman P. Distant vehicle detection using radar and vision [C]//Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8311-8317.
[8]John V,Mita S. RVNet: Deep sensor fusion of monocular camera and radar for image-based obstacle detection in challenging environments [C]//Proc of the 9th Pacific-Rim Symposium on Image and Video Technology. Berlin:Springer International Publishing,2019: 351-364.
[9]Nobis F,Geisslinger M,Weber M,et al. A deep learning-based radar and camera sensor fusion architecture for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2019: 1-7.
[10]Xu K,Ba J,Kiros R,et al. Show,attend and tell: neural image caption generation with visual attention [C]//Proc of International Conference on Machine Learning. 2015: 2048-2057.
[11]Woo S,Park J,Lee J Y,et al. CBAM: convolutional block attention module [C]//Proc of European Conference on Computer Vision. 2018: 3-19.
[12]Chang Shuo,Zhang Yifan,Zhang Fan,et al. Spatial attention fusion for obstacle detection using mmWave radar and vision sensor[J].Sensors ,2020, 20 (4): 956.
[13]Danapal G,Mayr C,Kariminezhad A,et al. Attention empowered feature-level radar-camera fusion for object detection[C]//Proc of Sensor Data Fusion: Trends,Solutions,Applications. Piscataway,NJ:IEEE Press,2022: 1-6.
[14]Bochkovskiy A,Wang C Y,Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020). https://arxiv.org/abs/2004.10934.
[15]Song Yunyun,Xie Zhengyu,Wang Xinwei,et al. MS-YOLO: object detection based on YOLOv5 optimized fusion millimeter-wave radar and machine vision[J].IEEE Sensors Journal ,2022, 22 (15): 15435-15447.
[16]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 2117-2125.
[17]Liu Shu,Qi Lu,Qin Haifang,et al. Path aggregation network for instance segmentation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2018: 8759-8768.
[18]Chen C F R,F(xiàn)an Quanfu,Panda R. CrossViT: cross-attention multi-scale vision Transformer for image classification[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2021: 357-366.
[19]Caesar H,Bankiti V,Lang A H,et al. nuScenes: a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020: 11621-11631.
[20]Zhou Xingyi,Wang Dequan,Krhenbühl P. Objects as points[EB/OL]. (2019).https://arxiv.org/abs/1904.07850.
[21]Chollet F. Xception: deep learning with depthwise separable convolutions[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1251-1258.
[22]Howard A G,Zhu Menglong,Chen Bo,et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017).https://arxiv.org/abs/1704.04861.
[23]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Advances in Neural Information Processing Systems. 2017.
[24]Ioannou Y,Robertson D,Cipolla R,et al. Deep roots: improving CNN efficiency with hierarchical filter groups[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2017: 1231-1240.
收稿日期:2023-07-12;修回日期:2023-09-07 基金項目:國家自然科學(xué)基金資助項目(61561010);廣西創(chuàng)新驅(qū)動發(fā)展專項資助項目(桂科AA21077008);廣西無線寬帶通信與信號處理重點實驗室2022年主任基金資助項目(GXKL06220102,GXKL06220108);八桂學(xué)者專項經(jīng)費資助項目(2019A51);桂林電子科技大學(xué)研究生教育創(chuàng)新計劃資助項目(2022YXW07,2022YCXS080);2022年廣西高等教育本科教學(xué)改革工程項目(2022JGB196);桂林電子科技大學(xué)學(xué)位與研究生教改項目(2022YXW07,2023YXW02);廣西研究生教育創(chuàng)新計劃資助項目(YCSW2022271)
作者簡介:車俐(1977—),女,廣東茂名人,高級實驗師,碩導(dǎo),碩士,主要研究方向為雷達信號處理;呂連輝(1999—),男,安徽滁州人,碩士研究生,主要研究方向為傳感器融合(3232043967@qq.com);蔣留兵(1973—),男,江蘇泰興人,研究員,博導(dǎo),碩士,主要研究方向為寬帶信號與信息處理.