摘 要:為了解決單傳感器在復雜環(huán)境下目標檢測精度低問題,提出了一種基于RD-YOLO的毫米波雷達和視覺融合的顯著性目標檢測方法。首先設計了能夠將毫米波雷達點云轉換為圖像的方法,使毫米波雷達和視覺數據在模型輸入時實現特征融合;然后通過動態(tài)互補注意力機制,對兩個圖像分支生成特征設置空間和通道動態(tài)注意力權重;最后采用YOLOv8檢測融合后特征,引入改進損失函數Focal Loss以解決樣本不均衡問題。在數據集nuScenes上開展的相關實驗表明,與YOLOv5、YOLOv7、YOLOv8、Faster R-CNN和FCOS相比,所提方法目標檢測綜合性能良好,均值平均精度比原始YOLOv8提升了9.19%。
關鍵詞:顯著性目標檢測;特征融合;毫米波雷達;雷達點云轉換;動態(tài)互補注意力機制
中圖分類號:TP391
文獻標志碼:A
Salient target detection using millimeter wave radar and visual fusion based on the RD-YOLO
WANG Yang WANG Chenfei ZHANG Guanghai ZHANG Jun HOU Hailun OUYANG Shaoxiong
(1. School of Big Data amp; Artificial Intelligence, Wuhu University, Wuhu 241000, China; 2. School of Computer and Information, Anhui Normal University, Wuhu 241002, China; 3. Wuhu Research Center for Big Data and Artificial Intelligence, Wuhu 241003, China)
Abstract: To address the problem of low detection accuracy in single sensor target detection in complex environments, this paper proposes a salient target detection method based on the RD-YOLO using millimeter wave radar and visual fusion. Firstly, a method was designed to convert millimeter wave radar point clouds into images, enabling feature fusion between millimeter wave radar and visual data during model input. Then, the spatial and channel dynamic attention weights were set for the two image branching generation features through an interactive complementary attention mechanism. Finally, using YOLOv8 to detect the fused features, an improved loss function Focal Loss was introduced to solve the problem of imbalanced samples. Relevant experiments were conducted on the nuScenes dataset. The results show that, compared with YOLOv5, YOLOv7, YOLOv8, Faster R-CNN, and FCOS, the method proposed in this paper has good overall performance in object detection, with an average accuracy improvement of 9.19% compared to the original YOLOv8.
Key words: salient target detection; feature fusion; millimeter-wave radar; radar point cloud to image; dynamic complementary attention module
自動駕駛系統(tǒng)需有效感知周圍環(huán)境,而感知任務的關鍵之一是顯著性目標檢測[1]。由于單一毫米波雷達的目標檢測技術在惡劣天氣和光照不足條件下存在檢測精度無法保證等問題,因此,基于毫米波雷達和基于視覺傳感器的目標檢測在自動駕駛領域受到了廣泛關注。毫米波雷達能夠精確測量多個目標距離、相對速度和角度。毫米波雷達與視覺傳感器融合在一定程度上能夠進一步提高顯著性目標檢測和跟蹤性能。然而,在毫米波雷達與視覺融合過程中,傳統(tǒng)方法難以實現惡劣天氣和復雜場景下的目標精準檢測。本文從通道和空間兩個方面考慮,引入動態(tài)互補注意力機制(DCAM),提出基于RD-YOLO的毫米波雷達和視覺融合顯著性目標檢測方法。首先利用適用于毫米波雷達的RPTI方法生成毫米波雷達點云圖像,然后采用DCAM融合上述圖像數據和攝像頭采集數據,之后在YOLOv8上基于融合后的特征進行顯著性目標檢測。
1 RD-YOLO模型
圖1為基于RD-YOLO的網絡結構,主要由主干、頸部和頭部3個部分構成。輸入端將毫米波雷達點云數據處理后,變換成2D雷達點云圖像,再和RGB圖像一起輸入網絡;對輸入圖像進行數據增強和處理后輸出識別結果。下面依次對RPTI毫米波雷達點云圖像轉換、融合顯著性目標檢測網絡和改進損失函數等關鍵環(huán)節(jié)進行描述。
1.1 RPTI
對于沒有雷達點的未知區(qū)域,像素值均為0。毫米波雷達點云數據的處理過程為:1)對毫米波雷達點云數據進行坐標變換;2)賦予雷達點云像素值;3)對雷達點云進行整體渲染。處理攝像頭圖像平面范圍內所有雷達點后可以生成雷達圖像,其尺寸與前置攝像頭相同,攝像頭分辨率為1 600×900。雷達圖像生成模型中涉及兩種情形,見圖3。第一種情形是當圖像平面的雷達點M和N之間的距離l是渲染半徑r的兩倍及以上;第二種情形是當雷達點M和N之間的距離l小于渲染半徑r的兩倍時。為進一步完成顯著性目標檢測,需對毫米波雷達點云數據和圖像數據進行預處理。利用毫米波雷達檢測來生成目標的實時算法(RRPN),將生成的結果用于顯著性目標檢測網絡。該網絡通過融合毫米波雷達和攝像頭數據來獲得更高精度和可靠性。RRPN提供了一種注意力機制:將底層計算資源數據集的重要部分通過透視變換生成興趣區(qū)域(region of interest, ROI),并將毫米波雷達獲得的車輛坐標映射到攝像頭視圖坐標。但毫米波雷達檢測并不總是映射到圖像中物體的中心;且毫米波雷達難以提供檢測物體大小的信息。
為了解決這個問題,本文提出了使用 Faster R-CNN錨定邊界框方法。以每個POI為中心生成多個大小不同、縱橫比各異的邊界框。本文使用4種尺寸和3種縱橫比來生成這些錨點。雷達探測到的物體距離信息被用于縮放生成的錨點,錨點比例因子使用式(2)計算。
1.2 DCAM模塊
為使雷達點云圖像和RGB圖像能夠有效地產生圖像細節(jié)特征,獲得更大的感受野,本文基于文獻[1]提出了圖4所示的特征融合DCAM模塊,旨在區(qū)分CNN和transformer在特性、語義和分辨率方面的差異。
1.3 Focal Loss
Focal Loss[3]的引入是為了解決目標檢測場景訓練過程中樣本不平衡問題,如式(6)所示:
2 實驗結果及分析
2.1 數據集
文獻[4]是大規(guī)模自動駕駛數據集,23個對象類別140萬張圖片由3D邊界框注釋。 實驗選取8個對象類別,并將占比較小的bus類別中bus.bendy、bus.rigid合并。為了便于算法訓練,將nuScenes數據集三維注釋框轉換為二維注釋框,見圖5。
2.2 實驗環(huán)境及參數設置
為驗證算法有效性,在nuScense數據集上進行了消融實驗和對比實驗。本文實驗環(huán)境配置和參數設置見表1。對搭建的數據融合網絡采用梯度下降的方式初始化。
2.3 評價指標
2.4 實驗結果
圖6(a)、圖6(b)和圖6(c)分別是在正常天氣、有遮擋和光線較暗環(huán)境下對圖像信息和融合毫米波雷達數據進行目標顯著性檢測實驗。每一組實驗依次包含3種場景:輸入原圖、YOLOv8標記圖和RD-YOLO結果圖。
第一組實驗表明,在正常天氣情況下,兩種情況均未出現漏檢,說明攝像頭能夠提供檢測所需的足夠多的像素信息,可以進行精準檢測。第二組實驗表明,YOLOv8在僅有圖像信息時會出現漏檢,這說明部分重要信息因遮擋無法被攝像頭獲取。而毫米波雷達數據經過轉換并經過DCAM處理后能夠獲得顯著性目標數據信息,能夠提升檢測效果。第三組實驗是在光線較暗背景下進行的。由測試結果可知,在對圖像信息進行檢測時,因為部分光線較暗被誤認為了背景信息,或有部分重要信息因遮擋而未被檢測到,因此出現了大量的漏檢。RD-YOLO檢測效果依然很好,說明其抗干擾能力強。
為比較不同雷達點云圖像渲染半徑對顯著性目標檢測精度的影響,選取六組不同雷達點云圖像渲染的半徑長度,分別進行實驗,通過檢測精度結果分析,半徑為7的渲染方案效果最好,檢測結果見表2。
2.5 消融實驗
為對各模塊有效性進一步驗證,分別對RPTI、DCAM及損失函數進行消融實驗。結果見表4。
3 結論
針對自動駕駛復雜環(huán)境下的顯著性目標問題,提出了基于RD-YOLO的毫米波雷達和視覺融合的顯著性目標檢測方法。實驗表明,該方法在自動駕駛復雜場景下能取得一定的檢測效果。但對于惡劣天氣和復雜交通環(huán)境,如何在有限感受野情形下增強獲得感知超大或小規(guī)模顯著性目標的檢測能力是未來需要進一步開展的研究內容。
參考文獻:
[1]MAM C, XIA C, XIE C, et al. Boosting broader receptive fields for salient object detection[J]. IEEE Transactions on Image Processing, 2023, 32(2): 1026-1038.
[2]高潔, 朱元, 陸科. 基于雷達和相機融合的目標檢測方法[J]. 計算機應用, 2021, 41(11): 3242-3250.
[3]ALJOHANI N R, FAYOUMI A, HASSAN S U. A novel focal-loss and class-weight-aware convolutional neural network for the classification of in-text citations[J]. Journal of Information Science, 2023, 49(1): 79-92.
[4]MINOVSKI D, A HLUND C, MITRA K. Modeling quality of IoT experience in autonomous vehicles[J]. IEEE Internet of Things Journal, 2020, 7(5): 3833-3849.
[5]TIAN Z, SHEN C H, CHEN H, et al. FCOS: a simple and strong anchor-free object detector[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(4): 1922-1933.
[6]薛陽, 葉曉康, 孫越, 等. 基于Faster-RCNN的汽車漆面缺陷部位檢測[J]. 計算機應用與軟件, 2023, 40(8): 193-200.