摘 要:目標(biāo)檢測是自動駕駛感知系統(tǒng)的基礎(chǔ)。由于單一傳感器的感知存在時空盲區(qū)問題,本文提出一種基于相機與激光雷達(dá)的后融合目標(biāo)檢測算法。該算法采用改進(jìn)后的YOLOv5s視覺目標(biāo)檢測算法來檢測目標(biāo)類別,其平均精度均值提高了2.75%。激光雷達(dá)感知采用分段聚類半徑的歐幾里得聚類算法對預(yù)處理后的點云信息進(jìn)行聚類,并檢測出檢測區(qū)域內(nèi)物體的目標(biāo)距離。通過標(biāo)定的參數(shù),將點云投影到圖像上,以融合感知結(jié)果來確定檢測對象的類別和距離。本文在相關(guān)工況環(huán)境下對算法進(jìn)行了驗證和測試,結(jié)果表明:本文提出的目標(biāo)檢測算法的檢出率為88.9%,比單一相機感知的檢出率提高了7.8%。
關(guān)鍵詞:YOLOv5s;激光雷達(dá);多傳感器融合;目標(biāo)檢測
中圖分類號:TN96;TN957.5 DOI:10.16375/j.cnki.cn45-1395/t.2024.01.012
0 引言
近年來自動駕駛技術(shù)飛速發(fā)展,其目的是提高駕駛的安全性和舒適性。目標(biāo)感知系統(tǒng)是自動駕駛技術(shù)的重要組成部分[1]。為了避免單一類型傳感器探測范圍有限、安全冗余不足等缺陷,傳感器融合技術(shù)利用具有互補特性的多種傳感器來增強感知,已成為新興的研究主題[2]。
在圖像目標(biāo)檢測領(lǐng)域中基于深度學(xué)習(xí)的目標(biāo)檢測算法由于精度高、檢測速度快,已成為研究的主流方向[3]。圖像深度學(xué)習(xí)檢測網(wǎng)絡(luò)主要分為兩大類:一種是基于候選區(qū)選取的兩階段目標(biāo)檢測算法,在對圖像生成候選框的基礎(chǔ)上再通過神經(jīng)網(wǎng)絡(luò)提取特征和分類。該類算法的模型檢測準(zhǔn)確率和定位精度更高,但檢測速度較慢,其主要代表有R-CNN[4-6]系列模型。另一種是基于回歸問題的單階段的目標(biāo)檢測算法,該算法直接將目標(biāo)邊界框的定位問題轉(zhuǎn)化為回歸問題,以此得到目標(biāo)在圖像中的位置信息和類別信息,使得整個模型的檢測速度更快,在應(yīng)用中的實時性表現(xiàn)更好,其主要代表有 YOLO[7-10]系列模型和SSD[11]系列模型。YOLOv5作為目前主流的單階段視覺目標(biāo)檢測算法應(yīng)用廣泛,在檢測速度及檢測精度上皆性能良好。
在點云目標(biāo)檢測上分為深度學(xué)習(xí)方法與非深度學(xué)習(xí)方法。PointNet[12]是處理點云數(shù)據(jù)的首個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其將所有獨立的點特征聚合到一個全局點云特征中,無法提取空間點幾何結(jié)構(gòu)。針對這一問題,PointNet++[13]以層級下采樣的方式從小區(qū)域中提取局部特征,進(jìn)而獲得整個點云的幾何特征。RandLA-Net[14]進(jìn)一步優(yōu)化了計算效率,但仍存在內(nèi)存占用率過高等問題,不利于車載實時部署。在點云目標(biāo)檢測傳統(tǒng)領(lǐng)域中,范晶晶等[15]針對點云的行人識別問題,結(jié)合人的幾何特征,設(shè)計了基于KDTree和歐式聚類的行人識別算法,具有良好的識別率。Qiao等[16]提出一種基于Elias方法優(yōu)化的歐幾里得聚類算法,可以提高聚類算法在GPU中運行的計算效率。
多傳感器融合目標(biāo)檢測是指在一個統(tǒng)一的坐標(biāo)系下,通過融合算法將不同傳感器探測到的目標(biāo)進(jìn)行檢測,以獲取更精確的目標(biāo)信息。根據(jù)對傳感器數(shù)據(jù)處理方式的不同,融合算法可以分為前融合和后融合2種類型。
①前融合指的是把所有傳感器觀測數(shù)據(jù)進(jìn)行統(tǒng)一的融合處理,實現(xiàn)感知功能,最后輸出一個結(jié)果層的檢測目標(biāo)。如AVOD[17]算法是將點云在BEV視圖下的投影與RGB圖像共同送入算法網(wǎng)絡(luò)中,利用FPN網(wǎng)絡(luò)得到二者全分辨率的特征圖,提取2個特征圖對應(yīng)的區(qū)域后再進(jìn)行融合3D物體檢測。前融合算法對系統(tǒng)的算力要求高,目標(biāo)檢測實時性的實現(xiàn)需要較高的硬件水平。
②后融合指的是在對每個傳感器輸出的數(shù)據(jù)信息進(jìn)行獨立的算法處理后得到各傳感器探測的目標(biāo)信息,融合系統(tǒng)對所有感知結(jié)果進(jìn)行融合處理得到后融合識別目標(biāo)。后融合在提高系統(tǒng)感知的準(zhǔn)確度和增加系統(tǒng)感知維度的同時,算力需求較低,適合部署。薛培林等[18]提出一種基于視覺YOLOv3-tiny和激光雷達(dá)DBSCASN聚類的后融合目標(biāo)檢測算法,提高了目標(biāo)檢測的檢測率和魯棒性,但是該算法僅對車輛目標(biāo)進(jìn)行實驗評估,沒有對行人等小目標(biāo)進(jìn)行實驗。
綜上所述,目前的一些融合方案存在目標(biāo)檢測率低、實時性差的問題,因此,本文提出一種基于相機與激光雷達(dá)后融合的目標(biāo)檢測算法,并對車輛和行人都進(jìn)行了實車實驗。主要工作如下:①在YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上添加GAM注意力機制,提高檢測精度;②對激光雷達(dá)的點云信息進(jìn)行預(yù)處理后,通過歐幾里得聚類得出目標(biāo)三維信息;③根據(jù)聯(lián)合標(biāo)定參數(shù)對設(shè)計的相機和激光雷達(dá)的融合檢測算法進(jìn)行三維檢測框和二維檢測框匹配,得到高可靠度的融合結(jié)果,包含目標(biāo)的類別信息和距離信息。
1 系統(tǒng)概述
1.1 硬件系統(tǒng)
為了驗證所設(shè)計的融合算法,以北汽新能源2016款EV160改造的車輛為實驗平臺。經(jīng)改造后的車輛集成了Leopard前視攝像頭和鐳神16線激光雷達(dá)等多種傳感器,計算平臺為一臺研華MIC-7700工控機。實驗車平臺傳感器布置方案如圖1所示,車載傳感器主要性能參數(shù)如表1所示。
1.2 軟件系統(tǒng)
基于機器人操作系統(tǒng)(robot operation system,ROS)節(jié)點通信機制編寫實驗程序,ROS系統(tǒng)架構(gòu)精簡,集成了較多專業(yè)功能包。本文算法通過車載研華MIC-7700工控機進(jìn)行實車驗證,用于實現(xiàn)包括基于視覺目標(biāo)檢測的目標(biāo)類別信息獲取、基于激光雷達(dá)的目標(biāo)三維空間信息獲取、以及最后融合感知算法輸出等多種功能。該系統(tǒng)的軟件架構(gòu)如圖2所示。
2 基于視覺的目標(biāo)檢測
2.1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
2020年Ultralytics在YOLOv4的基礎(chǔ)上進(jìn)行改進(jìn)并發(fā)布YOLOv5[19],YOLOv5更加輕量化并提供了更高的檢測精度,適合在移動平臺部署。YOLOv5根據(jù)網(wǎng)絡(luò)的深度與寬度可分為4個不同的版本,分別為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,4個版本的檢測精度與模型大小依次提升。
本文針對道路前方出現(xiàn)的人員與車輛進(jìn)行目標(biāo)檢測。為了滿足實時性要求,選用4個模型中最快最小的模型YOLOv5s作為基礎(chǔ)模型。YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)由4部分組成,如圖3所示,其中YOLOv5相對于YOLOv4的改進(jìn)包括以下4個方面:①數(shù)據(jù)輸入部分加入了Mosaic數(shù)據(jù)增強、自適應(yīng)錨框計算、自適應(yīng)圖像縮放來對輸入圖像進(jìn)行處理;②骨干網(wǎng)絡(luò)采用Focus結(jié)構(gòu)和CSP結(jié)構(gòu),用于提取圖像的特征信息;③特征融合網(wǎng)絡(luò)采用FPN+PAN結(jié)構(gòu);④檢測頭采用GIOU_Loss損失函數(shù),預(yù)測出目標(biāo)檢測框和標(biāo)簽類別。
2.2 添加GAM注意力機制改進(jìn)YOLOv5s算法
GAM注意力機制[20]是一個由通道注意力模塊和空間注意力模塊依次組成的全局注意力機制,可以從通道和空間2個維度關(guān)注重要特征。GAM結(jié)構(gòu)如圖4所示,[Mc]表示通道注意力模塊中的通道注意力;[Ms]表示空間注意力模塊中的空間注意力;對于輸入的特征圖F1,其中間狀態(tài) F2和輸出特征圖F3,如式(1)、式(2)所示,[?]表示向量的乘法運算。
[F2=Mc(F1)?F1], (1)
[F3=Ms(F2)?F2]. (2)
為了提高目標(biāo)檢測效果,本文在特征融合網(wǎng)絡(luò)的后端加入GAM注意力機制,使得模型可以更好地結(jié)合不同尺度下的小目標(biāo)特征,改進(jìn)后的YOLOv5s算法網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
2.3 算法訓(xùn)練結(jié)果與識別效果
為了對比添加GAM注意力機制前后YOLOv5s算法的性能,將5 200張已標(biāo)注的人、車輛及其他交通工具的圖片按照4∶1的比例劃分為訓(xùn)練集和驗證集,設(shè)置送入網(wǎng)絡(luò)訓(xùn)練和測試的圖片大小為640×640,batch size設(shè)置為16,權(quán)重衰減系數(shù)為0.000 5,在不使用預(yù)訓(xùn)練模型的情況下進(jìn)行300輪訓(xùn)練。訓(xùn)練使用的硬件配置:CPU為Intel Core i9-9600KF;GPU為NVIDIA GeForce RTX 3080,顯存10 GB;內(nèi)存為32 GB。
采用4項指標(biāo)評估訓(xùn)練后算法的性能:精度(Precision, P)、召回率(Recall, R)、平均精度均值(mean average precision, mAP)、運行幀率(FPS)。精度表示算法找出目標(biāo)的正確率,用于衡量誤檢程度;召回率表示算法找出的正確目標(biāo)占所有目標(biāo)的比例,用于衡量漏檢程度;平均精度均值綜合考慮了精度和召回率。精度、召回率和平均精度均值的計算分別如式(3)—式(6)所示,
[P=NTPNTP+NFP], (3)
[R=NTPNTP+NFN], (4)
[AAP,i=01P(R)dR], (5)
[AmAP=1ni=1nAAP,i ], (6)
式中:以車輛目標(biāo)檢測為例,NTP(真正例)是指被正確識別為正樣本的目標(biāo)數(shù)量,即被正確識別的車輛目標(biāo)數(shù)量;NFN(假負(fù)例)是指未能被正確識別為正樣本的目標(biāo)數(shù)量,即漏檢的車輛目標(biāo)數(shù)量;NFP(假正例)是指將非正樣本數(shù)據(jù)錯誤地識別為正樣本目標(biāo)的數(shù)量,即誤檢的車輛目標(biāo)數(shù)量;AAP,i表示第i類檢測準(zhǔn)確率;AmAP為平均精度均值;n為類別數(shù)量。對改進(jìn)前后的YOLOv5s算法進(jìn)行300輪訓(xùn)練,其性能參數(shù)如表2所示。
由表2可知,在為YOLOv5s算法添加GAM注意力機制后,精度、召回率和平均精度均值分別提高1.64%、3.58%、2.75%,但運行幀率略有降低。在實驗車工控機平臺上部署改進(jìn)后的算法,并在校園環(huán)境中進(jìn)行行人識別測試,如圖6所示。實驗結(jié)果表明:改進(jìn)后的YOLOv5s視覺目標(biāo)識別算法能夠以相機采樣頻率30 Hz穩(wěn)定運行,滿足實時性要求,并能夠達(dá)到較好的目標(biāo)檢測效果。
3 基于激光雷達(dá)的目標(biāo)檢測
3.1 點云降采樣
激光雷達(dá)性能優(yōu)秀,具有極高的角度、距離分辨率,其測距精度可達(dá)厘米級。本文使用的16線激光雷達(dá)在單回波工作模式下每秒可發(fā)射32萬個點。為了提高基于激光雷達(dá)感知算法的實時性,本文采用體素化濾波對點云進(jìn)行降采樣。體素化濾波先根據(jù)輸入的原始點云創(chuàng)建一個三維體素柵格,在每個L×L×L的體素內(nèi),用體素中所有點的重心來近似顯示體素中的所有點。在保持點云三維信息特征的同時降低了點云數(shù)據(jù)量,為后續(xù)點云聚類操作提高計算效率[21]。經(jīng)多次實驗采用邊長為0.1 m的體素柵格進(jìn)行濾波,能夠保留點云的形狀特征。點云降采樣實驗過程如圖7所示,每幀點云數(shù)從35 328下降到8 850,降低74.9%。
3.2 地面點云濾除
地面點云濾除是激光雷達(dá)感知過程中重要的預(yù)處理步驟。地面點云不僅增加了系統(tǒng)計算量,而且容易對目標(biāo)點云的聚類產(chǎn)生影響。因此,在點云降采樣后,需要對其進(jìn)行地面點云分割,以濾除地面點云并保留非地面點云。
本文使用的鐳神16線激光雷達(dá)在使用10 Hz模式工作時水平分辨率為0.18°,即每一線束在360°的范圍內(nèi)有2 000條射線,可將三維點云劃分為360/0.18=2 000個扇形區(qū)域。根據(jù)式(7)可將每個點歸納到其所屬的扇形子區(qū)域,式中xi與yi分別為該點的橫、縱坐標(biāo)值,其中,激光雷達(dá)坐標(biāo)系的x軸、y軸、z軸的正方向分別為車頭的正前方、車左側(cè)、車頂垂直地面向上。對于某扇形子區(qū)域每個點的坐標(biāo)可轉(zhuǎn)換為柱坐標(biāo)系(ri,[α],zi),ri為該點射線到激光雷達(dá)的水平距離,[α]為該點相對于x軸的夾角。ri、[α]的計算如式(8)、式(9)所示。
[Im=arctan(yi/xi)△ρ×180π], (7)
[ri=x2i+y2i], (8)
[α=arctanyx·180π]. (9)
地面點云分割算法原理:計算扇形子區(qū)域內(nèi)前后2點的相對高度差和該點距離激光雷達(dá)坐標(biāo)系原點的絕對高度差,分別與局部坡度閾值[hlocal]和全局坡度值[Hglobal]作數(shù)值比較,從而判斷出地面點云和非地面點云。
對于扇形子區(qū)域內(nèi)某點pi的局部坡度閾值[hlocal]和該點的全局坡度閾值[Hglobal]的計算式如式(10)、式(11)所示,
[hlocal=△rtanθlocal], (10)
[Hglobal=ritanθglobal], (11)
式中:[△r]為點pi與點p[i-1]水平距離。
為更好容納上坡時地面點云加入,設(shè)定前后2點坡度閾值[θlocal]為8°,整個地面的坡度閾值[θglobal]為5°。算法執(zhí)行步驟如下:
Step 1 當(dāng)[zi-zi-1≤hlocal]時,即相鄰2點的高度差在局部閾值內(nèi),若前一點為地面點,則當(dāng)前點也為地面點;若前一點為非地面點,則需要進(jìn)一步判斷當(dāng)前點與全局坡度閾值的關(guān)系。若滿足[zi+s≤Hglobal],即該點與車底水平面的高度差在全局坡度閾值內(nèi),判斷當(dāng)前點為地面點,否則為非地面點云。其中s為激光雷達(dá)安裝高度。
Step 2 當(dāng)[zi-zi-1gt;hlocal]時,即相鄰2點的高度差大于局部閾值,直接判斷該點與全局坡度閾值關(guān)系,若滿足[zi+s≤Hglobal],則為地面點云,否則為非地面點云。對每一個扇形子區(qū)域的點都進(jìn)行上述算法處理即可完成對地面點云的分割。
完成地面點云分割后對其進(jìn)行濾除。包含點云降采樣和地面點云濾除的點云預(yù)處理過程如圖8所示。
3.3 點云聚類擬合感知
點云聚類感知是激光雷達(dá)環(huán)境感知的最終步驟,將檢測目標(biāo)按照點的分布進(jìn)行聚類,可以降低后續(xù)的計算量。本實驗采用基于Kd-Tree最近鄰搜索的自適應(yīng)歐幾里得聚類算法對非地面點進(jìn)行聚類,對不同距離范圍的點采用不同的聚類半徑閾值??臻g中2點間歐氏距離公式為
[d=(x1-x2)2+(y1-y2)2+(z1-z2)2] .(12)
聚類算法流程如下:
Step 1 對于空間中某點pi,對其進(jìn)行Kd-Tree鄰域搜索,找到離它最近的n個點并計算這些點到點pi的歐式距離,將距離小于設(shè)定的聚類半徑閾值r的點放入集合Q。
Step 2 對于Q中除點pi以外的點進(jìn)行Kd-Tree搜索,將小于聚類半徑閾值r的點再次放入集合Q;迭代算法,直至集合Q中的點數(shù)量不再變化。
Step 3 在對集合中每個點進(jìn)行以上操作后,對于任意的pi?Q,聚類成一個點云簇。聚類完成后還需要對聚類的尺寸進(jìn)行限制,只保留在最小與最大聚類點數(shù)閾值之間的障礙物。聚類流程圖如圖9所示。
本實驗針對不同距離(d,單位m)范圍內(nèi)的目標(biāo)采用不同的聚類半徑閾值:當(dāng)0lt;d≤5時,聚類半徑閾值為0.3;當(dāng)5lt;d≤10時,聚類半徑閾值為0.5;當(dāng)10lt;d≤20時,聚類半徑閾值為1.0。聚類完成后,使用L-shape最小矩形框聚類擬合[22],將障礙物從三維點云中框選出來。激光雷達(dá)對車輛的聚類及三維邊界框感知結(jié)果如圖10所示。
4 相機與激光雷達(dá)的信息融合
相機感知采集信息豐富,應(yīng)用成本低,但易受到光照變化的影響;而激光雷達(dá)不受光照條件影響,且探測距離遠(yuǎn)、精度高。因此,相機和激光雷達(dá)的數(shù)據(jù)融合可以提高檢測效果,但要實現(xiàn)二者的信息融合,必須在時間和空間上進(jìn)行同步。
4.1 相機與激光雷達(dá)的空間同步
相機與激光雷達(dá)的空間融合是在得到激光雷達(dá)點云坐標(biāo)系與圖像像素坐標(biāo)系的變換關(guān)系后,通過標(biāo)定參數(shù)將各自獨立的坐標(biāo)系統(tǒng)一到一個坐標(biāo)系中,完成激光雷達(dá)點云到相機像素平面的正確投影。
4.1.1 激光雷達(dá)坐標(biāo)系到相機坐標(biāo)系
設(shè)空間中的點p在激光雷達(dá)坐標(biāo)系中的坐標(biāo)為(XL,YL,ZL)T,在相機坐標(biāo)系中的坐標(biāo)為(XC,YC,ZC)T,坐標(biāo)系變換為
[XCYCZC=RXLYLZL+T], (13)
式中:R為旋轉(zhuǎn)矩陣;T為平移向量。
4.1.2 相機坐標(biāo)系到圖像坐標(biāo)系
相機成像的簡化模型是小孔成像模型,(xp,yp)T為點p的成像點在二維圖像平面坐標(biāo)系中的坐標(biāo),相機坐標(biāo)系到圖像坐標(biāo)系變換關(guān)系為
[ZCxpyp1=f000f0001XCYCZC], (14)
式中:f為相機焦距。
4.1.3 圖像坐標(biāo)系到像素坐標(biāo)系
圖像平面坐標(biāo)(xp,yp)T到圖像像素坐標(biāo)(u,v)T的變換是在xp軸縮放α倍,在yp軸縮放β倍,同時原點平移(u0,v0)T,圖像坐標(biāo)系到像素坐標(biāo)系的變換關(guān)系如式(15)所示,
[uv1=α0u00βv0001xpyp1]. (15)
4.1.4 激光雷達(dá)坐標(biāo)系到像素坐標(biāo)
聯(lián)合以上公式,空間中點p在激光雷達(dá)坐標(biāo)系(XL,YL,ZL)T到像素坐標(biāo)系(u,v)T的投影關(guān)系如式(16)所示,其中K為相機內(nèi)參矩陣。
[ZCuv1=KRXLYLZL+T=m11m12m13m14m21m22m23m24m31m32m33m34XLYLZL1] . (16)
本文通過張正友標(biāo)定法[23]獲取相機內(nèi)參矩陣K,通過Epnp法[24]獲得相機與激光雷達(dá)的旋轉(zhuǎn)矩陣R和平移矩陣T,完成標(biāo)定后根據(jù)標(biāo)定參數(shù)激光雷達(dá)點云投影到圖像,如圖11所示。
4.2 相機與激光雷達(dá)的時間同步
相機與激光雷達(dá)的工作頻率不同,實驗車工業(yè)相機工作頻率為30 Hz,鐳神激光雷達(dá)工作頻率為10 Hz。時間同步是根據(jù)2種傳感器數(shù)據(jù)的時間戳信息以相同頻率采集數(shù)據(jù),2種傳感器信息在ROS系統(tǒng)中運行時都帶有時間戳信息。由于激光雷達(dá)采集頻率低于相機,因此選擇激光雷達(dá)點云的工作頻率10 Hz來采集2種傳感器數(shù)據(jù)。
4.3 相機與激光雷達(dá)的融合
相機圖像在通過改進(jìn)型YOLOv5s算法后得到2D檢測框,顯示目標(biāo)的類別信息。激光雷達(dá)點云信息經(jīng)過預(yù)處理后,通過自適應(yīng)歐幾里得聚類算法得到目標(biāo)的三維信息和距離信息。根據(jù)聯(lián)合標(biāo)定的結(jié)果,通過3D框?qū)蔷€上方和下方的點將其轉(zhuǎn)換為圖像平面上的2D框點云聚類結(jié)果,之后通過將相機檢測到的二維檢測框和激光雷達(dá)檢測的2D投影框進(jìn)行IoU計算,當(dāng)激光雷達(dá)投影的二維檢測框與相機檢測目標(biāo)的二維檢測重合度超過設(shè)定閾值0.5時,認(rèn)為感知到的是同一個目標(biāo),最終輸出融合感知目標(biāo)的類別信息和距離。融合感知過程如圖12所示,信息融合策略如表3所示。
5 實車實驗驗證
為驗證融合算法效果,在城市、校園道路內(nèi)進(jìn)行實驗測試。統(tǒng)計20 m以內(nèi)的目標(biāo)檢測的結(jié)果,共出現(xiàn)了126個目標(biāo),其中車輛目標(biāo)34個,行人目標(biāo)92個。
5.1 晴天環(huán)境下對車輛及行人目標(biāo)識別實驗
如圖13和圖14所示,在光照良好狀況下對20 m內(nèi)目標(biāo)進(jìn)行測試時,圖像識別算法準(zhǔn)確識別出視野內(nèi)行人、車輛的類別信息,點云處理算法分割出了行人、車輛的點云簇,并對目標(biāo)的點云簇外接三維包圍框,得到目標(biāo)距離信息。在融合方面,行人和障礙物的三維包圍框被準(zhǔn)確投影至圖像對應(yīng)位置上,融合識別車輛與行人成功率較高,得到目標(biāo)類別和距離信息,符合現(xiàn)實情況。
5.2 暗光環(huán)境下對行人目標(biāo)識別實驗
如圖15所示,在暗光條件下視覺算法識別遠(yuǎn)處黑衣行人出現(xiàn)漏檢,激光雷達(dá)工作條件不受光照條件影響,對遠(yuǎn)處行人進(jìn)行點云聚類感知并得到目標(biāo)距離。點云與視覺數(shù)據(jù)進(jìn)行信息融合的識別彌補了單一傳感器感知能力不足的缺點。
為橫向?qū)Ρ人惴ǖ男阅苤笜?biāo),采用準(zhǔn)確率和檢出率來評估性能。正確率代表融合識別系統(tǒng),同時給出目標(biāo)類別信息和位置信息;檢出率代表模型更能夠識別出前方障礙物位置信息。此外,在城市自動駕駛?cè)蝿?wù)中,一旦路上出現(xiàn)訓(xùn)練集中未出現(xiàn)過的物體,基于深度學(xué)習(xí)的目標(biāo)檢測算法則會直接漏檢,對于自動駕駛來說非常危險,而較高的檢出率是目標(biāo)檢測系統(tǒng)安全的保證。視覺正確率(Pvision)、融合正確率(Pfusion)、視覺檢出率(Rvision)、融合檢出率(Rfusion)計算如式(17)—式(20)所示,
[Pvision=NTVNTV+NFV], (17)
[Pfusion=NTFNTF+NFF], (18)
[Rvision=NTPNtarget], (19)
[Rfusion=NTF+NTLNtarget], (20)
式中:NTV是視覺算法正確檢測目標(biāo)數(shù);NFV是視覺算法錯誤檢測目標(biāo)數(shù);NTF是融合算法正確檢測目標(biāo)數(shù);NFF是融合算法錯誤檢測目標(biāo)數(shù);NTL是激光雷達(dá)算法正確聚類目標(biāo)數(shù);Ntarget是區(qū)域內(nèi)目標(biāo)數(shù)。
融合感知實驗統(tǒng)計的算法性能指標(biāo)如表4所示。
由表4可知,融合算法的正確率為77.7%,與YOLOv5s改進(jìn)型算法相比,其檢測正確率降低1.15%,這是由于融合算法的正確識別需要視覺和激光雷達(dá)檢測算法同時正確識別出對象目標(biāo)并融合成功,而在某些情況下視覺算法并未能識別到目標(biāo)。目標(biāo)檢出率為88.9%,與YOLOv5s改進(jìn)型視覺算法相比,其檢測檢出率提高7.8%,這是由于在實際測試中,暗光環(huán)境下視覺檢測效果受到影響。融合算法包含激光雷達(dá)感知,增加了目標(biāo)檢出率,即使在目標(biāo)信息不明確的前提下,也可為車輛控制決策系統(tǒng)提供依據(jù),進(jìn)一步保障車輛駕駛安全。
6 結(jié)論
本文針對城市道路環(huán)境下的人員和車輛識別需求,對YOLOv5s算法進(jìn)行改進(jìn)以提高識別精度,并搭建了相機與激光雷達(dá)融合的目標(biāo)檢測系統(tǒng)。在多傳感器實驗車平臺上進(jìn)行試驗驗證,得出以下結(jié)論:
1)YOLOv5s算法在添加GAM注意力機制改進(jìn)后,精度、召回率和平均精度均值分別提高了1.64%、3.58%和2.75%,并且滿足在嵌入式平臺下的運行實時性要求。
2)相機與激光雷達(dá)融合算法實現(xiàn)了在空間和時間尺度上的融合,能夠同時獲取目標(biāo)的準(zhǔn)確的類別信息和距離信息,融合效果和檢測率達(dá)到了設(shè)計要求。
本文僅研究了相機與激光雷達(dá)的融合,后續(xù)可進(jìn)行毫米波雷達(dá)與相機和激光雷達(dá)的融合研究,以及多相機與激光雷達(dá)的融合研究,并根據(jù)不同的環(huán)境選擇不同的融合識別策略來提高識別準(zhǔn)確率。同時,試驗工況也可以擴(kuò)展到高速路段,以進(jìn)一步驗證算法的檢驗效果。
參考文獻(xiàn)
[1] 黃遠(yuǎn)憲,李必軍,黃琦,等.融合相機與激光雷達(dá)的目標(biāo)檢測、跟蹤與預(yù)測[J/OL].武漢大學(xué)學(xué)報(信息科學(xué)版):1-8(2022-07-12)[2022-12-31].http://kns.cnki.net/kns8/defaultresult/index.
[2] CUI Y D,CHEN R,CHU W B,et al.Deep learning for image and point cloud fusion in autonomous driving:a review[J].IEEE Transactions on Intelligent Transportation Systems,2022,23(2):722-739.
[3] 林川,曹以雋.基于深度學(xué)習(xí)的輪廓檢測算法:綜述[J].廣西科技大學(xué)學(xué)報,2019,30(2):1-12.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. New York:ACM,2014:580-587.
[5] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV). Santiago,Chile. IEEE,2015:1440-1448.
[6] CAI Z W,VASCONCELOS N. Cascade R-CNN:high quality object detection and instance segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(5):1483-1498.
[7] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas,USA,2016:779-788.
[8] REDMON J,F(xiàn)ARHADI A.YOLO9000:better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu,USA,2017:7263-7271.
[9] REDMON J,F(xiàn)ARHADI A.YOLOv3:an incremental improvement[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Salt Lake City,USA,2018:1981-1990.
[10] BOCHKOVSKIY A,WANG C Y,LIAO H Y M.YOLOv4:optimal speed and accuracy of object detection[EB/OL].2020,arXiv:2004.10934. https://arxiv. org/abs/2004.10934.pdf.
[11] LIU W,ANGUELOV D,ERHAN D,et al. SSD:single shot MultiBox detector[C]//Proceedings of European Conference on Computer Vision(ECCV). Amsterdam,the Netherlands,2016:21-37.
[12] QI C R,SU H,MO K C,et al. PointNet:deep learning on point sets for 3D classification and segmentation[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Havaii,USA,2017:77-85.
[13] QI C R,YI L,SU H,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. California,USA. New York:ACM,2017:5105-5114.
[14] HU Q Y,YANG B,XIE L H,et al. RandLA-net:efficient semantic segmentation of large-scale point clouds[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Seattle,USA. IEEE,2020:11108-11117.
[15] 范晶晶,王力,褚文博,等.基于KDTree樹和歐式聚類的越野環(huán)境下行人識別的研究[J].汽車工程,2019,41(12): 1410-1415.
[16] QIAO W B,CRéPUT J C.Component-based 2-/3-dimensional nearest neighbor search based on Elias method to GPU parallel 2D/3D euclidean minimum spanning tree problem[J].Applied Soft Computing,2021,100(1):106928.
[17] KU J,MOZIFIAN M,LEE J,et al.Joint 3D proposal generation and object detection from view aggregation[C]//2018 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). New York:ACM,2018:1-8.
[18] 薛培林,吳愿,殷國棟,等.基于信息融合的城市自主車輛實時目標(biāo)識別[J].機械工程學(xué)報,2020,56(12):165-173.
[19] 王琳毅,白靜,李文靜,等.YOLO系列目標(biāo)檢測算法研究進(jìn)展[J].計算機工程與應(yīng)用,2023,59(14):15-29.
[20] LIU Y C,SHAO Z R,HOFFMANN N.Global attention mechanism:retain information to enhance channel-spatial interactions[EB/OL].2021:arXiv:2112.05561. https://arxiv. org/abs/2112.05561.pdf.
[21] 楊曉云,梁鑫,梁郁.基于空間體元的LiDAR點云數(shù)據(jù)組織形式[J].廣西科技大學(xué)學(xué)報,2014,25(1):7-11.
[22] ZHANG X,XU W D,DONG C Y,et al.Efficient L-shape fitting for vehicle detection using laser scanners[C]//28th IEEE Intelligent Vehicles Symposium. Los Angeles,CA,USA. IEEE,2017:54-59.
[23] ZHANG Z Y. A flexible new technique for camera calibration[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(11):1330-1334.
[24] LEPETIT V,MORENO-NOGUER F,F(xiàn)UA P. EPnP:an accurate O(n) solution to the PnP problem[J].International Journal of Computer Vision,2009,81(2):155-166.
Research on road target detection based on fusion of camera and lidar
ZHAO Zhedong, ZHANG Chengtao*, LI Xikan, YANG Hang, QIN Liren
(School of Mechanical and Automotive Engineering, Guangxi University of Science and Technology,
Liuzhou 545616, China)
Abstract: Target detection is the core foundation of autonomous driving perception systems. Due to the problem of spatiotemporal blind zone in the perception of a single sensor, a post-fusion target detection algorithm based on camera and lidar is proposed. The improved YOLOv5s visual object detection algorithm is used to detect target classes, and the average accuracy is improved by 2.75%. Lidar sensing uses the Euclidean clustering algorithm with segmented clustering radius to cluster the preprocessed point cloud information and detect the target distance of objects in the detection area. Then, through the calibrated parameters, the point cloud is projected onto the image to determine the category and distance of the detected object by fusing the perception results. The results show that the detection rate of the proposed target detection algorithm is 88.9%, which is 7.8% higher than that of a single camera.
Keywords: YOLOv5s; lidar; multi-sensor fusion; target detection
(責(zé)任編輯:黎 婭)