王文博, 朱世豪, 陳澤宇, 張偉斌
(南京理工大學電子工程與光電技術學院,江蘇 南京 210014)
交通感知是智能交通中的一個重要的環(huán)節(jié),一直伴隨并推動著智能交通技術的發(fā)展。近年來隨著人工智能、物聯(lián)網(wǎng)、傳感器技術等領域的進步,交通感知技術也得到了翻天覆地的發(fā)展。感知的視角得到拓展,遍布于車端、路端、空端等各個維度;感知的方式得到革新,包含視覺、雷達、聲納等各種方式。這些新興的技術將服務于智能交通的各個領域,包括但不局限于智能運維系統(tǒng)[1]、信號燈控制[2]、無人駕駛等領域[3],將極大程度地提高交通資源的利用率、車輛行駛的安全性、車輛乘坐的舒適性等。
目標檢測是交通感知中最基礎的研究內(nèi)容之一,也是計算機視覺領域一直以來的研究熱點[4]?,F(xiàn)代智慧交通在目標檢測方面提出了一些新的要求:(1)實時性,目標檢測需要能夠快速響應,以適應動態(tài)變化的環(huán)境和交通狀況。(2)精確性,要能夠準確地定位和識別目標,以提高安全性和效率。(3)魯棒性,需要能夠適應復雜多變的天氣、光照、遮擋等因素,以保證檢測性能的穩(wěn)定性。與此同時也帶了更多的挑戰(zhàn):(1)小目標檢測,智慧交通場景中經(jīng)常會出現(xiàn)小目標,如遠處的車輛、行人、自行車等,這些目標在圖像中占據(jù)的像素很少,難以提取有效的特征進行檢測。(2)多尺度檢測,目標尺度差異很大,這些目標在圖像中占據(jù)的像素范圍不同,需要不同的感受野進行檢測。此外,多尺度檢測也需要考慮目標在不同距離下的形變和視角變化。(3)多類別檢測,涉及檢測的目標類型眾多,如車輛、行人、自行車、摩托車、交通信號燈、交通標志等,這些目標在外觀、形狀、運動方式等方面有很大差異,需要設計有效的分類器進行區(qū)分。此外,多類別檢測也需要考慮目標之間的相互關系和語義信息。
早期基于傳統(tǒng)機器學習的目標檢測方法較為樸素,例如Viola-Jones檢測器[5-6]、方向梯度直方圖(Histograms of Oriented Gradients, HOG)[7]、可變形組件模型(Deformable Part Model, DPM)[8]等,這些方法通過人工設計特征并結合滑動窗口的思想對圖像矩陣進行遍歷,最后通過如:最近鄰分類器(Nearest Neighbor Classifier, NNC)[9]、支持向量機(Support Vector Machines, SVM)[10]等分類方法確定目標標簽。此類方法中的特征多由人工選取或設計,魯棒性不佳;另一方面,滑動窗口使用的過程中相鄰窗口的數(shù)據(jù)具有很大的相似度,造成計算資源的極大浪費。在今天看來,雖然這些方法的檢測精度已經(jīng)遠遠落后,但是其中的算法思想仍然對如今的方法產(chǎn)生了深遠影響。過去的10多年中計算機算力的提高使得深度學習技術得到了井噴式的發(fā)展,這種數(shù)據(jù)驅動下的機器學習方法由于其極強的特征提取能力,在目標檢測任務中展現(xiàn)出強大的潛力。經(jīng)典的基于深度學習的目標檢測方法包含SSD(Single Shot Multibox Detector)[11],YOLO(You Only Live Once)[12]和CenterNet[13]等一階段方法[14-16];R-CNN[17],F(xiàn)ast R-CNN[18]和Faster RCNN[19]等二階段方法。不同于一階段方法直接對圖像進行計算并生成結果,二階段方法先對圖像進行候選框提取,再對提取出的候選框進行檢測,因此精度較高,但檢測速度慢于一階段方法。雖然現(xiàn)如今的基于視覺的目標檢測方法在精度和速度上已經(jīng)取得了重大突破,但是這些方法并不能很好地應用于現(xiàn)實的交通場景。這是因為交通場景是一個十分復雜的場景,包含不同距離、不同尺度、不同類型的多種目標,這些目標互相交叉重疊,又分布在復雜的前景、背景之上,有時還包含暴雨、暴雪、濃霧等惡劣天氣的嚴重干擾,在這種條件下即使經(jīng)驗豐富的人類也很難分辨,這對基于視覺的目標檢測更是一項不可逾越的困難。此外,基于深度的方法很難識別未經(jīng)過訓練的且差異較大的樣本,這就需要海量的已標注數(shù)據(jù)以盡可能囊括所有可能的目標,這對于樣本收集、標注和訓練都是一項極大的挑戰(zhàn)。不同于視覺傳感器,毫米波雷達可以在極端天氣條件下幾乎不受影響的工作,并且由于多普勒效應的存在,毫米波雷達還能直接獲取目標距離與速度。然而毫米波雷達數(shù)據(jù)噪聲較多、分辨率低、目標特征點少,很難分辨前景和背景、提取目標輪廓、分辨靜止目標。綜上所述,視覺傳感器和毫米波雷達在不同方面具有優(yōu)勢,因此基于毫米波雷達與視覺融合的目標檢測方法將在復雜的交通場景下提供優(yōu)秀目標檢測能力。
構建毫米波雷達與視覺融合的目標檢測包含兩個關鍵步驟:傳感器標定和數(shù)據(jù)融合。各個環(huán)節(jié)的處理方法將對最終的目標檢測性能產(chǎn)生重大影響。因此本文首先介紹目標檢測的評估指標與常見數(shù)據(jù)集,然后對傳感器標定與數(shù)據(jù)融合的過程進行介紹,并重點介紹和對比各種不同類型的融合方法,最后將對現(xiàn)有研究成果進行總結,并展望未來的研究方向。
目標檢測分為二維目標檢測和三維目標檢測,由于三維目標檢測不僅需要確定待檢測物體的類型,還要確定目標在世界坐標中的位置和姿態(tài)信息,因此難度更高。
對于一個機器學習方法,通常希望提出的方法內(nèi)存小、速度快、精度高。對于目標檢測而言,常見的性能指標包含精度指標和速度指標。平均準確度(Aver?age Precision, AP)、平均召回率(Average Recall,AR)、平均準確度均值(mean Average Precision,mAP)是最為常見的精度指標。mAP表示各類別AP的平均值,對于不同數(shù)據(jù)集mAP的計算略有不同。其他常見的精度相關指標與其含義如表1所示。
表1 其他常見的精度相關指標與其含義Tab.1 Other common precision related indexes and meanings
數(shù)據(jù)是人工智能發(fā)展的基礎,任何算法研究都離不開數(shù)據(jù)。目前同時包含毫米波雷達和視覺的交通目標檢測數(shù)據(jù)集較少,下面介紹常見的幾個數(shù)據(jù)集:
Astyx[20]數(shù)據(jù)集是一個以毫米波雷達為中心的,輔助以激光雷達和視覺的數(shù)據(jù)集。此數(shù)據(jù)集主要用于三維目標檢測,但數(shù)據(jù)集較小,僅包含546幀數(shù)據(jù)。
nuScenes[21]數(shù)據(jù)集是2019年自動駕駛公司nu?Tonomy建立的自動駕駛數(shù)據(jù)集。數(shù)據(jù)采集于波士頓和新加坡的1000個場景,包含1個激光雷達,5個毫米波雷達,6個攝像頭共計140萬張圖片、39萬幀雷達點云,23類已標注物體(截止到文章發(fā)表前此數(shù)據(jù)集新增到32類),除此之外還包含車輛軌跡等信息。
Zendar[22]數(shù)據(jù)集是2020年發(fā)布的一個無人駕駛數(shù)據(jù)集。此數(shù)據(jù)集由毫米波雷達,激光雷達相機等傳感器數(shù)據(jù)構成,共有27個場景,包含數(shù)萬輛已標注的汽車。此數(shù)據(jù)集包含了環(huán)境的語義信息,為雷達和視覺的融合提供了可靠的冗余信息。
RaDICaL[23]數(shù)據(jù)集是2021年針對毫米波雷達和視覺融合發(fā)布的開源數(shù)據(jù)集。此數(shù)據(jù)集包含7個場景下數(shù)十萬幀已對齊的毫米波雷達、視覺、深度視覺、姿態(tài)等傳感器的原始數(shù)據(jù)。
RadarScenes[24]數(shù)據(jù)集是2021年發(fā)表在arXiv上的開源數(shù)據(jù)集,旨在為基于雷達的感知系統(tǒng)提供訓練或驗證數(shù)據(jù)。該數(shù)據(jù)集采集于4個77 GHz的毫米波雷達和1個相機,共包含158個序列,5大類11小類共計7500個樣本。
CARRADA[25]數(shù)據(jù)集首次發(fā)布于2020年,2021年又發(fā)布了新的版本,新版數(shù)據(jù)集提供了毫米波雷達與攝像頭精確的數(shù)據(jù)標注,可用于各種有監(jiān)督學習任務。包含30個序列,共計12666幀數(shù)據(jù),涉及行人、自行車和汽車三個類別。但此數(shù)據(jù)集數(shù)據(jù)采集的場景非真實交通場景,實用性受限。
上述數(shù)據(jù)集均采集于車端,截至本文撰寫之時,尚沒有使用毫米波雷達的公開數(shù)據(jù)集。這為路側感知相關研究帶來了巨大的挑戰(zhàn)。各數(shù)據(jù)集的主要信息如表2所示。
表2 交通目標檢測數(shù)據(jù)集信息Tab.2 Traffic object detection dataset information: "√"means included and "×" means not included
由于毫米波雷達和視覺屬于兩種不同類型的傳感器,毫米波雷達返回的是雷達點數(shù)據(jù),視覺返回的是圖像矩陣,且二者通常具有不同的采樣頻率,這就導致兩種數(shù)據(jù)在時間和空間上均不匹配,雖然最新的一些研究使用了更為原始的叫做Radar-cube的數(shù)據(jù),但此種數(shù)據(jù)與圖像的差異更大。因此在對毫米波雷達數(shù)據(jù)和視覺數(shù)據(jù)融合之前,要進行三個步驟:時間同步、空間校準、濾波與校準。
傳感器的時間同步分為兩種,硬件同步和軟件同步。硬件同步需要定制化的毫米波雷達和攝像機通過硬件來實現(xiàn),成本較高,同步效果好,一半很少采用。軟件同步是應用最為廣泛的一種多傳感器時間同步方法,同樣適用于毫米波雷達和攝像頭。
軟件同步是將雷達和攝像頭數(shù)據(jù)統(tǒng)一到相同的頻率,以采樣間隔長的傳感器為基準,采用向下近似的方式進行幀的時間同步。例如某毫米波雷達的采樣頻率為20 Hz,即兩幀之間的時間間隔為50 ms,某攝像頭的采樣頻率為25 Hz,即兩幀之間的時間間隔為40 ms,以毫米波雷達數(shù)據(jù)的時間戳為基準,將與之時間最為接近的攝像頭幀數(shù)據(jù)進行同步,如圖1所示。紅色表示攝像頭數(shù)據(jù)幀,藍色表示毫米波雷達數(shù)據(jù)幀,tn表示第n幀數(shù)據(jù),幀間隔為50 ms,攝像頭的第4幀數(shù)據(jù)被舍棄。
圖1 毫米波雷達視覺軟件同步示意圖Fig.1 Schematic diagram of the millimeter wave radar vision software
空間校準的主要目的是使得雷達點與圖像中的點相對應,例如文獻[26]中假設毫米波雷達坐標系下的點坐標為(xr,yr,zr),相機坐標下的點為(xc,yc,zc),毫米波雷達下相機坐標為(xo,yo,zo),則有如下關系:
式中Rx,Ry,Rz表示相機坐標下X,Y,Z軸的變換矩陣。文獻[27]基于廣義逆矩陣,采用最小二乘法生成變換矩陣。然而上述兩種方法都極其依賴校準過程,校準過程中專業(yè)工具的使用較為不便且成本較高。因此文獻[28]設計出了一種校準實驗用于從實際傳感器獲取的數(shù)據(jù)進行標定,與之類似的,文獻[29]中提出一種無需雷達反射強度和專用工具的校準方法;文獻[30-31]提出了一種借助標記的標定方法,通過對標記的測量實現(xiàn)對點配對,完成毫米波雷達和相機坐標系之間的轉換;文獻[32]提出了一種易于執(zhí)行的校準方法,該方法在最小的監(jiān)督條件下具有很高的可重復性,并能產(chǎn)生高精度的校準結果;文獻[30]考慮了相機圖像的非線性畸變,將毫米波雷達與相機坐標的相對關系作為約束條件,使用最小二乘法確定標定參數(shù),具有較高的精度。上述方法大大削弱了融合系統(tǒng)對校準誤差的依賴性,提高了校準的便捷性;還有一些方法中采用基于驗證的校準方式,即通過毫米波雷達和覺傳感器對同一物體進行檢測,使用檢測到的信息進行相互校準。例如文獻[27]中首先使用雷達進行目標檢測并生成目標列表,然后再通過視覺目標檢測生成目標列表,最后進行驗證;文獻[33]中首先在圖像中進行粗搜索,然后再與毫米波雷達檢測到的目標進行比較;文獻[34]中通過自適應背景檢測分離出運動目標,并生成感興趣區(qū)域(Region of Interest, ROI),再通過毫米波雷達信息對ROI的目標進行驗證,實現(xiàn)空間校準。
濾波與校準的主要目的是消除信號中的雜波、干擾、錯誤等成分,以提高信號準確度。卡爾曼濾波器(Kalman Filter, KF)[35]作為一種最經(jīng)典的信號濾波方法同樣被應用在了毫米波雷達濾波任務中,其根據(jù)上一時刻的目標狀態(tài)預測當前時刻的目標狀態(tài),并將預測結果與當前時刻的測量值進行加權作為最終結果。擴展卡爾曼濾波(Extended Kalman Filter, EKF)[36]將其拓展到了非線性情況,提高了算法在實際環(huán)境中的性能。無跡卡爾曼濾波(Un?scented Kalman Filter,UKF)[37]結合無損變換的思想,有效克服了EKF估計精度低、穩(wěn)定性差的問題,進一步提高了非線性分布統(tǒng)計量的精度。文獻[27]中針對行人識別問題提出了一種毫米波雷達濾波方法,通過幀內(nèi)聚合和幀間跟蹤的方法,從有噪聲的原始信號中提取有效的目標信號。文獻[34]中通過設計了一種運動目標檢測方法,從而將前景、背景分離,以減少毫米波雷達對靜止物體檢測不佳的弊端。文獻[38]從毫米波雷達檢測的數(shù)據(jù)中濾除背景物體,并自動校準相機和毫米波雷達,以減少系統(tǒng)實現(xiàn)的時間成本。文獻[39]提出了一種俯仰檢測器,為每一幀生成不同的校準參數(shù),用于抵消車輛運行中由于顛簸振動產(chǎn)生的校準誤差。
毫米波雷達與視覺的融合可以分為三個大類,前融合、后融合和特征融合。前融合指的是在目標檢測之前進行融合;后融合指的是針對毫米波雷達和視覺分別設計一種目標檢測方法進行目標檢測,生成獨立的目標檢測結果,然后對結果進行融合;特征融合是指將毫米波雷達和視覺信息進行特征提取后再進行目標檢測。前融合方法速度快、可解釋性強、可靠性高,但易受噪聲干擾;后融合方法檢測部分的設計難度較小,具有相對較高的魯棒性,但由于檢測部分各自獨立,因此會丟失信號中的關聯(lián)性信息,從而限制了此種方法目標檢測精度的上限。特征融合方法保留了數(shù)據(jù)的原貌,從而在利用毫米波雷達和視覺數(shù)據(jù)之間相關性的方面提供了更多可能,在目標檢測精度上具有很高的上限,但此類方法可解釋性差,性能開銷大,目前仍然需要更多的研究。下面將對這三類方法進行綜述。
前融合通常采用的方法是利用毫米波雷達的檢測結果進行定位,再根據(jù)一定的規(guī)則生成ROI,然后在圖像中對應的區(qū)域進行分類。此類方法中的定位主要依賴于毫米波雷達,目標分類主要依賴于視覺。毫米波雷達數(shù)據(jù)是一種較為稀疏的數(shù)據(jù),因此在確定ROI時有一定的漏檢幾率;也容易受到雷達噪聲點的影響。
3.1.1 目標定位與ROI生成
ROI是注意力機制在圖像算法上關注的重點區(qū)域,前融合相關方法中通過雷達數(shù)據(jù)為圖像提供目標區(qū)域。利用ROI提取的關鍵區(qū)域進行下一步處理時將大幅度減少計算時間并且提高準確率[40]。然而過大或者過小的區(qū)域都將影響后續(xù)目標檢測的性能,例如,文獻[41]中將ROI設置為以雷達目標點為中心、邊長為3 m的正方形區(qū)域;文獻[27,42]中根據(jù)目標點與雷達的距離動態(tài)確定ROI,大幅提高了區(qū)域大小和位置的精度;文獻[43]中使用了一種深度網(wǎng)絡用于生成更加魯棒的ROI;文獻[44-46]利用了車輛的垂直對稱性來確定ROI,實現(xiàn)了精度和計算效率之間的最佳平衡。
3.1.2 圖像分類
當ROI劃分完成后即獲得了目標的空間位姿,在視覺數(shù)據(jù)中提取出目標位置的圖像,此時目標檢測任務被轉化為一個標準的圖像分類任務。圖像分類任務又可以劃分為圖像預處理、特征提取、分類。
圖像預處理:圖像預處理的目標是對原始圖像數(shù)據(jù)進行二次加工,以縮小檢測范圍提高檢測精度。文獻[47]使用AdaBoost[48]算法掃描圖像上的ROI,以獲取更加精確的目標位置信息[49]。根據(jù)雷達提供的數(shù)據(jù)對ROI進行一定的變換以提高精度與計算速度。文獻[50]在圖像分類前先進行邊緣檢測,然后對目標物體進行精準劃分,使得檢測速度與精度進一步提高。
特征提?。禾卣魈崛〉哪康氖峭ㄟ^人工設計或深度神經(jīng)網(wǎng)絡對圖像特征進行變換,以減少噪聲與冗余數(shù)據(jù)。文獻[47]在特征提取過程中使用了Haar-like特征;文獻[27]通過梯度直方圖提取特征;文獻[51]使用了高斯核函數(shù)對ROI的圖像特征變換,這些方法都使得特征質(zhì)量提高,優(yōu)化了分類性能;文獻[52]優(yōu)化了網(wǎng)絡結構提高了網(wǎng)絡吞吐量,使得模型可以更容易部署在算力受限的嵌入式平臺。
分類:分類的目的是設計一種分類器以確定目標標簽,目前現(xiàn)有的幾乎所有分類器都可以直接應用于交通目標分類。例如,最樸素的基于歐氏距離的最近鄰分類器(Nearest Neighbor Classifier,NNC)[9];基于表示學習的稀疏表示分類器(Sparse Representation Classification,SRC)[53]、協(xié)同表示分類器(Collaborative Representation Classification,CRC)[54];基于回歸的最小二乘回歸(Least Squares Regression,LSR)[55]、低秩判別最小二乘回歸(Low-Rank Discriminative Least Squares Regression,LRDLSR)[56]、基于潛子空間去噪的子空間學習(Denoising Latent Subspace Based Subspace Learn?ing,DLSSL)[57];基于深度神經(jīng)網(wǎng)絡的VGG16[58],ResNet50[59],Xception[60]和MobileNet[61]等。值得一提的是文獻[47]在分類環(huán)節(jié)的參數(shù)選擇上使用了毫米波雷達提供的距離信息,簡化了參數(shù)選擇的難度,提高了結果的精度。
后融合通常采用的方法是對獨立傳感器獲取到的數(shù)據(jù)進行后處理,利用毫米波雷達和視覺數(shù)據(jù)的不同性質(zhì),對最終的結果進行融合。這類方法中信息來源于多個部分且相對獨立,因此具有較高的冗余度,且此層級的數(shù)據(jù)融合數(shù)據(jù)量小,融合速度快;但后融合方法通常需要對多個不同分布的數(shù)據(jù)建立合適的聯(lián)合概率密度模型,這在設計時具有較高的難度。
3.2.1 信息感知
信息感知部分需要獨立的處理毫米波雷達數(shù)據(jù)和視覺數(shù)據(jù),最終生成兩組非同源目標檢測結果。因此獨立檢測部分的精度將決定融合結果的精度。
毫米波雷達感知:毫米波雷達獲取到的數(shù)據(jù)具有較多的噪聲,因此對于算法的噪聲抵抗能力提出了較大的挑戰(zhàn)。文獻[62]提出了一種利用波前重建技術進行目標識別的方法,可以對目標的速度、方位、距離等信息進行感知;文獻[63]中將當前時刻的檢測列表和歷史列表進行關聯(lián),以減少噪聲干擾。
視覺感知:文獻[63]使用滑動窗口并通過改進的方向梯度直方圖提取特征,結合Boosting算法進行目標檢測;文獻[39]巧妙地利用了行人的對稱特點,在視覺檢測部分添加了垂直對稱性的檢測,提高了行人目標的檢測精度與速度;文獻[64]提出了一種利用光流實現(xiàn)超車車輛檢測的方法;文獻[65]使用AlexNet對圖像目標進行檢測,并將檢測結果分為6個類別,AlexNet的網(wǎng)絡結構如圖2所示;文獻[66]改進了Faster R-CNN算法的特征提取過程,為候選區(qū)域生成網(wǎng)絡和分類回歸網(wǎng)絡建立了獨立的特征提取網(wǎng)絡,使得候選區(qū)域生成網(wǎng)絡學習到的特征不會進入分類回歸網(wǎng)絡,提高了目標檢測精度;文獻[67]中使用了YOLO進行目標檢測,模型網(wǎng)絡結構圖如圖3所示;文獻[68]提出了一種中心點檢測網(wǎng)絡,通過識別圖像上的中心點來實現(xiàn)目標檢測。
圖2 AlexNet網(wǎng)絡結構示意圖Fig.2 Schematic diagram of the AlexNet network structure
圖3 YOLO網(wǎng)絡結構示意圖Fig.3 Schematic diagram of the YOLO network structure
3.2.2 信息融合
后融合類方法中的信息融合主要分為四種類型,基于列表融合的方法、基于貝葉斯理論的方法,基于Dempster-Shafer(DS)理論和基于濾波的方法。
基于列表融合的方法:文獻[65,69]中直接將毫米波雷達和視覺檢測的結果列表疊加過濾,這類方法實現(xiàn)方式雖然簡單,但仍能很好地解決雷達誤報情況。
基于貝葉斯理論的方法:文獻[70]提出了一種基于貝葉斯的通用數(shù)據(jù)融合方法,其可以利用包含噪聲或不確定性的信息進行推理預測,提高了融合系統(tǒng)的魯棒性;文獻[71]將各種傳感器(如激光雷達、 毫米波雷達和視覺傳感器)集成到傳感器融合系統(tǒng)中,該方法使復雜融合系統(tǒng)的結構和信號流易于理解,提高了傳感器算法模塊的可重用性,簡化了不同規(guī)格傳感器的集成;文獻[72]使用橢圓鑒別閾值、衰減函數(shù)和簡化的剪枝方法改進了跟蹤過程,可以在目標遮擋、測量丟失情況下實現(xiàn)魯棒的連續(xù)多目標跟蹤。
基于DS理論的方法:文獻[63]提出的方法利用來自多個傳感器處理模塊的檢測對象列表作為輸入,迭代地獲取其中一個輸入,并使用傳感器模型在臨時證據(jù)網(wǎng)格中表示,最后進行聚類。此方法可以使用任意多個傳感器和后端處理模塊具有較高的可擴展性。
基于濾波的方法:文獻[66]利用馬氏距離匹配目標序列的觀測值,建立了基于聯(lián)合概率的函數(shù),該方法提高了環(huán)境感知系統(tǒng)的魯棒性;文獻[73]提出一種基于多重卡爾曼濾波框架的綜合概率數(shù)據(jù)關聯(lián)(Integrated Probability Data Association,IPDA)技術;文獻[74]在經(jīng)典的卡爾曼濾波框架上考慮了傳感器極坐標不確定性,提出了一種新的濾波框架,具有更精確的不確定度建模;文獻[75-76]提出了一種基于粒子濾波的融合方法,對兩種傳感器的檢測結果進行融合,在擴大了檢測范圍的同時降低了系統(tǒng)測量的不確定性;文獻[77]利用無跡卡爾曼濾波器對毫米波雷達和視覺傳感器的目標位置信息進行融合,生成更加穩(wěn)定的目標位置信息。
不同于前融合和后融合方法,特征融合是近年來誕生的一類新的融合方法,在特征融合的方法中將毫米波雷達的數(shù)據(jù)和視覺數(shù)據(jù)同時輸入模型,這樣的融合方式可以保留數(shù)據(jù)原貌,從而利用深度神經(jīng)網(wǎng)絡盡可能地發(fā)掘任何可能的信息及關聯(lián)性信息。目前此類方法的研究包括基于特征提取的方法和基于偽圖像的方法。
3.3.1 基于特征提取的方法
基于特征提取的方法首先通過特征工程分別提取毫米波雷達數(shù)據(jù)和圖像數(shù)據(jù)中的抽象特征,然后將兩種特征拼接后再進行特征提取,最后將提取到的特征送入目標檢測模型中。文獻[78]首次提出利用特征提取的方法實現(xiàn)毫米波雷達和視覺信息的融合。作者以經(jīng)典的Single Shot Multibox Detector(SSD)網(wǎng)絡為基礎設計了一個雙輸入單輸出的改進目標檢測網(wǎng)絡,SSD的網(wǎng)絡結構如圖4所示,改進網(wǎng)絡的結構如圖5所示。網(wǎng)絡輸入3通道的圖像矩陣與2通道的毫米波雷達數(shù)據(jù)矩陣,二者分別經(jīng)過特征提取后在圖像分支的第二個ResNet18塊后拼接,最后對拼接后的數(shù)據(jù)進行目標檢測。相對于當時的一些方法,此方法在小目標的檢測性能上有了一定的提升。文獻[79]提出了一種單點目標檢測網(wǎng)絡RVNet,網(wǎng)絡結構如圖6所示。網(wǎng)絡通過兩個輸入分支分別接收圖像數(shù)據(jù)和毫米波雷達數(shù)據(jù),并通過兩個分支分別輸出大目標和小目標。該方法在復雜的場景下具有相對較好的魯棒性。
圖4 SSD網(wǎng)絡結構示意圖Fig.4 Schematic diagram of the SSD network structure
圖5 文獻[78]中的網(wǎng)絡結構示意圖Fig.5 Schematic diagram of the network structure in Ref.[78]
圖6 RVNet的網(wǎng)絡結構示意圖Fig.6 Schematic diagram of the RVNet network structure
3.3.2 基于偽圖像的方法
文獻[80]利用CNN網(wǎng)絡將每個雷達檢測點處理成偽圖像,然后將偽圖像和視覺圖像進行疊加,最終輸入目標檢測模型中。文獻[78]中也對偽圖像的方法進行了嘗試,直接將3通道的圖像矩陣和2通道的毫米波雷達數(shù)據(jù)矩陣合并成5通道的偽圖像矩陣,然后送入網(wǎng)絡,然而這種簡單的拼接在目標檢測精度上并未取得較好的效果。文獻[81]創(chuàng)造性地提出了一種新的多條件生成網(wǎng)絡(Condi?tional Multi-Generator Generative Adversarial Net?work,CMGGAN),該網(wǎng)絡以毫米波雷達數(shù)據(jù)與視覺數(shù)據(jù)作為輸入,可以生成包含毫米波雷達信息的圖像,能夠定性或定量地表達兩種傳感器所收集到的環(huán)境信息,從而實現(xiàn)數(shù)據(jù)融合。此外,該方法為無監(jiān)督方式,無需大量的數(shù)據(jù)標注,拓展了其使用場景。 與之類似的,考慮到毫米波雷達數(shù)據(jù)的稀疏性,文獻[82]構建了一個生成網(wǎng)絡用于通過雷達數(shù)據(jù)生成雷達圖像。該融合方法可以嵌入到特征提取階段,有效地利用了毫米波雷達和視覺傳感器的特征。文獻[83]以VGG網(wǎng)絡為基礎,添加了毫米波雷達數(shù)據(jù)輸入分支,雷達數(shù)據(jù)通過最大池進行相應地縮放,并額外輸入到網(wǎng)絡的各層;此外又引入了特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN)[84],將雷達數(shù)據(jù)在多個不同尺度的特征上進行融合,通過優(yōu)化器隱式地調(diào)節(jié)各層雷達數(shù)據(jù)的融合權重,從而提高了檢測性能,該方法的模型架構圖如圖7所示。文獻[85]提出了一種兩階段的圖像深度信息補全的方法,該方法首先建立了一個模型用于學習毫米波雷達和圖像像素之間的關聯(lián)性,然后再通過另一個模型對關聯(lián)后的數(shù)據(jù)進行處理,生成稠密的深度圖,從而將毫米波雷達和視覺融合的目標檢測問題轉化為了深度圖像中的目標檢測問題。圖像中的檢測框投影到圖像平面中,生成一幅偽圖像,其中目標的每個參數(shù)分別占用圖像的一個通道,然后使用基于ResNet50[59]的網(wǎng)絡對偽圖像和原始圖像的拼接圖像進行表征學習,實現(xiàn)目標檢測,該方法在檢測精度上大幅高于基于規(guī)則的方法。
圖7 CRF-Net的網(wǎng)絡結構示意圖Fig.7 Schematic diagram of the CRF-Net network structure
基于毫米波雷達和視覺融合的交通目標檢測方法克服了傳統(tǒng)單一傳感器的局限性,在檢測性能上取得了諸多優(yōu)勢;同時此類技術已經(jīng)實現(xiàn)了從理論階段到實際運用的過度,并逐漸在無人駕駛、交管控制等領域向更加智能化的方向發(fā)展。利用毫米波雷達和視覺融合進行目標檢測取得了階段性的成功,但是技術層面仍然存在諸多不足:
(1)降低標定誤差:提高傳感器標定的精度和魯棒性。傳感器標定是影響融合效果的關鍵因素之一,目前的標定方法還存在一些局限性,如依賴于特殊工具或人工干預、難以適應動態(tài)變化的場景等。未來需要開發(fā)更加自動化、實時化和智能化的標定方法,以適應復雜多變的自動駕駛環(huán)境。
(2)多元傳感器融合:目前的融合方法主要利用了毫米波雷達、視覺圖像、激光雷達,關于其他模態(tài)傳感器的融合還比較少。智慧交通中的目標檢測早已不再局限于交通科學,更是計算機、電子、機械等學科的交叉領域,還可以考慮其他模態(tài)的信息,如紅外[86]、聲音[87]、地磁[88]等。利用更多的傳感器信息和模態(tài)可以提高目標檢測的準確性和魯棒性,同時也增加了信息融合的復雜性和挑戰(zhàn)性。
(3)高層次的融合方法:目前的融合方法主要集中在前融合和后融合,特征級融合方法還比較少見。特征級融合方法可以更好地利用深度學習模型提取不同傳感器數(shù)據(jù)中的共同特征,實現(xiàn)更緊密和有效的融合。然而,特征級融合方法也面臨著如何提取雷達特征、如何設計適合不同模態(tài)數(shù)據(jù)的網(wǎng)絡結構、如何平衡不同模態(tài)數(shù)據(jù)之間的權重等問題。
(4)探索更先進的三維目標檢測方法:三維目標檢測是自動駕駛中更具挑戰(zhàn)性和價值的任務,它可以提供更完整和準確的目標信息,如位置、姿態(tài)、形狀等。然而,三維目標檢測也面臨著更高的計算復雜度、更大的數(shù)據(jù)稀疏性、更難的評估標準等問題。未來需要開發(fā)更高效、更精確、更魯棒的三維目標檢測方法,以滿足自動駕駛的實際需求。
(5)更多點位傳感器的融合:現(xiàn)有的大多數(shù)成果中只結合了單個毫米波雷達和視覺傳感器,并取得了一定的效果。然而僅僅借助于2個傳感器具有一定的局限性,因此借助多毫米波雷達和多攝像頭的融合方法可以獲得更加豐富的數(shù)據(jù),為后續(xù)的目標檢測提供更多更高質(zhì)量的數(shù)據(jù),從而提高交通復雜場景下的目標檢測魯棒性。
(6)數(shù)據(jù)集匱乏:不同于圖像數(shù)據(jù)可以通過人工標注以達到較高的數(shù)據(jù)質(zhì)量,雷達數(shù)據(jù)無法通過人工直接標注。 如今的機器學習方法多是數(shù)據(jù)驅動的方法,算法性能的優(yōu)劣很大程度上取決于數(shù)據(jù)的數(shù)量與質(zhì)量。目前針對毫米波雷達和視覺融合的數(shù)據(jù)集比較匱乏,已標注樣本更為稀缺,多數(shù)數(shù)據(jù)集中的樣本通過機器學習半自動標注,標注準確性不高,數(shù)據(jù)集質(zhì)量偏低。此外目前尚未有開源路側數(shù)據(jù)集,這也為路側目標檢測帶來了巨大的挑戰(zhàn)。目前雷達數(shù)據(jù)的標注仍然是一個不小的挑戰(zhàn),大場景、復雜場景下的高質(zhì)量數(shù)據(jù)集是推動雷達與視覺融合算法發(fā)展的關鍵因素之一。
毫米波雷達和視覺傳感器的融合克服了單一傳感器的局限性,該項技術具有較大的發(fā)展?jié)摿εc廣泛的應用場景。經(jīng)過數(shù)十年的發(fā)展,基于毫米波雷達和視覺傳感器的融合方法得到了翻天覆地的進步,越來越多新的技術被應用于此。針對此領域日益復雜的研究分支,本文從交通目標檢測任務著手,對各種毫米波雷達與視覺融合的方法展開了全面的綜述。首先收集羅列了毫米波雷達與視覺傳感器融合的目標檢測評估指標和公開數(shù)據(jù)集,然后介紹了傳感器標定方法和多種融合方法,并對融合方法進行了分類總結,最后針對目前的研究現(xiàn)狀歸納了當下的研究難點,并展望了未來智慧交通研究的演進方向。