安旭陽, 蘇治寶, 杜志岐, 李兆冬
(中國北方車輛研究所,北京100072)
近年來,地面無人平臺(tái)技術(shù)得到了空前發(fā)展,對(duì)高效和實(shí)時(shí)的感知系統(tǒng)提出了更迫切的需求.目標(biāo)檢測(cè)作為感知層的重要組成部分,其性能優(yōu)劣決定了地面無人平臺(tái)的自主行駛水平.傳統(tǒng)的2D目標(biāo)檢測(cè)算法是首先利用手工設(shè)計(jì)的特征描述對(duì)輸入圖像進(jìn)行特征提取,然后獲取候選目標(biāo)的邊緣或紋理特征,最后采用分類器SVM或Adaboost對(duì)目標(biāo)進(jìn)行分類.常用的特征描述子有HOG[1]、SIFT[2]和BRIEF[3]等,但是在復(fù)雜場(chǎng)景下的泛化能力較弱.而基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取候選區(qū)域的目標(biāo)特征,泛化能力得到了極大提高.2013年,Ross等作者提出R-CNN算法,采用選擇性搜索算法在圖像上生成約2 000個(gè)候選區(qū)域,引入AlexNet網(wǎng)絡(luò)對(duì)區(qū)域目標(biāo)進(jìn)行特征提取,通過SVM對(duì)目標(biāo)進(jìn)行分類[4],檢測(cè)準(zhǔn)確率顯著提高,但是大量的候選區(qū)域提取工作使得算法的檢測(cè)速率較低.Faster-RCNN網(wǎng)絡(luò)[5]采用區(qū)域提議網(wǎng)絡(luò)代替選擇性搜索算法生成候選區(qū)域,引入共享卷積運(yùn)算對(duì)區(qū)域目標(biāo)進(jìn)行特征提取,極大提高了檢測(cè)精度和速度.華盛頓大學(xué)的Joseph等作者提出YOLO[6]算法,將候選區(qū)域提取和目標(biāo)分類預(yù)測(cè)看作一個(gè)回歸問題,直接在圖像上輸出目標(biāo)的類別和位置,在保證檢測(cè)精度的條件下極大提高了目標(biāo)檢測(cè)的速度,能夠達(dá)到實(shí)時(shí)性要求.
雖然以深度學(xué)習(xí)為代表的2D目標(biāo)檢測(cè)算法占據(jù)主導(dǎo)地位,能夠在像素層級(jí)上正確、高效地完成目標(biāo)檢測(cè),但是仍無法獲取目標(biāo)的位置姿態(tài)、尺寸和運(yùn)動(dòng)狀態(tài).若能夠?qū)崿F(xiàn)3D目標(biāo)檢測(cè),則可以獲取目標(biāo)的類別、空間位置和朝向信息,可直接應(yīng)用于地面無人平臺(tái)的導(dǎo)航行駛.與圖像相比,點(diǎn)云不僅能夠提供精確的幾何特征而且對(duì)光照的魯棒性較好,但是獨(dú)特的置換不變性和旋轉(zhuǎn)不變性使得直接利用神經(jīng)網(wǎng)絡(luò)處理數(shù)據(jù)難以取得較好的檢測(cè)結(jié)果.近年來,部分專家學(xué)者開始將2D目標(biāo)檢測(cè)算法采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入到3D目標(biāo)檢測(cè)領(lǐng)域,不斷優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),致力于提升算法的精度和魯棒性.目前3D目標(biāo)檢測(cè)算法可根據(jù)采用傳感器種類分為4個(gè)方向:1)基于單目相機(jī)的目標(biāo)檢測(cè);2)基于激光雷達(dá)的目標(biāo)檢測(cè);3)基于多傳感器融合的目標(biāo)檢測(cè);4)基于立體視覺的目標(biāo)檢測(cè).
目前基于單目相機(jī)的2D檢測(cè)僅能提供目標(biāo)在二維圖片中的像素位置和相應(yīng)類別的置信度,無法回歸出目標(biāo)的三維尺寸和朝向,更不能提供地面無人平臺(tái)環(huán)境感知的全部信息.而基于單目相機(jī)的3D目標(biāo)檢測(cè)一般先在圖像上檢測(cè)目標(biāo)的候選邊界框,根據(jù)2D-3D幾何約束或者地面參考等先驗(yàn)信息估計(jì)目標(biāo)的3D邊界框.雖然采用單一的RGB相機(jī)在3D物理場(chǎng)景中預(yù)測(cè)目標(biāo)的位置和朝向具有挑戰(zhàn)性,然而提高檢測(cè)精度將會(huì)極大降低地面無人平臺(tái)感知系統(tǒng)成本.
清華大學(xué)Chen等作者提出Mono3D網(wǎng)絡(luò),如圖1所示,以傳統(tǒng)的2D檢測(cè)框架獲得候選感興趣區(qū)域,通過能量最小化原則將候選目標(biāo)映射到3D空間中,然后通過編碼語義分割信息、上下文信息、大小和位置先驗(yàn)信息以及典型物體形狀等特征為每個(gè)候選框評(píng)分[7],但是3D空間比2D空間大的多,極大增加了計(jì)算量,每幀的檢測(cè)時(shí)間約為4.2 s.2019年,香港中文大學(xué)的Li[8]等作者提出單目3D檢測(cè)網(wǎng)絡(luò)GS3D,首先利用Faster-RCNN和補(bǔ)充網(wǎng)絡(luò)對(duì)目標(biāo)的2D邊界框和觀測(cè)視角進(jìn)行預(yù)測(cè);然后根據(jù)預(yù)測(cè)目標(biāo)的種類估計(jì)3D邊界框的大小,主要是因?yàn)樽詣?dòng)駕駛場(chǎng)景中相同種類目標(biāo)的3D尺寸分布是低方差和單峰的;最后對(duì)圖像進(jìn)行卷積處理,通過仿射變換將可見3個(gè)表面映射到指定的維度上完成特征提取,融合3個(gè)平面映射后的特征和2D邊界框特征,進(jìn)而獲得精確的3D邊界框,每幀的檢測(cè)時(shí)間約為2 s,如圖2所示.
圖1 Mono3D網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 特征表面提取
2021年,香港科技大學(xué)和城市大學(xué)的Liu等作者改進(jìn)了3D錨點(diǎn)濾波方法,以地面先驗(yàn)和統(tǒng)計(jì)先驗(yàn)信息作為補(bǔ)充信息,設(shè)計(jì)了新的神經(jīng)網(wǎng)絡(luò)模塊,充分利用先驗(yàn)信息進(jìn)行3D目標(biāo)預(yù)測(cè)[9].
激光雷達(dá)主要由發(fā)射系統(tǒng)、接收系統(tǒng)和處理系統(tǒng)組成.其工作原理是向目標(biāo)發(fā)射激光束,根據(jù)接收信號(hào)返回的時(shí)間差計(jì)算雷達(dá)與目標(biāo)的距離,從而獲得目標(biāo)的位姿、尺寸和材質(zhì).點(diǎn)云的精度能夠達(dá)到毫米級(jí),可以用于3D目標(biāo)檢測(cè).但是點(diǎn)云是一種不規(guī)則的數(shù)據(jù)結(jié)構(gòu),主要存在2種表征方式對(duì)點(diǎn)云數(shù)據(jù)結(jié)構(gòu)進(jìn)行處理:1)基于網(wǎng)格或體素的方法;2)基于點(diǎn)的方法.前者利用體素或鳥瞰圖將不規(guī)則的點(diǎn)云轉(zhuǎn)換為規(guī)則的表征方式,然后采用PointNet及其變種[10-11]提取點(diǎn)云特征,計(jì)算成本相對(duì)較低但是易造成特征丟失.后者直接在原始點(diǎn)云上提取目標(biāo)特征,計(jì)算成本較高但能獲得較大的感受野.
斯坦福大學(xué)的Qi等作者提出用深度學(xué)習(xí)網(wǎng)絡(luò)直接處理點(diǎn)云數(shù)據(jù),為目標(biāo)分類、語義分割構(gòu)建了統(tǒng)一的體系架構(gòu)[10].PointNet利用空間變換網(wǎng)絡(luò)解決了點(diǎn)云旋轉(zhuǎn)不變性問題,應(yīng)用最大池化方法解決了點(diǎn)云無序性問題.然而PointNet僅對(duì)每個(gè)點(diǎn)進(jìn)行表征,無法整合局部結(jié)構(gòu)信息特征,PointNet++[11]借鑒分層提取特征思想有效解決了這個(gè)問題.PointNet++的每層分為采樣、分組和特征提取3部分.采樣是利用最遠(yuǎn)點(diǎn)采樣法從點(diǎn)云中提取較為重要的點(diǎn);分組是在采樣層提取中心點(diǎn)的周圍查找k個(gè)臨近點(diǎn)構(gòu)建1個(gè)組;特征提取是將每個(gè)組送入PointNet網(wǎng)絡(luò)進(jìn)行卷積和池化操作,選擇獲得的特征作為中心點(diǎn)特征,然后重復(fù)進(jìn)行下一層操作.因此,每一層的中心點(diǎn)都是上一層的子集,層數(shù)越深,中心點(diǎn)數(shù)目越少,但是包含的局部信息越多,特征提取的效果越好.
2019年,香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室的Shi等作者融合了點(diǎn)和體素網(wǎng)格的特征提取方法,構(gòu)建了新型3D檢測(cè)網(wǎng)絡(luò)PV-RCNN,充分利用了3D體素卷積提取候選區(qū)域的高效性和點(diǎn)的可變感受野特性,保證能夠?qū)W習(xí)更多具有區(qū)分性的點(diǎn)云特征[12].首先將體素化后的原始點(diǎn)云輸入基于3D稀疏卷積的編碼器中,學(xué)習(xí)多尺度語義信息生成初始3D候選區(qū)域,通過Voxel Set Abstraction模塊將在多個(gè)神經(jīng)層上學(xué)習(xí)到的體素特征量匯聚成小的一系列關(guān)鍵點(diǎn);然后利用RoI-grid池化模塊在每個(gè)感興趣區(qū)域中隨機(jī)采樣一些網(wǎng)格點(diǎn)作為球心,聚合周圍的關(guān)鍵點(diǎn)特征,以保證能夠?qū)W習(xí)更小顆粒度的特征并對(duì)初始候選區(qū)域進(jìn)行修正.與傳統(tǒng)的池化層相比,RoI-grid模塊編碼了更豐富的上下文信息,用于準(zhǔn)確預(yù)測(cè)目標(biāo)的置信度和位置,如圖3所示.
圖3 PV-RCNN網(wǎng)絡(luò)結(jié)構(gòu)圖
激光雷達(dá)能夠獲得場(chǎng)景中目標(biāo)精確的空間坐標(biāo),但是點(diǎn)云的稀疏性導(dǎo)致遠(yuǎn)距離檢測(cè)精度較低.相機(jī)采樣圖像的分辨率較高,能夠提供充足的環(huán)境紋理和顏色信息.因此,融合圖像層級(jí)上的2D特征和激光雷達(dá)的3D特征將能夠提高3D目標(biāo)檢測(cè)的精度和速度.
2017年,清華大學(xué)的Chen[13]等作者提出MV3D網(wǎng)絡(luò),以圖像和點(diǎn)云作為原始數(shù)據(jù)輸入,將點(diǎn)云坐標(biāo)分別投影成鳥瞰圖和主視圖,增加了視場(chǎng)維度.鳥瞰圖由高度、強(qiáng)度和密度進(jìn)行編碼表征,并離散到分辨率為0.1 m的二維網(wǎng)格中.由于激光點(diǎn)云比較稀疏,所以選擇將點(diǎn)云投影到圓柱面生成稠密的點(diǎn)云主視圖.然后利用鳥瞰圖生成候選3D區(qū)域,并將其投影到主視圖和圖像中,采用RoI池化方法將3個(gè)特征整合到一個(gè)維度,最后采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)場(chǎng)景中的目標(biāo)進(jìn)行分類和定位,如圖4所示.
圖4 MV3D網(wǎng)絡(luò)結(jié)構(gòu)圖
2018年,滑鐵盧大學(xué)的Ku[14]等作者在MV3D的基礎(chǔ)上提出了AVOD網(wǎng)絡(luò),首先取消了點(diǎn)云主視圖輸入,在點(diǎn)云鳥瞰圖中增加強(qiáng)度特征;其次,采用FPN網(wǎng)絡(luò)代替VGG16進(jìn)行特征提取,保證特征圖相對(duì)原始輸入是全分辨率的,并且能夠結(jié)合底層細(xì)節(jié)和高語義特征,提高小目標(biāo)的檢測(cè)精度;最后,采用裁剪和調(diào)整方式代替RoI池化進(jìn)行特征整合.此外,MV3D網(wǎng)絡(luò)僅給出8個(gè)頂點(diǎn),并未對(duì)邊界框進(jìn)行約束,由24維(3×8)向量進(jìn)行表征,而AVOD利用底面和高度對(duì)3D邊界框進(jìn)行約束,由10維(2×4+2)向量表征,有效降低了編碼維度,如圖5所示.
圖5 邊界框編碼方式
2019年,多倫多大學(xué)的Ku等作者提取了細(xì)粒度語義信息,用于提高3D目標(biāo)檢測(cè)的朝向精度[15].首先,利用深度補(bǔ)全算法[16]對(duì)場(chǎng)景中的點(diǎn)云進(jìn)行稠密化處理,通過RGB顏色對(duì)點(diǎn)云進(jìn)行著色;然后,利用VMVS模塊將虛擬相機(jī)放置在候選目標(biāo)周圍構(gòu)建新視點(diǎn),同時(shí)保留目標(biāo)的外觀特征;最后,利用CNN網(wǎng)絡(luò)從新視圖中回歸目標(biāo)的朝向.KITTI測(cè)試結(jié)果表明,方法與開源3D檢測(cè)器AVOD-FPN結(jié)合使用時(shí),行人的朝向檢測(cè)精度優(yōu)于先前發(fā)布的算法.
2021年,田納西大學(xué)諾克斯維爾分校的Nabati[17]等作者將雷達(dá)和圖像進(jìn)行融合提出了CenterFusion算法.首選利用CenterNet網(wǎng)絡(luò)提取候選目標(biāo)的中心點(diǎn),采用視錐方法將雷達(dá)檢測(cè)結(jié)果與候選目標(biāo)中心點(diǎn)進(jìn)行數(shù)據(jù)關(guān)聯(lián);然后通過回歸候選目標(biāo)的深度、旋轉(zhuǎn)角度和速度對(duì)先驗(yàn)檢測(cè)結(jié)果進(jìn)行修正,在不借助額外信息的條件下能夠提高速度估計(jì)的精確度,如圖6所示.
圖6 CenterFusion網(wǎng)絡(luò)結(jié)構(gòu)圖
立體視覺借鑒了人類雙眼“視差”原理.兩個(gè)或多個(gè)相機(jī)從不同的空間角度觀測(cè)場(chǎng)景中的目標(biāo),可以獲得不同視角下的圖像.根據(jù)像素匹配原理,利用三角測(cè)量技術(shù)計(jì)算對(duì)應(yīng)像素之間的視差進(jìn)而解算三維目標(biāo)的深度,如圖7所示.
圖7 雙目視差原理
臺(tái)灣交通大學(xué)的Chang等作者提出了金字塔立體匹配策略PSMNet,該策略可分為空間金字塔池化和3D卷積神經(jīng)網(wǎng)絡(luò)兩個(gè)模塊.前者充分利用了全局的上下文信息,將不同尺度和位置的上下文整合為代價(jià)量,后者利用多個(gè)堆疊的沙漏網(wǎng)絡(luò)和中間監(jiān)督方法調(diào)整代價(jià)量[18].然而PSMNet是為視差估計(jì)設(shè)計(jì)的而不是目標(biāo)檢測(cè).由于前景和背景是聯(lián)合估計(jì)的,所以目標(biāo)邊界外立體視覺匹配的深度通常不夠準(zhǔn)確,并且現(xiàn)有網(wǎng)絡(luò)在損失函數(shù)中計(jì)算的是視差而不是目標(biāo)點(diǎn)云位置.為此,喬治敦大學(xué)的Pon等作者提出了一種二維邊界框關(guān)聯(lián)和以目標(biāo)為中心的立體視覺匹配策略,僅僅估計(jì)感興趣區(qū)域目標(biāo)的視差[19].首先采用MS-CNN[20]二維檢測(cè)器獲得左右視圖的邊界框,通過結(jié)構(gòu)相似索引[21]進(jìn)行圖像間的數(shù)據(jù)關(guān)聯(lián),然后傳遞到以目標(biāo)為中心的立體網(wǎng)絡(luò)中生成視差圖和實(shí)例分割掩碼,最后轉(zhuǎn)化為點(diǎn)云,利用基于激光雷達(dá)的3D檢測(cè)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的3D邊界框.
香港中文大學(xué)的Chen[22]等作者提出了端到端的3D目標(biāo)檢測(cè)框架DSGN,核心思想是通過空間變換將2D特征轉(zhuǎn)化為有效的3D特征結(jié)構(gòu).以雙目左右圖像作為輸入,利用權(quán)重共享的孿生網(wǎng)絡(luò)提取特征構(gòu)建平面掃描體.通過微分變形將平面掃描體轉(zhuǎn)化為3D幾何體,在三維世界中構(gòu)建幾何體,最后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行3D目標(biāo)檢測(cè),如圖8所示.
圖8 DSGN網(wǎng)絡(luò)結(jié)構(gòu)圖
基于單目相機(jī)的3D目標(biāo)檢測(cè)只需普通的RGB相機(jī)作為硬件設(shè)備,能夠顯著降低感知設(shè)備的成本.借鑒以深度學(xué)習(xí)為主導(dǎo)的2D目標(biāo)檢測(cè)技術(shù),通常目標(biāo)位置和朝向的預(yù)測(cè)精度較高,但是依賴外界先驗(yàn)信息的深度估計(jì)精確度較低,無法為地面無人平臺(tái)提供充足的感知信息.由于激光雷達(dá)的分辨率隨著距離的增大而變得稀疏,尤其是遠(yuǎn)距離的小目標(biāo)相似度較大,基于激光雷達(dá)的3D目標(biāo)檢測(cè)算法經(jīng)常會(huì)出現(xiàn)誤檢或漏檢現(xiàn)象,但是相對(duì)距離較近的目標(biāo)檢測(cè)的精度較高.基于立體視覺的3D目標(biāo)檢測(cè)雖然能夠得到目標(biāo)的深度信息,但是需要逐像素匹配,計(jì)算復(fù)雜度較高,目前一般達(dá)不到實(shí)時(shí)性要求.此外,相機(jī)的基線長度限制了測(cè)距范圍.基于多傳感器融合的3D目標(biāo)檢查算法能夠結(jié)合相機(jī)高分辨的特征、激光雷達(dá)或毫米波雷達(dá)的精確深度特征,提高了遠(yuǎn)距離小目標(biāo)的檢測(cè)精度.此外,基于相機(jī)的目標(biāo)檢測(cè)能夠?yàn)楹罄m(xù)的3D目標(biāo)檢測(cè)提供初始候選區(qū)域,減少激光雷達(dá)檢測(cè)的搜索區(qū)域,提高了3D目標(biāo)檢測(cè)的速度.4種檢測(cè)方法的均值平均精度(Mean Average Precision,mAP)如表1所示.
表1 3D目標(biāo)檢測(cè)方法對(duì)比
3D目標(biāo)檢測(cè)是地面無人平臺(tái)環(huán)境感知能力的關(guān)鍵技術(shù),提高算法的速度、精度和魯棒性是今后的重點(diǎn)研究內(nèi)容.本研究在單目相機(jī)、激光雷達(dá)、多傳感器融合和立體視覺4個(gè)維度對(duì)當(dāng)前的3D目標(biāo)檢測(cè)算法進(jìn)行了研究,并且詳細(xì)比較了不同方法的執(zhí)行細(xì)節(jié)和優(yōu)缺點(diǎn),認(rèn)為采用神經(jīng)網(wǎng)絡(luò)算法或卡爾曼濾波、粒子濾波等算法融合圖像特征和點(diǎn)云特征是3D目標(biāo)檢測(cè)的重要研究方向.