何鴻添 陳晗 劉洋 周禮亮 張敏 雷印杰
摘 要:三維視覺理解旨在智能地感知和解釋三維場景,實現對物體、環(huán)境和動態(tài)變化的深入理解與分析。三維目標檢測作為其核心技術,發(fā)揮著不可或缺的作用。針對當前的三維檢測算法對于遠距離目標和小目標檢測精度較低的問題,提出了一種面向多模態(tài)交互式融合與漸進式優(yōu)化的三維目標檢測方法MIFPR。在特征提取階段,首先引入自適應門控信息融合模塊。通過把點云的幾何特征融入圖像特征中,能夠獲取對光照變化更有辨別力的圖像表示。隨后提出基于體素質心的可變形跨模態(tài)注意力模塊,以驅使圖像中豐富的語義特征和上下文信息融合到點云特征中。在目標框優(yōu)化階段,提出漸進式注意力模塊,通過學習、聚合不同階段的特征,不斷增強模型對于精細化特征的提取與建模能力,逐步優(yōu)化目標框,以提升對于遠距離、小目標的檢測精度,進而提高對于視覺場景理解的能力。在KITTI數據集上,所提方法對于pedestrian和cyclist等小目標的檢測精度較最優(yōu)基線有明顯提升,證實了該方法的有效性。
關鍵詞:三維視覺理解; 多模態(tài); 交互式融合; 漸進式注意力; 目標檢測
中圖分類號:TP391 文獻標志碼:A?文章編號:1001-3695(2024)05-039-1554-08
doi:10.19734/j.issn.1001-3695.2023.08.0383
3D visual understanding oriented towards multimodal interactivefusion and progressive refinement
Abstract:3D visual understanding aims to intelligently perceive and interpret 3D scenes, achieving a profound understanding and analysis of objects, environment, and dynamic changes. As its core technology, 3D object detection plays an indispensable role. For the problem of low detection accuracy of distant targets and small targets in current 3D detection algorithms, this paper proposed a 3D object detection method called MIFPR, which was oriented towards multimodal interactive fusion and progressive refinement. In the feature extraction stage, this algorithm introduced an adaptive gated information fusion module firstly. Incorporating the geometric features of the point cloud into the image features results in a more discriminative image representation for handling variations in lighting conditions. Subsequently, the proposed voxel centroid-based deformable cross-modal attention module was to drive the fusion of rich semantic features and contextual information from images into the point cloud features. During the proposal refinement stage, this algorithm introduced a progressive attention module. By learning and aggregating features from different stages, it continuously enhanced the models ability to extract and model fine-grained features, progressively refining bounding boxes. This gradual refinement of the proposal helps improve the detection accuracy of distant and small objects, thereby enhancing the overall capability of visual scene understanding. The proposed method shows significant improvement in the detection accuracy of small objects like pedestrian and cyclist on the KITTI dataset compared to the state-of-the-art baseline. This confirms the effectiveness of the proposed approach.
Key words:3D visual understanding; multimodal; interactive fusion; progressive attention; object detection
0 引言
三維視覺理解旨在讓機器能夠像人類一樣準確地感知和理解三維世界。它通過分析傳感器數據,獲取物體的位置、形狀、大小和類別等信息,構建對真實場景的高維度認知模型。在自動駕駛領域,三維視覺理解顯得尤為重要,因為它能賦予無人駕駛車輛靈敏的場景理解能力,使之能夠實時準確地感知交通參與者、行人、障礙物以及道路標識等關鍵目標,從而提高駕駛的安全性和決策的效率。目標檢測作為三維視覺理解的核心技術,其對物體的識別與定位,以及后續(xù)的碰撞避免、路徑規(guī)劃、運動預測等有著重要指導作用[1],對于三維視覺場景的理解至關重要。
隨著深度學習與計算機視覺領域的飛速發(fā)展,研究和技術人員已經在三維目標檢測領域開展了廣泛的研究,提出了許多先進的檢測方法,目標檢測的精度也在不斷提升。由于僅采用激光雷達(LiDAR)點云的單模態(tài)三維目標檢測方法缺乏紋理、色彩與上下文信息,且容易受到遮擋,導致在很多場景下的檢測精度不佳,所以目前主流的三維目標檢測方法大多是基于點云與圖像的多模態(tài)融合的。
然而,現有的多模態(tài)三維目標檢測算法中,普遍存在一個現象,即對于近處的大目標檢測精確度較高,但是對于遠距離的車輛(car),或者行人(pedestrian)、騎自行車的人(cyclist)等小目標的檢測性能較差??紤]到行人和騎自行車的人是道路上的弱勢交通參與者,其行為的不可預測性比汽車高,且更容易受到周圍環(huán)境的影響,準確地檢測和識別這些小目標,對于避免潛在的交通事故至關重要,尤其是在擁擠的城市街道和繁忙的路口。同樣地,正確地識別遠距離目標有助于提前預測交通流量和車輛行駛方向,從而作出更加智能的駕駛決策。在高速公路等場景中,遠距離汽車的檢測對于合理的車道變換和超車決策起著重要作用,有助于減少事故風險。
經過深入的分析,導致以上現象主要是由于現在的多模態(tài)檢測算法存在以下問題:
a)目前主流的多模態(tài)檢測方法通常都只是利用圖像特征來增強點云特征,特征的單向流動可能會導致兩種模態(tài)特征交互的不完全,從而無法充分地利用不同傳感器信息的互補性[2]。
b)現有的多模態(tài)融合檢測方法大多是將圖像特征通過投影矩陣以逐點或逐體素的方式與點云特征進行加權融合。這種融合方式雖然在像素級進行了精細的特征聚合,但是會由于融合點的稀疏性而丟失圖像特征中的密集模式(即破壞了圖像特征的語義一致性),因為單一像素中包含的語義信息和特征較少,且無法建模與鄰域像素的關聯關系,最終多模態(tài)融合的效果不理想。
c)常見的兩階段三維目標檢測方法在目標框優(yōu)化(proposals refinement)階段都是使用的單個優(yōu)化網絡。然而LiDAR在掃描時,得到的點云質量可能因為物體大小和距離的不同而有所差異。受掃描角度和距離等因素的影響,點云中不同物體的分布也存在較大差異,對于遮擋或較遠的物體,點云可能會出現較多的缺失點。在這種復雜的場景下,目標框優(yōu)化階段采用單個網絡來進行預測和回歸,導致模型對于精細化特征的學習能力比較有限,無法較好地檢測出較小的目標。
針對問題a)b),本文設計了多模態(tài)交互式融合網絡,點云特征首先通過門控信息融合自適應地對圖像進行增強,從而獲取更魯棒的圖像特征。接著提出了可變形跨模態(tài)注意力模塊,借助動態(tài)生成的采樣偏移,更好地聚合參考點周圍幾個關鍵點的特征,從而獲取更多的上下文信息和特征,實現更加充分的融合。通過雙向交互式的特征融合,實現了特征的雙向流動和相互轉換融合,解決了現有方法中特征單向流動所導致的不同模態(tài)特征交互不完全不充分的問題。針對問題c),在目標框優(yōu)化階段,提出了漸進式注意力模塊,通過逐步注入不同子優(yōu)化階段的特征,實現特征的聚合,進一步提升模型對于精細化特征的提取能力,不斷優(yōu)化以生成高質量的三維目標框,從而提升對于小目標的檢測精度。
本文主要貢獻如下:
a)在特征提取階段,提出了多模態(tài)交互式融合網絡(multimodal interactive fusion network,MIF-Net),通過自適應門控信息融合(adaptive gated information fusion,AGIF)模塊與可變形跨模態(tài)注意力(deformable cross-modal attention,DCMA)模塊,實現了級聯的雙向特征交互,為三維目標檢測提供了更全面更魯棒的特征表示。
b)在目標框優(yōu)化階段,設計了漸進式注意力模塊,利用多個子優(yōu)化階段的結構來替代傳統(tǒng)的單個網絡結構,通過不斷學習、聚合不同階段的特征,增強模型對于細微特征的捕獲能力與建模能力。
c)在廣泛使用的KITTI公開數據集上定量、定性地評估了本文方法。在驗證集和測試集上,本文方法對于所有目標的平均檢測精度(mean average precision,mAP)分別達到了80.54%和60.57% AP,均超過了現有的其他三維目標檢測方法,尤其是對于遠距離目標和小目標,相比現有方法,檢測精度提升更明顯,充分證明了本文方法的有效性。
1 相關工作
三維視覺理解是利用三維場景中的信息進行分析和推理,以實現對環(huán)境中三維目標的智能感知與認知,即實現三維目標檢測與識別。本文將從基于點云的單模態(tài)三維目標檢測方法、基于圖像-點云融合的多模態(tài)三維目標檢測方法及基于多階段優(yōu)化的目標檢測方法三個方面進行概述。
1.1 基于點云的單模態(tài)三維目標檢測
由于LiDAR點云能夠反映物體在三維空間中的位置,且不容易受光照變化的影響,相比相機圖像具有更高的穩(wěn)定性和可靠性,所以近年來基于點云的單模態(tài)三維目標檢測技術受到了廣泛關注,大批研究人員進行了深入研究,并取得了豐富的研究成果。Qi等人[3,4]率先提出的PointNet和PointNet++,通過使用原始點云數據作為輸入來處理點云的不規(guī)則性。Zhou等人[5]提出的VoxelNet,將點云劃分為體素(voxel),并使用堆疊的體素特征編碼層來提取體素特征。進一步地,Zheng等人[6]提出了SE-SSD,模型包括一個教師網絡和一個學生網絡,通過引入知識蒸餾的思想,在保持效率的同時,提升了檢測性能。 Shi等人[7]提出了直接使用點云進行檢測的網絡模型PointRCNN,利用文獻[4]的網絡來學習與以自下而上的方式生成的三維目標邊界框前景點相關的語義線索。同年,Shi等人[8]深度整合了三維稀疏卷積的有效性和類似于文獻[4]的集合抽象靈活的感受野,提出了PV-RCNN模型,以學習更多的判別語義;Sheng等人[9]提出的模型CT3D設計了一個區(qū)域到點的編碼,同時考慮到編碼點的全局和局部通道特性,采用了通道重加權的方法來增強標準Transformer解碼器,以擴大特征解碼空間,從而提高目標檢測的精度。
盡管點云包含了豐富的幾何信息,但是由于其是無序且非結構化的[10],所以在不同物體相對傳感器的空間距離、位姿角度不同的情況下,物體表面的密度、點數和空間關系存在一定差異,存在固有的稀疏特性[11],造成了信息的不完整與數據密度的不均勻。相比之下,二維的圖像中的像素密集且布局緊湊,能夠提供更稠密、精細的紋理信息和語義特征,但受限于輸入模態(tài)的單一性,導致基于點云的單模態(tài)三維檢測方法對于遠距離目標和小目標的檢測精度較低。
1.2 基于圖像-點云融合的多模態(tài)三維目標檢測
考慮到不同傳感器之間往往存在互補性[12],研究人員考慮通過利用相機圖像和激光雷達點云的信息互補來提升檢測模型的精確度和魯棒性,進行了大量研究和探索。迄今為止,已經提出了一系列基于圖像與點云融合的多模態(tài)三維目標檢測方法[13~20]。這些方法按照融合時機和位置的不同,可以分成早期融合(early fusion)、中期融合(middle fusion)和晚期融合(late fusion)三種。
基于早期融合的方法[13,14],指的是在點云進入三維目標檢測器之前,將圖像的知識整合到點云當中。為了能夠充分利用原始表示,Qi等人[13]提出了F-PointNet模型,首先將圖像通過二維檢測器生成二維邊界框并擠壓成三維視錐體(frustum),然后將這些視錐區(qū)域應用于激光雷達點云,減少了搜索范圍。Vora等人[14]提出的PointPainting模型,把圖像通過語義分割網絡獲得逐像素的語義標簽,隨后通過投影將語義標簽附加到三維點云上來豐富點云特征,從而提高檢測精度。
基于中期融合的方法[15~19]通常在三維目標檢測器的骨干網絡、候選目標框生成階段或RoI細化階段融合圖像特征和點云特征。文獻[15,16]先后提出了EPNet和EPNet++,以逐點的方式增強具有不同分辨率級別的圖像特征的點特征的語義信息。Chen等人[17]提出了網絡模型Focals,通過把體素的中心投影到圖像上,應用焦點稀疏卷積(focal sparse convolution),對重要性大于閾值的體素融合對應像素的圖像特征。Zhang等人[18]提出Faraway-Frustum,首先對相機圖像進行實例分割,進而通過轉換矩陣得到某個目標對應的視錐區(qū)域內點云,通過聚類算法估計質心,以獲取目標的深度值,從而回歸三維目標邊界框。Wang等人[19]提出了PA3DNet,設計了偽形狀分割,減少了多模態(tài)融合方法對不同傳感器標簽的依賴。
基于晚期融合的方法[20]對來自三維目標檢測器和基于圖像的二維目標檢測器的輸出進行操作。通過融合二維和三維邊界框融合以產生更準確的三維檢測結果。Pang等人[20]提出CLOCs,通過引入一個包含成對的2D-3D邊界框的稀疏張量,并從這個稀疏張量中學習最終的目標置信度分數。
早期融合的方法通常以順序的方式進行多模態(tài)融合和三維目標檢測,且需要利用復雜的二維檢測或語義分割網絡,從而造成了額外的推理延遲。晚期融合的方法側重于實例級聚合,只對不同模態(tài)的輸出進行多模態(tài)融合,無法整合不同模態(tài)的深度特征和豐富的語義信息。中期融合的方法能夠更深入地聚合多模態(tài)的特征表示,從而更好地實現不同模態(tài)特征信息的互補。為了能夠更充分地利用更稠密、更細粒度的圖像特征,實現不同模態(tài)之間的融合增強,本文方法采用中期融合的方法來實現圖像和點云的多模態(tài)特征融合。
1.3 基于多階段優(yōu)化的目標檢測
受到分而治之(divide and conquer)哲學理論的啟發(fā),帶有級聯檢測器的多階段目標檢測方法[21~23]引起了越來越多的關注。Cai等人[21]首先將這種思想運用于二維目標檢測當中,提出了Cascade R-CNN模型,設計了一系列用遞增IoU閾值訓練的級聯檢測器,每個階段檢測器的輸出被饋送到下一階段,以迭代地細化邊界框。Wu等人[22]將多階段子網絡級聯的思想運用到三維目標檢測當中,提出了CasA,利用注意力機制來級聯多個子網絡,從而逐步細化目標框。Cai等人[23]以級聯范式分配多個基于體素化點云的檢測器,提出了3D Cascade RCNN,根據點的稀疏度級別重新加權每個目標框的任務權重,以增強優(yōu)化網絡的學習能力。
多階段優(yōu)化的方法已經被廣泛探索并證明在二維目標檢測中是有效的,然而針對三維點云的研究仍處于起步發(fā)展階段。本文將在三維目標檢測上開展多階段優(yōu)化方法的研究。
2 本文方法
在特征提取階段,為了解決現有方法中多模態(tài)特征的單向流動導致的不同傳感器信息交互不完全的問題,提出了多模態(tài)交互式融合網絡(multimodal interactive fusion network,MIF-Net)。首先對點云特征進行投影,通過自適應門控信息融合模塊計算相關權重,動態(tài)地將點云特征融合到圖像特征中,實現圖像特征的增強。隨后針對主流方法采用逐點/逐體素進行特征融合時,由于點云稀疏性而導致圖像語義特征一致性被破壞的問題,提出了可變形跨模態(tài)注意力模塊,通過計算每個非空體素的質心在圖像特征圖(feature map)上的參考點,學習自適應的偏移和權重,靈活地感知參考點周圍不同像素的相關性,通過可變形跨模態(tài)注意力實現圖像特征與點云特征的深度融合。接下來,將融合特征通過候選區(qū)域生成網絡(region proposal network,RPN)生成3D候選目標框,并送入目標框優(yōu)化網絡(proposal refinement network,PRN)。
在目標框優(yōu)化階段,為了解決傳統(tǒng)方法采用單個優(yōu)化網絡導致對于細微特征學習能力不足的問題,提出了漸進式注意力模塊。通過逐步學習與聚合不同階段的特征,提升模型對于精細化特征的提取能力,不斷優(yōu)化3D邊界框,以生成最終準確的3D邊界框預測。
2.1 多模態(tài)交互式融合
現有的多模態(tài)三維目標檢測器[15,17,24,25]大多都是利用圖像特征以逐點、逐體素進行通道融合或采取注意力的方式來增強點云特征。這些方法雖然能從圖像中提取出語義特征并聚合到點云特征中,但是不同模態(tài)特征的單向流動可能會導致信息交互的不完全,無法充分地利用不同傳感器信息的互補性。針對這個問題,在特征提取階段,本文設計了多模態(tài)交互式融合網絡,主要包括兩個部分:自適應門控信息融合模塊與可變形跨模態(tài)注意力模塊。通過從點云到圖像和從圖像到點云的雙向特征交互融合,有助于獲取對光照變化更有辨別力的圖像表示,同時增強后的圖像特征能夠給點云特征帶來更豐富、更魯棒的紋理、上下文信息與語義特征,從而增強目標檢測的精確度。
2.1.1 自適應門控信息融合
為了能夠把點云的幾何信息融入圖像特征中,實現圖像的增強,從而獲取更魯棒的圖像特征,受文獻[26]啟發(fā),本文設計了一個自適應門控信息融合模塊。具體結構如圖2所示。
該模塊首先把經3D骨干網絡提取的體素化點云特征投影到相機域中,得到點云投影特征Fv-cam。將其與經2D骨干網絡提取的圖像特征Fc點乘后,分別通過兩個二維卷積層得到兩個權重wv和wc。將權重圖分別與Fv-cam和Fc逐元素相乘得到兩個模態(tài)的加權特征圖Fw-v和Fw-c,最后將兩者拼接后生成圖像增強特征圖Fc-enhanced。自適應門控信息融合操作的公式如下:
2.1.2 可變形跨模態(tài)注意力
雖然通過逐點/逐體素來加權融合圖像對應像素點特征的方法[15~17]計算相對簡單,但是單一像素中包含的信息和特征較少,且無法獲取鄰域像素的關聯關系,這對于遠距離目標和小目標的學習很不友好。為了解決以上問題,受文獻[27,28]啟發(fā),本文提出了基于體素質心的可變形跨模態(tài)注意力模塊,結構如圖3所示。
經3D骨干網絡提取的點云特征,選取其中的非空體素,通過計算體素的質心Vicentroid來表示每個體素特征的位置,計算公式如下:
其中:n為非空體素內的點數量。
隨后利用相機投影矩陣Euclid Math OneMApcam-lidar計算體素質心在圖像平面的參考點Pi。
其中:RC為校準旋轉矩陣和相機標定矩陣的組合。
其中:Wm和W′m是可學習的權重值;M是自注意力的頭數;K為參考點附近采樣點的個數;ΔPmqk表示第m個注意力頭中第k個采樣點的采樣偏移量;Amqk是一個用于在聚合圖像特征上生成注意力分數的多層感知機(multilayer perceptron,MLP),在本文中,與文獻[27]一致,k取為4。
通過可變形跨模態(tài)注意力模塊,可以增強點云特征對于參考點周圍像素的感知能力與建模能力,獲取更多上下文信息。經圖像增強后的點云特征與原始點云特征拼接后得到最終的融合體素特征Fv-enhanced。遵循文獻[17,29]的操作,把Fv-enhanced送入RPN中進行進一步處理。首先把融合體素特征在Z軸方向進行壓縮,通過2D特征提取網絡鳥瞰圖(birds eye view,BEV)特征圖,然后使用兩個預測頭來分別預測類別和回歸邊界框,以生成3D候選目標框,用于后續(xù)的目標框優(yōu)化。
2.2 漸進式注意力優(yōu)化
目前大多數的兩階段三維目標檢測器,在目標框優(yōu)化階段均采用單個網絡對3D邊界框進行一次回歸。在這種情況下,用低IoU閾值(如0.5)訓練的目標檢測器通常會產生噪聲檢測,并且隨著IoU閾值的提升,檢測器性能會呈下降趨勢,對于小目標的學習能力會變弱,難以適應較為復雜的場景。受文獻[22]的啟發(fā),本文設計了漸進式注意力模塊(progressive attention module,PAM)來解決這個問題。
不同于現有的多級二維目標檢測網絡[21]中,僅通過簡單的級聯結構來聚合每個單獨子網絡進而細化邊界框,漸進式注意力模塊通過逐漸注入不同階段的特征,并利用注意力機制[30]來學習不同階段特征的重要性并不斷聚合,循序漸進地優(yōu)化目標框,以生成最終的3D目標檢測,具體結構如圖4所示。
其中:h為多頭注意力的頭數;s∈{1,2,…,S}表示第s個子優(yōu)化階段;dk是一個縮放因子。
最后一個階段的特征分別經過兩個全連接層來實現置信度預測和最終的目標框回歸。
2.3 網絡訓練與推理
其中:α是平衡不同損失的超參數,在本文的實驗中設置為1。
與文獻[17,29]類似,本文將RPN損失設計為分類損失和候選目標框回歸損失的組合:
在驗證階段,通過調用訓練階段的最優(yōu)模型來進行推理,以得到最終的3D預測結果。
3 實驗與結果分析
3.1 數據集與評價指標
本文使用KITTI[31]公開數據集驗證所提模型的有效性。KITTI數據集是由德國卡爾斯魯厄理工學院和豐田工業(yè)大學芝加哥分校聯合贊助的用于自動駕駛領域研究的數據集,由一個64線的激光雷達和兩個攝像頭傳感器進行采集,被廣泛應用于三維目標檢測任務。該數據集包括7 481個訓練樣本和7 518個測試樣本,遵循與文獻[15~17,21,22]相同的數據集劃分規(guī)范,將7 481個訓練樣本劃分為訓練集(3 712個)和驗證集(3 769個)。由于7 518個測試樣本沒有公開的標簽,所以,本文不僅在測試集上驗證了模型的性能,還通過KITTI官方,在測試集上進行了評估。
沿用與先前方法[15~17,21,22]相同的評估指標,即計算40召回閾值(R40)下的平均精度AP3D。在該指標中,car、pedestrian和cyclist的IoU閾值分別為0.7、0.5和0.5。
3.2 實驗環(huán)境與實施細節(jié)
本文實驗在Ubuntu 18.04系統(tǒng)下進行,采用PyTorch 1.7深度學習框架,硬件配置為NVIDIA GeForce RTX 3090,24 GB顯存,Intel Xeon CPU E5-2630 v4 @ 2.20 GHz×40,256 GB RAM。
訓練過程中參數設置如下:采用adam_onecycle優(yōu)化器,初始學習率0.01,權重衰減系數0.000 000 1,訓練80個epoch,批量大小2。
本文選用文獻[17]作為baseline。點云的取值范圍沿X、Y、Z軸分別為(0,70.4)(-40,40)和(-3,1)。初始化階段進行點云體素化,每個體素大小為0.05 m×0.05 m×0.05 m。在實驗訓練和驗證推理階段,輸入圖像的大小為375×1242,使用在COCO數據集上預訓練的DeepLabV3[32]骨干網絡來進行圖像特征的提取。本文采用了三個子優(yōu)化階段(即三個漸進式注意力模塊),其中多頭注意力的頭數為4。
在訓練階段,對于car、pedestrian和cyclist目標, 前景和背景分類IoU thresholds在每個子優(yōu)化階段保持一致,θH設為u=0.75,0.65,0.65,θL設為u=0.25,0.15,0.15。邊界框回歸IoU thresholds隨著子優(yōu)化階段的增加而逐漸增大。對于car目標,θreg設置為u=0.5,0.55,0.6,對于pedestrian和cyclist目標,θreg均設置為u=0.45,0.5,0.55。
3.3 實驗結果分析
3.3.1 對比實驗
為了驗證本文方法的有效性,在KITTI數據集上與近幾年三維目標檢測的一些SOTA算法進行了比較。表1、2總結了在40召回率下,簡單(easy)、中等(moderate)和困難(hard)三種不同難度樣本的檢測精度,其中包括了基于點云的單模態(tài)方法和基于圖像-點云融合的多模態(tài)方法。其中modality中,L表示僅采用LiDAR點云作為輸入,L+I表示采用LiDAR點云與相機圖像作為輸入。
表1顯示了在KITTI驗證集上的檢測結果。本文方法對中等難度的car和cyclist的檢測精度分別比baseline(Focals)提升1.75%和4.55%,pedestrian類別的檢測精度更是提升了10.43%。pedestrian和cyclist兩個類別不同難度的樣本檢測精度均超過了其他SOTA算法。car類別的困難樣本檢測精度達到了最佳,簡單和中等樣本雖然沒有取得最高的精度,但是相對其他多模態(tài)方法,也有較好的檢測性能。在KITTI驗證集上,所有樣本的平均精度(mAP)比第二名的PA3DNet[18]高出了4.06%。表2顯示了在KITTI測試集上的檢測結果。本文方法對于car的簡單和困難樣本,檢測精度分別比baseline提升0.18%和0.31%,car所有樣本的平均精度(mAP)比baseline提升0.17%。與表現最好的方法EPNet++相比,本文方法對于car的困難樣本,pedestrian的簡單樣本以及cyclist的所有難度樣本的檢測精度分別超出1.19%、0.41%、4.21%、5.27%和6.73%,所有樣本的平均精度(mAP)達到了65.7%,比EPNet++高出1.47%。
可以看到,本文方法對于pedestrian和cyclist等小目標,以及car的困難目標的精測精度提升比較明顯。提升主要來自于設計的多模態(tài)交互式融合網絡以及漸進式注意力模塊,將點云的幾何特征與相機圖像語義、紋理、色彩信息充分融合的同時,在目標框優(yōu)化階段增強了對于精細特征的提取能力,從而提升了對于遠距離目標和小目標的學習能力以及對三維視覺場景的理解能力、感知能力。
此外,本文將部分實驗結果可視化,以進一步展示模型的性能,如圖5所示。從圖5(a)可以發(fā)現,對比同樣是采用多模態(tài)雙向特征融合的EPNet++,本文方法能夠檢測出EPNet++漏檢的遠端的pedestrian目標。這是由于提出的漸進式注意力模塊能夠通過聚合多個子網絡的特征,不斷提升模型對于細微特征的提取能力和聚合能力,從而增強小目標的檢測精度。
從圖5(b)(c)可以發(fā)現,本文方法可以在光線較強或者較暗的情況下,檢測出Focals漏檢的遠端的car目標。這是由于自適應門控信息融合模塊首先利用點云特征對圖像特征進行了增強,從而獲取了對光照變化更魯棒的圖像特征表示,同時增強后的圖像特征能給點云特征帶來更準確、更有辨別力的語義特征。從圖5(d)可以發(fā)現,本文方法能夠檢測出單模態(tài)方法PV-RCNN漏檢的car目標。這是由于本文設計的多模態(tài)交互式融合網絡,通過引入稠密的圖像特征來彌補單模態(tài)點云在遮擋比較嚴重的情況下,由于點云缺失或密度低而導致的漏檢問題。
由此可見,本文方法能夠充分利用圖像的語義信息來豐富點云特征,以獲取更深層次的語義信息和上下文信息,并在邊界框細化階段增強網絡的學習能力與建模能力,從而提升對于遠距離目標及小目標的檢測性能。
3.3.2 消融實驗
1)不同模塊貢獻消融 本文針對AGIF、DCMA和PAM三個模塊,以AP3D (R40)作為評價指標,在KITTI驗證集上針對中等難度(moderate)樣本的檢測精度進行了6組消融實驗,結果如表3所示。
由1、2組實驗和4、5組實驗分析可知,DCMA模塊通過有效地把圖像特征豐富的語義特征與紋理信息融合到點云特征中,從而提高檢測的性能;由2、3組實驗和5、6組實驗分析可知,僅采用DCMA模塊進行多模態(tài)特征單向流動的特征融合,雖然能提升檢測精度,但是有點過于直接,AGIF模塊能夠在圖像特征融合到點云特征前,首先用點云特征自適應地對圖像特征進行增強,從而產生更具有辨識力的圖像特征,進而取得更佳的檢測效果;由1、3組實驗分析可知,PAM模塊能夠讓模型學習、聚合不同細化階段之間的特征,從而增強模型對于局部細節(jié)特征的建模能力,以提高檢測的準確率。
2)不同距離目標檢測消融 本文將KITTI驗證集的目標劃分成四個距離區(qū)間(0~10 m)(10~20 m)(20~30 m)和(>30 m),對比本文方法與baseline對于不同類別的中等難度目標,在不同距離范圍內的檢測精度及所有樣本的平均精度,如圖6所示。
由圖6可知,對于超過30 m的遠距離car目標,檢測精度比baseline提升了6.27%;對于pedestrian和cyclist目標,在0~10 m,10~20 m,20~30 m和>30 m內,本文方法分別提升了9.76%、17.88%、9.71%、4.87%和4.36%、1.8%、4.39%、3.65%。
由此可見,本文方法對于car、pedestrian和cyclist,在不同距離范圍內的檢測精度均有提升。尤其是對于pedestrian和cyclist等小目標及遠距離car目標的檢測性能提升更為明顯。
3)子優(yōu)化階段數量消融 對于在邊界框細化階段選用多少個子優(yōu)化階段,本文在KITTI驗證集上進行了消融實驗,如表4所示??梢园l(fā)現,采用多個子優(yōu)化階段漸進式地細化目標框,能夠有效提升三維目標檢測的性能,其中選用3個子優(yōu)化階段與4個子優(yōu)化階段,對于car和pedestrian的檢測性能非常接近,但是對于cyclist目標,采用3個子優(yōu)化階段的性能更佳,這可能是由于模型出現過擬合的結果。為了節(jié)省顯存與計算資源,獲得更高的三維目標檢測精度,本文采用了3個子優(yōu)化階段。
4 結束語
本文提出了一種面向多模態(tài)交互式融合與漸進式優(yōu)化的三維目標檢測方法MIFPR,設計了一種從點云到圖像和從圖像到點云的多模態(tài)雙向交互式融合網絡。在特征提取階段,通過自適應門控信息融合模塊來實現點云特征對于圖像特征的增強;通過基于體素質心的可變形跨模態(tài)注意力模塊來將圖像中的語義信息、紋理特征融合到點云特征中,使得點云的特征更加豐富,更具有泛化性。在目標框優(yōu)化階段,通過漸進式注意力模塊,能夠逐步增強模型對于精細化特征的提取能力,提升對于遠距離目標和小目標的學習能力與檢測精度,從而提高對于三維視覺場景的理解與感知能力。為了驗證本文方法的有效性,在KITTI驗證集和測試集上分別與現有的SOTA檢測算法進行對比實驗,實驗結果表明,本文方法在KITTI測試集上,所有目標的平均檢測精度(mAP)達到了65.7%。在KITTI驗證集上,mAP達到了80.54%,尤其是針對pedestrian和cyclist等小目標,檢測指標超過了現有的其他三維目標檢測方法,證實了本文方法的有效性。
參考文獻:
[1]Qian Rui, Lai Xin, Li Xirong. 3D object detection for autonomous driving:a survey[J]. Pattern Recognition, 2022,130: 108796.
[2]李佳男, 王澤, 許廷發(fā). 基于點云數據的三維目標檢測技術研究進展[J]. 光學學報, 2023,43(15):296-312. (Li Jianan, Wang Ze, Xu Tingfa. A survey on 3D object detection in point clouds[J]. Acta Optica Sinica, 2023,43(15):296-312.)
[3]Qi C R, Su Hao, Mo Kaichun, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2017: 652-660.
[4]Qi C R, Yi Li, Su Hao, et al. PointNet+: deep hierarchical feature learning on point sets in a metric space[C]//Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5099-5108.
[5]Zhou Yin, Tuzel O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 4490-4499.
[6]Zheng Wu, Tang Weiliang, Jiang Li, et al. SE-SSD: self-ensembling single-stage object detector from point cloud[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14494-14503.
[7]Shi Shaoshuai, Wang Xiaogang, Li Hongsheng. PointRCNN: 3D object proposal generation and detection from point cloud[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 770-779.
[8]Shi Shaoshuai, Guo Chaoxu, Jiang Li, et al. PV-RCNN: point-voxel feature set abstraction for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2020: 10529-10538.
[9]Sheng Hualian, Cai Sijia, Liu Yuan, et al. Improving 3D object detection with channel-wise transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 2743-2752.
[10]霍威樂, 荊濤, 任爽. 面向自動駕駛的三維目標檢測綜述[J]. 計算機科學, 2023,50(7):107-118. (Huo Weile, Jing Tao, Ren Shuang. Review of 3D object detection for autonomous driving[J]. Computer Science, 2023,50(7): 107-118.)
[11]郭毅鋒, 吳帝浩, 魏青民. 基于深度學習的點云三維目標檢測方法綜述[J]. 計算機應用研究, 2023,40(1): 20-27. (Guo Yifeng, Wu Dihao, Wei Qingmin. Overview of single-sensor and multi-sensor point cloud 3D target detection methods[J]. Application Research of Computers, 2022,40(1): 20-27.)
[12]張新鈺, 鄒鎮(zhèn)洪, 李志偉, 等. 面向自動駕駛目標檢測的深度多模態(tài)融合技術[J]. 智能系統(tǒng)學報, 2020,15(4): 758-771. (Zhang Xinyu, Zou Zhenhong, Li Zhiwei, et al. Deep multi-modal fusion in object detection for autonomous driving[J]. CAAI Trans on Intelligent Systems, 2020,15(4): 758-771.)
[13]Qi C R, Liu Wei, Wu Chenxia, et al. Frustum PointNets for 3D object detection from RGB-D data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 918-927.
[14]Vora S, Lang A H, Helou B, et al. PointPainting: sequential fusion for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 4604-4612.
[15]Huang Tengteng, Liu Zhe, Chen Xiwu, et al. EPNet: enhancing point features with image semantics for 3D object detection[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 35-52.
[16]Liu Zhe, Huang Tengeng, Li Bingling, et al. EPNet+: cascade bi-directional fusion for multi-modal 3D object detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,45(7): 8324-8341.
[17]Chen Yukang, Li Yanwei, Zhang Xiangyu, et al. Focal sparse convolutional networks for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5428-5437.
[18]Zhang Haolin, Yang Dongfang, Yurtsever E, et al. Faraway-Frustum: dealing with lidar sparsity for 3D object detection using fusion[C]//Proc of IEEE International Intelligent Transportation Systems Conference. Piscataway, NJ: IEEE Press, 2021: 2646-2652.
[19]Wang Meiling, Zhao Lin, Yue Yufeng. PA3DNet: 3-D vehicle detection with pseudo shape segmentation and adaptive camera-LiDAR fusion[J]. IEEE Trans on Industrial Informatics, 2023,19(11): 10693-10703.
[20]Pang Su, Morris D, Radha H. CLOCs: camera-LiDAR object candidates fusion for 3D object detection[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 10386-10393.
[21]Cai Zhaowei, Vasconcelos N. Cascade R-CNN: delving into high quality object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 6154-6162.
[22]Wu Hai, Deng Jinhao, Wen Chenglu, et al. CasA: a cascade attention network for 3-D object detection from LiDAR point clouds[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60:1-11.
[23]Cai Qi, Pan Yingwei, Yao Ting, et al. 3D cascade RCNN: high quality object detection in point clouds[J]. IEEE Trans on Image Processing, 2022,31: 5706-5719.
[24]Yoo J H, Kim Y, Kim J, et al. 3D-CVF: generating joint camera and LiDAR features using cross-view spatial feature fusion for 3D object detection[C]//Proc of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 720-736.
[25]Zhang Zehan, Shen Yuxi, Li Hao, et al. Maff-Net: filter false positive for 3D vehicle detection with multi-modal adaptive feature fusion[C]//Proc of International Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE Press, 2022: 369-376.
[26]Kim J, Koh J, Kim Y, et al. Robust deep multi-modal learning based on gated information fusion network[C]//Proc of Asian Confe-rence on Computer Vision. Cham: Springer, 2018: 90-106.
[27]Chen Zehui, Li Zhenyu, Zhang Shiquan, et al. Autoalignv2: defor-mable feature aggregation for dynamic multi-modal 3D object detection[C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 628-644.
[28]Zhu Xizhou, Su Weijie, Lu Lewei, et al. Deformable DETR: deformable transformers for end-to-end object detection[C]//Proc of International Conference on Learning Representations. 2020: 1-12.
[29]Deng Jiajun, Shi Shaoshuai, Li Peiwei, et al. Voxel R-CNN: towards high performance voxel-based 3D object detection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1201-1209.
[30]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5998-6008.
[31]Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 3354-3361.
[32]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 801-818.