摘要:隨著激光雷達傳感器的快速發(fā)展,目標檢測算法從傳統(tǒng)的2D 檢測快速轉向3D 檢測。然而,激光雷達產生的點云是不規(guī)則和非結構化的數據,傳統(tǒng)的卷積神經網絡無法對其進行處理?;诖颂岢隽艘环N新穎的圖卷積神經網絡,能夠更好地利用數據的幾何關系和拓撲結構直接從點云中學習特征以進行3D 目標檢測。首先將原始激光雷達點云數據進行下采樣,再進行固定半徑鄰域圖的構建,隨后設計了一個新型的圖卷積神經網絡對點云進行編碼來預測圖中每個頂點所屬對象的類別和形狀。為提升檢測準確度,網絡中加入了一種校準機制來減少特征在不同維度變化時引入的平移誤差,此外還引入了注意力機制,以使用權重來進一步強化輸出的頂點特征。在KITTI 數據集上進行實驗,實驗結果表明,此方法能夠有效對3D 目標進行檢測。對比其他多種檢測算法,此方法在檢測準確度上具有一定的優(yōu)勢。
關鍵詞:圖;圖卷積神經網絡;激光雷達點云;3D 目標檢測
中圖分類號:TP 391.4 文獻標志碼:A
目標檢測是自動駕駛汽車識別其行駛環(huán)境的基本要求。隨著能夠提供場景3D 幾何信息的激光雷達 (LiDAR) 傳感器的快速發(fā)展,目標檢測方案從傳統(tǒng)的2D 檢測迅速轉變?yōu)?D 檢測。早期的3D 目標檢測主要依賴于雙目立體匹配技術[1]。近年來,隨著基于卷積神經網絡 (CNN) 的深度學習技術的興起,現有的3D 目標檢測主要通過激光雷達點云數據結合深度學習方法[2] 來完成。
激光雷達可以提供場景的全景3D幾何信息。 然而,激光雷達產生的點云通常是稀疏的、不規(guī) 則的和非結構化的,被稱為非歐幾里得結構數 據,傳統(tǒng)卷積神經網絡無法直接對其進行處理。 圖卷積網絡(GCN)[3]充分利用了數據的幾何和拓 撲結構,已經被證明是一種處理非歐幾里德結構 數據的理想方法。對于輸人圖G,圖卷積運算F首 先聚合fc個最近鄰域節(jié)點特征Nk(v)到中心節(jié)點v的 特征,然后通過非線性激活函數更新這些聚合特 征。對于不規(guī)則的點云數據,圖卷積網絡有一個 天然的優(yōu)勢,就是可以將點云中的每個點都看成 圖的一個節(jié)點,將中心節(jié)點和它的鄰居的關系看 成邊。因此,圖卷積網絡可以直接作用于不規(guī)則 的點云,無需任何預處理,并保留所有原始特 征。借助圖卷積網絡的這些特性,本文使用圖卷 積網絡從激光雷達點云數據中學習特征,將圖卷 積神經網絡應用于3D目標檢測。
本文中,主要貢獻包括:1)實現了一種基于圖卷積神經網絡的3D 目標檢測方法,用于檢測道路交通場景中的汽車、行人以及騎行者。2)引入注意力機制以及坐標校準機制,在特征傳輸過程中對頂點特征進行細化以及減少鄰域相對坐標的位移誤差。3)使用KITTI 數據集進行實驗并分析結果,與現有其他方法進行對比分析,結果表明本文所提出方法能夠有效地以3 維的方式檢測出交通場景中的各類目標。
1 相關方法
根據對激光雷達點云處理的方式,現有的基于深度學習的3D 目標檢測方法可分為3 類:基于歐幾里得數據變換的方法、基于非歐幾里得數據的方法和基于點云?圖像融合的方法。
1.1 基于歐幾里得數據變換的方法
由于激光雷達點云的不規(guī)則性,傳統(tǒng)的卷積神經網絡無法直接應用。這類方法首先將不規(guī)則點云轉換為規(guī)則的歐幾里得數據,以便傳統(tǒng)的神經網絡對其進行處理。依據點云數據變換的方式,可分為基于投影的方法和基于網格的方法。
投影的方法是通過投影將不規(guī)則的3D 點云轉化為規(guī)則的2D 圖像數據,再使用2D 檢測器對其進行檢測,主要包括鳥瞰圖(BEV)投影、前視圖(FV)投影以及距離視圖(RV)投影。Meyer 等[4] 提出了基于RV 投影的LaserNet,它使用一個全卷積網絡進行端到端的訓練,以此來預測每個激光雷達點的類概率多模態(tài)分布,然后有效地融合這些多模態(tài)分布來生成網絡對每個對象的預測結果。Barrera 等[5] 提出了基于BEV 投影的BirdNet+, 它先將點云投影至BEV 視圖,然后進行端到端的目標檢測, 同時預測對象的置信度和邊界框。Yang 等[6] 提出了基于BEV 投影的PIXOR,該方法將點云進行離散化處理,并以類似的方式對反射率進行編碼,得到規(guī)則的表示,然后使用全卷積網絡進行目標檢測與定位。這種基于投影的的方法不可避免地將數據從高維轉到低維,造成信息的丟失,使檢測準確度無法進一步提升。
基于網格的方法是指將點云劃分為一個個等間距的規(guī)則體素單元,再使用標準向量表示其中的點,這樣就可以從每個體素內的點集中提取局部特征, 其優(yōu)勢在于可以顯著節(jié)省內存資源。Zhou 等[7] 提出了VoxelNet, 首先將點云劃分為3D 小立方體,再采用VEF(voxel feature encoding)網絡對體素中的特征進行編碼,最后使用3DRPN網絡進行檢測。Yan 等[8] 為解決VoxelNet 計算量過大的問題提出了SECOND, 該方法使用稀疏3D 卷積代替VoxelNet 中的3D 卷積,提高了檢測速度,降低了內存使用?;诰W格的檢測方法雖然可以取得良好的效果,但是,由于體素網格的立方體性質,點云表面很多特征都沒有辦法被表述出來,因此,模型效果難以進一步提升,同時該方案的時間和空間復雜度都十分高,計算代價昂貴。
1.2 基于非歐幾里得數據的方法
為了避免基于歐幾里得數據變換的方法中信息丟失的情況,這類基于非歐幾里得數據的方法設計特定的網絡,通過對不規(guī)則點云進行空間和對稱變換,將它們直接作為網絡的輸入。包括基于點和基于圖的方法。
Qi 等提出的PointNet[9]、PointNet++[10] 是基于點方法的先驅模型,它直接使用原始的不規(guī)則點云數據而不將其轉換為其他格式,因此近年來提出了一些基于PointNet 的3D 目標檢測方法。PointRCNN[11] 利用PointNet++作為骨干網絡來提取點特征并生成少量高質量的3D 提議,然后使用規(guī)范的3D 邊界框細化模塊進行細粒度的3D 邊界框預測。
近年來,圖網絡的出現為3D 目標檢測提供了新方向[12],圖網絡已被證明是處理3D 點云的有效方法,因此,基于圖方法的3D 目標檢測方法也越來越受到關注。Point-GNN[13] 首先將原始激光雷達點云編碼,通過迭代更新圖頂點提取點云特征,最后使用圖頂點分類方法預測物體的類別和形狀。PointRGCN[14] 也是一種基于圖的3D 對象檢測方法,它提出了2 個圖卷積分支用于目標提議細化,一個分支用于從每個單獨的提議中提取點特征,另一個用于從不同提議中共享上下文信息。
1.3 基于點云–圖像融合的方法
相機圖像可以提供豐富的二維場景語義信息,但深度信息捕獲能力通常較差。激光雷達點云可以提供3D 場景的全景表示并包含豐富的深度信息,但點云的分辨率總是比圖像差。因此,可以將這兩種數據組合在一起以進行更全面的3D 目標檢測。MV3D[15] 將激光雷達點云和相機RGB 圖像作為輸入,第一步生成不同類型的2D 對象提議,包括BEV、FV 和常規(guī)圖像提議,然后將這些不同的提議視圖組合為3D 邊界框提案。AVOD[16]與MV3D 的思路十分相似,可以說是MV3D 的升級版本,它在特征提取部分作了改進,使其顯著提高了小物體的檢測效果。F-PointNet [17] 提出了一種基于錐體的點云–圖像融合3D 檢測方法,它首先在圖像上生成一系列物體的2D 邊界框,然后將這些框投影到3D 點云空間中以獲得3D 視錐,之后將2 個PointNet 應用于3D 視錐體分割和3D 邊界框回歸。MLOD[18] 同樣將RGB 圖像和激光雷達點云作為輸入,首先使用區(qū)域提議網絡(RPN)在點云的鳥瞰視圖投影中生成3D 提議, 然后將3D 提議邊框投影到圖像和BEV 特征圖,并將相應的圖截取輸入到檢測頭,以進行分類和邊界框回歸。與其他方法不同,裁剪的圖像特征會使用深度信息將背景部分過濾,再輸入到檢測頭。
2 圖網絡原理
圖是一種對一組對象(節(jié)點) 及其關系(邊) 建模的非線性數據結構,如圖1 所示,相比于其他線性表甚至樹結構,它更復雜,也更抽象。圖結構可以用于儲存具有“多對多”邏輯關系的數據。圖結構是由頂點和邊構成的,頂點即為圖中的數據元素,邊為連接這些頂點的線,表示頂點間的關聯關系;所有的頂點構成一個集合,邊也構成一個集合,可以表示為
G = (V,E) (1)
式中:G表示圖;V為圖G中頂點的集合;E為圖 G中邊的集合。
作為典型的非歐幾里得數據結構,圖十分契合無序的點云,可以直接用于表示點云,因此,可以將圖數據直接作為網絡的輸入,進行目標檢測。圖神經網絡已經被證明是一種有效的點云處理方法。
圖神經網絡(GNN)[19] 由Scarselli 等在2009 年提出。在此方法中,圖中不同節(jié)點之間通過相互連接的邊進行特征更新,直至每個節(jié)點達到一個相對穩(wěn)定的狀態(tài),最后對節(jié)點特征進行綜合作為網絡的輸出。由于每一個節(jié)點都存在與其相連的鄰居節(jié)點,所以節(jié)點特征表示不僅包括自身節(jié)點特征,還包括其鄰居節(jié)點特征,可表示為
zi = f(li,"lN[i],"lE[i],"zN[i])(2)
式中:zi為節(jié)點i的狀態(tài)向量;li為節(jié)點i的標簽; lN[i]為與節(jié)點i相連的鄰居節(jié)點的標簽;lE[i]為與節(jié) 點i相連的邊的標簽;zN[i]為節(jié)點i相連鄰居節(jié)點在 上一時間狀態(tài)的特征。
圖卷積神經網絡 [20] 由Thomas 等在2017 年提出,它結合了卷積神經網絡與圖神經網絡,是一種能對圖數據進行深度學習的方法。圖卷積神經網絡目前主要分為兩類:基于譜方法的圖卷積神經網絡模型和基于時空域的圖卷積神經網絡模型。
圖卷積神經網絡希望解決以圖G = (V,E)作為輸 入時的特征提取問題。將每一個節(jié)點Vi的特征匯總 可得到一個NxD的特征矩陣X,其中,N為節(jié)點 數,D為輸入特征數,輸出可表示為一個節(jié)點級輸 出Z(—個NxF特征矩陣,其中,F為每個節(jié)點 的輸出特征數)。特征傳播機制概括了基于時空域 的圖卷積神經網絡模型[21]的核心思想,如圖2所示。
3 本文方法
本文方法框架如圖3 所示。首先對原始點云數據進行隨機下采樣,整體降低點云的數量,對下采樣后的點云再進行體素下采樣,選取體素質心點進行圖構建;再將構建好的點云作為網絡的輸入,以多層感知機( MLP)對點云進行特征提取,特征提取部分采取校準機制對頂點鄰域范圍內點的特征進行處理,同時使用注意力機制過濾噪聲點特征;最后對提取到的特征進行分類以及回歸預測,輸出包含目標類別與置信度和3D 邊界框的檢測結果。
3.1 點云數據預處理
對于激光雷達點云數據來說,一組數據中點的個數數量級約為105,使用所有的點進行圖的構建顯然是不現實的。如圖3 中數據預處理部分所示,首先采用隨機下采樣的方式對點云數據進行下采樣,在保證點云整體幾何特征不變的前提下降低點云的密度;與Point-GNN 類似,本文對隨機下采樣后的激光雷達點云進行體素下采樣再進行圖構建。將點云劃分為體素網格,取每個體素中所有點計算坐標平均值,以體素質心點表示每個體素,將體素質心點作為頂點進行圖構建,下采樣中使用的體素僅用來降低點云的密度,而不是用來表示點云。
根據前面對圖數據結構的介紹,本文采用固 定半徑近鄰搜索的方式進行圖的構建,定義點云 S = {s1,…,sN},其中,si = (xi,ai)是一個包含點 xi 的三維坐標以及反射的激光強度的向量。對點 云進行建圖,G = (S,E),S為頂點,E為點與半徑 r鄰域范圍內其他點建立的邊,可表示為
E = f( si,"s j )j ∥xi - xj∥2 lt; rg (3)
K 最近鄰(KNN)算法需要使用頂點與點云中其余每個點進行距離計算,它的計算復雜度與點云中點的個數成正比,因此,KNN 算法一般適用于樣本總量較少的情況。相比于KNN 算法,使用固定半徑近鄰搜索算法進行建圖可使時間復雜度降低到O(xN),x表示頂點在半徑r范圍內點的個數。通過這種預處理方式,在一定程度上可解決點云數據量過大以及模型預測時間較慢的問題。
3.2 圖網絡結構
由于圖卷積神經網絡在處理圖數據時具有良好的性能和較高的可解釋性,本文基于圖卷積神經網絡構建網絡。網絡結構如圖3 所示。
該網絡通過聚合邊特征對頂點特征進行更新,在第t+1次迭代過程中頂點和邊特征可以表示為
式中:函數 f 用來計算邊的特征;函數 h 用來聚合每個頂點所對應邊的特征;函數 g 使用邊特征來更新頂點特征。
對頂點狀態(tài)的更新可表示為
在此基礎上,本文方法在聚合特征時引入注 意力機制ua。由于圖構建算法中的半徑r為固定 值,它限制了圖卷積核的感受野區(qū)域,若r值太小 則不能很好地聚合鄰域點的特征,若r值過大,會 引入無關噪聲點信息,本文方法通過使用注意力 機制處理圖卷積層中難以選擇r值的缺點,在特征聚合時調整頂點特征權重占比,對頂點特征進行 細化。引入注意力機制可以過濾鄰域中噪聲點的 特征,使其不對圖卷積結果產生影響。假設αij為 節(jié)點s在下一步迭代中的加權因子(重要性),它在 迭代計算更新后的節(jié)點特征時對節(jié)點本身進行約 束,可表示為
αi j = ua(xj -"xi,wj s j,wi si),"j∈R(i) (6)
其中,w為可學習的權重系數。對αi j使用 softmax函數進行歸一化:
值得注意的是,在節(jié)點特征迭代時,由于相對坐標對于點云整體具有平移不變性,因此,網絡的輸入是點與點之間的相對坐標,但是,頂點特征在不同維度變換時會產生一些位移誤差,故需考慮如何減少這種位移誤差。雖然相對坐標會發(fā)生變化,但是,點云的局部結構還是相似的,所以,本文引入坐標校準機制。由于頂點特征在t+1次迭代時已包含上一時刻的自身頂點特征信息,因此,更新頂點特征時考慮鄰居節(jié)點在次迭代時的坐標特征,通過這種方法可以在t+1次迭代時將坐標與次迭代時對齊,以盡量減少維度變換帶來的點云平移誤差,坐標校準模塊具體設計見圖4 中坐標偏移計算部分。本文中位移誤差的計算可表示為
Δo = MMLP(sti)(9)
網絡以多層感知機(MLP)進行頂點特征提取以及學習相鄰節(jié)點之間相對坐標差的空間關系,所以,最終頂點特征更新可表示為
具體的圖網絡結構參數如圖4 所示,包括特征提取、偏移誤差計算以及預測輸出,網絡輸入為N×4的張量,通過多層感知機將特征逐層升維至N ×300,進行特征細化,對升維后的特征進行誤差計算,將偏移特征與高維特征進行拼接得到N ×303的特征張量,再進一步提取特征并與高維頂點特征進行加和操作。最后同樣使用多層感知機對特征降維并進行結果預測;分類模塊輸出類別信息,定位模塊輸出目標3D 檢測框的相關信息。
3.3 損失函數
本文方法定義損失函數主要由3 部分組成:分類損失、回歸損失、定位損失。其中,分類損失被定義為平均交叉熵損失,可表示為
綜上所述,完整的損失函數為
lt = αlcls +βlloc +γlreg (14)
式中,權重參數α,β和γ用于調整每個損失項的相對權重占比。
4 實驗及結果分析
實驗在KITTI 數據集[22] 上進行,數據集包括7 481 個訓練樣本和7 518 個測試樣本,數據集標注類別包括car(汽車)、pedestrian(行人)、cyclist(騎行者)。在KITTI 數據集中,根據標注框的高度、是否被遮擋以及遮擋程度定義了3 種場景,分別為Easy,Moderate,Hard,其中,Easy 為最小邊框高度大于40 像素,完全可見,截斷小于15%;Moderate 為最小邊框高度大于25 像素,部分遮擋, 截斷小于30%; Hard 為最小邊框高度大于25 像素,嚴重遮擋,截斷小于50%。
本文方法采用Pytorch 框架編寫程序,實驗在256G 內存, Intel(R) Xeon(R) Silver 4216 CPU@2.10 GHz 處理器和16G 內存,Tesla T4 GPU 以及安裝有Ubuntu 20.04 操作系統(tǒng)的計算機上開展。設置batch size 為2,以3 層圖網絡結構進行端到端的訓練,損失函數的權重占比分別設置為α=0.1,β=10,γ=5e-7。對于汽車類別,設置錨點框的長寬高分別為3.9,1.6 ,1.5 m,行人和騎行者分別為0.8,0.6 ,1.73 m 和1.76,0.6 ,1.76 m。網絡的優(yōu)化器為ADAM 優(yōu)化器。在網絡中使用多層感知機進行特征提取, 使用ReLU 激活函數以及BetchNorm 層,防止梯度消失以及過擬合問題出現。
實驗結果采用通用的KITTI 數據集的評價方法, 選取準確率P、召回率R 以及平均準確度mAP 作為性能評價指標。
式中:TP為真正例((true positive); FP為假正例 (1 positive); FN 為假負例((1 negative); P (R) 為不同召回率對應的準確率。
4.1 點云預處理結果
對KITTI 數據集提供的點云數據進行預處理,將下采樣后的點云作為網絡的輸入。下采樣的結果如圖5 所示。圖5( a)為原始激光雷達點云;圖5( b)為隨機下采樣后的點云;圖5( c)為圖5(b)基礎上進行體素下采樣后的點云。
4.2 圖網絡層數對檢測結果的影響分析
在圖神經網絡中,頂點狀態(tài)通過圖網絡層迭代更新,不斷進行優(yōu)化。本文研究了不同圖網絡層數(頂點特征迭代次數)對目標為汽車時的檢測結果的影響,結果如表1 所示。將圖3 中圖網絡層數l分別設置為1,2,3,4 層,進行檢測結果對比,可以發(fā)現,網絡層數設置為3 層的結果優(yōu)于2 層和1 層的,這說明頂點特征迭代次數較少時,頂點在進行鄰域聚合時的感受野不夠廣,局部特征無法通過邊很好地向頂點聚合,需要加深網絡以擴大感受野;但是,當圖網絡層數設置為4 層時性能又有所下降,這說明隨著網絡深度進一步加深會造成訓練的困難,這是由于層數變深造成過平滑[23-24],從而導致圖中節(jié)點的向量表示逐漸趨于相等。最終,本文方法使用3 層圖網絡結構。
4.3 注意力機制對檢測結果的影響分析
目前,不同算法在進行圖構建時均會不可避免地引入噪聲點信息,這也是圖構建的難點之一。本文采用固定半徑近鄰算法進行圖構建,頂點鄰域中同樣會包括背景噪聲點。為使頂點特征更精確,在頂點特征聚合時引入了注意力機制,通過注意力機制降低特征聚合時鄰域中噪聲點特征占比。研究了注意力機制對目標為汽車時的檢測結果的影響,結果如表2 所示。結果表明,使用3 層圖網絡結構時,使用注意力機制進行特征聚合可以有效過濾鄰域中的噪聲點特征,提升模型檢測準確度。
4.4 坐標校準機制對檢測結果的影響分析
本文研究了坐標校準機制對目標為汽車時的檢測結果的影響,結果如表3 所示。將坐標校準機制實現為一個易于擴展的坐標偏移計算模塊,分別對引入該模塊和沒有該模塊的模型進行評估,可以發(fā)現引入坐標校準機制后,模型檢測準確度有明顯提升。這說明引入坐標校準機制后,Δo相對坐標在特征迭代時對中心頂點位置特征的依賴變少,更多地依賴點云自身的結構特征,由式(9)計算得到的可以有效抵消頂點特征在維度變化時引入的坐標偏移誤差。
4.5 典型場景下的3D 目標檢測結果
圖6 為本文方法在KITTI 數據集中一些典型場景下的檢測結果,主要檢測場景中的汽車、行人和騎行者。圖6(a)為汽車與騎行者同時存在的場景,且騎行者目標距離激光雷達較遠;圖6(b)為行人多且密集的場景;圖6(c)和(d)為汽車多且密集的場景,同時存在車輛之間的遮擋;圖6(e)和(f)為汽車與行人同時存在的場景,且存在不同目標之間的遮擋。結果表明,本文方法對以上場景中較近的、清晰的目標可以準確檢測;對于密集目標也均可準確識別;對于距離較遠、難以分辨的行人等較小目標也可以進行有效檢測并取得良好的效果。在點云圖作了可視化顯示,將汽車、行人以及騎行者目標分別以紅色、綠色和藍色3D 框標識。同時本文方法也存在一些誤檢、漏檢的情況,導致檢測失敗的主要原因是:a. 目標距離激光雷達過遠,無法獲得足夠多的點云信息。如圖6(f)中橘色框標出的騎行者。b. 存在嚴重遮擋情況,激光雷達掃描出的點云無法構成一個較完整目標。如圖6(c)中橘色框中汽車。c. 目標距離墻壁等障礙物過近,無法從點云中獲取精確的輪廓信息。如圖6( b)中橘色框標出的騎行者。
4.6 定量評估及與其他方法的比較
將本文方法與基于點云?圖像融合的方法如AVOD,MV3D,MLOD 和F-PointNet,基于歐幾里得變換的方法BirdNet+以及基于網格的方法VoxelNet 均進行了比較, 各種方法在 Easy,Moderate,Hard 這3 種場景中,分別對汽車、行人和騎行者3 類目標檢測的性能及算法效率如表4 所示,其中,N/A 表示該方法未公開該類別檢測結果。相比于一些基于點云?圖像融合的方法,本文方法取得了一些準確度的提升,但推理時間偏慢,在汽車類別的檢測結果優(yōu)于MV3D 和MLOD,與F-PointNet 檢測結果接近;在行人以及騎行者類別的檢測結果遠優(yōu)于AVOD,明顯改善了對小目標的檢測效果。相比于基于歐幾里得變換的方法BirdNet+,本文方法也實現了準確度上的領先。相比于VoxelNet,算法效率有一定差距,但從準確度指標進行比較,僅在行人類別上的檢測不占優(yōu)勢,其他兩類的檢測準確度較接近,總體來說,本文方法的平均準確度優(yōu)于VoxelNet。通過計算可知,本文方法在Easy,Moderate,Hard 場景中對汽車、行人和騎行者的檢測平均準確度分別是70.94%,54.73% 和41.38%,單幀計算耗時457 ms,其中,數據加載及預處理耗時44 ms,固定半徑近鄰圖構建耗時103 ms,圖網絡層迭代耗時287 ms,目標類別以及3D 框預測耗時23 ms。結果表明,本文方法可以很好地檢測復雜交通場景中的各類目標。
本文方法的檢測準確度與當前3D 目標檢測最優(yōu)算法的相比,仍有一定差距,有待于進一步提升。造成這種差別的原因如下:其一,本文使用隨機下采樣和體素下采樣算法對點云進行下采樣,相比于其他基于視錐體、球形體素的采樣方法,目標點被稀釋,導致模型準確度下降,需要考慮使用更有效的點云預處理方法,盡量多的保留前景點;其二,本文采用圖頂點分類方法進行預測和分類,沒有對不同尺度的特征進行聚合,這同樣會導致模型準確度降低;其三,相比其他點云–圖像融合的算法,本文方法僅使用激光雷達點云作為輸入,若考慮融合其他傳感器數據可使檢測準確度進一步提升。對于目標檢測算法,模型推理速度至關重要。目前圖網絡的缺點之一在于運算量巨大,這是由于圖網絡特性導致的。將完整點云圖送入網絡后,每一次特征傳遞的過程中都有極大的運算量,尤其是圖構建以及圖網絡層,故還需考慮如何加快模型推理速度。
5 結束語
本文將基于圖方法的圖注意力卷積神經網絡應用于自動駕駛場景的3D 目標檢測。將激光點云數據以圖結構數據的形式表示,區(qū)別于基于投影和體素化等傳統(tǒng)方法,避免對點云進行繁瑣而復雜的預處理。此外,本文中引入的注意力機制考慮到節(jié)點特征在特征聚合時的權重占比,可以得到更精確的特征。實驗證明,本文方法可以實時產生精確的邊界框位置以及分類結果,表明了該方法的有效性。未來的改進方向,主要是改進數據預處理方法以解決圖網絡運算復雜的問題;以及研究如何高效地從點云中提取特征,從而加快模型推理速度。
參考文獻:
[1] LIU L K, CHAN S H, NGUYEN T Q. Depth reconstruction from sparse samples: representation, algorithm, and sampling[J]. IEEE Transactions on Image Processing, 2015, 24(6): 1983-1996.
[2] GRIGORESCU S, TRASNEA B, COCIAS T, et al. A survey of deep learning techniques for autonomous driving[J]. Journal of Field Robotics, 2020, 37(3): 362-386.
[3] LI B, ZHANG T L, XIA T. Vehicle detection from 3D lidar using fully convolutional network[C]//Proceedings of 2016 Robotics: Science and Systems. Ann Arbor:MIT Press Journals, 2016.
[4] MEYER G P, LADDHA A, KEE E, et al. LaserNet: an efficient probabilistic 3D object detector for autonomous driving[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 12677-12686.
[5] BARRERA A, BELTRAN J, GUINDEL C, et al. BirdNet+: two-stage 3D object detection in LiDAR through a sparsity-invariant bird’s eye view[J]. IEEE Access, 2021, 9: 160299-160316.
[6] YANG B, LUO W J, URTASUN R. PIXOR: real-time 3D object detection from point clouds[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018:7652-7660.
[7] ZHOU Y, TUZEL O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 4490-4499.
[8] YAN Y, MAO Y X, LI B. SECOND: sparsely embedded convolutional detection[J]. Sensors, 2018, 18(10): 3337.
[9] QI CHARLES R, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 652-660.
[10] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc. , 2017: 5105-5114.
[11] SHI S S, WANG X G, LI H S. PointRCNN: 3D object proposal generation and detection from point cloud[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 770-779.
[12] 馬帥,劉建偉,左信.圖神經網絡綜述[J].計算機研究 與發(fā)展,2022, 59(1): 47-80.
[13] SHI W J, RAJKUMAR R. Point-GNN: graph neural network for 3D object detection in a point cloud[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020.
[14] ZARZAR J, GIANCOLA S, GHANEM B. PointRGCN: Graph convolution networks for 3D vehicles detection refinement[EB/OL].(2019-11-27). https://doi.org/10.48 550/arXiv.1911.12236
[15] CHEN X Z, MA H M, WAN J, et al. Multi-view 3D object detection network for autonomous driving[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 1907-1915.
[16] KU J, MOZIFIAN M, LEE J, et al. Joint 3D proposal generation and object detection from view aggregation[C]//Proceedings of 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems. Madrid: IEEE, 2018: 1-8.
[17] QI C R, LIU W, WU C X, et al. Frustum PointNets for"3D object detection from RGB-D data[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 918-927.
[18] DENG J, CZARNECKI K. MLOD: a multi-view 3D"object detection based on robust feature fusion method[C]//Proceedings of 2019 IEEE Intelligent"Transportation Systems Conference. Auckland: IEEE, 2019: 279-284.
[19] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1): 61-80.
[20] KIPF T N, WELLING M. Semi-supervised"classification with graph convolutional"networks[C]//Proceedings of the 5th International"Conference on Learning Representations. Toulon:OpenReview. net, 2017.
[21] 徐冰冰,岑科廷,黃俊杰,等.圖卷積神經網絡綜述[J]. 計算機學報,2020, 43(5): 755-780.
[22] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
[23] LI Q M, HAN Z C, WU X M. Deeper insights into graph convolutional networks for semi-supervised learning[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans: AAAI Press, 2018.
[24] ZHAO L X, AKOGLU L. PairNorm: tackling oversmoothing in GNNs[C]//Proceedings of the 8th International Conference on Learning Representations. Addis Ababa:ICLR, 2020.
(編輯:黃娟)
基金項目:國家自然科學基金資助項目(62276167);上海市自然科學基金資助項目(20ZR1437900)