摘"要:激光雷達采集的自動駕駛場景點云數(shù)據(jù)規(guī)模龐大且包含豐富的空間結(jié)構(gòu)信息,一些方法將點云變換到體素化網(wǎng)格等稠密表示形式進行處理,但卻忽略了點云變換引起的信息丟失問題,導(dǎo)致分割性能降低。為此,提出了一種基于局部特征聚合網(wǎng)絡(luò)的三維語義分割方法。其中的局部特征融合模塊,聚合中心點的K個最近點的特征,并通過強大的注意力機制,得到增強的點特征,從而彌補丟失的信息,提高網(wǎng)絡(luò)的分割精度。此外,為了提高小物體的分類精度,提出了3D注意力特征融合塊,通過摒棄常規(guī)的特征圖拼接,使用注意力機制來決定不同層次語義特征的權(quán)重,得到更加豐富的語義特征,提高網(wǎng)絡(luò)的性能。在SemanticKITTI和nuScenes數(shù)據(jù)集上的大量實驗表明了該方法的優(yōu)越性。
關(guān)鍵詞:語義分割;"三維語義分割;"局部特征聚合;"自動駕駛;"激光雷達
中圖分類號:TP391""""""文獻標識碼:A
Local"Feature"Aggregation"Networks"for"3D"Semantic"Segmentation
LIU"Jingwei1,"ZHOU"Yan2
(School"of"Automation"and"Electronics"Information,"Xiangtan"University,"Xiangtan,"Hunan"411105,"China)
Abstract:The"point"cloud"data"of"autonomous"driving"scenes"collected"by"LiDAR"is"large"in"scale"and"contains"rich"spatial"structural"detail"information,"and"some"methods"transform"the"point"cloud"to"dense"representations"such"as"voxelization"grids"for"processing,"but"ignore"the"information"loss"and"occlusion"problems"caused"by"the"point"cloud"transformations,"which"leads"to"degradation"of"segmentation"performance."For"this"reason,"this"paper"proposes"a"local"feature"aggregation"networks"for"3D"semantic"segmentation."The"local"feature"aggregation"module"therein"aggregates"the"features"of"the"K"nearest"points"of"the"center"point"and"obtains"enhanced"point"features"through"a"powerful"attention"mechanism,"thus"compensating"for"the"lost"information"and"improving"the"segmentation"accuracy"of"the"network."In"addition,"in"order"to"improve"the"classification"accuracy"of"small"objects,"this"paper"proposes"a"3D"attention"feature"fusion"block,"which"obtains"richer"semantic"features"and"improves"the"performance"of"the"network"by"discarding"the"conventional"feature"map"splicing"and"using"the"attention"mechanism"to"decide"the"weights"of"different"levels"of"semantic"features."Extensive"experiments"on"SemanticKITTI"and"nuScenes"datasets"demonstrate"the"superiority"of"the"method.
Key"words:semantic"segmentation;"3D"semantic"segmentation;"local"feature"aggregation;"autonomous"driving;"LiDAR
隨著三維激光雷達傳感器的廣泛應(yīng)用及激光掃描技術(shù)的快速發(fā)展,人類能夠快速地獲取場景以及物體的點云數(shù)據(jù)。與傳統(tǒng)的相機相比,點云作為三維數(shù)據(jù)表示形式之一,能夠較好地表示復(fù)雜場景及物體的幾何形狀,并且在物體空間關(guān)系及拓撲關(guān)系的表示方面具有獨特的優(yōu)勢。同時,點云模型的分割也成了三維特征提取和識別中的一個十分重要的步驟[1]。
近些年來,三維語義分割在自動駕駛領(lǐng)域的方法激增。例如,SqueezeSeg[2]使用球面投影獲取點云信息,使用SqueezeNet網(wǎng)絡(luò)對投影得到的前視圖進行特征提取,然后將條件隨機場作為遞歸層對分割結(jié)果進一步優(yōu)化。RangeNet++[3]利用球面投影方式處理輸入點云,并嘗試使用KNN作為后處理。雖然這些方法與常規(guī)多視圖方法相比,球面投影的方式保留了更多的信息。然而,這些方法由于嚴重的2D投影信息損失而具有較低的精度。
針對上述問題,一種替代方法是用基于體素的方法[4,5],將無序的點云分割成一系列占用一定空間的體素,然后送入3D"CNN逐步進行體素級別的特征學習,最后為每一格體素內(nèi)的所有點匹配與該體素相同的語義標簽。然而,由于室外激光雷達點云具有無序性以及密度不一致性,導(dǎo)致在體素化過程中損失幾何信息導(dǎo)致分割精度不佳等問題。
為了改善這些問題,在基于體素的方法上融合了基于點的方法,提出了局部特征聚合模塊,直接應(yīng)用于輸入的點云數(shù)據(jù),不用改變?nèi)S拓撲結(jié)構(gòu),沒有信息損失。該模塊還采用了注意力機制,來獲得增強的點特征。通過常規(guī)的點—體素融合方法將點特征與體素特征融合,得到更加豐富的語義特征。同時,還提出了一種3D注意力特征融合塊,通過注意力機制自動選擇不同層次的特征,來得到信息量更豐富的特征,從而改善網(wǎng)絡(luò)性能,提高分割精度。
所提出的方法在兩個大型戶外數(shù)據(jù)集SemanticKITTI[6]和nuScene[7]進行了實驗。
本文的貢獻概述如下:
提出了一種局部特征聚合模塊,能夠有效解決體素化過程中改變?nèi)S拓撲結(jié)構(gòu)所造成的問題,提高網(wǎng)絡(luò)分割精度。
為了得到更加豐富的語義特征,進行準確的分類,提出了3D注意力特征融合塊。
提出的方法在SemanticKITTI和nuScenes兩個數(shù)據(jù)集的激光雷達分割任務(wù)上優(yōu)于所比較的方法。
1"相關(guān)工作
三維語義分割任務(wù)根據(jù)給定點云的語義信息,"將同一類點歸為一個子集,與二維語義分割相比,"三維語義分割能夠更細致地區(qū)分空間物體。以前的方法試圖以三種方式解決這個問題。
1.1"基于點的方法
基于點的方法在原始點云上直接進行操作。PointNet[8]在每個點上應(yīng)用共享的多層感知器(MLP),通過最大池化將所有點的信息聚合得到全局特征,用于進一步的分割任務(wù)。然而,PointNet[8]在復(fù)雜場景中表現(xiàn)較差,缺乏局部上下文提取。接下來的工作[9,10]提出了球查詢和χConv來模擬二維卷積,并在室內(nèi)場景中取得了很好的效果。然而,由于計算和存儲成本,它們不適用于自動駕駛場景。為了減少計算成本,RandLANet[11]采用了隨機采樣,但由于隨機采樣,精度較低。
1.2"基于體素的方法
基于體素的方法[12,13]是一種結(jié)構(gòu)化的表示方法,其將無序的點云分割成一系列占用一定空間的體素。該方法有效地促使無序點云規(guī)則化,但該方法采用固定網(wǎng)格,容易導(dǎo)致數(shù)據(jù)錯誤劃分而使得預(yù)測結(jié)果不準確。Minkowski"CNN[14]是第一個高效的稀疏體素框架,它在精度和速度上都超過了大部分基于點的方法。一個可能的原因是稀疏體素是結(jié)構(gòu)化的,這便于卷積運算。SPVNAS[15]在文獻[14]中引入了神經(jīng)結(jié)構(gòu)搜索(NAS),并以較低的計算成本獲得了更好的結(jié)果。Cylinder3D[16]設(shè)計了圓柱形分割,并證明了其效率。
1.3"基于2D投影的方法
2D投影方法通過將3D點投影到2D網(wǎng)格上來利用2D全卷積網(wǎng)絡(luò),然后融合這些特征以預(yù)測結(jié)果。RangeNet++[3]提出了一種用于后處理的加速KNN。SqueezeSegV3[17]證明了空間自適應(yīng)卷積的優(yōu)越性。SalsaNext[18]基于SalsaNet[19]設(shè)計了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),實時執(zhí)行完整的三維激光雷達點云的不確定性感知語義分割。PMF[20]提出了一種全新的多傳感器感知融合方案,提出了一種全新的perceptionaware"loss,可以促進網(wǎng)絡(luò)捕捉不同模態(tài)的感知信息。
2"本文方案
2.1"總體框架
如圖1上半部分所示,將數(shù)據(jù)集中的點云輸入圓柱劃分網(wǎng)絡(luò)中,與通過多層感知機得到的點特征相融合得到體素特征。圓柱劃分網(wǎng)絡(luò)采用的是圓柱分割[14],并對其進行了微小的修改。與此同時,將數(shù)據(jù)集中的點云輸入到局部特征模塊中,得到更詳細的點特征。將體素特征輸入到非對稱三維卷積網(wǎng)絡(luò),非對稱三維卷積網(wǎng)絡(luò)由三維殘差塊、四個下采樣塊和三個上采樣塊組成,每個上采樣塊中都采用了3D注意力特征融合塊以及非對稱卷積塊。通過這些組件組合同時與點特征相融合得到更加豐富的特征。然后將特征輸入到上下文模塊,最后通過loss函數(shù)得到分割結(jié)果。
2.2"局部特征聚合模塊
由于室外點云的密度不一致性特性,導(dǎo)致在體素化過程中不可避免地損失幾何信息,為此本文采用了局部特征聚合模塊,該模塊直接應(yīng)用于原始無序3D點云,沒有任何信息損失,通過逐步增加每個點的接收場來自動保留復(fù)雜的局部結(jié)構(gòu),得到增強的點特征。點特征與體素特征相融合,能夠得到語義信息更加豐富的特征,從而提高網(wǎng)絡(luò)的性能。局部特征聚合模塊由局部空間編碼塊和2D注意力特征聚合塊組成。
在給定輸入的點云數(shù)據(jù)情況下,局部特征聚合模塊能夠聚合中心點的K個最近點的特征,并最終生成信息量豐富的特征。該模塊由局部空間編碼塊和2D注意力特征聚合塊組成,如圖2所示。
局部空間編碼塊(Local"Spatial"Encoding):輸入點云坐標以及每個點的特征,此局部空間編碼塊通過簡單的K近鄰(KNN)算法收集其相鄰點Pki,明確嵌入所有相鄰點Pki的坐標,從而使相應(yīng)的點特征始終知道其相對點空間位置。這使局部空間編碼塊可以顯式觀察局部幾何圖案,從而最終使整個網(wǎng)絡(luò)受益,有效地學習復(fù)雜的局部結(jié)構(gòu)。對于中心點Pi的每個最近的K個點P1i,…,PKi,其編碼相對點位置為:
rki=MLPPi;Pki;(Pi-Pki);Pi-Pki(1)
式中MLP為多層感知機,Pi是中心點坐標,Pki是相鄰點坐標,;表示拼接操作,‖·‖表示歐幾里得距離。將編碼的相對位置rki與它的對應(yīng)點特征fki進行拼接操作,從而獲得增強的點特征fki,fki表示如下:
fki=rki;fki(2)
該模塊最終的輸出是一組新的局部特征Fi=f1i,…,fki。
2D注意力特征聚合塊(2D"Attentive"Feature"Aggregation"Block):采用強大的注意力機制來自動學習重要的局部特征,輸入的局部特征Fi通過一個MLP和"Softmax操作,為每個空間位置計算權(quán)重Wi。Wi表示為:
Wi=Softmax(MLP(Fi))(3)
將權(quán)重與輸入的局部特征逐元素相乘,然后在通道維度上進行求和,最后通過一個MLP,獲得最終的輸出特征。2D注意力特征聚合塊表示為:
Fi=MLP(Fi*Wi)(4)
式中*表示逐元素相乘,F(xiàn)i表示輸出的特征。
2.3"3D注意力特征融合模塊
3D注意力特征融合塊的核心思想是使用注意力機制來決定高層特征和低層特征的權(quán)重,然后將權(quán)重與輸入的特征加權(quán)求和以生成最終的輸出特征如圖3所示,高層語義特征首先通過上采樣操作來保持和底層語義特征相同的通道數(shù)。注意力機制的計算是通過Attention層來實現(xiàn)的,這個層包含了卷積、歸一化、ReLU和Softmax操作,用于計算注意力權(quán)重。最終輸出特征是根據(jù)這些權(quán)重對輸入特征進行加權(quán)求和得到的。這種方式可以有效地融合不同層次的語義信息,以改善模型性能,提高分割精度。Attention層定義為:
Att(x)=
SoftConv3×3×3(ReLU(BN(Conv3×3×3(x))))(5)
設(shè)fhigh為輸入的高層次特征,flow為輸入的低層次特征,3D注意力特征融合塊表示為:
ɑ=Att[ReLU(BN(Conv3×3×3(Up(fhigh))));
ReLU(BN(Conv3×3×3(flow)))](6)
F=ɑ·ReLU(BN(Conv3×3×3(flow)))+
(1-ɑ)·ReLU(BN(Conv3×3×3(Up(fhigh))))(7)
式中ɑ表示注意力權(quán)重,Up表示上采樣操作,F(xiàn)為輸出的特征。
2.4"損失函數(shù)
總損失函數(shù)由交叉熵損失函數(shù)和LovaszSoftmax損失函數(shù)[21]組成。
L=LCE+Llov(8)
3"實驗與分析
在SemanticKITTI[4]和nuScenes[5]數(shù)據(jù)集上評估了所提出的方法,以證明其有效性。
為了評估所提出的方法,采用了最流行的度量——平均交并比(mIoU)。mIoU通過以下方式計算:
mIoU=1K∑Kk=1TPkFNk+FPk+TPk(9)
式中,TP表示真正例,即模型預(yù)測為正例,實際是正例。FN表示假反例,即模型預(yù)測為反例,實際是正例。FP表示假正例,即模型預(yù)測為正例,實際是反例。K表示類別數(shù)。
3.1"在SemanticKITTI數(shù)據(jù)集的結(jié)果
如表1所示,將本文提出的方法的結(jié)果與SemanticKITTI驗證集上先進的LiDAR分割方法進行了比較。本文提出的方法在所有的方法中達到最好的性能。以輸入方式的不同,將這些方法分為兩大類:僅有激光雷達輸入和多傳感器融合的方法。本文提出的方法在所有的方法中取得了最高的精度。與僅具有激光雷達的基于投影的方法2D空間相比,包括RandLANet[11]、RangeNet++[3]、SequeeezeSegV3[17]和SalsaNext[18],由于三維幾何信息的建模,點云和體素表示能夠更準確地反映物體的三維結(jié)構(gòu)和幾何特征,本文的方法在mIoU方面實現(xiàn)了9%~18%的性能提高。此外,與基于體素的方法相比,包括MinkowskiNet[14],SPVNAS[15]和Cylinder3D[16],由于本文的方法中融入了點特征,分割精度也要優(yōu)于這些方法。最后,與基于多傳感器融合的方法相比,本文提出的方法也優(yōu)于這些方法。SemanticKITTI單次掃描的可視化結(jié)果如圖4所示。
3.2"在nuScenes數(shù)據(jù)集上的結(jié)果
對比本文提出的方法和最先進的方法在nuScenes驗證集上的結(jié)果,如表2所示。本文方法在這些方法中取得了優(yōu)異的性能。具體而言,相比于基于投影的方法和基于體素的方法,本文所提出的方法取得約4%~15%的性能提高。特別是對于一些需要更加詳細語義特征的對象,如行人和交通錐,本文提出的方法在這些對象分類的精度上取得了大幅提升。此外,本文提出的方法取得了比先進的多傳感器融合方法更好的分割結(jié)果,即2dpass[22],與之相比mIoU提高了0.6%。這也表明了本文所提出的方法的有效性,可以以解決自動駕駛場景的難點。
3.3"消融實驗
本文使用相同的實驗設(shè)置在SemanticKITTI驗證集進行消融實驗,以確定所提出組件的有效性。如表3所示,比較表3中的第一行和第二行,局部特征聚合模塊實現(xiàn)了1.2%的mIoU提升。比較第二行和第三行,3D注意力特征融合塊使網(wǎng)絡(luò)的mIoU提升了1%。
4"結(jié)"論
提出了一種基于局部特征聚合網(wǎng)絡(luò)的三維語義分割方法,其中3D注意力特征融合塊,使用注意力機制來決定高層特征和低層特征的權(quán)重,將權(quán)重與不同層次的語義特征加權(quán)求和得到更加豐富的語義特征度。此外,局部特征聚合模塊直接采用輸入的原始點云數(shù)據(jù),不損失任何信息。同時采用簡單的K近鄰算法,在保證效率的情況下,得到最近的K個相鄰點坐標,聚合其特征,通過注意力機制,最終生成信息更豐富的點特征。最后,本文提出的方法在SemanticKITTI和nuScenes激光雷達分割任務(wù)上優(yōu)于所比較的方法。在未來的工作中,我們將在保證分割精度的情況下,降低網(wǎng)絡(luò)的計算成本,提高網(wǎng)絡(luò)的運行速率。
參考文獻
[1]"盛仲飆,"韓慧妍."散亂點云分割技術(shù)研究與實現(xiàn)[J]."計算技術(shù)與自動化,"2016,"35"(1):"104-106.
[2]"WU"B"C,"WAN"A,"YUE"X"Y,"et"al."Squeezeseg:"convolutional"neural"nets"with"recurrent"CRF"for"realtime"roadobject"segmentation"from"3d"lidar"point"cloud[C]."2018"IEEE"International"Conference"on"Robotics"and"Automation,"2018:"1887-1893.
[3]"MILIOTO"A,"VIZZO"I,"BEHLEY"J,"et"al."Rangenet++:"Fast"and"accurate"lidar"semantic"segmentation[C]."2019"IEEE/RSJ"international"conference"onnbsp;Intelligent"Robots"and"Systems,"2019:"4213-4220.
[4]"LE"T,"DUAN"Y."Pointgrid:a"deep"network"for"3d"shape"understanding[C]."Proceedings"of"the"IEEE"conference"on"Computer"Vision"and"Pattern"Recognition,"2018:"9204-9214.
[5]"GRAHAM"B,"ENGELCKE"M,"MAATEN"L"V"D."3d"semantic"segmentation"with"submanifold"sparse"convolutional"networks[C].Proceedings"of"the"IEEE"conference"on"Computer"Vision"and"Pattern"Recognition,"2018:"9224-9232.
[6]"BEHLEY"J,"GARBADE"M,"MILIOTO"A,"et"al."Semantickitti:"a"dataset"for"semantic"scene"understanding"of"lidar"sequences[C]."Proceedings"of"the"IEEE/CVF"International"Conference"on"Computer"Vision,"2019:"9297-9307.
[7]"CAESAR"H,"BANKITI"V,"LANG"A"H,"et"al."nuscenes:"A"multimodal"dataset"for"autonomous"driving[C]."Proceedings"of"the"IEEE/CVF"conference"on"Computer"Vision"and"Pattern"Recognition,"2020:"11621-11631.
[8]"QI"C"R,"SU"H,"MO"K,"et"al."Pointnet:"deep"learning"on"point"sets"for"3d"classification"and"segmentation[C]."Proceedings"of"the"IEEE"conference"on"Computer"Vision"and"Pattern"Recognition,"2017:"652-660.
[9]"QI"C"R,"YI"L,"SU"H,"et"al."Pointnet++:"deep"hierarchical"feature"learning"on"point"sets"in"a"metric"space[J]."Advances"in"neural"information"processing"systems,"2017,"30.
[10]LI"Y"Y,"BU"R,"SUN"M"C,"et"al."Pointcnn:"convolution"on"xtransformed"points[J]."Advances"in"neural"information"processing"systems,"2018,"31.
[11]HU"Q"Y,"YANG"B,"XIE"L"H,"et"al."Randlanet:"efficient"semantic"segmentation"of"largescale"point"clouds[C]."Proceedings"of"the"IEEE/CVF"conference"on"Computer"Vision"and"Pattern"Recognition,"2020:"11108-11117.
[12]MATURANA"D,"SCHERER"S."Voxnet:"a"3d"convolutional"neural"network"for"realtime"object"recognition[C]."2015"IEEE/RSJ"international"conference"on"Intelligent"Robots"and"Systems,"2015:"922-928.
[13]ZHOU"Y,"TUZEL"O."Voxelnet:"endtoend"learning"for"point"cloud"based"3d"object"detection[C]."Proceedings"of"the"IEEE"conference"on"Computer"Vision"and"Pattern"Recognition,"2018:"4490-4499.
[14]CHOY"C,"GWAK"J"Y,"SAVARESE"S."4d"spatiotemporal"convnets:"Minkowski"convolutional"neural"networks[C]."Proceedings"of"the"IEEE/CVF"conference"on"Computer"Vision"and"Pattern"Recognition,"2019:"3075-3084.
[15]TANG"H"T,"LIU"Z"J,"ZHAO"S"Y,"et"al."Searching"efficient"3d"architectures"with"sparse"pointvoxel"convolution[C]."European"Conference"on"Computer"Vision."Cham:"Springer"International"Publishing,"2020:"685-702.
[16]ZHU"X"G,"ZHOU"H,"WANG"T,"et"al."Cylindrical"and"asymmetrical"3d"convolution"networks"for"lidar"segmentation[C]."Proceedings"of"the"IEEE/CVF"conference"on"Computer"Vision"and"Pattern"Recognition,"2021:"9939-9948.
[17]XU"C"F,"WU"B"C,"WANG"Z"N,"et"al."Squeezesegv3:"spatiallyadaptive"convolution"for"efficient"pointcloud"segmentation[C]."European"Conference"on"Computer"Vision."Springer,"2020:"1-19."
[18]CORTINHAL"T,"TZELEPIS"G,"ERDAL"A"E."Salsanext:"fast,"uncertaintyaware"semantic"segmentation"of"lidar"point"clouds[C].International"Symposium"on"Visual"Computing."Springer,"2020:"207-222.
[19]AKSOY"E"E,"BACI"S,"CAVDAR"S."Salsanet:"fast"road"and"vehicle"segmentation"in"lidar"point"clouds"for"autonomous"driving[C]."2020"IEEE"Intelligent"Vehicles"Symposium,"2020:"926-932.
[20]ZHUANG"Z"W,"LI"R,"JIA"K,"et"al."Perceptionaware"multisensor"fusion"for"3d"lidar"semantic"segmentation[C]."Proceedings"of"the"IEEE/CVF"International"Conference"on"Computer"Vision,"2021:"16280-16290.
[21]BERMAN"M,"TRIKI"A"R,"BLASCHKO"M"B."The"lovászsoftmax"loss:"A"tractable"surrogate"for"the"optimization"of"the"intersectionoverunion"measure"in"neural"networks[C]."Proceedings"of"the"IEEE"conference"on"Computer"Vision"and"Pattern"Recognition,"2018:"4413-4421.
[22]YAN"X,"GAO"J"T,"ZHENG"C"D,"et"al."2dpass:"2d"priors"assisted"semantic"segmentation"on"lidar"point"clouds[C]."European"Conference"on"Computer"Vision."Cham:"Springer"Nature"Switzerland,"2022:"677-695.
[23]MADAWI"K"E,"RASHED"H,"SALLAB"A"E,"et"al."Rgb"and"lidar"fusion"basednbsp;3d"semantic"segmentation"for"autonomous"driving[C]"2019"IEEE"Intelligent"Transportation"Systems"Conference"(ITSC)."IEEE,"2019:"7-12.
[24]ZHANG"Y,"ZHOU"Z"X,"DAVID"P,"et"al."Polarnet:"an"improved"grid"representation"for"online"lidar"point"clouds"semantic"segmentation[C]."Proceedings"of"the"IEEE/CVF"conference"on"Computer"Vision"and"Pattern"Recognition,"2020:"9601-9610.