摘" 要: 激光雷達技術(shù)在移動設(shè)備中的廣泛應(yīng)用為點云數(shù)據(jù)的獲取提供了更為便捷的手段。盡管如此,當(dāng)前關(guān)于點云局部上下文表示的研究還存在較大的不足。在這一背景下,提出一種三維點云語義分割方法,即BiVector。該方法由Bilateral Augmentation模塊(BAM)、Local Vector模塊(LVM)和Dilated Residual模塊(DiRes)三大組成部分構(gòu)成。具體而言,BAM通過學(xué)習(xí)點云幾何和特征屬性之間的偏移量,有效地增強了每個點的局部上下文信息;而LVM引入了向量屬性,提高了點云表示的自由度;與此同時,DiRes采用了擴張殘差塊,進一步提升了網(wǎng)絡(luò)模型的分割性能。這三個模塊的協(xié)同作用使得BiVector方法在語義分割任務(wù)中取得了顯著成果。經(jīng)實驗驗證,BiVector方法在S3DIS Area5數(shù)據(jù)集上取得了65.7%的分割精度,相較于其他方法有明顯改進。
關(guān)鍵詞: 三維點云; 語義分割; BiVector方法; 上下文信息; 殘差塊; 雙邊增強
中圖分類號: TN911?34; TP391" " " " " " " " " "文獻標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2024)22?0051?06
Method of three?dimensional point cloud semantic segmentation
Abstract: The wide application of LiDAR technology in mobile devices provides a more convenient means for the acquisition of point cloud data. In spite of this, the current research on point cloud local context representation has great shortcomings. In this context, an method of three?dimensional point cloud semantic segmentation, BiVector is proposed. This method is composed of three main components: bilateral augmentation module (BAM), local vector module (LVM), and dilated residual module (DiRes). BAM can enhance the local context of each point by learning the offset between geometric and feature attributes. LVM can introduce vector properties to increase the degree of freedom in point cloud representation. Meanwhile, DiRes can employ dilated residual blocks to further enhance the segmentation performance of the network. The synergistic effect of three modules can make the BiVector method realize significant results in semantic segmentation tasks. After the experiments verification, the BiVector method can realize 65.7% mIoU segmentation accuracy on the S3DIS Area5 dataset. There is significant improvement compared to other methods.
Keywords: three?dimensional point cloud; semantic segmentation; BiVector method; context information; residual block; bilateral augmentation
0" 引" 言
點云語義分割是分析三維場景的基礎(chǔ),例如自動駕駛和增強現(xiàn)實。然而,與圖像不同,無法將規(guī)則化的卷積應(yīng)用至點云上。
為了解決這一困難,許多研究者提出點云處理的方法。這些方法大致被分為三類:基于投影的方法[1?3]、基于體素的方法[4?5]以及基于點的方法[6?20]。基于投影的方法將點云轉(zhuǎn)換為圖像,隨后通過二維卷積對圖像進行處理,并將結(jié)果轉(zhuǎn)換回點云。基于體素的方法將點云轉(zhuǎn)換為規(guī)則化的體素,利用三維卷積對其進行處理,隨后將結(jié)果轉(zhuǎn)換回點云。然而,上述兩種方法在對點云轉(zhuǎn)換過程中,會導(dǎo)致點云信息的缺失?;邳c的方法是直接對點云進行處理,無需將點云轉(zhuǎn)換為其他形態(tài)。隨著PointNet[1]與PointNet++[2]的出現(xiàn),直接對點云處理成為研究熱點。然而,目前許多工作[1?6]對局部點云進行處理時,僅將局部點的幾何屬性與特征屬性進行簡單地拼接,導(dǎo)致局部點云的上下文表示存在較大不足。
針對這一問題,本文提出一種BiVector方法。該方法主要由3個關(guān)鍵模塊構(gòu)成,分別為BAM(Bilateral Augmentation Module)、LVM(Local Vector Module)與DiRes(Dilated Residual)模塊。BAM可以學(xué)習(xí)點云的幾何屬性與特征屬性之間的偏移量,并利用偏移量增強局部點云上下文表示。LVM將點間向量屬性與自身點的坐標(biāo)屬性進行拼接,以提高點云表示的自由度。DiRes利用擴張殘差塊學(xué)習(xí)更多的點云特征信息,增加模型的語義分割性能。該方法能夠有效地解決局部點云上下文表示存在的不足,并有效地提高點云語義分割性能。
1" 深度學(xué)習(xí)領(lǐng)域相關(guān)工作
在二維視覺領(lǐng)域,基于深度學(xué)習(xí)的方法取得了顯著的成果,然而在三維視覺領(lǐng)域,尚未進行充分探索。由于基于投影的方法與基于體素的方法存在較大缺點,故本文旨在回顧基于點的方法,著眼于最近幾年涌現(xiàn)的直接對點進行處理的方法。
PointNet[6]與PointNet++[7]為這一領(lǐng)域的先驅(qū),前者是直接對全局點云進行處理,而后者是前者的改進方案,對點云局部進行處理。PointASNL[8]是利用自適應(yīng)采樣和局部非局部模型處理帶有噪聲的點云數(shù)據(jù),以實現(xiàn)數(shù)據(jù)驅(qū)動的內(nèi)在幾何子流形擬合和異常值移除,同時能夠捕獲采樣點之間的相關(guān)性并減少對噪聲的敏感性。RandLA?Net[9]通過隨機采樣、局部空間編碼和注意力機制等方法,有效地降低了計算量和數(shù)據(jù)密度,同時保留了關(guān)鍵信息。此外,該網(wǎng)絡(luò)還通過局部特征整合和擴張殘差模塊方法,增強網(wǎng)絡(luò)對點云數(shù)據(jù)的理解和處理能力。SCF?Net[10]通過學(xué)習(xí)空間上下文特征,利用多尺度特征融合,并結(jié)合上下文信息增強技術(shù),實現(xiàn)大規(guī)模點云的語義分割。PointWeb[11]利用局部鄰域上下文中的特征提取方法將每個點與其他點連接起來,并根據(jù)局部區(qū)域的特征指定每個點的特征,以更好地表示該區(qū)域;同時提出了一種新的特征調(diào)整模塊來發(fā)現(xiàn)點之間的相互作用。RPNet[12]通過學(xué)習(xí)點云數(shù)據(jù)中點之間的相對位置、方向關(guān)系以及連接和形狀信息,以捕捉和處理點云數(shù)據(jù)的局部幾何結(jié)構(gòu)信息,從而更準(zhǔn)確和可靠地完成三維物體識別、分割等任務(wù)。GeoSegNet由殘差幾何模塊和對比邊界學(xué)習(xí)模塊組成,能夠有效地捕獲幾何特征,增強邊界區(qū)域的特征識別能力,解決了復(fù)雜3D場景中對象級錯誤分類和邊界級模糊的挑戰(zhàn)。
2" 方法論
2.1" BiVector網(wǎng)絡(luò)
本文提出的BiVector方法網(wǎng)絡(luò)架構(gòu)如圖1所示。
圖中,數(shù)字表示每個階段輸出的特征通道數(shù)。BiVector架構(gòu)主要由Encoder層、Decoder層與分類器組成。Encoder層由BAM、LVM與DiRes模塊組成,主要負責(zé)點云數(shù)據(jù)的下采樣與特征提取;Decoder層由FP(Feature Propagation)組成,主要負責(zé)點云數(shù)據(jù)的上采樣。
首先,點云數(shù)據(jù)經(jīng)過4個Encoder層,充分學(xué)習(xí)點云的特征信息;隨后,通過4個Decoder層將點數(shù)還原為輸入時的點數(shù);最后,利用分類器對Deocder層輸出的結(jié)果進行語義預(yù)測。
2.2" BAM
給定一個點云[P],它由坐標(biāo)信息[p∈RN×3]與其對應(yīng)的特征信息[f∈RN×d](例如:RGB信息或者中間學(xué)習(xí)到的特征)組成,[p]顯式地表示點云的幾何上下文,[f]隱式地表示點云的語義上下文。所以,[p]和[f]可以認為是點云的兩個特征。
然而,坐標(biāo)信息[p]對于語義分析的信息量較少,但其可以加強網(wǎng)絡(luò)模型的幾何感知能力。從這個角度出發(fā),本文的目標(biāo)是充分、合理地利用[p]和[f],以學(xué)習(xí)一個全面的特征圖來進行準(zhǔn)確的語義分割。
由此,本文提出BAM結(jié)構(gòu)如圖2所示。對于每個點[pi],使用[K]近鄰算法獲取它的鄰近點[pij],而鄰近點對應(yīng)的特征信息為[fij]。為了同時獲取點云的局部與全局信息,本文將每個點[pi]與其鄰近點[pij]的相對位置相結(jié)合,公式如下:
[G=pi,pi-pij] (1)
[F=fi,fi-fij] (2)
式中“[ ]”表示拼接張量。
然而,在三維空間上,[G]在高維特征空間的泛化能力會被限制,從而導(dǎo)致不能有效地獲取局部上下文信息。為了解決這個問題,本文利用[G]與[F]的偏移量以增強局部上下文。
首先,本文通過學(xué)習(xí)[F]獲取[G]的偏移量,以增強點云的幾何上下文。具體而言,將MLP應(yīng)用在[F]上,獲取[G]在三維特征空間上的偏移量,公式如下:
[Goff=MLPF+pij] (3)
隨后,本文就能夠得到對于幾何上下文的額外感知力[Goff],并且將其與[G]進行融合:[Gfuse=G,Goff],[Gfuse∈RN×k×3],其中[k]為鄰近點數(shù)。
其次,利用[G]獲取[F]的偏移量,以增強點云的語義上下文,公式如下:
[Foff=MLPG+fij] (4)
將[Foff]與[F]進行融合:[Ffuse=F,F(xiàn)off],[Ffuse∈RN×k×3d]。
最后,使用MLP對[Gfuse]和[Ffuse]進行投影,并將結(jié)果進行融合,獲取已被增強的局部上下文。公式如下:
[Flocal=MLPGfuse,MLPFfuse] (5)
2.3" LVM
對局部點云處理過程中,點云的標(biāo)量坐標(biāo)信息無法準(zhǔn)確描述每個點所處位置,例如([pi]、[pi-pij])。為了增加點云表示的自由度,本文提出LVM,結(jié)構(gòu)如圖3所示。
首先,獲取局部點云的質(zhì)心[pc];然后,利用極坐標(biāo)公式計算出局部內(nèi)每個點[pij]與質(zhì)心[pc]的相對角度([θij],[φij])與距離([disij]),公式如下:
式中[x]、[y]與[z]表示點的歐幾里得坐標(biāo)。
最后,將點間的極坐標(biāo)([θij],[φij])和距離([disij])信息與[Gfuse]進行融合,得到[Gfuse,θij,φij,disij],再由公式(5)進行處理。
2.4" DiRes模塊
受到ResNet[10]啟發(fā),本文在每個Encoder層后添加殘差結(jié)構(gòu),學(xué)習(xí)點云的深層次信息。然而,為了進一步學(xué)習(xí)點云深度信息,提出DiRes模塊,結(jié)構(gòu)如圖4所示。
DiRes模塊處理點云步驟如下。
1) 對每個點使用[K]近鄰算法,獲取局部點云。
2) 使用MLP對局部點云的特征信息進行升維處理,獲取更多的特征信息。
3) 對局部點云特征信息進行聚合,得到全局點云特征信息。
4) 利用MLP學(xué)習(xí)全局點云特征信息,并與輸入數(shù)據(jù)相加。
3" 實" 驗
3.1" 數(shù)據(jù)集與實驗細節(jié)
S3DIS數(shù)據(jù)集(Stanford Large?Scale 3D Indoor Spaces Dataset)是被廣泛應(yīng)用于計算機視覺與深度學(xué)習(xí)研究領(lǐng)域的數(shù)據(jù)資源,專注于室內(nèi)場景的理解與分析。該數(shù)據(jù)集由斯坦福大學(xué)的研究人員構(gòu)建,涵蓋六種不同的室內(nèi)場景(Area1~Area6),包括但不限于辦公室、住宅區(qū)域、商業(yè)區(qū)域等。S3DIS數(shù)據(jù)集全部都為3D點云數(shù)據(jù),并有13個語義分割標(biāo)簽。
本文方法通過PyTorch實現(xiàn)。本文使用初始學(xué)習(xí)率為0.01的AdamW優(yōu)化器訓(xùn)練100輪,并利用余弦退火算法使學(xué)習(xí)率逐漸衰減。測試集為Area5,其余都為訓(xùn)練集。
3.2" 評" 估
表1展示了在S3DIS Area5上進行的語義分割實驗的詳細定量結(jié)果,同時與幾種常見方法進行了比較。本文方法(BiVector)在主要分割指標(biāo)mIoU方面取得了顯著的成果,達到了65.7%,遠高于其他方法。
具體而言,與PointNet、PointNet++、PointWeb、PCT、PointASNL、RandLA?Net等方法相比,本文方法不僅在mIoU上表現(xiàn)出色,同時在平均分類準(zhǔn)確度(mACC)和總體準(zhǔn)確度(OA)方面也取得了最佳水平,分別為72.9%和88.0%。
為了提供更直觀的觀察,還通過圖5展示了可視化結(jié)果。這些定量和可視化結(jié)果共同證明了本文方法在語義分割任務(wù)中的卓越性能和潛在優(yōu)勢。
3.3" 消融實驗
為了探究所提方法的BiVector網(wǎng)絡(luò)參數(shù)對實驗結(jié)果的影響,以及驗證所提模塊的有效性,使用BiVector網(wǎng)絡(luò)在S3DIS Area5上進行消融實驗。
1) stem MLP層
為了評估本文網(wǎng)絡(luò)的stem MLP層輸出通道數(shù)對三維點云語義分割性能的影響,通過調(diào)整stem MLP的輸出通道數(shù),并使用mIoU來量化模型性能,量化結(jié)果如表2所示。
通過對表2中的實驗結(jié)果進行分析可知,隨著stem MLP的輸出通道數(shù)的增加,語義分割性能呈現(xiàn)出一定的提升趨勢。
具體而言,在輸出通道數(shù)為32時,mIoU為65.7%;增加到64時,mIoU略微提升至66.1%;進一步增加輸出通道數(shù)到128時,mIoU增加到66.8%。消融實驗結(jié)果表明,增加stem MLP的輸出通道數(shù)有助于模型更好地學(xué)習(xí)和表示點云數(shù)據(jù)中的語義信息,并且對提升模型分割效果有積極的影響。
2) 近鄰點數(shù)K
為探究近鄰點數(shù)K的數(shù)量對模型語義分割性能的影響,以平均交并比(mIoU)為指標(biāo)評估模型性能,相關(guān)實驗結(jié)果如表3所示。
在本實驗中,隨著近鄰點數(shù)K的增加,mIoU呈現(xiàn)一定的提升趨勢,這表明增加近鄰點數(shù)K有助于模型更好地獲取局部點云的上下文信息。
3) 所提各個模塊
為了驗證所提模塊的有效性,在消融實驗中,使用本文提出的BiVector方法對S3DIS Area5數(shù)據(jù)集進行了多種模塊組合的嘗試,并通過mIoU指標(biāo)評估不同配置的性能。具體而言,本文分別探究了BAM、LVM以及DiRes模塊的獨立和聯(lián)合作用,結(jié)果如表4所示。
本文僅使用BAM,mIoU達到63.2%;引入Residual 模塊(Res)與BAM的組合,mIoU提升至 64.0%,顯示了 Res的積極影響;同時應(yīng)用BAM、LVM和Res,mIoU達到64.5%,進一步驗證了LVM的有效性;在BAM的基礎(chǔ)上添加LVM和DiRes,取得了最佳性能,mIoU達到 65.7%,強有力地證明了這三個模塊的協(xié)同作用。值得注意的是,將Res替換為DiRes進一步突顯了DiRes模塊在性能提升中的關(guān)鍵作用。
4" 結(jié)" 論
當(dāng)前關(guān)于點云局部上下文表示的研究存在較大的不足。本文在這一背景下,提出了一種新的點云語義分割方法。該方法主要由3個關(guān)鍵模塊組成。
1) BAM通過學(xué)習(xí)點云幾何和特征屬性之間的偏移量,有效地增強了每個點的局部上下文信息。
2) LVM引入了向量屬性,提高點云表示的自由度。
3) DiRes模塊采用了擴張殘差塊,進一步提升了網(wǎng)絡(luò)模型的分割性能。
在S3DIS Area5數(shù)據(jù)集上的實驗結(jié)果表明,BiVector方法表現(xiàn)出色,平均交并比(mIoU)、平均分類準(zhǔn)確度(mACC)和總體準(zhǔn)確度(OA)分別達到65.7%、72.9%和88.0%,超越了其他方法。消融實驗結(jié)果驗證了BAM、LVM和DiRes模塊的有效性。
BiVector方法為點云語義分割任務(wù)提供了新的強大解決方案,具有廣泛的應(yīng)用前景。然而,該方法沒有關(guān)注點云全局信息,下一步將加入點云的遠距離信息,以提高感受野范圍。
參考文獻
[1] SU H, MAJI S, KALOGERAKIS E, et al. Multi?view convolutional neural networks for 3D shape recognition [C]// IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 945?953.
[2] FENG Y F, ZHANG Z Z, ZHAO X B, et al. GVCNN: group?view convolutional neural networks for 3D shape recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 264?272.
[3] HAMDI A, GIANCOLA S, GHANEM B. MVTN: multi?view transformation network for 3D shape recognition [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 1?11.
[4] MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real?time object recognition [C]// 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE, 2015: 922?928.
[5] RIEGLER G, ULUSOY A O, GEIGER A. OctNet: learning deep 3D representations at high resolutions [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 6620?6629.
[6] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 652?660.
[7] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA: ACM, 2017: 5105?5114.
[8] YAN X, ZHENG C D, LI Z, et al. PointASNL: robust point clouds processing using nonlocal neural networks with adaptive sampling [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 5589?5598.
[9] HU Q Y, YANG B, XIE L H, et al. RandLA?Net: efficient semantic segmentation of large?scale point clouds [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 11108?11117.
[10] FAN S Q, DONG Q L, ZHU F H, et al. SCF?Net: learning spatial contextual features for large?scale point cloud segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, TN, USA: IEEE, 2021: 14504?14513.
[11] ZHAO H, JIANG L, FU C W, et al. Pointweb: enhancing local neighborhood features for point cloud processing [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 5565?5573.
[12] RAN H X, ZHUO W, LIU J, et al. Learning inner?group relations on point clouds [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 15477?15487.
[13] CHEN C, WANG Y S, CHEN H H, et al. GeoSegNet: point cloud semantic segmentati on via geometric encoder?decoder modeling [J]. The visual computer, 2024, 40: 5107?5121.
[14] WANG L Q, HUANG Y M, HOU Y X, et al. Graph attention convolution for point cloud semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. [S.l.]: Springer, 2019: 10296?10305.
[15] ZHAO H, JIANG L, JIA J, et al. Point transformer [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 16259?16268.
[16] PARK C, JEONG Y, CHO M, et al. Fast point transformer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Montreal, QC, Canada: IEEE, 2022: 16949?16958.
[17] YAN X, GAO J, ZHENG C, et al. 2Dpass: 2D priors assisted semantic segmentation on lidar point clouds [C]// European Conference on Computer Vision. Cham: Springer, 2022: 677?695.
[18] TCHAPMI L, CHOY C, ARMENI I, et al. Segcloud: semantic segmentation of 3D point clouds [C]// 2017 International Conference on 3D Vision (3DV). Qingdao: IEEE, 2017: 537?547.
[19] LIN Z H, HUANG S Y, WANG Y C. Convolution in the cloud: learning deformable kernels in 3D graph convolution networks for point cloud analysis [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 1800?1809.
[20] QIAN G C, LI Y C, PENG H W, et al. PointNeXt: revisiting pointNet++ with improved training and scaling strategies [J]. Advances in neural information processing systems, 2022, 35: 23192?23204.
[21] QUACH M, PANG J, TIAN D, et al. Survey on deep learning?based point cloud compression [J]. Frontiers in signal processing, 2022, 2: 846972.
[22] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770?778.
[23] ZHOU Y, TUZEL O. VoxelNet: end?to?end learning for point cloud based 3d object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 4490?4499.