霍占強(qiáng),王勇杰,雒 芬,喬應(yīng)旭
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作 454000)
隨著三維立體成像技術(shù)的快速發(fā)展及深度傳感器的廣泛應(yīng)用,研究人員能快速且準(zhǔn)確地獲取物體表面的三維坐標(biāo)和深度信息,從而獲取大量的場(chǎng)景點(diǎn)云數(shù)據(jù)。這些數(shù)據(jù)能夠幫助智能機(jī)器對(duì)所處空間位置進(jìn)行準(zhǔn)確的判斷,進(jìn)而理解場(chǎng)景并更好地感知周圍環(huán)境。場(chǎng)景感知有利于智能機(jī)器產(chǎn)生和人類一樣對(duì)周邊環(huán)境的分辨功能,提高機(jī)器的智能水平[1]。由于點(diǎn)云數(shù)據(jù)對(duì)復(fù)雜場(chǎng)景及物體的三維空間結(jié)構(gòu)表達(dá)具有獨(dú)特的優(yōu)勢(shì),加上獲取數(shù)據(jù)的快速性和便捷性,被廣泛應(yīng)用在自動(dòng)駕駛[2]、自動(dòng)室內(nèi)導(dǎo)航[3]、無人機(jī)和空天一體化[1]等領(lǐng)域。
近年來,隨著數(shù)據(jù)量的指數(shù)級(jí)增長和計(jì)算力不斷增強(qiáng),深度學(xué)習(xí)方法得到了飛速發(fā)展和廣泛應(yīng)用,尤其在2D 圖像分類、分割和檢測(cè)領(lǐng)域[4]。在物體識(shí)別、目標(biāo)檢測(cè)等領(lǐng)域上其識(shí)別率和人類相當(dāng)甚至超過人類。針對(duì)三維點(diǎn)云數(shù)據(jù)的無序性、不規(guī)則性、稀疏性等特點(diǎn),ZENG 等[5]提出一種融合2D 和3D 多特征的近鄰傳播聚類集成分割方法,雖然該方法比傳統(tǒng)的點(diǎn)云分割算法能更準(zhǔn)確地劃分點(diǎn)云場(chǎng)景,但傳統(tǒng)手工特征提取無法完全利用三維點(diǎn)云的全部信息,尤其是點(diǎn)云的深度信息,導(dǎo)致點(diǎn)云分割、分類的精度難以提升。越來越多的學(xué)者嘗試將深度學(xué)習(xí)和點(diǎn)云分割相結(jié)合以進(jìn)行特征提取,但傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)只能處理規(guī)則數(shù)據(jù)如圖片、文本、音頻等。若將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到點(diǎn)云數(shù)據(jù),需先將其處理為多視圖或體素化網(wǎng)格形式,然后利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)其進(jìn)行訓(xùn)練。然而這些數(shù)據(jù)形式轉(zhuǎn)換將造成空間特征信息的丟失,導(dǎo)致點(diǎn)云分類精度低和效果差等問題。
本文針對(duì)超點(diǎn)圖網(wǎng)絡(luò)模型無法充分捕獲點(diǎn)云上下文的深層細(xì)粒度局部幾何特征,以及目前主流點(diǎn)云分割方法對(duì)困難樣本分割效果稍差的問題,提出基于超點(diǎn)圖的三維點(diǎn)云分割方法。通過在SPG 網(wǎng)絡(luò)模型中構(gòu)造一種特殊的門控循環(huán)單元(Gated Recurrent Unit,GRU)[6],實(shí)現(xiàn)隱藏層狀態(tài)變量和輸出變量的自歸一化過程。為改善三維場(chǎng)景數(shù)據(jù)集樣本不平衡問題,將焦點(diǎn)損失函數(shù)Focal Loss[7]引入到3D 點(diǎn)云領(lǐng)域,并提高網(wǎng)絡(luò)訓(xùn)練過程中困難樣本的權(quán)重。此外,在斯坦福大規(guī)模室內(nèi)點(diǎn)云數(shù)據(jù)集(Stanford large-scale 3D Indoor Spaces Dataset,S3DIS)[8]上進(jìn)行訓(xùn)練測(cè)試,并與現(xiàn)有方法的常規(guī)指標(biāo)進(jìn)行對(duì)比,以驗(yàn)證本文方法的有效性。
在深度學(xué)習(xí)領(lǐng)域,處理點(diǎn)云分割的主要方法分為基于多視圖的方法、基于體素的方法和基于點(diǎn)云表示的方法。
1)基于多視圖的方法。由于三維點(diǎn)云數(shù)據(jù)的無序性,傳統(tǒng)的卷積網(wǎng)絡(luò)無法直接提取其空間特征。2015 年SU 等[9]受到2D圖像的啟發(fā),提出了二維多視角下的3D 目標(biāo)識(shí)別(MVCNN),該項(xiàng)工作成功將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到點(diǎn)云這類不規(guī)則化的數(shù)據(jù)中。其主要思想是對(duì)3D 目標(biāo)進(jìn)行多方位渲染,得到不同視角下的投影圖,并通過經(jīng)典的VGG(Visual Geometry Group)[10]提取特征,將不同視角的視圖特征融合,得到全局描述符來實(shí)現(xiàn)點(diǎn)云的分類、分割。該方法與傳統(tǒng)手工設(shè)計(jì)特征的方法相比,雖在一定程度上提高了三維模型識(shí)別的準(zhǔn)確率,但采用投影提取多視角下的視圖特征將導(dǎo)致一定程度上的特征冗余和大量關(guān)鍵幾何特征的丟失,從而影響點(diǎn)云分類和分割結(jié)果。針對(duì)該問題,BOULCH 等[11]提出了SnapNet 方法,主要通過二維神經(jīng)網(wǎng)絡(luò)分別對(duì)深度圖和RGB 圖處理以生成三維場(chǎng)景的圖像。雖然該方法改善了分割效果,但是物體邊界的分割精度仍有待提高。由此可見,此類方法在解決點(diǎn)云空間信息丟失問題上仍然面臨著巨大的挑戰(zhàn)。
2)基于體素的方法。體素化處理法是先將點(diǎn)云進(jìn)行體素填充,變?yōu)橐?guī)則的網(wǎng)格結(jié)構(gòu),然后利用三維卷積網(wǎng)絡(luò)進(jìn)行特征提取以實(shí)現(xiàn)點(diǎn)云的語義分割,如:VoxNet[12]、PointGrid[13]等方法?;隗w素的多數(shù)網(wǎng)絡(luò)性能表現(xiàn)優(yōu)于多視圖方法,說明體素能夠有效描述點(diǎn)云數(shù)據(jù)的空間結(jié)構(gòu),同時(shí)具有規(guī)則的數(shù)據(jù)結(jié)構(gòu)擬合標(biāo)準(zhǔn)的卷積操作,上述因素使體素在深度學(xué)習(xí)領(lǐng)域得到一定范圍的應(yīng)用。但體素化操作使內(nèi)存消耗嚴(yán)重,而且該類方法目前對(duì)體素化導(dǎo)致的量化偽影仍無具體改進(jìn)措施,導(dǎo)致提取高分辨率特征存在一定的困難。KLOKOV 等[14]提出空間劃分方法以解決模型捕獲低分辨率特征精度不高的問題,但該方法缺乏提取點(diǎn)云局部特征的能力。由上可知,體素化雖然能夠規(guī)范三維點(diǎn)云,并適用于3D 卷積操作,但是體素化將不可避免地導(dǎo)致空間信息的離散化,且在實(shí)際操作過程中選擇合適的體素網(wǎng)格半徑具有一定難度。
3)基于點(diǎn)云表示的方法。該方法是目前研究點(diǎn)云的主流方法,已廣泛應(yīng)用于計(jì)算機(jī)圖形學(xué)、機(jī)器視覺領(lǐng)域和工業(yè)技術(shù)中[15]。例如在自動(dòng)駕駛技術(shù)中,點(diǎn)云場(chǎng)景分割算法可通過對(duì)車輛、道路、紅綠燈和行人的分割幫助自動(dòng)駕駛系統(tǒng)判斷道路情況;在醫(yī)學(xué)自動(dòng)診斷技術(shù)中,點(diǎn)云分割算法可以輔助醫(yī)生提取和分析醫(yī)學(xué)影像中人工難以獲取的信息,從而更加精準(zhǔn)的找到病灶關(guān)鍵[16];在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)技術(shù)中,點(diǎn)云場(chǎng)景分割算法可以通過分割場(chǎng)景中的前景和背景幫助虛擬和增強(qiáng)多種現(xiàn)實(shí)效果[17],以達(dá)到身臨其境的效果。QI 等[18]提出一種PointNet 網(wǎng)絡(luò)模型,該模型可直接作用于原始點(diǎn)云數(shù)據(jù),而不需要將點(diǎn)云轉(zhuǎn)化為其他數(shù)據(jù)形式,從而最大程度保留了點(diǎn)云的空間信息。該模型通過多層感知器(Multi-Layer Perception,MLP)提取點(diǎn)云的特征信息,并使用對(duì)稱池函數(shù)提取全局特征解決點(diǎn)云輸入的無序性問題。但該模型僅關(guān)注單個(gè)獨(dú)立點(diǎn)的特征,沒有考慮局部鄰域信息的重要性。針對(duì)這些問題,QI 等[19]在PointNet 模型的基礎(chǔ)上引入分層神經(jīng)網(wǎng)絡(luò),提出一種新的網(wǎng)絡(luò)模型PointNet++,該模型可以提取不同尺度下的局部特征,提升了分類分割性能,但該模型在提取點(diǎn)云上下文局部幾何特征上效果不佳。為了更好地獲取不規(guī)則的點(diǎn)云數(shù)據(jù)幾何結(jié)構(gòu)信息,LOIC 等[20]利用最小割理論,將大規(guī)模輸入點(diǎn)云進(jìn)行幾何同構(gòu)分割,利用有向圖建模構(gòu)建超點(diǎn)圖(Super Point Graph,SPG)[21],較好地改善了場(chǎng)景分割問題。
為更有效地挖掘點(diǎn)云上下文的空間特征,本文以超點(diǎn)圖為基礎(chǔ),構(gòu)建深度超點(diǎn)圖網(wǎng)絡(luò)模型以進(jìn)行點(diǎn)云語義分割。超點(diǎn)分割類似于二維圖像領(lǐng)域的超像素分割,兩者都屬于過度分割(Over Segmentation)[22]。過度分割能夠更好地感知樣本相似顏色、空間和紋理分布等信息,從而更有利于網(wǎng)絡(luò)模型確定分割的邊界。
本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,把輸入的大規(guī)模點(diǎn)云記作X,X中的每一個(gè)樣本是區(qū)域中的一個(gè)室內(nèi)場(chǎng) 景,記為Xi,X={X1,X2,…,Xi|Xi∈Rd,i∈n},d代 表超點(diǎn)網(wǎng)絡(luò)的輸入維度。首先,對(duì)室內(nèi)場(chǎng)景進(jìn)行幾何同質(zhì)分割,所獲得的每一個(gè)獨(dú)立塊即為超點(diǎn)。本文超點(diǎn)網(wǎng)絡(luò)模型的輸入維度為s×np×dp,s代表點(diǎn)云室內(nèi)數(shù)據(jù)集中每個(gè)室內(nèi)空間被分割的超點(diǎn)個(gè)數(shù),np代表每個(gè)超點(diǎn)包含的三維點(diǎn)個(gè)數(shù),dp代表每個(gè)采樣點(diǎn)的原始特征維度。其次,為了更高效地提取超點(diǎn)的特征,選取PointNet 模型做為前期點(diǎn)云特征提取器,因?yàn)镻ointNet 模型對(duì)局部點(diǎn)云有著很高的魯棒性和效率。點(diǎn)云經(jīng)過只帶有單個(gè)STN(Spatial Transform Network)的簡(jiǎn)化版PointNet 模型[15]作用后,生成32 維的嵌入張量,其中STN 的作用是實(shí)現(xiàn)輸入點(diǎn)云的旋轉(zhuǎn)不變性。原始三維點(diǎn)經(jīng)過PointNet 模型中多層MLP 和最大池化的作用后,使每個(gè)點(diǎn)的原始特征能夠映射到高維特征空間。在網(wǎng)絡(luò)結(jié)構(gòu)圖中,MLP括號(hào)中數(shù)字代表每層結(jié)構(gòu)的寬度,每層結(jié)構(gòu)均應(yīng)用了Batch Normalization。最后,為了能有效地捕獲場(chǎng)景中點(diǎn)云塊之間的上下文關(guān)系,將生成的高維特征嵌入到循環(huán)神經(jīng)單元(Recurrent Neural Network,RNN)[23]中,并與邊條件卷積(Edge-Conditioned Convolution,ECC)[24]作用后,得到一組13 維特征向量(13 代表場(chǎng)景中待分割目標(biāo)的種類)。本文受自歸一化神經(jīng)網(wǎng)絡(luò)(Self-Normalizing Neural Network,SNN)啟發(fā),構(gòu)造了一種特殊的RNN 神經(jīng)單元,即自歸一化門控循環(huán)單元(Self-Normalizing Gated Recurrent Unit,SN-GRU),相對(duì)于原始SPG 網(wǎng)絡(luò)結(jié)構(gòu)中的GRU 神經(jīng)單元,該單元可以進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型對(duì)高級(jí)幾何特征的捕獲能力,從而實(shí)現(xiàn)點(diǎn)云的場(chǎng)景分割。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure
本文基于超點(diǎn)圖網(wǎng)絡(luò)提出新型網(wǎng)絡(luò)模型,超點(diǎn)的構(gòu)造由法國國家地理研究所計(jì)算機(jī)系的LANDRIEU等[17]提出,利用最小割理論[17]進(jìn)行幾何劃分,實(shí)現(xiàn)對(duì)單個(gè)目標(biāo)物體的同質(zhì)劃分,最小割理論如式(1)所示:
其中:G 為np個(gè)三維點(diǎn)組成的超點(diǎn);E表示邊組成的集合;fi表示第i個(gè)三維點(diǎn)局部鄰域D 形狀;gi表示待求的解,相同的g值可視為一個(gè)超點(diǎn);μ表示正則化強(qiáng)度,用來區(qū)分分區(qū)的粗糙度;wi,j表示三維點(diǎn)i、j之間的邊權(quán)重;[·]表示艾佛森括號(hào)。該理論可根據(jù)顏色、空間幾何等點(diǎn)云特征將點(diǎn)云組成的單個(gè)物體分為幾個(gè)有意義的塊,也就是同質(zhì)分割塊,構(gòu)成超點(diǎn)。恒定連通分量S={S1,S2,…,Sk}構(gòu)成超點(diǎn)的集合即為式(1)的解。這些超點(diǎn)S除了具有原始三維空間特征和顏色特征外,還具有線性度Lλ、平面度Pλ和散射度Sλ這3 種幾何特征,它們分別由式(2)~式(4)確定:
其中:λ1、λ2、λ3均表示點(diǎn)云塊協(xié)方差矩陣的特征值,這些幾何特征[25]可以表現(xiàn)點(diǎn)云塊的分布模式。
為更好地改進(jìn)網(wǎng)絡(luò)模型的上下文分割效果,增強(qiáng)網(wǎng)絡(luò)模型中超點(diǎn)對(duì)周邊鄰域的感知能力,受SNN 中縮放指數(shù)型線性單元(Scaled Exponential Linear Unit,SELU)[26]能使神經(jīng)單元具備自歸一化屬性特點(diǎn)的啟發(fā),構(gòu)造了一種特殊的RNN 神經(jīng)單元,即SN-GRU。該單元以傳統(tǒng)門控循環(huán)單元(Gated Recurrent Unit,GRU)[19]為基礎(chǔ),結(jié)合SELU 線性單元而構(gòu)造。這使得SN-GRU即繼承了傳統(tǒng)GRU 防止梯度彌散的屬性,又能使神經(jīng)單元具有自歸一化的特點(diǎn)。該特性能使網(wǎng)絡(luò)在整個(gè)訓(xùn)練過程表現(xiàn)得更加魯棒,從而有助于充分挖掘深層次的空間信息表征。SELU 單元主要使用函數(shù)y映射前后2 層神經(jīng)網(wǎng)絡(luò)的均值和方差以達(dá)到歸一化的效果:SELU 單元如式(5)所示:
其中:參數(shù)α,β可根據(jù)Banach 不動(dòng)點(diǎn)定理(fixed-point theorem)和中央極限定理(central limit theorem)證得[26],α=1.673 263 242 354 377,β=1.050 700 987 355 480。
SN-GRU 能通過對(duì)同質(zhì)點(diǎn)云塊之間的遠(yuǎn)程語義依賴性建模,從而可以更加有效地捕獲點(diǎn)云間的上下文信息。該神經(jīng)單元網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,由3 個(gè)門組成:重置門(Reset Gate),更新門(Update Gate)和歸一門(Normalize Gate)。
圖2 SN-GRU 單元結(jié)構(gòu)Fig.2 SN-GRU unit structure
重置和更新門控向量能夠保存點(diǎn)云序列中空間信息,不會(huì)因?yàn)轭A(yù)測(cè)的弱相關(guān)性而被移除,可通過控制2 個(gè)門控向量的開啟和關(guān)閉,保存和更新有用的語義信息。歸一門控向量能使神經(jīng)元激勵(lì)進(jìn)行自動(dòng)地轉(zhuǎn)移(shift)和重縮放(rescale),在沒有明確的歸一化情況下實(shí)現(xiàn)零均值和單位方差。SN-GRU 神經(jīng)單元內(nèi)部的計(jì)算流程如式(6)~式(11)所示:
其中:xt表示輸入單元;yt表示輸出單元;ht-1表示上個(gè)時(shí)刻的隱藏門;ht表示此時(shí)刻的隱藏門表示隱藏候選態(tài);nt、rt、zt分別表示門控單元的歸一門、重置門和更新門;Wr、Wz、W表示權(quán)重矩陣;σ、tanh 分別表示sigmoid函數(shù)激活和雙曲正切函數(shù)激活;SELU 表示隱藏門的激活函數(shù);·表示矩陣內(nèi)積;⊙表示哈達(dá)瑪積。SN-GRU 主要通過門控實(shí)時(shí)調(diào)整激活函數(shù)的輸入、輸出,來捕獲點(diǎn)云空間信息的中長期依賴關(guān)系,從而有效地實(shí)現(xiàn)場(chǎng)景分割。
在網(wǎng)絡(luò)模型中,損失函數(shù)是度量預(yù)測(cè)值與真實(shí)值之間差異的指標(biāo)。在某些深度學(xué)習(xí)任務(wù)數(shù)據(jù)集中,往往會(huì)出現(xiàn)某些類別樣本遠(yuǎn)大于其他類別樣本的情況,所造成的樣本不平衡性將影響模型學(xué)習(xí)的效果。在點(diǎn)云數(shù)據(jù)中,由于深度傳感器和實(shí)際場(chǎng)景的影響,也會(huì)造成不同程度的樣本不平衡。如本文數(shù)據(jù)集場(chǎng)景中地板和墻的數(shù)據(jù)量遠(yuǎn)多于書架和沙發(fā)的數(shù)據(jù)量。針對(duì)該問題,本文將在二維圖像領(lǐng)域中針對(duì)數(shù)據(jù)樣本不平衡的焦點(diǎn)損失函數(shù)Focal Loss[20]引入3D 點(diǎn)云領(lǐng)域,以替代常規(guī)的交叉熵?fù)p失函數(shù)(Cross Entropy Loss),從而減少樣本不平衡的影響。Focal Loss 定義公式如式(12)和式(13)所示:
其中:ptarget表示網(wǎng)絡(luò)輸入在經(jīng)過softmax 計(jì)算處理后得到的預(yù)測(cè)概率;qtarget表示樣本真實(shí)類別標(biāo)簽的分布;N代表網(wǎng)絡(luò)訓(xùn)練批次的大?。籆代表點(diǎn)云數(shù)據(jù)集中分割的類別數(shù);(1-ptarget)γ表示調(diào)制系數(shù);γ 表示調(diào)制系數(shù)中的超參數(shù),γ≥0。
在網(wǎng)絡(luò)訓(xùn)練過程中,普通交叉熵?fù)p失的正樣本預(yù)測(cè)概率越大,損失越小,負(fù)樣本則反之,這會(huì)使損失函數(shù)在大量簡(jiǎn)單樣本的迭代中無法優(yōu)化到最優(yōu)。焦點(diǎn)損失函數(shù)在其基礎(chǔ)上增加了一個(gè)調(diào)制因子(1-ptarget)γ,能夠使網(wǎng)絡(luò)模型關(guān)注容易錯(cuò)分割的困難樣本,減少易分割樣本的損失。如待分割的目標(biāo)預(yù)測(cè)概率為0.90時(shí),則(1-ptarget)γ的值將很小,而目標(biāo)預(yù)測(cè)概率為0.21 時(shí),(1-ptarget)γ將很大,其損失也會(huì)相對(duì)較大。相對(duì)標(biāo)準(zhǔn)交叉熵,預(yù)測(cè)概率為0.5 的目標(biāo),其損失的減少對(duì)于預(yù)測(cè)概率為0.90 的目標(biāo)將小很多倍。這可以增大困難樣本如S3DIS 數(shù)據(jù)集中的書架等在損失函數(shù)的貢獻(xiàn)度,降低簡(jiǎn)單樣本的影響力。模型也會(huì)將計(jì)算力更多集中在困難樣本中,提高模型的分割能力。
為驗(yàn)證所提模型的有效性,本文在被廣泛使用的S3DIS 數(shù)據(jù)集上進(jìn)行了測(cè)試。實(shí)驗(yàn)環(huán)境為2 塊RTX 2080Ti GPU 顯卡,每塊顯卡有11 GB 顯存,CPU 為Intel Core i9-9900K,服務(wù)器系統(tǒng)為Ubuntu16.04,語言為python 3.7 版本,pytorch1.2 版本。CUDA 為10.0,Boost版本至少高于1.63.0。
為測(cè)試本文網(wǎng)絡(luò)模型的泛化能力,本文采用斯坦福大學(xué)大規(guī)模3D 室內(nèi)場(chǎng)景數(shù)據(jù)集(S3DIS)[21]。該數(shù)據(jù)集是目前最大的室內(nèi)點(diǎn)云數(shù)據(jù)集,場(chǎng)景相對(duì)比較復(fù)雜,主要由6 個(gè)大型室內(nèi)區(qū)域組成,每個(gè)區(qū)域分別覆蓋約為965 m2、1 100 m2、450 m2、1 700 m2、870 m2和935 m2,總共6 020 m2。這些區(qū)域在建筑風(fēng)格和外觀上屬性不同,主要包括辦公室、會(huì)議室、大堂、衛(wèi)生間、教室、樓梯和走廊等建筑,共包含272 個(gè)房間的3D 掃描數(shù)據(jù),共計(jì)超過2.15億個(gè)點(diǎn)。掃描中的每個(gè)點(diǎn)都對(duì)應(yīng)椅子(chair)、桌子(table)、地板(floor)、墻壁(wall)、天花板(ceiling)、柱 子(column)、窗 戶(window)、門(door)、書 架(bookcase)、沙發(fā)(sofa)、板(board)等13 個(gè)類別語義標(biāo)簽。
在同構(gòu)分割之前,為提高分割效率,本文采用體素網(wǎng)格進(jìn)行點(diǎn)云下采樣,網(wǎng)格(bin)為3 cm。超點(diǎn)包含的三維點(diǎn)數(shù)量np設(shè)為128。網(wǎng)絡(luò)訓(xùn)練中優(yōu)化器采用ADAM,初始學(xué)習(xí)率為0.01,樣本批處理大小(batchsize)為8,共訓(xùn)練250 個(gè)周期(epoch),在周期為150 和200 時(shí),學(xué)習(xí)率衰減指數(shù)為0.7,動(dòng)量(momentum)為0.9。
與點(diǎn)云分類和識(shí)別相比,三維點(diǎn)云語義分割需要精細(xì)地識(shí)別每個(gè)點(diǎn)的語義類別,具備一定挑戰(zhàn)性。為進(jìn)一步評(píng)估本文網(wǎng)絡(luò)模型處理三維點(diǎn)云細(xì)粒度任務(wù)的能力,在三維點(diǎn)云領(lǐng)域最常用的主流數(shù)據(jù)集S3DIS 上進(jìn)行了語義分割實(shí)驗(yàn),并與其他主流算法進(jìn)行了指標(biāo)對(duì)比。本文采用常用的語義分割評(píng)價(jià)指標(biāo),包括平均交并比MIOU、總體精度(Overall Accuracy,OA)和平均精度(mean Accuracy,mAcc)來衡量分割結(jié)果,分別由式(14)~式(16)定義:
其中:k代表分割的類別數(shù);TP代表分類正確的正樣本數(shù)量;FP代表分類錯(cuò)誤的正樣本數(shù)量;FN代表分類錯(cuò)誤的負(fù)樣本數(shù)量表示第i類分割的正確的個(gè)數(shù);NP表示總的點(diǎn)云的點(diǎn)數(shù)表示第i類點(diǎn)云的總點(diǎn)數(shù)。
為驗(yàn)證SN-GRU 神經(jīng)單元對(duì)點(diǎn)云空間上下文分割的有效性,本文分別采用3 種不同的RNN 進(jìn)行了對(duì)比實(shí)驗(yàn),它們分別是長短期記憶模型(Long Short-Term Memory,LSTM)[27]、GRU 和SN-GRU。表1 所示為在S3DIS 數(shù)據(jù)集上進(jìn)行6 折交叉驗(yàn)證之后的實(shí)驗(yàn)結(jié)果,表中黑色粗體表示實(shí)驗(yàn)過程中最優(yōu)結(jié)果。從表1 中可以看出,本文所提方法取得了63.7%的MIOU 和85.7%的OA 準(zhǔn)確率,優(yōu)于其他2 種RNN 神經(jīng)單元的結(jié)果。本文所提方法的準(zhǔn)確率為73.8%,僅次于LSTM 神經(jīng)單元74.2%的準(zhǔn)確率,原因可能是LSTM 神經(jīng)單元在提取較大面積的點(diǎn)云塊特征如天花板、地板等的性能略優(yōu)于本文的算法。
表1 不同循環(huán)網(wǎng)絡(luò)神經(jīng)單元分割精度對(duì)比Table 1 Comparison of segmentation accuracy with different recurrent neural unit %
為選取和驗(yàn)證Focal Loss 損失函數(shù)中的超級(jí)參數(shù),本文對(duì)調(diào)制系數(shù)(1-ptarget)γ中的γ取值進(jìn)行了對(duì)比實(shí)驗(yàn)。表2 中給出了網(wǎng)絡(luò)模型在不同γ值下的MIOU、OA 和mAcc 的值,表中黑色粗體表示實(shí)驗(yàn)過程中最優(yōu)結(jié)果。本文選取的γ值范圍為0~4,從式(12)可以看出,當(dāng)γ=0 時(shí),F(xiàn)ocal Loss 損失函數(shù)相當(dāng)于交叉熵?fù)p失函數(shù),即本文所采用的baseline。從表2 可以看出,當(dāng)γ=1.5 時(shí),場(chǎng)景語義分割達(dá)到了最優(yōu)效果,MIOU,OA 和mAcc 在基準(zhǔn)的水平上分別提高了1.4、0.3、1.1 個(gè)百分點(diǎn)。當(dāng)γ>1.5 時(shí),場(chǎng)景語義評(píng)價(jià)指標(biāo)的準(zhǔn)確率開始下降并趨于穩(wěn)定,說明當(dāng)γ=1.5時(shí),已經(jīng)能夠有效提高較難分割樣本如椅子、書架等的權(quán)重,降低了容易分割樣本如墻面、地板等的權(quán)重,從而更有效地實(shí)現(xiàn)了語義分割。
表2 不同調(diào)制因子γ 下網(wǎng)絡(luò)模型分割精度對(duì)比Table 2 Comparison of segmentation accuracy under different values of modulation γ %
為從整體上驗(yàn)證本文網(wǎng)絡(luò)模型在場(chǎng)景語義分割上的有效性,本文與目前主流網(wǎng)絡(luò)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3 所示,表中“—”表示原文獻(xiàn)中沒有該項(xiàng)實(shí)驗(yàn)結(jié)果,黑色粗體表示實(shí)驗(yàn)過程中最優(yōu)結(jié)果。從表中可以看出,本文網(wǎng)絡(luò)模型的MIOU,OA 和mAcc 均達(dá)到最優(yōu)值。與基干網(wǎng)絡(luò)SPGragh 相比,本文模型的MIOU、OA 和mAcc 分別提高1.7、0.9、1.3 個(gè)百分點(diǎn),與經(jīng)典網(wǎng)絡(luò)模型PointNet相比也分別提高了16.2、7.9、8.1個(gè)百分點(diǎn),分割效果有了明顯的提升。從表3 中還可以看到本文網(wǎng)絡(luò)模型在相對(duì)不易分割的目標(biāo)上,MIOU有了較高的提升,如椅子的MIOU 與基干網(wǎng)絡(luò)相比提高了7.1 個(gè)百分點(diǎn),由此可見,本文網(wǎng)絡(luò)模型在細(xì)粒度細(xì)節(jié)處的分割能力也有了較明顯提升,從而驗(yàn)證了本文網(wǎng)絡(luò)模型具有能夠捕獲點(diǎn)云深層細(xì)粒度幾何特征的能力。
表3 S3DIS 數(shù)據(jù)集上與現(xiàn)有主流方法的性能比較Table 3 Performance comparison with the existing methods on S3DIS dataset %
為更直觀地展示本文網(wǎng)絡(luò)模型場(chǎng)景語義分割的過程,本文將網(wǎng)絡(luò)的輸入、中間的同質(zhì)點(diǎn)云塊分割、標(biāo)準(zhǔn)分割結(jié)果(Ground Truth)和模型預(yù)測(cè)結(jié)果分別進(jìn)行了可視化處理。如圖3 所示,在第1 組辦公室場(chǎng)景中,本文網(wǎng)絡(luò)模型對(duì)墻、書架、門等簡(jiǎn)單幾何物體邊緣的分割效果良好。在第3 組的會(huì)議室場(chǎng)景中,由于白板(board)嵌在白色墻體(wall)內(nèi)(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版本),故在同質(zhì)分割過程中將部分墻體和板面劃分到一起,導(dǎo)致分割效果不理想。因此,如何提高相似顏色的同質(zhì)劃分為今后繼續(xù)深入研究的方向。
圖3 S3DIS 數(shù)據(jù)集上的部分結(jié)果可視化Fig.3 Visualization of some results on S3DIS dataset
本文使用的Focal Loss 損失函數(shù)能夠提高困難樣本的關(guān)注程度,與基干網(wǎng)絡(luò)相比(如表3 結(jié)果所示),其分割結(jié)果有了明顯改善。在其他場(chǎng)景中,如第2 組中的休息室場(chǎng)景,可以看到本文網(wǎng)絡(luò)模型在桌子、椅子等相對(duì)獨(dú)立的目標(biāo)中獲得了準(zhǔn)確的分割結(jié)果,進(jìn)一步證明本文的網(wǎng)絡(luò)模型在物體細(xì)粒度分割上有明顯的提升??傮w來看,本文模型在對(duì)天花板,墻體和地板等面積相對(duì)大的物體,分割效果更好,尤其在其分割邊界上的效果提高顯著,這反映了本文提出的SN-GRU 在上下文語義分割上有更加出色的表現(xiàn),可以更有效地捕獲點(diǎn)云塊之間的聯(lián)系,從而能準(zhǔn)確地分割邊緣。由于本文所采用的數(shù)據(jù)集(S3DIS)中大部分室內(nèi)場(chǎng)景均為復(fù)雜場(chǎng)景,使本文的網(wǎng)絡(luò)模型具有較高的泛化能力,在相對(duì)簡(jiǎn)單的場(chǎng)景中能夠取得和標(biāo)準(zhǔn)分割高度一致的結(jié)果,如第4 組的走廊場(chǎng)景所示。
為提高場(chǎng)景分割算法對(duì)點(diǎn)云塊上下文信息的提取能力并有效利用點(diǎn)云數(shù)據(jù)集的樣本均衡性,本文提出一種整合上下文空間幾何特征且可調(diào)節(jié)難易樣本權(quán)重的場(chǎng)景分割網(wǎng)絡(luò)模型。通過融合多層感知機(jī)和循環(huán)神經(jīng)單元提取場(chǎng)景中的局部特征和全局特征,實(shí)現(xiàn)較好的語義分割效果。同時(shí)通過采用大規(guī)模場(chǎng)景數(shù)據(jù)集和焦點(diǎn)損失函數(shù)的方法提高模型的泛化能力,實(shí)現(xiàn)復(fù)雜空間特征的提取。實(shí)驗(yàn)結(jié)果表明,與PointNet 和G+RCU 等傳統(tǒng)模型相比,本文模型在大型室內(nèi)場(chǎng)景數(shù)據(jù)集S3DIS 上獲得了較高的分割準(zhǔn)確率。下一步將采用球形卷積核與八叉樹空間劃分相結(jié)合的方法,改善模型針對(duì)空間幾何特征相似物體的分割效果。